Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует вероятностное тематическое моделирование для ранжирования видео и медиаконтента

    SEARCH QUERY RESULTS BASED UPON TOPIC (Результаты поиска на основе тематики)
    • US9053156B1
    • Google LLC
    • 2015-06-09
    • 2012-06-01
    2012 Мультимедиа Патенты Google Поведенческие сигналы Семантика и интент

    Google использует систему для преодоления ограничений поиска по ключевым словам, особенно для видео, где мало текста. Система определяет вероятность принадлежности запроса к определенной теме (P(T|Q)), а затем находит релевантные результаты для этой темы (P(R|T)). Ранжирование основано на комбинации этих вероятностей, что позволяет находить контент, даже если он не содержит точных ключевых слов из запроса.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограничений традиционного поиска по ключевым словам. Стандартные поисковые системы требуют, чтобы пользователь знал точные ключевые слова, и чтобы эти слова присутствовали в результатах. Это приводит к исключению релевантного контента, который не содержит точного совпадения ключевых слов. Проблема особенно остра в доменах с медиаконтентом (например, видео), где связанная текстовая информация часто бывает скудной по сравнению с веб-страницами.

    Что запатентовано

    Запатентована система для предоставления результатов поиска на основе тематики (Domain Topics), а не только ключевых слов. Изобретение разделяет процесс поиска на две задачи: (1) идентификация тем на основе запроса и (2) поиск репрезентативных результатов для этих тем. Для этого используются условные вероятности, рассчитываемые на основе анализа статистики прошлых запросов и данных о кликах.

    Как это работает

    Система использует вероятностную модель для связывания запросов с результатами через промежуточный слой тем (Domain Topics).

    • Определение темы запроса: Система вычисляет P(T|Q) — вероятность темы (T) при условии данного запроса (Q). Это позволяет понять, какие темы связаны с запросом.
    • Определение результатов для темы: Система вычисляет P(R|T) — вероятность результата (R) при условии данной темы (T). Это определяет, какой контент лучше всего представляет тему.
    • Ранжирование: Релевантность результата запросу рассчитывается путем комбинирования этих двух вероятностей, часто как их произведение (P(R|T) * P(T|Q)). Это позволяет ранжировать результаты, которые тематически связаны с запросом, даже если они не содержат ключевых слов из него.

    Актуальность для SEO

    Высокая. Переход от ключевых слов к темам и сущностям (entities) является фундаментальным направлением развития поиска Google. Этот патент описывает конкретную реализацию тематического моделирования, которая критически важна для понимания ранжирования в YouTube и других медиа-вертикалях. Использование данных о кликах (Search Click Data) для установления связей между запросами, темами и результатами остается актуальным подходом.

    Важность для SEO

    Патент имеет высокое значение (8/10), особенно для Video SEO и оптимизации контента с ограниченным количеством текста. Он показывает, что для ранжирования медиаконтента Google полагается не столько на совпадение ключевых слов, сколько на тематические ассоциации и поведенческие данные. Это подчеркивает важность оптимизации метаданных для четкой ассоциации контента с конкретными темами (Domain Topics) и стимулирования вовлеченности пользователей (кликов) для укрепления связи между запросами и контентом.

    Детальный разбор

    Термины и определения

    Domain Topic (T) (Тема домена)
    Тематическая категория или концепция, к которой может быть отнесен запрос или результат поиска. Примеры, приведенные в патенте: «Born This Way» (альбом), «Lady Gaga» (исполнитель).
    P(T|Q) (Probability of Topic given Query)
    Условная вероятность того, что запрос (Q) относится к теме (T). Используется для маппинга (связывания) запроса с темами.
    P(R|T) (Probability of Result given Topic)
    Условная вероятность того, что результат (R) релевантен теме (T). Используется для идентификации контента, представляющего тему.
    P(R|Q) (Probability of Result given Query)
    Условная вероятность того, что результат (R) релевантен запросу (Q). В патенте предлагается оценивать эту вероятность на основе Search Click Data.
    P(T|R) (Probability of Topic given Result)
    Условная вероятность того, что результат (R) относится к теме (T). Может быть получена из Topicality Score или путем анализа контента с использованием Knowledge Base.
    Search Click Data (Данные о кликах в поиске)
    Данные о том, на какие результаты пользователи нажимали после ввода определенных запросов. Критически важный источник данных для оценки P(R|Q).
    Topicality Score (Оценка тематичности)
    Метрика, предоставляемая хостингом контента (например, видеохостингом), которая отражает релевантность контента определенным темам или сущностям. Используется как оценка для P(T|R).
    Knowledge Base (База знаний)
    Семантические базы данных (например, Wikipedia, Freebase, упомянутые в патенте), используемые для идентификации сущностей и тем в контенте.
    Stemming Component (Компонент стемминга)
    Компонент, который идентифицирует корневое слово (root word) для слов в запросе и заменяет их для нормализации запроса перед обработкой.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс предоставления результатов поиска на основе тем.

    1. Система получает запрос (Q).
    2. Запрос сопоставляется (mapping) с темой домена (T). Это сопоставление основано на первой условной вероятности P(T|Q) (вероятность темы при условии запроса).
    3. Идентифицируется результат (R) для запроса. Идентификация основана на второй условной вероятности P(R|T) (вероятность результата при условии темы).

    Claim 4 и 5 (Зависимые): Детализируют процесс ранжирования.

    1. Результат ранжируется среди набора результатов на основе релевантности запросу (Claim 4).
    2. Релевантность запросу определяется как произведение P(R|T) и P(T|Q) (Claim 5).

    Система использует тематический слой как посредника между запросом и результатом. Итоговая оценка релевантности — это произведение вероятности того, что запрос относится к теме, и вероятности того, что результат относится к этой теме.

    Claim 6 (Зависимый от 5): Описывает один из методов определения P(T|Q).

    P(T|Q) определяется на основе P(R|Q) (вероятность результата при условии запроса), которая, в свою очередь, выводится из анализа данных о кликах в поиске (Search Click Data).

    Это указывает на то, что пользовательское поведение (клики) напрямую используется для понимания того, какие темы связаны с запросом.

    Claim 9 (Зависимый от 5): Вводит использование P(T|R) для расчета P(T|Q).

    Система определяет P(T|R) (вероятность темы при условии результата) и использует ее для определения P(T|Q).

    Claim 11 и 12 (Зависимые от 9): Описывают методы определения P(T|R).

    • P(T|R) может определяться на основе Topicality Score для темы (Claim 11).
    • P(T|R) может определяться путем сравнения текста, связанного с результатом, с базой знаний (Knowledge Database) (Claim 12).

    Система может использовать внешние оценки тематичности контента или самостоятельно анализировать контент с помощью баз знаний для понимания его тематики.

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поиска, интегрируя тематический анализ в понимание запросов и ранжирование.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система анализирует контент (например, видео) для определения его тематики. Это может включать:

    • Получение Topicality Score от хостинга контента.
    • Сравнение текстовой информации контента (метаданных) с Knowledge Base для извлечения сущностей и тем.
    • Расчет и сохранение P(T|R) для контента.

    QUNDERSTANDING – Понимание Запросов
    Основное применение патента. Система интерпретирует запрос не только как набор ключевых слов, но и как набор вероятных тем.

    • Нормализация запроса (например, с помощью Stemming Component).
    • Вычисление P(T|Q). Это может происходить офлайн (анализ логов и кликов) или в реальном времени. Система определяет, какие Domain Topics связаны с запросом.

    RANKING – Ранжирование
    На этапе ранжирования система использует тематические вероятности для расчета итоговой оценки релевантности.

    • Идентификация кандидатов (результатов R) на основе P(R|T).
    • Расчет итоговой релевантности для каждого результата путем комбинирования P(R|T) и P(T|Q) (например, их произведение).

    Входные данные:

    • Запрос (Q).
    • Search Click Data (для расчета P(R|Q)).
    • Topicality Scores или доступ к Knowledge Base (для расчета P(T|R)).
    • История запросов (Query History) и распределение интереса к темам (Topic Interest Distribution).

    Выходные данные:

    • Набор результатов (R), отсортированных по тематической релевантности запросу.

    На что влияет

    • Конкретные типы контента: Патент явно указывает, что система особенно полезна при поиске видео или другого медиаконтента, для которого связанная текстовая информация является относительно скудной.
    • Специфические запросы: Влияет на запросы, где намерение пользователя лучше описывается темой, чем конкретными ключевыми словами, или когда пользователь ищет контент без четкого представления о том, что хочет найти (discovery/browsing).

    Когда применяется

    Алгоритм применяется в процессе обработки поискового запроса, направленного на поиск медиаконтента (например, на видеохостинге). Условия активации или пороговые значения в патенте не указаны; описанный механизм представляет собой общую модель ранжирования, основанную на вероятностях.

    Пошаговый алгоритм

    Алгоритм включает как офлайн-процессы для расчета вероятностей, так и онлайн-процесс обработки запроса.

    Офлайн-процессы (Подготовка данных):

    1. Расчет P(T|R) (Topicality Score): Для каждого результата (R) определяется его принадлежность к темам (T). Это делается путем анализа текста результата и сравнения его с базами знаний или с использованием аннотаций от хостинга.
    2. Расчет P(R|Q): Анализируются логи Search Click Data. Определяется, какие результаты (R) получают клики по определенным запросам (Q).
    3. Расчет P(Q) и P(T): Анализируется история запросов и распределение интереса к темам (Topic Interest Distribution) для определения базовых вероятностей запросов и тем.

    Онлайн-процесс (Обработка запроса):

    1. Получение запроса: Система получает запрос (Q).
    2. Нормализация (Опционально): Применяется стемминг для приведения слов запроса к корневым формам.
    3. Расчет P(T|Q) (Маппинг запроса на темы): Для набора тем домена вычисляется вероятность темы при условии запроса. Это может быть сделано одним из двух способов:
      • Через данные: P(T|Q) = Sum_R [P(T|R) * P(R|Q)] (используя офлайн-данные).
      • Через сходство: На основе строкового сходства между Q и названием T.
    4. Расчет P(R|T) (Идентификация результатов): Для набора результатов идентифицируется их релевантность темам. (В патенте отмечается, что P(R|T) также может быть вычислена через офлайн-данные: P(R|T) = Sum_Q [P(R|Q) * P(T|Q) * P(Q) / P(T)]).
    5. Расчет Relevance Rank: Для каждого релевантного результата вычисляется ранг релевантности как произведение P(R|T) * P(T|Q).
    6. Ранжирование и вывод: Набор результатов упорядочивается на основе Relevance Rank и предоставляется пользователю.

    Какие данные и как использует

    Данные на входе

    Патент описывает использование следующих данных:

    • Поведенческие факторы (Критические):
      • Search Click Data: Основной источник для определения P(R|Q) (какие результаты кликают по запросу).
      • Query History: Используется для определения P(Q) (частота запроса).
      • Topic Interest Distribution: Распределение интереса пользователей к темам, используется для определения P(T) (популярность темы).
    • Контентные/Структурные факторы:
      • Текст, связанный с результатом (например, заголовок, описание видео). Используется для расчета P(T|R).
      • Названия тем домена (Topic Names). Используются для расчета P(T|Q) через строковое сходство.
    • Внешние данные:
      • Knowledge Databases (Базы знаний): Упоминаются в описании (Freebase, Wikipedia) и Claims. Используются для определения семантических концепций и расчета P(T|R).
      • Topicality Score: Может поступать от внешнего источника (например, хостинга контента).

    Какие метрики используются и как они считаются

    Система основана на расчете условных вероятностей в рамках байесовских методов.

    1. Итоговая Релевантность (Relevance Rank):

    • Формула: Relevance = Sum_T P(R|T) * P(T|Q).
    • Описание: Релевантность результата (R) запросу (Q) — это сумма по всем темам (T) произведения вероятности результата для темы и вероятности темы для запроса.

    2. Расчет P(T|Q) (Вероятность темы для запроса):

    Метод А (на основе кликов и тематики):

    • Формула: P(T|Q) = Sum_R P(T|R) * P(R|Q). (При условии, что T и Q независимы при данном R).
    • Описание: Вероятность темы для запроса рассчитывается через результаты. Она зависит от того, насколько часто на результаты кликают по этому запросу (P(R|Q) из Search Click Data) и насколько эти результаты относятся к теме (P(T|R) из Topicality Score или Knowledge Base).

    Метод Б (на основе сходства строк):

    • Описание: P(T|Q) рассчитывается на основе сходства (similarity) текста запроса и названия темы.

    3. Расчет P(R|T) (Вероятность результата для темы):

    • Формула: P(R|T) = Sum_Q P(R|Q) * P(T|Q) * P(Q) / P(T). (При условии, что R и T независимы при данном Q).
    • Описание: Вероятность результата для темы рассчитывается на основе того, насколько часто на результат кликают по разным запросам (P(R|Q)), насколько эти запросы относятся к теме (P(T|Q)), а также априорных вероятностей запроса (P(Q)) и темы (P(T)).

    Выводы

    1. Тематическое моделирование вместо ключевых слов: Патент подтверждает, что Google использует сложные вероятностные модели для понимания тематики контента и запросов, чтобы преодолеть ограничения поиска по ключевым словам. Это особенно важно для медиаконтента (видео), где текста мало.
    2. Двухэтапное ранжирование: Процесс ранжирования разделен на понимание темы запроса (P(T|Q)) и поиск контента для этой темы (P(R|T)). Оптимизация требует работы по обоим направлениям.
    3. Критическая роль данных о кликах (Search Click Data): Поведенческие данные являются фундаментальным элементом системы. P(R|Q) (вероятность клика на результат по запросу) используется как для расчета P(T|Q), так и для расчета P(R|T). Если пользователи не кликают на контент по релевантным запросам, система не сможет надежно связать его с темой.
    4. Важность ассоциации с сущностями и Knowledge Base: Система активно использует базы знаний (Knowledge Base) или оценки тематичности (Topicality Score) для определения P(T|R) (к какой теме относится контент). Контент должен быть четко связан с распознаваемыми темами/сущностями.
    5. Взаимозависимость метрик: Все вероятности в системе связаны. Улучшение тематичности контента (P(T|R)) и повышение кликабельности по релевантным запросам (P(R|Q)) синергетически улучшают способность системы связывать контент с темами и ранжировать его.

    Практика

    Best practices (это мы делаем)

    Эти рекомендации особенно актуальны для Video SEO (например, YouTube) и другого медиаконтента.

    • Оптимизация под Темы и Сущности (Topics and Entities): Сфокусируйтесь на создании контента вокруг четко определенных тем и сущностей, которые Google может распознать через базы знаний. Это напрямую усиливает P(T|R) (Topicality Score). Используйте релевантные сущности в заголовках, описаниях и самом контенте (например, в тексте видео).
    • Максимизация CTR для целевых запросов: Поскольку P(R|Q) критически зависит от Search Click Data, необходимо оптимизировать сниппеты (заголовки, мета-описания, значки видео) для достижения высокого CTR по релевантным запросам. Высокий CTR укрепляет связь между вашим контентом и запросом в этой вероятностной модели.
    • Построение Тематического Авторитета (Topical Authority): Создавайте кластеры контента, которые полностью покрывают тему. Это увеличивает вероятность того, что система ассоциирует ваш ресурс с определенным Domain Topic (T) и повысит общие показатели P(R|T) для страниц или видео в рамках этой темы.
    • Анализ поведенческих данных в нише: Изучайте, какой контент получает клики по вашим целевым запросам. Это дает представление о том, как Google рассчитывает P(R|Q) и какие темы он считает релевантными (P(T|Q)) для этих запросов.
    • Нормализация и ясность контента: Убедитесь, что контент легко интерпретируется. Хотя система использует стемминг, четкое использование терминологии помогает при расчете P(T|R) через сравнение с базами знаний и P(T|Q) через строковое сходство.

    Worst practices (это делать не надо)

    • Фокус только на вхождении ключевых слов: Полагаться на точное совпадение ключевых слов неэффективно. Система может предпочесть тематически релевантный контент без ключевых слов контенту с ключевыми словами, но слабой тематической связью или плохими поведенческими сигналами.
    • Кликбейт и нерелевантный трафик: Использование кликбейта для привлечения трафика по нерелевантным запросам может навредить. Если пользователи быстро покидают контент (что может быть интерпретировано как негативный сигнал в рамках Search Click Data), это может ослабить P(R|Q).
    • Игнорирование сущностей и контекста: Создание поверхностного контента, который не связан с сущностями из баз знаний, приведет к низкому Topicality Score (P(T|R)), что сделает невозможным высокое ранжирование в этой модели.

    Стратегическое значение

    Этот патент подтверждает стратегию Google по переходу к семантическому поиску. Ранжирование все больше зависит от понимания тем и контекста, а не просто от текстового совпадения. Для SEO это означает, что инвестиции в качество контента, тематическую глубину и оптимизацию пользовательского опыта (в частности, CTR) являются приоритетными. Модель также объясняет, как поведенческие факторы интегрируются непосредственно в ядро алгоритма ранжирования через вероятностные расчеты.

    Практические примеры

    Сценарий: Оптимизация видео на YouTube

    1. Задача: Ранжировать видео-обзор нового смартфона «Phone X».
    2. Анализ P(T|R): Необходимо убедиться, что видео четко связано с темами (T) «Phone X», «Обзоры смартфонов», «Технологии».
      Действие: Включить название модели, бренд и связанные сущности (например, «Android», «iOS», характеристики камеры) в заголовок, описание и теги. Убедиться, что эти термины распознаются базами знаний.
    3. Анализ P(T|Q): Необходимо, чтобы запросы (Q) пользователей (например, «Phone X стоит ли покупать», «Phone X обзор камеры») были связаны с этими темами (T). Эта связь устанавливается Google на основе общих данных о кликах.
    4. Анализ P(R|Q) (Ключевой фактор для влияния): Видео должно получать клики по этим запросам.
      Действие: Создать привлекательный значок видео (thumbnail) и оптимизированный заголовок (например, «Честный обзор Phone X: Камера, Батарея и Скрытые Фишки»), чтобы максимизировать CTR при показе в выдаче.
    5. Результат: Высокий CTR увеличивает P(R|Q). Четкие сущности увеличивают P(T|R). Google использует эти данные для расчета P(T|Q) и P(R|T). Итоговый Relevance Rank (P(R|T) * P(T|Q)) повышается, обеспечивая высокие позиции видео.

    Вопросы и ответы

    Что такое P(T|Q) и P(R|T) простыми словами?

    P(T|Q) (Probability of Topic given Query) – это показатель того, насколько вероятно, что запрос пользователя относится к определенной теме. Например, насколько вероятно, что запрос «джаз» относится к теме «Музыкальные жанры». P(R|T) (Probability of Result given Topic) – это показатель того, насколько конкретный результат (например, веб-страница или видео) релевантен этой теме. Например, насколько видео с концертом Майлза Дэвиса релевантно теме «Джаз».

    Как рассчитывается итоговый ранг в этой системе?

    Итоговый ранг релевантности (Relevance Rank) рассчитывается путем перемножения двух ключевых вероятностей: P(R|T) * P(T|Q). Это означает, что для высокого ранжирования результат должен быть сильно связан с темой, И эта тема должна быть сильно связана с запросом пользователя. Недостаточно быть релевантным только теме или только запросу.

    Насколько важны клики (CTR) согласно этому патенту?

    Критически важны. В патенте прямо указано, что Search Click Data используются для вывода P(R|Q) (вероятность результата при условии запроса). Эта метрика, в свою очередь, используется для расчета как P(T|Q), так и P(R|T). Фактически, данные о кликах являются основой для обучения этой вероятностной модели и установления связей между запросами, темами и контентом.

    Что такое Topicality Score и как его повысить?

    Topicality Score (Оценка тематичности) – это эквивалент P(T|R), то есть насколько контент соответствует теме. Патент предлагает два способа ее определения: получение оценки от хостинга контента или сравнение текста контента с базами знаний (Knowledge Databases). Чтобы повысить этот показатель, необходимо насыщать контент (заголовки, описания, текст) сущностями и терминами, которые присутствуют в базах знаний Google (Knowledge Graph), делая тематику контента очевидной для алгоритмов.

    Может ли контент ранжироваться, если он не содержит ключевых слов из запроса?

    Да, это основная цель изобретения. Если система определяет, что запрос «Judas» сильно связан с темой «Lady Gaga» (высокий P(T|Q)), и находит видео про Леди Гагу, которое сильно связано с этой темой (высокий P(R|T)), это видео будет ранжироваться высоко, даже если в его названии или описании нет слова «Judas».

    Где этот патент, скорее всего, применяется Google?

    В патенте явно указывается на проблемы поиска медиаконтента с разреженными текстовыми данными и упоминаются видеохостинги. Поэтому наиболее вероятное применение этого патента — это поиск по видео (YouTube, Google Video Search) и, возможно, поиск по изображениям. Однако базовые принципы тематического моделирования применимы и к основному веб-поиску.

    Как этот патент связан с E-E-A-T?

    Патент напрямую не упоминает E-E-A-T, но он тесно связан с концепцией Тематического Авторитета (Topical Authority), которая является частью Expertise. Если ресурс постоянно создает контент с высоким Topicality Score (P(T|R)) по определенной теме и получает хорошие поведенческие сигналы (P(R|Q)), он укрепляет свою связь с этим Domain Topic, что способствует росту авторитета в данной области.

    Что такое стемминг в контексте этого патента?

    Стемминг (Stemming) используется как этап предварительной обработки запроса. Система определяет корневые формы слов (например, «бег» для «бегущий») и заменяет их в запросе. Это позволяет нормализовать запрос и более точно рассчитать P(T|Q), учитывая разные словоформы как один и тот же интент.

    Что важнее: связь контента с темой (P(T|R)) или данные о кликах (P(R|Q))?

    Они взаимозависимы и критически важны оба. P(T|R) определяет потенциальную тематическую релевантность контента, а P(R|Q) определяет фактическую релевантность контента запросам пользователей на практике. В формуле расчета P(T|Q) используются обе эти метрики: P(T|Q) = Sum_R [P(T|R) * P(R|Q)]. Без хороших показателей по обоим параметрам достичь успеха сложно.

    Использует ли система машинное обучение?

    Да, хотя в патенте это явно не называется машинным обучением, описанный процесс является формой вероятностного моделирования и машинного обучения. Система «обучается» связям между запросами, темами и результатами на основе анализа больших объемов данных, таких как Search Click Data, история запросов и содержимое баз знаний, для вычисления необходимых условных вероятностей.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.