
Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.
Патент решает проблему неэффективности поиска в специализированных базах данных (например, каталогах фильмов или товаров), когда пользователь вводит описательный или неструктурированный запрос (unstructured query). Специализированные базы часто индексируют только структурированные метаданные (название, автор) и не содержат подробных описаний (деталей сюжета, тем). Прямой поиск по описательному запросу (например, “фильм про девочку-снайпера”) в такой базе часто не дает результатов. Изобретение улучшает качество поиска, используя богатые описания, доступные в общем веб-индексе, для идентификации конкретных сущностей, которые ищет пользователь.
Запатентована система двухэтапного поиска для специализированных вертикалей. Система использует основной веб-индекс (first corpus или corpus of web resources) для интерпретации описательного запроса и идентификации релевантных сущностей (media entities). Затем она использует эти идентифицированные сущности для выполнения точного поиска во второй, специализированной базе данных (second corpus или corpus of media assets), содержащей целевой контент.
Механизм работает следующим образом:
relevancy score).keyword information и contextual information, определяя упоминаемые там сущности (например, названия фильмов).Topic Score, основанный на частоте её появления или описания в топовых веб-результатах. Выбираются сущности с наивысшими оценками.Media Quality Score) и представляются пользователю.Высокая. Распознавание сущностей (Entity Recognition) и использование данных из общего веб-индекса для улучшения специализированных вертикалей (Товары, Видео, Локальный поиск) являются фундаментом современного поиска. Описанный механизм критически важен для интерпретации неоднозначных, разговорных или описательных запросов, что особенно актуально в эпоху голосового поиска и поиска на устройствах типа Smart TV.
Патент имеет высокое стратегическое значение для SEO (7/10). Хотя он не описывает ранжирование веб-страниц напрямую, он раскрывает механизм, как Google использует контент веб-сайтов для понимания и идентификации сущностей в специализированных поисках. Это подчеркивает критическую роль веб-контента в определении сущностей. Чтобы сущность (продукт, фильм, бренд) была корректно распознана системами Google, она должна быть четко, подробно и авторитетно описана на сайтах, которые высоко ранжируются в основном веб-индексе.
media entities), упоминаемыми или описываемыми на этих ресурсах.click rate) и доступность контента.media entity. Основана на частоте её появления (occurrence) или описания в подмножестве топовых веб-результатов.Claim 1 (Независимый пункт): Описывает базовый метод двухэтапного поиска для медиаконтента.
relevancy score.relevancy score) извлекается ключевая (keyword information) и контекстная (contextual information) информация.media entities.media entity присваивается Topic Score на основе её встречаемости в веб-результатах.media entities на основе Topic Score.media assets из Второго корпуса на основе выбранных media entities.media assets представляется пользователю.Claim 2 (Зависимый от 1): Уточняет этап предобработки запроса.
Исходный медиа-запрос может быть переписан (rewriting) путем вставки одного или нескольких медиа-терминов (например, добавление слова "фильм" или "видео") перед выполнением поиска в Первом корпусе.
Claim 5 (Зависимый от 1): Описывает механизм извлечения сущностей.
Система использует Entity Table для определения media entities. Эта таблица связывает идентификатор веб-ресурса (например, URL из результатов поиска) с соответствующей media entity.
Claim 6 (Зависимый от 1): Детализирует финальное ранжирование.
Для каждого идентифицированного media asset определяется Quality Score (оценка качества), и результаты фильтруются (или ранжируются) на основе этой оценки.
Claim 7 (Зависимый от 1): Описывает механизм смешивания результатов (Blending).
Система может идентифицировать второй набор медиа-активов (например, из media data feed) и представить пользователю комбинированный набор, включающий результаты из Второго корпуса, веб-результаты из Первого корпуса и результаты из медиа-фида.
Изобретение охватывает несколько этапов поиска, интегрируя данные из разных индексов для улучшения специализированного поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит индексация как Первого корпуса (веб-страницы), так и Второго корпуса (медиа-активы). Также могут предварительно вычисляться Entity Tables, связывающие веб-страницы с сущностями, и собираться данные для Media Quality Scores.
QUNDERSTANDING – Понимание Запросов
Система получает исходный запрос. Может применяться модификация запроса (Claim 2), например, добавление классифицирующих терминов для улучшения релевантности результатов на следующем этапе.
RANKING – Ранжирование (Этап 1: Веб-поиск)
Выполняется поиск по Первому корпусу (Веб-индекс). Задача – найти веб-страницы, релевантные описательному запросу, и рассчитать их Relevancy Scores.
RERANKING / Feature Extraction (Промежуточный этап)
Это ядро изобретения. Топовые результаты Этапа 1 анализируются. Происходит извлечение Media Entities (с использованием Entity Table или анализа контента) и расчет Topic Scores. Это функционирует как извлечение признаков из результатов ранжирования для генерации нового, уточненного запроса.
RANKING – Ранжирование (Этап 2: Специализированный поиск)
Генерируется новый запрос на основе сущностей с высокими Topic Scores. Выполняется поиск по Второму корпусу (Медиа-база).
RERANKING – Переранжирование (Финальный этап)
К результатам Этапа 2 применяются Media Quality Scores для финальной сортировки и фильтрации.
METASEARCH – Метапоиск и Смешивание
Финальные результаты могут быть смешаны с результатами из других источников, включая исходные веб-результаты (Claim 7), формируя универсальную выдачу.
Процесс обработки запроса системой (на основе Process 500):
Relevancy Scores.Relevancy Score (например, Топ-N).Media Entities. Это может включать анализ ключевых слов и контекстной информации на страницах или использование Entity Table.Media Entity рассчитывается Topic Score на основе частоты её встречаемости или описания в топовых веб-результатах (например, с использованием хэш-таблицы и подсчета).Media Entities с наивысшими Topic Scores.Media Assets, соответствующие новому запросу.Media Quality Score (популярность, качество видео и т.д.).Media Quality Score и/или Topic Score.Система использует данные из двух различных источников (корпусов).
Из Первого корпуса (Веб-индекс):
keyword information и contextual information). Система анализирует, как сущности описываются на страницах, чтобы идентифицировать их.Relevancy Scores, рассчитанные поисковой системой для веб-страниц в ответ на исходный запрос.Из Второго корпуса (Специализированная база) и связанных систем:
Media Assets (для сопоставления с Media Entities).click rate), используемая при расчете Media Quality Score. Также упоминается использование click-through rate результатов для обучения системы (learning techniques).Media Quality Score.Entity Tables, связывающие веб-ресурсы с сущностями.hash table и count value). Оценка может быть взвешена по Relevancy Score соответствующей веб-страницы.Relevancy Score) по исходному описательному запросу, используются для извлечения сущностей. Сайты, которые не ранжируются по этим запросам, не участвуют в процессе идентификации сущностей этим методом.Media Entities) посредством анализа контента третьих сторон (веб-сайтов).Topic Score выступает как мера уверенности системы в том, что данная сущность действительно релевантна исходному запросу. Чем чаще авторитетные (высоко ранжирующиеся) веб-страницы ассоциируют запрос с сущностью, тем выше оценка.Relevancy Score на первом этапе поиска.Topic Score.contextual information.Topic Score для всех упомянутых сущностей.Этот патент подтверждает стратегическую важность основного веб-индекса как "мозга" для всех остальных поисковых вертикалей Google. Он показывает, что видимость в специализированных продуктах Google (Товары, Видео, Карты) часто зависит от того, насколько хорошо и авторитетно сущность описана в вебе. Для SEO-стратегии это означает, что работа над контентом и Topical Authority в веб-поиске напрямую конвертируется в распознавание сущностей и трафик из специализированных вертикалей.
Сценарий: Оптимизация сайта с обзорами техники для улучшения распознавания товаров (Применение вне медиа)
Relevancy Score).Topic Score).Какова роль веб-сайтов в механизме, описанном в этом патенте?
Веб-сайты играют критически важную роль. Они выступают в качестве Первого корпуса (Corpus of Web Resources), который содержит богатые описания, темы и контекст, отсутствующие в специализированных базах. Google анализирует контент топовых веб-сайтов, чтобы понять, о какой сущности идет речь в описательном запросе пользователя.
Влияет ли ранжирование моего сайта в веб-поиске на этот механизм?
Да, напрямую. Система анализирует только подмножество веб-результатов, выбранных на основе Relevancy Score (т.е. топовые результаты). Если ваш сайт не ранжируется высоко по описательному запросу, его контент не будет использоваться для идентификации сущностей этим методом.
Что такое Topic Score и почему он важен?
Topic Score (или Оценка сущности) – это мера уверенности системы в том, что извлеченная сущность соответствует исходному запросу. Он рассчитывается на основе того, как часто эта сущность упоминается или описывается в топовых веб-результатах. Только сущности с высоким Topic Score используются для финального поиска в специализированной базе данных.
Применим ли этот патент только к поиску фильмов и ТВ?
Нет. Хотя в патенте в качестве примеров используются Media Entities и Media Assets, описанный механизм является универсальным. Он может применяться для поиска товаров (поиск по характеристикам), локальных бизнесов (поиск по услугам), персоналий и любых других сущностей, где требуется интерпретация описательных запросов.
Как я могу оптимизировать свой контент, чтобы помочь Google лучше извлекать сущности с моих страниц?
Необходимо создавать подробный, авторитетный контент, который отвечает на описательные запросы пользователей. Контент должен быть четко сфокусирован на конкретной сущности, чтобы система могла легко её идентифицировать. Использование структурированных данных также помогает недвусмысленно указать основную сущность страницы.
Что такое Entity Table, упоминаемая в патенте?
Entity Table – это структура данных, которая заранее связывает веб-ресурсы (URL) с конкретными сущностями. Вместо анализа контента в реальном времени, система может просто выполнить поиск в этой таблице, чтобы узнать, какие сущности связаны с топовыми результатами веб-поиска. Это предполагает, что Google постоянно анализирует веб-страницы для построения таких связей на этапе индексирования.
Что означает модификация запроса (Claim 2) для SEO?
Это означает, что система может автоматически добавлять классифицирующие термины (например, "фильм", "товар", "рецепт") к исходному запросу перед выполнением веб-поиска. Это подчеркивает важность использования четких классификаторов и терминов, определяющих тип контента или сущности на ваших страницах, чтобы соответствовать этим модифицированным запросам.
Что такое Media Quality Score и могут ли SEO-специалисты на него влиять?
Media Quality Score используется для финального ранжирования найденных активов. Он включает техническое качество (разрешение, битрейт), доступность и популярность (click rate). SEO-специалисты могут косвенно влиять на компонент популярности, работая над привлекательностью сниппетов и общей репутацией контента или бренда.
Означает ли этот патент, что Google смешивает веб-результаты и медиа-результаты?
Да, Claim 7 прямо указывает на возможность смешивания (blending). Система может предоставить пользователю комбинированную выдачу, включающую как найденные медиа-активы (из Второго корпуса), так и исходные веб-результаты (из Первого корпуса), а также результаты из других источников (например, медиа-фидов).
Какое стратегическое направление в SEO подтверждает этот патент?
Патент подтверждает стратегию построения Topical Authority и фокус на Entity-based SEO. Он показывает, что становление авторитетным источником, который подробно и точно описывает сущности в своей нише, критически важно для обеспечения видимости не только в веб-поиске, но и во всех специализированных вертикалях Google.

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Мультимедиа

Поведенческие сигналы
SERP

Семантика и интент

EEAT и качество
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Антиспам
SERP
Ссылки

Поведенческие сигналы
Local SEO

Поведенческие сигналы
Индексация
Семантика и интент

Поведенческие сигналы
Персонализация
EEAT и качество

Поведенческие сигналы

Поведенческие сигналы
Индексация
SERP

Семантика и интент
Поведенческие сигналы
Local SEO

Семантика и интент
Индексация
Структура сайта

Структура сайта
SERP
Ссылки
