Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя

IDENTIFYING ENTITIES USING SEARCH RESULTS (Идентификация сущностей с использованием результатов поиска)

US8843466B1
Google LLC
2011-09-27
2014-09-23

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

Какую проблему решает

Патент решает задачу интерпретации поисковых запросов, которые перечисляют признаки (attributes) или особенности, но не называют явно целевую сущность (entity). Пользователи часто вводят запросы такого типа, подразумевая вопрос: "Какая сущность соответствует этим признакам?". Классический пример, описанный в патенте, — это запрос, перечисляющий медицинские симптомы, где пользователь хочет найти соответствующие медицинские состояния (болезни, расстройства).

Что запатентовано

Запатентована система для идентификации сущностей, соответствующих атрибутам, указанным в запросе, с использованием результатов поиска. Изобретение описывает несколько вариантов реализации (embodiments). Ключевая идея — определить тип искомой сущности (entity type) на основе атрибутов в запросе, а затем использовать различные методы анализа поисковой выдачи (по исходному запросу, модифицированному запросу или комбинированным запросам) для оценки и выбора наиболее подходящих сущностей этого типа.

Как это работает

Система сначала определяет, содержит ли запрос ссылки на предопределенные атрибуты, связанные с определенным типом сущности. Это может делаться путем проверки терминов запроса по базе данных атрибутов (attribute data store). Если да, активируется механизм идентификации сущностей. Патент описывает несколько методов:

Анализ исходной выдачи: Система анализирует результаты поиска по исходному запросу, подсчитывая упоминания имен сущностей в контенте найденных ресурсов и генерируя оценки (final scores) на основе этих упоминаний и ранга ресурсов.
Комбинированные запросы: Система генерирует множество запросов, объединяя исходный запрос с именем каждой потенциальной сущности (например, [запрос] + [сущность А], [запрос] + [сущность Б]). Затем для каждой сущности вычисляется сводная оценка (summary score) на основе качества результатов поиска по соответствующему комбинированному запросу.
Использование аннотаций: Система может использовать предварительно рассчитанные аннотации в индексе, указывающие, какие сущности связаны с конкретным ресурсом, и выбирать сущности, наиболее часто встречающиеся в аннотациях топовых результатов.

Выбранные сущности могут быть представлены пользователю отдельно от стандартных результатов поиска. Также система может предлагать дополнительные атрибуты (attribute suggestions) для уточнения запроса.

Актуальность для SEO

Высокая. Патент напрямую связан с тем, как Google обрабатывает запросы, особенно в YMYL-тематиках (в частности, здоровье), предоставляя прямые ответы и информацию о сущностях (Knowledge Panels, Featured Snippets). Механизмы распознавания интента через атрибуты и связи между сущностями являются фундаментом современного семантического поиска.

Важность для SEO

Патент имеет высокое значение для SEO (85/100), особенно для информационных сайтов и контента, сфокусированного на сущностях (YMYL, обзоры продуктов, медиа). Он подчеркивает переход от ключевых слов к пониманию связей между сущностями и их атрибутами. Для ранжирования критически важно, чтобы контент четко устанавливал связь между сущностью и ее признаками, так как Google использует эту информацию для ответа на неявные вопросы пользователей.

Термины и определения

Attribute (Атрибут, Признак): Характеристика или особенность сущности. В контексте патента часто используются медицинские симптомы как пример атрибутов.
Attribute Data Store (База данных атрибутов): Хранилище терминов, которые были определены как ссылки на атрибуты определенного типа сущности (например, белый список медицинских симптомов). Может содержать термины из ранее отправленных запросов, классифицированных как относящиеся к данному типу сущности.
Attribute Suggestions (Предложения атрибутов): Дополнительные атрибуты, предлагаемые пользователю для уточнения запроса.
Combined Query (Комбинированный запрос): Запрос, сгенерированный путем объединения исходного запроса и имени конкретной сущности.
Combined Score (Комбинированная оценка): Оценка, присваиваемая ресурсу при генерации объединенной выдачи. Является функцией (например, soft maximum) от оценок, присвоенных этому ресурсу в ответ на различные комбинированные запросы.
Entity (Сущность): Объект, который ищет пользователь. В контексте патента часто используются медицинские состояния (болезни) как пример сущностей.
Entity Type (Тип сущности): Категория, к которой принадлежит сущность (например, медицинское состояние, фильм, книга).
Final Score (Итоговая оценка): Оценка сущности, сгенерированная на основе Initial Scores. Используется для выбора сущностей в ответ на запрос.
Initial Score (Начальная оценка): Оценка, определяемая для сущности на основе анализа одного конкретного результата поиска. Базируется на количестве упоминаний имени сущности в ресурсе и ранге/оценке этого результата поиска.
Inverse Document Frequency (Обратная частота документа, IDF): Метрика, используемая для нормализации оценок сущностей, чтобы снизить влияние общеупотребительных сущностей.
Query Classifier (Классификатор запросов): Офлайн-компонент, обученный с использованием методов машинного обучения для анализа ранее отправленных запросов и определения того, какие из них следует добавить в Attribute Data Store.
Summary Score (Сводная оценка): Оценка сущности, сгенерированная на основе оценок, связанных с результатами поиска, полученными в ответ на комбинированный запрос для этой сущности.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов (Claims 1, 46, 76, 121), описывающих разные методы достижения цели.

Claim 1 (Независимый пункт): Описывает метод идентификации сущностей путем анализа упоминаний в результатах исходного запроса.

Система определяет, что запрос содержит ссылки на атрибуты определенного типа сущности. Это делается путем проверки наличия термина запроса в Attribute Data Store, который заполняется Query Classifier на основе анализа прошлых запросов.
Получаются результаты поиска по исходному запросу.
Для каждого результата вычисляется Initial Score для множества сущностей. Эта оценка основана на упоминаниях (occurrences) имен сущностей в ресурсе.
Генерируется Final Score для каждой сущности на основе Initial Scores.
Выбираются имена сущностей для включения в ответ на основе Final Scores.

Claim 46 (Независимый пункт): Описывает метод генерации выдачи с использованием комбинированных запросов.

Система определяет, что запрос содержит ссылки на атрибуты определенного типа сущности.
Для множества сущностей этого типа генерируется Combined Query (исходный запрос + имя сущности).
Получаются результаты поиска для каждого комбинированного запроса.
Полученные результаты используются для генерации Combined Search Results (объединенной выдачи) в ответ на исходный запрос. Это может включать ранжирование ресурсов на основе Combined Scores (Claim 52).

Claim 76 (Независимый пункт): Описывает метод идентификации сущностей путем модификации запроса.

Система определяет, что запрос содержит ссылки на атрибуты определенного типа сущности.
Генерируется второй запрос, включающий исходный запрос и один или более терминов, которые ссылаются на тип сущности (например, добавление слова "болезнь").
Результаты поиска по второму запросу оцениваются для выбора имен сущностей.

Claim 121 (Независимый пункт): Описывает метод идентификации сущностей с использованием предварительных знаний о связи ресурсов и сущностей.

Система определяет, что запрос содержит ссылки на атрибуты определенного типа сущности.
Получаются результаты поиска по исходному запросу.
Идентифицируются сущности, которые связаны (related to) с ресурсами, найденными в результатах поиска. (Это подразумевает наличие механизма определения связи, например, через аннотации в индексе, как указано в Claim 123).
Выбираются имена одной или более из идентифицированных сущностей.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, от индексирования до понимания запросов и формирования выдачи.

CRAWLING & INDEXING – Сканирование и Индексирование
В некоторых вариантах реализации система требует предварительной обработки ресурсов:

Анализ контента для идентификации упоминаний сущностей (используя методы распознавания именованных сущностей, Named Entity Recognition, NER, для разрешения неоднозначностей).
Аннотирование ресурсов в индексе. Аннотации могут указывать, что ресурс содержит ссылки на определенный тип сущности или на конкретные сущности, связанные с ресурсом.

QUNDERSTANDING – Понимание Запросов
На этом этапе происходит ключевая активация механизма:

Офлайн: Query Classifier анализирует логи запросов и заполняет Attribute Data Store терминами и запросами, которые соответствуют паттерну "список атрибутов".
Онлайн: При получении запроса система проверяет его на соответствие Attribute Data Store или другим критериям, чтобы определить, следует ли возвращать имена сущностей определенного типа.

RANKING, METASEARCH & RERANKING – Ранжирование, Метапоиск и Переранжирование
Применение зависит от выбранного метода:

Методы, анализирующие исходную выдачу: После стандартного ранжирования система анализирует топовые результаты (их контент или аннотации) для вычисления Final Scores сущностей. Это этап пост-обработки или метапоиска.
Метод комбинированных запросов: Система выполняет множество параллельных поисковых запросов (исходный запрос + сущность) и агрегирует результаты для вычисления Summary Scores или для генерации объединенной выдачи (Combined Search Results).
Метод модификации запроса: Система выполняет поиск по измененному запросу и анализирует его результаты.

В конечном итоге, система либо предоставляет выбранные имена сущностей как отдельный блок (METASEARCH), либо модифицирует основную выдачу, заменяя ее объединенными результатами или продвигая результаты, связанные с выбранными сущностями (RERANKING).

На что влияет

Специфические запросы: В первую очередь влияет на информационные запросы, которые представляют собой перечисление признаков, симптомов, характеристик без явного указания объекта поиска.
Конкретные ниши или тематики: Наибольшее влияние оказывается на тематики, где четко определены сущности и их атрибуты. Патент акцентирует внимание на медицинской тематике (YMYL), но также упоминает фильмы и книги.

Когда применяется

Алгоритм применяется при выполнении условий, указывающих на интент поиска сущности по ее атрибутам:

Триггеры активации: Наличие в запросе одного или нескольких терминов из Attribute Data Store.
Исключения: Система может использовать черный список (blacklist) фраз, для которых не следует возвращать сущности, даже если они содержат атрибуты (пример: "you give me fever"). Также механизм может не активироваться, если запрос уже содержит имя сущности того же типа.
Альтернативные триггеры: В некоторых реализациях триггером может служить анализ результатов поиска по исходному запросу, если количество результатов, идентифицирующих ресурсы, связанные с определенным типом сущности, превышает пороговое значение.

Пошаговый алгоритм

Патент описывает несколько различных алгоритмов. Ниже приведен разбор двух ключевых подходов.

Алгоритм А: Идентификация сущностей через комбинированные запросы

Получение запроса и определение интента: Система определяет, следует ли возвращать имена сущностей определенного типа.
Генерация комбинированных запросов: Если интент подтвержден, для набора сущностей генерируются комбинированные запросы (исходный запрос + имя сущности).
Получение результатов: Выполняется поиск по каждому комбинированному запросу.
Вычисление сводной оценки: Для каждой сущности генерируется Summary Score. Это функция от оценок (scores) результатов поиска, полученных для соответствующего комбинированного запроса (например, сумма оценок топовых результатов).
Нормализация (Опционально): Summary Score может быть скорректирован на основе Inverse Document Frequency имени сущности.
Выбор сущностей: Сущности выбираются на основе Summary Scores (например, Топ-N или превысившие порог).

Алгоритм Б: Идентификация сущностей через анализ исходной выдачи

Получение запроса и определение интента.
Получение результатов: Выполняется поиск по исходному запросу.
Идентификация упоминаний: В ресурсах, идентифицированных результатами поиска (например, в Топ-50), определяются упоминания имен сущностей нужного типа. Может использоваться Named Entity Recognition для разрешения неоднозначностей.
Вычисление начальных оценок: Для каждой сущности и каждого результата поиска генерируется Initial Score. Он зависит от количества упоминаний сущности в ресурсе и ранга (или оценки) этого результата поиска.
Вычисление итоговой оценки: Для каждой сущности генерируется Final Score (или Combined Score) путем объединения ее Initial Scores (например, суммированием).
Нормализация (Опционально): Final Score может быть скорректирован на основе IDF.
Выбор сущностей: Сущности выбираются на основе Final Scores.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Системные данные:
- Attribute Data Store: Белый список терминов или запросов, классифицированных как атрибуты сущностей.
- Entity Data Store: Хранилище имен сущностей (включая синонимы, научные и общепринятые названия).
- Blacklist: Список терминов или фраз, блокирующих активацию механизма.
- Индекс (Index Database): Стандартный поисковый индекс. В некоторых реализациях он дополнен аннотациями, связывающими ресурсы с типами сущностей или конкретными сущностями.
- Ranking Scores: Оценки релевантности и качества ресурсов, присвоенные поисковой системой.
Поведенческие факторы (Косвенно):
- Логи запросов (Query Log): Используются офлайн-классификатором (Query Classifier) для обучения и заполнения Attribute Data Store.
Контентные факторы:
- Текст ресурсов: Используется для подсчета упоминаний (occurrences) имен сущностей и атрибутов в ресурсах, найденных в результатах поиска.

Какие метрики используются и как они считаются

Initial Score (Начальная оценка): Вычисляется для пары (Сущность, Результат поиска). Базируется на ранге/оценке результата поиска и количестве упоминаний сущности в соответствующем ресурсе.
Summary Score / Final Score (Сводная / Итоговая оценка): Агрегированная оценка для сущности. Может быть суммой, средним арифметическим, гармоническим средним или геометрическим средним от Initial Scores или от оценок результатов поиска для комбинированного запроса. Также упоминается сумма логарифмов оценок.
Combined Score (Комбинированная оценка ресурса): Используется при формировании объединенной выдачи. Может быть максимумом, средним или soft maximum от оценок ресурса по разным комбинированным запросам. Soft maximum определяется как: $softmax(S_1, ..., S_N) = log(exp(S_1) + ... + exp(S_N))$ .
Нормализация: Применение IDF сущности к ее Summary Score или Final Score.

Множественность подходов к идентификации сущностей: Патент защищает не один конкретный алгоритм, а целый набор методов для решения задачи "Атрибуты -> Сущность". Google может использовать анализ исходной выдачи, генерацию комбинированных запросов, модификацию запроса или анализ аннотаций в индексе, в зависимости от ситуации.
Важность понимания неявного интента: Система активно пытается понять запросы, которые не содержат явных вопросов или названий сущностей. Наличие Attribute Data Store и Query Classifier указывает на масштабные усилия по классификации терминов и прошлых запросов для распознавания таких интентов.
Использование существующих сигналов ранжирования: Большинство методов полагаются на качество базовой поисковой выдачи. Initial Scores и Summary Scores напрямую зависят от ранга или оценки (score) ресурсов, возвращаемых поисковой системой. Это означает, что авторитетные документы, хорошо ранжирующиеся по запросам, имеют больший вес в определении связи между атрибутами и сущностями.
Роль индексации и аннотирования: Некоторые методы предполагают глубокий анализ контента на этапе индексации, включая распознавание именованных сущностей (NER) для разрешения неоднозначностей и аннотирование документов связями с сущностями. Это подтверждает важность структурирования контента и семантической разметки.
Нормализация по популярности сущности: Использование Inverse Document Frequency (IDF) для нормализации оценок сущностей показывает, что система стремится находить наиболее релевантные, а не просто самые часто упоминаемые сущности.
Интерактивное уточнение: Механизм Attribute Suggestions с критерием "maximally refine" указывает на стремление к диалоговому поиску, помогая пользователю быстро сузить область поиска.

Best practices (это мы делаем)

Укрепление связей Сущность-Атрибут: Создавайте контент, который четко и всесторонне описывает сущности и их ключевые атрибуты. Для медицинских сайтов это означает детальное описание болезней (сущность) и их симптомов (атрибуты). Убедитесь, что эти связи понятны поисковой системе, используя естественный язык и четкую структуру.
Фокус на авторитетности и качестве контента (E-E-A-T): Поскольку система использует оценки ранжирования существующих документов для определения силы связи между атрибутами и сущностями, критически важно, чтобы ваш контент высоко ранжировался. Авторитетные источники имеют преимущество в том, что именно их контент будет использоваться для идентификации сущностей.
Использование синонимов и вариативности терминов: Используйте как научные, так и общепринятые названия сущностей и атрибутов. Система хранит синонимы в Entity Data Store и распознает различные атрибуты в Attribute Data Store. Полнота описания увеличивает вероятность корректной идентификации.
Оптимизация под комбинированные запросы: Убедитесь, что страницы, посвященные конкретной сущности, также релевантны запросам, сочетающим название этой сущности и ее ключевые атрибуты (например, [головная боль] + [мигрень]). Это напрямую влияет на Summary Score в одном из методов.
Семантическая разметка и структура: Используйте структурированные данные (Schema.org) для явного указания сущностей и их свойств. Четкая структура документа (заголовки, списки) помогает системе на этапе индексации корректно аннотировать ваш ресурс связями с сущностями.

Worst practices (это делать не надо)

Перечисление атрибутов без контекста: Создание страниц, которые просто перечисляют множество атрибутов (например, симптомов) без глубокого объяснения их связи с конкретными сущностями (болезнями), неэффективно. Система ищет подтверждение связи в авторитетном контенте.
Игнорирование неоднозначности терминов: Использование терминов, которые могут иметь множество значений, без предоставления достаточного контекста. Система использует NER для разрешения неоднозначностей; отсутствие контекста может привести к тому, что упоминание не будет засчитано как релевантное сущности.
Фокус на редких сущностях без покрытия базовых атрибутов: Попытка оптимизации под очень редкие сущности без подтверждения связи с их основными атрибутами может быть неэффективной, если система не найдет достаточного количества высококачественных результатов для подтверждения этой связи.

Стратегическое значение

Этот патент является важной частью перехода Google к семантическому поиску и подтверждает стратегию, ориентированную на сущности (Entity-Oriented Search). Он демонстрирует, как Google стремится отвечать на сложные, неявно сформулированные запросы пользователей. Для SEO это означает, что стратегия должна быть направлена на построение тематического авторитета и создание контента, который не просто отвечает на запросы, но и помогает поисковой системе строить и верифицировать связи в Графе Знаний (Knowledge Graph). Особенно это критично в YMYL-сферах.

Практические примеры

Сценарий: Оптимизация статьи о медицинском состоянии (на примере Алгоритма Б)

Задача: Улучшить видимость статьи о "Целиакии" по запросам, перечисляющим симптомы.
Исходный запрос пользователя: [вздутие живота, потеря веса, усталость].
Действия Google (Алгоритм Б): Google распознает симптомы (атрибуты) и выполняет поиск. Затем анализирует Топ-50 результатов.
Оптимизация контента: SEO-специалист должен убедиться, что статья о Целиакии (сущность) авторитетна (E-E-A-T) и четко связывает ее с этими симптомами. В тексте должны часто встречаться как название болезни, так и симптомы.
Ожидаемый результат: Если статья попадает в Топ-50 по исходному запросу и содержит достаточное количество упоминаний "Целиакия", система вычислит высокий Initial Score. Это приведет к высокому Final Score для сущности "Целиакия", и она будет предложена пользователю как возможный ответ.

Сценарий: Создание контента для охвата комбинированных запросов (на примере Алгоритма А)

Задача: Повысить релевантность сайта о фильмах для запросов об актерах.
Исходный запрос пользователя: [Леонардо Ди Каприо, Кристофер Нолан]. (Атрибуты).
Действия Google (Алгоритм А): Google распознает атрибуты фильма. Генерирует комбинированные запросы: [Леонардо Ди Каприо, Кристофер Нолан] + ["Титаник"], [Леонардо Ди Каприо, Кристофер Нолан] + ["Начало"], и т.д.
Оптимизация контента: SEO-специалист должен убедиться, что страница фильма "Начало" оптимизирована таким образом, чтобы высоко ранжироваться по запросу, включающему имена актера и режиссера. Это требует наличия качественного контента и ссылок, подтверждающих эту связь.
Ожидаемый результат: Поисковая выдача по комбинированному запросу для "Начало" будет содержать высококачественные результаты (включая оптимизированную страницу). Это приведет к высокому Summary Score для сущности "Начало", и фильм будет предложен пользователю.

Что такое Attribute Data Store и как он формируется?

Это хранилище терминов и фраз, которые система идентифицирует как атрибуты (признаки) определенных типов сущностей (например, симптомы для болезней). Он формируется офлайн с помощью Query Classifier — системы машинного обучения, которая анализирует логи прошлых запросов и определяет, какие из них похожи на перечисление атрибутов. Также он может пополняться терминами, которые часто встречаются в ресурсах, связанных с определенным типом сущности.

Патент описывает несколько разных методов. Google использует их все одновременно?

Патент защищает все описанные методы (анализ исходной выдачи, комбинированные запросы, модификация запроса, анализ аннотаций). Google может использовать один из них, комбинацию нескольких или выбирать метод динамически в зависимости от типа запроса, доступных данных и необходимой скорости ответа. Важно понимать принципы работы каждого из них, так как они могут влиять на выдачу в разных ситуациях.

Что важнее для идентификации сущности: качество моего сайта или частота упоминания атрибутов?

Оба фактора критичны и взаимосвязаны. Система использует результаты поиска для оценки связи между атрибутами и сущностями. Если ваш сайт не считается качественным и не попадает в топ выдачи (по исходному или комбинированному запросу), информация из него не будет учтена или получит низкий вес (Initial Score или Summary Score). Качество сайта (E-E-A-T) первично для попадания в выборку, а четкая связь атрибутов и сущностей в контенте необходима для получения высокой итоговой оценки.

Как нормализация по IDF влияет на выбор сущностей?

Использование Inverse Document Frequency (IDF) призвано снизить оценки для очень распространенных сущностей, которые часто упоминаются в интернете. Если не использовать IDF, такие сущности могут получать завышенные оценки просто из-за своей популярности, вытесняя более релевантные, но менее известные сущности. Это помогает Google находить более точные ответы на запрос пользователя.

Что такое аннотации в индексе и как они используются?

В некоторых вариантах реализации система на этапе индексации анализирует документы и добавляет к ним метаданные (аннотации). Эти аннотации могут указывать, что документ связан с определенным типом сущности (например, "медицина") или с конкретной сущностью (например, "диабет"). При обработке запроса система может быстро проверить эти аннотации у топовых результатов, чтобы определить, какие сущности чаще всего связаны с темой запроса.

Как система обрабатывает неоднозначные названия сущностей?

Патент упоминает использование методов распознавания именованных сущностей (Named Entity Recognition, NER). Если имя сущности может использоваться в разных контекстах, система анализирует окружающий текст, чтобы определить, действительно ли данное упоминание относится к искомой сущности. Упоминания, не относящиеся к нужному контексту, игнорируются при подсчете оценок.

Применяется ли этот патент только к медицинской тематике?

Нет. Хотя большинство примеров в патенте относятся к медицине (симптомы и болезни), описанные механизмы универсальны и применяются к любым четко определенным типам сущностей и их атрибутам. В патенте также упоминаются фильмы (атрибуты: актеры, режиссеры) и книги (атрибуты: темы, авторы). Это может применяться к продуктам, рецептам, персонам и так далее.

Что значит "максимально уточнить выбранные сущности" (maximally refine the selected entities) при генерации подсказок?

Система может предлагать дополнительные атрибуты (подсказки), чтобы помочь пользователю сузить поиск. "Максимальное уточнение" означает выбор таких атрибутов, которые, если их выберет пользователь, приведут к наибольшему изменению в списке предложенных сущностей. Это помогает быстрее найти правильный ответ, предлагая наиболее дифференцирующие признаки.

Как SEO-специалисту использовать знание о методе комбинированных запросов?

Метод комбинированных запросов оценивает сущность по качеству выдачи для запроса [исходный запрос] + [имя сущности]. Это означает, что страницы, посвященные сущности, должны быть хорошо оптимизированы не только под название сущности, но и под сочетание ее названия с ключевыми атрибутами. Необходимо убедиться, что такая страница авторитетна и релевантна обоим компонентам запроса.

Может ли система изменить стандартную выдачу на основе этих механизмов?

Да. Патент описывает несколько вариантов вывода результата. Система может показать блок с идентифицированными сущностями отдельно от стандартных результатов. Она также может продвигать в ранжировании (promote) те результаты исходного запроса, которые связаны с выбранными сущностями. В одном из вариантов система может полностью заменить стандартную выдачу результатами, собранными из комбинированных запросов (Combined Search Results).

Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам), анализируя результаты поиска и аннотации индекса

Google использует систему для ответа на запросы, которые перечисляют атрибуты (например, симптомы), но ищут сущность (например, болезнь). Система определяет связь между ними, используя несколько методов: предварительное аннотирование индекса связями сущностей, анализ частоты упоминания сущностей в топе выдачи или генерацию комбинированных запросов. Также система предлагает дополнительные атрибуты для уточнения.

US8856099B1
2014-10-07

Индексация
Семантика и интент
SERP

Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам) в запросе пользователя

Google использует несколько методов для ответа на запросы, которые описывают атрибуты (например, симптомы) и подразумевают поиск соответствующей сущности (например, болезни). Система может генерировать множество комбинированных запросов (Атрибут + Сущность), изменять исходный запрос (Атрибут + Тип Сущности) или анализировать выдачу по исходному запросу для выявления часто упоминаемых сущностей. Это позволяет предоставлять список релевантных сущностей и предлагать дополнительные атрибуты для уточнения поиска.

US8473489B1
2013-06-25

Семантика и интент
SERP

Как Google связывает запросы с сущностями для формирования выдачи, подсказок и определения доминирующего интента

Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.

US20160224621A1
2016-08-04

Семантика и интент
Knowledge Graph
SERP

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google изучает свойства и атрибуты сущностей, анализируя логи поисковых запросов пользователей

Google использует автоматизированный метод для построения базы знаний о сущностях (Entity) и их атрибутах (Attribute). Система анализирует миллионы поисковых запросов, выявляя лингвистические паттерны (например, «столица Франции»). Это позволяет понять, какие атрибуты важны для разных типов сущностей (например, «население» для города, «побочные эффекты» для лекарства), и сформировать структурированное знание об объектах реального мира.

US8005842B1
2011-08-23

Knowledge Graph
Семантика и интент

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц

Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.

US9081832B2
2015-07-14

Ссылки
SERP
Свежесть контента

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google использует историю чтения новостных сайтов для определения географических интересов пользователя и персонализации выдачи

Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.

US20130246381A1
2013-09-19

Персонализация
Поведенческие сигналы
SERP

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента

Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.

US9268880B2
2016-02-23

Персонализация
Семантика и интент
Мультимедиа

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete

Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.

US20140108445A1
2014-04-17

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR

Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.

US9569432B1
2017-02-14

SERP
Поведенческие сигналы
Персонализация