Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам) в запросе пользователя

IDENTIFYING ENTITIES USING SEARCH RESULTS (Идентификация сущностей с использованием результатов поиска)

US8473489B1
Google LLC
2011-09-27
2013-06-25

Google использует несколько методов для ответа на запросы, которые описывают атрибуты (например, симптомы) и подразумевают поиск соответствующей сущности (например, болезни). Система может генерировать множество комбинированных запросов (Атрибут + Сущность), изменять исходный запрос (Атрибут + Тип Сущности) или анализировать выдачу по исходному запросу для выявления часто упоминаемых сущностей. Это позволяет предоставлять список релевантных сущностей и предлагать дополнительные атрибуты для уточнения поиска.

Какую проблему решает

Патент решает задачу интерпретации поисковых запросов, которые содержат описание атрибутов (attributes) или признаков, но не называют саму сущность (entity). Цель — ответить на подразумеваемый вопрос пользователя: "Какая сущность соответствует этим атрибутам?". В патенте в качестве основного примера рассматривается медицинский поиск: пользователь вводит симптомы (атрибуты), а система должна идентифицировать соответствующие заболевания (сущности).

Что запатентовано

Запатентована система для идентификации сущностей на основе анализа результатов поиска. Когда система определяет, что запрос содержит атрибуты определенного типа сущности (например, симптомы для типа "медицинское состояние"), она использует один или несколько методов для определения конкретных сущностей. Эти методы включают анализ результатов поиска по исходному запросу, по модифицированным запросам (добавление типа сущности) или по серии комбинированных запросов (исходный запрос + название конкретной сущности).

Как это работает

Система работает по нескольким сценариям (embodiments):

Триггер: Система определяет, что запрос содержит известные атрибуты (используя Attribute Data Store) и что пользователь, вероятно, ищет сущности определенного типа.
Метод 1 (Комбинированные запросы): Генерируется множество запросов, каждый из которых сочетает исходный запрос с названием конкретной сущности (например, [моя нога болит "подагра"], [моя нога болит "тендинит"]). Результаты поиска для каждого запроса оцениваются, и для каждой сущности вычисляется сводная оценка (Summary Score).
Метод 2 (Модифицированный запрос): Генерируется запрос, сочетающий исходный запрос с названием типа сущности (например, [моя нога болит "медицинское состояние"]). В результатах поиска анализируется совместная встречаемость (co-occurrence) терминов исходного запроса и названий конкретных сущностей.
Метод 3 (Анализ исходного запроса): Анализируются топовые результаты по исходному запросу. Система подсчитывает упоминания различных сущностей в этих результатах и ранжирует их на основе частоты упоминаний и позиций документов.
Вывод и Уточнение: Наиболее релевантные сущности выводятся пользователю. Система также может генерировать предложения атрибутов (Attribute Suggestions) для уточнения поиска.

Актуальность для SEO

Высокая. Идентификация сущностей и понимание их связей с атрибутами являются фундаментом современного поиска (Knowledge Graph, MUM). Описанные механизмы напрямую связаны с тем, как Google обрабатывает запросы, особенно в YMYL-тематиках (медицина), стремясь предоставить структурированные ответы и возможности для уточнения интента.

Важность для SEO

Влияние на SEO значительно (8/10). Патент раскрывает конкретные механизмы, с помощью которых Google связывает атрибуты и сущности. Для ранжирования в таких сценариях критически важно, чтобы контент четко ассоциировал сущность с ее атрибутами и был оптимизирован не только под общие запросы (атрибуты), но и под комбинированные запросы (атрибут + сущность). Это особенно важно для сайтов, фокусирующихся на продуктах, заболеваниях, фильмах, книгах и т.д.

Термины и определения

Attribute (Атрибут): Признак, свойство или характеристика сущности. В примерах патента это медицинские симптомы (например, "головная боль", "тошнота").
Attribute Data Store (Хранилище данных атрибутов): База данных, содержащая термины, идентифицированные как атрибуты для определенного типа сущности. Может содержать "белый список" (whitelist) терминов или данные из предыдущих запросов, классифицированных как относящиеся к данному типу.
Attribute Suggestions (Предложения атрибутов): Дополнительные атрибуты, предлагаемые пользователю для уточнения исходного запроса. Цель — максимально сузить (maximally refine) список идентифицированных сущностей.
Combined Search Query (Комбинированный поисковый запрос): Запрос, сгенерированный системой, который включает исходный запрос пользователя и название конкретной сущности (например, [симптом] AND [болезнь]) или, в другом варианте, исходный запрос и название типа сущности.
Entity (Сущность): Объект или концепция определенного типа, которую система пытается идентифицировать на основе атрибутов в запросе. В примерах патента это медицинские состояния (болезни, расстройства).
Entity Data Store (Хранилище данных сущностей): База данных, содержащая названия сущностей определенного типа (например, список болезней), включая научные названия и синонимы.
Inverse Document Frequency (Обратная частота документа, IDF): Метрика, используемая для нормализации оценок сущностей. Позволяет снизить вес общеупотребительных сущностей, которые могут иметь завышенные оценки.
Summary Score (Сводная оценка): Оценка, вычисленная для сущности на основе анализа результатов поиска (например, сумма или среднее значение оценок ранжирования документов, полученных по комбинированному запросу для этой сущности).

Ключевые утверждения (Анализ Claims)

Патент US8473489B1 является частью семейства патентов, описывающих разные методы идентификации сущностей. Конкретно этот патент фокусируется в своих Claims на методе модификации запроса путем добавления типа сущности.

Claim 1 (Независимый пункт): Описывает метод идентификации сущностей путем модификации запроса.

Система определяет, что первый запрос содержит текстовые ссылки на один или несколько предопределенных атрибутов, связанных с первым типом сущности.
Генерируется второй запрос, включающий первый запрос и один или несколько терминов, ссылающихся на первый тип сущности (например, добавление слова "болезнь" или "медицинское состояние").
Оцениваются результаты поиска, полученные по второму запросу, для выбора названий сущностей первого типа.
Ключевой аспект оценки: Идентификация вхождений ссылок на сущности в том же ресурсе (документе), что и термины из первого запроса. Выбор названий сущностей основывается на этих идентифицированных вхождениях (анализ совместной встречаемости).

Claim 5 (Зависимый): Уточняет, что система может предварительно идентифицировать ресурсы, содержащие ссылки на сущности данного типа, и аннотировать (annotating) их в индексной базе данных.

Claim 6 (Зависимый от 5): Выбор названий сущностей включает выбор тех, которые наиболее часто (most frequently) встречаются в одном и том же ресурсе (с атрибутами из запроса).

Claim 9 (Зависимый): Описывает генерацию предложений атрибутов (Attribute Suggestions).

Claim 10 (Зависимый от 9): Предложения атрибутов выбираются так, чтобы они максимально уточняли (maximally refine) выбранные сущности.

Claims 14 и 15 (Зависимые от 9): Описывают реакцию на выбор пользователя: если пользователь подтверждает атрибут, генерируется новый запрос с его добавлением (AND); если отрицает — генерируется запрос с его исключением (NOT).

Где и как применяется

Изобретение затрагивает несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных. Система анализирует ресурсы для идентификации сущностей и их атрибутов. Ресурсы могут быть аннотированы (annotated) в индексе для указания того, какие сущности или типы сущностей в них упоминаются. Также офлайн генерируются Entity Data Store и Attribute Data Store.

QUNDERSTANDING – Понимание Запросов
Основной этап активации. Система анализирует запрос, чтобы определить, содержит ли он атрибуты из Attribute Data Store и следует ли активировать механизм идентификации сущностей. Также на этом этапе могут генерироваться Attribute Suggestions.

RANKING – Ранжирование
Система выполняет поисковые запросы. В зависимости от реализации это может быть исходный запрос, модифицированный запрос (Атрибут + Тип Сущности) или множество комбинированных запросов (Атрибут + Сущность). Система получает стандартные оценки ранжирования (scores) для результатов.

RERANKING / METASEARCH – Переранжирование и Смешивание
На этом этапе происходит оценка результатов поиска для идентификации сущностей. Вычисляются Summary Scores для сущностей или анализируется совместная встречаемость. Финальный список сущностей формируется и предоставляется пользователю, часто отдельно от стандартных синих ссылок.

Входные данные:

Исходный запрос пользователя.
Attribute Data Store (список атрибутов).
Entity Data Store (список сущностей и их синонимов).
Индексная база данных (содержащая контент ресурсов и, возможно, аннотации о сущностях).

Выходные данные:

Список идентифицированных сущностей, релевантных запросу.
Список Attribute Suggestions для уточнения.
Модифицированная страница результатов поиска (SERP).

На что влияет

Конкретные ниши или тематики: Наибольшее влияние оказывается на тематики, где объекты четко определяются набором признаков. Основной пример в патенте — медицина (YMYL). Другие возможные применения: выбор продуктов по характеристикам, идентификация фильмов по актерам/сюжету, книг по темам.
Специфические запросы: Влияет на информационные запросы, которые носят описательный характер и подразумевают идентификацию (например, "почему у меня болит нога" вместо "лечение подагры").

Когда применяется

Триггеры активации: Механизм активируется, когда система определяет, что запрос включает текстовые ссылки на один или несколько предопределенных атрибутов (predetermined attributes). Это может определяться исключительно по тексту запроса.
Условия срабатывания: Проверка наличия терминов запроса в Attribute Data Store. Также может использоваться проверка на отсутствие терминов из "черного списка" (blacklist) или проверка того, что в запросе нет названия самой сущности.

Пошаговый алгоритм

Патент описывает несколько альтернативных методов (embodiments) для идентификации сущностей. Ниже представлены три основных метода, детализированных в описании патента.

Общий этап: Активация

Получение запроса.
Анализ запроса: Определение, следует ли возвращать названия сущностей определенного типа. Проверка наличия терминов в Attribute Data Store.
Решение: Если да, переход к одному из методов идентификации. Если нет, обработка запроса стандартным образом.

Метод 1: Комбинированные запросы (Query + Entity Name) (Описан в FIG. 4, 5)

Генерация запросов: Для каждой сущности из набора (например, из Entity Data Store) генерируется комбинированный запрос: Исходный запрос + Название сущности.
Получение результатов: Выполнение каждого комбинированного запроса.
Вычисление Summary Score: Для каждой сущности генерируется сводная оценка на основе оценок ранжирования (scores) полученных результатов (например, сумма или среднее).
Нормализация (Опционально): Корректировка Summary Score с использованием Inverse Document Frequency (IDF) названия сущности для снижения веса общеизвестных сущностей.
Выбор сущностей: Ранжирование сущностей по Summary Score и выбор Топ-N или тех, что превышают порог.

Метод 2: Модифицированный запрос (Query + Entity Type) (Описан в FIG. 7 и Claim 1)

Генерация запроса: Создание второго запроса: Исходный запрос + Термин, обозначающий Тип Сущности (например, "медицинское состояние").
Получение результатов: Выполнение модифицированного запроса. Система может предпочесть результаты, аннотированные как относящиеся к данному типу сущности.
Анализ совместной встречаемости: В полученных результатах (документах) идентифицируются вхождения названий конкретных сущностей, которые встречаются в том же ресурсе, что и термины исходного запроса.
Ранжирование сущностей: Сущности ранжируются на основе частоты этой совместной встречаемости.
Выбор сущностей: Выбор наиболее часто встречающихся сущностей.

Метод 3: Анализ результатов исходного запроса (Описан в FIG. 8, 9)

Получение результатов: Выполнение исходного запроса.
Идентификация вхождений: В ресурсах, идентифицированных результатами поиска (например, в Топ-N), подсчитывается количество вхождений названий различных сущностей. Может использоваться распознавание именованных сущностей (NER) для разрешения неоднозначностей.
Вычисление оценок: Для каждой сущности генерируется оценка. Она может основываться на количестве вхождений и ранге/оценке документа, в котором найдено вхождение (более высокий ранг документа дает больший вес).
Агрегация и Выбор: Агрегация оценок для каждой сущности по всем документам и выбор сущностей с наивысшими оценками.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структуры данных и анализе результатов поиска.

Контентные факторы: Содержимое ресурсов (текст) используется для анализа совместной встречаемости атрибутов и сущностей (Методы 2 и 3). Также используются названия сущностей и их синонимы.
Системные данные:
- Attribute Data Store: Используется для определения того, содержит ли запрос атрибуты и следует ли запускать механизм.
- Entity Data Store: Предоставляет список сущностей для генерации комбинированных запросов (Метод 1) или для идентификации в тексте (Методы 2 и 3).
- Оценки ранжирования (Scores): Стандартные оценки, присваиваемые поисковой системой результатам поиска. Они используются для вычисления Summary Score (Метод 1) или для взвешивания вхождений сущностей (Метод 3).
- Аннотации в индексе: Предварительно вычисленные данные, указывающие, какие сущности или типы сущностей упоминаются в ресурсе.
Поведенческие факторы (Косвенно): Упоминается, что Attribute Data Store может пополняться путем анализа ранее отправленных запросов (previously submitted queries) с помощью классификатора запросов (query classifier).

Какие метрики используются и как они считаются

Summary Score (Сводная оценка): Агрегированная метрика качества результатов для комбинированного запроса (Метод 1). Может быть суммой, средним (арифметическим, гармоническим, геометрическим) или другой функцией от оценок ранжирования документов.
Частота совместной встречаемости (Co-occurrence Frequency): Количество случаев, когда название сущности и атрибуты из запроса появляются в одном и том же документе (Метод 2).
Взвешенная частота вхождений (Метод 3): Оценка сущности рассчитывается на основе количества ее упоминаний в документе, взвешенного на ранг или оценку этого документа.
Нормализация по IDF: Оценки сущностей могут быть нормализованы с использованием обратной частоты документа (IDF) названия сущности: $Score_{Normalized} = f(Score, IDF_{Entity})$ .
Максимальное уточнение (Maximal Refinement): Метрика для выбора Attribute Suggestions. Выбираются атрибуты, которые приведут к наибольшему изменению в списке отображаемых сущностей, если пользователь их выберет.

Многообразие методов идентификации сущностей: Google патентует несколько различных подходов к связыванию атрибутов в запросе с конкретными сущностями. Это включает прямую проверку релевантности (Комбинированные запросы), анализ категоризированного контента (Модифицированные запросы) и анализ совместной встречаемости в общей выдаче (Анализ исходного запроса).
Важность связи "Атрибут-Сущность" в контенте: Все методы полагаются на то, что в интернете существует контент, который четко связывает сущности с их атрибутами. Сила этой связи в контенте (частота упоминаний, совместная встречаемость) напрямую влияет на идентификацию сущности системой.
Нормализация и борьба с популярностью: Система предусматривает механизмы нормализации (например, с помощью IDF), чтобы предотвратить доминирование общеизвестных сущностей над более редкими, но потенциально более релевантными сущностями.
Итеративное уточнение поиска (Attribute Suggestions): Патент описывает механизм активного вовлечения пользователя в уточнение запроса путем предложения дополнительных атрибутов. Система стремится предложить наиболее полезные уточнения (maximally refine), что указывает на сложный анализ взаимосвязей между атрибутами.
Предварительная обработка и аннотирование: Эффективность системы зависит от предварительного анализа контента, включая классификацию запросов для пополнения Attribute Data Store и аннотирование ресурсов в индексе для идентификации упоминаемых в них сущностей.

Best practices (это мы делаем)

Четкая ассоциация сущностей и атрибутов: Создавайте контент, который явно связывает сущности (продукты, заболевания, концепции) с их ключевыми атрибутами (характеристики, симптомы, признаки). Это критично для всех трех методов, описанных в патенте. Например, на странице о заболевании должны быть четко перечислены и описаны его симптомы.
Оптимизация под комбинированные запросы: Анализируйте, как пользователи ищут сущности через атрибуты. Оптимизируйте страницы так, чтобы они были релевантны как запросам по атрибутам (например, "боль в ноге"), так и комбинированным запросам (например, "боль в ноге тендинит"). Это повышает вероятность высокого Summary Score в Методе 1.
Комплексное покрытие атрибутов: Обеспечьте полное описание всех релевантных атрибутов сущности. Это не только улучшает качество контента, но и увеличивает вероятность того, что ваша страница будет использоваться для генерации Attribute Suggestions и будет релевантна уточненным запросам пользователя.
Использование синонимов и терминологии: Включайте как научные, так и общепринятые названия сущностей и атрибутов, так как Entity Data Store содержит оба варианта.
Структурирование контента для категоризации (Метод 2): Если вы работаете в нише, где применим Метод 2 (например, медицина), убедитесь, что ваш контент четко позиционируется как относящийся к данному типу сущности (например, содержит термины "заболевание", "синдром"), чтобы он ранжировался по модифицированным запросам.

Worst practices (это делать не надо)

Размытие связи между атрибутами и сущностями: Создание контента, который перечисляет множество атрибутов без четкой привязки к конкретным сущностям, или наоборот, обсуждение сущности без упоминания ее ключевых атрибутов.
Игнорирование неоднозначности (Ambiguity): Использование названий сущностей или атрибутов, которые имеют другие популярные значения, без предоставления достаточного контекста для систем распознавания именованных сущностей (NER). Патент упоминает необходимость разрешения таких неоднозначностей.
Переоптимизация под общие атрибуты: Фокус исключительно на высокочастотных запросах по атрибутам без работы над контентом, описывающим саму сущность. Это может привести к ранжированию в Методе 3, но не обеспечит сильных сигналов в Методах 1 и 2.

Стратегическое значение

Патент подтверждает стратегию Google по переходу от поиска по ключевым словам к пониманию сущностей и ответу на подразумеваемые вопросы. Он демонстрирует технические методы, используемые для построения связей в Knowledge Graph на лету, основываясь на контенте веба. Для SEO это подчеркивает необходимость фокусироваться на построении семантически богатого контента, который точно и полно описывает сущности и их взаимосвязи с атрибутами.

Практические примеры

Сценарий: Оптимизация страницы медицинского сайта о "Тендините"

Анализ Атрибутов: Определить ключевые симптомы (атрибуты): "боль при движении", "отек сухожилия", "покраснение в области сустава".
Применение Метода 1 (Комбинированные запросы): Убедиться, что страница оптимизирована под запросы типа [боль при движении тендинит], [отек сухожилия тендинит]. Текст должен содержать фразы, прямо связывающие симптом и болезнь.
Применение Метода 2 (Тип сущности): Убедиться, что страница содержит термины, определяющие тип сущности ("заболевание", "воспаление сухожилия"), и что в тексте часто встречаются комбинации симптомов и названия болезни (для анализа совместной встречаемости).
Применение Метода 3 (Анализ исходного запроса): Убедиться, что страница достаточно авторитетна, чтобы ранжироваться по общим запросам о симптомах ("боль при движении"), и что на ней часто и заметно упоминается "Тендинит" как причина.
Attribute Suggestions: Добавить информацию о связанных симптомах или факторах риска (например, "хруст при движении", "возраст старше 40 лет"), чтобы страница помогала пользователю уточнить поиск.

Какие основные методы идентификации сущностей описаны в патенте?

Патент описывает три основных метода. Первый (Комбинированные запросы) включает генерацию множества запросов вида [Атрибут + Конкретная Сущность] и оценку результатов. Второй (Модифицированный запрос, основной для Claims этого патента) включает генерацию запроса [Атрибут + Тип Сущности] и анализ совместной встречаемости атрибутов и сущностей в результатах. Третий метод анализирует результаты по исходному запросу [Атрибут] и подсчитывает упоминания сущностей в топовых документах.

Что такое Attribute Data Store и как он используется?

Это база данных, содержащая термины, которые система идентифицировала как атрибуты для определенного типа сущности (например, список симптомов). Она используется как триггер: если термины из запроса пользователя найдены в этом хранилище, система понимает, что пользователь ищет сущность по ее признакам, и запускает описанные в патенте механизмы идентификации.

Как система определяет, какие атрибуты предложить пользователю для уточнения (Attribute Suggestions)?

Система выбирает атрибуты, которые "максимально уточняют" (maximally refine) список уже идентифицированных сущностей. Это означает, что выбираются те атрибуты, подтверждение или отрицание которых пользователем приведет к наибольшему изменению в списке результатов. Это помогает быстрее сузить круг поиска до наиболее релевантной сущности.

Что такое Summary Score и почему он нормализуется?

Summary Score — это сводная оценка релевантности сущности, обычно вычисляемая в Методе 1 как агрегация оценок ранжирования документов, полученных по комбинированному запросу. Он нормализуется (например, с помощью IDF), чтобы снизить влияние очень популярных или часто упоминаемых сущностей, которые могут иметь завышенные оценки просто из-за своей известности, а не из-за релевантности конкретным атрибутам в запросе.

Как этот патент влияет на SEO-стратегию для контентных сайтов?

Он подчеркивает критическую важность четкой и явной связи между сущностями и их атрибутами в контенте. SEO-специалистам необходимо убедиться, что страницы оптимизированы не только под названия сущностей, но и под комбинации "сущность + атрибут". Контент должен быть структурирован так, чтобы поисковые системы могли легко извлечь эти связи для использования в любом из трех описанных методов.

Упоминается ли в патенте аннотирование ресурсов в индексе?

Да, патент явно упоминает возможность анализа ресурсов (например, во время индексации или офлайн) и их аннотирования (annotating) в индексной базе данных. Эти аннотации указывают, какие сущности или типы сущностей упоминаются в ресурсе. Это позволяет системе быстрее находить релевантный контент, особенно при использовании Метода 2 (Модифицированный запрос).

Как обрабатываются неоднозначные названия сущностей?

Патент признает проблему неоднозначности (ambiguity), когда название сущности может использоваться в разных контекстах. Для решения этой проблемы упоминается использование методов распознавания именованных сущностей (Named Entity Recognition, NER). Система стремится учитывать только те вхождения названия, которые действительно относятся к искомой сущности, а не к unrelated context.

Влияет ли авторитетность сайта на эти механизмы?

Патент напрямую не упоминает Site Quality или авторитетность как фактор. Однако все методы полагаются на стандартные оценки ранжирования (scores) поисковой системы. Если авторитетность влияет на эти базовые оценки (что обычно так), то она косвенно влияет и на результат идентификации сущностей. Например, в Методе 3 учитываются только сущности, найденные в топовых результатах поиска.

Применяется ли этот патент только к медицинской тематике?

Хотя все основные примеры в патенте относятся к медицине (симптомы и состояния), описанные технологии сформулированы обобщенно ("Identifying Entities"). Они применимы к любому типу сущностей, имеющему четкий набор атрибутов, например, к идентификации продуктов по характеристикам, фильмов по актерам или сюжетам, книг по темам и т.д.

Как система реагирует, если пользователь выбирает предложенный атрибут?

Патент описывает интерактивный процесс. Если пользователь подтверждает предложенный атрибут (например, нажимает "Да" напротив симптома), система генерирует новый запрос, включающий исходный запрос И этот атрибут. Если пользователь отрицает атрибут (нажимает "Нет"), система генерирует новый запрос с исключением этого атрибута (например, используя оператор NOT или "-").

Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам), анализируя результаты поиска и аннотации индекса

Google использует систему для ответа на запросы, которые перечисляют атрибуты (например, симптомы), но ищут сущность (например, болезнь). Система определяет связь между ними, используя несколько методов: предварительное аннотирование индекса связями сущностей, анализ частоты упоминания сущностей в топе выдачи или генерацию комбинированных запросов. Также система предлагает дополнительные атрибуты для уточнения.

US8856099B1
2014-10-07

Индексация
Семантика и интент
SERP

Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

US8843466B1
2014-09-23

Семантика и интент
Knowledge Graph
Индексация

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google связывает запросы с сущностями для формирования выдачи, подсказок и определения доминирующего интента

Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.

US20160224621A1
2016-08-04

Семантика и интент
Knowledge Graph
SERP

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам

Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.

US8326826B1
2012-12-04

Семантика и интент
Поведенческие сигналы
EEAT и качество

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска

Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.

US8959083B1
2015-02-17

Персонализация
Поведенческие сигналы
SERP

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи

Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.

US9623119B1
2017-04-18

EEAT и качество
Поведенческие сигналы
SERP

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы