Как Google определяет сущности по их атрибутам, анализируя и переранжируя результаты веб-поиска

Google использует результаты веб-поиска для идентификации сущностей (например, медицинских состояний), соответствующих атрибутам (например, симптомам), указанным в запросе. Система генерирует и анализирует результаты для комбинированных запросов (атрибуты + имя сущности), чтобы определить наиболее вероятные сущности или полностью перестроить и переранжировать выдачу, повышая контент, связанный с этими сущностями.

Описание

Какую задачу решает

Патент решает задачу ответа на неявные (implicit) вопросы в поисковых запросах, когда пользователь перечисляет атрибуты (attributes) или признаки и ожидает получить соответствующие им сущности (entities). Например, пользователь вводит симптомы и хочет найти медицинские состояния (болезни). Система стремится идентифицировать эти сущности, используя неструктурированные данные веб-индекса, потенциально уменьшая зависимость от предварительно структурированных баз знаний.

Что запатентовано

Запатентована система для идентификации сущностей на основе атрибутов в запросе, использующая результаты поиска как доказательную базу. Ключевым механизмом является генерация Combined Search Queries (комбинированных запросов), состоящих из исходного запроса и имени сущности-кандидата. Анализ результатов этих запросов позволяет либо выбрать релевантные сущности для отображения (Вариант А), либо сформировать новую, переранжированную поисковую выдачу (Вариант Б).

Как это работает

Патент описывает несколько вариантов реализации. Основной процесс:

Идентификация интента: Определяется, что запрос содержит атрибуты, связанные с определенным типом сущностей (entity type), например, с помощью Attribute Data Store.
Генерация и выполнение запросов: Для множества сущностей создаются и выполняются Combined Search Queries (например, [запрос пользователя] + [имя сущности]).
Вариант А (Выбор сущностей): Для каждой сущности рассчитывается Summary Score на основе оценок результатов ее комбинированного запроса. Лучшие сущности отображаются пользователю (например, в отдельном блоке).
Вариант Б (Переранжирование выдачи, Claim 1): Результаты всех комбинированных запросов объединяются. Для каждого ресурса рассчитывается Combined Score на основе его оценок в разных выдачах. Формируется новая SERP (Combined Search Results), отсортированная по Combined Scores.
Уточнение: Система может предложить Attribute Suggestions для дальнейшего уточнения поиска.

Актуальность для SEO

Высокая. Понимание сущностей, их атрибутов и взаимосвязей является фундаментом современного семантического поиска (Knowledge Graph, MUM). Описанные методы использования веб-индекса для валидации этих связей остаются крайне актуальными, особенно в сложных тематиках и YMYL (здоровье является основным примером в патенте).

Важность для SEO

Патент имеет высокое значение (8/10). Он раскрывает механизмы, позволяющие Google интерпретировать запросы об атрибутах и трансформировать выдачу, фокусируя ее на конкретных сущностях. Это критически важно для контент-стратегии: контент должен не просто упоминать атрибуты, но четко и авторитетно связывать их с соответствующими сущностями. Механизм переранжирования (Вариант Б) может радикально изменить видимость сайтов по запросам, основанным на характеристиках.

Детальный разбор

Термины и определения

Attribute (Атрибут): Характеристика, признак или свойство сущности. В патенте примеры включают медицинские симптомы, актеров фильма или темы книги.
Attribute Data Store (Хранилище атрибутов): База данных (например, whitelist), содержащая термины, идентифицированные как атрибуты для определенного типа сущностей. Может пополняться с помощью Query Classifier.
Attribute Suggestion (Предложение атрибута): Дополнительный атрибут, предлагаемый пользователю для уточнения запроса и сужения списка сущностей.
Combined Search Query (Комбинированный поисковый запрос): Запрос, сгенерированный системой путем объединения исходного запроса (атрибутов) и имени конкретной сущности.
Combined Search Results (Комбинированные результаты поиска): Поисковая выдача (SERP), сформированная путем объединения и переранжирования результатов, полученных по нескольким Combined Search Queries (Вариант Б).
Combined Score (Комбинированная оценка): Оценка ресурса в Варианте Б. Рассчитывается на основе агрегации его оценок (scores) в результатах поиска по разным Combined Search Queries.
Entity (Сущность): Объект определенного типа, обладающий набором атрибутов (например, медицинское состояние, фильм, продукт).
Inverse Document Frequency (IDF): Обратная частота документа. Используется для нормализации оценок сущностей, чтобы снизить влияние слишком часто упоминаемых (популярных) сущностей.
Maximally Refine (Максимальное уточнение): Критерий выбора Attribute Suggestions. Предлагаются атрибуты, выбор которых приведет к наибольшему изменению списка вероятных сущностей.
Query Classifier (Классификатор запросов): Офлайн-компонент, обученный (часто с помощью machine learning) для анализа логов запросов и пополнения Attribute Data Store.
Summary Score (Сводная оценка): Оценка сущности в Варианте А. Рассчитывается на основе агрегации оценок (scores) результатов поиска для Combined Search Query этой сущности.

Ключевые утверждения (Анализ Claims)

Патент описывает несколько вариантов реализации (embodiments). Проанализируем ключевой независимый пункт Claim 1, который защищает механизм переранжирования выдачи (Вариант Б).

Claim 1 (Независимый пункт): Описывает метод генерации Combined Search Results.

Система определяет, что первый запрос содержит ссылки на предопределенные атрибуты (predetermined attributes), связанные с первым типом сущности.
Для множества сущностей этого типа генерируется Combined Search Query (первый запрос + имя сущности).
Получаются результаты поиска от поисковой системы для каждого комбинированного запроса.
Эти результаты используются для генерации Combined Search Results. Механизм включает:
- Генерацию Combined Score для каждого ресурса, найденного в результатах.
- Combined Score ресурса — это комбинация исходных оценок (first scores), которые ресурс получил в ответ на разные комбинированные запросы.
- Ранжирование полученных результатов на основе их Combined Scores.

Ядро изобретения в Claim 1 — это создание новой SERP путем агрегации сигналов ранжирования из множества entity-centric поисков. Если запрос похож на поиск по атрибутам, система проверяет гипотезы о возможных сущностях и перестраивает выдачу, повышая ресурсы, которые были высоко релевантны наиболее вероятным сущностям.

Claim 7 (Зависимый от 1): Уточняет ранжирование для обеспечения разнообразия (Diversity).

Система может понижать (demoting) результат в общем рейтинге, если слишком много вышестоящих результатов были получены в ответ на тот же самый Combined Search Query (превышен порог).

Этот механизм предотвращает доминирование в выдаче результатов, связанных только с одной конкретной сущностью.

Другие методы (описаны в Description):

Патент также описывает метод выбора имен сущностей (Вариант А, FIG. 4/5), где система рассчитывает Summary Score для каждой сущности и выбирает лучшие для показа (например, в отдельном блоке). Также описаны методы, использующие аннотации индекса (FIG. 7, 8) и прямой анализ SERP (FIG. 9).

Где и как применяется

Изобретение затрагивает несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе могут происходить офлайн-процессы:

Анализ ресурсов для тренировки Query Classifier.
В некоторых вариантах (FIG 7, 8): аннотирование (annotating) ресурсов в индексе метками, указывающими на связанные сущности. Использование Named Entity Recognition (NER) для идентификации сущностей.
Расчет IDF для имен сущностей.

QUNDERSTANDING – Понимание Запросов
Основной этап активации:

Анализ запроса на наличие терминов из Attribute Data Store.
Определение соответствующего Entity Type.
Принятие решения об активации механизма идентификации сущностей и выборе метода (Вариант А или Б).

RANKING – Ранжирование
Система запускает параллельные процессы ранжирования для множества сгенерированных Combined Search Queries, получая первичные результаты и их оценки (scores).

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Финальный этап обработки:

Вариант А: Расчет Summary Scores и выбор Топ-N сущностей. Список передается для встраивания в выдачу (METASEARCH).
Вариант Б (Claim 1): Агрегация результатов, расчет Combined Scores для ресурсов и формирование финальной SERP (RERANKING). Применение механизма разнообразия (Claim 7).
Генерация Attribute Suggestions.

На что влияет

Конкретные ниши или тематики: Наибольшее влияние в нишах с четкой структурой «Сущность-Атрибут». Это критично для YMYL (здоровье: симптомы -> болезни), E-commerce (характеристики -> товары), развлечений (актеры/сюжет -> фильмы).
Специфические запросы: Информационные запросы, содержащие перечисление признаков или свойств без явного указания сущности (например, «легкий ноутбук с долгим временем работы»).

Когда применяется

Триггеры активации: Запрос содержит один или несколько терминов, присутствующих в Attribute Data Store для определенного Entity Type.
Альтернативный триггер: Анализ стандартной выдачи показывает, что значительное количество результатов относится к нужному типу сущностей.
Исключения: Механизм может не активироваться, если запрос содержит термин из «черного списка» (blacklist) (пример: «you give me fever» – песня) или если в запросе уже указана конкретная сущность того же типа. Также может не активироваться, если качество стандартной выдачи значительно превосходит качество комбинированной.

Пошаговый алгоритм

Патент описывает несколько алгоритмов. Рассмотрим два основных.

Алгоритм А: Идентификация и показ сущностей (FIG. 4 и 5)

Получение запроса и Определение Интента: Система получает запрос и определяет необходимость возврата сущностей определенного типа.
Выбор Кандидатов: Выбирается набор сущностей-кандидатов из Entity Data Store.
Генерация Комбинированных Запросов: Для каждого кандидата генерируется Combined Search Query (исходный запрос + имя сущности).
Выполнение Поиска: Получение результатов и их оценок (scores) для каждого комбинированного запроса.
Вычисление Summary Score: Для каждой сущности вычисляется Summary Score путем агрегации оценок Топ-N результатов (например, сумма, среднее).
Нормализация (Опционально): Корректировка Summary Score с помощью IDF имени сущности.
Выбор Сущностей: Ранжирование сущностей по Summary Score и выбор лучших.
Отображение: Имена выбранных сущностей включаются в ответ (например, в отдельном блоке).

Алгоритм Б: Генерация Комбинированных Результатов Поиска (FIG. 6, Claim 1)

Шаги 1-4: Аналогично Алгоритму А (Интент, Генерация и Выполнение Комбинированных Запросов).
Агрегация результатов: Все полученные результаты собираются в единый пул.
Вычисление Combined Score: Для каждого уникального ресурса в пуле рассчитывается Combined Score путем агрегации его оценок (first scores) из разных наборов. Функции агрегации: максимум, среднее, Soft Maximum.
Ранжирование и Фильтрация: Все результаты ранжируются по Combined Score. Дубликаты удаляются.
Обеспечение Разнообразия (Claim 7): Понижение (demoting) результатов, если слишком много топовых результатов пришло от одного и того же комбинированного запроса.
Отображение: Сформированный набор Combined Search Results предоставляется пользователю как основная выдача.

Какие данные и как использует

Данные на входе

Системные данные (Базы знаний):
- Entity Data Store: Список сущностей и их синонимов.
- Attribute Data Store: Список известных атрибутов (whitelist).
- Blacklist: Список фраз-исключений.
Индексные данные:
- Index Database: Индекс ресурсов.
- (Опционально) Аннотации ресурсов: метки связи ресурса с сущностями.
- Inverse document frequency (IDF) имен сущностей.
Данные реального времени:
- Исходный запрос пользователя.
- Результаты поиска и их Ranking Scores (first scores) для сгенерированных запросов.
Поведенческие факторы (для обучения): Журналы запросов (query logs) используются офлайн для обучения Query Classifier.
Контентные факторы: В некоторых методах анализируется контент ресурсов для подсчета упоминаний сущностей (с использованием NER).

Какие метрики используются и как они считаются

Summary Score (для сущности): Агрегация Ranking Scores результатов для Combined Search Query. Функции: сумма, среднее (арифметическое, гармоническое, геометрическое), сумма логарифмов.
Combined Score (для ресурса): Агрегация Ranking Scores ресурса из разных наборов результатов. Функции: максимум, среднее, Soft Maximum. Формула Soft Maximum, указанная в патенте: log(exp(S1)+exp(S2)+…+exp(SN)).
Нормализация: Применение IDF имени сущности к Summary Score.
Метрики для Attribute Suggestions: Оценка того, насколько атрибут может maximally refine набор сущностей. Оценка пересечения (overlap) между атрибутами для обеспечения разнообразия предложений.

Выводы

Ответы на неявные вопросы через анализ Веб-Индекса: Патент демонстрирует, как Google использует неструктурированный веб-контент и существующие сигналы ранжирования для установления связей между атрибутами и сущностями. Система не полагается только на структурированные данные (Knowledge Graph).
Множественные стратегии идентификации: Описано несколько методов (ранжирование сущностей, переранжирование выдачи, прямой анализ SERP, использование аннотаций индекса), что дает системе гибкость в подходе к идентификации сущностей.
Переранжирование на основе предполагаемых сущностей (Claim 1): Механизм Combined Search Results критически важен. Он позволяет полностью перестроить выдачу, смещая фокус с буквальной релевантности ключевым словам (атрибутам) к релевантности предполагаемым сущностям.
Важность авторитетности для ассоциаций: Поскольку методы используют стандартные Ranking Scores, ассоциации между атрибутами и сущностями, найденные на более авторитетных сайтах, будут иметь больший вес при расчете Summary Score и Combined Score.
Обеспечение разнообразия (Claim 7): Система активно борется с доминированием одной сущности в переранжированной выдаче, используя механизм понижения (demoting).
Уточнение поиска (Refinement): Система активно предлагает Attribute Suggestions, выбирая их стратегически, чтобы maximally refine результаты, что указывает на сложное понимание взаимосвязей между атрибутами.

Практика

Best practices (это мы делаем)

Четкая ассоциация сущностей и атрибутов: Контент должен явно и авторитетно связывать сущности с их ключевыми атрибутами. Если вы пишете о продукте (сущность), четко описывайте его характеристики и сценарии использования (атрибуты). Это помогает системе идентифицировать ваш контент как релевантный для Combined Search Queries.
Оптимизация под связки «Сущность + Атрибут»: Необходимо стремиться к высокому ранжированию по запросам вида [Имя Сущности] + [Атрибут(ы)]. Высокие Ranking Scores по таким запросам напрямую влияют на расчет Summary Score и Combined Score, что повышает видимость страницы по запросам, состоящим только из атрибутов.
Полнота описания атрибутов (Attribute Coverage): Всесторонне описывайте релевантные атрибуты сущности. Используйте стандартную, распознаваемую терминологию, чтобы облегчить сопоставление с Attribute Data Store.
Использование микроразметки (Schema.org) и NER-оптимизация: Структурируйте данные о сущностях и их атрибутах (например, Product и свойства, MedicalCondition и signOrSymptom). Используйте ясные и недвусмысленные названия сущностей, чтобы помочь системам Named Entity Recognition (NER), упомянутым в патенте.
Построение тематической авторитетности: Развивайте авторитет в темах, охватывающих ключевые сущности. Авторитетные ресурсы получают более высокие базовые Ranking Scores, что усиливает их влияние в описанных механизмах.

Worst practices (это делать не надо)

Размытое описание или перечисление атрибутов без контекста: Создание контента, который перечисляет атрибуты без глубокой привязки к конкретным сущностям. Такой контент вряд ли будет высоко ранжироваться по Combined Search Queries.
Игнорирование неявных интентов: Фокусировка только на запросах, содержащих имя сущности, и игнорирование запросов по атрибутам. Патент показывает, что Google активно таргетирует такие запросы и может изменять для них выдачу.
Разделение сущностей и атрибутов на разные страницы: Создание отдельных страниц для сущности и ее атрибутов без четкой связи усложняет для Google установление связи между ними в контексте описанных алгоритмов.

Стратегическое значение

Патент подтверждает стратегию Google на переход к семантическому поиску, основанному на сущностях (Entity-Based Search). Он показывает, как Google интерпретирует интент пользователя как поиск сущности, даже если запрос выглядит как набор характеристик, и активно модифицирует выдачу на основе этой интерпретации. Для долгосрочного SEO необходимо фокусироваться на построении семантических связей в контенте и демонстрации экспертизы в отношении ключевых сущностей и их атрибутов.

Практические примеры

Сценарий: Оптимизация страницы о медицинском состоянии (YMYL)

Анализ Интента: Пользователь ищет [сильная головная боль и тошнота] (Атрибуты). Целевые сущности: Мигрень, Сотрясение мозга и т.д.
Действия SEO: Создать авторитетную страницу о Мигрени. В контенте четко указать: «Сильная головная боль и сопутствующая тошнота являются основными симптомами мигрени…». Использовать разметку MedicalCondition.
Механизм Google (Алгоритм Б — Переранжирование): Google генерирует Combined Search Query: [сильная головная боль и тошнота] + [Мигрень]. Если ваша страница авторитетна, она получит высокий Ranking Score (first score) по этому запросу.
Расчет Combined Score: Система агрегирует эту высокую оценку (возможно, с оценками из других запросов, если страница релевантна и им).
Ожидаемый результат: Ваша страница о Мигрени получает высокий Combined Score и занимает высокое место в выдаче по исходному запросу [сильная головная боль и тошнота], вытесняя менее авторитетные или общие статьи.

Вопросы и ответы

Что такое «Combined Search Query» и как он работает?

Combined Search Query — это внутренний запрос, который система генерирует, объединяя исходный запрос пользователя (состоящий из атрибутов) с именем известной сущности. Например, если пользователь ищет [симптом А и симптом Б], система создаст запросы: [симптом А и симптом Б + Заболевание X], [симптом А и симптом Б + Заболевание Y]. Анализ качества результатов этих запросов позволяет оценить, насколько вероятно, что данная сущность соответствует исходным атрибутам.

Патент описывает два основных результата: выбор сущностей (Вариант А) и смешанную выдачу (Вариант Б). В чем разница?

В Варианте А система ранжирует сами сущности (используя Summary Score) и показывает их список, часто в отдельном блоке, дополняя стандартную выдачу. В Варианте Б (Combined Search Results, Claim 1) система переранжирует документы (используя Combined Score) и формирует совершенно новую SERP, заменяя стандартную выдачу. Вариант Б более агрессивно меняет ранжирование синих ссылок.

В чем разница между Summary Score и Combined Score?

Summary Score используется для оценки СУЩНОСТИ (Вариант А). Он показывает, насколько хорошо сущность соответствует запросу, и рассчитывается на основе агрегированных оценок результатов поиска для ее комбинированного запроса. Combined Score используется для оценки РЕСУРСА (Вариант Б). Он рассчитывается путем агрегации оценок, которые этот ресурс получил в результатах разных комбинированных запросов.

Как система определяет, что запрос состоит из атрибутов, а не просто ключевых слов?

Система использует Attribute Data Store — базу данных терминов, предварительно идентифицированных как атрибуты для определенных типов сущностей. Если термины из запроса совпадают с терминами в этом хранилище (и не входят в blacklist), это служит триггером. Это хранилище пополняется с помощью офлайн-классификаторов (Query Classifier), обученных с помощью машинного обучения.

Как механизм Combined Search Results (Вариант Б, Claim 1) влияет на SEO?

Этот механизм может радикально изменить выдачу. Если он активируется, стандартное ранжирование заменяется ранжированием на основе Combined Score. Это означает, что страницы, которые лучше всего отвечают на связку «Атрибуты + Вероятная Сущность», получат бустинг. Для SEO это подчеркивает необходимость оптимизации под такие связки, а не только под отдельные атрибуты.

Что такое нормализация на основе Inverse Document Frequency (IDF)?

Это корректировка оценок (например, Summary Score) для снижения влияния очень популярных или часто упоминаемых сущностей. Если имя сущности часто встречается в вебе (низкий IDF), ее оценка может быть понижена. Это позволяет менее известным, но более точным сущностям конкурировать с общеизвестными.

Что значит «maximally refine» результаты при предложении атрибутов (Attribute Suggestions)?

Это означает, что система выбирает для предложения те атрибуты, которые наиболее эффективно разделяют оставшийся набор потенциальных сущностей. Система не предлагает случайные связанные атрибуты, а выбирает те, ответ на которые (Да/Нет) приведет к наибольшему уточнению списка вероятных сущностей. Это указывает на сложное понимание взаимосвязей атрибутов.

Как этот патент влияет на SEO для E-commerce сайтов?

Влияние значительно. Пользователи ищут товары по характеристикам (атрибутам), например, [водонепроницаемые наушники для бега]. Система может генерировать запросы [водонепроницаемые наушники для бега + «Модель А»] или [.. + «Модель Б»]. Карточки товаров или обзоры, которые четко связывают эти атрибуты с конкретными моделями и имеют высокий авторитет, получат преимущество в ранжировании.

Как работает механизм обеспечения разнообразия (Claim 7)?

Он применяется в Варианте Б для предотвращения доминирования одной сущности в выдаче. Если слишком много топовых результатов в смешанной выдаче пришли из одного и того же Combined Search Query (т.е. связаны с одной сущностью), последующие результаты из этого же запроса могут быть понижены (demoted), чтобы дать место результатам, связанным с другими релевантными сущностями.

Применяется ли этот патент только к медицинскому поиску?

Нет. Хотя медицинский поиск (симптомы и состояния) используется как основной пример, технологии применимы к любому типу сущностей с определимыми атрибутами. Это включает поиск фильмов по актерам или сюжету, книг по темам, товаров по характеристикам, компаний по услугам и так далее.