Как Google определяет запросы, требующие ответа списком, и генерирует ранжированные списки сущностей для SERP

Google использует систему для определения, когда пользователь ищет список объектов (сущностей). Система анализирует запрос на наличие индикаторов списка («лучшие», «топ»), определяет категорию (например, «фильмы») и извлекает релевантные сущности из топовых веб-документов. Затем эти сущности ранжируются на основе их значимости в документе и релевантности документа запросу, и представляются в виде отдельного структурированного списка на странице результатов поиска.

Описание

Какую задачу решает

Патент решает проблему неэффективности традиционного поиска для запросов с намерением списка (list-intent queries), таких как «топ 10 фильмов 2010 года». Ранее поисковая система возвращала ссылки на веб-страницы, содержащие такие списки, заставляя пользователя переходить по ним для получения ответа. Изобретение улучшает пользовательский опыт, предоставляя прямой, агрегированный и структурированный список релевантных сущностей (например, фильмов) непосредственно на странице результатов поиска (SERP).

Что запатентовано

Запатентована система и метод для автоматической генерации и представления ранжированных списков сущностей (Entity List) в ответ на поисковые запросы. Система определяет намерение пользователя получить список, идентифицирует категорию запроса, извлекает релевантные сущности из результатов поиска и ранжирует их. Ключевыми элементами являются механизм принятия решения (List Trigger Engine) о том, когда следует показать такой список, и механизм ранжирования сущностей (Entity Ranking Engine), учитывающий как релевантность исходных документов, так и значимость сущности внутри них.

Как это работает

Система работает в несколько этапов:

Идентификация интента: Анализируется запрос на наличие List Terms (терминов, указывающих на список, например, «топ», «лучшие»).
Извлечение и Категоризация: Система выполняет поиск, извлекает сущности из найденных документов и определяет основную категорию запроса (например, «фильмы»).
Триггер Списка: List Trigger Engine оценивает, достаточно ли уверенности для показа списка сущностей, основываясь на запросе, категории, количестве найденных сущностей, а также проверяя наличие стоп-слов или запрещенных категорий.
Ранжирование Сущностей: Entity Ranking Engine ранжирует извлеченные сущности, используя оценки: значимость сущности для документа (S1), релевантность документа запросу (S2) и соответствие атрибутов сущности запросу.
Представление: Если триггер сработал, система генерирует структурированный Entity List и отображает его в SERP, отдельно, но одновременно со стандартными веб-результатами.

Актуальность для SEO

Критически высокая. Патент описывает фундаментальные механизмы, лежащие в основе многих современных функций SERP, таких как карусели, списки товаров, фильмов, книг и т.д. Понимание того, как Google извлекает, категоризирует и ранжирует сущности для прямого отображения, является ключевым в эпоху поиска, ориентированного на сущности (Entity-Oriented Search) и Knowledge Graph.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент описывает механизм, который напрямую влияет на видимость контента и структуру трафика. Списки сущностей часто занимают видное место на SERP и могут перехватывать клики у традиционных органических результатов (влияние на zero-click searches). Понимание критериев извлечения и ранжирования сущностей в этих списках необходимо для оптимизации контента с целью попадания в эти блоки.

Детальный разбор

Термины и определения

Entity (Сущность): Единица информации, которая может быть категоризирована и перечислена (например, фильм, книга, человек). Извлекается из веб-документов.
Category (Категория): Тип сущностей, к которому относится запрос (например, «фильмы», «книги»). Определяется на основе текста запроса, тем найденных документов и извлеченных сущностей.
Entity List (Список сущностей): Структурированный набор ранжированных сущностей, представляемый в ответ на запрос (например, карусель).
List Terms (Термины списка): Слова или фразы в запросе, указывающие на намерение пользователя получить список (например, «топ», «лучшие»). Являются ключевым триггером в Claim 1.
Entity Extraction Engine (Механизм извлечения сущностей): Компонент, который анализирует результаты поиска и идентифицирует в них сущности, сравнивая контент с репозиторием сущностей.
Category Identification Engine (Механизм идентификации категорий): Компонент, определяющий наиболее вероятную категорию для запроса.
Entity Ranking Engine (Механизм ранжирования сущностей): Компонент, который вычисляет оценки и ранжирует извлеченные сущности для включения в список.
List Trigger Engine (Механизм активации списка): Компонент, который принимает финальное решение о том, следует ли показывать список сущностей в ответ на запрос.
Attributes (Атрибуты): Детальная информация, связанная с сущностью (например, для фильма: дата выхода, режиссер).
Information Retrieval (IR) Score: Стандартная оценка релевантности веб-документа поисковому запросу (Document-Query Relevance).

Ключевые утверждения (Анализ Claims)

Анализ основан на независимом пункте 1 (Claim 1) выданного патента US10691702B1.

Claim 1: Определяет метод определения запросов, требующих ответа списком, и формат представления результатов.

Хранение критериев списка: Система хранит данные, указывающие на List Terms, которые при наличии в запросе сигнализируют, что запрос связан со списком сущностей.
Получение запроса и определение интента: При получении запроса система определяет, связан ли он со списком сущностей, путем сравнения терминов запроса с сохраненными List Terms.
Обработка запросов без списка: Если запрос НЕ определен как связанный со списком, система предоставляет стандартные веб-результаты.
Обработка запросов со списком: Если запрос определен как связанный со списком сущностей:
1. Определяется конкретная категория сущностей.
2. Предоставляются стандартные веб-результаты.
3. Предоставляются данные, указывающие на сущности в списке для этой категории.
Формат представления: Данные о сущностях отображаются в формате списка, который отделен (separate) от веб-результатов и предоставляется одновременно (concurrently) с ними.

Ядро изобретения, защищенное этим патентом, заключается в механизме триггера, основанном на предопределенных List Terms, и специфическом формате выдачи, который комбинирует стандартные результаты со структурированным списком сущностей.

Claims 3, 4, 8, 9 (Зависимые): Уточняют определение List Terms. Они могут включать фразы, состоящие из предлога и года (например, «of 2010») или предлога и прилагательного (например, «best of»).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, интегрируя данные о сущностях в процесс обработки запроса и формирования выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных. Entity Repository и Entity Attribute Repository хранят информацию о сущностях и их атрибутах (например, в Knowledge Graph). Также определяются темы документов.

QUNDERSTANDING – Понимание Запросов
Ключевой этап. Система анализирует запрос для определения интента (ищет ли пользователь список, используя List Terms, как описано в Claim 1). Category Identification Engine определяет категорию запроса.

RANKING – Ранжирование
Задействованы два аспекта: 1) Result Identification Engine получает первичный набор релевантных веб-документов и их IR Scores. 2) Entity Extraction Engine извлекает сущности из этих документов, а Entity Ranking Engine ранжирует эти сущности.

METASEARCH – Метапоиск и Смешивание
List Trigger Engine принимает финальное решение об активации списка. Search Result Document Generation Engine формирует финальную выдачу. Если список активирован, этот компонент объединяет стандартные веб-результаты и сгенерированный Entity List в единый SERP, размещая список в отдельном блоке (например, карусель).

Входные данные:

Поисковый запрос.
Репозиторий сущностей и их атрибутов.
Индекс веб-документов и их IR scores.
Критерии активации списка (List Terms, белые/черные списки).

Выходные данные:

Страница результатов поиска (SERP), которая может содержать как стандартные веб-результаты, так и отдельный блок с ранжированным списком сущностей.

На что влияет

Специфические запросы: Наибольшее влияние на информационные и коммерческие запросы с намерением сравнения или перечисления («лучшие кроссовки для бега», «топ фильмов 2020»).
Конкретные типы контента: Влияет на контент, богатый сущностями — обзоры, рейтинги, каталоги, статьи-списки (listicles).
Конкретные ниши: Сильное влияние в тематиках с четко определенными сущностями: медиа (фильмы, книги), ecommerce (товары), локальный поиск (рестораны).

Когда применяется

Алгоритм применяется при выполнении набора условий, которые оценивает List Trigger Engine.

Триггеры активации:
1. Наличие в запросе List Terms (ключевое условие согласно Claim 1).
2. Идентификация четкой категории для запроса.
3. Категория входит в список разрешенных (approved categories).
4. Отсутствие запрещенных терминов (blacklisted terms) в запросе.
5. Наличие достаточного количества релевантных документов и извлеченных сущностей.
Пороговые значения: Система вычисляет общую оценку уверенности (Overall Score) для активации списка. Список показывается, только если эта оценка превышает установленный порог.

Пошаговый алгоритм

Описание основано на процессах, детализированных в патенте (FIGS. 5-8).

Этап 1: Обработка запроса и первичный поиск

Получение поискового запроса.
Идентификация первичного набора релевантных документов (веб-результатов) и их IR Scores.

Этап 2: Извлечение и Категоризация (FIG. 6)

Извлечение сущностей из полученных документов.
Определение категории запроса. Для каждой потенциальной категории рассчитывается оценка на основе:
1. Наличия терминов категории в запросе.
2. Количества документов, связанных с темой категории.
3. Количества извлеченных сущностей, принадлежащих к категории.
Выбор категории с наивысшей оценкой.

Этап 3: Ранжирование Сущностей (FIG. 8)

Ранжирование извлеченных сущностей. Для каждой сущности рассчитывается оценка на основе:
1. S1 (Entity-to-Document Relevance): Релевантности сущности документу, из которого она извлечена.
2. S2 (Document-to-Query Relevance): Релевантности документа запросу (IR score).
3. Соответствия атрибутов сущности терминам запроса.
Генерация итоговой оценки ранжирования сущности. Патент предлагает пример формулы агрегации S1 и S2: $S_1*log(1+min(S_2, C))$ , где C — константа.

Этап 4: Принятие решения (Triggering) (FIG. 7)

Определение, следует ли показывать Entity List (List Trigger Engine). Рассчитывается общая оценка уверенности на основе:
1. Наличия запрещенных терминов в запросе.
2. Статуса категории (разрешена/запрещена).
3. Наличия List Terms в запросе (Ключевой элемент Claim 1).
4. Количества и качества результатов поиска и сущностей.
Сравнение общей оценки с порогом.

Этап 5: Генерация SERP

Если оценка выше порога: Генерация SERP, включающего ранжированный Entity List и стандартные веб-результаты (согласно Claim 1).
Если оценка ниже порога: Генерация SERP только со стандартными веб-результатами.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов, из которого извлекаются сущности. Темы документов используются для категоризации. Текст запроса анализируется на наличие List Terms и терминов категорий.
Структурные факторы: Данные из репозитория сущностей (Knowledge Graph), который содержит структурированную информацию о сущностях и их атрибутах. На практике эти репозитории наполняются в том числе с помощью структурированных данных (Schema.org).
Системные данные: IR Scores веб-документов. Данные из List Criteria Repository (List Terms, blacklists, whitelists).

Какие метрики используются и как они считаются

Патент описывает многоуровневую систему оценок (Scores):

1. Оценки Категоризации (Category Scores):

Query Term Score: Оценка, основанная на наличии в запросе терминов, связанных с категорией.
Document Quantity Score: Оценка, основанная на количестве/доле топовых документов, относящихся к теме категории.
Entity Quantity Score: Оценка, основанная на количестве/доле извлеченных сущностей, относящихся к категории.

2. Оценки Ранжирования Сущностей (Entity Ranking Scores):

S1 (Entity-to-Document Relevance): Метрика, показывающая, насколько сущность релевантна документу, из которого она извлечена (например, является ли она основной темой).
S2 (Document-to-Query Relevance): Стандартная оценка релевантности документа запросу (IR score).
Attribute Match Score: Оценка соответствия атрибутов сущности запросу.
Overall Entity Score (Формула расчета): Патент предлагает пример формулы агрегации: $S_1*log(1+min(S_2, C))$ . Эта формула подчеркивает важность S1, модулированную S2. Использование логарифма и функции минимума означает, что вклад S2 имеет убывающую отдачу и ограничен сверху.

3. Оценки Активации Списка (Triggering Scores):

Blacklist Score: Оценка наличия запрещенных терминов.
Category Status Score: Оценка статуса категории (разрешена/запрещена).
List Term Score: Оценка наличия и веса List Terms в запросе.
Confidence Scores: Оценки достаточности количества документов и сущностей для формирования качественного списка.

Выводы

Приоритет интента списка: Google активно идентифицирует запросы, направленные на получение списков (используя List Terms как основной триггер согласно Claim 1), и меняет формат выдачи для предоставления структурированных данных.
Категоризация запроса критична: Система должна четко определить категорию запроса. Это делается путем комплексного анализа: запроса, тем топовых документов и извлеченных из них сущностей.
Многофакторное ранжирование сущностей (S1 и S2): Ранжирование внутри списка сложное. Система отдает предпочтение сущностям, которые являются центральной темой (высокий S1: Entity-to-Document Relevance) на страницах, которые сами по себе хорошо ранжируются по запросу (высокий S2: Document-to-Query Relevance).
Важность атрибутов: Атрибуты сущностей используются как для ранжирования (если они соответствуют терминам запроса), так и для отображения в финальном списке.
Система предохранителей (Triggering): Google использует множество проверок (пороги количества сущностей, черные списки, статус категории), чтобы гарантировать, что Entity Lists генерируются только тогда, когда они уместны и качественны.
Сосуществование с веб-результатами: Выданный патент (Claim 1) явно защищает метод, при котором список сущностей отображается отдельно и одновременно со стандартными веб-результатами.

Практика

Best practices (это мы делаем)

Оптимизация под Entity-Oriented Search: Сосредоточьтесь на том, чтобы Google четко идентифицировал ключевые сущности на ваших страницах. Используйте структурированные данные (Schema.org), четкую структуру контента и однозначные упоминания сущностей.
Создание контента для list-seeking запросов: Создавайте высококачественные списки, обзоры и рейтинги, оптимизированные под запросы, содержащие List Terms («лучшие», «топ»).
Повышение Entity-to-Document Relevance (S1): Убедитесь, что сущности, которые вы хотите ранжировать, являются основной темой страницы или четко выделены как элементы списка. Если страница посвящена обзору 10 продуктов, каждый продукт должен быть четко структурирован (например, с помощью заголовков H2/H3).
Максимизация Document-to-Query Relevance (S2): Страница-источник должна быть хорошо оптимизирована и авторитетна для целевого запроса (высокий IR Score). Без высокого ранжирования исходного документа сущности из него вряд ли попадут в агрегированный список Google.
Насыщение контента атрибутами: Предоставляйте четкие и легко извлекаемые атрибуты для сущностей (цены, даты, характеристики, авторы). Это повышает шансы на ранжирование в списках, особенно для запросов с уточнениями.

Worst practices (это делать не надо)

Создание поверхностных списков без добавленной ценности: Попытки манипулировать системой путем создания множества низкокачественных списков неэффективны, так как система учитывает авторитетность и релевантность исходного документа (S2).
Смешивание несвязанных сущностей на одной странице: Размещение множества сущностей разных категорий на одной странице может затруднить для Google определение основной темы и категории, что негативно скажется на S1 и на процессе категоризации в целом.
Игнорирование структурированных данных: Отсутствие микроразметки снижает вероятность того, что Google корректно извлечет сущности и их атрибуты, что уменьшает шансы на попадание в структурированные списки.
Спам сущностями (Entity Stuffing): Беспорядочное упоминание сущностей без контекста неэффективно, так как оценка S1 (релевантность сущности документу) будет низкой.

Стратегическое значение

Патент подтверждает стратегический сдвиг Google от предоставления ссылок к предоставлению прямых ответов и структурированной информации. Для SEO это означает, что оптимизация должна выходить за рамки традиционных факторов и фокусироваться на том, как сайт способствует наполнению базы знаний Google (Knowledge Graph). Стратегия должна быть направлена на то, чтобы стать лучшим источником структурированной информации о сущностях в своей нише.

Практические примеры

Сценарий: Оптимизация сайта обзоров техники для попадания в список сущностей

Запрос: «лучшие смартфоны 2025»

Анализ интента и категории: Google идентифицирует «лучшие» как List Term и «смартфоны» как категорию. Триггер активируется.
Действия SEO-специалиста (S2 — Релевантность Документа): Создать авторитетную статью «Топ-10 лучших смартфонов 2025 года: детальный обзор». Обеспечить высокое качество контента (E-E-A-T) и получить качественные обратные ссылки, чтобы страница высоко ранжировалась.
Действия SEO-специалиста (S1 — Релевантность Сущности): Структурировать статью так, чтобы каждый смартфон был четко выделен (заголовок H2). Использовать микроразметку ItemList и Product для каждого смартфона.
Действия SEO-специалиста (Атрибуты): Для каждого смартфона указать ключевые характеристики (цена, камера, батарея) в виде таблицы или маркированного списка. Убедиться, что указан год выпуска (2025).
Ожидаемый результат: Google извлекает модели смартфонов из этой статьи. Благодаря высоким оценкам S1 и S2, эти модели занимают верхние позиции в агрегированном Entity List (например, карусели смартфонов) на SERP.

Вопросы и ответы

Что такое «List Terms» и почему они важны?

List Terms — это слова и фразы в запросе, которые сигнализируют Google, что пользователь ищет список объектов (например, «лучшие», «топ», «рейтинг», фразы типа «of 2025»). Согласно Claim 1 патента, они критически важны, так как их наличие является основным триггером для активации системы генерации Entity List. Без них система, скорее всего, покажет стандартную выдачу.

Как Google определяет категорию запроса, если в нем нет явных указаний (например, запрос «лучшие из 2010»)?

Система анализирует агрегированные данные из топовых результатов поиска. Она смотрит, какие темы преобладают в этих документах (Document Quantity Score) и к каким категориям относится большинство извлеченных из них сущностей (Entity Quantity Score). Категория, набравшая наибольший вес по этим факторам, будет выбрана для генерации списка.

Что важнее для попадания в список сущностей: релевантность страницы запросу (S2) или значимость сущности на странице (S1)?

Оба фактора критичны. Формула ранжирования $S_1*log(1+min(S_2, C))$ показывает, что S1 (значимость сущности в документе) является основным множителем, а S2 (релевантность документа) его модулирует. Высокий S1 дает сильный буст, но только если S2 также достаточно высок. Нельзя компенсировать низкую релевантность страницы за счет высокой значимости сущности, и наоборот.

Как повысить оценку Entity-to-Document Relevance (S1)?

Чтобы повысить S1, необходимо убедиться, что сущность является фокусом контента. Для этого следует использовать четкую структуру документа, выделять сущность в заголовках (H1, H2), использовать микроразметку (например, mainEntityOfPage), и убедиться, что большая часть контента на странице посвящена именно этой сущности или списку, в который она входит.

Влияет ли использование Schema.org на попадание в эти списки?

Хотя патент напрямую не упоминает Schema.org, он опирается на Entity Repository и Entity Attribute Repository. На практике использование микроразметки Schema.org является основным способом помочь Google корректно извлечь сущности и их атрибуты из вашего контента, что напрямую влияет на данные, используемые этой системой для генерации и ранжирования списков.

Может ли мой сайт попасть в список сущностей, если он не находится в Топ-10 органической выдачи?

Это маловероятно. Система извлекает сущности из документов, которые уже были признаны релевантными запросу (высокий S2 / IR Score). Хотя патент не указывает точный порог, на практике источники для этих списков обычно находятся на первой странице выдачи. Работа над общим органическим ранжированием остается приоритетом.

Что делать, если Google генерирует список сущностей в моей нише, но моих продуктов/объектов там нет?

Необходимо провести аудит конкурентов, чьи сущности попадают в список. Проанализируйте структуру их контента, использование микроразметки и общий авторитет их сайтов. Скорее всего, у них выше показатели S1 (лучше структурирован контент вокруг сущности) и/или S2 (лучше ранжируется страница-источник). Скорректируйте свою контент-стратегию, чтобы превзойти их по этим параметрам.

Как атрибуты влияют на ранжирование в списке?

Атрибуты влияют на ранжирование, если они соответствуют терминам в запросе (Attribute Match Score). Например, если запрос «лучшие фильмы 2010 года», а у сущности есть атрибут «Дата выхода: 2010», это повысит ее оценку ранжирования в списке. Кроме того, атрибуты используются для отображения в сниппете списка, повышая его информативность.

Существуют ли категории, для которых Google не будет показывать списки сущностей?

Да. Патент упоминает использование Blacklisted Categories и Blacklisted Terms в механизме List Trigger Engine. Система не будет генерировать списки для запросов, связанных с чувствительным контентом (например, adult), или для категорий, которые не были явно одобрены (Approved Categories) для такого формата представления.

Являются ли эти списки сущностей тем же самым, что и Featured Snippets (Блоки с ответами)?

Нет, это разные механизмы. Featured Snippets обычно направлены на ответ на конкретный вопрос и извлекают фрагмент текста или список из одного источника. Описанная в патенте система направлена на list-seeking запросы и агрегирует сущности из нескольких источников, ранжируя их по сложной формуле (S1*log(S2)) и представляя в виде структурированного блока (например, карусели).