Как Google извлекает списки сущностей из веб-страниц и использует графовый анализ для проверки их достоверности и релевантности

Google использует этот механизм для ответов на запросы, требующие списка элементов (например, «города в Калифорнии»). Система извлекает потенциальные списки из неструктурированных веб-документов, анализирует их взаимосвязи и совпадения в виде графа (Vertex-Edge Graph) и использует методы консенсуса (например, поиск клик) для определения наиболее достоверных и релевантных сущностей.

Описание

Какую задачу решает

Патент решает задачу идентификации и ранжирования списка связанных сущностей (related instances) в ответ на поисковый запрос, который явно или неявно запрашивает такой список (например, «президенты США»). Основная проблема заключается в том, как надежно извлечь и верифицировать эту информацию из unstructured collection of electronic documents (Интернета), где данные не соответствуют строгой схеме, и как определить наиболее достоверные элементы для итогового набора.

Что запатентовано

Запатентована система для обработки запросов, ищущих списки сущностей. Система идентифицирует и извлекает потенциальные группы сущностей из веб-документов. Ключевым элементом изобретения является метод оценки релевантности извлеченных сущностей путем представления их характеристик и взаимосвязей в виде графа (vertex-edge graph). Анализ этого графа (например, с помощью поиска клик или машинного обучения) позволяет системе оценить достоверность каждой отдельной сущности на основе консенсуса между различными источниками.

Как это работает

Система работает в несколько этапов:

Идентификация Интента: Система определяет, что запрос ищет группу связанных сущностей.
Расширенный Поиск: Выполняется поиск релевантных документов, в том числе с использованием модифицированных запросов (Biased Queries), смещенных в сторону поиска списков, и запросов к авторитетным источникам (Source-Constrained Queries).
Извлечение и Оценка Групп: Из документов извлекаются потенциальные группы (списки, таблицы). Рассчитывается релевантность каждой группы с учетом релевантности исходного документа и качества структуры группы.
Графовое Моделирование: Совместная встречаемость сущностей представляется в виде vertex-edge graph.
Индивидуальная Оценка: Сущности оцениваются на основе анализа графа. Система ищет cliques (клики) — плотно связанные подграфы, указывающие на высокую степень подтверждения сущностей разными источниками. Также могут применяться алгоритмы машинного обучения.
Ранжирование: Сущности ранжируются индивидуально в соответствии с полученными оценками.

Актуальность для SEO

Высокая. Идентификация сущностей, понимание их взаимосвязей и заполнение Knowledge Graph являются центральными элементами современного поиска. Описанные методы извлечения информации из неструктурированных данных и использования графового анализа для валидации на основе консенсуса остаются крайне актуальными для понимания того, как Google оценивает и структурирует фактологическую информацию. Хотя конкретные методы ML могли эволюционировать, базовые принципы остаются в силе.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в контексте Entity SEO и оптимизации под Featured Snippets. Он раскрывает механизмы, с помощью которых Google идентифицирует группы связанных сущностей, используя структуру контента (списки, таблицы) и консенсус между источниками. Понимание этих механизмов критично для стратегий, направленных на улучшение распознавания сущностей сайта и их атрибутов поисковой системой.

Детальный разбор

Термины и определения

Instance (Сущность/Экземпляр): Индивидуально идентифицируемая единица (entity). Например, город, человек, продукт.
Attribute (Атрибут): Свойство или характеристика сущности.
Unstructured electronic document collection (Неструктурированная коллекция электронных документов): Коллекция документов (например, Интернет), форматирование которых не обязано соответствовать заранее определенной структуре.
Extractor (Экстрактор): Программное обеспечение, предназначенное для идентификации и извлечения групп сущностей из неструктурированных документов (например, распознавание списков, таблиц или текстовых шаблонов).
Biased Query (Смещенный запрос): Модифицированный запрос, сформированный для целенаправленного поиска групп (например, добавление слов «список», «лучшие» к исходному запросу).
Source-Constrained Query (Запрос с ограничением источника): Запрос, ограниченный поиском по определенным авторитетным источникам или компендиумам (например, энциклопедиям).
Vertex-Edge Graph (Граф вершин и ребер): Структура данных для представления объектов (вершин) и связей между ними (ребер). Используется для моделирования совместной встречаемости сущностей или пересечения групп.
Clique (Клика): В графе — набор вершин, где каждая пара соединена ребром (полный подграф). Используется для идентификации плотно связанных групп сущностей, подтвержденных разными источниками (консенсус).
Predictive analytic tree-building algorithm (Алгоритм построения дерева предиктивной аналитики): Метод машинного обучения (например, CART, Random Forests), используемый для создания правил оценки или классификации сущностей на основе их характеристик.
Expectation Maximization (EM) algorithm (Алгоритм максимизации ожидания): Статистический алгоритм, используемый для оценки вероятности того, что сущность принадлежит к релевантной группе, на основе неполных данных.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс идентификации и ранжирования группы сущностей из неструктурированных данных.

Получение запроса, указывающего атрибуты группы связанных сущностей.
Идентификация групп сущностей в unstructured collection of electronic documents.
Определение релевантности этих групп запросу.
Индивидуальная оценка (скоринг) сущностей в этих группах.
Ранжирование сущностей в соответствии с их оценками.

Claim 2 (Зависимый от 1): Детализирует процесс определения релевантности групп (Шаг 3).

Релевантность групп вычисляется на основе трех компонентов: (i) релевантность групп исходным документам; (ii) вероятность (likelihoods) того, что идентифицированные группы действительно являются группами; (iii) релевантность исходных документов запросу.

Claim 3 (Зависимый от 1): Детализирует процесс идентификации групп (Шаг 2).

Идентификация включает формирование biased query (для поиска групп) и constrained query (для поиска в компендиумах), а затем выполнение поиска с использованием всех трех типов запросов (исходного, смещенного, ограниченного).

Claim 5 (Зависимый от 1): Детализирует процесс индивидуальной оценки сущностей (Шаг 4).

Оценка включает представление характеристик (features) сущностей в vertex-edge graph и оценку сущностей на основе этого графа.

Claims 6 и 7 (Зависимые от 5): Описывают две альтернативные конфигурации графа.

Claim 6: Вершины представляют группы сущностей. Ребра взвешены по степени пересечения (overlap) между группами.
Claim 7: Вершины представляют отдельные сущности. Ребра представляют общие характеристики между сущностями.

Claim 11 (Зависимый от 5): Уточняет метод оценки на основе графа.

Оценка сущностей включает идентификацию cliques в графе.

Где и как применяется

Изобретение охватывает несколько этапов поиска, от понимания запроса до финального ранжирования и представления результатов.

QUNDERSTANDING – Понимание Запросов
Система определяет, что запрос направлен на поиск группы связанных сущностей. Здесь же формируются вспомогательные запросы (Biased Queries и Source-Constrained Queries).

INDEXING – Индексирование и извлечение признаков
На этом этапе Extractors могут предварительно идентифицировать группы сущностей (списки, таблицы) в документах, хотя извлечение может происходить и во время выполнения запроса.

RANKING – Ранжирование (Отбор Кандидатов)
Система использует исходный и модифицированные запросы для поиска документов-кандидатов. Рассчитывается базовая релевантность исходных документов запросу (R_DQ).

RERANKING / Specialized Ranking – Переранжирование
Основная логика патента. Система извлекает потенциальные группы из документов-кандидатов, оценивает их релевантность (S_G), строит vertex-edge graph, анализирует его (поиск cliques, применение ML/EM алгоритмов) и вычисляет финальные индивидуальные оценки для сущностей.

METASEARCH – Метапоиск и Смешивание (Представление)
Результатом является ранжированный список сущностей, который может быть представлен пользователю в структурированном виде (например, в виде таблицы, карточек или блока ответов).

Входные данные:

Поисковый запрос.
Индекс неструктурированной коллекции документов.
Набор Extractors.

Выходные данные:

Ранжированный набор идентификаторов сущностей, релевантных запросу.

На что влияет

Специфические запросы: Информационные запросы, требующие перечисления (например, «актеры фильма X», «ингредиенты рецепта Y», «виды гибридных автомобилей»).
Конкретные типы контента: Контент, содержащий списки, таблицы и другие структурированные перечисления сущностей.
Формирование Knowledge Graph и Featured Snippets: Механизм напрямую связан с извлечением фактов и валидацией данных для заполнения Knowledge Graph и формирования блоков ответов.

Когда применяется

Триггер активации: Когда система идентифицирует, что поисковый запрос явно или неявно запрашивает группу связанных сущностей (group of related instances).
Условие применения: Когда необходимо агрегировать и верифицировать информацию из множества неструктурированных источников для формирования точного ответа.

Пошаговый алгоритм

Этап 1: Обработка запроса и сбор кандидатов

Получение запроса и Идентификация Интента: Система определяет, что запрос ищет группу сущностей.
Формирование и выполнение запросов:
1. Создание Biased Query (например, + «список»).
2. Создание Source-Constrained Query (например, поиск по энциклопедиям).
3. Выполнение исходного, смещенного и ограниченного запросов.
Объединение результатов: Формирование единого набора релевантных документов.
Извлечение групп: Применение Extractors для идентификации потенциальных групп (списков, таблиц) в документах.

Этап 2: Оценка релевантности групп

Вычисление Метрик: Для каждой группы рассчитываются:

Выводы

Активное извлечение структурированных данных: Google активно ищет и извлекает структурированные данные (списки, таблицы) из неструктурированных веб-страниц. Это фундаментальный механизм для Featured Snippets и Knowledge Graph.
Важность семантической структуры (L_G): Уверенность системы в том, что фрагмент является группой ( $L_{G}$ ), напрямую зависит от качества HTML-разметки. Использование корректных тегов (списки, таблицы) критически важно для успешного извлечения.
Центральность контента (R_GD): Релевантность группы теме документа ( $R_{GD}$ ) является важным фактором. Списки или таблицы, не связанные с основным содержанием страницы, будут иметь низкий вес.
Валидация через консенсус (Графовый анализ и Клики): Ключевым механизмом валидации является анализ консенсуса с помощью Vertex-Edge Graph. Сущности, которые часто встречаются вместе в разных источниках или в пересекающихся списках (формируют Cliques), считаются более достоверными и релевантными.
Агрессивная модификация запросов: Google систематически переписывает запросы (Biased Queries), добавляя термины вроде «список», и специально проверяет авторитетные источники (Compendia Sources) для эффективного поиска структурированных данных.
Комплексная оценка сущностей: Для финальной оценки используются сложные статистические и ML-методы (EM-алгоритм, деревья решений), которые анализируют множество признаков (features).

Практика

Best practices (это мы делаем)

Используйте четкую семантическую структуру для перечислений: При представлении групп связанных сущностей используйте семантически верные HTML-элементы: маркированные списки (<ul>), нумерованные списки (<ol>) и таблицы (<table>). Это повышает вероятность того, что Extractors корректно идентифицируют группу (высокий $L_{G}$ ).
Обеспечивайте релевантность списков контенту страницы: Убедитесь, что представленные списки тесно связаны с основной темой документа. Система оценивает релевантность группы документу ( $R_{GD}$ ), и нерелевантные списки будут проигнорированы.
Группируйте связанные сущности (Co-occurrence): Размещайте связанные сущности вместе в списках или таблицах. Совместное появление сущностей является сильным сигналом связи, который используется при построении Vertex-Edge Graph.
Оптимизируйте под запросы типа «список»: Создавайте контент, отвечающий на запросы, которые система может модифицировать в Biased Queries (например, «лучшие X», «список Y»). Используйте соответствующие формулировки в заголовках и тексте.
Стремитесь к консенсусу (Consensus Building): Убедитесь, что ваши списки и перечисления согласуются с информацией на других авторитетных сайтах в нише. Графовый анализ (поиск Cliques) выявляет консенсус. Создание полных и точных списков увеличивает вероятность того, что ваши данные станут частью авторитетной клики.
Использование консистентных идентификаторов сущностей: Используйте общепринятые и однозначные названия сущностей. Это упрощает процесс нормализации и увеличивает вероятность того, что система корректно определит пересечения (overlap) с другими источниками.

Worst practices (это делать не надо)

Использование несемантической верстки для списков: Использование тегов <div>, <br> или CSS для визуального оформления списков вместо семантических тегов. Это снижает $L_{G}$ и затрудняет извлечение данных.
Смешивание разных типов сущностей в одном списке: Включение в список элементов, которые не разделяют общие атрибуты группы. Это усложняет интерпретацию группы и может привести к ошибкам при графовом анализе.
Размещение списков, не связанных с темой страницы (List Spam): Вставка шаблонных или нерелевантных списков. Низкая $R_{GD}$ приведет к игнорированию группы.
Манипуляция совместным появлением (Co-occurrence Spam): Искусственное создание множества страниц с одинаковыми списками для имитации консенсуса. Сложные методы анализа графа (учитывающие источник, тип экстрактора) направлены на выявление таких манипуляций.

Стратегическое значение

Патент подтверждает стратегическую важность структурирования данных на веб-страницах для облегчения машинного понимания и извлечения сущностей (Entity-Based SEO). Он демонстрирует, что Google активно использует структуру HTML и визуальное представление данных (списки, таблицы) для сбора фактов. Стратегия SEO должна включать обеспечение того, чтобы ключевые сущности и их взаимосвязи были представлены в формате, удобном для извлечения (extraction-friendly), и подтверждались консенсусом в сети.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce

Цель: Помочь Google идентифицировать список моделей телевизоров определенного бренда как группу связанных сущностей.

Запрос пользователя: «Телевизоры Samsung QLED 2025»
Действия SEO-специалиста:
1. Структура контента: Убедиться, что список продуктов на странице категории представлен с использованием семантической верстки (например, <ul class=»product-list»>). Это повышает $L_{G}$ .
2. Релевантность: Заголовок страницы и вступительный текст четко определяют категорию, обеспечивая высокую $R_{GD}$ .
3. Консистентность: Убедиться, что названия моделей соответствуют официальной номенклатуре Samsung (для обеспечения консенсуса).
Как работает Google (по патенту):
1. Система может использовать Biased Query «список телевизоров Samsung QLED 2025».
2. Extractors идентифицируют список продуктов по тегам <li>.
3. Система строит Vertex-Edge Graph, сравнивая этот список с списками на других сайтах (например, Samsung.com, другие ритейлеры).
4. Модели, которые появляются в списках на многих сайтах, формируют Clique и получают высокий балл достоверности.
Результат: Google с высокой вероятностью распознает модели телевизоров как релевантные сущности для данного запроса, что может улучшить видимость в поиске по продуктам или Featured Snippets.

Вопросы и ответы

Что такое Vertex-Edge Graph и как он используется для оценки сущностей?

Это структура данных, где сущности или группы представлены как вершины (точки), а их взаимосвязи — как ребра (линии). Например, если две сущности часто появляются в одном списке на разных сайтах, они соединяются ребром. Анализируя этот граф, Google ищет Cliques — плотно связанные группы вершин. Наличие клики указывает на консенсус между источниками, что повышает достоверность и оценку входящих в нее сущностей.

Насколько важна HTML-структура (списки, таблицы) согласно этому патенту?

Она критически важна. Патент описывает Extractors, которые специально ищут списки, таблицы и структурированный текст для идентификации групп сущностей. Система оценивает вероятность того, что структура является группой ( $L_{G}$ ). Использование корректной семантической верстки (<li>, <table>) напрямую способствует правильному извлечению данных.

Заменяет ли этот механизм необходимость в микроразметке Schema.org?

Нет, не заменяет, но дополняет. Этот патент описывает, как Google извлекает структурированные данные из unstructured content, когда явная разметка отсутствует. Микроразметка Schema.org (например, ItemList) предоставляет данные напрямую и устраняет неоднозначность, но описанный механизм позволяет Google находить и, что более важно, проверять эти данные, используя консенсус в сети.

Что такое Biased Query и Source-Constrained Query?

Это модификации исходного запроса для улучшения поиска списков. Biased Query добавляет термины, указывающие на перечисление (например, «список президентов США»), чтобы найти страницы со списками. Source-Constrained Query ограничивает поиск авторитетными источниками (например, энциклопедиями), чтобы получить более достоверные данные.

Как Google определяет, что список на странице релевантен самой странице?

Система вычисляет метрику $R_{GD}$ (Relevance of Group to Document). Она сравнивает текст и концепции внутри группы (списка) с текстом и концепциями остальной части документа. Если связь слабая (например, список ингредиентов на странице о ремонте автомобиля), группа получит низкую оценку и, вероятно, будет проигнорирована.

Что важнее для оценки сущности: авторитетность источника или консенсус между многими источниками?

Патент предполагает, что оба фактора важны и используются совместно. Авторитетность источника влияет на начальную оценку релевантности документа ( $R_{DQ}$ ) и используется в Source-Constrained Queries. Консенсус (анализ графа и клики) используется на этапе индивидуальной оценки сущностей для валидации данных, извлеченных из всех источников.

Как этот патент связан с Knowledge Graph?

Этот патент описывает один из фундаментальных механизмов, который Google может использовать для заполнения и обновления Knowledge Graph. Он предоставляет метод для автоматического извлечения списков связанных сущностей и их атрибутов из интернета и механизм для проверки их достоверности перед добавлением в базу знаний.

Влияет ли частота упоминания сущности в интернете на ее ранжирование в списке?

Да, но обратно пропорционально. Патент описывает шаг переоценки (rescoring), на котором оценки сущностей могут быть взвешены по обратной частоте их появления в коллекции документов. Это делается для того, чтобы понизить слишком общие или часто встречающиеся термины и повысить более специфичные и релевантные сущности в финальном ранжированном списке.

Что делать, если мой сайт содержит уникальный список сущностей, которого нет больше нигде?

Поскольку система сильно полагается на консенсус (Cliques) для валидации, уникальный список может столкнуться с трудностями при получении высокой оценки достоверности, если он не подтверждается другими источниками. В этом случае критически важно максимизировать авторитетность вашего сайта (E-E-A-T), чтобы повысить базовую оценку релевантности ( $R_{DQ}$ ), и обеспечить максимально четкую структуру списка ( $L_{G}$ ).

Как система обрабатывает синонимы или разные написания одной и той же сущности?

Патент упоминает шаг переоценки (rescoring), на котором система может изменять оценки похожих или связанных идентификаторов сущностей. Это включает обработку разных вариантов написания, транслитераций, аббревиатур и сокращений (например, «Роберт Кеннеди» и «Бобби Кеннеди»). В некоторых реализациях такие идентификаторы могут быть объединены в одну сущность (нормализация).