Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google извлекает списки сущностей из веб-страниц и использует графовый анализ для проверки их достоверности и релевантности

    IDENTIFYING A GROUP OF RELATED INSTANCES (Идентификация группы связанных экземпляров)
    • US20110106819A1
    • Google LLC
    • 2011-05-05
    • 2009-10-29
    2009 EEAT и качество Knowledge Graph Патенты Google Семантика и интент

    Google использует этот механизм для ответов на запросы, требующие списка элементов (например, «города в Калифорнии»). Система извлекает потенциальные списки из неструктурированных веб-документов, анализирует их взаимосвязи и совпадения в виде графа (Vertex-Edge Graph) и использует методы консенсуса (например, поиск клик) для определения наиболее достоверных и релевантных сущностей.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу идентификации и ранжирования списка связанных сущностей (related instances) в ответ на поисковый запрос, который явно или неявно запрашивает такой список (например, «президенты США»). Основная проблема заключается в том, как надежно извлечь и верифицировать эту информацию из unstructured collection of electronic documents (Интернета), где данные не соответствуют строгой схеме, и как определить наиболее достоверные элементы для итогового набора.

    Что запатентовано

    Запатентована система для обработки запросов, ищущих списки сущностей. Система идентифицирует и извлекает потенциальные группы сущностей из веб-документов. Ключевым элементом изобретения является метод оценки релевантности извлеченных сущностей путем представления их характеристик и взаимосвязей в виде графа (vertex-edge graph). Анализ этого графа (например, с помощью поиска клик или машинного обучения) позволяет системе оценить достоверность каждой отдельной сущности на основе консенсуса между различными источниками.

    Как это работает

    Система работает в несколько этапов:

    • Идентификация Интента: Система определяет, что запрос ищет группу связанных сущностей.
    • Расширенный Поиск: Выполняется поиск релевантных документов, в том числе с использованием модифицированных запросов (Biased Queries), смещенных в сторону поиска списков, и запросов к авторитетным источникам (Source-Constrained Queries).
    • Извлечение и Оценка Групп: Из документов извлекаются потенциальные группы (списки, таблицы). Рассчитывается релевантность каждой группы с учетом релевантности исходного документа и качества структуры группы.
    • Графовое Моделирование: Совместная встречаемость сущностей представляется в виде vertex-edge graph.
    • Индивидуальная Оценка: Сущности оцениваются на основе анализа графа. Система ищет cliques (клики) — плотно связанные подграфы, указывающие на высокую степень подтверждения сущностей разными источниками. Также могут применяться алгоритмы машинного обучения.
    • Ранжирование: Сущности ранжируются индивидуально в соответствии с полученными оценками.

    Актуальность для SEO

    Высокая. Идентификация сущностей, понимание их взаимосвязей и заполнение Knowledge Graph являются центральными элементами современного поиска. Описанные методы извлечения информации из неструктурированных данных и использования графового анализа для валидации на основе консенсуса остаются крайне актуальными для понимания того, как Google оценивает и структурирует фактологическую информацию. Хотя конкретные методы ML могли эволюционировать, базовые принципы остаются в силе.

    Важность для SEO

    Патент имеет высокое значение для SEO, особенно в контексте Entity SEO и оптимизации под Featured Snippets. Он раскрывает механизмы, с помощью которых Google идентифицирует группы связанных сущностей, используя структуру контента (списки, таблицы) и консенсус между источниками. Понимание этих механизмов критично для стратегий, направленных на улучшение распознавания сущностей сайта и их атрибутов поисковой системой.

    Детальный разбор

    Термины и определения

    Instance (Сущность/Экземпляр)
    Индивидуально идентифицируемая единица (entity). Например, город, человек, продукт.
    Attribute (Атрибут)
    Свойство или характеристика сущности.
    Unstructured electronic document collection (Неструктурированная коллекция электронных документов)
    Коллекция документов (например, Интернет), форматирование которых не обязано соответствовать заранее определенной структуре.
    Extractor (Экстрактор)
    Программное обеспечение, предназначенное для идентификации и извлечения групп сущностей из неструктурированных документов (например, распознавание списков, таблиц или текстовых шаблонов).
    Biased Query (Смещенный запрос)
    Модифицированный запрос, сформированный для целенаправленного поиска групп (например, добавление слов «список», «лучшие» к исходному запросу).
    Source-Constrained Query (Запрос с ограничением источника)
    Запрос, ограниченный поиском по определенным авторитетным источникам или компендиумам (например, энциклопедиям).
    Vertex-Edge Graph (Граф вершин и ребер)
    Структура данных для представления объектов (вершин) и связей между ними (ребер). Используется для моделирования совместной встречаемости сущностей или пересечения групп.
    Clique (Клика)
    В графе — набор вершин, где каждая пара соединена ребром (полный подграф). Используется для идентификации плотно связанных групп сущностей, подтвержденных разными источниками (консенсус).
    Predictive analytic tree-building algorithm (Алгоритм построения дерева предиктивной аналитики)
    Метод машинного обучения (например, CART, Random Forests), используемый для создания правил оценки или классификации сущностей на основе их характеристик.
    Expectation Maximization (EM) algorithm (Алгоритм максимизации ожидания)
    Статистический алгоритм, используемый для оценки вероятности того, что сущность принадлежит к релевантной группе, на основе неполных данных.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс идентификации и ранжирования группы сущностей из неструктурированных данных.

    1. Получение запроса, указывающего атрибуты группы связанных сущностей.
    2. Идентификация групп сущностей в unstructured collection of electronic documents.
    3. Определение релевантности этих групп запросу.
    4. Индивидуальная оценка (скоринг) сущностей в этих группах.
    5. Ранжирование сущностей в соответствии с их оценками.

    Claim 2 (Зависимый от 1): Детализирует процесс определения релевантности групп (Шаг 3).

    Релевантность групп вычисляется на основе трех компонентов: (i) релевантность групп исходным документам; (ii) вероятность (likelihoods) того, что идентифицированные группы действительно являются группами; (iii) релевантность исходных документов запросу.

    Claim 3 (Зависимый от 1): Детализирует процесс идентификации групп (Шаг 2).

    Идентификация включает формирование biased query (для поиска групп) и constrained query (для поиска в компендиумах), а затем выполнение поиска с использованием всех трех типов запросов (исходного, смещенного, ограниченного).

    Claim 5 (Зависимый от 1): Детализирует процесс индивидуальной оценки сущностей (Шаг 4).

    Оценка включает представление характеристик (features) сущностей в vertex-edge graph и оценку сущностей на основе этого графа.

    Claims 6 и 7 (Зависимые от 5): Описывают две альтернативные конфигурации графа.

    • Claim 6: Вершины представляют группы сущностей. Ребра взвешены по степени пересечения (overlap) между группами.
    • Claim 7: Вершины представляют отдельные сущности. Ребра представляют общие характеристики между сущностями.

    Claim 11 (Зависимый от 5): Уточняет метод оценки на основе графа.

    Оценка сущностей включает идентификацию cliques в графе.

    Где и как применяется

    Изобретение охватывает несколько этапов поиска, от понимания запроса до финального ранжирования и представления результатов.

    QUNDERSTANDING – Понимание Запросов
    Система определяет, что запрос направлен на поиск группы связанных сущностей. Здесь же формируются вспомогательные запросы (Biased Queries и Source-Constrained Queries).

    INDEXING – Индексирование и извлечение признаков
    На этом этапе Extractors могут предварительно идентифицировать группы сущностей (списки, таблицы) в документах, хотя извлечение может происходить и во время выполнения запроса.

    RANKING – Ранжирование (Отбор Кандидатов)
    Система использует исходный и модифицированные запросы для поиска документов-кандидатов. Рассчитывается базовая релевантность исходных документов запросу (R_DQ).

    RERANKING / Specialized Ranking – Переранжирование
    Основная логика патента. Система извлекает потенциальные группы из документов-кандидатов, оценивает их релевантность (S_G), строит vertex-edge graph, анализирует его (поиск cliques, применение ML/EM алгоритмов) и вычисляет финальные индивидуальные оценки для сущностей.

    METASEARCH – Метапоиск и Смешивание (Представление)
    Результатом является ранжированный список сущностей, который может быть представлен пользователю в структурированном виде (например, в виде таблицы, карточек или блока ответов).

    Входные данные:

    • Поисковый запрос.
    • Индекс неструктурированной коллекции документов.
    • Набор Extractors.

    Выходные данные:

    • Ранжированный набор идентификаторов сущностей, релевантных запросу.

    На что влияет

    • Специфические запросы: Информационные запросы, требующие перечисления (например, «актеры фильма X», «ингредиенты рецепта Y», «виды гибридных автомобилей»).
    • Конкретные типы контента: Контент, содержащий списки, таблицы и другие структурированные перечисления сущностей.
    • Формирование Knowledge Graph и Featured Snippets: Механизм напрямую связан с извлечением фактов и валидацией данных для заполнения Knowledge Graph и формирования блоков ответов.

    Когда применяется

    • Триггер активации: Когда система идентифицирует, что поисковый запрос явно или неявно запрашивает группу связанных сущностей (group of related instances).
    • Условие применения: Когда необходимо агрегировать и верифицировать информацию из множества неструктурированных источников для формирования точного ответа.

    Пошаговый алгоритм

    Этап 1: Обработка запроса и сбор кандидатов

    1. Получение запроса и Идентификация Интента: Система определяет, что запрос ищет группу сущностей.
    2. Формирование и выполнение запросов:
      1. Создание Biased Query (например, + «список»).
      2. Создание Source-Constrained Query (например, поиск по энциклопедиям).
      3. Выполнение исходного, смещенного и ограниченного запросов.
    3. Объединение результатов: Формирование единого набора релевантных документов.
    4. Извлечение групп: Применение Extractors для идентификации потенциальных групп (списков, таблиц) в документах.

    Этап 2: Оценка релевантности групп

    1. Вычисление Метрик: Для каждой группы рассчитываются:

    Выводы

    1. Активное извлечение структурированных данных: Google активно ищет и извлекает структурированные данные (списки, таблицы) из неструктурированных веб-страниц. Это фундаментальный механизм для Featured Snippets и Knowledge Graph.
    2. Важность семантической структуры (L_G): Уверенность системы в том, что фрагмент является группой (LGL_{G}LG​), напрямую зависит от качества HTML-разметки. Использование корректных тегов (списки, таблицы) критически важно для успешного извлечения.
    3. Центральность контента (R_GD): Релевантность группы теме документа (RGDR_{GD}RGD​) является важным фактором. Списки или таблицы, не связанные с основным содержанием страницы, будут иметь низкий вес.
    4. Валидация через консенсус (Графовый анализ и Клики): Ключевым механизмом валидации является анализ консенсуса с помощью Vertex-Edge Graph. Сущности, которые часто встречаются вместе в разных источниках или в пересекающихся списках (формируют Cliques), считаются более достоверными и релевантными.
    5. Агрессивная модификация запросов: Google систематически переписывает запросы (Biased Queries), добавляя термины вроде «список», и специально проверяет авторитетные источники (Compendia Sources) для эффективного поиска структурированных данных.
    6. Комплексная оценка сущностей: Для финальной оценки используются сложные статистические и ML-методы (EM-алгоритм, деревья решений), которые анализируют множество признаков (features).

    Практика

    Best practices (это мы делаем)

    • Используйте четкую семантическую структуру для перечислений: При представлении групп связанных сущностей используйте семантически верные HTML-элементы: маркированные списки (<ul>), нумерованные списки (<ol>) и таблицы (<table>). Это повышает вероятность того, что Extractors корректно идентифицируют группу (высокий LGL_{G}LG​).
    • Обеспечивайте релевантность списков контенту страницы: Убедитесь, что представленные списки тесно связаны с основной темой документа. Система оценивает релевантность группы документу (RGDR_{GD}RGD​), и нерелевантные списки будут проигнорированы.
    • Группируйте связанные сущности (Co-occurrence): Размещайте связанные сущности вместе в списках или таблицах. Совместное появление сущностей является сильным сигналом связи, который используется при построении Vertex-Edge Graph.
    • Оптимизируйте под запросы типа «список»: Создавайте контент, отвечающий на запросы, которые система может модифицировать в Biased Queries (например, «лучшие X», «список Y»). Используйте соответствующие формулировки в заголовках и тексте.
    • Стремитесь к консенсусу (Consensus Building): Убедитесь, что ваши списки и перечисления согласуются с информацией на других авторитетных сайтах в нише. Графовый анализ (поиск Cliques) выявляет консенсус. Создание полных и точных списков увеличивает вероятность того, что ваши данные станут частью авторитетной клики.
    • Использование консистентных идентификаторов сущностей: Используйте общепринятые и однозначные названия сущностей. Это упрощает процесс нормализации и увеличивает вероятность того, что система корректно определит пересечения (overlap) с другими источниками.

    Worst practices (это делать не надо)

    • Использование несемантической верстки для списков: Использование тегов <div>, <br> или CSS для визуального оформления списков вместо семантических тегов. Это снижает LGL_{G}LG​ и затрудняет извлечение данных.
    • Смешивание разных типов сущностей в одном списке: Включение в список элементов, которые не разделяют общие атрибуты группы. Это усложняет интерпретацию группы и может привести к ошибкам при графовом анализе.
    • Размещение списков, не связанных с темой страницы (List Spam): Вставка шаблонных или нерелевантных списков. Низкая RGDR_{GD}RGD​ приведет к игнорированию группы.
    • Манипуляция совместным появлением (Co-occurrence Spam): Искусственное создание множества страниц с одинаковыми списками для имитации консенсуса. Сложные методы анализа графа (учитывающие источник, тип экстрактора) направлены на выявление таких манипуляций.

    Стратегическое значение

    Патент подтверждает стратегическую важность структурирования данных на веб-страницах для облегчения машинного понимания и извлечения сущностей (Entity-Based SEO). Он демонстрирует, что Google активно использует структуру HTML и визуальное представление данных (списки, таблицы) для сбора фактов. Стратегия SEO должна включать обеспечение того, чтобы ключевые сущности и их взаимосвязи были представлены в формате, удобном для извлечения (extraction-friendly), и подтверждались консенсусом в сети.

    Практические примеры

    Сценарий: Оптимизация страницы категории E-commerce

    Цель: Помочь Google идентифицировать список моделей телевизоров определенного бренда как группу связанных сущностей.

    1. Запрос пользователя: «Телевизоры Samsung QLED 2025»
    2. Действия SEO-специалиста:
      1. Структура контента: Убедиться, что список продуктов на странице категории представлен с использованием семантической верстки (например, <ul class=»product-list»>). Это повышает LGL_{G}LG​.
      2. Релевантность: Заголовок страницы и вступительный текст четко определяют категорию, обеспечивая высокую RGDR_{GD}RGD​.
      3. Консистентность: Убедиться, что названия моделей соответствуют официальной номенклатуре Samsung (для обеспечения консенсуса).
    3. Как работает Google (по патенту):
      1. Система может использовать Biased Query «список телевизоров Samsung QLED 2025».
      2. Extractors идентифицируют список продуктов по тегам <li>.
      3. Система строит Vertex-Edge Graph, сравнивая этот список с списками на других сайтах (например, Samsung.com, другие ритейлеры).
      4. Модели, которые появляются в списках на многих сайтах, формируют Clique и получают высокий балл достоверности.
    4. Результат: Google с высокой вероятностью распознает модели телевизоров как релевантные сущности для данного запроса, что может улучшить видимость в поиске по продуктам или Featured Snippets.

    Вопросы и ответы

    Что такое Vertex-Edge Graph и как он используется для оценки сущностей?

    Это структура данных, где сущности или группы представлены как вершины (точки), а их взаимосвязи — как ребра (линии). Например, если две сущности часто появляются в одном списке на разных сайтах, они соединяются ребром. Анализируя этот граф, Google ищет Cliques — плотно связанные группы вершин. Наличие клики указывает на консенсус между источниками, что повышает достоверность и оценку входящих в нее сущностей.

    Насколько важна HTML-структура (списки, таблицы) согласно этому патенту?

    Она критически важна. Патент описывает Extractors, которые специально ищут списки, таблицы и структурированный текст для идентификации групп сущностей. Система оценивает вероятность того, что структура является группой (LGL_{G}LG​). Использование корректной семантической верстки (<li>, <table>) напрямую способствует правильному извлечению данных.

    Заменяет ли этот механизм необходимость в микроразметке Schema.org?

    Нет, не заменяет, но дополняет. Этот патент описывает, как Google извлекает структурированные данные из unstructured content, когда явная разметка отсутствует. Микроразметка Schema.org (например, ItemList) предоставляет данные напрямую и устраняет неоднозначность, но описанный механизм позволяет Google находить и, что более важно, проверять эти данные, используя консенсус в сети.

    Что такое Biased Query и Source-Constrained Query?

    Это модификации исходного запроса для улучшения поиска списков. Biased Query добавляет термины, указывающие на перечисление (например, «список президентов США»), чтобы найти страницы со списками. Source-Constrained Query ограничивает поиск авторитетными источниками (например, энциклопедиями), чтобы получить более достоверные данные.

    Как Google определяет, что список на странице релевантен самой странице?

    Система вычисляет метрику RGDR_{GD}RGD​ (Relevance of Group to Document). Она сравнивает текст и концепции внутри группы (списка) с текстом и концепциями остальной части документа. Если связь слабая (например, список ингредиентов на странице о ремонте автомобиля), группа получит низкую оценку и, вероятно, будет проигнорирована.

    Что важнее для оценки сущности: авторитетность источника или консенсус между многими источниками?

    Патент предполагает, что оба фактора важны и используются совместно. Авторитетность источника влияет на начальную оценку релевантности документа (RDQR_{DQ}RDQ​) и используется в Source-Constrained Queries. Консенсус (анализ графа и клики) используется на этапе индивидуальной оценки сущностей для валидации данных, извлеченных из всех источников.

    Как этот патент связан с Knowledge Graph?

    Этот патент описывает один из фундаментальных механизмов, который Google может использовать для заполнения и обновления Knowledge Graph. Он предоставляет метод для автоматического извлечения списков связанных сущностей и их атрибутов из интернета и механизм для проверки их достоверности перед добавлением в базу знаний.

    Влияет ли частота упоминания сущности в интернете на ее ранжирование в списке?

    Да, но обратно пропорционально. Патент описывает шаг переоценки (rescoring), на котором оценки сущностей могут быть взвешены по обратной частоте их появления в коллекции документов. Это делается для того, чтобы понизить слишком общие или часто встречающиеся термины и повысить более специфичные и релевантные сущности в финальном ранжированном списке.

    Что делать, если мой сайт содержит уникальный список сущностей, которого нет больше нигде?

    Поскольку система сильно полагается на консенсус (Cliques) для валидации, уникальный список может столкнуться с трудностями при получении высокой оценки достоверности, если он не подтверждается другими источниками. В этом случае критически важно максимизировать авторитетность вашего сайта (E-E-A-T), чтобы повысить базовую оценку релевантности (RDQR_{DQ}RDQ​), и обеспечить максимально четкую структуру списка (LGL_{G}LG​).

    Как система обрабатывает синонимы или разные написания одной и той же сущности?

    Патент упоминает шаг переоценки (rescoring), на котором система может изменять оценки похожих или связанных идентификаторов сущностей. Это включает обработку разных вариантов написания, транслитераций, аббревиатур и сокращений (например, «Роберт Кеннеди» и «Бобби Кеннеди»). В некоторых реализациях такие идентификаторы могут быть объединены в одну сущность (нормализация).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.