Как Google автоматически создает и определяет Коллекции Сущностей в Графе Знаний, используя поисковые логи, Википедию и Information Gain

Google использует систему для автоматического создания коллекций (групп) сущностей в Knowledge Graph. Система анализирует популярные поисковые запросы и категории из краудсорсинговых источников (например, Wikipedia), чтобы найти связанные сущности. Затем она определяет общие атрибуты этих сущностей в графе и использует метрику Information Gain для создания точных правил членства. Это позволяет масштабировать категоризацию сущностей и улучшать понимание контента.

Описание

Какую задачу решает

Патент решает проблему масштабирования категоризации сущностей в больших графовых базах знаний (например, Knowledge Graph). Графы хранят мелкозернистые факты (триплеты), что затрудняет понимание сущностей на высоком уровне (например, понять, что человек является «Отцом», а не просто знать имя его ребенка). Ручное создание таких коллекций (групп) не масштабируется. Изобретение автоматизирует процесс обнаружения полезных коллекций, определения правил членства в них и эффективного вычисления принадлежности сущностей.

Что запатентовано

Запатентована система для автоматического генерирования определений коллекций сущностей. Система определяет набор исходных сущностей (например, из популярных запросов или категорий Википедии) и находит общие для них ограничения (constraints) — общие пути в графе. Затем генерируются кандидатские определения коллекций из комбинаций этих ограничений. Кандидаты оцениваются с использованием метрики Information Gain, и те, что превышают порог, сохраняются и могут быть опубликованы.

Как это работает

Система работает в двух основных режимах: Обнаружение (Discovery) и Определение Членства (Membership).

Обнаружение Коллекций: Система идентифицирует исходный набор сущностей (Seed Set), например, из популярных запросов или категорий Wiki. Затем она находит общие атрибуты (constraints) и оценивает их комбинации с помощью Information Gain. Кандидаты ранжируются (по популярности в поиске и значимости членов), проходят автоматическое курирование (генерация имен) и публикуются при достижении порога качества.
Определение Членства: Для опубликованных коллекций система создает индекс всех ограничений (Collection Index). Это позволяет эффективно, за один проход (single pass traversal) по окружению сущности в графе, определить ее членство во всех существующих коллекциях.

Актуальность для SEO

Высокая. Автоматизация и масштабирование Knowledge Graph являются критически важными задачами для Google. Понимание сущностей и их категоризация (принадлежность к коллекциям) лежит в основе Entity SEO, формирования Knowledge Panels, оценки E-E-A-T и семантического поиска (включая SGE). Описанные механизмы автоматического обнаружения и определения коллекций активно используются для расширения и поддержания актуальности графа знаний.

Важность для SEO

Патент имеет высокое значение (85/100) для стратегий Entity SEO. Он раскрывает механизмы, с помощью которых Google автоматически категоризирует сущности. Понимание того, что источниками для создания коллекций являются популярные запросы и категории Википедии, дает четкий сигнал о важности этих источников. SEO-специалистам необходимо обеспечивать полноту и точность атрибутов сущности в графе (через структурированные данные и авторитетные источники), чтобы она могла быть корректно включена в релевантные автоматические коллекции.

Детальный разбор

Термины и определения

Collection (Коллекция): Группа сущностей в графе знаний, объединенных общими характеристиками. Определяется набором условий и ограничений.
Collection Definition (Определение коллекции): Набор правил, определяющих членство в коллекции. Включает одно или несколько условий в конъюнктивной нормальной форме (CNF).
Condition (Условие): Часть определения коллекции. Все условия должны быть выполнены (логическое И) для членства в коллекции. Условие состоит из одного или нескольких ограничений.
Constraint (Ограничение): Элементарное правило внутри условия. Если в условии несколько ограничений, они дизъюнктивны (логическое ИЛИ). Ограничение определяет тип (Constraint Type) и выражение (путь в графе).
Constraint Types (Типы ограничений): Определяют логику проверки: Exists (путь существует), Not Exists, Equals (путь ведет к конкретному значению/сущности), Not Equals, Template (путь ведет к переменной).
Conjunctive Normal Form (CNF) (Конъюнктивная нормальная форма): Логическая форма для определения коллекций: (Constraint1 OR Constraint2) AND (Constraint3). Все условия должны быть истинны.
Data Graph / Knowledge Base (Граф знаний): База данных, хранящая информацию в виде узлов (сущностей) и ребер (отношений). Например, Knowledge Graph.
Information Gain (Прирост информации): Метрика из теории информации, используемая для оценки того, насколько хорошо определение коллекции (набор ограничений) коррелирует с исходным набором сущностей. Используется для выбора лучших ограничений и оценки кандидатов.
Template Constraint (Шаблонное ограничение): Тип ограничения, который использует переменную для целевого узла. Позволяет динамически создавать множество коллекций (например, «Президенты [Страны]»).
Pseudo Queries (Псевдозапросы): Запросы, автоматически сгенерированные из ограничений коллекции для оценки ее популярности путем сопоставления с логами поиска (Search Records).
Seed Set (Исходный набор сущностей): Начальная группа сущностей (например, из результатов поиска или категории Вики), используемая системой для обнаружения общих атрибутов.
Single Pass Traversal (Обход за один проход): Эффективный метод вычисления членства сущности во всех коллекциях путем однократного анализа ее окружения в графе, используя Collection Index.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс автоматического определения коллекций.

Система определяет первый набор сущностей из базы знаний (knowledge base).
Система определяет второй набор ограничений (constraints). Каждое ограничение идентифицирует тип и путь в базе знаний, общий как минимум для двух сущностей из первого набора.
Генерируются кандидатские определения коллекций из комбинаций ограничений второго набора. Каждое определение содержит одно или несколько ограничений в конъюнктивной нормальной форме (conjunctive normal form).
Кандидатские определения сокращаются (prune) путем отбрасывания тех, чей Information Gain не соответствует порогу.
По крайней мере одно кандидатское определение, чей Information Gain соответствует порогу, сохраняется как коллекция. Это определение используется для определения сущностей в базе знаний, принадлежащих к этой коллекции.

Claim 3 (Зависимый от 1): Уточняет источник исходного набора сущностей.

Определение первого набора сущностей включает идентификацию популярного запроса из логов поиска (search records), конвертацию его в семантический запрос и выполнение этого запроса к базе знаний для получения результатов (сущностей).

Claim 5 (Зависимый от 1): Описывает автоматическое именование коллекций.

Система генерирует название коллекции для кандидатского определения на основе свойств из базы знаний, связанных с ограничениями этого определения.

Claim 7 (Зависимый от 1): Уточняет процесс выбора ограничений.

Определение второго набора ограничений включает генерацию оценки корреляции (correlation score) для соответствующих ограничений и использование этих оценок для выбора количества ограничений.

Claim 8 (Зависимый от 1): Описывает процесс слияния (реконсиляции) коллекций.

Система определяет, что первое и второе кандидатские определения совместимы, и в ответ на это объединяет их в третье кандидатское определение.

Claim 12 (Зависимый от 1): Описывает процесс ранжирования и публикации.

Система оценивает (score) кандидатскую коллекцию на основе логов поиска (search records) и публикует определение, когда оценка соответствует пороговому значению.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, преимущественно связанных с обработкой и структурированием данных в Knowledge Graph.

CRAWLING & INDEXING – Сбор данных и Индексирование
Система использует данные из crawled documents (например, краудсорсинговые корпуса типа Wikipedia) как источники для обнаружения потенциальных коллекций (Seed Sets).

INDEXING & Feature Extraction – Индексирование и извлечение признаков
Основное применение патента. Процесс обнаружения коллекций (Collection Discovery Engine) работает как механизм извлечения признаков высокого уровня из Graph-Based Datastore (Knowledge Graph).

Автоматическое обнаружение: Анализ графа для поиска общих паттернов (путей/ограничений) среди наборов сущностей.
Определение правил: Использование Information Gain для генерации формальных определений коллекций.
Вычисление членства: Collection Membership Engine вычисляет, какие сущности удовлетворяют этим правилам.
Расширение Графа: Результаты сохраняются обратно в граф в виде новых связей (например, Сущность -> member_of -> Коллекция).

QUNDERSTANDING – Понимание Запросов
Система анализирует логи популярных запросов (Search Records) для идентификации групп сущностей, которые интересуют пользователей. Это служит триггером для создания новых актуальных коллекций. Также система конвертирует эти популярные запросы в семантические запросы к графу.

RANKING – Ранжирование
Членство сущности в определенных коллекциях может служить сигналом ранжирования, указывая на авторитетность (E-E-A-T) или релевантность сущности в определенном контексте. Коллекции также используются для формирования SERP features (карусели, панели знаний).

Входные данные:

Граф знаний (сущности и связи).
Логи поиска (Search Records).
Краудсорсинговые корпуса документов (например, категории Wiki).

Выходные данные:

Определения коллекций (набор правил).
Названия коллекций.
Новые триплеты в графе знаний, указывающие на членство сущностей в коллекциях.

На что влияет

Типы контента и сущности: Влияет на любые сущности, представленные в Knowledge Graph (люди, места, организации, продукты и т.д.).
Специфические запросы: Влияет на запросы, связанные с категориями или списками сущностей (например, «лауреаты Нобелевской премии по физике», «фильмы Тома Хэнкса»). Улучшает качество ответов на такие запросы за счет предоставления структурированных данных о коллекциях.
Ниши и тематики: Влияет на все тематики, охваченные графом знаний. Особенно сильно влияние в нишах с богатой структурой атрибутов, а также в YMYL-тематиках, где категоризация экспертов и организаций важна.

Когда применяется

Триггеры активации (Обнаружение): Активируется при обнаружении популярных запросов в логах поиска или при анализе обновлений в краудсорсинговых источниках (например, появление новых категорий в Википедии).
Частота применения (Обнаружение): Процесс генерации и публикации новых коллекций выполняется периодически в офлайн-режиме.
Частота применения (Вычисление членства): Вычисление членства может выполняться периодически в пакетном режиме для всего графа или в реальном времени при обновлении данных о конкретной сущности. Патент описывает эффективный механизм (single pass traversal), позволяющий выполнять это быстро.
Пороговые значения: Ключевым порогом является Information Gain для сохранения коллекции и Search Popularity Score (или общий Quality Score) для ее публикации.

Пошаговый алгоритм

Процесс А: Автоматическое Обнаружение Коллекций (Discovery)

Инициация (Выбор источника): Система выбирает источник для генерации исходного набора сущностей (Seed Set):
1. Идентифицирует популярный запрос из логов поиска, конвертирует его в семантический запрос и получает набор сущностей из графа.
2. ИЛИ: Выбирает категорию из краудсорсингового источника (Wiki) и определяет связанные с ней сущности.
Определение Общих Свойств: Для исходного набора сущностей система определяет общие пары свойство-значение (путь и целевой узел в графе).
Расчет Корреляции и Выбор: Для каждой пары рассчитывается оценка корреляции (используя Information Gain, TF-IDF). Выбирается предопределенное количество наиболее коррелирующих пар. Предпочтение отдается парам, включающим популярные сущности.
Генерация Кандидатов: Система генерирует комбинации (подмножества) выбранных пар. Каждая комбинация является кандидатским определением коллекции (в CNF).
Оценка и Отбор (Pruning): Для каждой комбинации рассчитывается Information Gain. Комбинации, не достигающие порога, отбрасываются.
Ранжирование Кандидатов: Сохранившиеся кандидаты ранжируются на основе агрегированной оценки, включающей:
1. Search Popularity Score (генерируются псевдозапросы из определения и проверяются в логах поиска).
2. Member Notability Score (значимость сущностей в коллекции).
Реконсиляция (Слияние): Система объединяет совместимые (эквивалентные или синонимичные) кандидатские коллекции.
Курирование (Именование): Автоматически генерируются названия для коллекций на основе их ограничений.
Публикация: Коллекции, достигшие порога качества, публикуются.

Процесс Б: Эффективное Вычисление Членства (Membership — Single Pass Traversal)

Индексация Коллекций: Система генерирует индекс (Collection Index) для всех опубликованных коллекций. Индекс группирует ограничения по типу (Exists Index, Equals Index, Template Index и т.д.) и связывает выражение ограничения с парой Коллекция/Условие.
Инициализация: Для оцениваемой сущности инициализируются структуры данных (например, битовые векторы) для отслеживания выполнения условий каждой коллекции.
Обход Соседства (Traversal): Система итерирует по всем исходящим связям (ребрам) сущности один раз.
Сопоставление с Индексом: Каждая связь (и путь, следующий за ней) сопоставляется со всеми индексами одновременно.
Обновление Статуса: Если связь удовлетворяет ограничению в индексе, соответствующее условие в структуре данных помечается как выполненное (или нарушенное для типов Not Exists/Not Equals).
Финальная Оценка: После завершения обхода система определяет, для каких коллекций выполнены все условия (с учетом CNF логики и обработки нарушений).
Генерация Триплетов: В граф добавляются связи между сущностью и сущностями, представляющими коллекции, членом которых она стала.

Какие данные и как использует

Данные на входе

Структурные факторы (Граф): Сущности (узлы), отношения (ребра, предикаты) и значения (объекты) из Knowledge Graph. Это основа для определения путей и ограничений.
Поведенческие факторы (Логи поиска): Search records используются для двух целей:
1. Как источник для обнаружения коллекций (идентификация популярных запросов).
2. Для ранжирования коллекций (оценка популярности псевдозапросов, сгенерированных из определений).
Контентные факторы (Внешние источники): Данные из crawled documents, в частности, категории из краудсорсинговых корпусов (Wiki), используются как источник для обнаружения коллекций. Также упоминается использование Web Tables.
Метрики сущностей: Популярность или значимость сущностей (Entity Notability/Popularity) используется для приоритизации ограничений и ранжирования коллекций (Member Score).

Какие метрики используются и как они считаются

Correlation Score (Оценка корреляции): Используется для выбора наиболее значимых общих свойств (ограничений). Рассчитывается с использованием метрик теории информации, таких как Information Gain и TF-IDF. Учитывает популярность сущностей.
Information Gain (Прирост информации): Ключевая метрика для оценки качества кандидатского определения коллекции. Рассчитывается на основе энтропии, учитывая общее количество сущностей в графе (T), количество сущностей в исходном наборе (S), количество сущностей в графе, удовлетворяющих определению (Y), и количество сущностей из исходного набора, удовлетворяющих определению (X).
Search Popularity Score: Оценка популярности коллекции, основанная на частоте появления псевдозапросов (сгенерированных из определения коллекции) в логах поиска.
Member Notability Score: Оценка значимости коллекции, основанная на популярности или важности (Notability) сущностей, входящих в нее.
Overall Rank Score: Агрегированная оценка (например, взвешенная сумма) индивидуальных оценок (Search Popularity, Member Notability), используемая для приоритизации коллекций.

Выводы

Автоматизация Knowledge Graph: Патент демонстрирует, как Google масштабирует построение Knowledge Graph за счет автоматического обнаружения и определения категорий (коллекций) сущностей, минимизируя ручной труд.
Важность Information Gain для определения правил: Система использует строгие статистические методы (Information Gain) для определения того, какие общие атрибуты являются определяющими для группы сущностей. Это не просто кластеризация, а генерация формальных правил членства.
Источники данных для коллекций: Ключевыми источниками для обнаружения новых коллекций являются популярные поисковые запросы и краудсорсинговые данные (например, категории Wikipedia). Это подчеркивает важность этих сигналов для структурирования знаний Google.
Гибкий язык определений (CNF и Constraints): Использование Конъюнктивной Нормальной Формы (CNF) и различных типов ограничений (Exists, Equals, Template) позволяет создавать сложные и точные определения коллекций.
Эффективность вычислений: Механизм single pass traversal и Collection Index позволяет быстро определять членство сущности в тысячах коллекций одновременно, что критично для работы с графами масштаба Google.
Приоритет популярных коллекций: Система явно отдает приоритет коллекциям, которые часто ищут пользователи (Search Popularity Score) и которые содержат значимые сущности (Member Notability Score).

Практика

Best practices (это мы делаем)

Обеспечение присутствия в источниках коллекций (Wikipedia): Активно работайте над тем, чтобы ваши ключевые сущности (компания, продукты, авторы) были точно представлены и корректно категоризированы в Wikipedia/Wikidata. Это увеличивает вероятность того, что они будут использованы как исходные данные (Seed Set) для автоматического создания коллекций.
Обеспечение полноты данных в Knowledge Graph (Entity Optimization): Убедитесь, что все релевантные атрибуты вашей сущности присутствуют в Knowledge Graph. Используйте структурированные данные (Schema.org) на официальных сайтах и поддерживайте актуальность в авторитетных источниках. Чем больше точных атрибутов у сущности, тем выше вероятность ее включения в релевантные автоматические коллекции.
Использование точных предикатов в разметке: При использовании Schema.org используйте наиболее точные свойства (предикаты) для описания отношений (например, alumniOf, worksFor, jobTitle). Это помогает системе корректно идентифицировать пути в графе, которые используются в ограничениях коллекций.
Повышение Notability сущностей: Работайте над повышением значимости (Notability) ваших сущностей (через PR, упоминания в авторитетных источниках). Коллекции, содержащие более значимые сущности, получают более высокий приоритет (Member Notability Score).
Стимулирование поискового спроса на категории: Развивайте и популяризируйте категории, связанные с вашим брендом или нишей. Если пользователи часто ищут определенную категорию, Google может автоматически создать соответствующую коллекцию в Knowledge Graph на основе этого спроса (используя Search Records).

Worst practices (это делать не надо)

Игнорирование Entity SEO и Wikipedia: Рассматривать Wikipedia только как источник ссылок — ошибка. Это ключевой источник данных для обучения систем автоматического определения коллекций. Отсутствие сущности там или ее неправильная категоризация снижает ее видимость в семантическом поиске.
Неполное или неточное использование структурированных данных: Предоставление неполных данных о сущности снижает количество путей в графе, которые система может анализировать, уменьшая шансы на включение в коллекции.
Манипуляции с атрибутами (Entity Spamming): Попытки добавить сущности ложные атрибуты для попадания в популярные коллекции. Система использует Information Gain для валидации, и искусственные связи могут быть проигнорированы или привести к потере доверия к сущности.

Стратегическое значение

Этот патент подтверждает стратегическую важность перехода от ключевых слов к сущностям (Entities) и их взаимосвязям. Автоматическое создание коллекций позволяет Google лучше понимать мир и отвечать на запросы пользователей более структурированно. Для SEO это означает, что работа над представлением бренда как сущности в Knowledge Graph становится обязательной. Включение сущностей сайта в авторитетные коллекции является сильным сигналом E-E-A-T и тематического авторитета.

Практические примеры

Сценарий: Повышение E-E-A-T автора медицинского сайта

Ситуация: Медицинский сайт хочет повысить авторитетность своих авторов-врачей.
Действия SEO: Для каждого автора создается детальная биография с полной разметкой Schema.org/Person, указывающей образование (alumniOf), специализацию (knowsAbout), место работы (worksFor) и лицензии. Эта информация подтверждается во внешних авторитетных источниках (медицинские реестры, профили в клиниках).
Реакция Системы (Процесс из патента):
1. Система анализирует Knowledge Graph и обнаруживает группу сущностей с общими атрибутами (например, Специализация: Кардиология AND Лицензия: [Штат]).
2. Система рассчитывает Information Gain и определяет, что эти атрибуты значимы.
3. Автоматически создается коллекция «Лицензированные кардиологи [Штата]».
Результат: Авторы сайта включаются в эту коллекцию. Членство в такой авторитетной коллекции служит сильным сигналом E-E-A-T для контента, созданного этими авторами.

Вопросы и ответы

Что такое «Коллекция сущностей» в контексте этого патента?

Коллекция — это группа сущностей в Knowledge Graph (например, люди, места, продукты), объединенных общими характеристиками. В отличие от простого кластера, коллекция имеет формальное определение в виде логических правил (условий и ограничений), основанных на структуре графа. Примерами могут быть «Лауреаты Пулитцеровской премии» или «Фильмы, снятые в Калифорнии».

Как Google решает, какие коллекции создавать автоматически?

Система ищет «исходные наборы» (Seed Sets) сущностей, которые уже сгруппированы по какому-либо признаку. Основными источниками для этого являются популярные поисковые запросы пользователей (указывающие на интерес к группе сущностей) и внешние источники, такие как категории Википедии. Затем система анализирует общие атрибуты этих сущностей и использует статистический метод Information Gain, чтобы определить, какие атрибуты формируют наиболее значимое определение коллекции.

Что такое Information Gain и почему это важно?

Information Gain (Прирост информации) — это метрика, которая измеряет, насколько хорошо определенный набор атрибутов (определение коллекции) отделяет исходный набор сущностей от всех остальных сущностей в графе. Если атрибут встречается только у сущностей исходного набора и ни у кого больше, он идеально подходит для определения (высокий IG). Это гарантирует, что создаваемые коллекции являются значимыми и точными, а не случайными.

Как SEO-специалист может повлиять на включение сущности в коллекцию?

Напрямую создать коллекцию нельзя, так как процесс автоматизирован. Однако можно значительно повысить шансы на включение сущности в релевантные коллекции, предоставляя Google четкие, полные и согласованные фактические данные об этой сущности. Использование микроразметки Schema.org для определения атрибутов (профессия, образование, награды, связи) критически важно, так как именно эти атрибуты анализируются системой для определения членства.

Какое значение этот патент имеет для E-E-A-T?

Он имеет большое значение. Если автор или организация автоматически включаются в авторитетные коллекции (например, «Сертифицированные Финансовые Аналитики», «Компании из списка Fortune 500»), это служит мощным сигналом подтверждения их экспертизы и авторитетности. Это прямой механизм, с помощью которого Google может оценивать E-E-A-T на основе фактических данных в Графе Знаний.

Что такое «шаблонное ограничение» (Template Constraint)?

Это мощный тип правила, который использует переменные вместо фиксированных значений. Например, правило «Гражданство = [Страна]» является шаблоном. Оно позволяет автоматически создать множество коллекций из одного правила: «Граждане Франции», «Граждане США», «Граждане Германии» и т.д., в зависимости от данных в графе.

Что означает определение членства «за один проход» (single pass traversal)?

Это механизм эффективности. Вместо того чтобы проверять каждую сущность на соответствие правилам каждой коллекции по отдельности, система создает специальный индекс коллекций (Collection Index). Это позволяет ей проанализировать все атрибуты сущности один раз и сразу определить, в какие коллекции она входит. Это критично для масштабирования.

Как этот патент влияет на работу с Wikipedia?

Патент прямо указывает на использование категорий из краудсорсинговых корпусов (Wiki) как источника для обнаружения коллекций. Это критически подчеркивает важность не только наличия статьи о вашей сущности в Wikipedia/Викиданных, но и ее правильной категоризации. Точные категории увеличивают шансы на то, что Google автоматически создаст релевантные коллекции, включающие вашу сущность.

Влияет ли популярность сущности на создание коллекций?

Да. Патент указывает, что популярность или важность (Notability) сущностей учитывается на двух этапах. Во-первых, при выборе атрибутов предпочтение отдается тем, которые включают популярные сущности. Во-вторых, при ранжировании готовых коллекций учитывается важность ее членов (Member Notability Score).

Может ли моя сущность быть членом коллекции, даже если она не идеально соответствует правилам?

Да. Патент предусматривает использование Whitelists (белых списков) и Blacklists (черных списков) в определении коллекции. Сущность в белом списке является членом коллекции, даже если она не удовлетворяет всем условиям. И наоборот, сущность в черном списке исключается, даже если она удовлетворяет всем условиям.