Как Google использует графы и распространение меток (Label Propagation) для определения семантически связанных сущностей

Google определяет семантическую связь между сущностями, строя двудольный граф, который соединяет сущности (например, события, места) с их признаками (например, текстом, анкорами, запросами). Используя алгоритм машинного обучения Label Propagation, система распространяет идентификаторы сущностей по графу. Это позволяет понять, что две сущности связаны, даже если они не имеют общих прямых признаков, но связаны через семантику своих признаков.

Описание

Какую задачу решает

Патент решает задачу определения семантической связанности (semantic relatedness) между различными сущностями (например, событиями, местами, людьми, компаниями). Основная проблема — как выявить связь, когда сущности не имеют общих прямых признаков (features), но концептуально связаны через семантику этих признаков или через связи с другими сущностями в графе. Система улучшает рекомендации и понимание интересов пользователя.

Что запатентовано

Запатентована система для обнаружения связанных сущностей с использованием графовых методов и машинного обучения. Суть изобретения заключается в построении двудольного графа (bipartite graph), который соединяет узлы сущностей (entity nodes) с узлами признаков (feature nodes). Затем система использует технику распространения меток (Label Propagation) для вычисления оценок связанности (distribution of labels) для всех узлов в графе.

Как это работает

Система работает в несколько этапов:

Извлечение данных: Entity Module извлекает сущности и их признаки (например, заголовок, текст, анкорный текст, поисковые запросы) из веб-ресурсов.
Взвешивание признаков: Вычисляются веса признаков, например, с использованием лог-нормализованного TF-IDF.
Построение графа: Строится двудольный граф, где сущности связаны с признаками, а веса признаков используются как веса ребер (edge weights).
Инициализация меток (Seeding): Каждому узлу сущности присваивается метка (label), идентифицирующая эту сущность (seed labels).
Распространение меток (Label Propagation): Итеративный процесс машинного обучения распространяет эти метки по графу (от сущностей к признакам и обратно к другим сущностям), оптимизируя целевую функцию (objective function).
Результат: Каждый узел (и сущность, и признак) получает распределение меток (distribution of labels), которое представляет собой ранжированный список связанных сущностей.

Актуальность для SEO

Высокая. Понимание сущностей, их взаимосвязей и семантического поиска является ядром современных поисковых технологий Google (Knowledge Graph, MUM). Графовые методы и машинное обучение для выявления неявных связей, как описано в патенте, критически важны для улучшения качества поиска, рекомендательных систем и оценки тематического авторитета.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает конкретный механизм того, как Google может определять семантические отношения между темами и сущностями на основе анализа контента, ссылок и поведения пользователей. Это напрямую влияет на понимание поисковой системой тематического авторитета (Topical Authority), кластеризации контента и того, как контент, посвященный одной сущности, может влиять на релевантность другой.

Детальный разбор

Термины и определения

Bipartite Graph (Двудольный граф): Граф, состоящий из двух типов узлов: Entity Nodes и Feature Nodes. Связи (ребра) существуют только между узлами разных типов (сущность-признак), но не между узлами одного типа.
Distribution of Labels (Распределение меток): Результат процесса Label Propagation. Для каждого узла в графе это распределение показывает, какие другие сущности связаны с этим узлом и какова сила этой связи. Фактически, это ранжированный список связанных сущностей.
Entity (Сущность): Объект интереса, такой как событие, место, человек, бизнес, фильм, ресторан и т.д.
Entity Module (Модуль сущностей): Компонент системы, отвечающий за извлечение сущностей и их признаков из интернет-ресурсов, а также за предварительную обработку и взвешивание признаков.
Feature (Признак): Контекстная информация, описывающая сущность. Обычно это текст (слова, фразы), извлеченный из связанных с сущностью веб-ресурсов.
Feature Categories (Категории признаков): Типы источников, из которых извлекаются признаки. Патент упоминает: Title (заголовок), Surround (окружающий текст/тело документа), Query (запросы, ведущие на ресурс), Anchor (анкорный текст ссылок на ресурс), Taxonomy (таксономическая категоризация ресурса).
Label Propagation (Распространение меток): Графовая техника обучения (graph-based learning technique), которая итеративно распространяет метки (идентификаторы сущностей) по графу на основе его структуры и весов ребер.
Objective Function (Целевая функция): Математическая функция, которую алгоритм Label Propagation стремится минимизировать для нахождения оптимального распределения меток по графу. Она включает компоненты потерь и регуляризации.
Ranking Module (Модуль ранжирования): Компонент системы, отвечающий за построение графа, выполнение Label Propagation и предоставление списка связанных сущностей по запросу.
Seed Labels (Начальные метки): Метки, присваиваемые узлам сущностей до начала процесса распространения. Обычно это идентификатор самой сущности.
TF-IDF (Log normalized TF-IDF): Метод взвешивания признаков, используемый для определения весов ребер в графе. Упомянутая формула: weight = log(1+tf) * log(N/df).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод системы.

Система генерирует граф, включающий узлы сущностей (entity nodes) и узлы признаков (feature nodes), где узлы сущностей соединены с одним или более узлами признаков.
Система выполняет Label Propagation для распространения множества меток по графу, чтобы ассоциировать распределение меток (distribution of labels) с каждым узлом.
Система получает индикацию интересующей сущности или признака.
Система выводит индикацию одной или более связанных сущностей на основе распределения меток, ассоциированного с узлом, представляющим интересующую сущность или признак.

Claim 2 (Зависимый от 1): Уточняет инициализацию Label Propagation.

Процесс включает инициализацию (seeding) каждого узла сущности соответствующей меткой, где каждая метка идентифицирует соответствующий узел сущности.

Claim 3 (Зависимый от 2): Уточняет механизм Label Propagation.

Распространение меток выполняется для определения распределения меток для каждого узла как оптимального решения, которое минимизирует целевую функцию (objective function).

Claim 4 (Зависимый от 3): Детализирует целевую функцию для узлов сущностей.

Целевая функция для узла сущности включает:

Квадратичную потерю (squared loss) между истинным распределением меток (начальной меткой) и изученным распределением. Это заставляет сущность сохранять свою идентичность.
Первый член регуляризации (regularization term), который штрафует соседние узлы признаков, имеющие распределения меток, отличные от распределения данного узла сущности. Это обеспечивает согласованность между сущностью и ее признаками.
Второй член регуляризации, который сглаживает изученное распределение меток в сторону априорного распределения (prior distribution).

Claim 5 (Зависимый от 3): Детализирует целевую функцию для узлов признаков.

Целевая функция для узла признака включает только члены регуляризации (штраф за различия с соседними узлами сущностей и сглаживание). У признаков нет начальных меток, поэтому член квадратичной потери отсутствует; их идентичность полностью определяется связанными с ними сущностями.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно в офлайн-процессах, связанных с индексированием и пониманием данных.

INDEXING – Индексирование и извлечение признаков
На этом этапе работает Entity Module. Происходит сбор данных из интернета, извлечение сущностей и их признаков (Title, Anchor, Query, Surround, Taxonomy). Также вычисляются веса признаков с использованием TF-IDF и выполняется предварительная обработка. Это этап подготовки сырых данных для построения графа.

(Офлайн Анализ Данных) – соответствует этапам RANKING / QUNDERSTANDING
На этом этапе работает Ranking Module. Это основной этап применения патента, который выполняется офлайн или периодически из-за вычислительной сложности:

Построение графа: Генерируется Bipartite Graph на основе данных, подготовленных на этапе INDEXING.
Label Propagation: Выполняется итеративный процесс машинного обучения для расчета distribution of labels для всех узлов.
Хранение результатов: Полученные распределения меток сохраняются в базе данных (Ranking Data Store).

QUNDERSTANDING – Понимание Запросов / RANKING – Ранжирование (Онлайн)
Во время обработки запроса пользователя система может использовать результаты работы алгоритма. Если получен запрос (рассматриваемый как feature of interest) или идентифицирована сущность (entity of interest), система выполняет быстрый поиск (lookup) в Ranking Data Store для получения предварительно рассчитанного списка связанных сущностей.

Входные данные:

Набор сущностей.
Набор признаков, связанных с этими сущностями.
Веса признаков (TF-IDF scores) для каждой пары сущность-признак.

Выходные данные:

Двудольный граф, где каждый узел (сущность или признак) аннотирован distribution of labels (ранжированным списком связанных сущностей с оценками связанности).

На что влияет

Конкретные типы контента: Влияет на любой контент, где могут быть идентифицированы четкие сущности: события, места, люди, компании, продукты, фильмы, рестораны и т.д.
Специфические запросы: Особенно релевантно для информационных и исследовательских запросов, где важно понимание связанных концепций и рекомендаций. Может использоваться для расширения понимания запроса, когда запрос рассматривается как признак.
Географические факторы: Патент упоминает, что система может определять связанность только между сущностями в пределах одного географического региона для повышения релевантности рекомендаций.

Когда применяется

Временные рамки: Построение графа и выполнение Label Propagation — это периодические офлайн-процессы. Использование результатов (поиск связанных сущностей) происходит в режиме реального времени при обработке запросов или генерации рекомендаций.
Условия работы: Алгоритм применяется, когда необходимо определить степень семантической связанности между большим количеством сущностей на основе их признаков.

Пошаговый алгоритм

Процесс А: Подготовка данных (Офлайн)

Сбор данных: Получение интернет-ресурсов и связанной информации (логи запросов, анкоры).
Извлечение сущностей и признаков: Идентификация сущностей и извлечение связанных с ними признаков по категориям (Title, Surround, Query, Anchor, Taxonomy).
Обработка признаков: Выполнение стемминга, удаление глобальных и локальных стоп-слов, дедупликация сущностей.
Взвешивание признаков: Расчет веса для каждой пары сущность-признак с использованием лог-нормализованного TF-IDF.

Процесс Б: Построение графа и расчет связанности (Офлайн)

Генерация графа: Построение Bipartite Graph. Создание Entity Nodes и Feature Nodes. Добавление ребер между ними с весами, рассчитанными в Процессе А.
Инициализация меток (Seeding): Присвоение каждому Entity Node уникальной метки (Seed Label), идентифицирующей его.
Распространение меток (Label Propagation): Итеративное выполнение алгоритма машинного обучения для минимизации Objective Function по всему графу. Метки распространяются от сущностей к признакам и обратно.
Получение распределений: По завершении итераций (например, 5 итераций) каждый узел получает финальное Distribution of Labels.
Хранение: Сохранение результатов в Ranking Data Store.

Процесс В: Использование результатов (Онлайн)

Получение ввода: Система получает индикацию интересующей сущности или запроса (признака).
Поиск в графе: Определение соответствующего узла (или узлов) в графе.
Извлечение распределения: Получение предварительно рассчитанного Distribution of Labels для этого узла.
Вывод результата: Предоставление ранжированного списка связанных сущностей пользователю.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные, извлеченные из интернет-ресурсов, для формирования признаков сущностей:

Контентные факторы:
- Title: Заголовки или названия веб-ресурсов, связанных с сущностью.
- Surround: Окружающий текст, тело документа веб-ресурсов.
Ссылочные факторы:
- Anchor: Анкорный текст ссылок, ведущих на веб-ресурсы, связанные с сущностью.
Поведенческие факторы:
- Query: Поисковые запросы, которые привели к посещению веб-ресурсов, связанных с сущностью.
Структурные факторы:
- Taxonomy: Таксономическая категоризация веб-ресурсов.
Географические факторы: Используются для удаления локальных стоп-слов и могут использоваться для ограничения анализа связанности пределами определенного региона.

Какие метрики используются и как они считаются

Feature Weight (Вес признака) / Edge Weight (Вес ребра): Вес признака j для сущности i рассчитывается с использованием лог-нормализованного TF-IDF. Это значение используется как вес ребра между узлами i и j в графе. Формула: weight = log(1+tf) * log(N/df), где tf – частота признака для сущности, N – общее количество сущностей, df – количество сущностей, в которых встречается признак.
Label Propagation Optimization: Используется метод неконтролируемого машинного обучения (unsupervised machine learning) для итеративного расчета распределения меток. Цель – минимизировать Objective Function.
Objective Function Components:
- Squared loss: Измеряет разницу между изученным и истинным (начальным) распределением меток для узлов сущностей.
- Regularization terms (Члены регуляризации): Штрафуют соседние узлы за слишком разные распределения меток (обеспечивая сглаживание) и штрафуют за отклонение от априорного распределения. В патенте приводятся примеры весов для регуляризации (μ_np=0.5, μ_pp=0.001).
Level of Relatedness (Уровень связанности): Представлен значениями в Distribution of Labels после завершения оптимизации.

Выводы

Семантика через структуру графа: Патент демонстрирует, как Google использует структуру связей между сущностями и их признаками для понимания семантической близости. Связанность определяется не просто наличием общих ключевых слов, а общей позицией в графе.
Важность непрямых связей: Ключевая идея изобретения — выявление связанности даже между сущностями, которые не имеют общих признаков напрямую. Если Сущность А связана с Признаком X, а Сущность Б связана с Признаком Y, и при этом X и Y часто встречаются у других общих сущностей в графе (т.е. семантически близки), то А и Б будут признаны связанными через механизм Label Propagation.
Признаки как векторы связанности: В результате Label Propagation не только сущности, но и признаки (Feature Nodes) получают распределение меток. Это означает, что система знает, какие сущности наиболее тесно связаны с любым данным признаком (например, с конкретным поисковым запросом или анкорным текстом).
Критичность разнообразных сигналов: Система полагается на комбинацию контентных (Title, Surround), ссылочных (Anchor) и поведенческих (Query) сигналов для определения признаков сущности. Это подчеркивает необходимость комплексного подхода в SEO.
Взвешивание на основе TF-IDF: Использование TF-IDF для определения весов ребер означает, что более уникальные и описательные признаки имеют больший вес в определении связанности, чем общие термины.

Практика

Best practices (это мы делаем)

Построение тематического авторитета (Topical Authority): Комплексно раскрывайте сущности и темы на сайте. Чем полнее описана сущность, тем больше релевантных признаков (Feature Nodes) будет связано с ней в графе. Это улучшает ее позиционирование и связанность с другими релевантными сущностями через Label Propagation.
Оптимизация под извлекаемые признаки: Уделяйте особое внимание оптимизации элементов, которые Google явно использует как признаки:
- Title и заголовки должны четко описывать сущность.
- Surround (основной контент) должен предоставлять богатый контекст и включать специфичную терминологию (которая получит высокий вес по TF-IDF).
- Привлекайте внешние ссылки с релевантными Anchor текстами.
- Убедитесь, что контент удовлетворяет релевантные пользовательские Query.
Усиление семантических связей в контенте: Явно указывайте на связи между сущностями в тексте. Упоминание связанных сущностей и признаков помогает укрепить связи в графе. Если вы пишете о Сущности А, упоминание Признаков X, Y, Z, которые также связаны с Сущностью Б, укрепляет связь между А и Б.
Внутренняя перелинковка для контекста: Используйте внутренние ссылки с описательными анкорами. Это помогает поисковой системе точнее извлекать признаки (как Anchor и Surround текст) и понимать взаимосвязи между страницами (сущностями) на вашем сайте.

Worst practices (это делать не надо)

Разрозненный контент и тонкие страницы: Создание контента, который поверхностно затрагивает множество тем без глубокого погружения, не позволит сформировать сильные связи в графе из-за недостатка релевантных признаков.
Переоптимизация и спам ключевыми словами: Неэффективно, так как система использует TF-IDF для взвешивания (понижая вес слишком частых терминов) и применяет удаление стоп-слов. Фокус на неестественном повторении терминов не поможет улучшить семантическую связанность.
Использование вводящих в заблуждение анкоров или кликбейта: Если контент привлекает нерелевантные запросы (Query) или ссылки (Anchor), сущность будет связана с нерелевантными признаками. Это может «загрязнить» ее профиль в графе и связать с неправильным семантическим кластером.

Стратегическое значение

Этот патент подтверждает стратегический переход к SEO, основанному на сущностях (Entity-based SEO). Понимание того, как Google строит концептуальный граф и определяет семантическую близость, критически важно для долгосрочной стратегии. Тематический авторитет можно интерпретировать как наличие плотных и релевантных связей в этом двудольном графе сущностей и признаков. Стратегия должна фокусироваться на создании контента, который не просто ранжируется по ключевым словам, а укрепляет позиции сайта как авторитетного источника информации о взаимосвязанных сущностях.

Практические примеры

Сценарий: Укрепление тематического авторитета сайта о кулинарии

Цель: Установить сильную связь между новой статьей «Рецепт пасты Карбонара» (Сущность А) и общей темой «Итальянская кухня» (представленной набором авторитетных сущностей и признаков).
Действия (Формирование признаков):
- Контент (Surround): Использовать специфичные термины: «гуанчале», «пекорино романо», «аль денте». Это Признаки X.
- Таксономия (Taxonomy): Разместить статью в категории «Паста» / «Итальянская кухня».
- Линкбилдинг (Anchor): Получить ссылку с кулинарного форума с анкором «аутентичная Карбонара». Это Признак Y.
Механизм (Label Propagation):
- Авторитетные сайты об итальянской кухне (Сущности Б) уже сильно связаны с Признаками X и Y в графе Google.
- Когда Сущность А также устанавливает связи с Признаками X и Y, алгоритм Label Propagation начинает переносить метки между Сущностью А и Сущностями Б через эти общие узлы признаков.
Результат: Сущность А признается семантически близкой к Сущностям Б. Это повышает ее релевантность и авторитетность при ранжировании по запросам, связанным с пастой Карбонара и итальянской кухней.

Вопросы и ответы

Что такое Label Propagation в контексте этого патента?

Это итеративный алгоритм машинного обучения, который распространяет идентификаторы (метки) сущностей по двудольному графу. Он начинается с известных меток (каждая сущность знает свою метку) и распространяет их на соседние узлы (признаки), а затем обратно на другие сущности. Цель состоит в том, чтобы узлы, тесно связанные в графе (через общие признаки), имели схожее распределение меток.

Что именно Google использует в качестве «признаков» (Features) сущности?

Патент явно перечисляет пять категорий признаков, извлекаемых из веб-ресурсов: Title (заголовки), Surround (основной контент/окружающий текст), Query (поисковые запросы, по которым пользователи переходили на страницу), Anchor (текст входящих ссылок) и Taxonomy (категоризация страницы). Это подчеркивает важность как онпейдж, так и оффпейдж сигналов.

Как рассчитываются веса признаков и почему это важно?

Веса рассчитываются с использованием лог-нормализованного TF-IDF. Это важно, потому что эти веса становятся весами ребер в графе и напрямую влияют на процесс Label Propagation. TF-IDF гарантирует, что более редкие и описательные признаки будут иметь больший вес, чем общие слова, тем самым повышая точность определения семантической связанности.

Может ли система связать две сущности, которые не имеют ни одного общего признака?

Да, это ключевой аспект патента. Две сущности могут быть признаны связанными, если их признаки семантически близки. Это достигается за счет структуры графа: если Признак X и Признак Y часто встречаются вместе у множества других сущностей, система поймет, что X и Y семантически связаны, и, следовательно, сущности, использующие X и Y, также связаны.

Как этот патент влияет на стратегию внутренней перелинковки?

Внутренняя перелинковка становится критически важной для установления контекста и связей между сущностями на вашем сайте. Использование описательных анкоров (которые становятся признаками Anchor) и релевантного окружающего текста (признаки Surround) помогает Google точнее определить признаки ваших страниц (сущностей) и укрепить их связи в графе.

Какое отношение этот патент имеет к Тематическому Авторитету (Topical Authority)?

Этот патент предлагает механизм для вычисления Тематического Авторитета. Сайт, который всесторонне охватывает кластер связанных сущностей, будет иметь плотную и сильно связанную структуру в этом графе. Его сущности будут часто появляться в распределениях меток друг друга и ключевых признаков темы, что сигнализирует о высоком авторитете.

Происходит ли процесс Label Propagation в реальном времени при каждом запросе?

Нет. Построение графа и выполнение Label Propagation — это вычислительно затратные процессы, которые выполняются офлайн или периодически. В реальном времени система получает запрос или сущность и просто извлекает (lookup) предварительно рассчитанное распределение меток для соответствующего узла.

Насколько важны входящие ссылки и поведение пользователей согласно этому патенту?

Они очень важны, так как являются прямыми источниками признаков. Текст входящих ссылок (Anchor) и поисковые запросы, по которым пользователи переходят на страницу (Query), используются для определения того, как сущность воспринимается пользователями и другими сайтами, что напрямую влияет на ее связи в графе.

Что такое «распределение меток» (Distribution of Labels)?

Это результат работы алгоритма для конкретного узла. Это не просто одна метка, а список множества меток (идентификаторов других сущностей) с оценками, указывающими на силу связи. По сути, это ранжированный список наиболее связанных сущностей для данного узла.

Как SEO-специалист может повлиять на этот граф?

SEO-специалист влияет на граф через контент и внешние сигналы. Обогащая контент (Title, Surround), привлекая релевантные ссылки (Anchor) и трафик по нужным запросам (Query), вы добавляете релевантные признаки и увеличиваете их вес (TF-IDF). Это укрепляет связи вашей сущности с ключевыми темами в графе.