Как Google использует графы и метод случайного блуждания для определения и распространения атрибутов между связанными сущностями

Google использует графовую модель для расширения знаний о сущностях (Instances). Система строит граф, связывающий сущности, их классы (Classes) и атрибуты (Attributes). С помощью алгоритма случайного блуждания (Random Walks) система вычисляет вероятность того, что атрибут одной сущности применим к другой связанной сущности (через общие классы или контекстное сходство), и переносит (propagates) эти атрибуты для обогащения базы знаний.

Описание

Какую задачу решает

Патент решает проблему неполноты данных (data sparsity) при автоматическом извлечении атрибутов для конкретных сущностей (Instances). Традиционные методы часто не могут получить полный набор характеристик для сущности. Цель изобретения — улучшить полноту и точность извлеченных атрибутов путем распространения (Attribute Propagation) известных атрибутов между семантически связанными сущностями для обогащения базы знаний (Knowledge Graph) и улучшения качества поиска.

Что запатентовано

Запатентована система для извлечения и распространения атрибутов сущностей с использованием графовой модели и алгоритмов случайного блуждания (Random Walks). Система объединяет данные о связях типа Instance-Class (отношения «IsA») и Instance-Instance (дистрибутивное сходство) в единый граф. Атрибуты распространяются от одной сущности к другой, если они связаны. Вероятность этого распространения рассчитывается как вероятность достижения атрибута при старте случайного блуждания от целевой сущности.

Как это работает

Система функционирует следующим образом:

Построение графа: Создается граф, где узлами являются Сущности (Instances), Классы (Classes) и Атрибуты (Attributes). Ребра взвешены вероятностями перехода (Transition Probabilities).
Определение связей: Учитываются два типа связей: принадлежность к общему классу и дистрибутивное сходство (Distributional Similarity) — частое появление в одинаковых текстовых контекстах.
Случайные блуждания (Random Walks): Для определения атрибутов Сущности А система инициирует случайные блуждания из узла А. Блуждание может идти напрямую к атрибуту, через узел класса к другой сущности Б, или через узел схожей сущности В, а затем к их атрибутам.
Расчет значения связанности (Relatedness Value): Итоговая оценка — это вероятность того, что случайное блуждание, начавшись в Сущности А, завершится в данном атрибуте.
Ранжирование и распространение: Атрибуты ранжируются по их Relatedness Value. Наиболее вероятные атрибуты (превышающие порог) ассоциируются с Сущностью А.

Актуальность для SEO

Высокая. Патент описывает фундаментальные методы обогащения Графа Знаний (Knowledge Graph). Понимание сущностей, их таксономии (классов) и характеристик (атрибутов) является критически важным для современного семантического поиска, оценки E-E-A-T и точного определения интента пользователя. Описанные методы остаются крайне актуальными.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10) для SEO, особенно в области Entity SEO. Он раскрывает механизмы, с помощью которых Google определяет, какие характеристики (атрибуты) являются важными для конкретной темы или сущности. Это напрямую влияет на то, как Google оценивает полноту раскрытия темы (Topical Authority), релевантность контента и его представление в Knowledge Panels и уточнениях запросов.

Детальный разбор

Термины и определения

Attribute (Атрибут): Качество, свойство или характеристика, описывающая сущность. Примеры: «Side Effects» (Побочные эффекты), «Cost» (Стоимость).
Attribute Propagation (Распространение атрибутов): Процесс ассоциирования атрибута, известного для одной сущности, с другой связанной сущностью.
Class (Класс): Метка, представляющая семантическую концепцию или категорию. Пример: «Antibiotics» (Антибиотики).
Distributional Similarity (Дистрибутивное сходство): Мера того, насколько часто две сущности появляются в схожих текстовых контекстах (в документах или запросах). Используется как индикатор семантической связанности.
Instance (Сущность / Экземпляр): Конкретный семантический объект (слово или фраза), принадлежащий к определенному классу. Пример: «Cloxacillin». Аналог Entity.
«IsA» pair (Пара «IsA»): Отношение, указывающее на принадлежность к классу (например, «Cloxacillin» IsA «Antibiotic»).
Loop-back edge / P(l) (Ребро обратной связи / Вероятность петли): Ребро, ведущее из узла обратно в тот же узел. Вероятность P(l) используется для балансировки веса уже известных атрибутов сущности относительно распространяемых атрибутов.
Random Walk (Случайное блуждание): Алгоритмический процесс последовательных случайных перемещений между узлами графа на основе вероятностей перехода.
Relatedness Value (R(j,k)) (Значение связанности): Итоговая метрика, измеряющая вероятность того, что случайное блуждание, начавшееся с сущности i(j), закончится на атрибуте a(k). Используется для ранжирования атрибутов.
Text Repository (Текстовый репозиторий): Источник данных (веб-контент, логи запросов), используемый для определения исходных связей и расчета дистрибутивного сходства.
Transition Probability (Вероятность перехода): Вероятность перемещения из одного узла в другой за один шаг случайного блуждания. Нормализованный вес ребра.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод извлечения и распространения атрибутов.

Система идентифицирует в графе атрибуты для целевой (первой) сущности и связанных (вторых) сущностей. Граф содержит узлы сущностей, атрибутов и ребра между ними. Также он содержит пути между узлами сущностей, указывающие на семантическую связь.
Выполняется случайное блуждание (Random Walk) от первой сущности к атрибуту (из набора вторых атрибутов) через вторые сущности.
Вычисляется значение связанности (Relatedness Value) для этого блуждания.
Определяется, удовлетворяет ли это значение пороговому значению (threshold relatedness value).
Если да, создается ребро между этим атрибутом и первой сущностью в графе (т.е. атрибут распространяется и сохраняется).

Claim 5 и 6 (Зависимые от 1): Уточняют использование Классов для определения связи.

Граф включает узлы классов. Связь определяется через принадлежность к общему классу (IsA relationship).
Случайное блуждание имеет 3 шага: Сущность 1 -> Класс -> Сущность 2 -> Атрибут.

Claim 8 и 9 (Зависимые от 1): Уточняют использование Дистрибутивного Сходства для определения связи.

Связь определяется через Distributional Similarity (появление в схожих текстовых контекстах). Граф имеет прямые ребра между схожими сущностями.
Случайное блуждание имеет 2 шага: Сущность 1 -> Сущность 2 -> Атрибут.

Claim 7 и 10 (Зависимые): Описывают механизм Loop-back.

Случайное блуждание может включать шаг от Сущности 1 обратно к Сущности 1 (петля), а затем к атрибуту. Это позволяет учитывать атрибуты, уже известные для Сущности 1.

Claim 13 (Зависимый): Описывает применение результатов для уточнения запросов (Query Refinement) в реальном времени.

Где и как применяется

Изобретение применяется на этапах обработки данных для обогащения базы знаний и на этапе обработки запросов.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Процесс является преимущественно офлайновым (batch processing).

Сбор данных: Анализ Text Repository для построения исходных баз данных (Instance-Class, Instance-Instance Similarity, Instance-Attribute).
Построение графа и расчеты: Конструирование графа, выполнение Random Walks и расчет Relatedness Values.
Обогащение индекса: Сохранение новых, распространенных атрибутов в базе знаний (Knowledge Graph).

QUNDERSTANDING – Понимание Запросов
Результаты используются на этом этапе в реальном времени.

Уточнение запросов (Query Refinement): Как указано в Claim 13, система может использовать извлеченные и ранжированные атрибуты для предложения уточнений запроса пользователю.
Понимание интента: Знание ключевых атрибутов сущности помогает лучше интерпретировать запрос.

METASEARCH – Метапоиск и Смешивание
Обогащенные данные используются для формирования SERP-фич, таких как Knowledge Panels.

На что влияет

Конкретные типы контента (Сущности): Влияет на любые четко определенные сущности (продукты, люди, организации, медицинские термины), которые могут быть классифицированы или имеют достаточное количество упоминаний для расчета Distributional Similarity.
Специфические запросы: Информационные запросы, где пользователь ищет свойства или характеристики сущности.
Конкретные ниши: Критически важно для YMYL и E-commerce, где точность атрибутов имеет первостепенное значение.

Когда применяется

Временные рамки: Основные вычисления (Random Walks) выполняются офлайн, периодически. Использование результатов для уточнения запросов происходит в реальном времени.
Условия применения: Наличие достаточного количества исходных данных о связях (классы или сходство) для построения графа и выполнения распространения атрибутов.
Пороговые значения: Атрибуты распространяются, только если их рассчитанное Relatedness Value удовлетворяет определенному порогу (Claim 1).

Пошаговый алгоритм

Описан обобщенный процесс на основе комбинированной модели (FIG. 6), объединяющей все типы связей.

Этап А: Подготовка Графа (Офлайн)

Сбор исходных данных: Извлечение связей Instance-Attribute (Вес W(j,k)), Instance-Class (Вес w(j,m)) и расчет Distributional Similarity (Similarity Score).
Построение Графа: Создание узлов I (Instances), C (Classes), A (Attributes).
Нормализация Вероятностей Перехода (P): Нормализация весов для получения вероятностей P(j,k), P(c,j,m), P(i,m,j), P(s,j,m). (Используется Формула 2).
Конфигурация и Финальная Нормализация: Задается вероятность петли P(l) (например, 0.5). Вероятности P(c) и P(s) масштабируются так, чтобы сумма P(l) + Сумма(P(s)) + Сумма(P(c)) равнялась 1.0 для каждой сущности (Формула 5).

Этап Б: Выполнение Случайных Блужданий и Расчет Relatedness (Офлайн)

Для целевой сущности i(j) и потенциального атрибута a(k):

Инициализация блуждания: Старт в узле i(j).
Выполнение случайных перемещений: Моделирование перемещений по графу по трем возможным путям:
1. Путь Петли: i(j) -> i(j) (с вероятностью P(l)), затем -> a(k).
2. Путь Сходства: i(j) -> схожая сущность i(m) (с вероятностью P(s,j,m)), затем -> a(k).
3. Путь Класса: i(j) -> класс c(l) (с вероятностью P(c,j,l)), затем -> другая сущность i(n) (с вероятностью P(i,l,n)), затем -> a(k).
Расчет Relatedness Value R(j,k): Значение связанности рассчитывается как сумма вероятностей всех трех путей (Формула 6).
Ранжирование и Хранение: Атрибуты ранжируются по R(j,k). Атрибуты, удовлетворяющие порогу, сохраняются (происходит распространение).

Какие данные и как использует

Данные на входе

Контентные/Текстовые факторы: Весь Text Repository (веб-корпус, документы). Используется для вывода Distributional Similarity и начального извлечения атрибутов и классов.
Поведенческие факторы: Логи запросов (Historical user queries) явно упоминаются как часть Text Repository, используемая для идентификации связей и расчета сходства.
Структурные/Онтологические факторы: Данные таксономии/онтологии (Instance-Class Database), определяющие отношения IsA.

Какие метрики используются и как они считаются

P(j,k) (Вероятность Instance -> Attribute): Нормализованный вес W(j,k). Формула (2): P(j,k) = W(j,k) / Сумма(W(j,l)) по всем атрибутам l.
P(c,j,m) / P(i,m,j) (Вероятности Instance <-> Class): Нормализованные веса принадлежности к классу.
P(s,j,m) (Вероятность Instance -> Similar Instance): Нормализованная оценка Distributional Similarity.
P(l) (Loop-back probability): Конфигурируемая константа (например, 0.5).
R(j,k) (Relatedness Value): Итоговое значение связанности. Рассчитывается как сумма вероятностей трех путей распространения (Формула 6):
R(j,k) = [Путь 1: Петля] + [Путь 2: Сходство] + [Путь 3: Класс]
Путь 1 = P(l) * P(j,k)
Путь 2 = Сумма( P(s,j,m) * P(m,k) )
Путь 3 = Сумма( P(c,j,l) * Сумма( P(i,l,n) * P(n,k) ) )

Выводы

Обогащение данных через инференс: Google активно обогащает данные о сущностях путем логического вывода (инференса), перенося атрибуты между связанными сущностями. Полнота знаний достигается не только прямым извлечением фактов.
Комбинирование сигналов связанности: Система объединяет два ключевых типа связей: формальную классификацию (IsA relationships через Классы) и неконтролируемые методы (Distributional Similarity на основе контекста). Это повышает полноту и точность.
Графовый механизм (Random Walk): Случайное блуждание по графу является основным механизмом для расчета вероятности (Relatedness Value) того, что атрибут применим к сущности. Это вероятностная модель, а не бинарное решение.
Важность контекста (Distributional Similarity): Тот факт, что две сущности часто упоминаются в похожих контекстах, является сильным сигналом для Google, что они связаны и могут иметь общие атрибуты.
Балансировка и снижение шума: Механизм обратной петли P(l) позволяет системе балансировать между напрямую извлеченной информацией и распространенной информацией, снижая шум от неточных классификаций или слишком общих классов.

Практика

Best practices (это мы делаем)

Четкое определение сущности и ее класса (IsA): Явно указывайте класс сущности в тексте и используйте соответствующую микроразметку Schema.org. Это усиливает связи Instance-Class в графе, позволяя Google использовать путь распространения через классы (например, «Клоксациллин — это антибиотик…»).
Использование контекстной релевантности (Distributional Similarity): Создавайте контент, в котором ваша сущность появляется в контекстах, аналогичных другим известным сущностям в нише (например, через сравнения, обзоры рынка). Естественная совместная встречаемость (co-occurrence) помогает установить или усилить Distributional Similarity.
Структурирование контента вокруг атрибутов: Организуйте контент так, чтобы явно описывать ключевые атрибуты сущности (заголовки, списки, таблицы). Используйте консистентную терминологию для атрибутов. Это увеличивает вес исходных связей Instance-Attribute (W(j,k)).
Комплексное покрытие темы (Topical Authority): Анализируйте атрибуты, характерные для класса вашей сущности и для схожих сущностей. Убедитесь, что ваш контент покрывает все эти релевантные атрибуты, чтобы соответствовать ожиданиям системы относительно полноты темы.

Worst practices (это делать не надо)

Неоднозначная типизация или изоляция сущности: Неспособность четко определить класс сущности или представление ее без связи с другими известными сущностями/классами затрудняет как извлечение, так и распространение атрибутов.
Поверхностное раскрытие темы: Создание контента, который упоминает сущность, но не раскрывает ее ключевые атрибуты, которые система ожидает увидеть на основе анализа связанных объектов.
Спам контекстами (Искусственная совместная встречаемость): Попытки искусственно создать Distributional Similarity с несвязанными сущностями путем неестественного внедрения их в один контекст. Это неэффективно и может быть расценено как низкокачественный контент.

Стратегическое значение

Патент подтверждает критическую важность оптимизации сущностей (Entity SEO) и интеграции с Графом Знаний. SEO-стратегии должны фокусироваться на четком определении сущностей, их атрибутов и их отношений (как таксономических, так и контекстуальных). Этот механизм объясняет, как Google строит свое понимание мира и как он может знать о сущности больше, чем написано на ее официальной странице, используя ассоциативные связи.

Практические примеры

Сценарий: Оптимизация статьи о медицинском препарате (YMYL)

Задача: Оптимизировать статью о препарате «ПрепаратX».

Определение Класса (IsA): Четко указать, что «ПрепаратX» принадлежит к классу «Статины». Это активирует распространение атрибутов, типичных для статинов.
Анализ Атрибутов Класса: Изучить атрибуты других статинов (например, Аторвастатин): «Механизм действия», «Побочные эффекты», «Дозировка», «Взаимодействие». Система ожидает увидеть их и для «ПрепаратX».
Применение (Distributional Similarity): Создать раздел, сравнивающий «ПрепаратX» с Аторвастатином в контексте их эффективности и безопасности. Это усиливает дистрибутивное сходство.
SEO-действие: Убедиться, что статья детально описывает все эти стандартные атрибуты для «ПрепаратX», используя четкие заголовки и терминологию.
Ожидаемый результат: Google идентифицирует контент как комплексный и экспертный, так как он соответствует семантическому профилю сущности класса «Статины», рассчитанному с помощью Attribute Propagation.

Вопросы и ответы

Что такое дистрибутивное сходство (Distributional Similarity) и почему оно важно?

Дистрибутивное сходство — это мера того, насколько часто две сущности встречаются в одинаковых текстовых контекстах (в интернете или логах запросов). Оно основано на идее, что слова, употребляемые в похожем окружении, связаны. Это критически важно, так как позволяет Google предполагать, что схожие по контексту сущности имеют общие атрибуты, и распространять эти атрибуты между ними, даже без формальной классификации.

Как работает алгоритм Случайного Блуждания (Random Walk) в этом патенте?

Система строит граф из Сущностей, Классов и Атрибутов. Затем она имитирует перемещение по этому графу, начиная с целевой сущности. Вероятность перехода по ребру определяется силой связи. Итоговая вероятность достижения определенного атрибута (Relatedness Value) определяет, насколько этот атрибут релевантен для начальной сущности.

Что важнее для распространения атрибутов: принадлежность к классу (IsA) или дистрибутивное сходство?

Патент предлагает комбинированную модель (FIG. 6), которая использует оба типа связей одновременно. Вероятности переходов по обоим путям суммируются при расчете итогового значения связанности. Это обеспечивает более надежный результат, используя разные типы семантических связей.

Что такое P(l) (вероятность обратной петли) и зачем она нужна?

P(l) — это вероятность остаться в текущем узле сущности во время случайного блуждания. Этот механизм необходим для балансировки и снижения шума. Он позволяет приоритизировать атрибуты, которые уже были напрямую извлечены для данной сущности, над теми, которые распространяются от других сущностей, что защищает от ошибок из-за неточных классификаций.

Влияет ли этот патент на формирование Knowledge Panel?

Да, напрямую. Knowledge Panel отображает ключевые атрибуты сущности. Механизм, описанный в патенте, предназначен именно для обнаружения, ранжирования и обогащения этих атрибутов. Чем точнее Google сможет извлечь атрибуты с помощью этого метода, тем полнее будет Knowledge Panel.

Как SEO-специалист может повлиять на дистрибутивное сходство своих сущностей?

Повлиять можно через контент-стратегию. Необходимо создавать качественный контент, где ваша сущность (продукт, бренд) упоминается в тех же контекстах, что и другие авторитетные сущности в вашей нише (сравнения, обзоры рынка, аналитика). Естественная совместная встречаемость (co-occurrence) помогает Google установить Distributional Similarity.

Как использование микроразметки Schema.org связано с этим патентом?

Микроразметка напрямую помогает в реализации этого патента, предоставляя явные данные для построения графа. Указание типа сущности усиливает связь Instance-Class (IsA). Указание свойств усиливает исходные связи Instance-Attribute. Это предоставляет Google высококачественные исходные данные для работы механизма.

Применяется ли этот алгоритм в реальном времени при обработке запроса?

Основные вычисления (построение графа и Random Walks) выполняются офлайн на этапе индексирования и обновления базы знаний. Однако результаты работы (ранжированные списки атрибутов) используются в реальном времени. Патент явно упоминает (Claim 13) использование этих результатов для уточнения запроса пользователя (Query Refinement).

Как этот патент связан с E-E-A-T и Topical Authority?

Связь сильная. Для достижения Topical Authority необходимо покрыть все ключевые атрибуты темы. Этот патент описывает, как Google определяет этот набор ожидаемых атрибутов. Если контент соответствует этому набору, он расценивается как более полный и экспертный, что положительно влияет на оценку E-E-A-T.

Как использовать этот патент при работе с новыми или малоизвестными сущностями?

Если вы пишете о новой сущности, крайне важно четко позиционировать ее: явно указать ее класс и сравнить ее с уже известными схожими сущностями в релевантном контексте. Предоставьте полный набор атрибутов, характерных для этого класса. Это поможет Google быстрее интегрировать новую сущность в свой граф знаний.