Как Google определяет связанные сущности, анализируя их совместное появление в списках и корректируя результат с учетом их глобальной популярности

Google использует алгоритм расширения набора сущностей (Set Expansion). Система анализирует списки, в которых исходные сущности (seeds) появляются вместе с другими. Чтобы найти действительно связанные сущности, а не просто популярные, система корректирует оценку, используя «фоновую вероятность» (глобальную популярность). Это позволяет продвигать нишевые, но тесно связанные сущности.

Описание

Какую задачу решает

Патент решает задачу автоматического расширения набора (Set Expansion) — поиска дополнительных сущностей, которые концептуально связаны с небольшим набором исходных примеров (seed entities). Основная проблема, которую устраняет изобретение, — это избежание включения в результат сущностей, которые часто встречаются вместе с исходными примерами только из-за своей высокой глобальной популярности (например, знаменитости в социальных сетях), а не из-за реальной тематической связи.

Что запатентовано

Запатентована система для автоматической идентификации связанных сущностей на основе анализа их совместного появления (co-occurrence) в существующих коллекциях или списках. Ключевым элементом изобретения является использование Background Probability (фоновой вероятности или глобальной популярности) каждой сущности для нормализации оценок. Это позволяет системе отличать реальную связь от случайного совместного упоминания популярных сущностей.

Как это работает

Система работает следующим образом:

Сбор данных: Идентифицируется большой набор существующих списков (например, социальные круги, списки на веб-страницах).
Расчет популярности: Для каждой сущности вычисляется Background Probability — частота ее появления во всех списках.
Ввод и фильтрация: Система получает исходные сущности (seeds) и фильтрует набор данных, оставляя только те списки, где есть хотя бы один seed.
Оценка списков: Каждый список оценивается на основе количества seeds, длины списка (предпочтение отдается коротким) и Background Probability его элементов. Используется вероятностная модель (например, Naive Bayes).
Оценка сущностей: Сущностям присваиваются оценки на основе оценок списков, в которых они находятся.
Нормализация и ранжирование: Финальная оценка сущности нормализуется путем деления на ее Background Probability. Это повышает в рейтинге сущности, которые часто встречаются с seeds, но при этом редки глобально.

Актуальность для SEO

Высокая. Хотя патент подан в эпоху Google+ и содержит примеры социальных связей, описанный механизм (расширение набора с нормализацией по популярности) является фундаментальным в Information Retrieval и машинном обучении. Понимание того, как Google вычисляет и использует связи между сущностями, критически важно для современного семантического SEO, построения Topical Authority и работы с Knowledge Graph.

Важность для SEO

Патент имеет высокое стратегическое значение (85/100). Он раскрывает математическую основу того, как Google может определять тематическую связанность сущностей за пределами прямых ссылок или ключевых слов. Это подтверждает важность структурирования контента (создания списков), стратегии построения нишевой авторитетности (низкая Background Probability при высокой связанности с темой) и использования методов co-occurrence и co-citation для демонстрации связей вашего контента с авторитетными источниками в тематике.

Детальный разбор

Термины и определения

Background Probability (Фоновая вероятность): Метрика, указывающая на глобальную популярность сущности. Это вероятность того, что сущность появится в любом произвольном списке, независимо от исходных сущностей. Используется для нормализации оценок.
Co-occurrence (Совместное появление): Факт появления двух или более сущностей в одном списке или коллекции.
List (Список): Коллекция или набор одной или более сущностей. Может быть списком на веб-странице (HTML UL/OL), социальным кругом (Social Circle), таблицей и т.д.
List Score (Оценка списка): Числовое значение, присваиваемое списку, отражающее его полезность для идентификации связанных сущностей. Зависит от количества seeds, длины списка и Background Probability его элементов.
Negative Class Component (Компонент негативного класса): Часть расчета List Score в вероятностной модели, основанная на предположении, что список нерелевантен. Обычно базируется на Background Probability.
Non-independent Data (Несамостоятельные данные): Данные в списке, которые являются результатом копирования из другого источника. Система стремится понизить вес таких данных.
Positive Class Component (Компонент позитивного класса): Часть расчета List Score, основанная на предположении, что список релевантен. Базируется на вероятностях seeds и модифицированных вероятностях других элементов.
Reciprocal Connections (Взаимные связи): Связи между сущностями, подтвержденные с обеих сторон (например, взаимная подписка в социальном графе). Используются для повышения веса списка.
Seed Entities / Seed Items (Исходные сущности / Семена): Начальный набор сущностей, предоставленный пользователем или системой, для которого необходимо найти связанные сущности.
Set Expansion (Расширение набора): Процесс поиска дополнительных элементов, принадлежащих к тому же концептуальному классу, что и исходный набор примеров.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации связанных сущностей.

Система идентифицирует связи между сущностями и получает исходные сущности (seeds).
Генерируется набор списков на основе этих связей.
Вычисляется Background Probability для каждой сущности (частота появления в наборе списков).
Вычисляется List Score для каждого списка. Эта оценка базируется на двух факторах: (а) количестве seeds в списке и (б) Background Probabilities сущностей в этом списке.
Идентифицируется подмножество списков на основе их оценок.
Вычисленная List Score присваивается сущностям в этом подмножестве с учетом их Background Probabilities.
Сущности ранжируются на основе присвоенных оценок для идентификации связанных сущностей.

Claim 12 (Зависимый от 11 и 1): Детализирует расчет List Score с использованием вероятностной модели.

Вычисляется Positive Class Component оценки списка на основе вероятностной модели.
Вычисляется Negative Class Component оценки списка на основе модели и Background Probabilities сущностей в списке.
List Score вычисляется на основе этих двух компонентов.

Claim 13 (Зависимый от 12): Вводит корректировку оценок на основе реципрокных (взаимных) связей в социальном контексте.

Система определяет наличие взаимных связей (Reciprocal Connections) между сущностями и владельцем списка. Компоненты Positive и Negative Class корректируются так, чтобы придать больший вес спискам, содержащим сущности с взаимными связями.

Claim 15 (Зависимый от 12): Описывает корректировку для борьбы со скопированными списками.

Система определяет наличие Non-independent Data в списке (на основе популярности частей списка). Компоненты Positive и Negative Class корректируются, чтобы придать меньший вес спискам, включающим такие данные, предотвращая искажения от массового копирования.

Claim 16 (Зависимый от 12): Вводит корректировку оценок на основе фактора популярности (popularity factor).

Система определяет фактор популярности для сущностей. Компоненты Positive и Negative Class корректируются так, чтобы присвоить меньший вес спискам, включающим сущности с высоким фактором популярности.

Где и как применяется

Хотя изобретение не является частью основного алгоритма ранжирования веб-документов по запросу, оно представляет собой механизм анализа данных и ранжирования сущностей, который применяется на разных этапах архитектуры поиска.

INDEXING – Индексирование и извлечение признаков

Извлечение списков: Система должна извлекать и индексировать списки из различных источников (веб-страницы, структурированные данные, социальные графы). Упоминаются HTML-теги <UL>, <OL>, <DL>, таблицы.
Расчет Background Probability: Глобальная популярность сущностей (Background Probability) должна быть предварительно рассчитана в ходе индексации или в рамках офлайн-процессов анализа данных (например, при построении Knowledge Graph).

RANKING / RERANKING (в рамках конкретных функций или вертикалей)

Алгоритм применяется для ранжирования сущностей в ответ на запрос на расширение набора (например, запрос на предложение друзей в социальной сети, запрос на поиск связанных тем или запросов). Это самостоятельный процесс ранжирования сущностей, который использует данные из индекса.

Входные данные:

Набор исходных сущностей (Seed Entities).
Обширная коллекция списков (Set of Lists).
Предварительно рассчитанные Background Probabilities для всех сущностей в коллекции.

Выходные данные:

Отранжированный список сущностей, которые считаются связанными с Seed Entities, с их финальными оценками.

На что влияет

Сущности (Entities): Основной объект анализа. Алгоритм влияет на то, как система понимает связи между любыми типами сущностей (люди, места, концепции, продукты).
Структурированные данные и списки: Влияет на интерпретацию данных, представленных в виде списков (HTML-списки, таблицы, разметка Schema.org).
Тематические кластеры: Может использоваться для определения границ тематических кластеров и идентификации центральных и периферийных сущностей в них.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система или пользователь инициирует задачу расширения набора (Set Expansion) — то есть, когда предоставлен один или несколько примеров (seeds) и требуется найти другие подобные элементы.
Условия работы: Требуется наличие достаточно большой и разнообразной коллекции списков, в которых присутствуют исходные сущности.

Пошаговый алгоритм

Этап 1: Подготовка данных (Офлайн / Индексация)

Сбор списков: Идентификация и сбор коллекции списков из различных источников.
Расчет Background Probability: Для каждой уникальной сущности в коллекции вычисляется ее фоновая вероятность (например, отношение числа списков, где она встречается, к общему числу списков).

Этап 2: Обработка запроса на расширение (Онлайн)

Получение ввода: Система получает набор исходных сущностей (Seed Entities).
Инициализация: Каждой seed сущности присваивается начальная вероятность (например, по формуле $P (s e e d$

Выводы

Связанность через совместное появление (Co-occurrence): Патент подтверждает, что анализ совместного появления сущностей в структурированных коллекциях (списках) является ключевым методом для определения семантических связей между ними.
Нормализация по популярности критически важна: Простое совместное упоминание не гарантирует сильной связи. Система активно использует Background Probability (глобальную популярность), чтобы понижать вес популярных сущностей и повышать вес нишевых, но тесно связанных сущностей. Финальное ранжирование делит оценку связанности на популярность.
Предпочтение коротким и точным спискам: Алгоритм приоритизирует короткие списки, содержащие несколько исходных сущностей (seeds), так как предполагается, что элементы в таких списках имеют более сильную связь.
Борьба с дублированием данных: Система умеет идентифицировать и понижать вес скопированных списков (Non-independent Data), что подчеркивает важность уникальности данных.
Адаптивное поведение алгоритма: Система может корректировать свой подход в зависимости от популярности исходных seeds. Если seeds популярны, система менее агрессивно пессимизирует другие популярные сущности в результатах.
Важность структуры данных: Алгоритм полагается на способность системы извлекать и интерпретировать списки из контента. Четкая структура документа и использование семантической разметки облегчают этот процесс.

Практика

Best practices (это мы делаем)

Фокус на нишевой авторитетности (Niche Authority): Подтверждается стратегия построения глубокой экспертизы в узкой нише. Алгоритм предпочитает сущности с низкой Background Probability (редкие глобально), но высокой частотой совместного появления с тематическими seeds. Становитесь главным экспертом в своей конкретной области, а не пытайтесь охватить все понемногу.
Использование структурированных списков и таблиц: Активно используйте HTML-списки (UL/OL) и таблицы для группировки связанных сущностей (продуктов, концепций, людей, ссылок). Это предоставляет Google именно те данные, которые использует этот алгоритм для анализа связей. Списки должны быть тематически консистентными и точными.
Стратегический Co-citation и Co-occurrence: Размещайте свои сущности (бренд, продукт, ключевые концепции) в контексте (в списках, таблицах, предложениях) вместе с уже признанными авторитетными сущностями вашей ниши. Это помогает системе ассоциировать вас с нужным семантическим набором.
Создание полезных уникальных списков: Создавайте контент, который представляет собой ценные и уникальные подборки или списки (например, «Топ-10 инструментов для X», «Чеклист для Y»). Избегайте копирования чужих списков, чтобы не попасть под фильтр Non-independent Data.

Worst practices (это делать не надо)

Создание длинных, несфокусированных списков: Избегайте создания списков «все обо всем». Длинные списки с разнородными элементами имеют низкий List Score, так как система считает связь между элементами слабой.
Попытки ассоциироваться только с популярными сущностями: Не стоит пытаться искусственно связать свой контент с очень широкими или популярными темами, если связь слабая. Высокая Background Probability этих тем приведет к нормализации (понижению) вашей оценки связанности.
Игнорирование структуры контента: Представление информации сплошным текстом без четкой структуры и выделения списков усложняет для Google извлечение связей между сущностями.
Массовое копирование списков: Использование скопированных списков в качестве основного контента. Система может определить это как Non-independent Data и понизить их ценность.

Стратегическое значение

Этот патент иллюстрирует переход от анализа ключевых слов к анализу сущностей и их взаимосвязей. Стратегическое значение для SEO заключается в понимании того, что Google математически оценивает семантическую близость. Алгоритм Set Expansion, описанный здесь, является одним из инструментов, позволяющих Google строить и уточнять Knowledge Graph и понимать Topical Authority. Долгосрочная стратегия должна фокусироваться на том, чтобы ваш сайт и контент четко позиционировались внутри конкретного семантического кластера, демонстрируя сильные и уникальные связи с ключевыми сущностями этой ниши.

Практические примеры

Сценарий: Построение Topical Authority для сайта о кофе.

Цель: Ассоциировать новый сайт с авторитетными сущностями в нише спешелти кофе.

Определение Seeds: Идентифицируем авторитетные сущности (например, «James Hoffmann», «SCA», «AeroPress»).
Применение (Создание контента): Создаем страницу «Лучшие методы заваривания кофе для начинающих». Вместо сплошного текста используем структурированный список:
- V60: Плюсы, минусы, рекомендуемые бариста (упоминаем James Hoffmann).
- AeroPress: Плюсы, минусы, чемпионаты (упоминаем SCA).
- Chemex: …
Механизм работы алгоритма: Google индексирует этот список. Он видит совместное появление (co-occurrence) «V60», «AeroPress», «Chemex» с исходными seeds («James Hoffmann», «SCA»).
Нормализация: Система проверяет Background Probability. «V60» и «AeroPress» менее популярны глобально, чем, например, «Starbucks».
Результат: Благодаря низкой Background Probability и высокому co-occurrence в коротком, точном списке, сущности «V60», «AeroPress», «Chemex» получают высокую оценку связанности с seeds. Сайт, создавший этот список, также усиливает свою ассоциацию с данным семантическим набором.

Вопросы и ответы

Что такое Background Probability и почему это важно для SEO?

Background Probability — это мера глобальной популярности сущности, показывающая, как часто она встречается во всем корпусе данных (например, во всем интернете). Для SEO это критически важно, потому что Google использует эту метрику для нормализации связей. Если вы ассоциируетесь только с очень популярными сущностями, алгоритм понизит значимость этой связи. Настоящую ценность представляют связи с нишевыми, менее популярными, но тематически релевантными сущностями.

Как этот патент подтверждает важность использования HTML-списков (UL/OL)?

Алгоритм напрямую использует существующие списки для анализа совместного появления (co-occurrence) сущностей. HTML-списки являются для Google явным сигналом того, что элементы внутри них сгруппированы намеренно и, вероятно, связаны. Создавая четкие, тематически консистентные списки на своих страницах, вы предоставляете Google данные в идеальном формате для работы этого алгоритма и помогаете системе понять связи между упоминаемыми сущностями.

Означает ли этот патент, что длинные списки бесполезны?

Не совсем бесполезны, но менее эффективны для демонстрации сильных связей. Алгоритм отдает предпочтение коротким спискам, содержащим несколько целевых сущностей (seeds), так как вероятность того, что элементы в коротком списке тесно связаны, выше. Длинные списки получают более низкий List Score. Если вам нужно использовать длинный список, убедитесь, что он максимально сфокусирован на одной теме, или разбейте его на более мелкие подсписки.

Как использовать принцип Co-citation в контексте этого патента?

Co-citation (совместное цитирование) можно рассматривать как частный случай списка — списка исходящих ссылок. Если вы создаете страницу и ссылаетесь на несколько авторитетных источников по одной теме, вы создаете список цитирований. Этот алгоритм может проанализировать этот список, чтобы понять, какие источники связаны между собой и к какой теме относится ваша страница. Стратегически ссылайтесь на кластер авторитетных, но не слишком популярных источников в вашей нише.

Патент много говорит о социальных сетях. Актуален ли он после закрытия Google+?

Да, абсолютно актуален. Хотя примеры в патенте сосредоточены на социальных кругах и взаимных подписках (что было важно для Google+), описанный математический аппарат (Set Expansion с нормализацией по Background Probability) является универсальным. Google применяет эти принципы для анализа любых типов сущностей и списков, включая веб-страницы, запросы пользователей, продукты и данные Knowledge Graph.

Что такое адаптивный параметр alpha, упомянутый в патенте?

Параметр alpha позволяет алгоритму адаптировать свое поведение в зависимости от популярности исходных сущностей (seeds). Если seeds очень популярны (например, «Apple», «Google»), система будет менее агрессивно пессимизировать другие популярные сущности в результатах. Если seeds редкие (например, названия специализированных химических соединений), система будет сильнее отфильтровывать любые популярные сущности, чтобы найти только тесно связанные нишевые результаты.

Как этот алгоритм помогает бороться со спамом или манипуляциями?

Он усложняет манипуляции, основанные на искусственном создании ассоциаций с популярными темами. Спамеры часто пытаются включить популярные ключевые слова или названия брендов, чтобы повысить релевантность. Благодаря нормализации через Background Probability, такие попытки будут неэффективны, если реальная тематическая связь отсутствует. Также механизм обнаружения Non-independent Data помогает бороться с массовым копированием контента.

Может ли этот механизм использоваться для определения связанных поисковых запросов?

Да, этот механизм идеально подходит для такой задачи. Поисковые сессии пользователей можно рассматривать как «списки» запросов. Если пользователи часто вводят Запрос А и Запрос Б в рамках одной сессии, система зафиксирует co-occurrence. Затем, используя Background Probability (общую частоту каждого запроса), алгоритм может определить, действительно ли эти запросы семантически связаны или они просто оба являются популярными запросами.

Как этот патент связан с концепцией Topical Authority?

Он предоставляет один из механизмов для вычисления Topical Authority. Чтобы быть авторитетом в теме, сайт должен быть тесно связан с ключевыми сущностями этой темы. Этот алгоритм позволяет идентифицировать эти ключевые сущности и измерить силу их связи. Фокус на нишевых сущностях (с низкой Background Probability) помогает определить глубину экспертизы сайта в конкретной области, что является основой Topical Authority.

Что означает «несамостоятельные данные» (non-independent data) в контексте списков?

Это относится к ситуациям, когда часть списка (подсписок) копируется много раз на разных ресурсах. Например, если один пользователь создал список «Лучшие книги 2025 года», и сотни других сайтов скопировали его без изменений. Алгоритм стремится обнаружить такие повторяющиеся данные и понизить их вес (Claim 15), чтобы избежать искусственного завышения оценок связанности сущностей только потому, что они оказались в популярном скопированном списке.