
Google использует алгоритм расширения набора сущностей (Set Expansion). Система анализирует списки, в которых исходные сущности (seeds) появляются вместе с другими. Чтобы найти действительно связанные сущности, а не просто популярные, система корректирует оценку, используя «фоновую вероятность» (глобальную популярность). Это позволяет продвигать нишевые, но тесно связанные сущности.
Патент решает задачу автоматического расширения набора (Set Expansion) — поиска дополнительных сущностей, которые концептуально связаны с небольшим набором исходных примеров (seed entities). Основная проблема, которую устраняет изобретение, — это избежание включения в результат сущностей, которые часто встречаются вместе с исходными примерами только из-за своей высокой глобальной популярности (например, знаменитости в социальных сетях), а не из-за реальной тематической связи.
Запатентована система для автоматической идентификации связанных сущностей на основе анализа их совместного появления (co-occurrence) в существующих коллекциях или списках. Ключевым элементом изобретения является использование Background Probability (фоновой вероятности или глобальной популярности) каждой сущности для нормализации оценок. Это позволяет системе отличать реальную связь от случайного совместного упоминания популярных сущностей.
Система работает следующим образом:
Background Probability — частота ее появления во всех списках.seeds) и фильтрует набор данных, оставляя только те списки, где есть хотя бы один seed.seeds, длины списка (предпочтение отдается коротким) и Background Probability его элементов. Используется вероятностная модель (например, Naive Bayes).Background Probability. Это повышает в рейтинге сущности, которые часто встречаются с seeds, но при этом редки глобально.Высокая. Хотя патент подан в эпоху Google+ и содержит примеры социальных связей, описанный механизм (расширение набора с нормализацией по популярности) является фундаментальным в Information Retrieval и машинном обучении. Понимание того, как Google вычисляет и использует связи между сущностями, критически важно для современного семантического SEO, построения Topical Authority и работы с Knowledge Graph.
Патент имеет высокое стратегическое значение (85/100). Он раскрывает математическую основу того, как Google может определять тематическую связанность сущностей за пределами прямых ссылок или ключевых слов. Это подтверждает важность структурирования контента (создания списков), стратегии построения нишевой авторитетности (низкая Background Probability при высокой связанности с темой) и использования методов co-occurrence и co-citation для демонстрации связей вашего контента с авторитетными источниками в тематике.
Social Circle), таблицей и т.д.seeds, длины списка и Background Probability его элементов.List Score в вероятностной модели, основанная на предположении, что список нерелевантен. Обычно базируется на Background Probability.List Score, основанная на предположении, что список релевантен. Базируется на вероятностях seeds и модифицированных вероятностях других элементов.Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации связанных сущностей.
seeds).Background Probability для каждой сущности (частота появления в наборе списков).List Score для каждого списка. Эта оценка базируется на двух факторах: (а) количестве seeds в списке и (б) Background Probabilities сущностей в этом списке.List Score присваивается сущностям в этом подмножестве с учетом их Background Probabilities.Claim 12 (Зависимый от 11 и 1): Детализирует расчет List Score с использованием вероятностной модели.
Positive Class Component оценки списка на основе вероятностной модели.Negative Class Component оценки списка на основе модели и Background Probabilities сущностей в списке.List Score вычисляется на основе этих двух компонентов.Claim 13 (Зависимый от 12): Вводит корректировку оценок на основе реципрокных (взаимных) связей в социальном контексте.
Система определяет наличие взаимных связей (Reciprocal Connections) между сущностями и владельцем списка. Компоненты Positive и Negative Class корректируются так, чтобы придать больший вес спискам, содержащим сущности с взаимными связями.
Claim 15 (Зависимый от 12): Описывает корректировку для борьбы со скопированными списками.
Система определяет наличие Non-independent Data в списке (на основе популярности частей списка). Компоненты Positive и Negative Class корректируются, чтобы придать меньший вес спискам, включающим такие данные, предотвращая искажения от массового копирования.
Claim 16 (Зависимый от 12): Вводит корректировку оценок на основе фактора популярности (popularity factor).
Система определяет фактор популярности для сущностей. Компоненты Positive и Negative Class корректируются так, чтобы присвоить меньший вес спискам, включающим сущности с высоким фактором популярности.
Хотя изобретение не является частью основного алгоритма ранжирования веб-документов по запросу, оно представляет собой механизм анализа данных и ранжирования сущностей, который применяется на разных этапах архитектуры поиска.
INDEXING – Индексирование и извлечение признаков
<UL>, <OL>, <DL>, таблицы.Background Probability) должна быть предварительно рассчитана в ходе индексации или в рамках офлайн-процессов анализа данных (например, при построении Knowledge Graph).RANKING / RERANKING (в рамках конкретных функций или вертикалей)
Входные данные:
Seed Entities).Set of Lists).Background Probabilities для всех сущностей в коллекции.Выходные данные:
Seed Entities, с их финальными оценками.Set Expansion) — то есть, когда предоставлен один или несколько примеров (seeds) и требуется найти другие подобные элементы.Этап 1: Подготовка данных (Офлайн / Индексация)
Этап 2: Обработка запроса на расширение (Онлайн)
Seed Entities).seed сущности присваивается начальная вероятность (например, по формуле Background Probability (глобальную популярность), чтобы понижать вес популярных сущностей и повышать вес нишевых, но тесно связанных сущностей. Финальное ранжирование делит оценку связанности на популярность.seeds), так как предполагается, что элементы в таких списках имеют более сильную связь.Non-independent Data), что подчеркивает важность уникальности данных.seeds. Если seeds популярны, система менее агрессивно пессимизирует другие популярные сущности в результатах.Background Probability (редкие глобально), но высокой частотой совместного появления с тематическими seeds. Становитесь главным экспертом в своей конкретной области, а не пытайтесь охватить все понемногу.Non-independent Data.List Score, так как система считает связь между элементами слабой.Background Probability этих тем приведет к нормализации (понижению) вашей оценки связанности.Non-independent Data и понизить их ценность.Этот патент иллюстрирует переход от анализа ключевых слов к анализу сущностей и их взаимосвязей. Стратегическое значение для SEO заключается в понимании того, что Google математически оценивает семантическую близость. Алгоритм Set Expansion, описанный здесь, является одним из инструментов, позволяющих Google строить и уточнять Knowledge Graph и понимать Topical Authority. Долгосрочная стратегия должна фокусироваться на том, чтобы ваш сайт и контент четко позиционировались внутри конкретного семантического кластера, демонстрируя сильные и уникальные связи с ключевыми сущностями этой ниши.
Сценарий: Построение Topical Authority для сайта о кофе.
Цель: Ассоциировать новый сайт с авторитетными сущностями в нише спешелти кофе.
co-occurrence) «V60», «AeroPress», «Chemex» с исходными seeds («James Hoffmann», «SCA»).Background Probability. «V60» и «AeroPress» менее популярны глобально, чем, например, «Starbucks».Background Probability и высокому co-occurrence в коротком, точном списке, сущности «V60», «AeroPress», «Chemex» получают высокую оценку связанности с seeds. Сайт, создавший этот список, также усиливает свою ассоциацию с данным семантическим набором.Что такое Background Probability и почему это важно для SEO?
Background Probability — это мера глобальной популярности сущности, показывающая, как часто она встречается во всем корпусе данных (например, во всем интернете). Для SEO это критически важно, потому что Google использует эту метрику для нормализации связей. Если вы ассоциируетесь только с очень популярными сущностями, алгоритм понизит значимость этой связи. Настоящую ценность представляют связи с нишевыми, менее популярными, но тематически релевантными сущностями.
Как этот патент подтверждает важность использования HTML-списков (UL/OL)?
Алгоритм напрямую использует существующие списки для анализа совместного появления (co-occurrence) сущностей. HTML-списки являются для Google явным сигналом того, что элементы внутри них сгруппированы намеренно и, вероятно, связаны. Создавая четкие, тематически консистентные списки на своих страницах, вы предоставляете Google данные в идеальном формате для работы этого алгоритма и помогаете системе понять связи между упоминаемыми сущностями.
Означает ли этот патент, что длинные списки бесполезны?
Не совсем бесполезны, но менее эффективны для демонстрации сильных связей. Алгоритм отдает предпочтение коротким спискам, содержащим несколько целевых сущностей (seeds), так как вероятность того, что элементы в коротком списке тесно связаны, выше. Длинные списки получают более низкий List Score. Если вам нужно использовать длинный список, убедитесь, что он максимально сфокусирован на одной теме, или разбейте его на более мелкие подсписки.
Как использовать принцип Co-citation в контексте этого патента?
Co-citation (совместное цитирование) можно рассматривать как частный случай списка — списка исходящих ссылок. Если вы создаете страницу и ссылаетесь на несколько авторитетных источников по одной теме, вы создаете список цитирований. Этот алгоритм может проанализировать этот список, чтобы понять, какие источники связаны между собой и к какой теме относится ваша страница. Стратегически ссылайтесь на кластер авторитетных, но не слишком популярных источников в вашей нише.
Патент много говорит о социальных сетях. Актуален ли он после закрытия Google+?
Да, абсолютно актуален. Хотя примеры в патенте сосредоточены на социальных кругах и взаимных подписках (что было важно для Google+), описанный математический аппарат (Set Expansion с нормализацией по Background Probability) является универсальным. Google применяет эти принципы для анализа любых типов сущностей и списков, включая веб-страницы, запросы пользователей, продукты и данные Knowledge Graph.
Что такое адаптивный параметр alpha, упомянутый в патенте?
Параметр alpha позволяет алгоритму адаптировать свое поведение в зависимости от популярности исходных сущностей (seeds). Если seeds очень популярны (например, «Apple», «Google»), система будет менее агрессивно пессимизировать другие популярные сущности в результатах. Если seeds редкие (например, названия специализированных химических соединений), система будет сильнее отфильтровывать любые популярные сущности, чтобы найти только тесно связанные нишевые результаты.
Как этот алгоритм помогает бороться со спамом или манипуляциями?
Он усложняет манипуляции, основанные на искусственном создании ассоциаций с популярными темами. Спамеры часто пытаются включить популярные ключевые слова или названия брендов, чтобы повысить релевантность. Благодаря нормализации через Background Probability, такие попытки будут неэффективны, если реальная тематическая связь отсутствует. Также механизм обнаружения Non-independent Data помогает бороться с массовым копированием контента.
Может ли этот механизм использоваться для определения связанных поисковых запросов?
Да, этот механизм идеально подходит для такой задачи. Поисковые сессии пользователей можно рассматривать как «списки» запросов. Если пользователи часто вводят Запрос А и Запрос Б в рамках одной сессии, система зафиксирует co-occurrence. Затем, используя Background Probability (общую частоту каждого запроса), алгоритм может определить, действительно ли эти запросы семантически связаны или они просто оба являются популярными запросами.
Как этот патент связан с концепцией Topical Authority?
Он предоставляет один из механизмов для вычисления Topical Authority. Чтобы быть авторитетом в теме, сайт должен быть тесно связан с ключевыми сущностями этой темы. Этот алгоритм позволяет идентифицировать эти ключевые сущности и измерить силу их связи. Фокус на нишевых сущностях (с низкой Background Probability) помогает определить глубину экспертизы сайта в конкретной области, что является основой Topical Authority.
Что означает «несамостоятельные данные» (non-independent data) в контексте списков?
Это относится к ситуациям, когда часть списка (подсписок) копируется много раз на разных ресурсах. Например, если один пользователь создал список «Лучшие книги 2025 года», и сотни других сайтов скопировали его без изменений. Алгоритм стремится обнаружить такие повторяющиеся данные и понизить их вес (Claim 15), чтобы избежать искусственного завышения оценок связанности сущностей только потому, что они оказались в популярном скопированном списке.

Knowledge Graph
Семантика и интент
Структура сайта

Семантика и интент

Ссылки
EEAT и качество
Антиспам

Семантика и интент
Ссылки
Knowledge Graph

Knowledge Graph
Local SEO

Семантика и интент
EEAT и качество
Индексация

Поведенческие сигналы
Ссылки
SERP

SERP
Семантика и интент
Поведенческие сигналы

Ссылки
Индексация
Техническое SEO

Ссылки
Краулинг
Техническое SEO

SERP
Персонализация
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы

SERP
EEAT и качество
Персонализация

Поведенческие сигналы
Персонализация
SERP

Поведенческие сигналы
SERP
