Как Google в реальном времени вычисляет схожесть между сущностями (сайтами, запросами, пользователями) внутри конкретных тематических категорий

Google использует инфраструктурное решение для мгновенного расчета сложных метрик схожести (например, Personalized PageRank) в огромных графах связей (например, Документы и Запросы). Система заранее разбивает граф на тематические категории и создает компактные подграфы (Reduction). Это позволяет в реальном времени оценивать тематическую близость контента или интересов пользователей (Aggregation), минуя обработку всего массива данных.

Описание

Какую задачу решает

Патент решает проблему высокой вычислительной сложности при расчете ранжирования по схожести (Similarity Ranking) в массивных и часто несбалансированных (lopsided) двудольных графах в реальном времени. Двудольные графы моделируют отношения между двумя типами сущностей (например, миллионы Документов и миллиарды Запросов). Задача — мгновенно определить схожесть между узлами, особенно в контексте конкретной категории (Targeted Similarity), что ресурсоемко на полном графе.

Что запатентовано

Запатентована система для эффективного вычисления схожести в двудольных графах, основанная на двухэтапном подходе: офлайн-операции Редукции (Reduction Operation) и онлайн-операции Агрегации (Aggregation Operation). Система заранее разбивает большой граф на непересекающиеся категории и создает компактные взвешенные подграфы (Weighted Category Subgraphs) для каждой из них. Это позволяет обрабатывать запросы на схожесть в реальном времени путем быстрой агрегации этих предварительно рассчитанных данных.

Как это работает

Система работает следующим образом:

Подготовка данных: Имеется двудольный граф (например, А – Документы, B – Запросы). Узлы B разбиваются на непересекающиеся категории (Disjoint Categories) (например, Темы запросов).
Офлайн Редукция: Для каждой категории создается подграф, содержащий только узлы А. Ребро между двумя узлами А в подграфе существует, если они оба связаны с одним и тем же узлом B (common neighbor) в этой категории. Вес ребра определяется метрикой схожести (например, Jaccard, Personalized PageRank).
Онлайн Агрегация: Поступает запрос: «Найти узлы А, похожие на узел X в категориях Y и Z». Система мгновенно извлекает подграфы для Y и Z и агрегирует данные для вычисления результата.

Актуальность для SEO

Высокая. Анализ графов и вычисление схожести между сущностями, документами, пользователями и запросами являются фундаментальными задачами в современных поисковых и рекомендательных системах (Information Retrieval). Эффективность этих вычислений критична для работы в реальном времени. Этот патент описывает базовую инфраструктуру для масштабирования такого анализа.

Важность для SEO

Патент имеет значительное инфраструктурное влияние на SEO (7.5 из 10). Он не описывает факторы ранжирования, но раскрывает механизмы, позволяющие Google мгновенно оценивать схожесть между сущностями в рамках конкретных тем. Эта инфраструктура лежит в основе систем, которые определяют тематический авторитет (Topical Authority), кластеризуют контент и анализируют связи (включая эффективный расчет PPR). Понимание этого механизма критично для построения эффективных контент-стратегий.

Детальный разбор

Термины и определения

Bipartite Graph (Двудольный граф): Граф, узлы которого разделены на два непересекающихся множества (A и B), так что каждое ребро соединяет узел из A с узлом из B. Примеры: Документы (A) и Запросы (B); Пользователи (A) и Интересы (B).
Actor Nodes (A Nodes) / Узлы-акторы: Первый набор узлов (например, Документы, Пользователи). Это узлы, для которых вычисляется схожесть.
Item Nodes (B Nodes) / Узлы-элементы: Второй набор узлов (например, Запросы, Интересы). Это узлы, через которые устанавливается связь между Акторами.
Disjoint Categories (Непересекающиеся категории): Разделение Узлов-элементов (B) так, что каждый узел принадлежит только одной категории (например, Теме).
Lopsided Bipartite Graph (Несбалансированный двудольный граф): Граф, где один набор узлов значительно больше другого (например, миллиарды Запросов и миллионы Документов).
Weighted Category Subgraph (Взвешенный категориальный подграф): Подграф, созданный для одной категории. Содержит только Узлы-акторы (A). Ребра взвешены согласно метрике схожести.
Reduction Operation (Операция редукции/сжатия): Офлайн-процесс преобразования исходного двудольного графа в набор Weighted Category Subgraphs. Выполняет основную часть вычислений заранее.
Aggregation Operation (Операция агрегации): Онлайн-процесс, который быстро комбинирует несколько подграфов для вычисления итогового ранжирования по схожести в ответ на запрос.
Similarity Metric (Метрика схожести): Функция для расчета схожести. Патент детально описывает поддержку Neighbor Intersection, Jaccard coefficient, Adamic-Adar, Katz и Personalized PageRank (PPR).
Targeted Similarity (Целевое сходство): Расчет схожести между Акторами, ограниченный только определенным подмножеством категорий Элементов.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на инфраструктуре и оптимизации вычислений, защищая метод предварительной обработки и агрегации графов.

Claim 1 (Независимый пункт): Описывает основную систему и офлайн-процесс (Редукция).

Система хранит двудольный граф (Узлы A и B).
Система разбивает (partition) каждый узел B на одну из непересекающихся категорий.
Для каждой категории генерируется подграф.
Подграф содержит подмножество узлов A. Узлы включаются, если они связаны с общим соседом (common neighbor node) в наборе B, который принадлежит этой категории.
Ребра в подграфе основаны на этих общих связях.
Система сохраняет подграф в памяти.

Ядром изобретения является метод предварительной обработки графа путем его разделения по категориям и создания компактных подграфов, которые фиксируют связи внутри этих категорий, устраняя необходимость обрабатывать узлы B во время запроса.

Claim 10 (Независимый пункт): Описывает метод выполнения Операции Редукции.

Разделение узлов B на категории.
Для каждой категории: Определение пар узлов A, связанных с общим узлом B в этой категории.
Генерация связи (ребра) в подграфе для этой пары.
Присвоение этой связи веса, определенного метрикой схожести (similarity metric).
Сохранение подграфа.

Это детализирует процесс создания Weighted Category Subgraphs.

Claim 15 (Независимый пункт): Описывает полный цикл обработки (Редукция + Агрегация).

До получения запроса (prior to receiving a query) система генерирует подграфы.
Система получает запрос, идентифицирующий узел A.
Система агрегирует (aggregating) два или более подграфов для определения других узлов A с наивысшим сходством (highest similarity rankings).
Система использует эти узлы для ответа на запрос.

Этот пункт защищает применение предварительно вычисленных данных для быстрого ответа в реальном времени.

Где и как применяется

Изобретение является инфраструктурным и затрагивает этапы индексирования (для подготовки данных) и ранжирования (для использования данных).

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит Reduction Operation. Система анализирует исходный двудольный граф (построенный, например, на основе логов запросов, кликов или данных краулинга). Происходит категоризация узлов B и выполняются ресурсоемкие вычисления (патент упоминает возможность использования MapReduce) для генерации Weighted Category Subgraphs. Эти подграфы сохраняются как предварительно рассчитанные признаки.

QUNDERSTANDING – Понимание Запросов
Механизм может использоваться для быстрого определения схожести между запросами (если граф построен как Пользователи <-> Запросы) или связанными сущностями для уточнения интента в рамках конкретной тематики.

RANKING / RERANKING – Ранжирование и Переранжирование
На этих этапах происходит Aggregation Operation. Система может использовать механизм для получения оценок схожести в реальном времени. Например, для оценки схожести документа с авторитетными документами в заданной категории (расчет PPR), для персонализации выдачи или для работы рекомендательных систем (Google Discover).

Входные данные (Офлайн): Двудольный граф; Категоризация узлов B; Метрика схожести.

Выходные данные (Офлайн): Набор взвешенных категориальных подграфов.

Входные данные (Онлайн): Запрос (Узел A, Набор категорий); Соответствующие подграфы.

Выходные данные (Онлайн): Ранжированный список узлов A, схожих с заданным узлом.

На что влияет

Конкретные типы контента и ниши: Влияет на любые данные, моделируемые как двудольный граф. В SEO это анализ связей Документ-Запрос, Сайт-Тема, Пользователь-Интерес. Влияет на оценку контента в рамках тематических кластеров.
Системы рекомендаций и Реклама: Прямое влияние на Google Ads (поиск похожих рекламодателей или связанных запросов), Google Discover, YouTube (рекомендации контента на основе схожести интересов).
Специфические запросы: Позволяет системе быстро адаптировать оценку схожести в зависимости от контекста (категории) запроса (Targeted Similarity).

Когда применяется

Офлайн-процесс (Редукция): Выполняется периодически (в пакетном режиме) или после значительных обновлений исходного двудольного графа.
Онлайн-процесс (Агрегация): Выполняется в реальном времени при обработке запроса, когда системе требуется оценка схожести для ранжирования, кластеризации или рекомендаций.

Пошаговый алгоритм

Процесс А: Офлайн Редукция (Предварительный расчет)

Разбиение на категории: Система анализирует двудольный граф и разбивает второй набор узлов (B, например, Запросы) на непересекающиеся категории (например, Темы).
Выбор метрики: Определяется метрика схожести (например, PPR, Jaccard).
Генерация подграфов (для каждой категории):
1. Идентифицируются все узлы первого набора (A, например, Документы), связанные с узлами B в данной категории.
2. Определяются пары узлов A, которые имеют хотя бы один общий связанный узел B (общий сосед) в этой категории.
3. Для каждой такой пары создается ребро в подграфе категории.
Расчет весов ребер: Вес каждого ребра в подграфе рассчитывается на основе выбранной метрики схожести.
Сохранение: Сгенерированные Weighted Category Subgraphs сохраняются для быстрого доступа.

Процесс Б: Онлайн Агрегация (Ответ на запрос)

Получение запроса: Система получает запрос, указывающий на узел A и набор интересующих категорий.
Извлечение подграфов: Система извлекает соответствующие предварительно рассчитанные подграфы.
Агрегация: Система применяет оператор агрегации для объединения информации из подграфов. Метод агрегации строго зависит от метрики схожести:
- Простые метрики (например, Adamic-Adar): Суммирование весов ребер.
- Сложные метрики (например, PPR): Итеративный алгоритм аппроксимации (iterative aggregation-disaggregation algorithm).
Ранжирование и выдача: Вычисляются итоговые оценки схожести, узлы сортируются, и результат предоставляется системе ранжирования.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании структуры графа.

Структурные факторы: Основные данные – это связи (ребра) между узлами A и B в двудольном графе. Топология графа является ключевым фактором.
Весовые факторы: Исходный граф может быть взвешенным (weighted bipartite graph). Веса ребер (например, частота кликов, сила связи) учитываются при расчете метрик, особенно PPR.
Категоризация: Данные о принадлежности узлов B к непересекающимся категориям.

Какие метрики используются и как они считаются

Патент детально описывает адаптацию операций редукции и агрегации для пяти метрик схожести. Веса в подграфах (W) рассчитываются так, чтобы итоговая агрегация давала тот же результат (или его аппроксимацию), что и расчет на полном графе.

1. Neighbor Intersection (Пересечение соседей)

Описание: Количество общих соседей между узлами x и y.

Выводы

Инфраструктура для масштабируемого анализа сходства: Основной вывод — Google разработал мощную инфраструктуру для выполнения сложных графовых вычислений (включая PPR) в реальном времени на огромных наборах данных. Это позволяет системе мгновенно понимать связи между сущностями.
Предварительные вычисления как основа скорости: Эффективность достигается за счет переноса большей части вычислений в офлайн (Reduction Operation). Система заранее рассчитывает и сохраняет «полуфабрикаты» данных о сходстве в виде категориальных подграфов.
Контекстуальное сходство (Targeted Similarity) критично: Система способна мгновенно определять схожесть в рамках заданных тематик (категорий), а не только глобально. Два сайта могут быть похожи в одном контексте и не похожи в другом.
Гибкость в измерении схожести: Система поддерживает различные способы измерения схожести (от простого Jaccard до сложного PPR), что позволяет Google использовать наиболее подходящую метрику для конкретной задачи (ранжирование, рекомендации, кластеризация).
Сходство определяется через общие связи (Co-occurrence): Фундаментальный принцип: две сущности (A) считаются похожими, если они связаны с общими элементами (B). Это критически важно для SEO: авторитетность и тематичность сайта определяются тем, с какими запросами, темами и сущностями он связан.

Практика

Best practices (это мы делаем)

Хотя патент является инфраструктурным, он подтверждает важность стратегий, направленных на построение четких семантических и структурных связей.

Построение тематической авторитетности (Topical Authority): Создавайте контент, который последовательно и плотно связан с определенным набором тем и запросов (категорией). Если ваш сайт (Узел A) сильно связан с набором целевых запросов (Узлы B), он будет иметь сильные связи в соответствующем подграфе и считаться структурно похожим на другие авторитетные сайты в этой категории.
Четкая структура и категоризация контента: Помогайте Google правильно категоризировать ваш контент. Используйте четкую иерархию и навигацию. Это увеличивает вероятность того, что ваши страницы будут корректно обработаны в рамках Disjoint Categories.
Использование Сущностей (Entity-Based SEO): Оптимизируйте контент вокруг сущностей из Knowledge Graph. Если вы связаны с теми же сущностями (Узлы B), что и высокоавторитетные сайты (другие Узлы A), метрики сходства (например, PPR или Adamic-Adar) будут это отражать, так как у вас будут общие соседи.
Анализ тематического пересечения конкурентов (Co-occurrence): Анализируйте, по каким общим запросам ранжируетесь вы и ваши конкуренты (Keyword Gap Analysis). Это пересечение является прямым отражением того, как Google может оценивать вашу схожесть. Увеличивайте пересечение с лидерами ниши.

Worst practices (это делать не надо)

Непоследовательное смешивание тем (Размытие тематики): Создание контента на множество несвязанных тем на одном домене размывает связи в графе и снижает плотность внутри конкретных категорий. Это затрудняет определение четкого сходства с авторитетными ресурсами в конкретной нише.
Изолированный контент: Страницы или разделы сайта, которые слабо связаны с основными тематическими кластерами, будут иметь мало связей в соответствующих подграфах, что приведет к низким показателям схожести с авторитетными узлами.
Фокус на единичных запросах: Оптимизация под отдельные запросы без создания поддерживающего контента для всего тематического кластера не позволит построить сильные связи в тематических подграфах.

Стратегическое значение

Патент подчеркивает стратегический переход Google к анализу связей и структур в графах. Он демонстрирует инвестиции в инфраструктуру, позволяющую проводить сложный анализ сходства в реальном времени. Для SEO это означает, что построение сильного, тематически связного (cohesive) сайта, который четко ассоциируется с определенными сущностями и кластерами запросов, является фундаментальным. Способность Google эффективно вычислять метрики типа Personalized PageRank означает, что «расстояние» до авторитетных источников в тематическом графе является критически важным фактором.

Практические примеры

Сценарий: Оценка Тематического Авторитета в нише

Представим, что Google анализирует граф «Сайты (A) <-> Запросы (B)». Запросы разделены на категории, например, «Горные велосипеды» и «Шоссейные велосипеды».

Офлайн Редукция: Google создает подграф для категории «Горные велосипеды». В этом подграфе сайты связаны, если они оба релевантны одним и тем же запросам в этой теме. Веса рассчитываются с помощью PPR, отражая авторитетность в этой теме.
Онлайн Агрегация (Применение): При ранжировании по запросу «лучший горный велосипед», системе нужно определить наиболее авторитетные сайты именно в этой категории.
Результат: Система мгновенно извлекает подграф «Горные велосипеды». Сайт A, который имеет сильные связи и высокий PPR в этом подграфе, получит преимущество (сигнал Topical Authority) перед сайтом B, который имеет высокий глобальный авторитет, но слабо представлен в этом конкретном тематическом подграфе.

Вопросы и ответы

Что такое двудольный граф (Bipartite Graph) в контексте SEO?

Это способ моделирования отношений между двумя разными типами объектов. Самые важные для SEO примеры: Граф «Документы <-> Запросы» (показывает, какие документы релевантны каким запросам) и Граф «Сайты <-> Темы/Сущности» (показывает, какие темы покрывает сайт). Анализ этих графов позволяет Google понять структуру контента и тематические связи.

Описывает ли этот патент конкретный фактор ранжирования?

Нет, это инфраструктурный патент. Он не вводит новый фактор ранжирования, но описывает механизм, который позволяет Google эффективно и быстро вычислять сложные метрики схожести (например, Personalized PageRank, Adamic-Adar) на огромных графах. Эти метрики затем могут использоваться как сигналы в основных алгоритмах ранжирования или рекомендательных системах.

Что такое Targeted Similarity и как «категоризация» влияет на расчет схожести?

Targeted Similarity — это расчет схожести в конкретном контексте. Категоризация (например, разделение запросов по темам) позволяет Google это реализовать. Два сайта могут быть очень похожи в категории «Рецепты выпечки», но совершенно не похожи в категории «Ремонт автомобилей». Патент описывает, как Google может мгновенно «сфокусироваться» на нужной категории при расчете.

Что такое Personalized PageRank (PPR) и почему он важен в этом патенте?

PPR измеряет тематическую или контекстуальную авторитетность узла относительно заданного контекста. Это очень ресурсоемкая метрика для расчета. Этот патент критически важен, потому что он описывает инфраструктуру, которая позволяет Google вычислять сложные метрики, такие как PPR, мгновенно, что необходимо для использования их в реальном времени.

Как этот патент связан с Topical Authority?

Он предоставляет техническую базу для ее измерения. Если Google строит граф «Сайты и Темы», этот механизм позволяет быстро определить, какие сайты похожи друг на друга на основе тем, которые они покрывают (в рамках конкретной категории). Если ваш сайт имеет высокое сходство с уже известными авторитетами в нише, это может служить сильным сигналом вашей тематической авторитетности.

В чем разница между операциями Редукции (Reduction) и Агрегации (Aggregation)?

Операция Редукции выполняется заранее (офлайн). Это трудоемкий процесс анализа всего графа и создания упрощенных, компактных подграфов по категориям. Операция Агрегации выполняется в реальном времени в ответ на запрос. Она использует эти предварительно созданные подграфы для мгновенного расчета итогового сходства.

Что на практике означает «общий сосед» (common neighbor) для двух документов?

Если мы рассматриваем граф «Документы <-> Запросы», то «общий сосед» для двух документов – это запрос, по которому оба документа признаны релевантными. Если мы рассматриваем граф «Документы <-> Сущности», то это сущность, которая присутствует в обоих документах. Чем больше общих соседей, тем выше структурное сходство.

Как SEO-специалист может использовать эти знания на практике?

Необходимо сосредоточиться на создании плотных тематических кластеров контента. Убедитесь, что страницы внутри кластера связаны общими интентами, сущностями и ключевыми словами. Это увеличит количество общих связей в соответствующем тематическом подграфе Google, что приведет к более высокой оценке схожести и авторитетности в данной теме.

Что такое Adamic-Adar и как она применяется?

Adamic-Adar — это метрика сходства, которая придает больший вес общим связям, которые являются редкими или уникальными. Если два сайта связаны через очень популярную тему (например, «Новости»), это дает малый вклад в сходство. Но если они оба связаны через узкоспециализированную тему, это значительно увеличивает их сходство по Adamic-Adar. Это подчеркивает ценность нишевой экспертизы.

Влияет ли этот патент на работу Google Discover или систем рекомендаций?

Да, с высокой вероятностью. Системы рекомендаций напрямую зависят от возможности быстро находить похожий контент или пользователей со схожими интересами (например, в графе Пользователи <-> Интересы). Описанный в патенте механизм идеально подходит для решения таких задач в масштабах Google в реальном времени.