Google использует этот метод для анализа больших наборов тегов (таких как ключевые слова или сущности) с целью выявления пересекающихся тематических кластеров («сообществ»). Система строит взвешенный граф на основе частоты совместного появления тегов, агрессивно удаляет шум (случайные совпадения) и определяет тесно связанные группы, где каждый элемент сильно коррелирует с остальными. Это помогает Google понимать тематическую релевантность и рекомендовать связанные концепции.
Описание
Какую задачу решает
Патент решает две основные проблемы в области обнаружения сообществ (кластеризации): обработку зашумленных данных и выявление пересекающихся сообществ. Традиционные методы часто преобразуют взвешенные графы в невзвешенные путем пороговой фильтрации, что приводит к потере информации и нестабильным результатам. Данное изобретение направлено на обнаружение сильных, тематически связанных и пересекающихся сообществ непосредственно во взвешенных графах, предварительно агрессивно удаляя шум (случайные ассоциации между элементами).
Что запатентовано
Запатентована система для обнаружения пересекающихся сообществ во взвешенном графе, построенном на основе данных о наборах тегов (Tagset Data). Ключевыми особенностями являются: (1) использование метрики Co-occurrence Consistency (статистической значимости совместного появления) в качестве весов графа; (2) итеративный процесс удаления шума (Denoising) из графа; (3) использование метрики Coherence (Согласованность) для оценки качества сообщества и жадного алгоритма (Grow-Shrink) для выявления максимально согласованных кластеров.
Как это работает
Система работает в несколько этапов:
- Сбор данных: Агрегируются наборы тегов (Tagsets).
- Построение графа: Вычисляется статистика совместного появления. Строится взвешенный граф, где веса ребер — это Co-occurrence Consistency (например, с использованием Normalized Point-wise Mutual Information, NMI).
- Удаление шума (Denoising): Граф итеративно очищается: удаляются связи с низкой консистентностью (ниже порога), а веса оставшихся связей пересчитываются.
- Расчет метрик: Для потенциальных сообществ вычисляются Importance Scores (Оценки важности/центральности) для каждого тега и Coherence (Согласованность) всего сообщества.
- Обнаружение сообществ: Используется жадный алгоритм Grow-Shrink для поиска наборов тегов, которые максимизируют Coherence.
- Применение: Выявленные сообщества используются, например, для рекомендации тегов в реальном времени.
Актуальность для SEO
Высокая. Понимание взаимосвязей между сущностями, ключевыми словами и темами (кластеризация) является фундаментальной задачей в современном поиске (BERT, MUM, Knowledge Graph). Этот патент предлагает надежную математическую основу для выявления тематических кластеров в зашумленных данных, что остается крайне актуальным для моделирования авторитетности и релевантности.
Важность для SEO
Патент имеет значительное влияние (8/10) на стратегическое SEO, особенно в области построения Topical Authority и семантического проектирования. Он предоставляет модель того, как Google может оценивать тематическую глубину и фокус контента. Патент объясняет, почему простого включения связанных ключевых слов недостаточно: важны консистентность (Consistency) и центральность (Importance) этих слов внутри определенного кластера. Это подчеркивает необходимость создания тесно сфокусированного контента, который строго соответствует установленным сообществам концепций.
Детальный разбор
Термины и определения
- Tagset (Набор тегов)
- Коллекция тегов (ключевых слов, сущностей), связанных с одним контекстом (например, с изображением, видео, пользовательской сессией или веб-страницей).
- Community (Сообщество)
- Набор тегов, идентифицированный как «локальный максимум согласованности» (local maxima of coherence). Группа тегов, которые тесно взаимосвязаны между собой.
- Co-occurrence Counts Graph ([ψ(α,β)]) (Граф частоты совместного появления)
- Граф, в котором вес ребра между двумя тегами равен количеству наборов тегов, в которых они оба присутствуют.
- Co-occurrence Consistency (φ(α,β)) (Консистентность совместного появления)
- Метрика, измеряющая, насколько вероятность совместного появления двух тегов выше случайной. Используется как вес во взвешенном графе. В патенте предлагается использовать Normalized Point-wise Mutual Information (NMI).
- Weighted Tag Co-occurrence Graph (Φ) (Взвешенный граф совместного появления тегов)
- Граф, в котором веса ребер соответствуют Co-occurrence Consistency (NMI).
- Denoising (Удаление шума)
- Итеративный процесс удаления ребер (пар тегов) с низкой Co-occurrence Consistency для устранения случайных связей.
- Importance Score (ρᵢ) (Оценка важности)
- Метрика, измеряющая центральность тега внутри определенного набора тегов/сообщества. Вычисляется с использованием центральности собственного вектора (Eigenvector Centrality), например, методом степенной итерации (Power Iteration).
- Coherence (π(x)) (Согласованность)
- Метрика «качества сообщества» для набора тегов. Определяется как минимальная Importance Score среди всех тегов в этом наборе.
- Grow-Shrink Algorithm (Алгоритм Роста-Сжатия)
- Жадный алгоритм, используемый для поиска локальных максимумов Coherence путем итеративного добавления (Grow) или удаления (Shrink) тегов для максимизации согласованности.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс.
- Идентификация контекста.
- Определение наборов тегов и словаря уникальных тегов.
- Генерация статистики подсчетов.
- Определение «меры консистентности совместного появления» (measure of co-occurrence consistency), показывающей, насколько вероятность совместного появления выше случайной.
- Генерация взвешенного графа с использованием этой меры.
- Удаление шума (Denoising) из графа.
- Идентификация как минимум одного сообщества.
Этот пункт защищает весь сквозной процесс: от получения сырых данных о тегах до преобразования их во взвешенный граф на основе статистической значимости (а не просто частоты), очистки этого графа и поиска кластеров внутри него.
Claim 4 и 5 (Зависимые от 1): Детализируют процесс удаления шума.
- (4) Удаление ребер, если мера консистентности ниже порога.
- (5) Пересчет статистики и обновление мер консистентности, если ребра выше порога.
Удаление шума является итеративным процессом. Удаление зашумленных ребер изменяет базовую статистику (маргинальные и общие подсчеты), что, в свою очередь, изменяет меры консистентности оставшихся ребер. Это гарантирует устойчивость финального графа.
Claim 6 (Зависимый от 1): Детализирует идентификацию сообщества.
- Определение Importance Score (насколько сильно связан тег).
- Определение Coherence (мера качества сообщества, выраженная как агрегат оценок важности).
- Идентификация сообществ путем сравнения Coherence.
Обнаружение сообществ опирается на метрики центральности (Importance) и конкретное определение качества группы (Coherence). (Примечание: Хотя в Claim 6 используется термин «агрегат», в описании патента Coherence определяется как минимальная оценка важности в наборе. Минимальный элемент ограничивает общую согласованность).
Claim 7 (Зависимый от 6): Описывает алгоритм Grow-Shrink.
Процесс включает начало с затравки (пары тегов), определение текущего набора, создание «растущего набора» (добавление тега) и «сжимающегося набора» (удаление наименее важного тега), сравнение их Coherence, выбор лучшего в качестве «следующего набора» и повторение до тех пор, пока текущий набор не будет иметь более высокую Coherence, чем следующий (достигнут локальный максимум).
Это конкретный жадный алгоритм оптимизации, разработанный для эффективного исследования пространства возможных комбинаций тегов с целью поиска наиболее согласованных кластеров.
Где и как применяется
Изобретение в основном применяется на этапах анализа данных и извлечения признаков для улучшения понимания контента и запросов.
INDEXING – Индексирование и извлечение признаков
Механизмы, описанные в патенте, скорее всего, используются в офлайн-режиме для анализа больших наборов данных (например, ключевых слов со сканированных страниц, логов поиска, сущностей в Knowledge Graph) с целью выявления стабильных сообществ/кластеров. Эти данные затем сохраняются как признаки и используются другими системами.
QUNDERSTANDING – Понимание Запросов
Выявленные сообщества могут помочь в понимании тематического контекста запроса. Если запрос содержит теги, принадлежащие к сильному сообществу, система лучше понимает намерение пользователя и может использовать это для разрешения неоднозначности.
RANKING / RERANKING – Ранжирование / Переранжирование
Сообщества могут использоваться для оценки тематической релевантности документа. Документ, чьи теги (ключевые слова/сущности) строго соответствуют согласованному сообществу (Coherent Community), может ранжироваться выше.
Входные данные:
- Данные о наборах тегов (Tagset Data): множество наборов тегов и словарь всех уникальных тегов.
- Контекст, определяющий набор тегов (например, теги ресурса, теги сессии).
Выходные данные:
- Очищенный взвешенный граф совместного появления тегов.
- Список пересекающихся сообществ (максимально согласованных наборов тегов) с их оценками Coherence и Importance Scores для каждого тега-участника.
На что влияет
- Конкретные ниши или тематики: Применимо во всех нишах и типах контента, где концепции могут быть представлены в виде тегов. Особенно полезно в сложных областях с пересекающимися темами (например, технологии, здоровье) или неоднозначными терминами.
- Специфические запросы: Помогает разрешать неоднозначность запросов, определяя сообщество, к которому принадлежат термины запроса.
Когда применяется
- Временные рамки: Основной процесс (обнаружение сообществ) выполняется периодически в офлайн-режиме на больших наборах данных.
- Триггеры активации: Компонент рекомендации тегов (Tag Recommendation Engine), описанный в патенте, активируется в реальном времени, когда пользователь вводит теги для нового контента, используя предварительно вычисленные сообщества.
- Пороговые значения:
- θ_cooc (Порог частоты совместного появления): Используется для первоначального контроля шума.
- θ_consy (Порог консистентности совместного появления): Критически важный порог, используемый во время итеративного удаления шума и для выбора затравок (seeds) при обнаружении сообществ.
Пошаговый алгоритм
Фаза 1: Генерация графа и удаление шума
- Агрегация данных: Сбор наборов тегов и определение словаря (V).
- Статистика подсчетов: Расчет частоты совместного появления [ψ(α,β)], маргинальных подсчетов ψ(α) и общего количества Ψ₀.
- Первоначальное взвешивание: Расчет начальной Co-occurrence Consistency (NMI — φ(α,β)) для всех пар. Создание взвешенного графа (Φ).
- Итеративное удаление шума (Denoising):
- Идентификация ребер с весом ниже порога консистентности θ_consy.
- Удаление этих ребер (шума).
- Пересчет маргинальных и общих подсчетов на основе оставшихся ребер.
- Пересчет Co-occurrence Consistency (NMI) для оставшихся ребер.
- Повторение шагов a-d до тех пор, пока все оставшиеся ребра не будут выше порога θ_consy.
Фаза 2: Обнаружение сообществ
- Инициализация: Выбор затравки (seed) — пары тегов с консистентностью выше θ_consy. Определение ее как Текущего Набора Тегов (x).
- Расчет метрик: Для Текущего Набора Тегов расчет Importance Scores (ρᵢ) для каждого тега (используя Power Iteration) и Coherence (π(x) = min ρᵢ).
- Фаза Роста (Grow Phase) (Оптимизация): Итеративное добавление тега, который максимально увеличивает Coherence, пока она не перестанет расти.
- Фаза Роста-Сжатия (Grow-Shrink Phase):
- Рост: Создание Растущего Набора (x⁺) путем добавления лучшего тега-кандидата.
- Сжатие: Создание Сжимающегося Набора (x⁻) путем удаления тега с наименьшей Importance Score.
- Сравнение: Сравнение Coherence(x⁺) и Coherence(x⁻).
- Выбор: Выбор набора с более высокой Coherence в качестве Следующего Набора (x_next).
- Проверка сходимости: Сравнение Coherence(x_next) с Coherence(x).
- Если Coherence(x_next) > Coherence(x): Установка x = x_next и повтор с шага 4a.
- Если Coherence(x_next) <= Coherence(x): Текущий Набор Тегов (x) является Сообществом (Локальным Максимумом).
- Итерация и Дедупликация: Повтор с шага 1 для всех возможных затравок и удаление дубликатов найденных сообществ.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на анализе совместного появления тегов и не упоминает традиционные SEO-факторы (ссылки, технические аспекты, структура контента).
- Поведенческие / Структурные данные (Tagsets): Основные данные — это наборы тегов. Патент явно упоминает различные контексты их сбора:
- Resource Tagsets: Теги, связанные с одним ресурсом (например, изображения, видео, закладки). Это аналог ключевых слов/сущностей, связанных с веб-страницей.
- Session Tagsets: Теги ресурсов, потребленных в рамках одной сессии (используется для рекомендаций).
- User-consumed/generated Tagsets: Теги, использованные или созданные пользователем (используется для профилирования пользователей).
Какие метрики используются и как они считаются
- Co-occurrence Count (ψ(α,β)): Простой подсчет совместного появления.
- Normalized Point-wise Mutual Information (NMI) (φ(α,β)): Основная метрика для веса ребра (Co-occurrence Consistency). Измеряет статистическую зависимость между тегами, нормализуя ее относительно случайной вероятности.
- Importance Score (ρᵢ): Центральность собственного вектора (Eigenvector Centrality) тега внутри конкретного набора. Измеряет влияние/центральность тега. Рассчитывается методом степенной итерации (Power Iteration).
- Coherence (π(x)): Минимальная Importance Score внутри набора тегов. Используется для оценки качества сообщества.
- Пороги: θ_cooc и θ_consy используются для фильтрации шума и инициации процесса.
Выводы
- Статистическая значимость важнее частоты: Google ценит Co-occurrence Consistency (NMI) выше, чем просто частоту совместного появления. Важно не только то, как часто концепции появляются вместе, но и то, является ли это появление статистически значимым или случайным.
- Агрессивное удаление шума: Итеративный процесс Denoising имеет решающее значение. Система активно пытается отбросить случайные ассоциации между концепциями, прежде чем идентифицировать тематические кластеры.
- Центральность концепций (Importance Score): Внутри любой темы одни концепции являются центральными, а другие — периферийными. Importance Score (Eigenvector Centrality) количественно определяет это. Авторитетный контент должен фокусироваться на центральных концепциях.
- Прочность цепи определяется самым слабым звеном (Coherence): Качество кластера (Coherence) определяется его наименее центральным элементом. Это означает, что сильное сообщество требует, чтобы все его члены были тесно интегрированы. Добавление слабо связанных элементов снижает общую согласованность.
- Пересекающиеся темы: Метод специально разработан для обнаружения пересекающихся сообществ, признавая, что один тег (ключевое слово/сущность) может естественно принадлежать к нескольким темам (например, «Банк» как финансовое учреждение и как берег реки).
Практика
Best practices (это мы делаем)
- Тематическое моделирование на основе Co-occurrence Consistency: При построении Topical Authority фокусируйтесь на концепциях, которые последовательно и статистически значимо встречаются вместе в надежных источниках данных. Не просто кластеризуйте ключевые слова по семантическому сходству, а по их доказанной взаимозависимости в контексте.
- Создание строго согласованного контента (Tightly Coherent Content): Убедитесь, что основные сущности и ключевые слова, используемые в материале, образуют согласованный кластер. Избегайте добавления касательных или слабо связанных концепций, так как они снижают общую Coherence (принцип «самого слабого звена»).
- Выявление центральных концепций (Importance): Определите, какие концепции являются центральными для темы (имеют высокий Importance Score). Убедитесь, что эти центральные концепции занимают видное место в вашей контент-стратегии по данной теме.
- Использование логики рекомендаций: Система рекомендует теги на основе их важности внутри релевантных сообществ. При оптимизации контента отдавайте приоритет добавлению концепций, которые имеют высокую Importance Score в целевом тематическом кластере.
Worst practices (это делать не надо)
- Насыщение ключевыми словами / Случайные ассоциации: Добавление ключевых слов, которые семантически связаны, но не встречаются вместе последовательно в целевом контексте. Это создает шум, который система специально разработана для фильтрации.
- Широкий, несфокусированный контент: Попытка охватить слишком много подтем поверхностно. Это приводит к низкой Coherence, поскольку концепции не образуют тесного кластера, что затрудняет для Google определение основного тематического сообщества, к которому принадлежит контент.
- Фокус на периферийных терминах: Построение контент-стратегии на терминах с низкими Importance Scores внутри сообщества вместо центральных тем.
Стратегическое значение
Этот патент подтверждает сдвиг в сторону тематического моделирования и взаимосвязей сущностей. Он предоставляет математическую основу для того, как Google может оценивать Topical Authority. SEO-стратегия должна быть направлена на то, чтобы сайт стал центральным узлом в конкретных, согласованных (Coherent) информационных сообществах, а не просто ранжировался по отдельным ключевым словам. Понимание Coherence и Importance критично для долгосрочного успеха.
Практические примеры
Сценарий: Оптимизация страницы о «Уимблдоне» (Wimbledon).
- Анализ данных: Предположим, система обнаружила сообщество: {wimbeldon: 1.02, lawn (газон): 0.98, tennis: 0.95, net (сетка): 0.88, court (корт): 0.83, watching (просмотр): 0.83, players (игроки): 0.81}. Общая Coherence составляет 0.81 (минимальное значение).
- Плохая практика (Низкая Coherence): Создание страницы, фокусирующейся на {Wimbledon, Chocolate, Rain (дождь)}. Термины «Шоколад» и «Дождь» могут иногда встречаться вместе с Уимблдоном, но их Consistency низкая. Они являются шумом и будут отфильтрованы, или же они резко снизят Coherence концептуальной сигнатуры страницы.
- Хорошая практика (Высокая Coherence и Importance): Создание сфокусированного контента вокруг {Wimbledon, Lawn Tennis, Players, Court}. Это строго соответствует согласованному сообществу. Для максимизации релевантности следует сделать акцент на «Wimbledon» и «Lawn Tennis», так как у них самые высокие Importance Scores (центральность).
Вопросы и ответы
Что такое «Co-occurrence Consistency» (NMI) и почему это важно для SEO?
Co-occurrence Consistency, измеряемая через NMI (Normalized Point-wise Mutual Information), показывает, насколько совместное появление двух терминов статистически значимо по сравнению со случайностью. Это критически важно, потому что Google ищет значимые связи, а не случайные совпадения. Например, термины «Отель» и «Бронирование» часто встречаются вместе и имеют высокую NMI. А «Отель» и «Синий» могут иногда встречаться, но их NMI будет низкой. SEO-специалистам следует фокусироваться на терминах с высокой NMI для построения релевантного контента.
Как процесс «Denoising» (Удаление шума) влияет на SEO?
Процесс Denoising агрессивно удаляет слабые или случайные связи между терминами. Это означает, что попытки искусственно связать концепции в контенте, которые естественно не встречаются вместе (низкая Consistency), будут неэффективны. Система идентифицирует такие связи как шум и игнорирует их при формировании тематических кластеров. Это подчеркивает необходимость использования только естественно связанных терминов.
Что такое «Importance Score» и как его использовать в работе?
Importance Score — это мера центральности термина внутри темы (сообщества), основанная на Eigenvector Centrality. Термины с высоким баллом являются ядром темы. При разработке контент-стратегии необходимо убедиться, что вы фокусируетесь на этих центральных терминах, а не на периферийных. Это помогает позиционировать ваш контент как авторитетный источник по данной теме.
Что означает «Coherence» (Согласованность) для моего контента?
Coherence измеряет, насколько тесно связаны все концепции в вашем контенте. Ключевой момент патента: Coherence равна минимальному Importance Score в группе. Это означает, что добавление даже одного слабо связанного или периферийного термина снижает общую согласованность всего контента. Для высокого качества контент должен быть максимально сфокусированным, и все используемые в нем ключевые концепции должны быть тесно взаимосвязаны.
Означает ли этот патент, что Google кластеризует ключевые слова?
Да, этот патент описывает сложный механизм именно для этой цели. Он показывает, как Google может брать огромные объемы данных (например, ключевые слова на страницах или в поисковых запросах) и организовывать их в тематические кластеры («сообщества»). Причем эти кластеры основаны не на семантическом сходстве, а на статистически значимом совместном появлении.
Почему система допускает «пересекающиеся» (overlapping) сообщества?
Система допускает пересечения, потому что реальный мир устроен именно так. Одно ключевое слово или сущность может принадлежать к нескольким темам. Например, «Apple» может принадлежать к сообществу «Технологические компании» и к сообществу «Фрукты». Этот метод позволяет Google корректно обрабатывать такие неоднозначности и понимать контекст, в котором используется термин.
Что такое алгоритм Grow-Shrink и зачем он используется?
Алгоритм Grow-Shrink — это метод поиска наилучшего возможного кластера. Он начинает с небольшой группы терминов и пытается улучшить ее качество (Coherence), пробуя добавить новый связанный термин (Grow) или удалить наименее важный текущий термин (Shrink). Он выбирает действие, которое дает наибольший прирост качества, и повторяет процесс, пока улучшение не прекратится. Это эффективный способ найти самые сильные тематические группы.
Как я могу использовать логику рекомендации тегов для своей SEO-стратегии?
Логика рекомендаций показывает, какие термины система считает наиболее релевантными дополнениями к уже существующему набору. Она отдает приоритет терминам с высоким Importance Score в релевантных сообществах. При расширении семантического ядра или оптимизации существующего контента следует в первую очередь добавлять термины, которые являются центральными для вашей целевой темы.
Применяется ли это только к тегам на платформах типа YouTube или Flickr?
Нет. Хотя в патенте в качестве примеров используются теги из социальных сетей или сервисов обмена медиа, описанные методы универсальны. «Тег» в контексте патента — это любой дискретный элемент, который может встречаться совместно с другими. Это могут быть ключевые слова на веб-странице, сущности из Knowledge Graph, товары в корзине покупателя или даже поисковые запросы в рамках одной сессии.
Как это связано с Topical Authority?
Этот патент предоставляет возможную математическую модель для расчета Topical Authority. Сайт, который последовательно публикует контент, соответствующий сильным, согласованным сообществам (Coherent Communities), и фокусируется на центральных терминах (высокий Importance Score), будет восприниматься как авторитетный источник в данной тематике. Это основа для построения тематического авторитета.