Как Google статистически определяет «согласованные категории» для обобщения правил подстановки синонимов

Google использует статистический анализ (KL-дивергенцию) для определения «согласованности» (coherence) категорий сущностей (например, «Города»). Если сущности внутри категории часто встречаются в одинаковых контекстах запросов, категория считается согласованной. Это позволяет системе обобщать правила синонимов с популярных сущностей на редкие сущности той же категории, улучшая понимание запросов из «длинного хвоста».

Описание

Какую задачу решает

Патент решает проблему нехватки данных (data sparsity) при обучении правил подстановки синонимов для редких контекстов или сущностей (long-tail). Системе легко понять, что «restaurants» является синонимом для «food» в запросе [food in San Francisco], так как данных много. Однако для редких сущностей, например [food in Grey Bull, Wyo.] (пример из патента), данных недостаточно. Патент предлагает механизм для обобщения правил синонимов, но только если категория (например, <City>) является семантически согласованной, тем самым избегая некорректных обобщений на основе слишком широких или разнородных категорий.

Что запатентовано

Запатентована система для автоматического вычисления показателя «специфичности» (specificity) или «согласованности» (coherence) категории (hypernym). Система статистически измеряет, насколько знание о присутствии члена категории (hyponym) в запросе помогает предсказать окружающий контекст этого запроса. Если контекст предсказуем, категория считается согласованной и полезной для обобщения синонимов.

Как это работает

Механизм основан на сравнении двух распределений вероятностей. Система анализирует логи запросов и определяет, какие термины (W) обычно встречаются рядом с сущностями из определенной категории (C) — это распределение совместной встречаемости P(W|C). Затем это сравнивается с общим фоновым распределением этих же терминов в поиске — P(W). Разница между этими распределениями измеряется с помощью Дивергенции Кульбака-Лейблера (Kullback-Leibler divergence). Если разница значительна (высокая специфичность), категория классифицируется как coherent category. Если согласованная категория также содержит достаточное количество данных (сущностей или запросов), она помечается как useful category для применения в системах переписывания запросов.

Актуальность для SEO

Высокая. Понимание сущностей (Entity Understanding), их категоризация (Knowledge Graph) и эффективное расширение запросов являются фундаментом современного поиска. Описанный статистический подход предоставляет метод для валидации семантических категорий, гарантируя, что они достаточно надежны для масштабирования правил синонимов на «длинный хвост» запросов.

Важность для SEO

Влияние на SEO высокое (8/10). Патент критически важен для этапа Query Understanding. Он объясняет, как Google обобщает понимание контекста от одной сущности к другой внутри одной категории. Это подчеркивает стратегическую важность четкой категоризации контента (включая использование Schema.org) и поддержания последовательного контекста вокруг сущностей на сайте для улучшения релевантности, особенно в локальном поиске и E-commerce.

Детальный разбор

Термины и определения

Примечание: В основном описании патента используются термины «Category» и «Entity», однако в Формуле изобретения (Claims) используются термины «Hypernym» и «Hyponym».

Background Probability Distribution (Фоновое распределение вероятностей, P(W)): Вероятность встретить определенный термин (W) в общем потоке запросов, независимо от контекста или категории.
Category (Категория) / Hypernym (Гипероним): Группа семантически связанных сущностей (например, «Города», «Смартфоны»).
Coherent Category (Согласованная категория): Категория, чей показатель специфичности (Specificity Value) превышает определенный порог. Это означает, что присутствие сущности из этой категории в запросе дает значимую информацию о сопутствующих терминах (контексте).
Co-occurrence Probability Distribution (Распределение вероятностей совместной встречаемости, P(W|C)): Вероятность встретить определенный термин (W) в запросе, при условии, что этот запрос также содержит сущность из категории (C).
Entity (Сущность) / Hyponym (Гипоним): Конкретный член категории (например, «San Francisco» является членом категории «Города»).
Kullback-Leibler (KL) divergence (Дивергенция Кульбака-Лейблера): Статистическая мера разницы между двумя распределениями вероятностей (P(W|C) и P(W)). Используется для расчета Specificity Value. Измеряет информационный выигрыш (Information Gain).
Specificity Value (Показатель специфичности, S(C)): Числовая оценка, показывающая, насколько сильно распределение P(W|C) отличается от P(W). Высокое значение указывает на высокую согласованность категории.
Useful Category (Полезная категория): Категория, которая является Coherent Category И при этом удовлетворяет дополнительным требованиям к объему данных (содержит достаточное количество сущностей или связана с достаточным количеством запросов).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения специфичности гиперонима (категории) и его использования для изменения запроса.

Система выбирает гипероним (Hypernym) из репозитория.
Идентифицируется набор запросов, которые содержат гипонимы (Hyponyms) выбранного гиперонима.
Определяется мера специфичности (measure of specificity) для гиперонима путем сравнения (i) распределения вероятностей совместной встречаемости и (ii) фонового распределения вероятностей.
Определяется, удовлетворяет ли мера специфичности пороговому значению.
Если ДА, система определяет, следует ли пересмотреть (revise) последующий поисковый запрос, включающий один гипоним, чтобы включить другой гипоним этого же гиперонима.

Ядром изобретения является метод статистической валидации семантической категории (шаги 1-4). Если категория достаточно специфична (согласованна), система считает ее членов (сущностей) контекстуально схожими. Это позволяет системам переписывания запросов (Query Revision) использовать эту информацию. Хотя Claim 1 специфично упоминает включение другого гипонима (например, рассматривать Ford и Toyota как взаимозаменяемые в контексте), основная идея патента, описанная в деталях, — это обобщение контекста для идентификации синонимов (например, понимание, что «еда» = «рестораны» в контексте любого города).

Claim 3 (Зависимый от 2): Уточняет метод измерения специфичности.

Мера специфичности измеряется с использованием Дивергенции Кульбака-Лейблера (Kullback-Leibler (KL) divergence) между распределением совместной встречаемости и фоновым распределением.

Claim 6 и 7 (Зависимые от 1): Определяют критерии для «полезного» гиперонима (Useful Hypernym).

Гипероним определяется как полезный, если он является согласованным (Coherent Hypernym) И удовлетворяет одному из следующих условий для обеспечения статистической надежности:

Он связан с количеством гипонимов, удовлетворяющим определенному порогу (Claim 6).
Набор идентифицированных запросов (используемых для анализа) содержит количество запросов, удовлетворяющее определенному порогу (Claim 7).

Где и как применяется

Изобретение в первую очередь относится к этапу понимания запросов и использует данные, подготовленные на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна идентифицировать сущности, классифицировать их по категориям (гиперонимам) и сохранить эти связи в Knowledge Base (например, Knowledge Graph). Эти данные являются входными для алгоритма.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Процесс состоит из двух частей:

Офлайн-анализ: Система анализирует логи запросов (Query Repository) и данные из Knowledge Base для расчета Specificity Value для различных категорий. Результатом является список категорий, помеченных как Coherent и Useful.
Онлайн-обработка: Во время обработки запроса пользователя, если система идентифицирует сущность, принадлежащую к Useful Category, она может уверенно применить обобщенные правила синонимов для этой категории, особенно если данных по конкретной сущности мало.

Входные данные:

Knowledge Base (Репозиторий гиперонимов и гипонимов).
Query Repository (Логи запросов).

Выходные данные:

Specificity Value для проанализированных гиперонимов.
Классификация гиперонимов (Coherent, Useful).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, содержащие сущности (entity-centric queries), особенно редкие сущности («длинный хвост»), для которых у системы мало прямых данных.
Конкретные ниши: Ниши с четкой структурой, такие как E-commerce (категории товаров), локальный поиск (города, типы бизнеса), медиа (фильмы, актеры).

Когда применяется

Временные рамки (Офлайн): Периодический анализ логов запросов для переоценки категорий.
Условия применения (Онлайн): Когда система обработки запросов рассматривает возможность расширения или переписывания запроса с использованием синонимов. Система использует результаты этого патента для валидации того, можно ли обобщить правило синонимов на основе категории сущности.

Пошаговый алгоритм

Описание офлайн-процесса расчета специфичности категории.

Идентификация категории и сущностей: Система выбирает категорию (Гипероним C) для анализа и идентифицирует все связанные с ней сущности (Гипонимы E) в Knowledge Base.
Сбор данных о запросах: Из логов запросов извлекается набор запросов (Q), которые содержат хотя бы одну сущность E из категории C.
Расчет распределения совместной встречаемости: Для набора запросов Q система анализирует, какие другие термины (W) встречаются в этих запросах. Вычисляется вероятность P(W|C). (Термины W могут быть отдельными словами или фразами).
Расчет фонового распределения: Система определяет общую вероятность появления этих же терминов (W) во всем потоке запросов, вычисляя P(W).
Сравнение и расчет специфичности: Система сравнивает P(W|C) и P(W). Расчет Specificity Value S(C) производится с использованием KL divergence.
Классификация согласованности (Coherence): Значение S(C) сравнивается с порогом. Если порог превышен, категория помечается как Coherent Category.
Валидация полезности (Usefulness): Если категория согласованная, система проверяет дополнительные пороги (согласно Claims 6 и 7): достаточно ли сущностей в категории ИЛИ достаточно ли запросов было использовано для анализа. Если да, категория помечается как Useful Category.

Какие данные и как использует

Данные на входе

Структурные/Семантические данные: Данные из Knowledge Base. Критически важны связи между сущностями (гипонимами) и категориями (гиперонимами).
Поведенческие факторы: Логи запросов (Query Repository). Используются для анализа реального использования языка и определения статистики совместной встречаемости терминов и сущностей.

Какие метрики используются и как они считаются

P(W|C) (Распределение совместной встречаемости): Рассчитывается на основе частоты появления термина W в запросах, содержащих сущности категории C.
P(W) (Фоновое распределение): Рассчитывается на основе общей частоты появления термина W в логах запросов.
Specificity Value S(C) (Показатель специфичности): Измеряет информационный выигрыш от знания категории. Рассчитывается как Дивергенция Кульбака-Лейблера между P(W|C) и P(W). Формула, указанная в описании патента: S(C) = KL(P(W|C)||P(W)) = Σ P(W|C) log(P(W|C)/P(W)).
Порог специфичности: Значение для классификации категории как Coherent.
Пороги полезности: Минимальное количество гипонимов или проанализированных запросов, необходимых для классификации категории как Useful.

Выводы

Статистическая валидация семантики: Google не полагается слепо на структуру Knowledge Graph. Система статистически проверяет, являются ли категории семантически согласованными (Coherent) на основе реальных данных использования языка в запросах, прежде чем использовать их для обобщения правил.
Специфичность как мера предсказуемости контекста: Ключевым критерием качества категории является ее способность предсказывать контекст. Если сущности категории (например, «Города») постоянно встречаются с определенными терминами (например, «отель», «погода»), категория считается специфичной и согласованной.
Использование KL Divergence для измерения информационного выигрыша: Патент явно указывает на использование KL divergence для количественной оценки того, сколько дополнительной информации о контексте дает знание категории по сравнению с фоновым распределением.
Согласованность недостаточна, нужен объем данных: Категория должна быть не только Coherent, но и Useful. Это означает, что она должна основываться на достаточном количестве данных (много сущностей или много запросов), чтобы выводы были статистически надежными.
Масштабирование правил синонимов на «длинный хвост» (Head-to-Tail Scaling): Основная цель механизма — безопасно применять правила синонимов, изученные на популярных сущностях (Head Entities), к редким сущностям (Tail Entities) той же категории.

Практика

Best practices (это мы делаем)

Поддержание консистентного контекста внутри категории: Это ключевая стратегия. Сущности одной категории должны представляться последовательно. Например, если вы продаете смартфоны, убедитесь, что все страницы продуктов содержат схожий набор атрибутов (контекстных терминов): «батарея», «экран», «камера», «цена», «обзор». Эта последовательность способствует тому, что категория «Смартфоны» будет признана согласованной (высокий P(W|C)).
Обеспечение четкой и точной категоризации: Используйте структурированные данные (Schema.org) для точного определения типа ваших сущностей. Это напрямую сообщает поисковой системе о принадлежности к категории (Hypernym). Используйте наиболее специфичные типы (например, RunningShoe, а не просто Product).
Оптимизация под обобщенные интенты категории: Изучите общие интенты, характерные для вашей категории (например, для городов это «отели», «погода»). Если вы продвигаете редкую сущность, убедитесь, что ваш контент соответствует этим обобщенным интентам. Это позволит вашему контенту наследовать релевантность от более популярных представителей категории.

Worst practices (это делать не надо)

Неоднозначная или слишком широкая категоризация: Создание категорий типа «Разное» или использование слишком общих типов в микроразметке (например, Thing). Они будут классифицированы как Non-Coherent (как категория «things» в примере из патента), так как их контекст непредсказуем.
Непоследовательное представление схожих сущностей: Если страницы для сущностей одной категории имеют радикально разную структуру, лексику и набор атрибутов, это затрудняет для системы выявление закономерностей в контексте (снижает согласованность категории).
Изолированная оптимизация: Фокусировка исключительно на точном вхождении ключевых слов для long-tail запросов без учета более широкого категориального контекста и связей с Knowledge Graph.

Стратегическое значение

Патент подтверждает критическую важность entity-oriented search. Он демонстрирует, что Google стремится к масштабируемому пониманию контента через абстракцию от конкретных ключевых слов к категориям и контекстам. Для SEO это означает, что стратегически важно выстраивать информационную архитектуру и контент-стратегию таким образом, чтобы они соответствовали семантически согласованным категориям, признаваемым Google. Правильная категоризация и контекстуализация контента напрямую влияют на эффективность расширения запросов.

Практические примеры

Сценарий 1: Обобщение контекста для локального поиска

Категория (Hypernym): «Город» (Предполагаем, что это Useful Category).
Анализ запросов: Система видит множество запросов типа [food in San Francisco] и узнает, что «food» часто подразумевает «restaurants» в контексте категории «Город».
Обработка нового запроса: Пользователь ищет [food in Grey Bull, Wyo]. Системе не хватает данных по этому конкретному запросу (редкая сущность).
Обобщение: Поскольку «Город» — согласованная категория, система применяет правило синонимизации («food» = «restaurants»), изученное на San Francisco, к Grey Bull.
Результат: Google интерпретирует запрос как [restaurants in Grey Bull, Wyo], предоставляя релевантные результаты.

Сценарий 2: Обобщение контекста для E-commerce

Категория (Hypernym): «Ноутбуки» (Useful Category).
Анализ запросов: Система видит запросы типа [MacBook Pro время работы] и узнает, что «время работы» является важным контекстом (W) для категории «Ноутбуки» (C). P(W|C) высока. Также система видит, что «время работы» и «батарея» часто взаимозаменяемы в этом контексте.
Обработка нового запроса: Пользователь ищет [Ноутбук XYZ батарея] (редкая модель).
Обобщение: Поскольку «Ноутбуки» — согласованная категория, система может расширить запрос, включив синоним «время работы», чтобы найти наиболее релевантные обзоры или характеристики для модели XYZ, даже если они не используют точное слово «батарея».

Вопросы и ответы

Что такое «согласованная категория» (Coherent Category) простыми словами?

Это категория, члены которой ведут себя одинаково в поисковых запросах. Например, если люди часто ищут «погоду» и «отели» рядом с названиями городов, то категория «Города» является согласованной. Если же члены категории встречаются в совершенно случайных контекстах (например, категория «Вещи»), она не является согласованной, так как ее контекст непредсказуем.

Чем «согласованная» (Coherent) категория отличается от «полезной» (Useful)?

Согласованность означает наличие четких контекстуальных паттернов (высокая специфичность). Полезность означает, что категория является согласованной И для нее достаточно данных (достаточно много сущностей в категории или достаточно много запросов в логах), чтобы эти паттерны были статистически надежными. Google использует только Useful Categories для обобщения правил.

Что такое Дивергенция Кульбака-Лейблера (KL divergence) в контексте этого патента?

Это математический способ измерить, насколько сильно распределение терминов, встречающихся рядом с категорией (P(W|C)), отличается от обычного распределения этих терминов в поиске (P(W)). По сути, это измерение того, сколько новой информации (информационный выигрыш) мы получаем о контексте запроса, зная, что в нем присутствует данная категория.

Как этот патент помогает Google обрабатывать запросы из «длинного хвоста»?

Он позволяет масштабировать знания. Система изучает правила синонимов и контексты на популярных сущностях (например, iPhone). Если категория (например, Смартфоны) признана согласованной, система может применить те же правила и понимание контекста к редким сущностям (например, новому или нишевому бренду смартфона), даже если она видит их впервые.

Как SEO-специалист может повлиять на то, будет ли его категория считаться согласованной?

Напрямую повлиять сложно, так как расчет основан на глобальных логах запросов. Однако можно помочь косвенно, обеспечивая максимальную последовательность в представлении контента. Если все страницы сущностей в вашей категории используют схожую лексику, атрибуты и структуру, вы повышаете вероятность того, что пользователи будут искать их схожим образом, что увеличивает согласованность категории в глазах Google.

Влияет ли этот патент на ранжирование?

Прямо нет, он не описывает сигналы ранжирования. Однако он критически влияет на этап Query Understanding. Улучшение понимания и расширения запроса с помощью синонимов (благодаря согласованным категориям) приводит к выбору более релевантного набора документов для ранжирования, что косвенно влияет на результаты.

Как этот механизм связан с Knowledge Graph?

Knowledge Graph (или аналогичная Knowledge Base) предоставляет входные данные: список категорий (гиперонимов) и их членов (гипонимов). Описанный механизм затем анализирует эти данные в сочетании с логами запросов, чтобы статистически валидировать структуру, предоставленную Knowledge Graph, для использования в поиске.

Патент говорит о замене одного гипонима на другой (Claim 1). Это основное применение?

Claim 1 действительно описывает применение как определение возможности включения другого гипонима (например, расширение запроса [обзоры Ford] результатами по [обзоры Toyota], если категория <Автомобили> согласована). Однако основная идея патента, описанная в резюме и детальном описании, — это обобщение контекста для идентификации синонимов (например, понимание, что «еда» = «рестораны» в контексте любого города).

Стоит ли избегать создания слишком узких категорий на сайте?

Слишком узкие категории могут столкнуться с проблемой нехватки данных и быть признаны «неполезными» (Non-Useful), даже если они согласованы, так как не будет достигнут порог по количеству сущностей или запросов (Claims 6 и 7). Важно найти баланс между специфичностью категории и ее размером.

Происходит ли расчет специфичности в реальном времени?

Нет. Расчет специфичности (P(W|C), P(W) и KL divergence) — это ресурсоемкий офлайн-процесс анализа логов запросов. В реальном времени система использует уже готовый список предварительно валидированных Useful Categories для быстрого принятия решения о расширении запроса.