Как Google использует анализ совместной встречаемости слов в запросах для оценки качества синонимов и контекстов

Google оценивает, является ли один термин хорошей заменой (синонимом) для другого, анализируя, какие другие слова часто появляются рядом с ними в поисковых запросах. Система строит векторы частот совместной встречаемости для обоих терминов и сравнивает их. Высокое сходство векторов подтверждает качество замены. Этот же механизм используется для определения того, добавляет ли конкретный контекст значимое семантическое значение к правилу замены.

Описание

Какую задачу решает

Патент решает две ключевые задачи в области понимания запросов (Query Understanding):

Оценка качества заменяющих терминов (синонимов): Определение степени уверенности в том, что Термин Б является подходящей заменой для Термина А при переписывании запроса. Это позволяет избежать некорректных замен (например, «warrant» вместо «warranty»).
Оценка полезности контекстов для правил замены: Определение того, добавляет ли конкретный контекст (соседние слова в запросе) значимое семантическое уточнение к правилу замены, или же он является шумом (например, артикль «the»). Это позволяет системе фокусироваться на значимых контекстах и повышает точность переписывания запросов.

Что запатентовано

Запатентована система и метод для оценки заменяющих терминов и контекстов на основе анализа частот совместной встречаемости (co-occurrence frequencies) слов в логах поисковых запросов. Суть изобретения заключается в применении моделей векторного пространства (Vector Space Models) для количественной оценки семантического сходства. Система сравнивает векторы совместной встречаемости исходного термина и термина-кандидата для оценки синонимичности, а также сравнивает векторы термина в общем и термина в специфическом контексте для оценки значимости этого контекста.

Как это работает

Система работает на основе принципов дистрибутивной семантики (значение слова определяется его окружением):

Оценка синонимов: Для двух терминов (например, «frenchopen» и «french open») система строит векторы, элементами которых являются частоты, с которыми другие слова встречаются рядом с ними в запросах. Затем вычисляется сходство этих векторов (например, Cosine Similarity). Если векторы почти идентичны, термины считаются хорошими заменами.
Оценка контекстов: Для правила замены с контекстом (например, sheer→sheet, если рядом есть music) система сравнивает вектор термина в этом контексте («sheer music») с вектором термина в общем («sheer»). Вычисляется вектор разницы (Delta Vector). Если наибольшая разница приходится на семантически важные слова (например, «instrument», «lessons»), контекст признается хорошим. Если разница приходится на неважные слова (стоп-слова), контекст признается плохим и добавляется в Stop List.

Актуальность для SEO

Высокая. Описанные методы, основанные на дистрибутивной семантике и анализе совместной встречаемости в логах запросов, являются фундаментальными для систем понимания естественного языка (NLU). Хотя современные нейросетевые модели (например, Трансформеры, BERT) используют более сложные механизмы для создания векторных представлений (embeddings), базовый принцип оценки семантического сходства через сравнение контекстов остается критически важным для задач переписывания запросов, распознавания синонимов и понимания интента.

Важность для SEO

Патент имеет высокое значение для SEO, так как он раскрывает механизмы, лежащие в основе того, как Google определяет синонимичность и контекстуальное значение терминов. Это напрямую влияет на стратегию подбора ключевых слов и создание контента. Понимание того, что Google определяет значение слов на основе их фактического использования в запросах (co-occurrence), а не на основе словарей, подчеркивает важность анализа реального языкового окружения терминов в вашей нише для обеспечения максимальной семантической релевантности.

Детальный разбор

Термины и определения

Candidate Substitute Term (Кандидат на заменяющий термин): Термин, который оценивается системой на предмет того, является ли он подходящей заменой (синонимом) для исходного термина в поисковом запросе.
Co-occurrence Frequency (Частота совместной встречаемости): Метрика, показывающая, как часто определенный термин появляется в поисковых запросах, содержащих другой целевой термин.
Context (Контекст): Условие для применения правила замены. Обычно это одно или несколько других слов, которые должны присутствовать в запросе рядом с исходным термином (слева или справа).
Cosine Similarity (Косинусное сходство): Мера сходства между двумя ненулевыми векторами, используемая для сравнения векторов совместной встречаемости. Значение близкое к 1 указывает на высокое сходство.
Delta Vector (Вектор разницы): Вектор, полученный путем вычитания одного вектора совместной встречаемости из другого. Используется для оценки значимости контекста.
Inverse Document Frequency (IDF) (Обратная частота документа): Мера того, насколько информация о слове важна. Используется в патенте как один из способов оценки важности (Importance) терминов при анализе Delta Vector.
Query Logs Database (База данных логов запросов): Хранилище ранее выполненных поисковых запросов, используемое для расчета статистики совместной встречаемости.
Stop List (Стоп-лист): Список контекстов, которые были идентифицированы как «плохие» (не добавляющие значимого семантического значения). Система игнорирует правила замены с этими контекстами.
Substitute Term / Synonym (Заменяющий термин / Синоним): Термин, используемый для переписывания исходного запроса с целью улучшения результатов поиска.
Substitution Rule (Правило замены): Правило, определяющее, что один термин может быть заменен другим, часто с указанием необходимого контекста (например, dog→pet (:food)).
Vector Engine (Векторный движок): Компонент системы, отвечающий за генерацию и сравнение векторов совместной встречаемости для оценки синонимов и контекстов.

Ключевые утверждения (Анализ Claims)

Примечание: Предоставленный текст патента содержит Claims 1-30, которые фокусируются исключительно на Механизме 1 (Оценка заменяющих терминов). Они не охватывают Механизм 2 (Оценка контекстов), который подробно описан в Description.

Claim 1 (Независимый пункт): Описывает основной метод оценки кандидата на замену.

Выбирается первый термин и кандидат на замену.
Определяется первая частота совместной встречаемости (first co-occurrence frequency) для слов, которые появляются в прошлых запросах вместе с первым термином.
Генерируется первый вектор для первого термина на основе этих частот.
Определяется вторая частота совместной встречаемости для слов, которые появляются в прошлых запросах вместе с кандидатом.
Генерируется второй вектор для кандидата на основе этих частот.
Первый и второй векторы сравниваются.
Оценивается ассоциация (scoring an association) между первым термином и кандидатом на основе этого сравнения.

Claim 2 и 3 (Зависимые): Уточняют структуру векторов. Векторы содержат элементы, соответствующие терминам, которые встречались совместно ЛИБО с первым термином, ЛИБО с кандидатом. Каждому элементу присваивается соответствующая частота совместной встречаемости.

Claim 4 (Зависимый): Элементы, соответствующие одному и тому же слову, находятся на одной и той же позиции в обоих векторах (обеспечивает возможность сравнения).

Claim 5 (Зависимый): Элементы в векторе, соответствующие словам, которые не встречались совместно с целевым термином, имеют нулевое значение.

Claim 6 и 7 (Зависимые): Сравнение векторов включает вычисление оценки сходства (vector similarity score). Эта оценка может быть основана на косинусном сходстве (cosine similarity).

Claim 8 (Зависимый): Оценка ассоциации используется для корректировки оценки уверенности (confidence score) правила замены (substitution rule).

Где и как применяется

Изобретение является ключевой частью этапа понимания запросов и подготовки данных для ранжирования.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система Substitute Term Engine и Vector Engine работают здесь для анализа и переписывания запросов.

Офлайн-анализ: Система анализирует Query Logs Database для расчета статистики совместной встречаемости. Она оценивает потенциальные синонимы (Механизм 1) и оценивает контексты (Механизм 2), генерируя Substitution Rules Database и Stop List.
Онлайн-переписывание: Query Reviser Engine получает исходный запрос и использует данные из Substitute Term Engine (правила замены с высокими confidence scores и валидными контекстами) для генерации пересмотренных запросов (Revised Queries).

INDEXING – Индексирование и извлечение признаков
Хотя патент напрямую не описывает индексирование, данные о совместной встречаемости и правила замены могут храниться в структурах, созданных на этом этапе для быстрого доступа на этапе QUnderstanding.

RANKING – Ранжирование
Search Engine получает как исходный запрос, так и пересмотренные запросы (All Queries) и использует их для поиска и ранжирования документов в Index Database.

Входные данные:

Логи прошлых поисковых запросов (Query Logs Database).
Исходный термин и термин-кандидат на замену (для Механизма 1).
Исходный термин и контекстный термин (для Механизма 2).

Выходные данные:

Оценка ассоциации (Similarity Score) между терминами.
Скорректированные оценки уверенности (Confidence Scores) для правил замены.
Стоп-лист (Stop List) плохих контекстов.
База данных правил замены (Substitution Rules Database).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, запросы с опечатками, а также запросы, где используются разные варианты написания (например, слитное/раздельное). Система помогает понять, когда два разных написания означают одно и то же (например, «french open» и «frenchopen»), а когда похожее написание имеет другое значение (например, «warrant» и «warranty»).
Понимание синонимов: Влияет на все типы контента и тематики, определяя, как широко Google интерпретирует запрос пользователя, включая синонимы и близкие варианты.
Контекстуальное понимание: Позволяет системе различать значение термина в зависимости от окружающих слов (например, разница между «ship wreck» и «ship package»).

Когда применяется

Триггеры активации (Механизм 1): Активируется при оценке потенциальных правил замены. Может применяться к выходу других процессов, например, процесса «break and join» (разделения и объединения слов).
Триггеры активации (Механизм 2): Активируется при оценке правил замены, содержащих специфический контекст, чтобы определить, следует ли сохранить этот контекст или игнорировать его.
Временные рамки: Расчет статистики, оценка синонимов и контекстов выполняются преимущественно офлайн, путем периодической обработки логов запросов. Применение правил замены происходит онлайн при получении запроса пользователя.

Пошаговый алгоритм

Алгоритм 1: Оценка заменяющего термина (Синонима)

Выбор кандидатов: Система выбирает первый термин и кандидат на заменяющий термин.
Сбор данных для первого термина: Для каждого слова, которое встречалось в прошлых запросах вместе с первым термином, определяется частота совместной встречаемости.
Генерация первого вектора: Создается вектор, где каждый элемент соответствует слову из окружения, а значение элемента — его частоте совместной встречаемости с первым термином.
Сбор данных для кандидата: Аналогично определяются частоты совместной встречаемости для слов, встречавшихся вместе с термином-кандидатом.
Генерация второго вектора: Создается вектор для термина-кандидата. (Важно: оба вектора имеют одинаковую размерность и порядок элементов).
Сравнение векторов: Вычисляется мера сходства между первым и вторым вектором (например, Cosine Similarity).
Оценка ассоциации: На основе меры сходства система оценивает ассоциацию. Если сходство превышает порог, кандидат считается хорошей заменой. Эта оценка может использоваться для корректировки Confidence Score соответствующего правила замены.

Алгоритм 2: Оценка контекста для правила замены

Выбор контекста: Система выбирает первый термин и второй термин, который выступает в роли контекста (например, первый термин «sheer», контекст «music»).
Генерация вектора общего использования: Создается вектор совместной встречаемости для первого термина во всех запросах (Вектор А).
Генерация вектора контекстного использования: Создается вектор совместной встречаемости для первого термина, но только в тех запросах, где он соседствует со вторым термином (контекстом) (Вектор Б).
Вычисление разницы: Генерируется Delta Vector путем вычитания Вектора А из Вектора Б.
Сортировка разницы: Delta Vector сортируется по значениям элементов (от наибольшей разницы к наименьшей).
Оценка важности терминов: Система анализирует Топ-N терминов с наибольшей разницей. Для каждого из этих терминов вычисляется мера важности (Importance). Патент предлагает использовать IDF или специальную метрику важности imp(x).
Вычисление оценки контекста: Вычисляется итоговая оценка контекста, например, путем взвешивания значений из Delta Vector на меру важности соответствующих терминов.
Принятие решения: Если итоговая оценка не удовлетворяет порогу, контекст признается «плохим» (незначимым) и добавляется в Stop List.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Система полностью полагается на анализ Query Logs Database (журналов прошлых поисковых запросов) для вычисления статистики совместной встречаемости терминов.

Информация о контентных, технических, ссылочных, временных, структурных, мультимедиа, географических или пользовательских факторах в данном патенте отсутствует. Система фокусируется исключительно на тексте запросов из логов.

Какие метрики используются и как они считаются

Co-occurrence Frequency: Частота, с которой Термин X появляется в запросах, содержащих Термин Y.
Vector Similarity Score (Cosine Similarity): Мера сходства векторов. Формула для векторов A и B длины n:

$similarity = \frac{A \cdot B}{}$

Выводы

Дистрибутивная семантика как основа NLU: Патент подтверждает, что Google определяет значение слов и их взаимозаменяемость не по словарям или тезаурусам, а по тому, как пользователи фактически используют эти слова в запросах. Значение термина определяется его окружением (словами, которые встречаются рядом).
Количественная оценка синонимичности: Система использует строгий математический подход (Vector Space Models и Cosine Similarity) для оценки того, являются ли два термина синонимами. Если контексты использования сильно различаются, термины не будут считаться заменами, даже если они похожи по написанию.
Контекст определяет правила замены: Система активно ищет контексты, которые изменяют значение слова (например, «ship» + «package» vs «ship» + «wreck»). Правила замены применяются с учетом этих контекстов для повышения точности.
Фильтрация незначимых контекстов: Google активно борется с шумом в данных. Механизм оценки контекстов (Механизм 2) позволяет отсеивать контексты, которые не несут дополнительной семантической нагрузки (например, артикли или общие слова). Это повышает эффективность и точность системы понимания запросов.
Зависимость от пользовательских данных: Эффективность системы напрямую зависит от объема и качества данных в Query Logs. Понимание языка системой эволюционирует по мере того, как меняется поведение пользователей.

Практика

Best practices (это мы делаем)

Анализ реального контекста использования терминов (Distributional Analysis): При исследовании ключевых слов анализируйте не только частотность, но и то, какие слова окружают ваш целевой термин в реальных запросах и в контенте ранжирующихся страниц. Это поможет понять, как Google видит семантический контекст этого термина.
Использование естественных синонимов и вариаций: Обогащайте контент синонимами и близкими по смыслу фразами, которые естественно используются в вашей нише. Патент подтверждает, что если Google видит схожие паттерны совместной встречаемости для вашего термина и его синонима, он будет считать их взаимозаменяемыми.
Создание четкого контекста для неоднозначных терминов: Если вы используете термины с несколькими значениями (например, «Ягуар» как животное или как автомобиль), убедитесь, что окружающий контент содержит достаточное количество контекстуальных подсказок (co-occurring terms), чтобы помочь системе правильно интерпретировать значение (например, «двигатель», «скорость» или «джунгли», «хищник»).
Оптимизация под слитные/раздельные написания: Для терминов, которые могут писаться слитно или раздельно (например, «frenchopen»/»french open» или «вебмастер»/»веб мастер»), используйте оба варианта или тот вариант, который имеет более сильные и релевантные паттерны совместной встречаемости в вашей целевой аудитории. Система способна распознать их эквивалентность.

Worst practices (это делать не надо)

Использование искусственных или редких синонимов: Попытка оптимизировать контент под синонимы, которые редко используются в реальных запросах или имеют совершенно другой контекст использования, не принесет пользы. Google не распознает их как релевантные замены, так как их векторы совместной встречаемости будут сильно отличаться.
Игнорирование контекста ключевого слова: Фокусировка только на точном вхождении ключевого слова без учета его семантического окружения. Если контекст использования термина на вашей странице не соответствует контексту, который Google ожидает увидеть (на основе анализа Query Logs), релевантность будет низкой.
Keyword Stuffing и неестественное окружение: Насыщение текста ключевыми словами в неестественных сочетаниях нарушает нормальные паттерны совместной встречаемости, что может затруднить для системы понимание реального смысла контента.

Стратегическое значение

Этот патент подчеркивает стратегический переход от буквального сопоставления ключевых слов к глубокому семантическому пониманию языка на основе пользовательских данных. Для SEO это означает, что стратегии, основанные на понимании интента и создании контента, который отражает естественное использование языка в целевой нише, будут наиболее эффективными. Построение Topical Authority требует покрытия не только основных терминов, но и всего спектра связанных с ними контекстов и совместно встречающихся слов, которые определяют семантическое пространство темы.

Практические примеры

Сценарий 1: Определение синонимичности для E-commerce

Задача: Определить, считает ли Google термины «кроссовки» и «сникеры» взаимозаменяемыми.
Действие (на основе патента): Проанализировать (используя инструменты анализа семантики или ручной анализ выдачи), какие слова часто встречаются с термином «кроссовки» (например, «купить», «мужские», «беговые», «Nike») и какие с термином «сникеры» (например, «модные», «лимитированные», «Jordan»).
Интерпретация: Если наборы совместно встречающихся слов сильно пересекаются, Google, вероятно, считает их хорошими заменами (Механизм 1). Если наборы сильно различаются, Google видит их как разные сущности или интенты. Контентная стратегия должна учитывать эти нюансы.

Сценарий 2: Уточнение контекста для информационного сайта

Задача: Написать статью о термине «Apple», фокусируясь на компании, а не на фрукте.
Действие (на основе патента): Насытить текст словами, которые имеют высокую частоту совместной встречаемости с «Apple» именно в контексте компании (например, «iPhone», «MacBook», «iOS», «Тим Кук», «презентация»).
Ожидаемый результат: Система сравнивает контекст использования термина на странице с известными ей паттернами. Наличие сильных контекстуальных сигналов (Механизм 2) поможет Google правильно классифицировать контент и повысить его релевантность для запросов о компании.

Вопросы и ответы

Как именно система определяет, что два слова являются синонимами?

Система не использует словари. Вместо этого она анализирует логи поисковых запросов и вычисляет частоту совместной встречаемости (co-occurrence frequency) для каждого слова. Если два разных слова постоянно появляются в окружении одних и тех же других слов (например, «frenchopen» и «french open» оба встречаются с «tennis», «championship»), система строит для них очень похожие векторы. Высокое косинусное сходство (Cosine Similarity) этих векторов указывает на то, что слова являются хорошими заменами друг для друга.

Что такое «плохой контекст» (bad context) и зачем Google его фильтрует?

«Плохой контекст» — это слово или фраза рядом с ключевым термином, которые не добавляют значимого семантического уточнения. Например, правило замены «ship→boat», когда рядом стоит артикль «the». Патент описывает механизм для идентификации таких контекстов путем сравнения использования термина в этом контексте и в общем (с помощью Delta Vector). Google фильтрует их для повышения эффективности и точности системы переписывания запросов, позволяя фокусироваться только на тех контекстах, которые действительно меняют смысл (например, «ship» + «wreck»).

Как SEO-специалист может использовать знание о совместной встречаемости на практике?

Это знание критично для создания семантически релевантного контента. Необходимо анализировать, какие слова и фразы часто окружают ваши целевые ключевые слова в реальных запросах и топовом контенте. Включение этих совместно встречающихся слов в ваш контент помогает сформировать четкий контекст, соответствующий ожиданиям поисковой системы, и улучшает понимание темы страницы.

Влияет ли этот патент на обработку опечаток или разного написания слов?

Да, напрямую. Патент приводит пример «frenchopen» и «french open». Система способна определить, что это одно и то же, потому что они имеют практически идентичные векторы совместной встречаемости. Тот же механизм применяется для валидации распространенных опечаток или альтернативных написаний как корректных замен для исходного термина.

Как система определяет «важность» (Importance) слова при оценке контекста?

Патент предлагает несколько методов для оценки важности терминов, которые сильнее всего связаны с определенным контекстом. Один из ключевых методов — использование обратной частоты документа (IDF). Слова с высоким IDF (более редкие и специфичные) считаются более важными, чем слова с низким IDF (общие слова). Если контекст в основном ассоциируется с важными словами, он признается хорошим.

Заменяют ли современные модели типа BERT описанный механизм?

Современные модели, такие как BERT, также основаны на принципах дистрибутивной семантики, но используют более сложные архитектуры для создания векторных представлений (embeddings). Описанный в патенте механизм является более ранним и прямолинейным подходом к использованию совместной встречаемости. Хотя методы генерации векторов эволюционировали, фундаментальная идея оценки сходства через сравнение контекстов использования остается актуальной.

Что произойдет, если я буду использовать синоним, который Google не считает хорошей заменой?

Если вы используете синоним, чей вектор совместной встречаемости сильно отличается от вектора основного термина (как в примере «warrant» и «warranty»), Google не будет считать ваш контент высокорелевантным для запросов, содержащих основной термин. Это приведет к снижению позиций по этим запросам, так как система не видит сильной семантической связи.

Как этот патент помогает бороться с неоднозначностью (полисемией)?

Патент помогает разрешать неоднозначность, анализируя контекст. Например, для слова «ягуар» система увидит два разных набора совместно встречающихся слов: один связан с автомобилями («скорость», «двигатель»), другой — с животными («хищник», «джунгли»). Это позволяет системе генерировать разные правила замены в зависимости от контекста, обеспечивая более точное понимание запроса.

Где происходит основная работа этого алгоритма: онлайн или офлайн?

Основная вычислительная работа — анализ логов запросов, расчет частот совместной встречаемости, сравнение векторов и оценка правил замены — происходит офлайн. Это позволяет заранее сформировать базу данных правил замены и стоп-лист контекстов. Онлайн, при получении запроса пользователя, система быстро применяет эти заранее рассчитанные правила для переписывания запроса.

Стоит ли использовать редкие или устаревшие синонимы в контенте?

В большинстве случаев нет. Поскольку система полагается на актуальные логи запросов, редкие или устаревшие синонимы не будут иметь достаточной статистики совместной встречаемости или их контекст использования будет сильно отличаться от современного. Лучше сосредоточиться на тех синонимах и вариациях, которые активно используются вашей целевой аудиторией в настоящее время.