Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует совместную встречаемость слов в поисковых сессиях для расширения запросов и динамической оценки релевантности

    INCREASING A NUMBER OF RELEVANT ADVERTISEMENTS USING A RELAXED MATCH (Увеличение количества релевантных рекламных объявлений с использованием нестрогого соответствия)
    • US8135619B2
    • Google LLC
    • 2012-03-13
    • 2003-09-30
    2003 Патенты Google Семантика и интент

    Google анализирует, какие слова часто встречаются вместе в рамках одной поисковой сессии (co-occurrence), чтобы понять их взаимосвязь. На основе этих данных система расширяет исходный запрос связанными терминами для поиска релевантного контента (например, рекламы). Оценка релевантности контента, найденного только по расширенному запросу («relaxed match»), корректируется с помощью динамического коэффициента, который постоянно обновляется на основе реальных данных о производительности (например, CTR).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченного охвата (Recall) при поиске релевантного контента (в частности, рекламных объявлений). Традиционные методы таргетинга могут упускать релевантные результаты, если они семантически связаны с запросом, но не содержат его точных терминов. Изобретение направлено на увеличение количества релевантных результатов путем внедрения механизма «нестрогого соответствия» (Relaxed Match).

    Что запатентовано

    Запатентована система расширения запросов (Query Expansion) и динамической корректировки оценок (Score Adjustment). Система расширяет исходный запрос, добавляя связанные термины, которые определяются путем анализа совместной встречаемости (Co-occurrence) слов в поисковых сессиях пользователей. Контент, найденный по этим связанным терминам, получает скорректированную оценку с помощью параметра, который обновляется на основе реальных данных о производительности (Performance Data).

    Как это работает

    Механизм функционирует следующим образом:

    • Анализ данных сессий (Офлайн): Система анализирует логи поисковых сессий для выявления слов, которые часто встречаются вместе (Co-occurrence), и строит базу взаимосвязей слов (Word/Phrase Relationship Information).
    • Расширение запроса (Онлайн): При получении запроса система добавляет к нему связанные термины из базы данных.
    • Поиск и типизация соответствия: Поиск выполняется по расширенному запросу. Для результатов определяется тип соответствия: строгое (Strict Match – по исходному запросу) или нестрогое (Relaxed Match – только по связанному термину).
    • Корректировка оценки: Если результат найден через Relaxed Match, его оценка корректируется (обычно понижается) с помощью Score Adjustment Parameter (или Rewrite Multiplier).
    • Обучение системы (Обратная связь): Score Adjustment Parameter динамически обновляется на основе наблюдаемой производительности (например, CTR) результатов, показанных через Relaxed Match.

    Актуальность для SEO

    Высокая. Понимание запросов, выявление семантических связей на основе поведения пользователей (включая сессионные данные) и использование машинного обучения для корректировки релевантности являются фундаментальными компонентами современных поисковых систем. Методы, описанные в патенте, остаются актуальными для улучшения качества поиска.

    Важность для SEO

    Патент имеет значительное стратегическое влияние на SEO (75/100). Хотя он сфокусирован на рекламе, он подробно описывает базовые методы информационного поиска (IR), используемые Google. Он демонстрирует, как Google определяет семантическую связь между терминами, используя данные о реальном поведении пользователей (сессии), и как валидирует эту связь через метрики производительности (CTR). Это подчеркивает важность понимания пути пользователя (User Journey) и построения тематического авторитета.

    Детальный разбор

    Термины и определения

    Co-occurrence (Совместная встречаемость)
    Показатель того, насколько часто два слова встречаются вместе в определенном контексте. В данном патенте контекстом является поисковая сессия (например, в последовательных запросах пользователя).
    Query Term Expansion / Query Rewriting (Расширение запроса / Переписывание запроса)
    Процесс добавления связанных слов к исходному запросу для увеличения охвата поиска.
    Relaxed Match (Нестрогое соответствие)
    Ситуация, когда контент соответствует связанному слову из расширенного запроса, но не соответствует исходному слову из запроса пользователя.
    Strict Match (Строгое соответствие)
    Ситуация, когда контент напрямую соответствует исходному слову из запроса пользователя.
    Score Adjustment Parameter (Параметр корректировки оценки)
    Коэффициент, используемый для изменения (обычно понижения) оценки контента, найденного через Relaxed Match. Также называется Rewrite Multiplier.
    Word/Phrase Relationship Information (Информация о взаимосвязи слов/фраз)
    База данных, хранящая информацию о связанных словах и весах (Weight), отражающих степень связанности (например, вероятность совместной встречаемости).
    Naively Predicted Clicks (Наивно предсказанные клики)
    Ожидаемое количество кликов, если предположить, что Relaxed Match не оказал влияния на вероятность клика (т.е., если бы Rewrite Multiplier был равен 1.0).
    Observed Clicks (Наблюдаемые клики)
    Фактическое количество кликов, зарегистрированных для элементов, показанных через определенный Relaxed Match.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод работы системы.

    1. Система принимает информацию поискового запроса (слово).
    2. Определяет одно или несколько связанных слов.
    3. Автоматически генерирует расширенный запрос, включающий исходное и связанные слова. Этот процесс использует хранимое соответствие (stored mapping), содержащее параметр, полученный из прошлой производительности (parameter derived from past performance).
    4. Извлекает результаты (рекламу), используя расширенный запрос.
    5. Определяет оценку (score) для каждого результата.
    6. Корректирует оценки результатов, извлеченных на основе связанных слов, относительно оценок результатов, извлеченных на основе исходного слова.
    7. Показывает результаты на основе скорректированных оценок.

    Ядром изобретения является не просто расширение запроса, а использование для этого расширения и последующей корректировки оценки параметра, который динамически обучается на основе реальной прошлой производительности.

    Claim 7 (Независимый пункт): Уточняет условие корректировки из Claim 1.

    Корректировке подвергаются оценки результатов, извлеченных исключительно (solely) на основе связанных слов. Это означает, что если результат релевантен и исходному слову (Strict Match), его оценка не должна понижаться.

    Claim 3 (Зависимый от 1): Детализирует механизм корректировки.

    Корректировка включает умножение оценки на параметр, основанный на производительности, значение которого меньше единицы. Это подтверждает механизм дисконтирования (понижения) для Relaxed Matches.

    Claim 5 (Зависимый от 3): Детализирует механизм обновления параметра (обратная связь).

    Параметр обновляется с использованием функции, которая заставляет его сходиться к отношению: (Наблюдаемое поведение пользователя, релевантное производительности) / (Прогнозируемое поведение пользователя). Это самообучающаяся система, оптимизирующая релевантность Relaxed Match на основе эмпирических данных.

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, а также офлайн-процессы анализа данных.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Система выполняет Query Term Expansion. Исходный запрос анализируется и расширяется с использованием Word/Phrase Relationship Information (сгенерированной офлайн).

    RANKING – Ранжирование
    На этапе извлечения кандидатов используется расширенный запрос. При расчете оценки (Score) система учитывает тип соответствия (Strict или Relaxed).

    RERANKING – Переранжирование (или этап Scoring)
    Здесь применяются операции корректировки оценки (Score Adjustment Operations). Оценки результатов, полученных через Relaxed Match, модифицируются с помощью Score Adjustment Parameter.

    Офлайн-процессы (Анализ данных)
    Механизм полагается на предварительные вычисления:

    1. Анализ логов: Анализ сессионных данных для выявления коокуррентности слов и построения базы взаимосвязей.
    2. Обучение параметров: Анализ производительности (Feedback Operations) для вычисления и обновления Score Adjustment Parameters для каждой пары слов.

    Входные данные:

    • Исходный поисковый запрос.
    • Word/Phrase Relationship Information (база связей и весов).
    • Score Adjustment Parameters (множители для конкретных связей).
    • Данные о производительности контента (например, CTR).

    Выходные данные:

    • Набор релевантных результатов со скорректированными оценками ранжирования.

    На что влияет

    • Конкретные типы контента: В первую очередь патент фокусируется на рекламе. Однако в патенте (§4.2.4) прямо указано, что он может использоваться для общего информационного поиска (general information retrieval) и особенно эффективен для небольших документов.
    • Специфические запросы: Влияет на запросы, где намерение пользователя охватывает связанные понятия, которые часто ищутся вместе (например, запрос [iditarod] подразумевает интерес к [alaska]).

    Когда применяется

    • Триггеры активации: Система применяет расширение запроса, когда для терминов во входном запросе идентифицированы связанные слова в базе данных Word/Phrase Relationship Information.
    • Условия применения: Корректировка оценки применяется, когда элемент извлекается через Relaxed Match (соответствует только связанному слову, но не исходному).

    Пошаговый алгоритм

    A. Процесс обслуживания в реальном времени

    1. Получение запроса: Система принимает исходный поисковый запрос.
    2. Расширение запроса (Query Expansion): Для каждого термина ищутся связанные слова в базе Word/Phrase Relationship Information. Генерируется расширенный запрос.
    3. Извлечение кандидатов: Извлекается контент, соответствующий любому термину в расширенном запросе.
    4. Определение типа соответствия: Для каждого кандидата определяется тип: Strict Match (соответствует исходному термину) или Relaxed Match (соответствует только связанному термину).
    5. Оценка (Scoring): Вычисляется базовая оценка релевантности/качества.
    6. Корректировка оценки (Score Adjustment): Если тип соответствия — Relaxed Match, базовая оценка корректируется (например, умножается на Score Adjustment Parameter < 1.0).
    7. Ранжирование: Результаты сортируются по итоговой скорректированной оценке.

    B. Процесс офлайн-обновления (Цикл обратной связи)

    1. Сбор данных о производительности: Сбор данных (например, кликов) по результатам, показанным через Relaxed Match.
    2. Расчет метрик: Для конкретной пары «исходное слово -> связанное слово» определяется:
      • Observed Clicks (фактически полученные клики).
      • Naively Predicted Clicks (ожидаемые клики, если бы пессимизации не было).
    3. Обновление параметра: Score Adjustment Parameter обновляется по формуле, которая стремится к значению: (Observed Clicks / Naively Predicted Clicks).
    4. Сохранение: Обновленные параметры сохраняются для использования в Процессе А.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Критические):
      • Логи поисковых запросов (Session Data): Используются офлайн для определения взаимосвязей между словами на основе их совместной встречаемости (co-occurrence) в рамках поисковых сессий.
      • Данные о производительности (CTR): Используются для цикла обратной связи и обновления Score Adjustment Parameters.
    • Контентные/Таргетинговые факторы: Ключевые слова, связанные с контентом, используемые для сопоставления с расширенным запросом.

    Какие метрики используются и как они считаются

    • Вес совместной встречаемости (Co-occurrence Weight): Вероятность того, что два слова появятся вместе в поисковой сессии. Может использоваться в качестве начальной оценки (initial_multiplier).
    • Тип соответствия (Match Type): Классификация соответствия как Strict или Relaxed.
    • Параметр корректировки оценки (Rewrite Multiplier): Динамический параметр, связанный с конкретным соответствием {слово -> связанное слово}.
    • Формула обновления Rewrite Multiplier: Патент предоставляет конкретную формулу сглаживания для обновления множителя:
      new_multiplier = (N * initial_multiplier + observed_clicks) / (N + naively_predicted_clicks)
      • N — это коэффициент сглаживания (вес, придаваемый начальной оценке). Эта формула постепенно смещает множитель от начальной оценки к эмпирическому соотношению по мере накопления данных.

    Выводы

    1. Связанность через сессии (Session-Based Relatedness): Google активно использует данные о том, как пользователи ищут информацию последовательно в рамках одной сессии (Co-occurrence), чтобы понять связь между терминами. Это выходит за рамки традиционных синонимов и отражает реальные поисковые паттерны и пути пользователя (User Journey).
    2. Расширение запросов для увеличения охвата: Система систематически расширяет запросы (Query Expansion), чтобы найти контент, который семантически связан с запросом, но не содержит исходных ключевых слов.
    3. Дифференцированная оценка релевантности: Не все соответствия равны. Relaxed Match (по связанным словам) по умолчанию считается менее надежным, чем Strict Match (по исходным словам), и его оценка понижается (дисконтируется).
    4. Релевантность, основанная на производительности (Feedback Loop): Критически важным элементом является механизм обратной связи. Система не полагается только на теоретическую связанность, а постоянно обновляет параметры корректировки на основе реальной производительности (например, CTR). Если расширение удачное, пессимизация уменьшается.
    5. Применимость к органическому SEO: Несмотря на фокус на рекламе, базовые принципы IR (расширение запроса через совместную встречаемость, корректировка релевантности на основе производительности) с высокой вероятностью применимы к ранжированию в органическом поиске и пониманию запросов.

    Практика

    Best practices (это мы делаем)

    • Анализ пути пользователя и совместной встречаемости: Необходимо понимать, какие запросы пользователи вводят до и после поиска по вашим ключевым словам. Анализируйте связанные запросы и блоки PAA. Это поможет понять, как Google может расширять запросы в вашей нише на основе данных о коокуррентности.
    • Построение тематического авторитета (Topical Authority): Создавайте контент, который покрывает не только основные ключевые слова, но и связанные концепции, часто встречающиеся в одной поисковой сессии. Это увеличивает шансы ранжирования по расширенным запросам (Relaxed Match).
    • Оптимизация под семантические кластеры: Создавайте кластеры контента, отвечающие на связанные интенты в рамках одной темы. Если пользователь ищет [Iditarod], он может также искать [Alaska flights]. Наличие контента по связанным интентам укрепляет общую релевантность сайта.
    • Приоритет вовлеченности пользователей (CTR и Engagement): Патент подчеркивает, что релевантность Relaxed Matches подтверждается взаимодействием пользователя. Высокий CTR и хорошее вовлечение подтверждают Google, что ваш контент релевантен расширенной интерпретации запроса, что потенциально ведет к уменьшению дисконта и улучшению ранжирования.

    Worst practices (это делать не надо)

    • Изолированная оптимизация под точное вхождение: Фокусировка только на узком наборе точных ключевых слов. Эта стратегия игнорирует реальность Query Expansion и может привести к упущенному трафику по связанным запросам.
    • Игнорирование связанных сущностей и концепций: Отсутствие освещения связанных подтем или ответов на связанные вопросы означает, что контент может не удовлетворять интенту, стоящему за расширенными запросами.
    • Пренебрежение UX и качеством контента: Создание контента, который формально охватывает связанные темы, но не удовлетворяет пользователя. Низкие поведенческие метрики могут привести к увеличению пессимизации (ухудшению Score Adjustment Parameter) для вашего контента при Relaxed Match.

    Стратегическое значение

    Патент подтверждает стратегию Google на переход от буквального сопоставления ключевых слов к пониманию семантических связей и контекста поиска, основанного на реальном поведении пользователей. Он описывает систему, которая обучается и адаптирует оценки релевантности на основе обратной связи по производительности. Для SEO-стратегии это означает, что построение тематического авторитета и обеспечение сильной вовлеченности пользователей имеют первостепенное значение для привлечения трафика из максимально широкой интерпретации релевантных запросов.

    Практические примеры

    Сценарий: Оптимизация страницы товара E-commerce (Кроссовки).

    1. Исходный запрос: «Nike Pegasus 42».
    2. Анализ связанных терминов (на основе коокуррентности): Исследование показывает, что пользователи часто ищут в той же сессии: «мягкие беговые кроссовки», «ежедневные тренировки», «сравнение с Brooks Ghost».
    3. Внедрение в контент:
      1. Страница идеально оптимизирована под основной запрос (для Strict Match).
      2. Связанные термины интегрированы: Добавлен раздел сравнения с Brooks Ghost. В описании используется фраза «идеальны как мягкие кроссовки для ежедневных тренировок».
    4. Ожидаемый результат:
      • Страница хорошо ранжируется по «Nike Pegasus 42».
      • Система Query Expansion может определить страницу как релевантную для запроса «лучшие мягкие кроссовки для ежедневных тренировок» (через Relaxed Match).
      • Если пользователи часто кликают на эту страницу по более широкому запросу, обратная связь по производительности (высокий CTR) уменьшает дисконт (Rewrite Multiplier приближается к 1.0), улучшая ранжирование по этому запросу со временем.

    Вопросы и ответы

    Как Google определяет, какие слова являются «связанными» для расширения запроса, согласно этому патенту?

    Основной механизм — это анализ совместной встречаемости (Co-occurrence) слов в логах поисковых запросов. Если два разных слова часто появляются вместе в рамках одной поисковой сессии пользователя (например, в последовательных запросах), система идентифицирует их как связанные. Это основано на поведении пользователей, а не только на лингвистическом анализе.

    Что такое «Relaxed Match» и почему его оценка понижается (дисконтируется)?

    Relaxed Match происходит, когда контент соответствует связанному слову, добавленному системой при расширении запроса, но не соответствует исходному запросу. Его оценка понижается, потому что система менее уверена в его релевантности по сравнению со Strict Match (прямым соответствием). Дисконт защищает качество выдачи от ошибок при расширении запроса.

    Является ли понижение оценки при Relaxed Match постоянным?

    Нет, это ключевая особенность патента. Параметр корректировки оценки (Score Adjustment Parameter или Rewrite Multiplier) является динамическим и самообучающимся. Он обновляется на основе реальных данных о производительности (например, CTR). Если пользователи хорошо реагируют на результаты Relaxed Match, система уменьшит пессимизацию.

    Может ли контент, найденный через «Relaxed Match», ранжироваться выше контента, найденного через «Strict Match»?

    Да, это возможно. Хотя к Relaxed Match применяется дисконт, итоговая оценка зависит от множества других факторов ранжирования (например, авторитетность, E-E-A-T, базовый CTR). Если контент с Relaxed Match значительно превосходит контент со Strict Match по другим сигналам, он может занять более высокую позицию.

    Как работает цикл обратной связи (Feedback Loop) для корректировки оценок?

    Система отслеживает производительность (CTR) контента, показанного через Relaxed Match. Она сравнивает фактические клики (Observed Clicks) с ожидаемыми (Naively Predicted Clicks). Если CTR выше ожидаемого, Rewrite Multiplier увеличивается (приближается к 1.0). Если ниже — множитель уменьшается, увеличивая дисконт.

    Относится ли этот патент к органическому поиску или только к рекламе?

    Патент описывает применение в контексте рекламы. Однако он описывает фундаментальные техники информационного поиска (Query Expansion, анализ сессий, обратная связь по производительности). В самом патенте (§4.2.4) указано, что эти методы могут применяться в общем информационном поиске. Поэтому стратегически он очень важен для SEO.

    Какое значение это имеет для оптимизации CTR в органическом поиске?

    Это подчеркивает критическую важность CTR как сигнала обратной связи для валидации релевантности. Если Google тестирует вашу страницу по расширенному запросу (Relaxed Match), высокий CTR подтверждает релевантность и может привести к улучшению позиций по этому запросу. Оптимизация сниппетов является стратегически важной.

    Как SEO-специалисту использовать данные о совместной встречаемости (co-occurrence)?

    Необходимо исследовать поисковые пути пользователей (User Journey). Определите, какие запросы вводятся до и после поиска по вашим основным ключевым словам. Интеграция этих связанных тем в ваш контент (построение Topical Authority) повышает вероятность соответствия расширенным запросам, которые Google генерирует на основе этих данных.

    Что такое формула сглаживания (обновления мультипликатора), упомянутая в патенте?

    Это математический метод (например, new_multiplier = (N * initial_multiplier + observed_clicks) / (N + naively_predicted_clicks)). Он нужен, чтобы избежать резких изменений мультипликатора при малом количестве данных. Формула постепенно смещает множитель от начальной оценки к эмпирическому значению по мере накопления данных о кликах.

    Как этот патент связан с современными моделями, такими как BERT или MUM?

    Этот патент описывает более ранний подход к пониманию семантических связей через совместную встречаемость в сессиях. Современные модели (BERT/MUM) используют нейронные сети и векторные представления для достижения аналогичной цели — понимания контекста и связей. Однако базовый принцип остается тем же: расширить понимание запроса за пределы буквальных терминов и использовать данные для валидации этих связей.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.