Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

Описание

Какую задачу решает

Патент решает проблему точного измерения семантической близости между разными поисковыми запросами. Традиционное расстояние редактирования (например, расстояние Левенштейна) основано на количестве символьных изменений и не отражает семантику (например, расстояние от «dentist» до «deist» меньше, чем до «doctor»). Для эффективной работы систем подсказок (Query Suggestions), расширения запросов (Query Expansion) и подбора ключевых слов (например, для рекламы) необходима метрика, которая оценивает именно смысловую, а не синтаксическую близость.

Что запатентовано

Запатентована система расчета Generalized Edit Distance (Обобщенного расстояния редактирования) между запросами. Суть изобретения заключается в определении «стоимости» (Transition Cost) замены одного термина в запросе на другой. Эта стоимость вычисляется не на основе символов, а на основе анализа исторических данных (Historical Data) о том, как пользователи последовательно переформулируют свои запросы (Consecutive Queries). Для оценки семантической связи между терминами используется метрика Pointwise Mutual Information (PMI).

Как это работает

Система работает в два этапа:

Офлайн-обработка (Cost Matrix Builder): Система анализирует логи запросов и выделяет пары последовательных запросов (Q1 -> Q2). Она определяет, какие термины были удалены из Q1 и какие добавлены в Q2. На основе частоты таких совместных замен вычисляется PMI для пар терминов, что отражает их семантическую близость. Затем PMI нормализуется (с учетом обобщения или специализации) и преобразуется в Transition Cost. Эти данные сохраняются в Cost Matrix.
Рантайм (Query Cost Engine): Когда поступает текущий запрос и набор кандидатов в подсказки, система вычисляет общее расстояние (суммарную стоимость трансформации) от текущего запроса до каждого кандидата, используя данные из Cost Matrix. Подсказки с наименьшим расстоянием считаются наиболее семантически близкими.

Актуальность для SEO

Высокая. Понимание семантических связей между запросами является фундаментальной задачей в современном поиске. Описанный метод предлагает масштабируемый способ изучения этих связей непосредственно из поведения пользователей (переформулировок), что критически важно для улучшения качества подсказок, автодополнения и механизмов расширения запросов.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он раскрывает один из ключевых механизмов, который Google использует для понимания взаимосвязей между ключевыми словами, включая синонимию, обобщение и специализацию. Понимание того, как Google вычисляет семантическое расстояние между запросами, критически важно для построения эффективной контент-стратегии, исследования ключевых слов и понимания того, как Google может расширять или изменять исходный запрос пользователя перед ранжированием.

Детальный разбор

Термины и определения

Consecutive Queries (Последовательные запросы)

Пара запросов (первый и второй), поданных одним пользователем друг за другом в течение одной сессии. Анализ этих пар позволяет понять, как пользователи уточняют или изменяют свои намерения.

Co-occurrence Value (Значение совместной встречаемости)

Предварительная метрика, присваиваемая паре терминов (один из первого запроса, другой из второго) при анализе последовательных запросов. Зависит от того, сколько всего терминов было изменено одновременно.

Cost Matrix (Матрица стоимости)

Структура данных, хранящая предварительно рассчитанные Transition Costs для пар терминов. Используется для быстрого расчета Generalized Edit Distance.

Generalized Edit Distance (Обобщенное расстояние редактирования)

Метрика семантической близости между двумя запросами. Представляет собой минимальную суммарную стоимость операций (вставка, удаление, замена), необходимых для преобразования одного запроса в другой, где стоимость замены основана на семантике (Transition Cost), а не на символах.

Historical Data (Исторические данные)

Логи поисковых запросов и сессий пользователей.

Pointwise Mutual Information (PMI) (Поточечная взаимная информация)

Метрика ассоциации между двумя терминами. Показывает, насколько чаще два термина встречаются вместе (в контексте переформулировок), чем если бы они встречались случайно. Высокий PMI указывает на сильную семантическую связь.

PMI Normalization (Нормализация PMI)

Процесс масштабирования значения PMI. Патент описывает три типа:

Joint Normalization (Совместная нормализация): Симметричная метрика. Измеряет долю общей информации, которая является общей для обоих терминов.
Specialization Normalization (Нормализация специализации): Асимметричная метрика. Дает более высокое значение, если второй термин является специализацией первого (например, «apple» -> «macintosh»).
Generalization Normalization (Нормализация обобщения): Асимметричная метрика. Дает более высокое значение, если второй термин является обобщением первого (например, «apple» -> «fruit»).

Transition Cost (Стоимость перехода/замены)

Числовое значение, присваиваемое операции замены одного термина на другой. Обратно пропорционально их семантической близости (PMI). Высокая близость = низкая стоимость.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения Transition Costs на основе анализа логов.

Система выбирает пары запросов (Q1 и Q2) из пользовательских сессий, которые были поданы последовательно (с возможным небольшим числом промежуточных запросов).
Для каждой пары запросов выбираются пары терминов (T1 из Q1, T2 из Q2).
Определяется Co-occurrence value для каждой пары терминов. Это включает:
- Идентификацию набора терминов S1 (есть в Q1, нет в Q2).
- Идентификацию набора терминов S2 (есть в Q2, нет в Q1).
- Если T1 принадлежит S1 и T2 принадлежит S2, то Co-occurrence value определяется на основе размера S1 и размера S2.
На основе агрегированных Co-occurrence values определяются итоговые Transition Costs.

Claim 2 (Зависимый от 1): Уточняет расчет Co-occurrence value.

Значение обратно пропорционально произведению размера набора S1 и размера S2. Это означает, что если один термин был заменен на один термин (S1=1, S2=1), значение будет 1. Если два термина были заменены на два других (S1=2, S2=2), значение для каждой из 4 возможных пар будет 1/(2*2) = 0.25.

Claim 3 (Зависимый от 1): Детализирует расчет Transition Costs.

Агрегирование Co-occurrence values для пары терминов по всем логам.
Определение вероятности совместной встречаемости этой пары терминов (это основа для расчета PMI).
Определение Transition Cost на основе этой вероятности.
Сохранение стоимости в Cost Matrix.

Claim 8 (Независимый пункт): Описывает метод с акцентом на нормализацию.

Выбор пар запросов и определение Co-occurrence values (аналогично Claim 1).
Определение Transition Costs (аналогично Claim 3, включая сохранение в Cost Matrix).
Нормализация Transition Costs в матрице на основе вероятности того, что первый термин встречается с любым другим термином, И/ИЛИ вероятности того, что второй термин встречается с любым другим термином.

Claim 9 (Зависимый от 8): Уточняет процесс нормализации.

Создается несколько Cost Matrices, каждая из которых использует свой фактор нормализации. Эти факторы включают вероятность первого термина (для Специализации), вероятность второго термина (для Обобщения) и произведение вероятностей обоих терминов (для Совместной нормализации).

Где и как применяется

Изобретение в основном применяется на этапе понимания запросов, но требует предварительной офлайн-обработки данных.

INDEXING / Офлайн-обработка
Компонент Cost Matrix Builder работает офлайн. Он анализирует Historical Data (логи запросов), чтобы рассчитать PMI и Transition Costs между терминами. Результат сохраняется в Transitional Cost Data (Cost Matrix).

QUNDERSTANDING – Понимание Запросов
Основной этап применения. Компонент Query Cost Engine использует предварительно рассчитанную Cost Matrix для оценки семантической близости между текущим запросом пользователя и кандидатами, предоставленными Query Suggestion Engine. Это позволяет ранжировать подсказки по семантической релевантности или принимать решение об автоматическом расширении/замене запроса (Query Expansion).

RANKING – Ранжирование
Механизм напрямую не участвует в ранжировании документов, но он влияет на то, КАКОЙ запрос будет использоваться для ранжирования. Если система решает расширить или заменить исходный запрос на основе низкой стоимости перехода (высокой семантической близости), то для этапа Ranking будет использован измененный запрос.

Входные данные (Офлайн):

Historical Data (Логи поисковых сессий).

Выходные данные (Офлайн):

Cost Matrix (Матрица стоимостей переходов между терминами). Возможно, несколько матриц для разных типов нормализации.

Входные данные (Рантайм):

Текущий запрос пользователя.
Набор кандидатов для подсказок/расширений.
Cost Matrix.

Выходные данные (Рантайм):

Оценка Generalized Edit Distance для каждого кандидата.

На что влияет

Специфические запросы: Влияет на все типы запросов, где возможны переформулировки, синонимы или уточнения (информационные, транзакционные). Особенно важно для многословных запросов, где семантика комбинации терминов играет ключевую роль.
Языковые ограничения: Метод не зависит от языка, так как основан на статистическом анализе логов, а не на лингвистических правилах.

Когда применяется

Триггеры активации: Активируется каждый раз, когда система генерирует или оценивает поисковые подсказки (включая автодополнение), предлагает связанные запросы («Related Searches») или рассматривает возможность автоматического расширения запроса (Query Expansion).
Временные рамки: Расчет Cost Matrix происходит периодически офлайн. Применение матрицы происходит в реальном времени при обработке запроса.

Пошаговый алгоритм

Процесс А: Офлайн-генерация Матрицы Стоимости (Cost Matrix)

Сбор данных: Получение доступа к Historical Data (логам поисковых сессий).
Выбор пар запросов: Идентификация пар последовательных запросов (Q1, Q2) в рамках сессий.
Идентификация изменений терминов: Для каждой пары (Q1, Q2):
- Определить набор S1 (термины в Q1, которых нет в Q2).
- Определить набор S2 (термины в Q2, которых нет в Q1).
Расчет Co-occurrence Value: Для каждой пары терминов (X из Q1, Y из Q2):
- Если X=Y (идентичное совпадение), значение = 1.
- Если X в S1 и Y в S2, значение = 1 / (Размер S1 * Размер S2).
- Иначе, значение = 0.
Агрегация данных: Суммирование Co-occurrence Values для каждой пары терминов (X, Y) по всем логам. Получение общего количества N(X,Y).
Расчет вероятностей: Вычисление вероятности совместной встречаемости P(X,Y) и индивидуальных вероятностей P(X) и P(Y).
Расчет PMI: Вычисление Поточечной Взаимной Информации для каждой пары терминов:

Выводы

Семантика изучается через поведение пользователей: Ключевой вывод заключается в том, что Google активно использует анализ пользовательских переформулировок запросов для построения карты семантических связей между терминами. Это не просто анализ ко-оккурентности в текстах, а анализ того, как люди считают термины взаимозаменяемыми или уточняющими.
От синтаксического к семантическому расстоянию: Generalized Edit Distance позволяет Google предпочесть семантически близкие запросы (например, «local dentist» и «local endodontist»), даже если они сильно различаются по написанию, и отбросить синтаксически близкие, но семантически далекие варианты.
Типизация семантических связей (Обобщение vs Специализация): Система не просто определяет близость, но и классифицирует тип связи. Использование асимметричных нормализаций PMI (Generalization и Specialization) позволяет системе понять, является ли новый запрос уточнением старого или его обобщением. Это критично для понимания интента пользователя.
Инфраструктура для подсказок и расширений: Описанный механизм является фундаментальным для работы Query Suggestions и Query Expansion. Предварительный расчет Cost Matrix позволяет быстро и эффективно находить релевантные альтернативы запросам в реальном времени.
Зависимость от данных: Эффективность метода напрямую зависит от объема и качества исторических логов. Для редких или новых терминов система может не иметь достаточных данных для точного расчета PMI и Transition Cost.

Практика

Best practices (это мы делаем)

Анализ путей переформулировки запросов: Необходимо исследовать не только сами ключевые слова, но и то, как пользователи их уточняют или изменяют. Используйте инструменты подсказок Google и блоки «Related Searches» как источник данных о низкостоимостных переходах (low Transition Cost). Это покажет, какие запросы Google считает семантически близкими.
Построение Topical Authority с охватом специализаций и обобщений: Поскольку Google различает обобщение и специализацию, контент-стратегия должна охватывать тему на разных уровнях детализации. Если вы пишете о «computer technician», убедитесь, что вы также охватываете связанные специализации («systems programmer»), которые пользователи часто используют для уточнения.
Кластеризация семантики на основе поведения: При группировке ключевых слов учитывайте не только их лексическую близость или совместную встречаемость в контенте, но и поведенческую связь. Запросы, которые часто следуют друг за другом в сессиях, должны рассматриваться как семантически связанные, даже если они выглядят по-разному.
Оптимизация под расширенные запросы (Query Expansion): Понимая, что Google может автоматически расширить запрос пользователя на семантически близкий (с низким Generalized Edit Distance), необходимо убедиться, что ваш контент релевантен не только целевому ключу, но и его наиболее вероятным расширениям/синонимам, выявленным на этапе анализа переформулировок.

Worst practices (это делать не надо)

Фокус только на точном соответствии ключевых слов: Игнорирование семантических связей и потенциальных расширений запросов делает стратегию уязвимой. Google может предпочесть контент, оптимизированный под семантически близкий вариант запроса.
Игнорирование интента переформулировки (Generalization/Specialization): Рассмотрение всех связанных запросов как равных синонимов. Необходимо понимать контекст: ищет ли пользователь более общую информацию или уточняет запрос.
Оценка близости ключевых слов «на глаз»: Нельзя полагаться на интуицию или синтаксическую близость при определении семантической связи. Связь определяется статистически на основе поведения миллионов пользователей (PMI).

Стратегическое значение

Этот патент подтверждает стратегическую важность данных о поведении пользователей для формирования семантического понимания языка в Google. Он демонстрирует, как Google строит свою собственную карту знаний о взаимосвязях терминов, основанную на реальных пользовательских сессиях. Для SEO это означает, что стратегии должны быть направлены на соответствие не просто запросам, а целым поисковым сценариям (user journeys), включая этапы обобщения и специализации информации.

Практические примеры

Сценарий: Оптимизация страницы категории интернет-магазина

Исходный запрос: Пользователь ищет «купить ноутбук».
Анализ переформулировок (Best Practice): SEO-специалист анализирует подсказки и связанные запросы и видит, что пользователи часто переходят от «купить ноутбук» к «купить игровой ноутбук» (Специализация) или «лучшие ноутбуки 2025» (Уточнение интента).
Расчеты Google (Механизм патента): Google знает из логов, что Transition Cost между этими запросами низкий. PMI для пары (ноутбук, игровой ноутбук) высокий, особенно при Specialization Normalization.
Действия SEO: Страница категории «Ноутбуки» должна содержать не только общую информацию, но и явные ссылки, фильтры и контентные блоки, релевантные этим специализациям (игровые, для работы).
Результат: Страница лучше соответствует как исходному запросу, так и потенциальным автоматическим расширениям запроса, которые Google может применить, а также лучше удовлетворяет интент пользователя на этапе уточнения информации.

Вопросы и ответы

В чем ключевое отличие Generalized Edit Distance от традиционного расстояния редактирования (Левенштейна)?

Традиционное расстояние измеряет количество символьных изменений (вставка, удаление, замена символа) для преобразования одной строки в другую. Оно не учитывает семантику. Generalized Edit Distance измеряет стоимость замены целых терминов, и эта стоимость основана на семантической близости (PMI), вычисленной из анализа поведения пользователей. Это позволяет считать семантически близкие, но синтаксически разные запросы более похожими.

Что такое Pointwise Mutual Information (PMI) и как она используется в этом патенте?

PMI – это статистическая мера, которая показывает, насколько сильно два термина связаны друг с другом. В контексте патента она вычисляется на основе того, как часто пользователи заменяют один термин на другой при переформулировке запросов. Высокий PMI означает, что термины часто заменяют друг друга (сильная связь), что приводит к низкой стоимости замены (Transition Cost) между ними.

Как система узнает, какие термины являются взаимозаменяемыми?

Система анализирует миллионы пар последовательных запросов (Consecutive Queries) в логах. Если пользователи часто меняют запрос «local dentist» на «local endodontist», система фиксирует, что термин «dentist» был заменен на «endodontist». Агрегируя эти данные, система вычисляет высокий PMI для этой пары терминов, что сигнализирует об их взаимозаменяемости или близкой семантической связи в данном контексте.

Что означают Generalization и Specialization Normalization?

Это два типа асимметричной нормализации PMI. Specialization Normalization дает более высокую оценку, если второй термин является уточнением первого (например, переход от «телефон» к «iPhone 15»). Generalization Normalization дает более высокую оценку, если второй термин является обобщением первого (например, переход от «iPhone 15» к «смартфон»). Это позволяет Google понять направление изменения интента.

Как это влияет на мою стратегию исследования ключевых слов?

Необходимо сместить фокус с анализа отдельных ключевых слов на анализ поисковых сценариев и путей переформулировки. Важно идентифицировать, какие запросы Google считает семантически близкими к вашим целевым запросам (имеют низкий Generalized Edit Distance). Это расширяет семантическое ядро за счет терминов, которые пользователи реально используют как синонимы или уточнения.

Связан ли этот патент с Query Expansion (Расширением запросов)?

Да, напрямую. Generalized Edit Distance предоставляет метрику для оценки того, насколько кандидат на расширение близок к исходному запросу. Если расстояние очень мало (стоимость перехода низкая), система может принять решение автоматически расширить или даже заменить исходный запрос пользователя на этот семантически близкий вариант для улучшения результатов поиска.

Может ли система использовать разные Cost Matrices для разных пользователей?

Патент упоминает такую возможность. Если система может определить предпочтения пользователя (например, на основе истории поиска), она может выбрать соответствующую матрицу нормализации. Например, если пользователь склонен уточнять запросы, система может использовать Cost Matrix, основанную на Specialization Normalization, чтобы предлагать более узкоспециализированные подсказки.

Как рассчитывается Co-occurrence Value, если пользователь изменил сразу несколько слов?

Если пользователь изменил M слов на N новых слов, стоимость распределяется между всеми возможными парами. Например, если «computer technician» заменено на «systems programmer» (2 слова на 2 слова), то для каждой из 4 пар (computer-systems, computer-programmer, technician-systems, technician-programmer) значение будет 1/(2*2) = 0.25. Это предотвращает случайное присвоение высокой связи несвязанным терминам.

Влияет ли этот механизм на ранжирование моего сайта?

Он влияет опосредованно. Механизм определяет, по какому именно запросу (исходному или расширенному/измененному) будет происходить ранжирование. Если ваш сайт хорошо оптимизирован под исходный запрос, но плохо под его семантически близкое расширение, а Google решит использовать расширение, ваш сайт может потерять позиции.

Как я могу увидеть этот механизм в действии?

Наиболее очевидные проявления – это поисковые подсказки (Autocomplete) и блок «Related Searches». Они часто содержат запросы, которые синтаксически отличаются от вашего ввода, но семантически очень близки. Это и есть результаты работы системы, которая нашла варианты с низким Generalized Edit Distance на основе анализа поведения пользователей.