
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
Патент решает проблему точного измерения семантической близости между разными поисковыми запросами. Традиционное расстояние редактирования (например, расстояние Левенштейна) основано на количестве символьных изменений и не отражает семантику (например, расстояние от "dentist" до "deist" меньше, чем до "doctor"). Для эффективной работы систем подсказок (Query Suggestions), расширения запросов (Query Expansion) и подбора ключевых слов (например, для рекламы) необходима метрика, которая оценивает именно смысловую, а не синтаксическую близость.
Запатентована система расчета Generalized Edit Distance (Обобщенного расстояния редактирования) между запросами. Суть изобретения заключается в определении «стоимости» (Transition Cost) замены одного термина в запросе на другой. Эта стоимость вычисляется не на основе символов, а на основе анализа исторических данных (Historical Data) о том, как пользователи последовательно переформулируют свои запросы (Consecutive Queries). Для оценки семантической связи между терминами используется метрика Pointwise Mutual Information (PMI).
Система работает в два этапа:
PMI для пар терминов, что отражает их семантическую близость. Затем PMI нормализуется (с учетом обобщения или специализации) и преобразуется в Transition Cost. Эти данные сохраняются в Cost Matrix.Cost Matrix. Подсказки с наименьшим расстоянием считаются наиболее семантически близкими.Высокая. Понимание семантических связей между запросами является фундаментальной задачей в современном поиске. Описанный метод предлагает масштабируемый способ изучения этих связей непосредственно из поведения пользователей (переформулировок), что критически важно для улучшения качества подсказок, автодополнения и механизмов расширения запросов.
Патент имеет высокое стратегическое значение для SEO (8/10). Он раскрывает один из ключевых механизмов, который Google использует для понимания взаимосвязей между ключевыми словами, включая синонимию, обобщение и специализацию. Понимание того, как Google вычисляет семантическое расстояние между запросами, критически важно для построения эффективной контент-стратегии, исследования ключевых слов и понимания того, как Google может расширять или изменять исходный запрос пользователя перед ранжированием.
Transition Costs для пар терминов. Используется для быстрого расчета Generalized Edit Distance.Transition Cost), а не на символах.Claim 1 (Независимый пункт): Описывает основной метод определения Transition Costs на основе анализа логов.
Co-occurrence value для каждой пары терминов. Это включает: Co-occurrence value определяется на основе размера S1 и размера S2.Co-occurrence values определяются итоговые Transition Costs.Claim 2 (Зависимый от 1): Уточняет расчет Co-occurrence value.
Claim 3 (Зависимый от 1): Детализирует расчет Transition Costs.
Co-occurrence values для пары терминов по всем логам.Transition Cost на основе этой вероятности.Cost Matrix.Claim 8 (Независимый пункт): Описывает метод с акцентом на нормализацию.
Co-occurrence values (аналогично Claim 1).Transition Costs (аналогично Claim 3, включая сохранение в Cost Matrix).Transition Costs в матрице на основе вероятности того, что первый термин встречается с любым другим термином, И/ИЛИ вероятности того, что второй термин встречается с любым другим термином.Claim 9 (Зависимый от 8): Уточняет процесс нормализации.
Создается несколькоCost Matrices, каждая из которых использует свой фактор нормализации. Эти факторы включают вероятность первого термина (для Специализации), вероятность второго термина (для Обобщения) и произведение вероятностей обоих терминов (для Совместной нормализации).Изобретение в основном применяется на этапе понимания запросов, но требует предварительной офлайн-обработки данных.
INDEXING / Офлайн-обработка
Компонент Cost Matrix Builder работает офлайн. Он анализирует Historical Data (логи запросов), чтобы рассчитать PMI и Transition Costs между терминами. Результат сохраняется в Transitional Cost Data (Cost Matrix).
QUNDERSTANDING – Понимание Запросов
Основной этап применения. Компонент Query Cost Engine использует предварительно рассчитанную Cost Matrix для оценки семантической близости между текущим запросом пользователя и кандидатами, предоставленными Query Suggestion Engine. Это позволяет ранжировать подсказки по семантической релевантности или принимать решение об автоматическом расширении/замене запроса (Query Expansion).
RANKING – Ранжирование
Механизм напрямую не участвует в ранжировании документов, но он влияет на то, КАКОЙ запрос будет использоваться для ранжирования. Если система решает расширить или заменить исходный запрос на основе низкой стоимости перехода (высокой семантической близости), то для этапа Ranking будет использован измененный запрос.
Входные данные (Офлайн):
Historical Data (Логи поисковых сессий).Выходные данные (Офлайн):
Cost Matrix (Матрица стоимостей переходов между терминами). Возможно, несколько матриц для разных типов нормализации.Входные данные (Рантайм):
Cost Matrix.Выходные данные (Рантайм):
Generalized Edit Distance для каждого кандидата.Query Expansion).Cost Matrix происходит периодически офлайн. Применение матрицы происходит в реальном времени при обработке запроса.Процесс А: Офлайн-генерация Матрицы Стоимости (Cost Matrix)
Historical Data (логам поисковых сессий).Co-occurrence Values для каждой пары терминов (X, Y) по всем логам. Получение общего количества N(X,Y).
Generalized Edit Distance позволяет Google предпочесть семантически близкие запросы (например, "local dentist" и "local endodontist"), даже если они сильно различаются по написанию, и отбросить синтаксически близкие, но семантически далекие варианты.PMI (Generalization и Specialization) позволяет системе понять, является ли новый запрос уточнением старого или его обобщением. Это критично для понимания интента пользователя.Query Suggestions и Query Expansion. Предварительный расчет Cost Matrix позволяет быстро и эффективно находить релевантные альтернативы запросам в реальном времени.PMI и Transition Cost.low Transition Cost). Это покажет, какие запросы Google считает семантически близкими.Generalized Edit Distance), необходимо убедиться, что ваш контент релевантен не только целевому ключу, но и его наиболее вероятным расширениям/синонимам, выявленным на этапе анализа переформулировок.PMI).Этот патент подтверждает стратегическую важность данных о поведении пользователей для формирования семантического понимания языка в Google. Он демонстрирует, как Google строит свою собственную карту знаний о взаимосвязях терминов, основанную на реальных пользовательских сессиях. Для SEO это означает, что стратегии должны быть направлены на соответствие не просто запросам, а целым поисковым сценариям (user journeys), включая этапы обобщения и специализации информации.
Сценарий: Оптимизация страницы категории интернет-магазина
Transition Cost между этими запросами низкий. PMI для пары (ноутбук, игровой ноутбук) высокий, особенно при Specialization Normalization.В чем ключевое отличие Generalized Edit Distance от традиционного расстояния редактирования (Левенштейна)?
Традиционное расстояние измеряет количество символьных изменений (вставка, удаление, замена символа) для преобразования одной строки в другую. Оно не учитывает семантику. Generalized Edit Distance измеряет стоимость замены целых терминов, и эта стоимость основана на семантической близости (PMI), вычисленной из анализа поведения пользователей. Это позволяет считать семантически близкие, но синтаксически разные запросы более похожими.
Что такое Pointwise Mutual Information (PMI) и как она используется в этом патенте?
PMI – это статистическая мера, которая показывает, насколько сильно два термина связаны друг с другом. В контексте патента она вычисляется на основе того, как часто пользователи заменяют один термин на другой при переформулировке запросов. Высокий PMI означает, что термины часто заменяют друг друга (сильная связь), что приводит к низкой стоимости замены (Transition Cost) между ними.
Как система узнает, какие термины являются взаимозаменяемыми?
Система анализирует миллионы пар последовательных запросов (Consecutive Queries) в логах. Если пользователи часто меняют запрос "local dentist" на "local endodontist", система фиксирует, что термин "dentist" был заменен на "endodontist". Агрегируя эти данные, система вычисляет высокий PMI для этой пары терминов, что сигнализирует об их взаимозаменяемости или близкой семантической связи в данном контексте.
Что означают Generalization и Specialization Normalization?
Это два типа асимметричной нормализации PMI. Specialization Normalization дает более высокую оценку, если второй термин является уточнением первого (например, переход от "телефон" к "iPhone 15"). Generalization Normalization дает более высокую оценку, если второй термин является обобщением первого (например, переход от "iPhone 15" к "смартфон"). Это позволяет Google понять направление изменения интента.
Как это влияет на мою стратегию исследования ключевых слов?
Необходимо сместить фокус с анализа отдельных ключевых слов на анализ поисковых сценариев и путей переформулировки. Важно идентифицировать, какие запросы Google считает семантически близкими к вашим целевым запросам (имеют низкий Generalized Edit Distance). Это расширяет семантическое ядро за счет терминов, которые пользователи реально используют как синонимы или уточнения.
Связан ли этот патент с Query Expansion (Расширением запросов)?
Да, напрямую. Generalized Edit Distance предоставляет метрику для оценки того, насколько кандидат на расширение близок к исходному запросу. Если расстояние очень мало (стоимость перехода низкая), система может принять решение автоматически расширить или даже заменить исходный запрос пользователя на этот семантически близкий вариант для улучшения результатов поиска.
Может ли система использовать разные Cost Matrices для разных пользователей?
Патент упоминает такую возможность. Если система может определить предпочтения пользователя (например, на основе истории поиска), она может выбрать соответствующую матрицу нормализации. Например, если пользователь склонен уточнять запросы, система может использовать Cost Matrix, основанную на Specialization Normalization, чтобы предлагать более узкоспециализированные подсказки.
Как рассчитывается Co-occurrence Value, если пользователь изменил сразу несколько слов?
Если пользователь изменил M слов на N новых слов, стоимость распределяется между всеми возможными парами. Например, если "computer technician" заменено на "systems programmer" (2 слова на 2 слова), то для каждой из 4 пар (computer-systems, computer-programmer, technician-systems, technician-programmer) значение будет 1/(2*2) = 0.25. Это предотвращает случайное присвоение высокой связи несвязанным терминам.
Влияет ли этот механизм на ранжирование моего сайта?
Он влияет опосредованно. Механизм определяет, по какому именно запросу (исходному или расширенному/измененному) будет происходить ранжирование. Если ваш сайт хорошо оптимизирован под исходный запрос, но плохо под его семантически близкое расширение, а Google решит использовать расширение, ваш сайт может потерять позиции.
Как я могу увидеть этот механизм в действии?
Наиболее очевидные проявления – это поисковые подсказки (Autocomplete) и блок "Related Searches". Они часто содержат запросы, которые синтаксически отличаются от вашего ввода, но семантически очень близки. Это и есть результаты работы системы, которая нашла варианты с низким Generalized Edit Distance на основе анализа поведения пользователей.

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
EEAT и качество

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
SERP

SERP
Поведенческие сигналы
EEAT и качество

Knowledge Graph
Семантика и интент
EEAT и качество

Поведенческие сигналы
Мультиязычность
Персонализация

SERP
EEAT и качество
Поведенческие сигналы

Семантика и интент
Персонализация
EEAT и качество

Семантика и интент
Поведенческие сигналы

SERP
Поведенческие сигналы

Ссылки
SERP
Свежесть контента

Поведенческие сигналы
Семантика и интент
Структура сайта

Поведенческие сигналы
SERP
Антиспам
