
Google анализирует логи запросов, чтобы понять, как пользователи переформулируют свои запросы в рамках одной сессии. Система выявляет слова, которые пользователи заменяют друг на друга в одинаковых контекстах, и валидирует их, проверяя, возвращают ли оба варианта запроса схожие результаты поиска. Эти контекстные синонимы затем используются для автоматического расширения или изменения запросов пользователей.
Патент решает фундаментальную проблему информационного поиска: традиционные тезаурусы и словари неэффективны для расширения запросов, поскольку синонимичность часто полностью зависит от контекста. Например, «music» не является общим синонимом «loops», но является хорошим синонимом в контексте запроса [free loops for flash movie]. Изобретение предлагает автоматизированный, основанный на данных метод для идентификации таких контекстно-зависимых синонимов, повышая полноту поиска (Recall) без ручного создания лексических баз.
Запатентована система и метод для автоматического определения синонимов термов запроса с учетом контекста. Суть изобретения заключается в анализе логов поисковых запросов (Query Logs), сгруппированных по пользовательским сессиям. Система идентифицирует пары запросов, которые отличаются только одной фразой, но имеют идентичный контекст (окружающие слова). Эти фразы становятся кандидатами в синонимы и валидируются с помощью строгих статистических тестов, основанных на частоте переформулировок пользователями и степени пересечения результатов поиска (SERP Overlap).
Система работает в два этапа: офлайн-генерация и онлайн-применение.
Pseudo-queries (псевдо-запросы) путем замены фразы на токен (например, [gm : car prices]). Запросы с одинаковым Pseudo-query группируются, а отличающиеся фразы (например, «used» и «new») становятся кандидатами.Evidence Score).Altered Query). Это может быть расширение через оператор OR (дизъюнкция), прямая замена терма или использование синонима для корректировки ранжирования.Критически высокая. Понимание контекста и семантической эквивалентности является фундаментом современного поиска. Хотя статистические методы, описанные в патенте, сегодня дополнены или заменены нейросетевыми моделями (BERT, MUM), базовые принципы — использование контекста для определения значения слова и валидация через поведение пользователей и схожесть SERP — остаются центральными для систем Query Understanding.
Патент имеет фундаментальное значение для SEO (9/10). Он описывает конкретный механизм, лежащий в основе перехода от лексического к семантическому поиску. Это напрямую влияет на исследование ключевых слов и стратегию контента: необходимо понимать, какие термины Google считает взаимозаменяемыми в конкретном контексте на основе поведения пользователей, а не полагаться на словари. Анализ пересечения выдачи (SERP Overlap) становится ключевой тактикой для понимания интента и кластеризации запросов.
Pseudo-queries.Phrase на токен (например, «:»). Используется для идентификации запросов с одинаковым контекстом. Пример: [gm : car prices].Патент описывает как процесс генерации синонимов, так и несколько различных способов их применения (Claims 1, 11, 16).
Claim 1 (Независимый пункт): Описывает применение синонимов через расширение запроса (Query Expansion via Disjunction).
Altered Query путем замены исходного терма на дизъюнкцию (OR) исходного терма и синонима. (Например, [gm cars] -> [(gm OR general motors) cars]).Altered Query.Claim 16 (Независимый пункт): Описывает применение через прямую замену (Direct Substitution).
Altered Query путем прямой замены исходного терма на синоним (без дизъюнкции). (Например, [gm cars] -> [general motors cars]).Altered Query.Claim 11 (Независимый пункт): Описывает применение через модификацию ранжирования (Ranking Modification).
Claims 2 и 3 (Зависимые): Детализируют офлайн-процесс генерации и валидации синонимов.
Query Logs для идентификации термов, появляющихся в одинаковом контексте.Изобретение является ключевым компонентом этапа понимания запросов.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Он включает два процесса:
Query Logs, поведение пользователей в сессиях и схожесть SERP для построения базы данных контекстно-зависимых синонимов. Это включает расчет Evidence Score.Query Rewriting/Expansion (расширение, замена) или принимает решение о модификации ранжирования.RANKING – Ранжирование
На этом этапе используется переписанный запрос. Кроме того, согласно Claim 11, система может использовать наличие валидированного синонима в документе как сигнал для модификации Ranking Score.
Входные данные (Офлайн):
Query Logs (текст запроса, User ID, временные метки).Выходные данные (Офлайн):
Evidence Score.Входные данные (Онлайн):
Выходные данные (Онлайн):
Altered Query или модифицированные сигналы ранжирования.Evidence Score этого синонима превышает установленный порог (например, >0.6 для автоматического расширения).Процесс А: Офлайн-генерация и валидация синонимов
Query Logs. Сортировка по User ID и времени для организации запросов в сессии. Фильтрация коротких запросов (<3 слов).Pseudo-queries путем замены фразы на токен (:), оставляя минимум два слова контекста.Pseudo-query, включающих исходный запрос, замененную фразу и топ результатов поиска. Фиксация случаев, когда разные фразы используются в одном Pseudo-query в рамках одной сессии.Pseudo-query. Идентификация различных фраз на месте токена как Candidate Synonyms.frequently_alterable, frequently_much_in_common, frequently_altered, high_altering_ratio) с использованием функции Scale.Evidence Score.Evidence Score, в базу данных.Процесс Б: Онлайн-применение синонимов
Evidence Score система выбирает метод применения: расширение (Claim 1), замена (Claim 16) или модификация ранжирования (Claim 11).Патент полностью полагается на анализ исторических данных из логов поиска.
Sessions.Система использует набор статистических тестов для расчета Evidence Score. TDQ = Total Distinct Queries.
Расчет итоговой оценки (Evidence Score):
Метрики нормализуются с помощью функции Scale и агрегируются (с весами):
Финальная оценка рассчитывается как:
Session). Если пользователи часто заменяют А на Б, это сильный сигнал синонимичности.frequently_much_in_common). Если разные запросы возвращают схожий набор документов, они решают одну и ту же задачу.Evidence Score).frequently_much_in_common). Такие запросы следует таргетировать на одну страницу.frequently_altered). Это дает представление о том, как система видит вашу нишу.Этот патент является одним из фундаментальных документов, подтверждающих переход Google от лексического поиска к семантическому. Он демонстрирует, как Google использует «мудрость толпы» (анализ поведения миллионов пользователей) и анализ данных (SERP Overlap) для построения динамической и контекстно-зависимой карты языка. Для SEO это означает, что долгосрочная стратегия должна быть направлена на понимание интента пользователя во всех его проявлениях и вариациях, а не на оптимизацию под фиксированный набор ключевых фраз.
Сценарий: Определение синонимии для аббревиатуры
Pseudo-query [: car prices] и [: vehicles].Evidence Score (например, 0.9).Как Google определяет, что два слова являются синонимами согласно этому патенту?
Google не использует словари. Система анализирует два ключевых фактора в логах запросов. Во-первых, поведение пользователей: как часто они заменяют одно слово на другое в рамках одной сессии в одинаковом контексте. Во-вторых, пересечение результатов поиска (SERP Overlap): если запросы с разными словами возвращают похожие наборы документов, это свидетельствует о семантической близости.
Что такое «контекст» и почему он так важен?
Контекст — это слова, окружающие фразу в запросе. Патент подчеркивает, что синонимичность почти всегда зависит от контекста. Например, «driver» может означать программу в контексте «download printer driver» или человека в контексте «hire taxi driver». Система генерирует синонимы только для специфических контекстов, чтобы избежать некорректных замен.
Что такое Pseudo-query и как он используется?
Pseudo-query — это шаблон запроса, где одна фраза заменена на токен (например, [apple : problems]). Он используется для идентификации контекста и группировки запросов, которые отличаются только в этой позиции (например, [apple iphone problems] и [apple macbook problems]). Это позволяет системе анализировать, какие слова пользователи вставляют в этот слот.
Как система определяет качество синонима?
Система рассчитывает оценку уверенности (Evidence Score) от 0 до 1.0 с помощью сложной формулы. Эта формула учитывает несколько метрик: как часто измененный запрос встречается в логах (frequently_alterable), как часто он имеет общие результаты с исходным (frequently_much_in_common), как часто пользователи сами делают такую замену в сессии (frequently_altered), и в каком направлении чаще происходит замена (high_altering_ratio).
Если Google считает два слова синонимами, нужно ли мне создавать отдельные страницы для каждого из них?
Не обязательно. Если система высоко уверена в синонимичности (высокий Evidence Score), она, скорее всего, автоматически расширит запрос с помощью оператора OR. В этом случае одна сильная страница будет ранжироваться по обоим вариантам. Создание отдельных страниц может привести к каннибализации.
Как этот патент влияет на подбор ключевых слов?
Он смещает фокус с поиска изолированных ключевых слов на идентификацию контекстов и семантических кластеров. Необходимо понимать, в каком окружении используется ключевое слово и какие другие термины пользователи считают эквивалентными в этом окружении, основываясь на реальном поведении (Search Behavior), а не на словарях.
Может ли мой сайт ранжироваться по запросу, который не содержит моих ключевых слов?
Да. Если ваш контент содержит термины, которые Google идентифицировал как контекстуальные синонимы для терминов в запросе пользователя, система может расширить запрос (Claim 1) или модифицировать ранжирование (Claim 11) и показать ваш сайт в результатах.
Влияет ли этот механизм на все запросы?
Механизм фокусируется на запросах, имеющих достаточный контекст (обычно 3 слова и более) и достаточный объем данных в логах для анализа. Для коротких (1-2 слова) или очень редких запросов этот метод может не применяться из-за недостатка данных или контекста.
Как Google защищается от того, чтобы не связывать просто связанные слова как синонимы (например, «парус» и «ветер»)?
Защита обеспечивается двумя механизмами. Во-первых, требуется, чтобы слова занимали одну и ту же позицию в запросе (одинаковый Pseudo-query). Во-вторых, требуется значительное пересечение результатов поиска (frequently_much_in_common). «Парус» и «ветер» редко взаимозаменяемы в запросах и ведут к разным результатам.
Актуален ли этот патент в эпоху BERT и нейронных сетей?
Да, базовые принципы крайне актуальны. Хотя современные модели (BERT, MUM) используют более сложные методы для определения контекста (через векторы), данные, описанные в патенте (поведение пользователей при переформулировании и схожесть SERP), остаются критически важными сигналами для обучения, валидации и работы поисковых систем.

Поведенческие сигналы
Семантика и интент
EEAT и качество

Семантика и интент

Индексация
Семантика и интент

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Персонализация
EEAT и качество

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Local SEO
SERP
Ссылки

Персонализация
Поведенческие сигналы
SERP

Ссылки
Антиспам
SERP
