
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
Патент решает фундаментальную проблему поиска: одна и та же информационная потребность (information need) может быть выражена разными способами (разными словами, фразами, акронимами). Пользователи могут не знать всех возможных формулировок, что ограничивает полноту получаемых ими результатов. Изобретение направлено на автоматическое выявление этих эквивалентных описаний (equivalent descriptions) без ручного вмешательства.
Запатентована система автоматического определения эквивалентных описаний (синонимов) для информационной потребности. Суть изобретения заключается в анализе больших массивов данных, таких как логи поисковых запросов (query logs) и анкорные тексты (anchor text), для выявления паттернов эквивалентности. Система ищет ситуации, где разные описания используются в одном и том же контексте или относятся к одному и тому же объекту.
Система использует два основных подхода:
adjacent) запросы одного пользователя. Если два подряд идущих запроса имеют общие термины (контекст), то различающиеся термины считаются кандидатами в синонимы (например, Q1: «palo alto hotels», Q2: «palo alto inns»; кандидаты: hotels/inns).Для каждой пары кандидатов рассчитывается оценка (score) на основе частоты встречаемости. Если оценка превышает порог, пара признается эквивалентной. Также предусмотрен механизм исключения альтернатив (например, конкурентов).
Высокая. Хотя патент подан в 2002 году, он описывает фундаментальные механизмы автоматического распознавания синонимов, что является критически важной частью современного понимания запросов (Query Understanding). Авторы патента (включая Джеффа Дина и Ноама Шазира) — ключевые фигуры в развитии поиска Google. Несмотря на то что современные методы (например, векторные представления, BERT, MUM) ушли далеко вперед, описанные принципы анализа поведения пользователей и структуры веба для понимания языка остаются актуальными и могут использоваться для обучения современных моделей.
Патент имеет высокое стратегическое значение (8/10). Он демонстрирует, как Google систематически учится понимать язык, выходя за рамки точного совпадения ключевых слов. Это подчеркивает важность семантического охвата и использования естественного языка как в контенте, так и в анкорных текстах. Понимание этих механизмов подтверждает, что оптимизация под узкий набор точных ключевых фраз менее эффективна, чем работа над тематической релевантностью и контекстом.
UserID, время запроса и текст запроса. Используется как основной источник данных для анализа поведения пользователей.Score), при превышении которого пара кандидатов признается эквивалентной.Claim 1 (Независимый пункт): Описывает общий метод определения эквивалентных описаний на основе списка запросов.
Candidate Pair путем нахождения двух запросов, относящихся к одной и той же Information Need.Score) для пары кандидатов в зависимости от частоты их появления в списке.Threshold), каждая часть пары признается эквивалентным описанием.Claim 2 (Зависимый от 1): Уточняет метод идентификации Candidate Pair.
Пара кандидатов идентифицируется путем нахождения двух запросов, содержащих хотя бы один общий термин. Части запросов, которые не являются общими, формируют пару кандидатов.
Claim 3 (Зависимый от 1): Описывает метод идентификации акронимов.
Система сравнивает символы термина в первом запросе с первыми буквами последовательности терминов во втором запросе. Если они совпадают (например, FDA и Food Drug Administration), термин и последовательность терминов признаются парой кандидатов.
Claim 4 (Зависимый от 1): Уточняет метод расчета оценки.
Оценка рассчитывается как отношение частоты встречаемости всей пары кандидатов (Freq(A->B)) к частоте встречаемости одной из частей этой пары (Freq(A)) в общем списке.
Claim 7 и 8 (Зависимые от 1): Описывают механизм исключения альтернатив (related entities) из списка эквивалентов (synonyms).
Система исключает пару кандидатов, если определено, что одна часть является альтернативой, а не эквивалентом другой. Это определяется путем анализа коллекций документов и выявления списков или таблиц, где обе части пары часто встречаются вместе. Высокая частота совместного упоминания в таких структурах указывает на то, что это Alternatives (например, Hertz и Avis).
Claim 17 (Независимый пункт): Описывает конкретный метод определения синонимов на основе логов поисковых запросов.
UserID), затем по времени подачи запроса.adjacent queries) от одного пользователя.Claim 23 (Независимый пункт): Описывает метод определения эквивалентных описаний на основе анкорных текстов.
anchor text units).Изобретение применяется в основном на этапах индексирования и понимания запросов для построения базы знаний о языке.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор и анализ Anchor Text. Система анализирует тексты ссылок и целевые URL. Анкорные тексты группируются по целевым документам, и запускается офлайн-процесс поиска эквивалентных описаний на основе этих данных (Claim 23).
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Он включает два процесса:
Query Logs. Анализируется поведение пользователей, в частности, переформулировки запросов в рамках одной сессии (Claim 17). Этот анализ, вместе с анализом анкоров, позволяет автоматически генерировать базу данных синонимов и эквивалентных фраз.Входные данные:
Query Logs (UserID, Date/Time, Query Text).Anchor Text и соответствующих им целевых URL.Выходные данные:
Scores).Score) для пары кандидатов превышает заданный порог. В патенте упоминается примерное значение 0.1 для одного из вариантов реализации. Также могут применяться пороги минимальной частоты встречаемости пары.Алгоритм А: Анализ логов запросов (Claim 17)
Query Log).UserID и времени подачи запроса.adjacent queries) от одного пользователя (например, 2 или 5 подряд идущих запросов).candidate synonym pair). (Также применяется логика поиска акронимов из Claim 3).Score для пары. Например, как отношение частоты этой конкретной переформулировки к общей частоте встречаемости первого термина пары.Threshold).Алгоритм Б: Анализ анкорных текстов (Claim 23)
anchor text units).Алгоритм В: Исключение альтернатив (Claims 7, 8)
Alternatives (related entities), а не эквиваленты (synonyms), и исключается из базы синонимов.Query Logs. Система анализирует последовательность действий пользователя (переформулировку запросов) в рамках одной сессии. Используются UserID, временные метки и текст запросов.Anchor Text. Система анализирует текст входящих ссылок и их целевые URL.information need.Alternatives, а не как синонимы, согласно механизму исключения (Алгоритм В).Этот патент является одним из фундаментальных документов, описывающих переход Google от лексического поиска (по точным словам) к семантическому (по смыслу). Он показывает, как анализ огромных массивов данных о поведении пользователей и структуре веба позволяет автоматически понимать язык. Для SEO это означает, что стратегия должна строиться вокруг тем и интентов (information needs), а не вокруг фиксированного набора ключевых слов, так как система способна самостоятельно определять equivalent descriptions.
Сценарий 1: Обучение синонимам через переформулировку запроса
Score превышает порог, эти фразы будут признаны эквивалентными.Сценарий 2: Использование вариативности анкоров
Как именно система определяет, что два разных запроса относятся к одной и той же информационной потребности?
Патент предлагает два основных индикатора. Первый — это анализ поведения пользователя: если запросы поданы одним пользователем последовательно (adjacent queries) и имеют общие термины, предполагается, что пользователь переформулирует запрос для той же цели. Второй — это анализ анкорных текстов: если разные анкорные тексты указывают на один и тот же документ и имеют общие термины, они также считаются относящимися к одной потребности.
Означает ли этот патент, что больше не нужно заботиться о точном вхождении ключевых слов?
Да, этот патент подтверждает, что фокусироваться на точном вхождении одного варианта ключевой фразы не является оптимальной стратегией. Система автоматически изучает синонимы и эквивалентные фразы. Гораздо важнее использовать естественный язык, покрывать тему всесторонне и использовать релевантные синонимы в контенте для улучшения общего семантического охвата.
Как рассчитывается оценка (Score) для пары кандидатов в синонимы?
Один из описанных методов расчета — это отношение частоты встречаемости пары кандидатов к общей частоте встречаемости одной из частей этой пары. Например, чтобы оценить пару «hotels» -> «inns», система смотрит, как часто пользователи меняют «hotels» на «inns» в схожем контексте, и делит это число на общее количество запросов, содержащих «hotels». Это нормализует оценку и показывает вероятность замены.
Может ли система ошибочно принять связанные сущности (например, конкурентов) за синонимы?
Да, такая опасность существует. Однако патент специально описывает механизм для исключения таких «альтернатив» (Claims 7, 8). Система анализирует, как часто эти термины встречаются вместе в списках или таблицах в других документах. Если часто (например, Hertz и Avis в списке прокатных контор) — это альтернативы, а не синонимы.
Как этот патент влияет на стратегию построения ссылок (Link Building)?
Он подчеркивает ценность естественного и вариативного профиля анкорных текстов. Разнообразие релевантных анкоров, указывающих на вашу страницу, помогает Google лучше понять ее содержание и выучить новые эквивалентные описания для вашего контента. Искусственное зацикливание на одном коммерческом анкоре не рекомендуется.
Как система распознает акронимы?
Патент описывает специфический метод (Claim 3): система сравнивает буквы акронима в одном запросе с первыми буквами последовательности слов в другом запросе, поданном тем же пользователем. Например, если пользователь сначала ищет «FDA», а затем «Food Drug Administration», система сопоставит F-Food, D-Drug, A-Administration и определит их как пару кандидатов.
Насколько быстро система изучает новые синонимы?
Патент описывает процесс анализа логов запросов и анкорных текстов как офлайн-процесс (batch processing). Это означает, что обучение происходит периодически, по мере накопления и обработки данных. Система не обучается мгновенно на основе одного действия пользователя; требуется накопление статистически значимого количества повторений паттерна.
Заменяют ли современные нейронные сети (BERT, MUM) механизмы этого патента?
Современные модели используют более сложные методы (например, векторные представления) для понимания синонимии и контекста. Однако данные, описанные в патенте (логи поведения пользователей и анкорные тексты), по-прежнему являются критически важными сигналами для обучения и валидации этих нейронных сетей. Принципы, заложенные в этом патенте, остаются фундаментом.
Что такое «порог» (Threshold) и как он определяется?
Порог — это минимальная оценка (Score), необходимая для того, чтобы система признала пару кандидатов эквивалентными. Он используется для фильтрации шума и случайных совпадений. Патент не указывает точного метода определения порога, упоминая лишь примерное значение 0.1 в одном из вариантов. На практике порог устанавливается эмпирически.
Влияет ли этот механизм на внутреннюю перелинковку?
Да. Принципы анализа анкорных текстов применимы как к внешним, так и к внутренним ссылкам. Использование вариативных, контекстуально богатых анкоров во внутренней перелинковке помогает системе лучше понять структуру сайта и семантические связи между страницами, а также способствует распознаванию эквивалентных описаний.

Семантика и интент

SERP
Поведенческие сигналы
EEAT и качество

Knowledge Graph
Семантика и интент
Ссылки

Мультиязычность
Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
SERP

Поведенческие сигналы
Персонализация
EEAT и качество

Поведенческие сигналы
Ссылки

SERP
Ссылки
Структура сайта

Персонализация
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Ссылки
Семантика и интент
Индексация

Local SEO
Поведенческие сигналы

Техническое SEO
SERP
Ссылки

Семантика и интент
Персонализация
Поведенческие сигналы
