Как Google автоматически изучает синонимы, акронимы и эквивалентные фразы, анализируя поисковые сессии пользователей и анкорный текст ссылок

Патент Google, описывающий методы автоматического обнаружения синонимов и эквивалентных фраз. Система анализирует последовательные запросы пользователя в рамках одной сессии: если запросы имеют общие слова (контекст), то различающиеся слова считаются потенциальными синонимами. Аналогичный анализ применяется к вариациям анкорного текста ссылок, ведущих на одну и ту же страницу. Это позволяет поисковой системе понимать, что разные запросы могут иметь одинаковое намерение.

Описание

Какую задачу решает

Патент решает фундаментальную проблему «словарного разрыва» в поиске: пользователи часто используют разные слова или фразы (синонимы, акронимы, вариации) для описания одной и той же информационной потребности (Information Need). Если система не распознает эту эквивалентность, пользователь не получит полный набор релевантных результатов. Изобретение автоматизирует процесс обнаружения этих Equivalent Descriptions без необходимости ручного создания словарей синонимов.

Что запатентовано

Запатентована система для автоматического определения эквивалентных описаний информационной потребности. Система использует два основных источника данных: логи поисковых запросов (Query Logs) и анкорный текст (Anchor Text). Анализируя паттерны в этих данных — как пользователи переформулируют запросы в рамках одной сессии или как разные авторы ссылаются на один и тот же документ, — система выявляет пары терминов или фраз, которые функционально эквивалентны.

Как это работает

Механизм работает в двух основных режимах:

Анализ сессий (Query Logs): Система сортирует запросы по пользователю и времени. Анализируются последовательные (adjacent) запросы. Если два соседних запроса имеют общие термины (контекст), то различающиеся термины идентифицируются как Candidate Pair (потенциальные синонимы). Например, если пользователь ищет [palo alto hotels], а затем [palo alto inns], система предполагает, что ‘hotels’ и ‘inns’ могут быть эквивалентны.
Анализ анкорного текста (Anchor Text): Система группирует анкорные тексты, указывающие на один и тот же документ. Если разные анкоры имеют общие термины, то различающиеся термины также идентифицируются как Candidate Pair.
Оценка и валидация: Для каждой пары рассчитывается Score, основанный на частоте встречаемости. Если оценка превышает порог (Threshold), пара признается эквивалентной. Дополнительно применяется фильтр для исключения «альтернатив» (например, конкурирующих брендов).

Актуальность для SEO

Высокая. Хотя патент (являющийся продолжением заявки от 2002 года) предшествует эпохе глубокого обучения, описанные в нем концепции являются фундаментальными для понимания запросов (Query Understanding). Методы анализа сессионных данных и анкорного текста для понимания семантических связей остаются основой, хотя современные реализации также используют сложные нейросетевые модели. Учитывая авторов (Джефф Дин, Ноам Шазир и др.), эти механизмы глубоко интегрированы в архитектуру поиска.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он объясняет, как Google изучает взаимосвязи между терминами, используя поведение пользователей и структуру ссылок. Это напрямую влияет на подходы к исследованию ключевых слов и оптимизации контента, подчеркивая важность использования естественных вариаций и синонимов. Также это подтверждает ценность разнообразного, релевантного анкорного текста во входящем ссылочном профиле.

Детальный разбор

Термины и определения

Adjacent Queries (Последовательные/Смежные запросы): Запросы, поданные одним пользователем последовательно в рамках одной сессии. В патенте упоминается окно из 2-5 запросов.
Alternatives (Альтернативы): Термины, которые связаны, но не эквивалентны (например, конкурирующие бренды «Hertz» и «Avis»). Патент описывает механизм для их исключения из списка синонимов.
Anchor Text Unit (Единица анкорного текста): Текст гиперссылки, связанный с целевым URL.
Candidate Pair (Пара кандидатов): Два термина или фразы, идентифицированные системой как потенциально эквивалентные. Формируются из несовпадающих частей связанных описаний.
Equivalent Descriptions (Эквивалентные описания): Термины или фразы (включая синонимы, акронимы), которые относятся к одной и той же информационной потребности.
Query Log (Лог запросов): Запись поисковых запросов, обычно включающая UserID, временную метку и текст запроса.
Score (Оценка): Числовое значение, отражающее уверенность системы в эквивалентности пары кандидатов. Часто основано на частоте замещения.
Threshold (Порог): Минимальное значение Score, необходимое для признания пары эквивалентной.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения эквивалентных описаний с использованием списка запросов.

Система принимает список запросов от пользователей.
Определяется Candidate Pair путем нахождения двух связанных (related) запросов.
Рассчитывается Score для пары, зависящий от частоты ее встречаемости в списке.
Если Score превышает Threshold, обе части пары признаются эквивалентными описаниями.

Claim 2 (Зависимый от 1): Уточняет, как находятся кандидаты из запросов.

Находятся два запроса, содержащие как минимум один общий термин (контекст).
Части запросов, которые не являются общими, определяются как Candidate Pair.

Claim 3 (Зависимый от 1): Описывает механизм идентификации акронимов.

Система определяет кандидата, если символы термина в первом запросе (T1) совпадают с первыми буквами последовательности терминов во втором запросе (T2). Например, «FDA» и «Food Drug Administration».

Claim 4 (Зависимый от 1): Определяет механизм расчета оценки (Score).

Оценка рассчитывается как отношение первой частоты (частота встречаемости Candidate Pair) ко второй частоте (частота встречаемости одной половины пары в общем списке).

Claim 7 и 8 (Зависимые от 1): Описывают механизм фильтрации альтернатив (Alternatives).

Система исключает пару, если определено, что одна часть является альтернативой, а не эквивалентом. Это делается путем анализа коллекции документов и проверки частоты совместной встречаемости обеих частей пары в списках (lists). Высокая частота совместной встречаемости указывает на то, что это альтернативы.

Claim 20 (Независимый пункт): Описывает метод с использованием анкорных текстов.

Создается список Anchor Text Units.
Находятся два анкора, содержащие общий термин. (Хотя Claim 20 не указывает это явно, описание патента подразумевает, что анкоры должны указывать на один и тот же документ).
Необщие части анкоров определяются как Candidate Pair.
Рассчитывается Score и применяется Threshold.

Где и как применяется

Изобретение является ключевым компонентом системы понимания запросов и семантического анализа.

CRAWLING и INDEXING
На этих этапах собираются и индексируются данные. Извлекаются и сохраняются Anchor Text Units и целевые URL. Также индексируется контент для последующего анализа (например, для фильтрации альтернатив).

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Описанные процессы (анализ Query Logs и Anchor Text) выполняются офлайн для построения базы данных Equivalent Descriptions. В реальном времени эта база используется для интерпретации интента, переписывания (rewriting) или расширения (expansion) запроса пользователя.

RANKING – Ранжирование
На этапе ранжирования используется расширенный запрос, что позволяет находить документы, релевантные интенту, даже если они не содержат точных терминов из исходного запроса.

Входные данные:

Query Logs (включая UserID, временные метки, текст запроса).
База данных Anchor Text Units и соответствующих им целевых URL.
Индексированный контент документов (для различения альтернатив и синонимов).

Выходные данные:

База данных Equivalent Descriptions (пары синонимов/акронимов) с соответствующими оценками уверенности (Scores).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, имеющие множество вариаций, общепринятые синонимы или распространенные акронимы (например, [NYC] и [New York City]).
Все типы контента и ниши: Механизм не зависит от тематики и применяется глобально для улучшения понимания языка.

Когда применяется

Офлайн-обработка: Анализ логов запросов и анкорного текста происходит в пакетном режиме офлайн для периодического обновления базы синонимов.
Триггеры активации (для анализа логов): Анализ запускается для последовательных запросов от одного и того же пользователя в рамках сессии. В патенте упоминается, что окно в два или пять последовательных запросов работает хорошо.

Пошаговый алгоритм

Процесс А: Анализ логов запросов (Query Log Analysis)

Сбор данных: Получение Query Log.
Сортировка: Сортировка лога сначала по UserID, затем по времени. Это группирует запросы в сессии.
Выбор соседних запросов: Выбор набора последовательных запросов от одного пользователя.
Идентификация общего контекста: Идентификация пар запросов, которые содержат хотя бы один общий термин.
Формирование кандидатов: Термины, которые НЕ являются общими, идентифицируются как Candidate Pair.
(Альтернативно) Идентификация акронимов: Сравнение букв термина в одном запросе с первыми буквами терминов в другом запросе.
Расчет оценки (Scoring): Расчет Score для каждой пары. Формула (описанная как transform/A): (Частота появления пары) / (Общая частота появления первой половины пары в наборе данных).
Применение порога: Если Score превышает заданный Threshold (например, 0.1), пара переходит на следующий этап.
Фильтрация альтернатив: Применение Процесса В для исключения не-синонимов.

Процесс Б: Анализ анкорного текста (Anchor Text Analysis)

Сбор данных: Создание списка Anchor Text Units.
Группировка по цели: Организация анкорных текстов по документу, на который они указывают.
Идентификация общего контекста: В рамках каждой группы поиск пар анкоров, содержащих общие термины.
Формирование кандидатов: Термины, которые НЕ являются общими, идентифицируются как Candidate Pair.
Расчет оценки и применение порога: Аналогично Процессу А.

Процесс В: Различение альтернатив и эквивалентов (Alternatives vs. Equivalents)

Анализ контента: Анализ большой коллекции документов на предмет наличия обеих половин Candidate Pair (например, ‘Hertz’ и ‘Avis’).
Поиск структурных элементов: Поиск списков, таблиц и т.д. внутри этих документов.
Расчет коэффициента совместной встречаемости: Сравнение (1) количества раз, когда обе половины пары появляются вместе в списке/таблице, и (2) общего количества раз, когда одна из половин появляется в списках/таблицах.
Определение альтернатив: Если коэффициент совместной встречаемости высок (термины часто перечисляются вместе), система делает вывод, что это Alternatives, а не синонимы.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются Query Logs. Ключевым является анализ последовательности запросов в рамках одной сессии (Session Data), что требует UserID и временных меток.
Ссылочные факторы (Структурные): Используются Anchor Text Units и целевые URL. Анализируется, как разные источники ссылаются на один и тот же документ.
Контентные факторы: Используются при различении альтернатив и синонимов. Система анализирует контент документов, в частности, наличие терминов в структурированных элементах (списки и таблицы).

Какие метрики используются и как они считаются

Частота пары (Frequency of Candidate Pair): Количество раз, когда два термина идентифицируются как Candidate Pair (т.е. происходит замена при сохранении контекста).
Частота термина (Frequency of Term): Общее количество раз, когда одна половина Candidate Pair появляется в наборе данных.
Score (Оценка эквивалентности): Рассчитывается как отношение: (Частота пары) / (Частота термина). Это нормализует частоту пары по популярности термина (формула transform/A).
Threshold (Порог): Заранее определенное значение. В патенте упоминается 0.1 как подходящее значение для метода на основе логов запросов.
Коэффициент совместной встречаемости в структурах: Используется для идентификации альтернатив. Высокий коэффициент указывает на то, что термины являются альтернативами.

Выводы

Автоматическое обучение языку («Мудрость толпы»): Патент описывает фундаментальный механизм, позволяющий Google автоматически изучать синонимы, акронимы и связанные термины без ручного вмешательства, используя реальное поведение пользователей и структуру веба.
Сессионные данные как сильный сигнал связи: Последовательные переформулировки запросов пользователем в рамках одной сессии являются сильным сигналом семантической связи. Изменение одного слова при сохранении контекста (общих терминов) указывает на потенциальную синонимию.
Анкорный текст как сигнал эквивалентности: Вариации в анкорном тексте ссылок, ведущих на одну и ту же страницу, используются как независимый источник для подтверждения эквивалентности терминов.
Явная обработка акронимов: Включен специальный механизм для идентификации акронимов путем сопоставления начальных букв слов.
Различение синонимов и альтернатив: Система включает механизм для предотвращения ошибочного определения связанных, но не эквивалентных терминов (например, конкурентов) как синонимов, анализируя их совместную встречаемость в списках и таблицах.

Практика

Best practices (это мы делаем)

Использование естественных вариаций в контенте: Подтверждается важность использования синонимов, акронимов (с расшифровкой) и связанных терминов в тексте. Это помогает системе лучше понять тематику контента и подтверждает взаимосвязи, которые Google автоматически обнаруживает.
Построение разнообразного профиля анкоров: Необходимо стремиться к естественному и разнообразному профилю входящих ссылок. Различные, но релевантные анкорные тексты, указывающие на одну страницу, помогают Google понять контекст страницы и подтверждают эквивалентность используемых фраз (Equivalent Descriptions).
Анализ семантического поля (Кластеризация): При исследовании ключевых слов необходимо учитывать весь кластер синонимичных запросов. Патент показывает, что Google агрегирует понимание по всему кластеру, а не по отдельным фразам.
Структурирование альтернатив: При описании продуктов или сущностей, имеющих альтернативы (например, сравнение конкурентов), используйте списки и таблицы. Это помогает Google понять, что эти сущности связаны (Alternatives), но не эквивалентны (согласно Процессу В алгоритма).
Анализ внутренних логов поиска: Применяйте логику патента к логам внутреннего поиска на вашем сайте. Анализ того, как пользователи переформулируют запросы, поможет улучшить понимание интента и лексики вашей аудитории.

Worst practices (это делать не надо)

Фокус на точном соответствии (Keyword Stuffing): Попытки оптимизировать контент под одну точную формулировку запроса менее эффективны, так как система автоматически распознает эквивалентные описания.
Манипуляции с анкорным текстом (Over-optimization): Использование только одного варианта коммерческого анкора во входящих ссылках выглядит неестественно и не использует механизм подтверждения эквивалентности, описанный в патенте.
Смешивание синонимов и альтернатив в контенте: Не следует представлять связанные сущности (конкурентов) как синонимы. Alternative Filter разработан для того, чтобы различать эти случаи, анализируя структурированные данные.

Стратегическое значение

Этот патент подтверждает стратегию Google по переходу от лексического поиска (сопоставление строк) к семантическому поиску (понимание смысла). Он демонстрирует, как данные о поведении пользователей (Query Logs) и структура веба (Anchor Text) используются для построения языковой модели. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на тематической релевантности и естественном языке.

Практические примеры

Сценарий 1: Оптимизация страницы с акронимом

Задача: Оптимизировать страницу про «Информационную Потребность (Information Need)».
Применение патента: Система Google, анализируя сессии пользователей и контент, может выучить, что ‘Information Need’ и акроним ‘IN’ (если бы он использовался) связаны, особенно если пользователи ищут их последовательно или если акроним соответствует первым буквам.
Действие SEO: Убедиться, что на странице присутствует как полная форма, так и акроним (если он релевантен). Это увеличивает релевантность страницы для всех Equivalent Descriptions и соответствует механизму распознавания акронимов (Claim 3).

Сценарий 2: Построение ссылочного профиля для услуги

Задача: Продвижение страницы услуги ‘Установка кондиционеров’.
Применение патента: Google анализирует Anchor Text, ведущий на эту страницу (Процесс Б). Если на нее ссылаются с анкорами ‘монтаж сплит-систем’ и ‘установка кондиционеров в квартире’, система укрепляет связь между этими фразами как Equivalent Descriptions.
Действие SEO: При реализации стратегии линкбилдинга поощрять использование разнообразных, естественно звучащих анкоров, отражающих разные формулировки потребности, вместо фокуса только на основном ключевом слове.

Вопросы и ответы

Как система определяет, какие запросы считать ‘соседними’ или частью одной сессии?

Патент предлагает сортировку по UserID и времени. ‘Соседними’ (Adjacent Queries) считаются последовательные запросы от одного пользователя. В описании упоминается, что использование окна из двух до пяти последовательных запросов показало хорошие результаты. На практике это означает анализ запросов, введенных в течение короткого промежутка времени.

Насколько надежен метод определения синонимов на основе сессий?

Метод достаточно надежен благодаря механизму оценки (Scoring) и пороговым значениям (Threshold). Система не делает вывод на основе единичного случая. Она требует, чтобы паттерн переключения между терминами при сохранении контекста (общих слов) повторялся достаточно часто относительно общей частоты использования термина (нормализация). Это отсеивает случайные совпадения.

Может ли этот механизм привести к неправильному определению синонимов?

Да, и патент это признает. Основной риск — путаница между синонимами и альтернативами (например, названиями конкурентов типа ‘Hertz’ и ‘Avis’). Для решения этой проблемы патент предлагает механизм анализа контента: если термины часто встречаются вместе в списках или таблицах, они классифицируются как Alternatives, а не синонимы.

Как рассчитывается оценка (Score) для пары потенциальных синонимов?

Один из описанных методов расчета — это отношение transform/A. Здесь transform (или частота пары) — это частота, с которой данная замена встречается в данных (например, как часто пользователи меняют термин X на Y). A (или частота термина) — это общая частота встречаемости первого термина (X). Это позволяет нормализовать оценку.

Какое значение имеет анализ анкорного текста в этом патенте?

Анализ анкорного текста служит независимым источником для выявления Equivalent Descriptions. Если на одну и ту же страницу часто ссылаются, используя разные фразы, но сохраняя общий контекст, это подтверждает эквивалентность этих фраз. Это подчеркивает важность естественного и разнообразного анкор-листа для SEO.

Как система обрабатывает акронимы?

Патент описывает конкретный механизм (Claim 3). Система проверяет, соответствуют ли буквы термина в одном запросе первым буквам последовательности слов в другом запросе (например, FDA и Food Drug Administration). Если да, то создается Candidate Pair, которая затем оценивается по частоте.

Как этот патент связан с современными NLP-моделями, такими как BERT или MUM?

Этот патент описывает ранние статистические методы построения базы знаний о семантических связях. Современные NLP-модели используют нейронные сети для более глубокого понимания контекста. Однако данные, генерируемые методами из этого патента (анализ сессий и анкоров), по-прежнему могут использоваться как ценные обучающие данные или сигналы для валидации выводов NLP-моделей. Фундаментальные принципы остаются актуальными.

Влияет ли этот механизм на локальный поиск?

Да. Например, анализируя запросы типа [санкт-петербург гостиницы] и [спб гостиницы], система быстро учится, что ‘санкт-петербург’ и ‘спб’ являются эквивалентными описаниями, благодаря наличию общего термина ‘гостиницы’. Это позволяет улучшить релевантность выдачи независимо от того, какой вариант названия города использует пользователь.

Что означает порог (Threshold) 0.1, упомянутый в патенте?

Это пример порогового значения. Если оценка (рассчитанная как нормализованная частота замены) превышает этот порог (т.е. замена происходит более чем в 10% случаев), система может считать пару эквивалентной. Этот порог может настраиваться для достижения желаемого уровня точности и полноты.

Происходит ли этот процесс в реальном времени?

Нет. Процесс анализа логов запросов и анкорных текстов для генерации базы синонимов происходит офлайн, так как требует обработки больших объемов данных. Однако результаты этого процесса (сгенерированный словарь синонимов) используются в реальном времени на этапе Query Understanding для расширения запроса пользователя.