Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

Описание

Какую задачу решает

Патент решает задачу идентификации различных формулировок запросов, которые имеют одинаковое семантическое значение (интент), особенно когда эти запросы структурированы вокруг сущностей. Система стремится понять, являются ли две разные фразы (шаблоны) синонимичными, анализируя, ищут ли пользователи одну и ту же информацию, используя эти разные фразы. Это улучшает понимание запросов (Query Understanding) и позволяет поисковой системе предоставлять релевантные результаты, даже если точная формулировка запроса варьируется.

Что запатентовано

Запатентована система для определения семантической эквивалентности между шаблонами запросов (Query Templates), которые содержат идентификатор коллекции сущностей (Entity Collection). Изобретение использует анализ прошлых запросов и поведение пользователей (показатели кликов), чтобы рассчитать меру сходства (Similarity Measure) между двумя шаблонами. Если сходство высоко, шаблоны признаются эквивалентными, а их текстовые части — синонимичными.

Как это работает

Система сравнивает два шаблона запроса с одинаковой коллекцией сущностей (например, T1: [продолжительность жизни в <Страна>] и T2: [средний возраст смерти в <Страна>]).

Анализ сущностей: Система проверяет, сколько общих сущностей (например, стран) использовалось в прошлых запросах для обоих шаблонов.
Анализ поведения: Для каждой общей сущности (например, «Индия») система анализирует, кликали ли пользователи на одни и те же документы в ответ на инстанциации обоих шаблонов.
Расчет метрик: Вычисляются Document Selection Rate (DSR) и Term Selection Rate (TSR, агрегированный как HMTSR) для общих документов.
Определение сходства: На основе этих метрик (часто комбинируемых как DSR * HMTSR) и количества общих сущностей рассчитывается Similarity Measure. Если она превышает порог, шаблоны считаются эквивалентными.

Актуальность для SEO

Высокая. Понимание синонимов, парафразов и семантической эквивалентности является фундаментальной задачей для современных поисковых систем. С ростом значимости сущностей (Entities) и структурированных данных, методы, описанные в этом патенте, крайне актуальны для точной интерпретации интента пользователя и улучшения качества поиска в 2025 году.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO. Он раскрывает механизм, с помощью которого Google изучает взаимозаменяемость ключевых фраз на основе реального поведения пользователей, а не только лингвистического анализа. Это подчеркивает стратегический сдвиг от фокусировки на точных ключевых словах к оптимизации под интент и сущности. Понимание этого механизма позволяет SEO-специалистам сосредоточиться на создании контента, который удовлетворяет потребность пользователя (и получает клик), а не на переборе всех возможных синонимов в тексте.

Детальный разбор

Термины и определения

Document Selection Rate (DSR) (Показатель выбора документа): Метрика, показывающая частоту выбора (клика) конкретного документа в результатах поиска для инстанциаций определенного шаблона запроса.
Entity (Сущность): Идентифицируемый объект, концепция или вещь (например, город, страна, человек).
Entity Collection (Коллекция сущностей): Группа сущностей, объединенных общим признаком (например, коллекция «Города» или «Страны»).
Entity Similarity Measure (Мера сходства сущности): Метрика, рассчитываемая для конкретной сущности, которая показывает, насколько похожи результаты поиска (и поведение пользователей по ним) для двух разных шаблонов запросов, инстанциированных этой сущностью.
Harmonic Mean of Term Selection Rates (HMTSR) (Гармоническое среднее показателей выбора терминов): Агрегированная метрика TSR. Использование гармонического среднего гарантирует, что все термины в шаблоне должны иметь высокий TSR для того, чтобы общий HMTSR был высоким.
Instantiation (Инстанциация / Конкретизация): Конкретный поисковый запрос, созданный путем замены идентификатора коллекции сущностей в шаблоне на алиас конкретной сущности (например, [достопримечательности в Сан-Франциско] — это инстанциация шаблона [достопримечательности в <Город>]).
Multi-attribute document (Мультиатрибутный документ): Документ, описывающий более порогового числа атрибутов коллекции сущностей (например, страница Википедии о стране). Такие документы могут исключаться из анализа (Claim 7).
Query Template (Шаблон запроса): Структура запроса, включающая один или несколько терминов и идентификатор коллекции сущностей (например, [достопримечательности в <Город>]).
Similarity Measure (Мера сходства): Итоговая метрика, определяющая степень семантической эквивалентности между двумя шаблонами запросов. Рассчитывается на основе агрегации Entity Similarity Measures и/или количества общих сущностей.
Term Selection Rate (TSR) (Показатель выбора термина): Метрика для конкретного термина в шаблоне и конкретного документа. Показывает, насколько важен этот термин для выбора данного документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения эквивалентности шаблонов запросов на основе поведения пользователей и количества общих сущностей.

Определяются два шаблона запроса (T1 и T2) с одинаковым идентификатором коллекции сущностей (EC), но разными терминами.
Идентифицируется конкретная сущность (E) из EC и ее инстанциации в T1 и T2.
Находится документ (D), релевантный инстанциациям как T1, так и T2.
Рассчитываются Document Selection Rates (DSR1 и DSR2) для документа D.
Из журнала прошлых запросов определяется *количество* сущностей из EC, которые инстанциировали *оба* шаблона (T1 и T2).
Рассчитывается Similarity Measure (SM) на основе DSR1, DSR2, а также сравнения количества общих сущностей с пороговым значением.
На основе SM определяется эквивалентность T1 и T2.
Применение: Если шаблоны эквивалентны, система может в ответ на запрос, соответствующий T1, предоставить контент, основанный на инстанциации T2.

Claim 2 (Зависимый от 1): Добавляет использование Term Selection Rates (TSR).

Расчет Similarity Measure дополнительно основывается на TSR для терминов из T1 и T2 по отношению к документу D.

Claim 4 и 5 (Зависимые от 2): Детализируют расчет с использованием Гармонического среднего (HMTSR).

Рассчитывается гармоническое среднее TSR для терминов T1 (HMTSR1) и T2 (HMTSR2) (Claim 4). Вклад документа в Similarity Measure определяется как минимальное значение из двух произведений: (DSR1 * HMTSR1) и (DSR2 * HMTSR2) (Claim 5). Это гарантирует, что оба шаблона должны иметь как высокий DSR, так и высокий HMTSR для данного документа.

Claim 7 (Зависимый от 1): Вводит фильтрацию документов.

Система определяет, что документ D не является multi-attribute document. Документ используется в анализе, только если он сфокусирован на ограниченном числе атрибутов.

Claim 13 (Независимый пункт): Альтернативный метод, основанный только на количестве общих сущностей.

Определяются два шаблона запроса (T1 и T2) с одинаковым EC.
В журнале прошлых запросов подсчитывается *количество* уникальных сущностей (entity groups), для которых существуют инстанциации как T1, так и T2.
Эквивалентность T1 и T2 определяется на основе того, что количество общих сущностей превышает порог.

Где и как применяется

Изобретение является ключевым компонентом этапа понимания запросов и используется для расширения и уточнения запросов.

QUNDERSTANDING – Понимание Запросов

Основное применение. Система использует этот механизм для построения базы данных синонимов и эквивалентных шаблонов запросов. Это происходит в офлайн-режиме путем анализа больших объемов данных из журналов запросов (record of past queries) и поведения пользователей.

Офлайн-анализ: Система анализирует логи, идентифицирует шаблоны запросов, сущности и рассчитывает DSR/TSR для определения Similarity Measure между парами шаблонов.
Построение базы эквивалентности: Создается хранилище, где фиксируются эквивалентные шаблоны и синонимичные фразы.

RANKING / RERANKING – Ранжирование / Переранжирование

В онлайн-режиме система применяет полученные знания.

Расширение запроса (Query Expansion) / Подстановка (Substitution): Когда пользователь вводит запрос, соответствующий шаблону T1, система может использовать эквивалентный шаблон T2 для поиска дополнительных релевантных результатов или внутренне переписать запрос (как указано в Claim 1).

Входные данные:

Журнал прошлых поисковых запросов.
Данные о поведении пользователей (клики/selections).
База данных сущностей, их коллекций и алиасов.

Выходные данные:

База данных семантически эквивалентных шаблонов запросов.
Список синонимичных фраз (производный результат).

На что влияет

Специфические запросы: Наибольшее влияние на информационные и транзакционные запросы, связанные с сущностями и их атрибутами (например, характеристики товаров, факты о людях, местах).
Конкретные типы контента: Влияет на ранжирование страниц, которые четко отвечают на вопросы об атрибутах сущностей. Патент явно указывает на фильтрацию multi-attribute documents, предпочитая страницы с узким фокусом.
Ниши и тематики: Сильное влияние в тематиках с большим количеством структурированных данных: E-commerce (характеристики), путешествия (достопримечательности), фактологическая информация (биографии, география).

Когда применяется

Условие применения (Офлайн): Алгоритм применяется для анализа пар шаблонов запросов, которые имеют один и тот же идентификатор Entity Collection и встречаются в логах запросов с достаточной частотой.
Триггеры активации (Онлайн): Когда входящий запрос пользователя соответствует одному из известных шаблонов, для которого существует семантически эквивалентный шаблон.
Исключения: Анализ может не проводиться для документов, идентифицированных как multi-attribute documents, чтобы избежать ложных корреляций.

Пошаговый алгоритм

Офлайн-процесс: Определение эквивалентности шаблонов (T1 и T2)

Идентификация кандидатов: Система определяет пару шаблонов запросов (T1 и T2), которые имеют одинаковый Entity Collection (EC).
Определение общих сущностей (Entity Groups): Из журнала прошлых запросов извлекаются все сущности (E), которые инстанциировали как T1, так и T2.
Проверка покрытия (По Claim 1 и 13): Проверяется, достаточно ли количество этих общих сущностей. Это может быть самостоятельным основанием для эквивалентности (Claim 13) или частью общей оценки (Claim 1).
Итерация по сущностям (По Claim 1 и зависимым): Для каждой общей сущности E выполняется расчет Entity Similarity Measure:
- Определяются инстанциации T1 и T2 для сущности E.
- Определяются общие документы (D), релевантные обоим наборам инстанциаций.
- Фильтрация документов: Исключаются multi-attribute documents (Claim 7).
- Расчет DSR: Для каждого документа D рассчитывается Document Selection Rate для T1 (DSR1) и T2 (DSR2).
- Расчет TSR и HMTSR: Рассчитываются Term Selection Rates для терминов T1 и T2. Затем вычисляется гармоническое среднее (HMTSR1 и HMTSR2) (Claim 4).
- Расчет вклада документа: Вычисляется вклад документа D в сходство по формуле (Claim 5): $Min((DSR1 * HMTSR1), (DSR2 * HMTSR2))$ .
- Агрегация вклада: Вклады всех документов агрегируются (например, с помощью L2-mean) для получения итоговой Entity Similarity Measure для сущности E.
Расчет итогового сходства: Расчет финальной Similarity Measure между T1 и T2 на основе агрегации Entity Similarity Measures и данных о покрытии из Шага 3.
Определение эквивалентности: Если Similarity Measure превышает порог, T1 и T2 помечаются как семантически эквивалентные, а их текстовые части — как синонимы.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются журналы прошлых запросов (record of past queries) и данные о кликах (selections). Эти данные необходимы для расчета Document Selection Rate (DSR) и Term Selection Rate (TSR).
Структурные факторы (Сущности): Используются данные о сущностях (Entities), их алиасах и принадлежности к коллекциям (Entity Collections). Это необходимо для идентификации шаблонов запросов и их инстанциаций.
Контентные факторы: Содержимое документов может использоваться для определения, является ли документ мультиатрибутным (Multi-attribute document).

Какие метрики используются и как они считаются

Document Selection Rate (DSR):
Отношение числа выборов документа D для инстанциаций шаблона T к общему числу выборов любых документов для этих инстанциаций.
$DSR(T, D) = \frac{\text{Selections(D) for Instantiations(T)}}{\text{Total Selections for Instantiations(T)}}$
Term Selection Rate (TSR):
Для термина Term и документа D. Рассчитывается на основе набора запросов (Q_set), которые привели к выбору D (и часто содержат сущность E).
$TSR(\text{Term}, D) = \frac{\text{Selections(D) from Q\_set containing Term}}{\text{Total Selections(D) from Q\_set}}$
Harmonic Mean of TSR (HMTSR):
Агрегация TSR для всех n терминов шаблона T.
$HMTSR(T, D) = \frac{n}{\sum_{k=1}^{n} \frac{1}{TSR_k}}$
Entity Similarity Measure Contribution (Вклад в меру сходства):
Комбинация DSR и HMTSR для документа D и шаблонов T1, T2.
Contribution(D) = Min [(DSR(T1,D) * HMTSR(T1,D)), (DSR(T2,D) * HMTSR(T2,D))]
Entity Similarity Measure (Мера сходства сущности):
Агрегация вкладов всех K документов для сущности E (например, L2-mean / среднеквадратичное значение).
$ES(E) = \left[ \sum_{j=1}^{K} (\text{Contribution}(D_j))^2 \right]^{1/2}$

Выводы

Поведение пользователей как источник истины для синонимов: Патент демонстрирует, что Google активно использует агрегированное поведение пользователей (клики) для обучения системы пониманию языка. Если пользователи реагируют одинаково на разные формулировки (выбирая одни и те же документы), система делает вывод о семантической эквивалентности этих формулировок.
Важность сущностей в понимании запросов: Механизм полностью основан на концепции Entity Collections. Эквивалентность определяется не абстрактно, а в контексте конкретного типа сущности. Фраза может быть синонимом в одном контексте (например, для городов) и не быть в другом.
Комплексная оценка сходства: Google не просто смотрит на пересечение результатов. Он использует сложную метрику, включающую DSR (популярность документа для запроса) и HMTSR (насколько документ релевантен *всем* терминам запроса). Использование гармонического среднего (HMTSR) обеспечивает высокое качество оценки релевантности.
Требование к статистической значимости: Для признания эквивалентности требуется не только высокое сходство поведения для отдельных сущностей (Entity Similarity), но и достаточное количество самих сущностей, демонстрирующих такое поведение (Quantity of Common Entities, Claims 1 и 13).
Предпочтение узкоспециализированного контента: Механизм фильтрации multi-attribute documents (Claim 7) указывает на то, что для калибровки системы понимания языка Google предпочитает документы, сфокусированные на одном конкретном атрибуте сущности, а не обзорные страницы.

Практика

Best practices (это мы делаем)

Оптимизация под интент и атрибуты сущностей: Сосредоточьтесь на понимании того, какой атрибут сущности ищет пользователь. Вместо механического перебора синонимов убедитесь, что страница является лучшим ответом на этот интент. Если страница удовлетворяет интент, она будет получать клики (высокий DSR), и Google сможет связать различные формулировки запросов с этой страницей.
Создание узкофокусированного контента (Single-Attribute Pages): Учитывая фильтрацию multi-attribute documents, создавайте страницы, посвященные конкретным атрибутам сущностей, если это целесообразно. Например, отдельная страница «Срок службы батареи iPhone 16» может быть более полезной для системы, чем общий обзор iPhone 16, включающий один абзац о батарее.
Улучшение распознавания сущностей (Entity SEO): Убедитесь, что Google четко понимает, о какой сущности идет речь на странице (используя разметку Schema.org, связь с Knowledge Graph). Это необходимо для того, чтобы ваш контент учитывался при анализе инстанциаций Query Templates.
Мониторинг CTR и поведенческих сигналов: Высокий CTR (отраженный в DSR) является прямым сигналом для этой системы. Работайте над привлекательными сниппетами и соответствием контента заголовку, чтобы максимизировать вероятность выбора вашего документа.

Worst practices (это делать не надо)

Слепая оптимизация под конкретные ключевые фразы: Чрезмерная фокусировка на точном вхождении конкретной фразы теряет эффективность. Google стремится понять эквивалентность фраз, поэтому система свяжет синонимы, если поведение пользователей это подтвердит.
Создание «раздутых» обзорных страниц для всех интентов: Попытка ранжироваться по всем возможным атрибутам сущности на одной длинной странице может быть менее эффективной, чем создание специализированных страниц, из-за механизма фильтрации multi-attribute documents.
Игнорирование поведения пользователей: Если страница релевантна по тексту, но не получает кликов (низкий DSR), она не поможет Google установить семантическую эквивалентность и, вероятно, будет ранжироваться хуже по связанным запросам.

Стратегическое значение

Этот патент подтверждает стратегию Google по переходу от анализа ключевых слов к пониманию интента через анализ сущностей и поведения пользователей. Он показывает, как именно пользовательские данные используются для обучения NLP-моделей. Для SEO это означает, что долгосрочная стратегия должна базироваться на глубоком понимании целевой аудитории, ее потребностей (интентов) и создании контента, который эти потребности наилучшим образом удовлетворяет, что подтверждается поведенческими метриками.

Практические примеры

Сценарий: Оптимизация сайта о путешествиях

Задача: Ранжироваться по запросам о достопримечательностях в разных городах.
Анализ (на основе патента): Google сравнивает шаблоны, такие как [достопримечательности в <Город>], [что посмотреть в <Город>], [интересные места в <Город>].
Действия SEO-специалиста:
- Вместо создания трех разных страниц под каждую фразу для одного города (например, «Париж»), создать одну исчерпывающую страницу.
- Выбрать основную формулировку (например, «Достопримечательности Парижа») для Title и H1.
- Убедиться, что страница максимально полно отвечает на интент (списки, карты, описания).
- Оптимизировать сниппет для максимизации CTR по всем вариантам запросов.
Ожидаемый результат: Пользователи, вводящие любой из вариантов запроса, будут кликать на эту страницу (высокий DSR). Google увидит это поведение для Парижа, Лондона, Рима и т.д. (Quantity of Common Entities). Система определит, что эти три шаблона эквивалентны, и страница будет высоко ранжироваться по всем синонимичным запросам.

Вопросы и ответы

Как система определяет, что два шаблона запросов эквивалентны?

Система использует два основных фактора. Первый — это количество общих сущностей, которые использовались в прошлых запросах для обоих шаблонов. Второй — это сходство поведения пользователей (Entity Similarity): если для множества сущностей пользователи кликают на одни и те же документы независимо от формулировки шаблона, система считает их эквивалентными.

Что такое Document Selection Rate (DSR) и почему он важен?

DSR показывает, как часто пользователи выбирают конкретный документ в ответ на запросы, соответствующие шаблону. Это ключевой показатель удовлетворенности пользователя и релевантности документа. Если документ имеет высокий DSR для двух разных шаблонов запросов, это сильный сигнал о том, что эти шаблоны семантически связаны.

Что такое Term Selection Rate (TSR) и чем он отличается от DSR?

DSR измеряет популярность документа для всего запроса (инстанциации шаблона). TSR измеряет важность конкретного *термина* из запроса для выбора этого документа. Он помогает понять, насколько каждый термин в шаблоне способствует релевантности результата, фильтруя шум и обеспечивая более точное понимание семантики.

Почему используется гармоническое среднее (HMTSR) для агрегации TSR?

Использование гармонического среднего гарантирует, что все термины в шаблоне должны иметь высокий TSR, чтобы общий HMTSR был высоким. Если хотя бы один термин имеет низкий TSR (то есть не важен для выбора документа), общий HMTSR будет низким. Это обеспечивает более строгую оценку релевантности всего шаблона.

Что такое «мультиатрибутный документ» и почему Google их фильтрует?

Это документ, который описывает слишком много разных атрибутов сущности (например, обзорная страница, покрывающая население, климат, историю и экономику города). Google фильтрует их (Claim 7), потому что они могут создавать ложные корреляции. Если пользователи кликают на такую страницу по запросам о климате и по запросам об экономике, это не значит, что «климат» и «экономика» — синонимы.

Как этот патент влияет на подбор ключевых слов (Keyword Research)?

Он снижает необходимость поиска и использования всех возможных синонимов вручную. Если вы создадите качественный контент, который удовлетворяет интент и получает клики (высокий DSR), Google самостоятельно свяжет различные синонимичные формулировки запросов с вашим контентом, используя механизм, описанный в патенте.

Нужно ли теперь создавать отдельные страницы под каждый синонимичный запрос?

Нет, этот патент как раз направлен на то, чтобы избежать этого. Цель состоит в том, чтобы создать одну каноническую страницу, которая отвечает на интент. Если система признает разные запросы эквивалентными, эта каноническая страница будет ранжироваться по всем вариантам.

Как я могу использовать фильтрацию мультиатрибутных документов в своей SEO-стратегии?

Это подтверждает важность создания узкоспециализированного контента. Если вы хотите ранжироваться по конкретному атрибуту сущности (например, «время зарядки смартфона X»), создание отдельной, глубоко проработанной страницы именно на эту тему может быть эффективнее, чем упоминание этого атрибута в общем обзоре смартфона X.

Выполняется ли этот процесс анализа эквивалентности в реальном времени?

Нет. Сам процесс анализа логов, расчета DSR, HMTSR и вычисления Similarity Measure требует больших вычислительных ресурсов и выполняется офлайн на агрегированных данных. Однако результаты этого анализа (база данных эквивалентных шаблонов и синонимов) используются в реальном времени при обработке запросов пользователей.

Как этот патент соотносится с технологиями вроде BERT или MUM?

Этот патент описывает метод сбора высококачественных обучающих данных о семантической эквивалентности, основанный на поведении пользователей. Современные NLP-модели, такие как BERT и MUM, превосходно умеют понимать контекст. Данные, генерируемые механизмом этого патента, могут использоваться для обучения или тонкой настройки (fine-tuning) этих моделей, предоставляя им надежные примеры синонимичных фраз.