Как Google использует поведение пользователей для переписывания запросов и ограничения поиска конкретными сущностями (брендами, сайтами)

Google анализирует исторические данные о кликах, чтобы определить, когда название сущности (например, бренда или магазина) в запросе подразумевает поиск только внутри этой сущности. Если намерение пользователя однозначно (высокая концентрация кликов на одном домене), запрос автоматически переписывается (например, добавляется оператор store:). Если намерение неоднозначно, Google предлагает ограничение поиска в виде ссылки.

Описание

Какую задачу решает

Патент решает проблему неявного интента пользователя при поиске. Пользователи часто включают в запрос название сущности (например, магазина, бренда, новостного источника), намереваясь ограничить поиск рамками этой сущности, но не используют специальные операторы (например, site:, store:). Вводя [harry potter amazon], пользователь обычно хочет найти товары на Amazon, а не общие результаты, содержащие эти слова. Система улучшает релевантность, автоматически распознавая это намерение.

Что запатентовано

Запатентована система для автоматического или предлагаемого переписывания поисковых запросов на основе обнаружения названий сущностей (entity names). Система использует исторические данные о поведении пользователей (Query Log и клики), чтобы статистически оценить, насколько однозначно название сущности (метрика Peakedness). На основе этой оценки система решает: автоматически переписать запрос для ограничения поиска или предложить пользователю ссылку на переписанный запрос.

Как это работает

Механизм работает в двух режимах: офлайн (подготовка данных) и онлайн (обработка запроса).

Офлайн: Система анализирует логи запросов и клики. Для различных вариантов названий сущностей (Candidate Strings) оценивается распределение кликов. Если клики сильно сконцентрированы на одном домене (высокая Peakedness), название добавляется в Query Rewrite Table. Если концентрация умеренная, оно добавляется в Suggest Query Rewrite Table.
Онлайн: При получении запроса система проверяет его по таблицам. Если найдено совпадение в Query Rewrite Table, запрос автоматически переписывается (например, добавляется Restrict Identifier типа store:), и поиск выполняется по новому запросу. Если совпадение только в Suggest Query Rewrite Table, поиск выполняется по исходному запросу, но пользователю предлагается ссылка на переписанный вариант.

Актуальность для SEO

Высокая. Понимание сущностей (Entity Recognition) и намерений пользователя (Intent Classification) является фундаментом современного поиска. Использование агрегированных поведенческих данных для уточнения и переписывания запросов в реальном времени остается критически важной технологией на этапе Query Understanding, особенно для обработки брендовых и навигационных запросов.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно для E-commerce, брендов и издателей. Он описывает механизм, который может радикально изменить выдачу по запросам, содержащим название бренда. Если система однозначно ассоциирует бренд с вашим сайтом (высокая Peakedness), вы получаете преимущество, так как поиск может быть ограничен вашим доменом. Если ассоциация слабая или название неоднозначное, конкуренты и агрегаторы будут ранжироваться наравне с вами.

Детальный разбор

Термины и определения

Candidate Strings (Кандидатные строки): Различные варианты написания названия сущности или ее идентификатора, сгенерированные путем трансформаций (например, удаление «.com», замена пробелов, удаление «Inc.»).
Entity (Сущность): Объект, который может быть связан с определенными документами. Примеры: магазины, источники новостей, бренды, производители, авторы, организации.
Entity Identifier (ID) (Идентификатор сущности): Уникальный идентификатор сущности, такой как доменное имя (например, barnesandnoble.com), URL или идентификатор категории.
Peakedness (Степень концентрации / Пиковость): Статистическая мера, показывающая, насколько сильно распределение кликов сконцентрировано на одном конкретном Entity Identifier. Высокая Peakedness указывает на низкую неоднозначность названия и однозначный интент пользователя.
Query Log (Лог запросов): Хранилище исторических данных о поисковых запросах пользователей, выбранных ими результатах (кликах) и другом поведении.
Query Rewrite Table (Таблица переписывания запросов): Таблица, содержащая кандидатные строки с высокой Peakedness. Используется для автоматического переписывания запроса.
Restrict Identifier (Идентификатор ограничения): Специальный оператор, добавляемый к запросу для ограничения области поиска (например, store:, source:).
Suggest Query Rewrite Table (Таблица предложений переписывания запросов): Таблица, содержащая кандидатные строки с умеренной Peakedness (неоднозначные названия). Используется для генерации ссылок-предложений.
User Behavior Information (Информация о поведении пользователя): Данные в Query Log, характеризующие интерес пользователя: клики, время доступа к документу, конверсии (покупки), частичные конверсии (добавление в корзину).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс автоматического переписывания запроса с механизмом отката.

Система получает поисковый запрос.
Определяется, что запрос включает название сущности (entity name).
Принимается решение о необходимости переписывания запроса на основе информации о прошлых поисках (prior searches), связанных с этим названием.
Если ДА (решено переписать):
1. Запрос переписывается.
2. Выполняется поиск по переписанному запросу.
3. Генерируется ссылка (query link) на исходный запрос.
4. Пользователю предоставляются результаты переписанного запроса ВМЕСТЕ со ссылкой на исходный запрос. Выбор этой ссылки инициирует новый поиск по исходному запросу.

Claim 2 (Зависимый от 1): Описывает альтернативный сценарий (предложение переписывания), когда автоматическое переписывание не применяется.

Если НЕТ (решено не переписывать автоматически):
1. Принимается решение, следует ли предложить переписывание (rewriting suggestion).
2. Если ДА, генерируется предложение.
3. Выполняется поиск по исходному запросу.
4. Пользователю предоставляются результаты исходного запроса ВМЕСТЕ с предложением переписывания.

Claim 7 (Зависимый от 1): Детализирует критерий для принятия решения об автоматическом переписывании (Claim 1, шаг 3), вводя концепцию Peakedness.

Идентифицируются Entity Identifiers документов, которые выбирались в прошлых поисках, включавших это название сущности.
Определяется распределение общего числа выборов (кликов) для каждого идентификатора.
Решение о переписывании принимается, если распределение показывает, что общее число кликов для идентификатора, связанного с этой сущностью, является концентрированным (peaked) по сравнению с другими идентификаторами.

Claim 8 (Зависимый от 1): Уточняет механизм переписывания.

Переписывание включает модификацию запроса путем добавления Restrict Identifier (например, store:), связанного с названием сущности.

Где и как применяется

Изобретение в основном функционирует на этапе понимания запросов, используя данные, сгенерированные в ходе офлайн-анализа.

INDEXING / Офлайн-анализ
Система требует значительной предварительной обработки данных:

Анализ Query Logs и данных о поведении пользователей.
Идентификация сущностей и генерация Candidate Strings.
Расчет Peakedness и генерация Query Rewrite Table и Suggest Query Rewrite Table.

QUNDERSTANDING – Понимание Запросов
Основной этап применения в реальном времени. Система выполняет:

Обнаружение сущностей в запросе.
Сравнение с предварительно сгенерированными таблицами.
Принятие решения о стратегии (автоматическое переписывание, предложение или без изменений).
Модификация запроса путем добавления Restrict Identifier.

RANKING – Ранжирование
Система ранжирования получает на вход результат этапа QUNDERSTANDING. Если запрос был переписан с ограничением (например, store:amazon), это радикально меняет набор документов-кандидатов, ограничивая его только документами, связанными с указанной сущностью.

Входные данные:

Исходный запрос пользователя.
Query Rewrite Table.
Suggest Query Rewrite Table.
(Офлайн) Query Log и список сущностей/идентификаторов.

Выходные данные:

Итоговый запрос для системы ранжирования (исходный или переписанный).
(Опционально) Ссылка на исходный запрос или ссылка с предложением переписанного запроса.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, сочетающие тематику и название сущности (бренд, магазин, источник). Например: [ноутбук dell], [новости washington post].
Конкретные ниши: E-commerce (ограничение по магазину/бренду) и Новости (ограничение по источнику).
Типы контента: Влияет на выдачу товаров и статей, ограничивая ее конкретным доменом или категорией.

Когда применяется

Триггер активации: Обнаружение в запросе строки (Candidate String), которая присутствует в Query Rewrite Table или Suggest Query Rewrite Table.
Условие автоматического переписывания: Строка присутствует в Query Rewrite Table. Это происходит, когда анализ логов показал высокую степень концентрации (Peakedness) кликов на соответствующий Entity Identifier, и общее количество кликов превышает порог значимости.
Условие предложения переписывания: Строка присутствует в Suggest Query Rewrite Table. Это происходит, когда Peakedness недостаточна для автоматического переписывания, но соответствующий Entity Identifier является наиболее часто выбираемым.

Пошаговый алгоритм

Процесс А: Офлайн-генерация таблиц переписывания

Сбор данных: Получение списка названий сущностей и их идентификаторов (Entity IDs).
Генерация кандидатов: Создание Candidate Strings путем трансформации названий (удаление ‘www’, ‘Inc.’, замена пробелов и т.д.).
Анализ логов: Оценка каждой Candidate String с использованием Query Log. Поиск всех запросов, включающих данную строку.
Анализ кликов и поведения: Анализ того, на какие Entity IDs кликали пользователи и как они себя вели (конверсии, время на сайте).
Валидация сущности: Проверка, является ли наиболее кликабельный Entity ID ожидаемым для данной сущности. Если нет, строка игнорируется.
Проверка порога значимости: Проверка, превышает ли общее число кликов минимальный порог (например, 5). Если нет, строка игнорируется.
Расчет Peakedness: Анализ распределения кликов (возможно, с учетом весов поведения). Определение степени концентрации кликов на ожидаемом Entity ID.
Генерация таблиц:
- Если Peakedness высокая: Добавить строку в Query Rewrite Table.
- Если Peakedness умеренная: Добавить строку в Suggest Query Rewrite Table.

Процесс Б: Обработка запроса в реальном времени

Получение запроса: Система получает запрос от пользователя.
Оценка запроса: Поиск терминов запроса в Query Rewrite Table и Suggest Query Rewrite Table.
Проверка автоматического переписывания: Есть ли совпадение в Query Rewrite Table?
- Если ДА: Запрос переписывается (добавляется Restrict Identifier). Генерируется ссылка на исходный запрос. Поиск выполняется по переписанному запросу.
- Если НЕТ: Переход к шагу 4.
Проверка предложения: Есть ли совпадение в Suggest Query Rewrite Table?
- Если ДА: Генерируется ссылка с предложением переписанного запроса. Поиск выполняется по исходному запросу.
- Если НЕТ: Поиск выполняется по исходному запросу.
Представление результатов: Отображение результатов поиска и сгенерированных ссылок (если есть).

Какие данные и как использует

Данные на входе

Патент в первую очередь опирается на поведенческие данные.

Поведенческие факторы (Критические):
- Логи запросов (Query Log): История прошлых поисковых запросов.
- Клики (Selections/Clicks): Какие результаты (Entity IDs) выбирали пользователи по этим запросам.
- User Behavior Information: Данные о поведении после клика. Включает время доступа к документу (time spent accessing), конверсии (conversion, покупка) и частичные конверсии (partial conversion, добавление в корзину).
Системные данные: Списки сущностей (Entity Names) и их уникальные идентификаторы (Entity Identifiers, например, домены или категории).

Какие метрики используются и как они считаются

Distribution of Clicks (Распределение кликов): Распределение частоты кликов по различным Entity IDs для запросов, содержащих определенную Candidate String.
Peakedness (Степень концентрации): Метрика, оценивающая однозначность интента. Рассчитывается на основе распределения кликов. Методы расчета:
- Энтропия распределения.
- Сравнение топов: Например, если число кликов на Entity ID №1 превышает суммарное число кликов на следующие N (например, N=4) Entity IDs.
Weighted Measure (Взвешенная мера): Клики могут взвешиваться на основе User Behavior Information. Например, конверсия имеет больший вес, чем клик; длительный клик имеет больший вес, чем короткий. Peakedness может рассчитываться на основе этих взвешенных оценок.
Threshold (Порог значимости): Минимальное количество кликов (например, 5), необходимое для того, чтобы строка рассматривалась для включения в таблицы.

Выводы

Поведение пользователей определяет интерпретацию интента: Ключевой вывод — Google использует агрегированные исторические данные о поведении (клики, конверсии) для определения доминирующего намерения, связанного с названием сущности. Это определяет, рассматривается ли название как ключевое слово или как фильтр.
Дифференциация сущностей по степени однозначности (Peakedness): Система классифицирует названия на однозначные и неоднозначные не на основе лингвистики, а на основе концентрации пользовательского интереса. Метрика Peakedness является решающим фактором.
Два уровня уверенности ведут к разным действиям: Высокая уверенность (High Peakedness) приводит к агрессивному автоматическому переписыванию запроса и ограничению выдачи. Умеренная уверенность приводит к предложению альтернативы при сохранении исходной выдачи.
Автоматизация и адаптация: Генерация таблиц переписывания происходит автоматически через офлайн-анализ Query Logs, что позволяет системе адаптироваться к изменениям в поведении пользователей и появлению новых сущностей.
Защита пользователя от ошибок интерпретации: Система включает механизмы отката: при автоматическом переписывании предоставляется ссылка на исходный запрос, что позволяет пользователю контролировать процесс поиска.

Практика

Best practices (это мы делаем)

Укрепление ассоциации Бренд-Домен (Повышение Peakedness): Стратегическая задача — добиться того, чтобы пользователи, ищущие ваш бренд, преимущественно кликали на ваш официальный сайт. Это увеличивает Peakedness и повышает вероятность попадания в Query Rewrite Table, что приведет к автоматическому ограничению поиска вашим доменом по брендовым запросам.
Оптимизация сниппетов и CTR по брендовым запросам: Улучшайте привлекательность сниппетов по всем запросам, содержащим название вашего бренда и его вариации. Чем выше ваш CTR по сравнению с другими результатами (агрегаторами, отзовиками), тем выше Peakedness.
Улучшение поведенческих сигналов и конверсий (CRO): Поскольку патент упоминает возможность взвешивания кликов на основе конверсий и времени на сайте (User Behavior Information), оптимизация UX и CRO напрямую влияет на оценку качества вашего трафика и усиливает сигнал Peakedness.
Обеспечение уникальности бренда: Стремитесь к уникальному неймингу. Если название бренда совпадает с общими терминами, добиться высокой Peakedness будет сложнее, и система с меньшей вероятностью будет автоматически ограничивать поиск вашим сайтом.

Worst practices (это делать не надо)

Игнорирование утечки брендового трафика: Если по запросам, включающим ваш бренд, значительную долю кликов собирают другие сайты, это снижает Peakedness вашего домена. Система может перестать считать ваш сайт основным интентом для вашего же бренда.
Выбор общеупотребимых слов в качестве названия бренда: Использование названий типа «Coach» или «Apple» без массированной поддержки брендинга создает неоднозначность. Система классифицирует такие названия как ambiguous и поместит их в Suggest Query Rewrite Table, что приведет к показу смешанной выдачи.
Грубые манипуляции кликами (Накрутка ПФ): Попытки искусственно завысить Peakedness путем накрутки кликов могут быть неэффективны, так как система может учитывать качество поведения (конверсии, время на сайте) при взвешивании сигналов, фильтруя низкокачественные клики.

Стратегическое значение

Патент подтверждает критическую важность управления поведением пользователей и построения сильного бренда. Он демонстрирует механизм, с помощью которого Google переходит к Entity-Oriented Search, интерпретируя запросы на основе связей между названиями и сущностями, установленных через действия пользователей. Для сильных брендов этот механизм является защитным барьером, агрессивно сужающим выдачу до их официального сайта. Для реселлеров и обзорных сайтов это создает риск исключения из выдачи по запросам, содержащим названия доминирующих брендов.

Практические примеры

Сценарий 1: Однозначный бренд (Автоматическое переписывание)

Ситуация: Пользователь ищет [ноутбук dell].
Анализ Google: Исторические данные показывают, что по запросам с «dell» подавляющее большинство кликов и конверсий приходится на dell.com (высокая Peakedness). «Dell» находится в Query Rewrite Table.
Действие системы: Google автоматически переписывает запрос в [ноутбук store:dell] (или применяет эквивалентный внутренний фильтр).
Результат: В выдаче доминируют результаты с сайта dell.com. Google также показывает ссылку (query link): «Искать по исходному запросу: [ноутбук dell]».

Сценарий 2: Неоднозначный бренд (Предложение переписывания)

Ситуация: Пользователь ищет [сумка coach].
Анализ Google: Данные показывают, что пользователи кликают на coach.com, но также часто на другие магазины или на статьи, не связанные с брендом. Peakedness недостаточна. «Coach» находится в Suggest Query Rewrite Table.
Действие системы: Google выполняет поиск по исходному запросу [сумка coach].
Результат: В выдаче присутствуют разные сайты. Вверху выдачи Google показывает ссылку (rewriting suggestion): «Искать товары магазина Coach по запросу: [сумка]».

Вопросы и ответы

Как Google определяет, является ли название бренда однозначным или нет?

Согласно патенту, это определяется исключительно на основе анализа исторических данных о поведении пользователей (Query Log). Система анализирует распределение кликов (Distribution of Clicks). Если клики сильно сконцентрированы на одном домене (высокая Peakedness), название считается однозначным для данного контекста.

Что такое Peakedness (Концентрация) и как она рассчитывается?

Peakedness — это статистическая мера того, насколько сильно клики сконцентрированы на одной сущности. Один из методов расчета, описанных в патенте: если количество кликов на самую популярную сущность превышает сумму кликов на следующие N (например, 4) по популярности сущностей, то концентрация считается достаточной для автоматического переписывания.

Учитывает ли система только клики (CTR) или другие поведенческие факторы?

Система учитывает не только факт клика. В патенте упоминается User Behavior Information, включающая время доступа, конверсии (покупки) и частичные конверсии (добавление в корзину). Эти факторы могут использоваться для взвешивания значимости кликов: клик с конверсией имеет больший вес, чем просто просмотр.

Что произойдет, если мой бренд имеет общеупотребимое название (например, Apple или Coach)?

Если название неоднозначное, система, скорее всего, поместит его в Suggest Query Rewrite Table. Это означает, что при поиске вашего бренда Google покажет смешанную выдачу по общему запросу, но предложит пользователю ссылку для ограничения поиска вашим сайтом (например, «Искать только на Coach.com»). Автоматического ограничения не произойдет, пока Peakedness недостаточна.

Как я могу повлиять на то, чтобы Google автоматически ограничивал поиск моим сайтом по брендовым запросам?

Необходимо работать над увеличением Peakedness. Это достигается путем обеспечения того, чтобы пользователи, ищущие ваш бренд, преимущественно кликали на ваш официальный сайт и совершали там целевые действия. Это комплексная работа над брендингом, UX, оптимизацией сниппетов (CTR) и CRO.

В чем разница между Query Rewrite Table и Suggest Query Rewrite Table?

Query Rewrite Table содержит однозначные названия (высокая Peakedness) и используется для автоматического переписывания запросов. Suggest Query Rewrite Table содержит неоднозначные названия (умеренная Peakedness) и используется для генерации предложений по ограничению поиска без автоматического переписывания исходного запроса.

Если Google автоматически переписал запрос, может ли пользователь увидеть результаты по исходному запросу?

Да. В патенте (Claim 1) указано, что при автоматическом переписывании система генерирует и показывает пользователю ссылку (query link) на исходный запрос. Клик по этой ссылке инициирует новый поиск без ограничений.

Как система генерирует варианты названий брендов (Candidate Strings)?

Система применяет ряд трансформаций к официальному названию и идентификатору (домену). Примеры: удаление «Inc.» или «Co.», замена пробелов на дефисы, удаление апострофов, замена «and» на «&», удаление «www.» и «.com». Все эти варианты затем анализируются в Query Log.

Применяется ли этот патент только к интернет-магазинам?

Нет. Патент определяет «Entity» широко. Примеры включают магазины (контекст store:), новостные источники (контекст source:), а также бренды, производителей, авторов, людей и организации. Механизм универсален для разных типов сущностей.

Может ли этот механизм навредить дистрибьюторам или реселлерам?

Да, если бренд производителя признан однозначным (высокая Peakedness). В этом случае запрос [продукт бренд] может быть автоматически переписан для поиска только на официальном сайте бренда, исключая сайты реселлеров из первичной выдачи. Реселлеры смогут появиться, только если пользователь воспользуется ссылкой для отмены автоматического переписывания.