Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

Описание

Какую задачу решает

Патент решает задачу прогнозирования следующего шага пользователя в процессе поиска информации (User Journey). Система стремится определить, какие запросы пользователь, вероятно, захочет ввести после просмотра определенного документа (веб-страницы). Цель — улучшить пользовательский опыт, предлагая контекстные подсказки (query suggestions), основанные на коллективном опыте предыдущих пользователей, которые просматривали этот или похожий контент.

Что запатентовано

Запатентован метод определения поисковых подсказок на основе просмотренного документа. Система анализирует исторические данные (Log Files), чтобы найти пары: «просмотренный документ» и «последующий запрос» (subsequent query). Для контента документа и текста запроса создаются векторные представления (feature representations). Затем система обучается (training a query suggestion rule) путем совместного встраивания (joint embedding) этих векторов в пространство сокращенной размерности (reduced dimensionality space). В этом пространстве определяется мера сходства (similarity measure), отражающая семантическую связь и вероятность совместной встречаемости.

Как это работает

Механизм работает в двух режимах: обучение и применение.

Обучение (Офлайн): Система анализирует логи, извлекая пары (Документ, Последующий Запрос). Контент и запросы преобразуются в векторы признаков (например, с использованием n-грамм, TF-IDF). Эти векторы совместно встраиваются в низкоразмерное пространство с помощью методов машинного обучения (упоминается LORETA). Цель обучения — чтобы документы и релевантные последующие запросы находились близко друг к другу в этом пространстве.
Применение (Онлайн): Когда пользователь просматривает новый документ, система генерирует его вектор признаков и отображает его в обученное пространство. Затем она находит векторы запросов, которые находятся на наименьшем расстоянии от вектора документа. Эти запросы предлагаются пользователю как подсказки.

Актуальность для SEO

Высокая. Понимание пути пользователя, предсказание намерений и контекстный поиск являются ключевыми направлениями развития поисковых систем. Методы векторного представления (embeddings) и анализа семантической близости лежат в основе современных NLP-технологий Google. Этот патент описывает фундаментальный подход к использованию этих методов для генерации контекстных подсказок на основе поведения.

Важность для SEO

Влияние на SEO высокое (8.5/10). Хотя патент напрямую не описывает алгоритм ранжирования, он критически важен для понимания того, как Google интерпретирует контент в контексте более широкой сессии пользователя. Он показывает, что Google оценивает не только релевантность страницы запросу, но и то, какие следующие интенты она порождает. Это влияет на стратегию создания контента, направленную на полное покрытие темы и оптимизацию всего пути пользователя (User Journey).

Детальный разбор

Термины и определения

Document Visited (Просмотренный документ): Документ (например, веб-страница), который пользователь просматривал непосредственно перед вводом следующего запроса.
Embedding (Встраивание, Эмбеддинг): Процесс отображения признаков (слов, документов, запросов) в векторное пространство, обычно сокращенной размерности.
Feature Representation (Представление признаков): Векторное представление контента документа или запроса. Может быть разреженным (sparse) и включать слова, n-граммы, TF-IDF-веса.
Joint Embedding (Совместное встраивание): Техника совместного встраивания разнородных объектов (в данном случае, документов и запросов) в одно и то же векторное пространство для отражения их статистических и семантических взаимосвязей.
Log Files (Лог-файлы): Исторические данные о посещенных документах и введенных запросах, включая временные метки и идентификаторы сессий. Используются для обучения модели.
LORETA (Online Learning in the Manifold of Low-Rank Matrices): Упомянутый в патенте метод онлайн-обучения для изучения низкоранговых матриц. Используется для эффективного обучения меры сходства и создания эмбеддингов, применяя оптимизацию на многообразиях.
Query Suggestion Rule (Правило поисковых подсказок): Обученная модель (включая параметры эмбеддинга и меру сходства), которая позволяет оценивать (скорить) потенциальные запросы на основе контента просматриваемого документа.
Reduced Dimensionality Space (Пространство сокращенной размерности): Векторное пространство, в которое встраиваются признаки документов и запросов. Оно имеет значительно меньше измерений, чем исходное пространство признаков.
Retraction (Ретракция): Математическая операция в методе LORETA, используемая для эффективного возвращения обновленного вектора на многообразие низкоранговых матриц после шага градиентного спуска.
Similarity Measure/Score (Мера сходства/Оценка сходства): Метрика, определяемая в Reduced Dimensionality Space, которая указывает на вероятность совместной встречаемости (likelihood of co-occurrence) или семантическую связь между документом и запросом.
Subsequent Query (Последующий запрос): Запрос, введенный пользователем после просмотра определенного документа в рамках одной сессии или временного окна.
Triplet (Тройка): Набор данных для обучения ранжированию: документ (w), более релевантный последующий запрос (q+), и менее релевантный запрос (q-).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обучения и применения системы для генерации подсказок.

Идентификация обучающего примера: пары (просмотренный документ, последующий запрос).
Генерация представлений признаков: создание первого вектора (для документа) и второго вектора (для запроса).
Обучение Query Suggestion Rule: Включает совместное встраивание (jointly embedding) признаков документа и запроса в reduced dimensionality space. Это встраивание индуцирует расстояния между эмбеддингами, которые отражают семантическую связь (semantic relationship) между контентом документа и запроса.
Применение модели к новому документу:
- Получение локатора (document locator) нового документа.
- Генерация третьего вектора (для нового документа).
- Отображение (mapping) третьего вектора в reduced dimensionality space.
- Нахождение эмбеддингов запросов, расположенных близко к эмбеддингу нового документа (на основе расстояний).
- Идентификация предлагаемых запросов на основе найденных эмбеддингов.

Claim 4 (Зависимый от 1): Детализирует процесс обучения с использованием ранжирования (Learning to Rank).

Правило обучается так, чтобы оценка сходства для более релевантной пары была выше, чем для менее релевантной пары, плюс некая константа (margin). Это стандартный подход, использующий сравнение пар (Pairwise LTR).

Формула: $S(w_i, q_i^+) > S(w_i, q_i^-) + c$

Claim 14 (Независимый пункт): Аналогичен Claim 1, подтверждая ключевую роль Query Suggestion Rule в обучении модели совместного эмбеддинга и ее применении для отображения нового документа в обученное пространство.

Где и как применяется

Изобретение в основном относится к этапам понимания запросов и взаимодействия с пользователем, но требует предварительной обработки данных на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает контент документов (из Content Database) и генерирует feature representations (векторы признаков), которые будут использоваться для обучения модели. Это включает NLP-обработку, извлечение n-грамм, расчет весов (например, TF-IDF).

QUNDERSTANDING – Понимание Запросов
Основное применение патента.

Анализ логов (Офлайн): Обработка Log Files для идентификации пар (Документ, Последующий Запрос) и генерации обучающих данных (включая тройки для LTR).
Обучение модели (Офлайн): Query suggestion rule trainer использует эти данные для обучения Query Suggestion Rule и создания Reduced Dimensionality Space (эмбеддингов).
Генерация подсказок (Онлайн): Когда пользователь просматривает документ (в браузере или приложении), Query suggestion rule engine использует обученную модель для предсказания релевантных последующих запросов.

Входные данные (Обучение):

Логи поисковых сессий (Log Files).
Контент документов (Content Database).

Входные данные (Применение):

Идентификатор (document locator, например, URL) или контент текущего просматриваемого документа.

Выходные данные:

Набор предложенных запросов (Suggested queries), релевантных контенту просматриваемого документа.

На что влияет

Типы контента: Влияет на любой тип контента, который просматривается пользователями перед тем, как они возвращаются к поиску (статьи, товары, форумы, мультимедиа).
Специфические запросы: Наиболее полезно для информационных и исследовательских сессий, где пользователи изучают тему в несколько этапов. Также применимо для коммерческих запросов (например, предложение поиска аксессуаров или конкурентов при просмотре основного товара).
Конкретные ниши: Применяется универсально. В патенте упоминаются примеры из технологий, развлечений (узнать имя знаменитости на фото), коммерции, образования.

Когда применяется

Алгоритм применяется в момент просмотра пользователем документа или при действиях, указывающих на намерение начать новый поиск.

Триггеры активации: Просмотр документа, перемещение курсора в строку поиска, переход на страницу поиска после просмотра документа.
Условия работы: Система должна иметь возможность идентифицировать просматриваемый документ и иметь обученную модель.
Фильтрация обучающих данных (Claims 5, 6): При обучении применяются пороги для отбора пар:
- Временной лимит между просмотром документа и последующим запросом (например, 1-10 минут).
- Отсутствие промежуточных событий (например, посещение другого документа без возврата).
- Частота совместной встречаемости пары в логах (порог от 2 до 50 раз или определенный процент от всех последующих запросов).

Пошаговый алгоритм

Процесс А: Обучение Query Suggestion Rule (Офлайн)

Сбор данных: Определение пар (просмотренный документ, последующий запрос) из Log Files.
Фильтрация данных: Применение порогов (время, частота) для отбора надежных обучающих пар.
Подготовка словаря: Определение словарей (отдельно для документов и запросов). Расширение словарей n-граммами и ограничение их размера на основе дискриминационной способности терминов (например, удаление стоп-слов, Information Gain).
Генерация признаков: Извлечение feature representations (векторов) для документов и запросов на основе подготовленных словарей (например, Bag of Words, TF-IDF).
Итеративное обучение и встраивание: Обучение Query Suggestion Rule.
- Идентификация троек: (Документ $w$ , Релевантный запрос $q^+$ , Нерелевантный запрос $q^-$ ).
- Итеративное совместное встраивание векторов в Reduced Dimensionality Space.
- Цель обучения (LTR): максимизация разницы в оценках сходства $S(w, q^+)$ и $S(w, q^-)$ . Используются методы онлайн-обучения, такие как LORETA, включающие градиентный спуск и ретракцию.
Определение меры сходства: Финализация Similarity Measure в обученном пространстве.
Сохранение модели: Сохранение обученной Query Suggestion Rule.

Процесс Б: Генерация подсказок (Онлайн)

Получение контекста: Система получает document locator текущего просматриваемого документа.
Генерация признаков: Извлечение контента документа и генерация его feature representation (вектора).
Отображение в пространство: Применение обученной Query Suggestion Rule для отображения вектора документа в Reduced Dimensionality Space.
Поиск ближайших запросов: Нахождение векторов запросов, которые имеют наибольшую меру сходства (наименьшее расстояние) с вектором документа в этом пространстве.
Ранжирование и выбор подсказок: Оценка потенциальных запросов с помощью Similarity Score. Выбор Топ-N запросов.
Предоставление подсказок: Отправка выбранных Suggested queries пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Log Files, содержащие историю посещений документов и последующих запросов. Включают данные о сессиях и временные метки. Это основной источник данных для установления связи между документами и запросами.
Контентные факторы: Содержимое просмотренных документов (текст). Используется для генерации document features.
Текстовые данные запросов: Текст последующих запросов. Используется для генерации query features.

Какие метрики используются и как они считаются

Feature Representations (Векторы признаков): Используются различные методы для генерации векторов:
- Binary (бинарное присутствие термина).
- Count-oriented (частота термина).
- Weighted (взвешенная частота). Упоминается TF-IDF как схема взвешивания, придающая больший вес терминам, частым в документе, но редким в корпусе.
Similarity Measure/Score (S): Мера сходства в Reduced Dimensionality Space. В патенте приводится пример расчета как внутреннего произведения спроецированных векторов: $S(Aw, Bq) = w^T A B^T q$ (где A и B — обученные матрицы проекции).
Методы машинного обучения:
- Joint Embedding: Для изучения геометрии пространства, отражающей статистические отношения.
- Learning to Rank (LTR): Использование троек (w, q+, q-) и функции потерь (например, online ranking hinge loss) для оптимизации модели, чтобы релевантные запросы ранжировались выше.
- LORETA: Конкретный алгоритм онлайн-обучения для эффективной работы с низкоранговыми матрицами при создании эмбеддингов (Metric Learning).

Выводы

Контент оценивается в контексте сессии: Google анализирует не только содержание страницы изолированно, но и то, какие действия она провоцирует у пользователей. Система агрегирует данные о том, что ищут люди после просмотра вашего контента.
Предсказание следующего интента (Next Intent): Система стремится предсказать следующий шаг пользователя. Это означает, что Google может определить, какая информация отсутствует на странице или каков логический следующий этап в исследовании темы, основываясь на поведении пользователей.
Семантическая связь за пределами ключевых слов: Благодаря использованию embeddings и Reduced Dimensionality Space, система может предлагать запросы, которые семантически связаны с контентом, даже если ключевые слова этих запросов отсутствуют на странице. Патент приводит примеры: предложить поиск «ремни» при просмотре страницы о брюках.
Сила поведенческих данных: Алгоритм основан на агрегации поведенческих данных (Log Files). То, как большинство пользователей взаимодействует с контентом, формирует Query Suggestion Rule.
Обобщение данных: Модель способна обобщать опыт. Если пользователи часто ищут X после документа A, система может предложить X после просмотра похожего документа B, даже если пара (B, X) никогда не встречалась в логах.

Практика

Best practices (это мы делаем)

Проектирование пути пользователя (User Journey Mapping): Анализируйте, откуда приходят пользователи и куда они, вероятно, захотят пойти дальше. Создавайте контент, который предвосхищает их следующие вопросы или потребности. Если ваша страница порождает необходимость в дополнительном поиске, лучше предоставить эту информацию сразу или дать четкую навигацию к ней на вашем сайте.
Полное раскрытие темы (Topical Completeness): Стремитесь к созданию контента, который исчерпывающе отвечает на информационную задачу. Если пользователи часто вводят один и тот же последующий запрос после вашей страницы, это сигнал, что эту тему нужно добавить на страницу или создать связанный контент.
Оптимизация под сессии, а не отдельные запросы: Рассматривайте SEO-стратегию как оптимизацию всей поисковой сессии. Цель — стать конечной точкой для пользователя или авторитетным хабом, который направляет его дальше внутри вашего ресурса, а не возвращает обратно в поиск Google.
Использование семантически связанных терминов и сущностей: Убедитесь, что ваш контент богат семантически связанными терминами, n-граммами и сущностями. Это поможет системе создать более точное векторное представление (embedding) вашего документа и связать его с релевантными последующими запросами.

Worst practices (это делать не надо)

Создание тупиковых страниц (Dead-end content): Контент, который не дает полного ответа и вынуждает пользователя немедленно вернуться в поиск для уточнения. Google зафиксирует этот возврат и последующий запрос, что может сигнализировать о неполноте вашего контента.
Игнорирование связанных интентов: Фокусировка только на одном узком запросе без учета смежных тем и следующих шагов. Например, писать обзор продукта без упоминания аксессуаров или решения проблем, если логи показывают, что пользователи часто ищут это после.
Поверхностный или кликбейтный контент: Страницы, которые не удовлетворяют интент, будут провоцировать быстрый возврат в поиск и ввод уточняющих запросов. Эти поведенческие паттерны будут зафиксированы и использованы системой.

Стратегическое значение

Этот патент подтверждает стратегическую важность понимания и оптимизации всего пути пользователя (User Journey). Google активно использует машинное обучение и поведенческие данные для моделирования этого пути. Стратегическое преимущество получают сайты, которые способны удовлетворить не только первичный интент пользователя, но и предвосхитить и удовлетворить его последующие потребности. Это также подчеркивает важность построения Topical Authority, так как авторитетные ресурсы чаще являются конечной точкой в информационном поиске.

Практические примеры

Сценарий 1: Оптимизация статьи в блоге о путешествии

Текущая страница: «Лучшие пляжи на Крите».
Анализ (Гипотетический): Исторические данные (Log Files) показывают, что после просмотра подобных страниц пользователи часто ищут «аренда авто Крит» или «отели Крит все включено». Google обучается связывать эти запросы со статьей.
Действие SEO: Включить в статью разделы о транспорте и проживании на Крите, или разместить внутренние ссылки на соответствующие подробные статьи на вашем сайте.
Ожидаемый результат: Уменьшение возврата пользователей в поиск Google для этих последующих запросов. Повышение удовлетворенности пользователя и улучшение поведенческих сигналов сайта.

Сценарий 2: Оптимизация карточки товара (E-commerce)

Текущая страница: Карточка товара «Цифровая камера Sony A7 IV».
Анализ (Гипотетический): Логи показывают, что пользователи часто вводят последующие запросы: «лучший объектив для Sony A7 IV» или «сравнение Sony A7 IV и Canon R6».
Действие SEO: Добавить на карточку товара блок с рекомендуемыми аксессуарами (объективы) и ссылку на сравнительный обзор с основными конкурентами.
Ожидаемый результат: Увеличение среднего чека за счет кросс-продаж и удержание пользователя от ухода на сайты конкурентов или обзорщиков для сравнения.

Вопросы и ответы

Что такое «Joint Embedding» документов и запросов, описанное в патенте?

Это процесс машинного обучения, при котором разнородные объекты — текст документа и текст запроса — отображаются в единое векторное пространство сокращенной размерности. В этом пространстве расстояние между векторами отражает их семантическую или статистическую связь. Если пользователи часто вводят запрос Q после просмотра документа D, система обучится размещать векторы D и Q близко друг к другу.

Может ли система предложить запрос, ключевых слов которого нет на странице?

Да, это одно из ключевых преимуществ описанного метода. Поскольку связь устанавливается на основе исторических данных о поведении пользователей и семантического анализа через эмбеддинги, система может выучить ассоциации, не очевидные из текста. Например, если пользователи часто ищут «рецепт соуса песто» после просмотра страницы о «выращивании базилика», система предложит этот запрос, даже если слово «песто» не упоминается.

Откуда Google берет данные для обучения этой модели?

Система использует Log Files — исторические записи о поисковых сессиях пользователей. Эти логи содержат информацию о том, какие документы были просмотрены и какие запросы были введены после них в рамках определенного временного окна или сессии. Патент указывает, что эти данные могут быть анонимизированы.

Как это влияет на мою контент-стратегию?

Это подчеркивает необходимость перехода от создания контента под отдельные ключевые слова к созданию контента, который обслуживает целую сессию или задачу пользователя (User Journey). Необходимо анализировать путь пользователя и предвосхищать его следующие вопросы. Если ваш контент не отвечает на эти вопросы, пользователь вернется в поиск, и Google зафиксирует этот «последующий запрос».

Как система определяет, является ли последующий запрос релевантным или нет?

В процессе обучения система использует фильтры частотности и методы ранжирования (Learning to Rank). Запросы, которые часто встречаются после просмотра документа, считаются положительными примерами (q+). Система формирует тройки, включая менее релевантный запрос (q-), и обучается давать более высокую оценку сходства релевантным парам (q+), чем нерелевантным (q-).

Влияет ли этот патент на ранжирование моего сайта в основной выдаче?

Патент напрямую описывает генерацию подсказок, а не ранжирование. Однако он влияет косвенно. Он дает понимание того, как Google анализирует удовлетворенность пользователя вашим контентом. Если пользователь вынужден искать дальше (генерируя subsequent query), это может быть сигналом о неполноте контента, что может учитываться системами оценки качества.

Что такое LORETA и почему это важно?

LORETA — это упомянутый в патенте алгоритм для эффективного обучения эмбеддингов (Metric Learning). Его важность заключается в том, что он позволяет обучать сложные модели на огромных объемах данных (миллиарды документов и запросов) в режиме онлайн, используя оптимизацию на многообразиях низкоранговых матриц. Это делает реализацию описанной системы масштабируемой и эффективной.

Может ли этот механизм работать для новых или малопопулярных сайтов?

Да. Хотя обучение зависит от массовых логов, применение модели работает для любого документа. Благодаря механизму эмбеддинга система может обобщать знания. Если контент нового сайта семантически похож на контент популярных сайтов (т.е. их векторы близки в пространстве), система сможет сгенерировать релевантные подсказки, используя данные, полученные от других сайтов.

Где пользователь может увидеть результаты работы этого алгоритма?

Эти подсказки могут появляться в различных интерфейсах: в строке поиска браузера (если он интегрирован с поисковой системой), на странице поиска при возврате к ней (например, блоки «Люди также ищут»), или как подсказки нулевого символа (Zero-input suggestions), когда пользователь только активирует строку поиска.

Как защититься от того, чтобы Google не предлагал запросы, ведущие к конкурентам, при просмотре моей страницы?

Полностью защититься нельзя, если пользователи действительно ищут конкурентов после вашей страницы (например, для сравнения цен). Однако можно минимизировать это, предоставив исчерпывающую информацию на своей странице. Если пользователи ищут сравнение, предоставьте его сами. Удовлетворение интента на вашей странице снижает вероятность возврата в поиск.