
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
Патент решает задачу прогнозирования следующего шага пользователя в процессе поиска информации (User Journey). Система стремится определить, какие запросы пользователь, вероятно, захочет ввести после просмотра определенного документа (веб-страницы). Цель — улучшить пользовательский опыт, предлагая контекстные подсказки (query suggestions), основанные на коллективном опыте предыдущих пользователей, которые просматривали этот или похожий контент.
Запатентован метод определения поисковых подсказок на основе просмотренного документа. Система анализирует исторические данные (Log Files), чтобы найти пары: «просмотренный документ» и «последующий запрос» (subsequent query). Для контента документа и текста запроса создаются векторные представления (feature representations). Затем система обучается (training a query suggestion rule) путем совместного встраивания (joint embedding) этих векторов в пространство сокращенной размерности (reduced dimensionality space). В этом пространстве определяется мера сходства (similarity measure), отражающая семантическую связь и вероятность совместной встречаемости.
Механизм работает в двух режимах: обучение и применение.
Высокая. Понимание пути пользователя, предсказание намерений и контекстный поиск являются ключевыми направлениями развития поисковых систем. Методы векторного представления (embeddings) и анализа семантической близости лежат в основе современных NLP-технологий Google. Этот патент описывает фундаментальный подход к использованию этих методов для генерации контекстных подсказок на основе поведения.
Влияние на SEO высокое (8.5/10). Хотя патент напрямую не описывает алгоритм ранжирования, он критически важен для понимания того, как Google интерпретирует контент в контексте более широкой сессии пользователя. Он показывает, что Google оценивает не только релевантность страницы запросу, но и то, какие следующие интенты она порождает. Это влияет на стратегию создания контента, направленную на полное покрытие темы и оптимизацию всего пути пользователя (User Journey).
sparse) и включать слова, n-граммы, TF-IDF-веса.Reduced Dimensionality Space, которая указывает на вероятность совместной встречаемости (likelihood of co-occurrence) или семантическую связь между документом и запросом.Claim 1 (Независимый пункт): Описывает основной метод обучения и применения системы для генерации подсказок.
Query Suggestion Rule: Включает совместное встраивание (jointly embedding) признаков документа и запроса в reduced dimensionality space. Это встраивание индуцирует расстояния между эмбеддингами, которые отражают семантическую связь (semantic relationship) между контентом документа и запроса.document locator) нового документа.mapping) третьего вектора в reduced dimensionality space.Claim 4 (Зависимый от 1): Детализирует процесс обучения с использованием ранжирования (Learning to Rank).
Правило обучается так, чтобы оценка сходства для более релевантной пары была выше, чем для менее релевантной пары, плюс некая константа (margin). Это стандартный подход, использующий сравнение пар (Pairwise LTR).
Формула: S(wi,qi+)>S(wi,qi−)+c
Claim 14 (Независимый пункт): Аналогичен Claim 1, подтверждая ключевую роль Query Suggestion Rule в обучении модели совместного эмбеддинга и ее применении для отображения нового документа в обученное пространство.
Изобретение в основном относится к этапам понимания запросов и взаимодействия с пользователем, но требует предварительной обработки данных на этапе индексирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает контент документов (из Content Database) и генерирует feature representations (векторы признаков), которые будут использоваться для обучения модели. Это включает NLP-обработку, извлечение n-грамм, расчет весов (например, TF-IDF).
QUNDERSTANDING – Понимание Запросов
Основное применение патента.
Log Files для идентификации пар (Документ, Последующий Запрос) и генерации обучающих данных (включая тройки для LTR).Query suggestion rule trainer использует эти данные для обучения Query Suggestion Rule и создания Reduced Dimensionality Space (эмбеддингов).Query suggestion rule engine использует обученную модель для предсказания релевантных последующих запросов.Входные данные (Обучение):
Log Files).Content Database).Входные данные (Применение):
document locator, например, URL) или контент текущего просматриваемого документа.Выходные данные:
Suggested queries), релевантных контенту просматриваемого документа.Алгоритм применяется в момент просмотра пользователем документа или при действиях, указывающих на намерение начать новый поиск.
Процесс А: Обучение Query Suggestion Rule (Офлайн)
Log Files.feature representations (векторов) для документов и запросов на основе подготовленных словарей (например, Bag of Words, TF-IDF).Query Suggestion Rule. Reduced Dimensionality Space.Similarity Measure в обученном пространстве.Query Suggestion Rule.Процесс Б: Генерация подсказок (Онлайн)
document locator текущего просматриваемого документа.feature representation (вектора).Query Suggestion Rule для отображения вектора документа в Reduced Dimensionality Space.Similarity Score. Выбор Топ-N запросов.Suggested queries пользователю.Log Files, содержащие историю посещений документов и последующих запросов. Включают данные о сессиях и временные метки. Это основной источник данных для установления связи между документами и запросами.document features.query features.TF-IDF как схема взвешивания, придающая больший вес терминам, частым в документе, но редким в корпусе.Reduced Dimensionality Space. В патенте приводится пример расчета как внутреннего произведения спроецированных векторов: S(Aw,Bq)=wTABTq (где A и B — обученные матрицы проекции).online ranking hinge loss) для оптимизации модели, чтобы релевантные запросы ранжировались выше.embeddings и Reduced Dimensionality Space, система может предлагать запросы, которые семантически связаны с контентом, даже если ключевые слова этих запросов отсутствуют на странице. Патент приводит примеры: предложить поиск «ремни» при просмотре страницы о брюках.Log Files). То, как большинство пользователей взаимодействует с контентом, формирует Query Suggestion Rule.embedding) вашего документа и связать его с релевантными последующими запросами.Этот патент подтверждает стратегическую важность понимания и оптимизации всего пути пользователя (User Journey). Google активно использует машинное обучение и поведенческие данные для моделирования этого пути. Стратегическое преимущество получают сайты, которые способны удовлетворить не только первичный интент пользователя, но и предвосхитить и удовлетворить его последующие потребности. Это также подчеркивает важность построения Topical Authority, так как авторитетные ресурсы чаще являются конечной точкой в информационном поиске.
Сценарий 1: Оптимизация статьи в блоге о путешествии
Log Files) показывают, что после просмотра подобных страниц пользователи часто ищут «аренда авто Крит» или «отели Крит все включено». Google обучается связывать эти запросы со статьей.Сценарий 2: Оптимизация карточки товара (E-commerce)
Что такое «Joint Embedding» документов и запросов, описанное в патенте?
Это процесс машинного обучения, при котором разнородные объекты — текст документа и текст запроса — отображаются в единое векторное пространство сокращенной размерности. В этом пространстве расстояние между векторами отражает их семантическую или статистическую связь. Если пользователи часто вводят запрос Q после просмотра документа D, система обучится размещать векторы D и Q близко друг к другу.
Может ли система предложить запрос, ключевых слов которого нет на странице?
Да, это одно из ключевых преимуществ описанного метода. Поскольку связь устанавливается на основе исторических данных о поведении пользователей и семантического анализа через эмбеддинги, система может выучить ассоциации, не очевидные из текста. Например, если пользователи часто ищут «рецепт соуса песто» после просмотра страницы о «выращивании базилика», система предложит этот запрос, даже если слово «песто» не упоминается.
Откуда Google берет данные для обучения этой модели?
Система использует Log Files — исторические записи о поисковых сессиях пользователей. Эти логи содержат информацию о том, какие документы были просмотрены и какие запросы были введены после них в рамках определенного временного окна или сессии. Патент указывает, что эти данные могут быть анонимизированы.
Как это влияет на мою контент-стратегию?
Это подчеркивает необходимость перехода от создания контента под отдельные ключевые слова к созданию контента, который обслуживает целую сессию или задачу пользователя (User Journey). Необходимо анализировать путь пользователя и предвосхищать его следующие вопросы. Если ваш контент не отвечает на эти вопросы, пользователь вернется в поиск, и Google зафиксирует этот «последующий запрос».
Как система определяет, является ли последующий запрос релевантным или нет?
В процессе обучения система использует фильтры частотности и методы ранжирования (Learning to Rank). Запросы, которые часто встречаются после просмотра документа, считаются положительными примерами (q+). Система формирует тройки, включая менее релевантный запрос (q-), и обучается давать более высокую оценку сходства релевантным парам (q+), чем нерелевантным (q-).
Влияет ли этот патент на ранжирование моего сайта в основной выдаче?
Патент напрямую описывает генерацию подсказок, а не ранжирование. Однако он влияет косвенно. Он дает понимание того, как Google анализирует удовлетворенность пользователя вашим контентом. Если пользователь вынужден искать дальше (генерируя subsequent query), это может быть сигналом о неполноте контента, что может учитываться системами оценки качества.
Что такое LORETA и почему это важно?
LORETA — это упомянутый в патенте алгоритм для эффективного обучения эмбеддингов (Metric Learning). Его важность заключается в том, что он позволяет обучать сложные модели на огромных объемах данных (миллиарды документов и запросов) в режиме онлайн, используя оптимизацию на многообразиях низкоранговых матриц. Это делает реализацию описанной системы масштабируемой и эффективной.
Может ли этот механизм работать для новых или малопопулярных сайтов?
Да. Хотя обучение зависит от массовых логов, применение модели работает для любого документа. Благодаря механизму эмбеддинга система может обобщать знания. Если контент нового сайта семантически похож на контент популярных сайтов (т.е. их векторы близки в пространстве), система сможет сгенерировать релевантные подсказки, используя данные, полученные от других сайтов.
Где пользователь может увидеть результаты работы этого алгоритма?
Эти подсказки могут появляться в различных интерфейсах: в строке поиска браузера (если он интегрирован с поисковой системой), на странице поиска при возврате к ней (например, блоки «Люди также ищут»), или как подсказки нулевого символа (Zero-input suggestions), когда пользователь только активирует строку поиска.
Как защититься от того, чтобы Google не предлагал запросы, ведущие к конкурентам, при просмотре моей страницы?
Полностью защититься нельзя, если пользователи действительно ищут конкурентов после вашей страницы (например, для сравнения цен). Однако можно минимизировать это, предоставив исчерпывающую информацию на своей странице. Если пользователи ищут сравнение, предоставьте его сами. Удовлетворение интента на вашей странице снижает вероятность возврата в поиск.

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент

Семантика и интент
Поведенческие сигналы
Персонализация

SERP
Поведенческие сигналы
Семантика и интент

Семантика и интент

Персонализация
Семантика и интент
Local SEO

Индексация
Семантика и интент
Ссылки

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Семантика и интент

Local SEO
Поведенческие сигналы
Свежесть контента

Поведенческие сигналы
Ссылки
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Ссылки
Мультимедиа
Поведенческие сигналы

Поведенческие сигналы
Local SEO

Ссылки
Индексация
Техническое SEO
