Как Google использует контекст сессии и поведенческие данные для генерации и ранжирования поисковых подсказок

Google использует систему для генерации поисковых подсказок (альтернативных запросов), анализируя текущую сессию пользователя. Система создает кандидатов путем замены терминов (Similarity Matrix) или расширения/сокращения исходного запроса (Expansion/Contraction Table). Подсказки ранжируются по формуле, учитывающей релевантность подсказки истории сессии, вероятность клика по результатам подсказки и позицию клика.

Описание

Какую задачу решает

Патент решает задачу помощи пользователю в модификации и уточнении поисковых запросов, которые часто бывают неоптимальными. Цель — предсказать следующий запрос, который пользователь, скорее всего, введет в рамках текущей поисковой сессии, и который приведет к удовлетворительным результатам. Это улучшает пользовательский опыт, сокращая усилия на переформулирование, что особенно актуально для языков со сложным вводом (например, CJK – китайский, японский, корейский), упомянутых в патенте.

Что запатентовано

Запатентована система генерации и ранжирования предложений по уточнению запросов (Suggested Alternative Queries). Система генерирует кандидатов двумя основными способами: заменой терминов на основе матрицы схожести (Similarity Matrix) и заменой фраз на основе таблицы расширения/сокращения (Expansion/Contraction Table). Ключевым элементом является механизм ранжирования, который учитывает контекст текущей поисковой сессии и прогнозируемое удовлетворение пользователя (на основе исторических данных о кликах).

Как это работает

Система работает как механизм предсказания следующего шага пользователя:

Получение контекста: Анализируется текущий запрос и предыдущие запросы в рамках одной сессии (Session Data).
Генерация кандидатов: Идентифицируются ключевые термины (Core Terms) и строится Extended Query Lattice. Кандидаты генерируются путем замены терминов на похожие (используя Similarity Matrix) или путем добавления/удаления слов для уточнения или обобщения запроса (используя Expansion/Contraction Table).
Ранжирование: Кандидаты оцениваются по целевой функции (Object Function F), которая комбинирует три фактора: релевантность кандидата истории сессии (Rel), историческую вероятность клика (Click(Q)) и историческую позицию клика (Position(Q)).
Вывод: Пользователю предлагаются наиболее вероятные и качественные альтернативные запросы.

Актуальность для SEO

Высокая. Системы поисковых подсказок (Suggest/Autocomplete) и связанных запросов (Related Searches) являются центральным элементом современного поиска. Использование контекста сессии для понимания намерений пользователя и поведенческих сигналов (кликов) для оценки качества подсказок остается крайне актуальной задачей для улучшения эффективности поиска.

Важность для SEO

Влияние на SEO высокое (85/100). Патент критически важен для понимания того, как Google направляет поисковое поведение пользователей и как формируются поисковые сессии. Понимание механизмов генерации связанных запросов позволяет SEO-специалистам оптимизировать контент под целые сценарии поиска (Search Journey), а не только под изолированные ключевые слова. Патент также явно подчеркивает важность поведенческих факторов (кликов) для видимости запросов в подсказках.

Детальный разбор

Термины и определения

Core Terms (Core Entities) (Ключевые термины/Сущности): Основные слова, фразы или сущности в запросе, несущие семантическую нагрузку. Система отличает их от стоп-слов.
Similarity Matrix (Матрица схожести): База данных, хранящая значения схожести между терминами. Рассчитывается на основе дистрибутивной семантики (анализа контекста слов в корпусе). Используется для замены терминов на семантически близкие (например, «Toyota» на «Honda»).
Feature Vector (Вектор признаков): Численное представление слова, используемое для расчета схожести в Similarity Matrix. Признаки основаны на окружающих словах в корпусе текстов.
Point-wise Mutual Information (MI) (Поточечная взаимная информация): Статистическая мера связи между словом и его признаком (контекстом). Используется для определения веса признаков в Feature Vector.
Expansion/Contraction Table (Таблица расширения/сокращения): Таблица пар составных фраз (compounds), где одна фраза является подстрокой другой (например, «Amazon» и «Amazon Rainforest»). Используется для уточнения или обобщения запроса.
Extended Query Lattice (Расширенная решетка запросов): Структура данных, представляющая исходный запрос и все сгенерированные альтернативные кандидаты.
Object Function F (Целевая функция F): Основная функция для ранжирования предложенных запросов. В описании определяется как F(Q) = Rel(Q, History) * Click(Q) * Position(Q).
Rel(Q, History) (Релевантность сессии): Мера релевантности между предложенным запросом Q и историей запросов в текущей сессии. Рассчитывается на основе Correlation между терминами.
Correlation (Cor(T1, T2)) (Корреляция терминов): Мера взаимосвязи между двумя терминами. Представлена как вектор весов, отражающих различные типы отношений (синонимы, атрибуты, категория и т.д.).
Click(Q) (Вероятность клика): Вероятность того, что предложенный запрос Q будет выбран пользователем. Может определяться на основе Click Duration (длительности клика).
Position(Q) (Позиция клика): Позиция результата поиска для запроса Q, на который кликнет пользователь. Служит индикатором прогнозируемой удовлетворенности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод ранжирования поисковых подсказок с учетом истории сессии и данных о кликах.

Система получает первый поисковый запрос.
Система получает набор запросов, введенных пользователем в текущей сессии (история сессии).
Генерируются кандидаты в подсказки (включая замену терминов).
Вычисляется оценка релевантности (relevance score) между историей сессии и каждым кандидатом.
Для каждого кандидата определяется позиция выбранного результата поиска (position of a selected search result) – историческая позиция клика, полученная, когда этот кандидат ранее использовался как запрос.
Вычисляется оценка ранжирования (ranking score) для каждого кандидата на основе его relevance score И position.
Кандидаты ранжируются, и предоставляются подсказки с наивысшим рейтингом.

Ядром изобретения является формула ранжирования подсказок, которая комбинирует контекстуальную релевантность текущей сессии и исторические данные об удовлетворенности пользователей результатами по этому запросу. Это предсказание следующего шага пользователя, который приведет к успешному завершению поиска.

Claim 3 (Зависимый): Уточняет, что ranking score также основывается на вероятности того, что подсказка будет выбрана пользователем (соответствует Click(Q) в описании).

Claim 4, 5, 6 (Зависимые): Детализируют расчет relevance score. Он основан на вычислении оценки корреляции (correlation score) между выровненными (aligned) ключевыми терминами (core terms) исходного запроса и запросов из истории сессии. Корреляция учитывает различные типы отношений (синонимы, акронимы, составные фразы и т.д.).

Где и как применяется

Изобретение применяется преимущественно на этапе понимания запросов для генерации вспомогательных элементов интерфейса (подсказок, связанных запросов).

Офлайн-процессы (Предварительная подготовка данных)
Значительная часть работы происходит офлайн для подготовки данных, используемых системой:

Анализ Web Corpus (веб-страниц, новостей, анкорных текстов) для построения Similarity Matrix.
Анализ Query Logs и Session Data для построения Expansion/Contraction Table и расчета корреляций (Cor).
Сбор исторических данных о кликах для расчета метрик Click(Q) и Position(Q).
Генерация кэша подсказок для частых запросов (Precomputed Modification/Refinement Cache).

QUNDERSTANDING – Понимание Запросов (Онлайн-процесс)
Основное применение патента. При вводе запроса система:

Получает текущий запрос и историю сессии.
Идентифицирует Core Terms.
Генерирует кандидатов (Extended Query Lattice) с помощью Similarity Matrix и Expansion/Contraction Table.
Ранжирует кандидатов, используя контекст сессии (Rel) и исторические данные о кликах (Click(Q), Position(Q)).

Входные данные:

Текущий запрос пользователя.
История запросов в текущей сессии (Session Data).
Предвычисленные таблицы: Similarity Matrix, Expansion/Contraction Table.
Предвычисленные метрики: Click(Q), Position(Q), Cor(T1, T2).

Выходные данные:

Отранжированный список альтернативных запросов (Поисковые подсказки/Автодополнение или Связанные запросы).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские сессии, где пользователь последовательно уточняет свой интент. Также влияет на запросы с неоднозначностью, предлагая варианты для ее разрешения.
Языковые особенности: Патент особо отмечает полезность для не-латинских языков (CJK), где ввод текста сложнее, но механизмы универсальны.
Ниши: Заметно влияет на E-commerce (продукты, атрибуты, бренды) и медиа (фильмы, актеры, песни, исполнители), где связи между сущностями играют ключевую роль в поиске.

Когда применяется

Триггеры активации: При вводе запроса пользователем (для автодополнения) и после генерации SERP (для блока «Связанные запросы»).
Условия применения: Система активируется, если может сгенерировать альтернативные запросы, удовлетворяющие пороговым значениям качества и релевантности (определяемым через Object Function F). В описании упоминается критерий: предлагаются подсказки, чья оценка не ниже оценки исходного запроса.

Пошаговый алгоритм

Процесс А: Офлайн Построение Структур Данных

Построение Similarity Matrix:
1. Анализ корпуса текстов. Для каждого слова строится Feature Vector на основе окружающих слов.
2. Значение каждого признака рассчитывается как Point-wise Mutual Information (MI).
3. Схожесть между двумя словами рассчитывается как косинус угла между их векторами признаков.
Построение Expansion/Contraction Table:
1. Анализ логов запросов (с сегментацией для CJK).
2. Идентификация частотных последовательностей (n-grams).
3. Создание пар фраз, где одна является подстрокой другой, с указанием их частот (Counts).
Расчет Корреляций (Cor):
1. Идентификация сущностей (Core Terms).
2. Определение корреляций между парами терминов как вектора весов, отражающих различные типы отношений (синонимы, атрибуты и т.д.), на основе логов, веб-страниц и анкорного текста.

Процесс Б: Генерация и Ранжирование Подсказок (Онлайн)

Получение Ввода и Контекста: Система получает текущий запрос (Qn) и историю сессии (Q1…Qn-1).
Идентификация Core Terms: В запросе определяются ключевые термины.
Генерация Кандидатов (Построение Extended Query Lattice):
- Метод 1 (Замена): Термины заменяются на похожие с использованием Similarity Matrix.
- Метод 2 (Расширение/Сокращение): Фразы заменяются с использованием Expansion/Contraction Table.
Ранжирование Кандидатов (Расчет Object Function F): Для каждого кандидата Q вычисляется итоговый Score F(Q):
- Расчет Rel(Q, History): Определение релевантности кандидата истории сессии. Это включает выравнивание (alignment) терминов и расчет произведения их корреляций (Cor).
- Получение Click(Q): Извлечение исторической вероятности клика (например, на основе Click Duration).
- Получение Position(Q): Извлечение исторической позиции клика (например, Inverted Click Position).
- Вычисление F(Q): Комбинирование Rel, Click и Position (например, F(Q) = Rel * Click * Position).
Фильтрация и Выбор: Выбирается Топ-N кандидатов с наивысшим Score.
Предоставление Подсказок: Отображение выбранных кандидатов пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны.
- Session Data: История запросов в текущей сессии используется для расчета контекстуальной релевантности (Rel).
- Query Logs: Исторические логи запросов применяются офлайн для построения Expansion/Contraction Table и Similarity Matrix.
- Click Data: Данные о кликах (позиция клика – click position, длительность клика – click duration) используются для расчета метрик удовлетворенности Click(Q) и Position(Q).
Контентные факторы: Web Corpus (включая новости, веб-страницы) используется офлайн для построения Similarity Matrix путем анализа контекстного окружения слов.
Ссылочные факторы: Анкорный текст (anchor text) упоминается как часть корпуса и источник данных для определения корреляций и схожести.

Какие метрики используются и как они считаются

Point-wise Mutual Information (MI): Используется как вес признака в Feature Vector. Формула: MI(w,f) = P(w,f) * log [P(w,f) / (P(w)*P(f))].
Similarity Value (sim): Схожесть между двумя словами. Рассчитывается как косинус угла между их Feature Vectors (Distributional Similarity).
Correlation (Cor(T1, T2)): Вектор весов, определяющий отношения между терминами (синонимы, атрибуты, связанные сущности и т.д.).
Rel(Q, History): Релевантность запроса контексту сессии. Рассчитывается как максимальное произведение корреляций (Cor) между выровненными терминами запроса и истории, взвешенных по их важности (например, TF/IDF).
Click(Q) и Position(Q): Метрики прогнозируемой удовлетворенности, основанные на исторических данных о кликах.
Object Function F: Агрегированная оценка для ранжирования подсказок. Формула: F(Q) = Rel * Click * Position.

Выводы

Контекст сессии критически важен для подсказок (Rel): Ранжирование подсказок персонализируется в реальном времени на основе всей истории запросов в текущей сессии. Google стремится понять общее направление поиска пользователя, а не только последний запрос.
Поведенческие данные определяют качество подсказки (Click и Position): Google предпочитает предлагать запросы, которые исторически приводили к удовлетворительным результатам. Подсказка считается качественной, если пользователи часто кликают на результаты по ней (высокий Click(Q)) и кликают на высокие позиции (хороший Position(Q)).
Два пути генерации кандидатов: Система использует два разных подхода для поиска альтернатив: (1) Семантическая замена терминов на основе анализа корпуса (Similarity Matrix) и (2) Уточнение или обобщение запроса на основе анализа логов (Expansion/Contraction Table).
Сложные NLP-механизмы для понимания связей: Для определения схожести и корреляции терминов используются продвинутые методы (дистрибутивная семантика, MI, многофакторные корреляции Cor), что позволяет находить нетривиальные связи (например, между певцом и песней), даже если нет общих слов.
Генерация подсказок — это задача предсказания успеха: Цель системы — не просто предложить связанный запрос, а предсказать запрос, который с наибольшей вероятностью приведет к успешному завершению поисковой задачи пользователя.

Практика

Best practices (это мы делаем)

Мыслить сессиями, а не изолированными запросами (Journey Optimization): Анализируйте путь пользователя (User Journey) от общих запросов к конкретным. Оптимизируйте контент так, чтобы он отвечал на последовательные интенты в рамках одной сессии. Это повышает релевантность (Rel) вашего контента в контексте сессии.
Оптимизировать под удовлетворенность пользователя (User Satisfaction): Патент прямо указывает, что запросы с лучшими историческими поведенческими метриками (Click(Q), Position(Q)) чаще попадают в подсказки. Необходимо добиваться высокого CTR на высоких позициях и низкого показателя возврата на выдачу (длинные клики). Если ваш контент хорошо удовлетворяет интент, соответствующий запрос будет чаще предлагаться Google.
Развивать Topical Authority и семантические связи: Создавайте контент, который охватывает широкий спектр связанных терминов, сущностей и их атрибутов. Это увеличивает вероятность того, что ваши термины будут включены в Similarity Matrix и Expansion/Contraction Table, а также повышает показатели Correlation между запросами, ведущими на ваш сайт.
Анализировать блоки «Связанные запросы» и Подсказки: Рассматривайте их как прямой индикатор того, какие запросы Google считает релевантными контексту сессии и качественными с точки зрения поведенческих факторов. Используйте их для расширения семантического ядра.

Worst practices (это делать не надо)

Использование кликбейта: Если пользователи быстро возвращаются на выдачу (короткие клики, низкий Click Duration), это негативно влияет на метрику Click(Q). В результате запросы, ведущие на такой контент, будут реже предлагаться в подсказках.
Оптимизация только под высокочастотные общие запросы: Игнорирование того, как пользователи уточняют эти запросы (данные из Expansion/Contraction Table), приводит к потере трафика на следующих этапах сессии.
Игнорирование связанных сущностей и атрибутов: Фокус только на прямых синонимах недостаточен. Система использует сложные модели Correlation для определения связей (например, бренд-продукт, автор-книга), которые необходимо учитывать в контент-стратегии.

Стратегическое значение

Патент подтверждает стратегическую важность поведенческих факторов не только для ранжирования сайтов, но и для управления поисковым поведением пользователей. Google стремится максимизировать успех поисковых сессий. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на том, чтобы стать лучшим ответом, который завершает поисковую сессию. Понимание того, как Google направляет пользователей через подсказки, позволяет перехватывать трафик на разных этапах воронки и строить авторитет в глазах системы.

Практические примеры

Сценарий: Улучшение видимости запроса в блоке «Связанные запросы»

Идентификация Целевой Сессии: Пользователь начинает с запроса [Выбор Телевизора]. Мы хотим, чтобы следующим предложенным запросом был [Лучшие OLED телевизоры 2025], ведущий на нашу обзорную статью.
Анализ Факторов Ранжирования Подсказки:
- Rel (Релевантность сессии): Запросы семантически связаны (данные из Expansion/Contraction Table и Correlation).
- Click(Q) и Position(Q) (Поведенческие данные): Нам нужно, чтобы наша статья по запросу [Лучшие OLED телевизоры 2025] имела отличные поведенческие метрики.
Действия SEO: Оптимизировать статью под запрос [Лучшие OLED телевизоры 2025]. Улучшить Title/Description для повышения CTR. Максимально полно раскрыть тему, чтобы увеличить время взаимодействия и снизить возврат на выдачу (улучшить Click Duration и обеспечить клики на высоких позициях).
Ожидаемый результат: Улучшение поведенческих метрик приведет к повышению Object Function F для запроса [Лучшие OLED телевизоры 2025]. Google начнет чаще предлагать его в качестве следующего шага после запроса [Выбор Телевизора], увеличивая целевой трафик.

Вопросы и ответы

Какие три компонента используются для ранжирования поисковых подсказок согласно патенту?

Патент описывает функцию оценки F(Q), которая базируется на трех основных компонентах. Первый — Rel(Q, History), релевантность подсказки истории запросов в текущей сессии. Второй — Click(Q), вероятность того, что пользователь выберет эту подсказку (часто основана на длительности клика). Третий — Position(Q), ожидаемая позиция клика в результатах поиска по этой подсказке, что служит индикатором качества выдачи.

Что такое Similarity Matrix и как она используется?

Similarity Matrix — это база данных, хранящая оценки схожести между парами терминов. Она строится офлайн путем анализа большого корпуса текстов с использованием дистрибутивной семантики (слова, встречающиеся в похожих контекстах, считаются близкими). В патенте она используется для генерации альтернативных запросов путем замены термина на похожий (например, замены «автомобиль» на «машина» или «Toyota» на «Honda»).

Что такое Expansion/Contraction Table и чем она отличается от Similarity Matrix?

Expansion/Contraction Table хранит пары фраз, где одна является подстрокой другой (например, «Шанхай» и «Город Шанхай» или «Amazon» и «Amazon Rainforest»). Она строится на основе анализа логов запросов (частотных n-грамм). В отличие от Similarity Matrix, которая используется для замены синонимов или однотипных сущностей, эта таблица используется для уточнения (расширения) или обобщения (сокращения) запроса.

Как именно патент учитывает контекст пользователя?

Контекст учитывается через метрику Rel(Q, History). Система анализирует все запросы, введенные пользователем в текущей сессии, и оценивает, насколько предложенный альтернативный запрос релевантен этой истории. Релевантность рассчитывается через сложный механизм корреляции (Correlation) между выровненными терминами в истории и терминами в предлагаемом запросе. Это позволяет персонализировать подсказки на лету.

Как поведенческие факторы влияют на то, какие запросы попадут в подсказки?

Поведенческие факторы играют ключевую роль в ранжировании подсказок через метрики Click(Q) и Position(Q). Если по какому-то запросу пользователи исторически часто кликают на результаты (высокий Click(Q)) и кликают на топовые позиции (хороший Position(Q)), этот запрос считается качественным и будет чаще предлагаться в подсказках.

Как SEO-специалист может повлиять на связанные запросы (Related Searches)?

Напрямую повлиять можно через улучшение поведенческих факторов для целевых запросов. Создавая контент, который максимально удовлетворяет интент пользователя (пользователь не возвращается на выдачу, кликает на высокие позиции), вы улучшаете метрики Click(Q) и Position(Q) для этого запроса. Это повышает его общий скор (Object Function F) и увеличивает вероятность его появления в блоке связанных запросов.

Означает ли этот патент, что популярность запроса — главный фактор для попадания в подсказки?

Нет. Популярность (частота в логах) используется для генерации кандидатов (например, при построении Expansion/Contraction Table). Однако финальное ранжирование определяется сложной формулой F = Rel * Click * Position. Популярный запрос, который нерелевантен контексту сессии или имеет плохие поведенческие метрики, уступит место менее популярному, но более полезному запросу.

Что такое Core Terms и как они определяются?

Core Terms (или Core Entities) — это основные смысловые единицы запроса. Система идентифицирует их, отфильтровывая стоп-слова и менее важные элементы. Например, в запросе «URL сайта sina», Core Term — это «sina». Именно Core Terms используются для генерации альтернатив и расчета корреляций между запросами.

Как рассчитывается схожесть между терминами для Similarity Matrix?

Используется метод дистрибутивной семантики. Для каждого слова строится вектор признаков (Feature Vector), где признаками являются окружающие его слова в корпусе текстов. Вес признака определяется через Point-wise Mutual Information (MI), чтобы снизить влияние частых, но неинформативных слов. Схожесть между двумя словами затем рассчитывается как косинус угла между их векторами признаков.

Применяется ли этот патент только к китайскому или другим CJK языкам?

Нет. Хотя в патенте упоминается, что система особенно полезна для языков CJK из-за сложности ввода, а также требует дополнительного этапа сегментации запроса на слова для языков без пробелов, описанные механизмы (использование истории сессии, матрицы схожести, ранжирование на основе кликов) являются универсальными и применимы к любым языкам.