Как Яндекс использует машинное обучение для предсказания поисковых подсказок на основе контекстуальной (групповой) сочетаемости терминов

Яндекс патентует метод улучшения поисковых подсказок (Autocomplete) с помощью машинного обучения (MLA). Система учится отличать термины, которые просто часто встречаются вместе (парная сочетаемость), от терминов, которые формируют осмысленный запрос в конкретном контексте (групповая сочетаемость). Это позволяет предлагать более точные и релевантные подсказки, которые могут как дополнять, так и предшествовать вводимому пользователем тексту.

Описание

Какую задачу решает

Патент решает задачу повышения качества и релевантности поисковых подсказок (Query-completion suggestions). Традиционные системы часто полагаются исключительно на частоту совместной встречаемости пар терминов (pair-based co-occurrence). Это может приводить к генерации подсказок, которые частотны, но нерелевантны в текущем контексте. Кроме того, патент устраняет ограничение систем, предлагающих только продолжение запроса (суффиксы), и вводит механизм для генерации подсказок, которые могут предшествовать введенному тексту (префиксы).

Что запатентовано

Запатентован метод и сервер для обучения алгоритма машинного обучения (MLA), предназначенного для прогнозирования поисковых подсказок. Суть изобретения заключается в переходе от анализа парной сочетаемости к прогнозированию Group-based co-occurrence (групповой сочетаемости). Система использует статистику парной сочетаемости в качестве признаков (features) для обучения MLA предсказывать вероятность того, что группа терминов совместно сформирует финальный запрос.

Как это работает

Система анализирует историю поисковых запросов (Past user queries). Сначала рассчитывается глобальная статистика: как часто пары терминов (n-грамм) встречаются вместе во всем массиве запросов (парная сочетаемость). Затем обучается модель (MLA). На вход модели подаются векторы признаков (Feature vectors), основанные на этой статистике. Цель обучения (Label) — определить, действительно ли эти термины встретились вместе в конкретном историческом запросе (групповая сочетаемость). В рабочем режиме, когда пользователь вводит часть запроса, система выбирает кандидатов на основе парной сочетаемости, но ранжирует их с помощью обученного MLA, чтобы предсказать вероятность групповой сочетаемости. Это позволяет отсеять частотные, но контекстуально неподходящие варианты.

Актуальность для SEO

Высокая. Использование машинного обучения для генерации и ранжирования поисковых подсказок является стандартом в индустрии. Акцент на контекстуальную релевантность (групповую сочетаемость) и способность предсказывать как следующие, так и предшествующие термины, крайне актуальны для современных поисковых систем, стремящихся максимально точно понять интент пользователя на лету.

Важность для SEO

Влияние на SEO значительно, но косвенное (6/10). Патент не описывает алгоритмы ранжирования основного поиска. Он напрямую влияет на систему поисковых подсказок (Autocomplete). Для SEO это важно, поскольку подсказки формируют видимый ландшафт запросов и направляют поведение пользователей. Понимание того, как Яндекс моделирует контекстуальные связи между словами (group-based co-occurrence), критически важно для построения семантического ядра.

Детальный разбор

Термины и определения

Candidate N-gram (Кандидатная N-грамма): Термин (n-грамма), выбранный системой в качестве потенциальной подсказки для текущего частичного запроса. Выбор основывается на высокой парной сочетаемости.
Feature Vector (Вектор признаков): Численное представление n-граммы, основанное на ее признаках (N-gram features). Используется как входные данные для MLA.
Group-based co-occurrence (Групповая сочетаемость): Показатель того, что группа из нескольких n-грамм совместно встречается в рамках одного конкретного запроса. В фазе обучения это фактическое наблюдение (Label/Ground Truth), в фазе применения — предсказанная вероятность (Predicted).
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Модель, которая обучается предсказывать групповую сочетаемость на основе признаков парной сочетаемости.
N-gram (N-грамма): Последовательность элементов из текста запроса. В патенте упоминаются фонемы, слоги, буквы или слова. В примерах используются слова (word-based n-grams).
N-gram Features (Признаки N-граммы): Характеристики n-граммы, основанные на статистике ее парной сочетаемости с другими n-граммами в истории запросов.
Pair-based co-occurrence (Парная сочетаемость): Статистический показатель того, как часто два термина (пара n-грамм) встречаются вместе во всем массиве исторических запросов. Это глобальная статистика.
Partial user-entered query (Частичный пользовательский запрос): Текст, введенный пользователем в поисковую строку в данный момент. N-граммы из этого текста называются In-use n-gram.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе обучения (Training) MLA для системы подсказок, а не только на методе ее применения (In-use).

Claim 1 (Независимый пункт): Описывает метод обучения MLA для определения подсказок.

Система получает массив прошлых запросов и парсит их на n-граммы.
Для каждой n-граммы определяются ее признаки (N-gram features), которые отражают парную сочетаемость (Pair-based co-occurrence) этой n-граммы с другими во всем массиве запросов.
Процесс генерации обучающей выборки для заданной n-граммы (G) в конкретном прошлом запросе (Q):
1. Выбор кандидатов (C): Отбираются кандидатные n-граммы на основе их парной сочетаемости с G.
2. Генерация векторов: Для G и C генерируются векторы признаков (Feature vectors).
3. Генерация обучающего набора (Training Set): Создается набор, включающий входные данные (Input portion) и метку (Label portion).
  - Input: Основан на векторах признаков G и C.
  - Label: Основан на групповой сочетаемости (Group-based co-occurrence) — т.е. проверяется, действительно ли C и G совместно присутствуют в этом конкретном запросе Q.
Обучение MLA: Модель обучается на этом наборе, чтобы в фазе применения предсказывать групповую сочетаемость для новых частичных запросов.

Ядро изобретения — это использование глобальной статистики по всему корпусу (Pair-based) в качестве признаков для обучения модели, которая предсказывает вероятность совместного появления в конкретном локальном контексте (Group-based).

Claim 4: Уточняет, что выбор кандидатов может включать ранжирование n-грамм по парной сочетаемости и выбор Топ-K результатов.

Claim 5: Уточняет, что совместная встречаемость (co-occurrence) означает, что одна n-грамма является либо предшествующей (preceding n-gram), либо следующей (following n-gram) по отношению к другой в рамках одного запроса. Это критически важное утверждение, подтверждающее способность системы генерировать подсказки как до (префиксы), так и после (суффиксы) введенного текста.

Где и как применяется

Изобретение применяется на этапе взаимодействия пользователя с поисковой строкой, до отправки финального запроса и этапа ранжирования.

QUERY PROCESSING – Понимание Запросов
Конкретнее, это подсистема генерации поисковых подсказок (Autocomplete/Query Suggestion System). Она активируется в реальном времени по мере ввода пользователем символов в поисковую строку (например, Omnibar).

Взаимодействие компонентов:

Пользовательский интерфейс: Перехватывает частичный запрос и отправляет его на сервер.
Сервер подсказок: Принимает частичный запрос, парсит его на in-use n-grams.
База данных/Индекс статистики запросов: Хранит исторические данные и предварительно рассчитанные N-gram features (статистику Pair-based co-occurrence) и Feature vectors. Используется для быстрого выбора кандидатов и извлечения признаков.
MLA (Обученная модель): Принимает векторы признаков текущей n-граммы и кандидатов и вычисляет Predicted group-based co-occurrence (вероятностную оценку).

Данные на входе: Частичный запрос пользователя (Partial user-entered query).

Данные на выходе: Ранжированный список поисковых подсказок (Query-completion suggestions), отсортированный по предсказанной вероятности групповой сочетаемости.

На что влияет

Специфические запросы: Влияет на все типы запросов. Особенно сильно влияет на неоднозначные или короткие частичные запросы, где контекст (определяемый через групповую сочетаемость) критически важен для генерации релевантной подсказки.
Формирование запроса пользователем: Основное влияние патента — на поведение пользователя при формулировании запроса. Предлагая контекстуально релевантные группы терминов, система направляет пользователя к более точным и популярным формулировкам.

Когда применяется

Условия работы: Алгоритм применяется при обработке ввода в поисковую строку в реальном времени.
Триггеры активации: Активация происходит в ответ на действия пользователя (например, нажатие клавиши, «keystroke») при вводе запроса.

Пошаговый алгоритм

Процесс разделен на две фазы: Обучение (Offline) и Применение (In-use/Online).

Фаза Обучения (Offline)

Сбор данных: Получение массива прошлых запросов.
Парсинг и Статистика: Парсинг запросов на n-граммы. Расчет Pair-based co-occurrence для всех пар n-грамм во всем массиве.
Генерация признаков: Определение N-gram features и генерация Feature vectors для каждой n-граммы на основе парной сочетаемости.
Генерация обучающего набора (для каждой n-граммы в каждом запросе):
1. Выбор кандидатов на основе высокой парной сочетаемости.
2. Формирование входа (Input): Векторы признаков n-граммы и кандидатов.
3. Определение метки (Label): Проверка фактической Group-based co-occurrence в данном конкретном запросе. (Например, для «cat» в запросе «cat eats bird», кандидаты «eats» и «bird» получат метку 1, а кандидат «beautiful», даже если он часто встречается с «cat» в других запросах, получит метку 0).
Обучение MLA: Обучение модели предсказывать Метку (Group-based) на основе Входа (Pair-based features).

Фаза Применения (Online)

Получение данных: Пользователь вводит частичный запрос (например, «dog»).
Парсинг: Запрос парсится на in-use n-grams («dog»).
Выбор кандидатов: Быстрый отбор in-use candidate n-grams (например, «shepherd», «german», «cute») на основе высокой парной сочетаемости с «dog».
Извлечение признаков: Получение (или генерация) Feature vectors для «dog» и всех кандидатов.
Выполнение MLA: Входные векторы подаются в обученную модель.
Прогнозирование: MLA генерирует Predicted group-based co-occurrence (вероятностные оценки) для каждого кандидата (например, «shepherd»: 0.8, «german»: 0.7, «cute»: 0.3).
Ранжирование и Выдача: Кандидаты ранжируются по этим оценкам, и топ-N результатов возвращаются пользователю как подсказки.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Основные данные — это тексты исторических поисковых запросов (Past user queries). Они используются для расчета всей статистики сочетаемости и обучения модели. Также используется текст текущего частичного запроса пользователя.
Структурные факторы (Порядок слов): Порядок n-грамм в исторических запросах используется для определения того, является ли сочетаемость предшествующей или следующей (Claim 5).

Другие типы факторов (ссылочные, поведенческие факторы, такие как клики по подсказкам, технические и т.д.) в данном патенте для описанного механизма не упоминаются.

Какие метрики используются и как они считаются

Pair-based co-occurrence (Парная сочетаемость): Статистическая метрика. Рассчитывается как количество раз, когда пара n-грамм совместно встретилась в массиве прошлых запросов. Может быть нормализована (например, как отношение к общему числу запросов).
N-gram Features (Признаки N-граммы): Набор значений парной сочетаемости данной n-граммы со всеми остальными n-граммами.
Feature Vector (Вектор признаков): Численное представление N-gram Features, используемое для ввода в MLA.
Group-based co-occurrence (Групповая сочетаемость): Целевая метрика.
- В фазе обучения (Label): Бинарное значение (0 или 1), указывающее, встретилась ли данная группа n-грамм в конкретном запросе.
- В фазе применения (Predicted): Вероятностная оценка (например, от 0 до 1), предсказанная MLA. Эта оценка используется для финального ранжирования подсказок.

Выводы

Контекст важнее частотности: Ключевой вывод — Яндекс стремится показывать подсказки, которые контекстуально релевантны (высокая групповая сочетаемость), а не просто состоят из часто встречающихся пар слов (высокая парная сочетаемость). Система учится подавлять частотные, но неуместные в данном контексте варианты.
Сложное моделирование взаимосвязей терминов: Для генерации подсказок используется машинное обучение (MLA), которое моделирует сложные зависимости между терминами. MLA выступает арбитром, определяя значимость парной статистики в текущем контексте.
Гибкость структуры запроса (Бидирекциональность): Система явно разработана для предсказания как следующих (суффиксы), так и предшествующих (префиксы) терминов (Claim 5). Это означает, что Яндекс анализирует структуру запросов нелинейно и может «достраивать» запрос в обе стороны.
Понимание языка запросов: Патент дает представление о том, как Яндекс интерпретирует естественный язык в запросах. Акцент на Group-based co-occurrence подчеркивает важность оптимизации под полные, осмысленные фразы и концепции (семантические группы), а не отдельные ключевые слова.

Практика

Best practices (это мы делаем)

Глубокий анализ поисковых подсказок Яндекса: Регулярно изучайте подсказки, которые Яндекс предлагает для ваших ключевых слов. Это прямой индикатор того, какие группы терминов (Group-based co-occurrence) система считает наиболее вероятными и контекстуально связанными. Это дает более точное представление о реальном спросе, чем простая частотность в Wordstat.
Оптимизация под полные концепции и QBST фразы: Создавайте контент, который использует естественные и полные фразы, отражающие реальные запросы пользователей. Убедитесь, что ваш контент содержит те самые «группы» терминов, которые появляются в подсказках. Это повышает вероятность того, что ваш контент будет релевантен финальному запросу пользователя.
Анализ бидирекционального контекста: Обращайте внимание на то, какие термины обычно предшествуют вашим ключевым словам (префиксы), а какие следуют за ними (суффиксы). Понимание полного контекстуального окружения термина критически важно, так как система предлагает подсказки в обе стороны.

Worst practices (это делать не надо)

Фокус на отдельных высокочастотных словах: Оптимизация под отдельные слова без учета их естественных сочетаний и контекста. Система подсказок ориентирована на группы, и пользователи будут выбирать эти группы.
Использование неестественных конструкций: Создание контента с перечислением ключевых слов или неестественными сочетаниями будет менее эффективным, так как система стремится выявить осмысленные групповые сочетания, отражающие естественный язык.
Накрутка подсказок: Попытки манипулировать подсказками. Хотя патент не описывает защиту, система, основанная на сложном ML-анализе естественных групповых паттернов (Group-based), потенциально более устойчива к простому спаму частотных пар (Pair-based).

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на глубоком понимании языка запросов и контекста на самых ранних этапах взаимодействия. Это демонстрирует, что для Яндекса важно понять связи между словами в рамках конкретной задачи пользователя. Для SEO это означает, что стратегия должна начинаться с анализа того, как пользователи ищут информацию, и какие формулировки им предлагает сама поисковая система. Понимание разницы между парной и групповой сочетаемостью помогает сместить акцент с чисто статистического подхода к семантическому и контекстуальному.

Практические примеры

Сценарий 1: Приоритет контекста над частотностью (Пример из патента)

Ситуация: Термин «свет» очень часто встречается с термином «зеленый» (высокая Pair-based co-occurrence). Также «свет» встречается с «красный» (чуть реже).
Обучение MLA: Модель научилась, что группа «красный свет стоп» имеет гораздо более высокую Group-based co-occurrence, чем «зеленый свет стоп».
Применение: Если пользователь вводит запрос, который контекстуально связан с дорожным движением (например, ввел «стоп свет»), MLA предскажет «красный» с более высокой вероятностью, чем «зеленый».
Результат: Система предложит подсказку, включающую «красный свет», несмотря на то, что «зеленый свет» в целом может быть более частотным сочетанием.

Сценарий 2: Предсказание предшествующего термина (Бидирекциональность)

Частичный запрос: Пользователь вводит «Москва».
Традиционный подход: Предложил бы суффиксы: «Москва погода» или «Москва купить».
Подход согласно патенту: MLA определяет высокую вероятность Group-based co-occurrence для группы, где кандидат предшествует запросу, например, «Билеты в Москву» или «Отели Москва».
Результат: Пользователю предлагаются подсказки, которые включают термины (префиксы), стоящие перед словом «Москва», что позволяет быстрее сформировать запрос.

Вопросы и ответы

В чем ключевое различие между Pair-based co-occurrence и Group-based co-occurrence?

Pair-based (парная сочетаемость) — это глобальная статистика по всему массиву исторических запросов. Она показывает, как часто два термина встречаются вместе в принципе. Group-based (групповая сочетаемость) — это локальный контекст: насколько вероятно появление группы терминов в одном конкретном запросе. Патент предлагает использовать Pair-based в качестве входных признаков для модели (MLA), чтобы предсказать Group-based.

Влияет ли этот патент на ранжирование в основном поиске Яндекса?

Нет, напрямую не влияет. Патент описывает исключительно работу системы поисковых подсказок (Autocomplete). Однако он оказывает косвенное влияние, так как подсказки формируют финальный запрос пользователя. Если система предлагает более точные и контекстуальные подсказки, пользователи будут использовать их, и SEO-специалистам необходимо оптимизировать контент именно под эти формулировки.

Что означает способность системы предлагать предшествующие термины (префиксы)?

Это означает, что система анализирует структуру запроса не только слева направо. Если пользователь ввел «Айфон», система может предложить не только суффикс «15» («Айфон 15»), но и префикс «Купить» («Купить Айфон»). В патенте (Claim 5) явно указано, что учитываются как следующие (following), так и предшествующие (preceding) n-граммы. Это дает большую гибкость в помощи пользователю сформировать интент.

Как система определяет, что лучше предложить, если есть несколько частотных вариантов?

Именно для этого используется машинное обучение (MLA). Модель обучается на исторических данных, чтобы понять сложные зависимости. Например (как указано в патенте), хотя «зеленый свет» может быть очень частым (высокая Pair-based), если в контексте есть слово «стоп», модель предскажет более высокую вероятность (Group-based) для «красный свет», так как эта группа более осмысленна в данном контексте.

Как SEO-специалисту использовать информацию из этого патента на практике?

Необходимо тщательно анализировать поисковые подсказки Яндекса по вашим основным запросам. Эти подсказки — результат работы описанного MLA, и они показывают, какие группы терминов Яндекс считает наиболее контекстуально связанными. Ваша стратегия контента должна фокусироваться на этих группах (QBST фразах), а не на отдельных ключевых словах.

Используются ли поведенческие факторы (например, клики) в этом алгоритме?

В данном патенте поведенческие факторы (клики по подсказкам или результатам выдачи) не упоминаются как признаки для обучения MLA. Алгоритм основан исключительно на анализе текстов исторических запросов и расчете статистики парной и групповой сочетаемости терминов в этих текстах.

Что такое N-gram Features и Feature Vectors в контексте этого патента?

N-gram Features — это статистические данные о том, как часто данная n-грамма встречается с другими n-граммами (Pair-based co-occurrence). Feature Vector — это численное представление этих статистических данных, которое можно подать на вход алгоритму машинного обучения (MLA). По сути, это профиль сочетаемости термина.

Зачем нужно обучать MLA, если можно просто использовать статистику частотности?

Простая статистика частотности (Pair-based) не учитывает контекст и может приводить к нерелевантным подсказкам. MLA необходим для моделирования более сложных взаимосвязей и предсказания контекстуальной релевантности (Group-based). MLA учится, когда высокая частотность действительно указывает на хорошую подсказку, а когда ее следует игнорировать в пользу более подходящего по контексту варианта.

Использует ли эта система персонализацию?

В данном патенте персонализация пользователя (например, его история поиска или интересы) не упоминается. Механизм основан на анализе общей агрегированной истории поисковых запросов всех пользователей для расчета метрик Pair-based и Group-based co-occurrence.

Можно ли повлиять на работу этого алгоритма (накрутить подсказки)?

Напрямую повлиять на модель сложно. Переход к сложному MLA, который анализирует групповые паттерны (Group-based), делает систему более устойчивой к простому спаму частотных пар (Pair-based). Манипулировать сложными контекстуальными паттернами значительно сложнее, чем простой частотностью, хотя полностью исключить манипуляции нельзя.