Как Яндекс использует машинное обучение для прогнозирования поисковых подсказок (саджеста)

Яндекс патентует метод улучшения качества поисковых подсказок (автодополнения). Система обучается на истории запросов, разбивая их на части (n-граммы). Вместо того чтобы просто смотреть, как часто одно слово следует за другим (попарное появление), модель машинного обучения учится предсказывать вероятность появления целой группы слов в финальном запросе (групповое появление). Это позволяет генерировать более точные и контекстно-зависимые подсказки.

Описание

Какую задачу решает

Патент решает задачу повышения точности и релевантности поисковых подсказок (Search Suggestions или Autocomplete). Он направлен на улучшение прогнозирования того, как пользователь завершит частично введенный запрос. Традиционные методы, основанные только на частотности запросов или простой вероятности следующего слова (например, Марковские цепи), могут не учитывать более широкий контекст введенной фразы. Изобретение предлагает метод, который оценивает вероятность совместного появления целой группы терминов в предполагаемом финальном запросе.

Что запатентовано

Запатентован способ обучения алгоритма машинного обучения (MLA) для генерации поисковых подсказок. Суть изобретения заключается в переходе от анализа попарного совместного появления (pairwise co-occurrence) терминов к прогнозированию группового совместного появления (group co-occurrence). Система использует статистику попарного появления n-грамм из истории запросов в качестве признаков для обучения MLA, который затем предсказывает вероятность того, что частично введенный запрос и предлагаемое расширение вместе составят предполагаемый пользователем финальный запрос.

Как это работает

Система работает в два этапа: обучение и применение.

Офлайн (Обучение): Сервер анализирует множество прошлых запросов и разбивает их на n-граммы (например, слова). Для каждой пары n-грамм вычисляется статистика их совместного появления. Затем формируется обучающий набор, где входные данные – это признаки попарного появления, а целевая переменная (метка) – факт группового появления нескольких n-грамм в одном запросе. MLA обучается предсказывать эту метку.

Онлайн (Применение): Когда пользователь вводит частичный запрос, система определяет кандидатов на расширение. Обученный MLA используется для оценки каждого кандидата, предсказывая вероятность группового совместного появления введенной части и кандидата. Кандидаты ранжируются на основе этой оценки, и лучшие показываются как подсказки.

Актуальность для SEO

Высокая. Использование машинного обучения для формирования поисковых подсказок является стандартом в индустрии. Описанный подход, фокусирующийся на прогнозировании группового совместного появления для учета более широкого контекста, является сложным и актуальным методом повышения качества саджеста.

Важность для SEO

Влияние на традиционное SEO (ранжирование) минимальное (3/10). Патент описывает исключительно механизм формирования поисковых подсказок (саджеста) и не затрагивает процессы индексирования или ранжирования документов в поисковой выдаче. Однако он имеет значение для стратегий оптимизации видимости в подсказках (Suggest Optimization) и для понимания того, как Яндекс моделирует связи между различными запросами на основе поведения пользователей.

Детальный разбор

Термины и определения

MLA (Алгоритм машинного обучения): Алгоритм, который обучается на исторических данных для прогнозирования группового совместного появления n-грамм. Используется для ранжирования поисковых подсказок.
N-грамма (N-gram): Последовательность из n элементов. В контексте патента это могут быть буквы, фонемы, слоги или слова (Claim 11), извлеченные из прошлых пользовательских запросов.
Групповое совместное появление (Group Co-occurrence): Показатель, указывающий на появление группы из нескольких n-грамм (например, введенная часть запроса + предлагаемое расширение) в одном пользовательском запросе. Является целевой переменной (меткой) для обучения MLA и основным фактором ранжирования подсказок.
Попарное совместное появление (Pairwise Co-occurrence): Статистика, указывающая на совместное появление двух n-грамм в прошлых запросах (например, как часто слово B следует за словом A). Используется как входные признаки (features) для MLA.
Предлагаемый вариант расширения запроса (Suggested Expansion Variant): Поисковая подсказка (саджест). N-грамма или набор n-грамм, которые система предлагает пользователю для дополнения частично введенного запроса.
Частично введенный пользователем запрос (Partially Entered Query): Текст, который пользователь ввел в поисковую строку в данный момент.
Вектор признаков (Feature Vector): Численное представление n-граммы, основанное на ее признаках (в данном случае, на статистике попарного совместного появления с другими n-граммами).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения модели для генерации подсказок, а не на самом процессе генерации.

Claim 1 (Независимый пункт): Описывает способ обучения алгоритма MLA для определения предлагаемого варианта расширения.

Сервер принимает множество прошлых пользовательских запросов.
Запросы разделяются на множество n-грамм. Каждая n-грамма связывается с соответствующими признаками n-граммы, которые указывают на попарное совместное появление этой n-граммы с другими n-граммами в истории запросов.
Процесс генерации обучающего набора для данной n-граммы:

Выбираются «возможные n-граммы» (кандидаты на расширение) на основе статистики их попарного появления с данной n-граммой.
Формируются векторы признаков для данной и возможных n-грамм.
Формируется обучающий набор, состоящий из входного сегмента и сегмента метки.

Входной сегмент основан на n-граммах и их векторах признаков (т.е. статистике попарного появления).
Сегмент метки указывает на фактическое групповое совместное появление данной n-граммы и возможной n-граммы в исходном прошлом запросе.

MLA обучается на этом наборе. Цель обучения — научить модель предсказывать групповое совместное появление (метку), используя статистику попарного появления (входные признаки).

На этапе использования обученный MLA будет предсказывать групповое совместное появление для частично введенного запроса и возможных вариантов расширения, что используется для ранжирования подсказок.

Claim 4 (Зависимый от 1): Уточняет выбор возможных n-грамм.

Система может ранжировать n-граммы в зависимости от их попарного совместного появления с данной n-граммой и выбирать только Топ-N кандидатов для формирования обучающего набора.

Claim 5 и 6 (Зависимые от 1): Уточняют природу совместного появления.

Совместное появление означает, что одна n-грамма является предшествующей или последующей (в том числе непосредственно) для другой n-граммы в прошлом запросе.

Claim 8 (Зависимый от 1): Описывает этап использования (Inference) обученного MLA.

Прием частично введенного запроса.
Разделение его на «используемые n-граммы».
Выбор «используемых возможных n-грамм» (кандидатов на подсказку).
Формирование векторов признаков.
Выполнение алгоритма MLA для определения предсказанного группового совместного появления для введенной части и каждого кандидата.

Claim 9 и 10 (Зависимые от 8): Уточняют результат использования MLA.

Кандидаты ранжируются в зависимости от предсказанного группового совместного появления, и на основе этого определяется, какой вариант использовать в качестве подсказки.

Где и как применяется

Изобретение не относится к основным этапам поискового конвейера (Crawling, Indexing, Ranking), а реализуется на уровне пользовательского интерфейса и системы обработки запросов перед началом поиска.

Система Поисковых Подсказок (Саджест)

Механизм применяется в компоненте, отвечающем за генерацию автодополнения в реальном времени, когда пользователь вводит запрос в поисковую строку.

Взаимодействие с компонентами:

Логи Запросов (Query Logs): Система тесно взаимодействует с хранилищем исторических пользовательских запросов. Эти данные являются основой для расчета статистики попарного и группового появления и обучения MLA.
MLA-модель: Обученная модель используется для скоринга кандидатов на подсказку.

Данные на входе:

Офлайн (Обучение): Множество прошлых пользовательских запросов.
Онлайн (Применение): Частично введенный пользователем запрос.

Данные на выходе:

Офлайн: Обученный алгоритм MLA.
Онлайн: Ранжированный список предлагаемых вариантов расширения запроса (поисковые подсказки).

На что влияет

Пользовательский опыт (UX): Напрямую влияет на скорость и удобство ввода запроса пользователем.
Формулировка запросов: Влияет на то, какие именно запросы пользователи в итоге отправят поисковой системе. Более точные подсказки могут направлять пользователей к более популярным или релевантным формулировкам.
Типы запросов: Применяется ко всем типам запросов (информационные, коммерческие, навигационные), для которых активирована система подсказок.

Когда применяется

Обучение: Происходит офлайн, периодически, по мере накопления новых данных в логах запросов.
Применение (Inference): Активируется в реальном времени при каждом вводе символа в поисковую строку пользователем.

Пошаговый алгоритм

Процесс разделен на две фазы: Обучение и Применение.

Фаза А: Офлайн-обучение MLA

Сбор данных: Прием множества прошлых пользовательских запросов из логов.
Предварительная обработка: Разделение запросов на множество n-грамм (например, слов).
Расчет признаков: Определение признаков для каждой n-граммы. Эти признаки указывают на статистику попарного совместного появления (как часто данная n-грамма встречалась с любой другой n-граммой).
Формирование обучающего набора:
1. Выбор данной n-граммы из прошлого запроса.
2. Выбор «возможных n-грамм» (кандидатов), которые часто встречались с данной (Claim 3, 4).
3. Формирование векторов признаков на основе статистики попарного появления.
4. Создание обучающего примера: Вход = векторы признаков; Метка = факт группового совместного появления (встретились ли данная и возможная n-граммы вместе в этом конкретном прошлом запросе).
Обучение: Обучение MLA на сформированном наборе данных для предсказания группового совместного появления.

Фаза Б: Применение (Онлайн)

Получение ввода: Прием частично введенного пользователем запроса.
Обработка ввода: Разделение ввода на «используемые n-граммы».
Выбор кандидатов: Выбор «используемых возможных n-грамм» (кандидатов на расширение) из словаря на основе попарного совместного появления с введенными n-граммами.
Формирование признаков: Создание векторов признаков для введенной части и кандидатов.
Прогнозирование (MLA): Использование обученного MLA для предсказания скора группового совместного появления для каждой пары (ввод + кандидат).
Ранжирование и Выдача: Ранжирование кандидатов на основе предсказанного скора (Claim 9) и выбор лучших для показа в качестве подсказок (Claim 10).

Какие данные и как использует

Данные на входе

Система использует исключительно данные, связанные с текстом запросов и их историей.

Контентные факторы (Текстовые): Текст прошлых пользовательских запросов. Текст частично введенного запроса.
Поведенческие факторы (Косвенно): Сами логи запросов являются результатом поведения пользователей (что люди ищут). Система не использует данные о кликах по результатам поиска, но использует частотность и совместное появление запросов в логах.

В патенте не упоминается использование контентных, технических, ссылочных, структурных или мультимедиа факторов, связанных с веб-документами.

Какие метрики используются и как они считаются

N-граммы: Базовая единица анализа. Могут быть основаны на буквах, слогах или словах (Claim 11).
Признаки попарного совместного появления: Статистические метрики (например, частота, вероятность, PMI — Pointwise Mutual Information), рассчитываемые для каждой пары n-грамм на основе истории запросов. Учитывается порядок следования (предшествующая/последующая n-грамма) (Claim 5, 6).
Метрика группового совместного появления: Целевая переменная. В обучающем наборе это бинарная метка (появилась группа вместе или нет) или частотная характеристика. В режиме применения это предсказанный MLA скор (вероятность).
Алгоритмы машинного обучения (MLA): Используется для агрегации признаков попарного появления и предсказания группового появления. Тип MLA в патенте не уточняется.

Выводы

Фокус исключительно на Саджесте: Патент описывает внутренний механизм работы системы поисковых подсказок Яндекса и не имеет отношения к алгоритмам ранжирования поисковой выдачи.
Переход от Попарного к Групповому Контексту: Ключевая идея патента — улучшение качества подсказок за счет учета более широкого контекста. Вместо того чтобы просто предлагать наиболее частое следующее слово (попарное появление), система пытается предсказать вероятность появления целой фразы (групповое появление).
Машинное обучение для агрегации статистики: Яндекс использует MLA для сложного взвешивания и агрегации статистики попарного совместного появления n-грамм. Это позволяет модели выявлять более сложные зависимости в языке запросов, чем при использовании простых статистических моделей.
Зависимость от Истории Запросов: Система полностью основана на анализе логов прошлых пользовательских запросов. Качество ее работы зависит от объема и разнообразия этих данных. Она не использует данные из индекса веб-документов.
Гибкость Единиц Анализа: Система может работать не только на уровне слов, но и на уровне букв или слогов (n-граммы), что важно для обработки опечаток и генерации подсказок по мере ввода слова.

Практика

Best practices (это мы делаем)

Поскольку патент описывает механизм формирования саджеста, основанный на истории запросов, а не на ранжировании документов, прямых рекомендаций по оптимизации контента или технических аспектов сайта нет. Практическое применение ограничивается анализом подсказок и стратегиями Suggest Optimization.

Анализ подсказок для понимания интента: Регулярно изучайте поисковые подсказки по вашим ключевым запросам. Это дает понимание того, какие запросы Яндекс считает наиболее частотными и сильно связанными (высокое групповое совместное появление). Используйте эти данные для расширения семантического ядра и планирования контента.
Стимулирование поискового спроса (Search Demand): Для того чтобы бренд, продукт или конкретная формулировка попали в подсказки, необходимо, чтобы пользователи активно использовали их в своих запросах. Маркетинговые активности (реклама, PR), направленные на повышение узнаваемости и стимулирование поиска по конкретным фразам, могут способствовать появлению этих фраз в саджесте.
Мониторинг брендовых подсказок (SERM): Отслеживайте подсказки, связанные с названием вашего бренда. Патент показывает, что система выбирает подсказки на основе сложной оценки группового появления, поэтому появление негативных подсказок свидетельствует о высоком и устойчивом спросе на негативную информацию.

Worst practices (это делать не надо)

Искусственная накрутка подсказок: Попытки манипулировать саджестом с помощью ботов или заданий на буксах для генерации нужных запросов. Хотя этот патент не описывает механизмы фильтрации, такие действия нарушают правила поисковой системы и обычно фильтруются системами анти-спама.
Оптимизация контента под саджест напрямую: Бесполезно пытаться повлиять на содержимое подсказок через оптимизацию текстов на сайте. Механизм, описанный в патенте, работает исключительно на основе логов запросов, а не анализа контента веб-страниц.

Стратегическое значение

Патент подтверждает важность анализа поведения пользователей (в данном случае, истории запросов) для Яндекса. Он демонстрирует высокий уровень сложности в моделировании языка запросов, выходящий за рамки простых статистических подходов. Для SEO-стратегии это подчеркивает необходимость понимания реального поискового поведения и интентов пользователей, а не только формальной семантики.

Практические примеры

Сценарий: Выбор контекстно-зависимой подсказки

Предположим, пользователь вводит: «купить билет на сапсан в».

Традиционный подход (Попарное появление): Система смотрит, какое слово чаще всего следует за словом «в». Допустим, это «Москву» или «Питер».

Подход Яндекса (Групповое появление):

Анализ: Система анализирует весь контекст («купить», «билет», «сапсан», «в»).
Оценка Кандидатов: MLA оценивает вероятность группового совместного появления для разных вариантов:
- P(«купить» + «билет» + «сапсан» + «в» + «Москву»)
- P(«купить» + «билет» + «сапсан» + «в» + «Питер»)
- P(«купить» + «билет» + «сапсан» + «в» + «Тверь»)
Результат: Даже если слово «Москву» в целом более частотно после «в», модель может определить, что в контексте «сапсан» вероятность группового появления с «Питер» выше (или наоборот, в зависимости от реальной статистики), и предложит наиболее релевантный вариант, учитывая всю фразу целиком.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов в поисковой выдаче?

Нет, этот патент не влияет на ранжирование. Он описывает исключительно механизм работы поисковых подсказок (саджеста) — автодополнения, которое появляется при вводе запроса в поисковую строку. Алгоритмы ранжирования документов в SERP работают иначе и в данном патенте не рассматриваются.

В чем разница между «попарным» и «групповым» совместным появлением?

Попарное совместное появление (Pairwise Co-occurrence) — это статистика о том, как часто два элемента (например, слова А и Б) встречаются вместе в истории запросов. Групповое совместное появление (Group Co-occurrence) — это статистика о том, как часто целая группа элементов (например, слова А, Б, В и Г) встречаются вместе в одном запросе. Патент предлагает использовать статистику попарных связей как признаки для предсказания вероятности группового появления.

Могу ли я повлиять на поисковые подсказки, оптимизируя контент на своем сайте?

Нет, напрямую повлиять на подсказки через контент сайта нельзя. Механизм, описанный в патенте, работает исключительно на основе анализа логов прошлых пользовательских запросов. Чтобы фраза попала в подсказки, нужно, чтобы реальные пользователи часто и устойчиво вводили ее в поиск.

Что такое n-граммы в контексте этого патента?

N-граммы — это последовательности элементов, на которые разбиваются прошлые запросы для анализа. В патенте (Claim 11) указано, что это могут быть не только слова, но и буквы, слоги или даже фонемы. Это позволяет системе генерировать подсказки на разных уровнях детализации, в том числе до того, как слово введено целиком.

Как SEO-специалист может использовать информацию из этого патента?

Основная польза — это лучшее понимание того, как формируется саджест. Анализ подсказок дает представление о реальных интентах пользователей и популярных формулировках, которые Яндекс считает сильно связанными (высокая вероятность группового появления). Эту информацию следует использовать для качественногоKeyword Research, планирования структуры сайта и создания релевантного контента.

Использует ли этот механизм технологии вроде BERT или YATI?

В патенте это не упоминается. Описанный механизм основан на статистическом анализе совместного появления (co-occurrence statistics) и использовании традиционного MLA для их агрегации. Он не использует глубокие нейросетевые языковые модели для генерации семантических эмбеддингов, как это делают BERT или YATI.

Почему система использует машинное обучение (MLA), а не просто статистику частотности?

MLA используется для более сложного анализа контекста. Простая статистика частотности (например, самый частый запрос, начинающийся с введенной фразы) может быть неоптимальной. MLA позволяет взвесить множество признаков попарного появления и предсказать вероятность группового появления, что дает более точный прогноз финального намерения пользователя с учетом всей введенной фразы.

Может ли этот механизм убрать негативную подсказку о моем бренде?

Патент описывает механизм выбора наиболее вероятных подсказок на основе истории запросов. Он не описывает механизмы цензуры или фильтрации саджеста. Если негативный запрос часто задается пользователями вместе с названием бренда, система с высокой вероятностью определит для него высокий скор группового появления и покажет его в подсказках.

Учитывает ли система порядок слов при анализе совместного появления?

Да, учитывает. В патенте (Claim 5 и 6) явно указано, что совместное появление может означать, что одна n-грамма является предшествующей или последующей (в том числе непосредственно) для другой n-граммы. Это критически важно для генерации грамматически корректных и логичных подсказок.

Как система определяет кандидатов для подсказок до применения MLA?

До того как применить MLA для финального ранжирования, система отбирает предварительный список кандидатов («возможные n-граммы»). Согласно патенту (Claim 1, 4), этот выбор основывается на статистике попарного совместного появления. Отбираются те n-граммы, которые часто встречались с уже введенной частью запроса в исторических логах.