Как Яндекс использует машинное обучение для предсказания групповой сочетаемости слов в поисковых подсказках

Яндекс патентует метод улучшения поисковых подсказок (автодополнения). Вместо того чтобы просто предлагать слова, которые часто встречаются с введенным термином (парная сочетаемость), система использует машинное обучение для предсказания того, какие группы слов образуют законченный и полезный запрос (групповая сочетаемость). Это позволяет генерировать более точные подсказки, которые могут как дополнять, так и предшествовать введенному тексту.

Описание

Какую задачу решает

Патент решает задачу повышения качества и разнообразия поисковых подсказок (автодополнения). Традиционные системы часто полагаются исключительно на частоту совместного появления двух терминов (pair-based co-occurrence), что может приводить к не самым полезным подсказкам. Кроме того, многие системы предлагают только продолжение запроса (суффиксы), игнорируя слова, которые могут предшествовать введенному термину (префиксы). Изобретение направлено на генерацию более релевантных подсказок путем анализа сочетаемости целых групп терминов и позволяет предлагать варианты, которые могут как следовать за частично введенным запросом, так и предшествовать ему.

Что запатентовано

Запатентован метод и сервер для обучения алгоритма машинного обучения (MLA) предсказывать поисковые подсказки. Суть изобретения заключается в переходе от анализа парной сочетаемости (pair-based co-occurrence) к предсказанию групповой сочетаемости (group-based co-occurrence). Система учится определять, какая комбинация терминов формирует законченный и полезный запрос, используя статистику парной сочетаемости в качестве признаков для MLA.

Как это работает

Система анализирует историю поисковых запросов и разбивает их на n-граммы (например, слова). Сначала вычисляется статистика парной сочетаемости для всех возможных пар n-грамм. Затем эта статистика используется как признаки для обучения MLA. Цель MLA — научиться предсказывать групповую сочетаемость, то есть определять вероятность того, что определенная группа n-грамм (например, три или четыре слова) появится вместе в одном запросе. Во время использования, когда пользователь вводит часть запроса, система находит кандидатов на дополнение и использует обученный MLA, чтобы оценить, какие из кандидатов с наибольшей вероятностью сформируют полезную группу с введенным текстом.

Актуальность для SEO

Средняя. Методы генерации поисковых подсказок постоянно эволюционируют, и использование машинного обучения для анализа сочетаемости терминов является стандартной практикой. Хотя этот патент описывает конкретный подход к использованию групповой сочетаемости, современные системы (включая Яндекс) могут использовать более продвинутые нейросетевые архитектуры (например, трансформеры) для моделирования последовательностей запросов. Тем не менее, базовые принципы анализа сочетаемости остаются актуальными.

Важность для SEO

Влияние на SEO умеренное (4/10). Патент не описывает алгоритмы ранжирования веб-документов, индексации или оценки качества сайтов. Он полностью сосредоточен на генерации поисковых подсказок (Autocomplete). Однако поисковые подсказки оказывают значительное влияние на поведение пользователей и формулировку запросов. Понимание механизма их генерации позволяет SEO-специалистам лучше анализировать интент и влиять на то, как пользователи ищут информацию в их нише.

Детальный разбор

Термины и определения

Candidate N-gram (Кандидатная n-грамма): N-грамма из словаря, которая потенциально может дополнить текущую n-грамму для формирования полного запроса. Кандидаты обычно выбираются на основе высокой частоты парной сочетаемости с текущей n-граммой.
Feature Vector (Вектор признаков): Численное представление n-граммы, используемое в качестве входных данных для MLA. В данном патенте векторы признаков строятся на основе статистики парной сочетаемости этой n-граммы со всеми другими n-граммами в корпусе.
Group-based co-occurrence (Групповая сочетаемость): Показатель того, что определенная группа n-грамм (более двух) встречается вместе в рамках одного запроса. Это ключевая метрика, которую система пытается предсказать.
MLA (Machine Learning Algorithm / Алгоритм машинного обучения): Модель, которая обучается предсказывать групповую сочетаемость на основе признаков, извлеченных из статистики парной сочетаемости.
N-gram (N-грамма): Последовательность элементов из текста запроса. В патенте упоминается, что это могут быть буквы, фонемы, слоги или слова.
N-gram Features (Признаки n-граммы): Статистические данные, связанные с n-граммой, в первую очередь показатели ее парной сочетаемости с другими n-граммами.
Pair-based co-occurrence (Парная сочетаемость): Статистический показатель того, как часто две конкретные n-граммы встречаются вместе (как соседние или в пределах одного запроса) во всем корпусе прошлых запросов.
Partial User-Entered Query (Частично введенный пользовательский запрос): Текст, введенный пользователем в поисковую строку в текущий момент.
Past User Queries (Прошлые пользовательские запросы): Корпус исторических запросов (логи), используемый для анализа и обучения модели.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе обучения MLA для предсказания подсказок, а не на самом процессе генерации подсказок в реальном времени, хотя он также описывается.

Claim 1 (Независимый пункт): Описывает процесс обучения MLA.

Получение корпуса прошлых запросов.
Парсинг запросов на n-граммы. Каждая n-грамма ассоциируется с признаками (N-gram Features), которые указывают на парную сочетаемость (pair-based co-occurrence) этой n-граммы со всеми другими n-граммами в корпусе.
Для конкретной n-граммы (G) в конкретном прошлом запросе (Q) выполняется:
1. Выбор набора кандидатных n-грамм (C) на основе их парной сочетаемости с G.
2. Генерация векторов признаков (Feature Vectors) для G и всех C, используя их N-gram Features.
3. Генерация обучающего набора (Training Set):
  - Входные данные (Input portion): Основаны на G, C и их векторах признаков.
  - Метка (Label portion): Указывает на фактическую групповую сочетаемость (group-based co-occurrence) в этом конкретном запросе Q. То есть, какие из кандидатов C действительно присутствовали вместе с G в запросе Q.
4. Обучение MLA на этом наборе данных.

Цель обученного MLA — во время использования предсказывать групповую сочетаемость для нового частично введенного запроса и его кандидатов, чтобы определить наилучшую подсказку.

Claim 8 (Зависимый пункт): Описывает применение обученного MLA (In-Use Phase).

Получение частично введенного запроса.
Парсинг его на n-граммы (In-use n-gram, IUG).
Выбор кандидатов (In-use candidate n-grams, IUC) на основе парной сочетаемости с IUG.
Генерация векторов признаков для IUG и IUC.
Использование обученного MLA для определения предсказанной групповой сочетаемости (predicted group-based co-occurrence) на основе IUG, IUC и их векторов признаков.

Claims 9 и 10 (Зависимые пункты): Уточняют, что результаты предсказания групповой сочетаемости используются для ранжирования кандидатов и выбора тех, которые будут использованы в качестве подсказок.

Где и как применяется

Изобретение применяется исключительно на этапе QUERY PROCESSING – Понимание Запросов, в частности, в подсистеме генерации поисковых подсказок (Autocomplete/Query Suggestions).

Взаимодействие с компонентами системы:

Офлайн-процессы: Система взаимодействует с хранилищем логов запросов (Query Database) для извлечения исторических данных. Происходит масштабная предварительная обработка данных: расчет статистики парной сочетаемости для всех n-грамм и обучение MLA. Результаты (статистика и обученная модель) сохраняются для использования в реальном времени.
Онлайн-процессы (Runtime): Когда пользователь вводит запрос, система автодополнения обращается к базе данных статистики для быстрого поиска кандидатов и генерации признаков. Затем она использует обученный MLA для оценки и ранжирования этих кандидатов.

Данные на входе (In-Use Phase): Частично введенный запрос пользователя.

Данные на выходе (In-Use Phase): Ранжированный список поисковых подсказок (query-completion suggestions).

На что влияет

Специфические запросы: Влияет на все типы запросов, для которых генерируются подсказки. Особенно полезно для многословных запросов, где важно уловить правильную комбинацию терминов.
Поведение пользователя: Основное влияние — на формулировку запроса пользователем. Предлагая определенные группы слов, система направляет поисковую сессию пользователя.
Форматы контента и Ниши: Патент не делает различий между тематиками или типами контента. Механизм является общим для обработки языка запросов.

Когда применяется

Триггеры активации: Алгоритм активируется в ответ на ввод пользователем символов в поисковую строку (keystroke).
Частота применения: Применяется в реальном времени при каждом вводе символа для обновления списка подсказок.

Пошаговый алгоритм

Процесс работы системы разделен на две фазы: обучение и применение.

Фаза Обучения (Офлайн)

Сбор данных: Получение корпуса прошлых пользовательских запросов.
Парсинг и Токенизация: Разбиение запросов на n-граммы (например, слова).
Расчет парной сочетаемости: Вычисление статистики (например, частоты) совместного появления для каждой возможной пары n-грамм в корпусе. Эта статистика становится базовыми признаками n-грамм (N-gram Features).
Генерация обучающих наборов: Для каждой n-граммы (G) в каждом прошлом запросе (Q):
1. Выбор кандидатов: Отбор n-грамм (C), которые часто встречаются с G (на основе парной сочетаемости).
2. Генерация векторов признаков: Формирование векторов для G и C на основе их базовых признаков.
3. Определение метки (Ground Truth): Определение, какие из кандидатов C действительно присутствовали вместе с G в данном конкретном запросе Q. Это является меткой групповой сочетаемости.
Обучение MLA: Обучение модели предсказывать метку групповой сочетаемости, используя векторы признаков в качестве входных данных.

Фаза Применения (Онлайн)

Получение ввода: Получение частично введенного запроса от пользователя.
Парсинг: Разбиение ввода на n-граммы (IUG).
Выбор кандидатов: Быстрый поиск кандидатов (IUC) на основе парной сочетаемости с IUG.
Генерация признаков: Формирование векторов признаков для IUG и IUC.
Предсказание (Inference): Использование обученного MLA для расчета предсказанной групповой сочетаемости (вероятности) для каждого кандидата.
Ранжирование и Выдача: Ранжирование кандидатов на основе предсказанных вероятностей и отображение топовых результатов в качестве подсказок.

Какие данные и как использует

Данные на входе

Система использует исключительно данные из истории поисковых запросов.

Контентные факторы (Текстовые): Тексты прошлых пользовательских запросов. Они парсятся на n-граммы (слова, слоги, буквы или фонемы).

Никакие другие факторы (контент страниц, ссылки, поведенческие факторы на выдаче, технические факторы и т.д.) в данном патенте не упоминаются.

Какие метрики используются и как они считаются

Pair-based co-occurrence (Парная сочетаемость): Статистический показатель частоты совместного появления двух n-грамм. Может рассчитываться как количество запросов, содержащих обе n-граммы, или как отношение этого числа к общему числу запросов. Патент определяет совместное появление как ситуацию, когда одна n-грамма предшествует или следует за другой в одном запросе (Claim 5), возможно, непосредственно (Claim 6).
Group-based co-occurrence (Групповая сочетаемость): В фазе обучения это бинарная метка (1 или 0), указывающая, присутствует ли группа n-грамм в конкретном запросе. В фазе применения это предсказанное значение (вероятность), рассчитанное MLA.
Feature Vectors (Векторы признаков): Генерируются на основе N-gram Features (статистики парной сочетаемости). Вектор для n-граммы отражает ее связи со всеми другими n-граммами в словаре.

Выводы

От пар к группам: Ключевая идея патента — переход от простого анализа частоты совместного появления двух слов (парная сочетаемость) к более сложному анализу комбинаций слов (групповая сочетаемость). Это позволяет генерировать более осмысленные и законченные поисковые подсказки.
Машинное обучение как интерпретатор статистики: MLA используется для интерпретации сложного набора статистических данных о парной сочетаемости. Модель учится понимать, какие комбинации парных связей приводят к формированию устойчивых групп в реальных запросах.
Подсказки могут быть префиксами и суффиксами: В описании патента явно указывается, что система разработана для предоставления подсказок, которые могут как предшествовать (precede), так и следовать (follow) за частично введенным запросом, что увеличивает разнообразие и полезность автодополнения.
Зависимость от истории запросов: Система полностью полагается на логи прошлых запросов. Качество подсказок напрямую зависит от объема и качества этих исторических данных.
Отсутствие прямого влияния на ранжирование: Патент не описывает механизмов ранжирования веб-документов. Его влияние на SEO косвенное — через формирование пользовательских запросов.

Практика

Best practices (это мы делаем)

Хотя патент не дает прямых рекомендаций по оптимизации сайтов, он дает понимание того, как формируются запросы, по которым пользователи приходят на сайт.

Мониторинг и анализ поисковых подсказок: Регулярно анализируйте подсказки, связанные с вашими ключевыми запросами. Понимание того, как Яндекс группирует термины (основываясь на групповой сочетаемости), критически важно для понимания интента и выявления популярных семантических кластеров.
Оптимизация под естественные формулировки (Long-Tail): Так как система стремится предсказывать законченные группы слов, это подтверждает важность оптимизации контента под полные, естественные фразы, которые пользователи ищут, а не только под отдельные ключевые слова.
Усиление ассоциаций в контенте и PR (Влияние на Query Logs): Для того чтобы определенные фразы (например, бренд + товар) попали в подсказки, они должны часто искаться пользователями. SEO-специалисты могут косвенно влиять на это через контент-маркетинг, PR и рекламу, последовательно используя нужные сочетания слов. Это формирует спрос и увеличивает вероятность появления этих фраз в логах запросов, что, в свою очередь, повышает их парную и групповую сочетаемость.
Анализ префиксных и суффиксных подсказок: Обращайте внимание на то, какие слова Яндекс предлагает до и после вашего целевого термина. Это помогает понять контекст, в котором пользователи рассматривают вашу тему или продукт.

Worst practices (это делать не надо)

Манипуляции с подсказками (Накрутка): Попытки искусственно накрутить частотность определенных запросов для их попадания в подсказки являются нарушением правил поисковых систем и могут привести к санкциям. Описанная система, анализирующая сложные групповые сочетаемости через MLA, потенциально может быть более устойчива к простым накруткам частотности пар.
Игнорирование подсказок при сборе семантики: Составление семантического ядра без учета данных из поисковых подсказок приведет к потере значительной части актуального спроса и непониманию реальных формулировок пользователей.

Стратегическое значение

Патент подтверждает, что Яндекс рассматривает запросы не как набор отдельных слов, а как осмысленные группы, отражающие конкретные потребности. Для SEO это означает, что стратегически важно понимать язык целевой аудитории и те устойчивые сочетания слов, которые она использует. Хотя влияние на ранжирование косвенное, влияние на формирование спроса и анализ интента значительно. Понимание механизмов автодополнения является ключевым элементом исследования спроса (Demand Research).

Практические примеры

Сценарий: Анализ интента для интернет-магазина

Задача: Понять, как пользователи ищут «кроссовки Nike Air Max».
Действие: Ввод части запроса «Air Max» и анализ подсказок.
Интерпретация (с учетом патента): Пользователь видит подсказки «купить Air Max 90» и «женские кроссовки Air Max». Система предсказала (используя MLA и групповую сочетаемость), что слова «купить», «90», «женские», «кроссовки» с высокой вероятностью формируют законченную группу с «Air Max». Также система может предложить префиксные варианты (например, «кроссовки» перед «Air Max»).
SEO-действие: Убедиться, что на сайте есть посадочные страницы, оптимизированные именно под эти точные групповые формулировки, так как они генерируют трафик.

Сценарий: Усиление брендовых ассоциаций

Задача: Добиться того, чтобы при вводе названия услуги пользователи видели название компании в подсказках (например, «доставка пиццы Додо»).
Действие: Запуск медийной кампании, PR-активностей и контент-маркетинга, где последовательно используется фраза «Доставка пиццы Додо».
Ожидаемый результат: Пользователи начинают чаще использовать эту формулировку в поиске. В логах Яндекса увеличивается парная и групповая сочетаемость этих терминов.
Результат системы: MLA идентифицирует эту группу как высоковероятную, и фраза появляется в поисковых подсказках.

Вопросы и ответы

В чем основное отличие между парной (pair-based) и групповой (group-based) сочетаемостью?

Парная сочетаемость — это простая статистика того, как часто два слова встречаются вместе во всем массиве прошлых запросов. Групповая сочетаемость — это показатель того, что несколько слов (три и более) формируют законченный запрос. Патент предлагает метод предсказания групповой сочетаемости, используя статистику парной сочетаемости как входные данные для машинного обучения.

Как этот патент влияет на ранжирование моего сайта?

Напрямую этот патент на ранжирование не влияет. Он описывает исключительно механизм генерации поисковых подсказок (автодополнения). Однако подсказки формируют спрос: пользователи часто кликают на них, тем самым увеличивая объем трафика по конкретным формулировкам. Если ваш сайт хорошо ранжируется по этим формулировкам, вы получите больше трафика.

Что значит, что подсказка может предшествовать введенному тексту?

Это означает, что система может предлагать слова, которые ставятся перед тем, что вы уже ввели. Например, если вы ввели «Москва», система может предложить суффикс «Сити» (получится «Москва Сити»), а может предложить префикс «погода в» (получится «погода в Москва»). Патент описывает механизм, который позволяет генерировать оба типа дополнений.

Как система определяет, какая групповая сочетаемость лучше, если парная статистика высока для разных слов?

Именно для этого используется алгоритм машинного обучения (MLA). Например, слово «свет» часто встречается и с «зеленый», и с «красный» (высокая парная сочетаемость). Но если в контексте также присутствует слово «светофор», MLA, обученный на прошлых запросах, предскажет, что групповая сочетаемость для «красный свет светофор» выше, чем для «зеленый свет светофор».

Могу ли я повлиять на то, какие подсказки показывает Яндекс?

Напрямую — нет. Косвенно — да. Система обучается на истории запросов пользователей. Если вы через маркетинг, PR и контент на сайте сможете убедить большое количество людей искать определенную фразу (например, ваш бренд + услуга), эта фраза попадет в логи. Со временем система зафиксирует высокую групповую сочетаемость и начнет показывать эту фразу в подсказках.

Стоит ли использовать накрутку подсказок, исходя из этого патента?

Нет, это плохая практика, которая ведет к санкциям. Более того, система, использующая сложное машинное обучение для анализа групповой сочетаемости, может быть более устойчива к примитивным накруткам частотности, так как она анализирует не только частоту, но и сложные взаимосвязи между признаками разных слов.

Как использовать информацию из патента при сборе семантического ядра?

Этот патент подчеркивает важность анализа поисковых подсказок как источника реальных пользовательских формулировок. При сборе семантики необходимо выгружать и кластеризовать подсказки, так как они представляют собой те самые «группы слов», которые Яндекс считает наиболее вероятными и полезными. Игнорирование подсказок означает игнорирование актуального спроса.

Что такое n-граммы в контексте этого патента?

N-граммы — это элементы, на которые разбивается текст запроса. В патенте указано, что это могут быть не только слова, но и буквы, слоги или фонемы. На практике для генерации поисковых подсказок чаще всего используются слова или короткие словосочетания.

Как генерируются векторы признаков (Feature Vectors) для слов?

Вектор признаков для слова формируется на основе его статистики парной сочетаемости со всеми другими словами в словаре. Например, если в словаре 1000 слов, вектор признаков для слова «кошка» будет содержать 1000 значений, каждое из которых отражает, как часто «кошка» встречалась с соответствующим словом из словаря.

Использует ли этот механизм нейросети?

В патенте используется общий термин «Алгоритм машинного обучения» (MLA). Это может быть любой алгоритм, способный решать задачу классификации или регрессии, включая нейронные сети, градиентный бустинг (например, CatBoost) или другие методы. Конкретная реализация в патенте не уточняется.