Как Яндекс фильтрует и диверсифицирует поисковые подсказки и связанные запросы на основе схожести их поисковой выдачи

Яндекс патентует метод диверсификации обогащенных запросов (поисковых подсказок, связанных запросов). Чтобы не показывать пользователю схожие варианты, система определяет их семантическую близость на основе того, насколько пересекаются результаты поиска (SERP) по этим запросам. Если выдача схожа, запросы считаются дубликатами, и показывается только один из них. Для ускорения используется ML-модель, обученная предсказывать схожесть выдачи по тексту запросов.

Описание

Какую задачу решает

Патент решает проблему избыточности (redundancy) и низкой диверсификации обогащенных запросов (Enriched Queries). К ним относятся поисковые подсказки при вводе (query-completion suggestions), а также связанные запросы на странице выдачи (hints, follow-up queries). Показ нескольких вариантов, которые ведут на очень похожие результаты поиска (SERP), неэффективно использует пространство интерфейса и не помогает пользователю найти разнообразную информацию. Изобретение призвано увеличить разнообразие (variety) результатов, доступных через обогащенные запросы.

Что запатентовано

Запатентована система для генерации и фильтрации (дедупликации) обогащенных запросов. Суть изобретения заключается в методологии определения схожести между двумя запросами-кандидатами: схожесть определяется на основе степени пересечения результатов поиска (SERP Similarity), которые генерируются для этих запросов. Если результаты поиска сильно пересекаются, запросы считаются схожими, и система отображает только один из них.

Как это работает

Система получает исходный запрос (или его часть) и генерирует список кандидатов с помощью Первой Модели (First Model). Затем она оценивает схожесть между парами кандидатов. В патенте описаны два ключевых подхода к оценке схожести:

Подход 1 (ML-предсказание, Claim 1): Используется предварительно обученная Вторая Модель (Second Model). Эта модель обучена офлайн предсказывать степень схожести поисковой выдачи, анализируя только текст запросов-кандидатов. Это быстро и эффективно.
Подход 2 (Real-time сравнение, Claim 11): Система в реальном времени генерирует поисковую выдачу для каждого кандидата и напрямую сравнивает списки документов. Это медленнее, но точнее.

Если два кандидата признаны схожими, система исключает один из них (обычно тот, что имеет более низкий ранг от Первой Модели), обеспечивая диверсификацию финального списка.

Актуальность для SEO

Высокая. Диверсификация подсказок и связанных запросов является критически важной задачей для улучшения пользовательского опыта в современных поисковых системах. Использование схожести выдачи (SERP Similarity) как эталона семантической близости запросов — это фундаментальный подход в Information Retrieval. Упоминание использования DSSM (Deep Semantic Similarity Model) также соответствует текущим технологическим трендам Яндекса.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент не описывает алгоритмы ранжирования основного поиска, он имеет высокое стратегическое значение. Он раскрывает точный механизм, который Яндекс использует для определения семантической эквивалентности запросов: схожесть Топ-N результатов в выдаче. Это напрямую влияет на стратегии исследования ключевых слов, кластеризации семантики и понимания интентов.

Детальный разбор

Термины и определения

Candidate String (Строка-кандидат)

Потенциальный вариант обогащенного запроса, сгенерированный Первой Моделью на основе исходного запроса пользователя.

DSSM (Deep Semantic Similarity Model)

Глубокая нейронная сеть, используемая для представления текстовых строк (например, запросов) в непрерывном семантическом пространстве и моделирования семантической схожести между ними. В патенте упоминается как возможная реализация Первой и Второй Моделей.

Enriched Query (Обогащенный запрос)

Общий термин для различных типов подсказок и предложений пользователю. Включает:

Query-completion suggestions (Подсказки автодополнения): предложения во время ввода запроса.
Hints / Follow-up queries / Reformulated queries (Связанные запросы / Подсказки): предложения на странице SERP (вверху или внизу) для уточнения или смены темы поиска.

First Model (Первая Модель)

Модель (например, ранжирующая модель или DSSM), которая генерирует и ранжирует исходный список строк-кандидатов (Candidate Strings) на основе данных исходного запроса.

Label (Метка)

Эталонное значение схожести (Ground Truth) между парой обучающих запросов. Используется для обучения Второй Модели. Метка определяется путем фактического сравнения результатов поиска (SERP) для этих запросов.

Pair-wise configuration (Попарная конфигурация)

Метод обучения Второй модели, при котором на вход подается пара текстовых строк (тренировочных запросов), а модель учится предсказывать метку их схожести.

Second Model (Вторая Модель)

Модель машинного обучения (например, DSSM), обученная в попарной конфигурации. Ее задача — предсказать схожесть двух строк-кандидатов. Модель учится предсказывать Метку (схожесть SERP), используя только текст запросов.

SERP Similarity (Схожесть выдачи)

Метрика, определяющая, насколько пересекаются списки релевантных документов для двух разных запросов. В данном патенте используется как основной критерий семантической близости запросов.

Ключевые утверждения (Анализ Claims)

Патент защищает два основных метода диверсификации обогащенных запросов: один основан на использовании предварительно обученной модели для предсказания схожести, а другой — на сравнении результатов поиска в реальном времени.

Claim 1 (Независимый пункт): Описывает метод с использованием двух моделей (First и Second Model).

Система получает пользовательский запрос.
Первая Модель (First machine learning algorithm) генерирует как минимум два кандидата для обогащенного запроса.
Вторая Модель (Second machine learning algorithm) определяет, что эти два кандидата являются парой схожих строк.
Ключевой аспект: Вторая Модель была предварительно обучена предсказывать вероятность схожести в попарной конфигурации.
Обучение происходит на наборе, где Метка (Label) схожести определяется на основе сравнения релевантных документов (результатов поиска) для обучающих строк. (Т.е. схожесть SERP используется как Ground Truth).
Система отображает только один из пары схожих кандидатов.

Claim 3 (Зависимый от 1): Уточняет критерии для Метки в обучающем наборе (определение SERP Similarity).

Метка указывает на схожесть, если Топ-N документов для первой строки и Топ-M документов для второй строки разделяют (share) как минимум предопределенное количество (pre-determined number) документов.

Claim 5 (Зависимый от 1): Уточняет механизм выбора.

Если Первая Модель является ранжирующей моделью, система отображает кандидат с более высоким рангом (higher ranked candidate string) из схожей пары.

Claim 11 (Независимый пункт): Описывает альтернативный метод без предварительно обученной Второй Модели, основанный на анализе в реальном времени.

Система получает запрос и генерирует как минимум два кандидата.
Система в реальном времени определяет первый набор результатов поиска (SERP 1) для первого кандидата и второй набор (SERP 2) для второго кандидата.
Если SERP 1 и SERP 2 разделяют как минимум предопределенное количество результатов поиска, кандидаты признаются парой схожих строк.
Система отображает только один из этой пары.

Где и как применяется

Изобретение применяется на этапах, связанных с генерацией подсказок и формированием финального вида страницы выдачи.

QUERY PROCESSING – Понимание Запросов

Основной этап применения. Когда пользователь вводит запрос (даже частично), система активирует механизм генерации обогащенных запросов (например, поисковых подсказок).

Генерация кандидатов: Первая Модель генерирует ранжированный список потенциальных подсказок.
Фильтрация и Диверсификация: Вторая Модель (Claim 1) или механизм сравнения SERP в реальном времени (Claim 11) используется для анализа этого списка и удаления семантических дубликатов перед показом пользователю.

BLENDER – Метапоиск и Смешивание / Генерация SERP

Применяется при генерации связанных запросов (Hints, Follow-up queries), которые отображаются на уже сформированной странице SERP (например, в виде блоков вверху или внизу страницы). Система гарантирует, что эти предложения разнообразны и не ведут на одну и ту же выдачу.

На что влияет

Специфические запросы: Влияет на все типы запросов (информационные, коммерческие, навигационные), для которых генерируются подсказки или связанные запросы.
Ранжирование: Патент не влияет на алгоритмы ранжирования основного поиска (веб-документов). Он влияет только на ранжирование и фильтрацию самих подсказок.
Понимание семантики: Патент четко устанавливает, как система интерпретирует семантическую близость запросов: близость определяется схожестью результатов поиска, а не только текстовой формой запроса.

Когда применяется

Алгоритм активируется в двух основных сценариях:

В реальном времени при вводе запроса: Для генерации и фильтрации списка автодополнения (Query-completion suggestions).
При формировании SERP: Для генерации и фильтрации блоков связанных запросов (Hints, Follow-up queries).

Условием активации фильтрации является наличие двух или более сгенерированных кандидатов.

Пошаговый алгоритм

Патент описывает два варианта работы системы в реальном времени и процесс офлайн-обучения.

Процесс А: Работа в реальном времени (Вариант с Второй моделью, Claim 1)

Получение данных запроса: Система получает текущий или частичный запрос пользователя.
Генерация кандидатов (Первая модель): Первая модель генерирует и ранжирует список строк-кандидатов.
Определение схожести (Вторая модель): Система попарно подает кандидатов на вход Второй модели. Модель предсказывает вероятность того, что пара является схожей (т.е. имеет высокое пересечение SERP).
Фильтрация (Дедупликация): Если пара кандидатов признана схожей, система исключает один из них. Исключается кандидат с более низким рангом (Claim 5).
Отображение: Отфильтрованный и диверсифицированный список обогащенных запросов отображается пользователю.

Процесс Б: Работа в реальном времени (Вариант со сравнением SERP, Claim 11)

Получение данных и Генерация кандидатов: Аналогично Процессу А.
Выполнение фоновых поисков: Система выполняет поисковые запросы для строк-кандидатов в реальном времени.
Сравнение SERP и Определение схожести: Система сравнивает полученные наборы результатов поиска. Если они пересекаются больше, чем на предопределенное количество документов, кандидаты считаются схожими.
Фильтрация и Отображение: Аналогично Процессу А, один из схожих кандидатов отбрасывается.

Процесс В: Офлайн-обучение Второй Модели

Подготовка обучающих данных: Система выбирает пары обучающих запросов (Training Strings).
Генерация SERP: Для каждого обучающего запроса поисковая система генерирует список релевантных документов (например, Топ-N и Топ-M результатов) в офлайн-режиме (Claim 4).
Расчет Метки (Ground Truth): Анализируется пересечение между двумя списками документов. Если пересечение превышает порог (Claim 3), паре присваивается Метка «Схожие».
Обучение Второй Модели: Вторая Модель (например, DSSM) обучается в попарной конфигурации. На вход подается текст двух запросов, а цель обучения — предсказать Метку (схожесть SERP).

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Тексты пользовательских запросов и тексты строк-кандидатов. Они используются Первой Моделью для генерации кандидатов и Второй Моделью для предсказания схожести.
Системные данные (Индекс/SERP): Наборы документов (результатов поиска), релевантных запросам. Эти данные критически важны для обучения Второй модели (офлайн, Процесс В) или для сравнения в реальном времени (Процесс Б).

Какие метрики используются и как они считаются

Ранг кандидата (Ranking Score): Метрика, генерируемая Первой Моделью. Используется для выбора лучшего варианта из пары схожих (Claim 5).
SERP Overlap (Пересечение выдачи) / Label: Ключевая метрика для определения схожести (Ground Truth). В патенте (Claim 3) она определяется следующим образом: Сравниваются Топ-N документов для Запроса А и Топ-M документов для Запроса Б. Запросы считаются схожими, если:

$$ \text{Количество общих документов} \geq \text{Порог (pre-determined number)} $$

Predicted Similarity Score (Предсказанная оценка схожести): Выход Второй Модели. Это предсказание вероятности того, что два запроса имеют высокую степень SERP Overlap, основанное только на анализе текста запросов.
Алгоритмы Машинного Обучения: Упоминаются DSSM (Deep Semantic Similarity Models) как возможная реализация Первой и Второй моделей (Claims 6, 7). Обучение происходит в Pair-wise configuration.

Выводы

SERP Similarity как эталон семантической близости: Патент подтверждает, что Яндекс определяет семантическую схожесть запросов в первую очередь по схожести результатов поиска. Если два запроса ведут на одинаковые документы в топе, они считаются эквивалентными, независимо от их текстовой формы.
Диверсификация подсказок — приоритетная задача: Яндекс активно борется с дублированием интентов в подсказках и связанных запросах, чтобы предложить пользователю максимально разнообразные пути поиска.
ML для предсказания схожести выдачи: Для обеспечения скорости работы (особенно в автодополнении) Яндекс использует обученные модели (Вторая Модель), которые умеют предсказывать схожесть SERP, анализируя только текст запросов. Эти модели обучаются на фактических данных о пересечении выдачи.
Два режима работы: Система может использовать как быстрый ML-подход (предсказание, Claim 1), так и более точный, но медленный подход (сравнение SERP в реальном времени, Claim 11), в зависимости от контекста.
Критерии схожести и выбора: Схожесть определяется по пересечению Топ-N/Топ-M документов. При обнаружении дубликатов система оставляет вариант с более высоким рангом от Первой модели (Claim 5).

Практика

Best practices (это мы делаем)

Использование SERP Similarity для кластеризации семантики: При сборе и группировке ключевых слов необходимо использовать инструменты анализа схожести поисковой выдачи (SERP Similarity) как основной критерий для объединения запросов в кластер. Этот патент подтверждает, что именно так Яндекс определяет семантическую близость (Ground Truth).
Анализ Топа выдачи для определения интента: Для понимания интента запроса критически важно анализировать Топ-N результатов. Если Топ выдачи по двум запросам идентичен, это один и тот же интент, и они должны обрабатываться в рамках одной страницы.
Фокус на покрытие различных интентов, а не синонимов: Сосредоточьте усилия на создании контента, который нацелен на действительно разные интенты (дающие разные SERP), а не на незначительные вариации ключевых слов, которые ведут на одну и ту же выдачу. Это максимизирует охват.
Мониторинг подсказок и связанных запросов: Анализируйте, какие подсказки Яндекс показывает по вашим целевым запросам. Разнообразие этих подсказок (обеспеченное данным патентом) дает представление о различных направлениях (суб-интентах), которые Яндекс ассоциирует с основной темой.

Worst practices (это делать не надо)

Кластеризация только по текстовой близости: Группировка запросов на основе общих слов (лемм) без учета схожести выдачи является устаревшим и неэффективным подходом. Это может привести к созданию отдельных страниц для запросов, которые Яндекс считает идентичными.
Чрезмерная сегментация страниц под близкие запросы: Создание отдельных страниц под запросы с высокой степенью SERP Similarity неэффективно, так как система считает эти запросы взаимозаменяемыми.
Игнорирование изменений в выдаче при кластеризации: Если выдача по двум ранее схожим запросам начинает расходиться, это сигнал о том, что Яндекс изменил понимание их интентов. Нельзя полагаться на старые данные кластеризации без регулярной перепроверки SERP Similarity.

Стратегическое значение

Этот патент имеет важное стратегическое значение для этапа SEO-исследований. Он документально подтверждает фундаментальный принцип современного поиска: Интент определяется результатами. Для Senior SEO-специалистов это означает, что стратегии кластеризации и построения Topical Authority должны строиться вокруг анализа реальной поисковой выдачи и ее структуры, а не только лингвистического анализа ключевых слов. Понимание того, как Яндекс диверсифицирует подсказки, помогает лучше понять структуру спроса.

Практические примеры

Сценарий 1: Кластеризация семантического ядра

Сбор данных: Собирается список ключевых слов: Q1=»купить айфон 15″, Q2=»цена iphone 15″, Q3=»обзор айфон 15″.
Анализ SERP Similarity: Проверяется пересечение Топ-10 результатов.
- Q1 и Q2 имеют 9 общих результатов. Согласно патенту, Яндекс считает их схожими.
- Q1 и Q3 имеют только 2 общих результата. Яндекс считает их разными.
Действие SEO-специалиста: Создать одну коммерческую страницу для Q1 и Q2, и одну информационную страницу для Q3. Не создавать отдельные страницы для «купить» и «цена».

Сценарий 2: Диверсификация подсказок при вводе

Пользователь вводит: «купить автомобиль».
Генерация кандидатов (Первая Модель):
- К1: «купить подержанный автомобиль» (Ранг 1)
- К2: «приобрести авто с пробегом» (Ранг 2)
- К3: «купить новый автомобиль» (Ранг 3)
Анализ схожести (Вторая Модель): Модель предсказывает, что К1 и К2 приведут к похожим SERP (высокий SERP Overlap). К3 приведет к другому SERP.
Фильтрация: Система сохраняет К1 (выше ранг, чем К2) и К3. К2 отбрасывается как дубликат.
Результат: Пользователю отображаются диверсифицированные подсказки: «купить подержанный автомобиль» и «купить новый автомобиль».

Вопросы и ответы

Влияет ли этот патент напрямую на ранжирование моего сайта в основном поиске?

Нет, напрямую не влияет. Патент описывает механизмы генерации, фильтрации и диверсификации поисковых подсказок и блоков связанных запросов на SERP, а не алгоритмы ранжирования основного органического поиска. Однако он дает критически важное понимание того, как Яндекс группирует запросы на основе интентов.

Что такое «обогащенный запрос» (Enriched Query) в контексте этого патента?

Это общий термин, который включает в себя несколько элементов интерфейса: поисковые подсказки, которые появляются при вводе запроса (автодополнение), а также блоки связанных запросов (Hints или Follow-up queries), которые отображаются на странице результатов поиска (вверху или внизу). Цель этих элементов — помочь пользователю уточнить запрос.

Как Яндекс определяет, что два разных запроса являются «схожими»?

Это ключевой момент патента. Схожесть определяется не по тексту запросов, а по степени пересечения их поисковой выдачи (SERP Similarity). Если Топ-N результатов поиска по двум запросам в значительной степени совпадает (например, имеют много общих документов), Яндекс считает эти запросы семантически эквивалентными.

Зачем Яндексу нужна Вторая Модель (Second Model), если можно просто сравнить выдачу?

Сравнение выдачи в реальном времени (описано в Claim 11) требует значительных вычислительных ресурсов и времени, так как нужно выполнить поиск по каждому кандидату. Вторая Модель (описана в Claim 1) обучается предсказывать схожесть выдачи, анализируя только текст запросов. Это значительно быстрее и позволяет использовать механизм в сценариях, требующих мгновенного ответа, например, в автодополнении.

Как этот патент влияет на мою стратегию кластеризации ключевых слов?

Он подтверждает, что единственным надежным методом кластеризации является анализ схожести поисковой выдачи (SERP Similarity). Кластеризация только по текстовой близости неэффективна. Вы должны группировать запросы так же, как это делает Яндекс: если выдача одинаковая — это один кластер (один интент), если разная — разные кластеры.

Какой процент пересечения выдачи считается достаточным для признания запросов схожими?

Патент не указывает конкретных чисел. Он говорит о «предопределенном количестве» (pre-determined number) общих документов в Топ-N и Топ-M результатах (Claim 3). На практике этот порог может варьироваться, но фокус всегда делается на самые релевантные (топовые) результаты.

В патенте упоминается DSSM. Означает ли это, что Яндекс не использует трансформеры (YATI) для этой задачи?

DSSM (Deep Semantic Similarity Model) упоминается как возможный вариант реализации. DSSM хорошо подходят для задач быстрого сравнения парных текстов. Хотя трансформерные модели (YATI) являются более мощными для понимания языка в целом, DSSM могут по-прежнему использоваться для специфических задач, или же под термином DSSM может подразумеваться любая современная модель семантической схожести.

Если система определила два кандидата как схожие, какой из них будет показан пользователю?

Согласно патенту (Claim 5), система отобразит тот кандидат, который имеет более высокий ранг (higher ranked candidate string) от Первой модели. Как правило, это означает, что будет показан более популярный или более релевантный вариант запроса, а его дубликат будет скрыт.

Что такое «парная конфигурация» (pair-wise configuration) обучения Второй Модели?

Это означает, что модель обучается на парах объектов (в данном случае, парах запросов). Цель обучения — научиться определять отношение между членами пары (например, схожи они или нет), а не предсказывать абсолютное значение для каждого объекта в отдельности. Это стандартный подход для задач оценки схожести.

Если мои запросы были в одном кластере, а теперь Яндекс показывает по ним разную выдачу, что это значит?

Это означает, что Яндекс пересмотрел понимание интентов этих запросов и больше не считает их схожими согласно критериям, описанным в патенте (пересечение Топа выдачи упало ниже порога). Вам необходимо пересмотреть свою кластеризацию и, возможно, создать отдельные страницы или адаптировать контент для удовлетворения этих теперь уже разных интентов.