Как Яндекс определяет схожесть поисковых подсказок и удаляет дубликаты на основе схожести результатов поиска (SERP Similarity)

Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов. Система генерирует кандидатов и использует специальную модель (например, DSSM), чтобы предсказать, приведут ли два разных запроса к одинаковым результатам поиска (SERP Similarity). Если результаты предсказываются как схожие, отображается только один из вариантов. Это подтверждает, что схожесть выдачи является для Яндекса эталоном схожести интента.

Описание

Какую задачу решает

Патент решает задачу повышения разнообразия (diversity) расширенных запросов (поисковых подсказок при вводе или связанных запросов на SERP). Проблема заключается в том, что традиционные системы часто предлагают пользователю варианты, которые слишком похожи друг на друга. Это неэффективно использует пространство экрана и является избыточным, так как схожие запросы ведут к схожим результатам поиска. Изобретение направлено на улучшение пользовательского опыта путем фильтрации дубликатов и предоставления более разнообразного набора подсказок.

Что запатентовано

Запатентована система и метод дедупликации кандидатов для расширенных запросов. Суть изобретения заключается в использовании машинного обучения (в частности, упоминаются модели DSSM) для определения схожести между кандидатами. Ключевой аспект — схожесть определяется не по тексту запросов, а по степени сходства результатов поиска (SERP Similarity), которые эти запросы возвращают. Если два кандидата ведут к схожей выдаче, они считаются дубликатами, и отображается только один из них.

Как это работает

Система работает в несколько этапов. Сначала Первая модель генерирует список кандидатов для расширения текущего запроса. Затем система определяет схожесть между этими кандидатами. Патент описывает два подхода к этому:

Основной подход (Claim 1): Используется Вторая модель, которая предсказывает, насколько схожими будут результаты поиска для двух кандидатов. Эта модель обучается заранее (офлайн), используя фактическое пересечение результатов поиска как эталон (Ground Truth).
Альтернативный подход (Claim 11): Система выполняет поиск по кандидатам в реальном времени, сравнивает полученные множества документов и определяет схожесть на основе фактического пересечения.

Если пара кандидатов признается схожей, система отображает пользователю только один из них (обычно тот, который имеет более высокий ранг от Первой модели).

Актуальность для SEO

Высокая. Обеспечение разнообразия и качества поисковых подсказок и связанных запросов является важной задачей для улучшения пользовательского опыта в современных поисковых системах. Использование нейронных сетей (DSSM или более современных аналогов) для понимания семантической близости запросов на основе ожидаемых результатов поиска — это передовой подход в Information Retrieval.

Важность для SEO

Влияние на SEO среднее (6.5/10). Патент не описывает алгоритмы ранжирования документов. Он фокусируется на генерации и фильтрации самих запросов (подсказок). Однако он имеет критическое стратегическое значение, так как явно указывает, что для Яндекса эталоном семантической схожести двух запросов является схожесть их результатов поиска (SERP Similarity). Это подтверждает необходимость для SEO-специалистов анализировать интент через анализ выдачи, а не только через текстовую близость ключевых слов.

Детальный разбор

Термины и определения

Candidate String (Строка-кандидат)

Потенциальный вариант расширенного запроса, сгенерированный Первой моделью. Является кандидатом для показа пользователю в качестве подсказки или связанного запроса.

DSSM (Deep Semantic Similarity Model / Углубленная модель семантического сходства)

Тип глубокой нейронной сети, используемый для представления текстовых строк (например, запросов) в векторном пространстве и моделирования семантического сходства между ними. В патенте указано, что и Первая, и Вторая модели могут быть реализованы как DSSM.

Extended Query (Расширенный запрос)

Общий термин для предлагаемых пользователю вариантов запросов. Включает в себя:

Дополненный запрос (Query Completion/Suggestion): Подсказки, отображаемые во время ввода запроса в строке поиска (саджест).
Переформулированный или дополнительный запрос (Related/Reformulated Query): Запросы, отображаемые на странице SERP (например, блоки «Люди также ищут»).

First Model (Первая модель)

Модель машинного обучения (например, DSSM), которая принимает на вход текущий (или частичный) запрос пользователя и генерирует ранжированный список строк-кандидатов.

Label (Метка)

Часть обучающего набора для Второй модели. Указывает на фактическую степень сходства между двумя обучающими строками. Определяется на основе сравнения документов (результатов поиска), релевантных этим строкам.

Pairwise Configuration (Парная конфигурация)

Метод обучения модели (Второй модели), при котором модель учится на парах объектов (в данном случае, парах запросов) и их взаимосвязи (метке схожести).

Second Model (Вторая модель)

Модель машинного обучения (например, DSSM), обученная предсказывать схожесть между двумя строками-кандидатами. Она используется для идентификации дубликатов (пар схожих строк-кандидатов) в списке, сгенерированном Первой моделью.

SERP Similarity (Схожесть результатов поиска)

Метрика, основанная на степени пересечения документов в выдаче по двум разным запросам. В контексте патента используется как эталон (Ground Truth) для определения схожести запросов.

Ключевые утверждения (Анализ Claims)

Патент защищает два основных механизма дедупликации расширенных запросов: один основан на предварительно обученной модели, другой — на анализе выдачи в реальном времени.

Claim 1 (Независимый пункт): Описывает основной способ с использованием двух моделей.

Сервер получает пользовательский запрос.
Первая модель генерирует кандидатов (например, Кандидат А и Кандидат Б).
Вторая модель определяет, что Кандидат А и Кандидат Б являются парой схожих строк.
Система инициирует отображение только одной строки из этой пары.

Ключевым элементом Claim 1 является описание обучения Второй модели:

Она обучается в парной конфигурации.
Обучающий набор содержит: Первый обучающий запрос (Q1), Второй обучающий запрос (Q2) и Метку (Label).
Критически важно: Метка указывает на сходство Q1 и Q2 и определяется на основе сравнения документа, релевантного Q1, и документа, релевантного Q2.

Это означает, что Вторая модель учится предсказывать, насколько пересекутся результаты поиска, основываясь только на тексте запросов.

Claim 3 (Зависимый от 1): Уточняет, как определяется Метка схожести.

Сравнение происходит не по одному документу, а по множествам. Берется N наиболее релевантных документов для Q1 и M документов для Q2. Метка указывает на сходство, если в этих множествах содержится «по меньшей мере заранее заданное количество одинаковых обучающих документов» (т.е. SERP Overlap выше порога).

Claim 5 (Зависимый от 1): Уточняет механизм выбора из пары схожих строк.

Первая модель является моделью ранжирования и формирует ранжированный список кандидатов. При обнаружении пары схожих строк система отображает ту строку-кандидата, которая имеет больший ранг в этом списке.

Claim 11 (Независимый пункт): Описывает альтернативный способ без предварительно обученной Второй модели.

Сервер получает запрос и генерирует кандидатов (А и Б) с помощью Первой модели.
Сервер определяет в реальном времени первое множество документов, релевантных Кандидату А.
Сервер определяет в реальном времени второе множество документов, релевантных Кандидату Б.
Сервер определяет, что А и Б схожи, если в этих множествах содержится «по меньшей мере заранее заданное количество одинаковых документов».
Система инициирует отображение только одной строки из пары.

Этот подход не требует офлайн-обучения Второй модели, но является более ресурсоемким в реальном времени, так как требует выполнения фактического поиска по всем кандидатам.

Где и как применяется

Изобретение применяется на этапе QUERY PROCESSING – Понимание Запросов, а именно в подсистемах, отвечающих за генерацию поисковых подсказок (Suggester) и связанных запросов.

Патент описывает применение в двух основных сценариях:

Автодополнение (Query Completion): Когда пользователь вводит запрос в строку поиска. Система генерирует подсказки (дополненные запросы) и фильтрует их, чтобы избежать показа семантически идентичных вариантов в выпадающем меню (Claim 8).
Связанные запросы на SERP (Related Queries): После того как пользователь отправил запрос и получил страницу результатов. Система генерирует переформулированные или дополнительные запросы (например, внизу страницы или в виде активируемых значков вверху) и фильтрует их для обеспечения разнообразия (Claim 9, 10).

Система взаимодействует с основной поисковой системой (Search Engine) двумя способами:

Офлайн (для подхода Claim 1): Поисковая система используется для генерации результатов поиска по обучающим запросам. Эти результаты используются для расчета Меток (Ground Truth SERP Similarity) и обучения Второй модели.
Онлайн (для подхода Claim 11): Поисковая система используется для выполнения поиска в реальном времени по сгенерированным кандидатам для проверки их схожести.

На что влияет

Пользовательский опыт (UX): Основное влияние оказывается на UX. Пользователь видит более разнообразный набор подсказок, что повышает вероятность найти нужную информацию быстрее.
Типы запросов: Влияет на все типы запросов (информационные, коммерческие, навигационные), для которых генерируются подсказки или связанные поиски.
Языковые и географические ограничения: В патенте ограничений не указано. Метод универсален и зависит от наличия данных для обучения моделей в конкретном регионе/языке.

Когда применяется

Алгоритм применяется каждый раз, когда система генерирует список расширенных запросов.

Триггеры активации: Ввод символов в строку поиска (для автодополнения) или загрузка страницы SERP (для связанных запросов).
Условия работы: Наличие более одного кандидата, сгенерированного Первой моделью.
Пороговые значения: Используется «заранее заданное количество одинаковых документов» для определения схожести выдачи (при обучении или в реальном времени). Конкретные значения N и M документов и порог пересечения в патенте не указаны. Также Вторая модель использует внутренний порог для классификации пары как «схожей» или «несхожей».

Пошаговый алгоритм

Процесс А: Обработка запроса и дедупликация (Основной подход, Claim 1)

Получение ввода: Сервер получает указание на пользовательский запрос (полный или частичный).
Генерация кандидатов (Первая модель): Первая модель (например, DSSM) генерирует ранжированный список строк-кандидатов на основе ввода.
Определение схожести (Вторая модель): Сервер использует Вторую модель (например, DSSM), обученную предсказывать SERP Similarity. Пары кандидатов подаются на вход модели.
Идентификация дубликатов: Вторая модель определяет пары кандидатов, которые являются схожими (т.е. предсказывается, что они приведут к схожим результатам поиска).
Фильтрация: Для каждой пары схожих строк-кандидатов система выбирает только одну строку. Выбор основывается на ранге, присвоенном Первой моделью (остается кандидат с большим рангом).
Отображение: Сервер инициирует отображение отфильтрованного списка расширенных запросов на устройстве пользователя.

Процесс Б: Офлайн-обучение Второй модели

Сбор данных: Выбор множества пар обучающих запросов (Q1, Q2) из исторических логов.
Генерация результатов: Для Q1 и Q2 поисковая система определяет множества наиболее релевантных документов (например, Топ-N и Топ-M).
Расчет Метки (Ground Truth): Сравнение множеств документов. Если пересечение превышает заранее заданное количество, Метка устанавливается как «схожие», иначе — «несхожие».
Обучение модели: Вторая модель обучается в парной конфигурации на наборе данных {Q1, Q2, Метка}. Цель — научить модель предсказывать Метку, используя только Q1 и Q2.

Процесс В: Дедупликация в реальном времени (Альтернативный подход, Claim 11)

Получение ввода и Генерация кандидатов (Первая модель). (Аналогично Процессу А).
Выполнение поиска в реальном времени: Сервер выполняет поиск для каждого сгенерированного кандидата.
Сравнение результатов: Сервер сравнивает множества документов, полученных для разных кандидатов.
Идентификация дубликатов: Если пересечение результатов поиска для пары кандидатов превышает заранее заданное количество, пара признается схожей.
Фильтрация и Отображение. (Аналогично Процессу А).

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые):
- Текст текущего пользовательского запроса (полного или частичного) — используется Первой моделью для генерации кандидатов.
- Тексты строк-кандидатов — используются Второй моделью для предсказания схожести (Процесс А) или поисковой системой для генерации выдачи (Процесс В).
- Тексты исторических запросов — используются для обучения Первой и Второй моделей.
Системные данные (Результаты поиска):
- Множества документов (SERP), релевантных обучающим запросам — используются для расчета Меток при обучении Второй модели (Процесс Б).
- Множества документов, релевантных строкам-кандидатам — используются при дедупликации в реальном времени (Процесс В).

Поведенческие, ссылочные, технические и другие типы факторов в патенте явно не упоминаются, хотя они могут косвенно влиять через определение «наиболее релевантных документов» поисковой системой.

Какие метрики используются и как они считаются

Ранг кандидата: Вычисляется Первой моделью. Используется для упорядочивания списка кандидатов и для выбора лучшего варианта из пары дубликатов.
SERP Overlap (Пересечение результатов поиска): Метрика, используемая для определения схожести запросов. Рассчитывается как количество одинаковых документов в Топ-N и Топ-M результатах поиска для двух запросов. Используется как Ground Truth для обучения Второй модели или для прямого сравнения в реальном времени.
Predicted Similarity Score: Выходное значение Второй модели, предсказывающее вероятность того, что два запроса приведут к схожим результатам поиска.

Алгоритмы машинного обучения

DSSM (Deep Semantic Similarity Model): Явно указана в патенте как возможная реализация и для Первой модели (генерация/ранжирование), и для Второй модели (предсказание схожести). Модели обучаются с использованием стандартных методов, таких как обратное распространение ошибки на основе сравнения предсказанного значения и Метки.

Выводы

SERP Similarity как эталон интента: Это наиболее важный вывод для SEO. Патент явно демонстрирует, что Яндекс определяет семантическую схожесть запросов (интент) через схожесть результатов поиска (SERP Similarity). Пересечение выдачи используется как Ground Truth для обучения моделей понимания запросов.
Активная дедупликация подсказок: Яндекс стремится максимизировать разнообразие (diversity) в поисковых подсказках и связанных запросах. Система активно фильтрует варианты, которые ведут к одной и той же выдаче.
Предсказание выдачи без выполнения поиска: Основной запатентованный метод (Claim 1) использует обученную модель (Вторая модель) для быстрого предсказания схожести выдачи без необходимости выполнять ресурсоемкий поиск в реальном времени по всем кандидатам.
Использование DSSM: Патент явно упоминает использование моделей DSSM для генерации кандидатов и для оценки их схожести. Хотя в продакшене могут использоваться и более современные архитектуры (например, трансформеры), базовый принцип использования векторных представлений для оценки семантической близости подтвержден.
Приоритет лучшего варианта: При обнаружении дубликатов система не удаляет их случайным образом, а сохраняет тот вариант, который имеет наивысший ранг, присвоенный генеративной моделью (Первая модель).

Практика

Best practices (это мы делаем)

Анализ интента через SERP Similarity: При кластеризации семантического ядра используйте схожесть выдачи как основной критерий объединения запросов в кластер. Если Яндекс показывает одинаковые документы по разным запросам, значит, для него это один и тот же интент (как подтверждается механизмом обучения Второй модели).
Фокус на Topical Authority и разнообразии интентов: Создавайте контент, который покрывает разнообразные, семантически различные интенты в рамках одной темы. Это увеличивает шансы на то, что ваши страницы будут соответствовать разным расширенным запросам, которые не будут отфильтрованы как дубликаты.
Оптимизация под четко определенный интент: Убедитесь, что страница четко отвечает на конкретный интент. Если страница пытается охватить слишком много разных интентов, ее релевантность может быть размыта, что повлияет на ее присутствие в Топ-N, который используется для определения SERP Similarity.

Worst practices (это делать не надо)

Кластеризация только по тексту ключевых слов: Использование только текстовой близости (например, лемматизации) для группировки запросов неэффективно. Если вы создаете разные страницы под запросы, которые Яндекс считает идентичными по интенту (из-за схожести выдачи), это приведет к каннибализации трафика.
Игнорирование анализа ТОП-выдачи: Попытка понять интент пользователя без анализа того, какие документы уже ранжируются в топе, противоречит подходу Яндекса, описанному в патенте.
Создание множества страниц под синонимичные запросы: Если запросы являются полными синонимами и ведут к идентичной выдаче, нет смысла создавать под них отдельные страницы. Система будет рассматривать их как дубликаты.

Стратегическое значение

Патент имеет важное стратегическое значение, так как он раскрывает фундаментальный подход Яндекса к определению схожести пользовательских намерений. Он подтверждает, что эра оптимизации под ключевые слова уступила место эре оптимизации под интент, и что этот интент определяется в первую очередь составом поисковой выдачи. Для долгосрочной SEO-стратегии это означает необходимость постоянного мониторинга SERP и использования инструментов анализа SERP Similarity для принятия решений о структуре сайта и контент-плане.

Практические примеры

Сценарий: Дедупликация поисковых подсказок

Действие пользователя: Пользователь начинает вводить запрос «купить автомобиль».
Генерация (Первая модель): Система генерирует ранжированные кандидаты:
1. «купить автомобиль с пробегом» (Ранг 0.9)
2. «купить машину бу» (Ранг 0.85)
3. «купить автомобиль новый» (Ранг 0.8)
4. «купить авто цена» (Ранг 0.7)
Анализ схожести (Вторая модель):
- Модель предсказывает, что «купить автомобиль с пробегом» и «купить машину бу» приведут к очень похожим результатам поиска (SERP Similarity высокая).
- Модель предсказывает, что «купить автомобиль новый» приведет к другой выдаче.
- Модель предсказывает, что «купить автомобиль с пробегом» и «купить авто цена» также приведут к похожим результатам (SERP Similarity высокая).
Фильтрация:
- Из пары (1) и (2) выбирается (1) как имеющий более высокий ранг. (2) удаляется.
- Из пары (1) и (4) выбирается (1). (4) удаляется.
Результат: Пользователю отображаются подсказки: «купить автомобиль с пробегом» и «купить автомобиль новый». Варианты (2) и (4) отфильтрованы как дубликаты интента, несмотря на разницу в формулировках.

Вопросы и ответы

Что является главным критерием схожести двух запросов согласно этому патенту?

Главным критерием является схожесть результатов поиска (SERP Similarity). Если два разных запроса возвращают значительно пересекающееся множество наиболее релевантных документов (например, в Топ-N), то эти запросы считаются схожими по интенту. Именно этот показатель используется как эталон (Ground Truth) для обучения моделей.

Как это влияет на кластеризацию семантического ядра?

Это напрямую подтверждает, что кластеризация должна основываться на схожести выдачи (Hard Clustering по SERP Similarity), а не только на текстовой схожести ключевых слов. SEO-специалистам необходимо использовать инструменты, которые анализируют Топ-выдачи Яндекса для группировки запросов. Запросы с высоким пересечением по URL в выдаче должны быть в одном кластере.

Что такое Первая и Вторая модели, и зачем их две?

Первая модель отвечает за генерацию и первичное ранжирование кандидатов для расширенного запроса (подсказок). Вторая модель отвечает за дедупликацию. Она специально обучена предсказывать, насколько похожими будут результаты поиска для двух кандидатов. Разделение необходимо для эффективности: Первая модель находит релевантные варианты, Вторая обеспечивает их разнообразие.

В патенте упоминается DSSM. Значит ли это, что Яндекс не использует BERT или YATI?

Патент явно упоминает DSSM (Deep Semantic Similarity Model) как возможную реализацию Первой и Второй моделей. Это не исключает использования более современных архитектур, таких как BERT или YATI (трансформеры), в продакшене для решения тех же задач. Патенты часто описывают базовые или конкретные реализации, но важен сам принцип использования глубокого обучения для моделирования семантической схожести на основе SERP Similarity.

Что такое альтернативный метод (Claim 11) и используется ли он?

Альтернативный метод предполагает выполнение фактического поиска в реальном времени для всех сгенерированных кандидатов и сравнение их выдачи для дедупликации. Этот метод не требует предварительного обучения Второй модели, но он очень ресурсоемкий. Маловероятно, что он используется для автодополнения, где требуется мгновенный ответ, но может применяться для генерации связанных запросов на SERP.

Как система решает, какой из двух похожих запросов показать?

Первая модель не просто генерирует кандидатов, но и ранжирует их (присваивает им вес или ранг). Если Вторая модель определяет два кандидата как схожие, система выбирает тот, у которого ранг от Первой модели выше. Это гарантирует, что из дубликатов выбирается наиболее качественный или вероятный вариант.

Влияет ли этот патент на ранжирование моего сайта?

Напрямую на алгоритмы ранжирования документов он не влияет. Однако он влияет на то, какие запросы пользователи будут выбирать в подсказках и связанных поисках. Если ваш контент соответствует разнообразным интентам, которые система не считает дубликатами, вы потенциально можете получить больше точек входа для трафика.

Как определить порог схожести выдачи, который использует Яндекс?

Патент не указывает конкретных цифр, говоря лишь о «заранее заданном количестве одинаковых документов» в Топ-N и Топ-M. На практике для SEO-анализа часто используются пороги пересечения от 30% до 70% в Топ-10 выдачи для определения принадлежности запросов к одному кластеру интентов.

Если я создам две страницы под два синонимичных запроса, этот патент описывает, как они будут ранжироваться?

Нет, он описывает, как будут фильтроваться сами запросы в подсказках. Однако, поскольку патент подтверждает, что Яндекс считает эти запросы идентичными по интенту (если их выдача совпадает), создание двух разных страниц под них приведет к каннибализации. Лучше объединить их на одной странице.

Где применяется этот механизм: только в подсказках при вводе или где-то еще?

Патент явно указывает, что механизм применяется как для автодополнения (Query Completion) во время ввода запроса, так и для генерации переформулированных или дополнительных запросов (Related Queries), которые отображаются на странице результатов поиска (SERP), например, в блоках «Связанные запросы» или «Люди также ищут».