Как Яндекс определяет схожесть запросов по совпадению результатов выдачи (SERP Similarity) для фильтрации поисковых подсказок

Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов (Enriched Queries). Система определяет, являются ли два предложенных запроса слишком похожими, основываясь на том, насколько сильно пересекаются их результаты поиска (SERP Similarity). Если результаты почти одинаковые, один из запросов отфильтровывается. Это позволяет предложить пользователю более разнообразные направления поиска.

Описание

Какую задачу решает

Патент решает задачу повышения качества и разнообразия обогащенных запросов (Enriched Queries), к которым относятся поисковые подсказки (query-completion suggestions) и блоки связанных запросов на SERP (hints, follow-up queries). Проблема заключается в том, что традиционные системы часто генерируют несколько вариантов запросов, которые ведут к практически идентичным результатам поиска. Это неэффективно использует пространство экрана и не помогает пользователю расширить область поиска. Изобретение направлено на диверсификацию предлагаемых вариантов.

Что запатентовано

Запатентована система фильтрации и дедупликации кандидатов для обогащенных запросов. Суть изобретения заключается в методе определения схожести между двумя запросами-кандидатами. Схожесть определяется не по тексту запросов, а по степени пересечения результатов поиска (SERP Similarity), которые эти запросы генерируют. Если два запроса ведут к схожей выдаче, они считаются дубликатами, и пользователю показывается только один из них.

Как это работает

Система работает в несколько этапов. Сначала Первая модель (First Model) генерирует ранжированный список запросов-кандидатов. Затем эти кандидаты проверяются на схожесть. Патент описывает два варианта проверки:

Использование Второй модели (Second Model): Это предобученная ML-модель (например, DSSM), которая предсказывает вероятность того, что два запроса приведут к схожим результатам поиска. Эта модель обучается офлайн, используя фактическое совпадение выдачи (SERP Similarity) как эталон (Ground Truth).
Проверка в реальном времени: Система выполняет поиск по обоим запросам-кандидатам, сравнивает полученные списки документов (Топ-N) и определяет степень их пересечения.

Если пара кандидатов признается схожей (по предсказанию модели или по факту проверки), один из них (с более низким рангом) удаляется из финального списка подсказок.

Актуальность для SEO

Высокая. Диверсификация выдачи и поисковых подсказок является критически важной задачей для современных поисковых систем. Использование DSSM и концепции определения схожести запросов через схожесть результатов (SERP Similarity) полностью соответствует текущим подходам Яндекса к пониманию интента и семантики.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент напрямую не описывает алгоритмы ранжирования, он раскрывает фундаментальный механизм, который Яндекс использует для определения схожести запросов. Он официально подтверждает, что эталоном схожести интентов является не текстовая близость запросов, а совпадение документов в выдаче. Это имеет критическое значение для стратегий кластеризации семантического ядра и планирования структуры контента.

Детальный разбор

Термины и определения

Candidate String (Строка-кандидат)

Потенциальный обогащенный запрос, сгенерированный Первой моделью. Является кандидатом для показа пользователю в качестве подсказки или связанного запроса.

DSSM (Deep Semantic Similarity Model)

Глубокая нейронная сеть, используемая для представления текстовых строк (например, запросов) в непрерывном семантическом пространстве и моделирования семантической схожести между ними. В патенте упоминается как возможная реализация Первой и Второй моделей.

Enriched Query (Обогащенный запрос)

Общий термин для запросов, предлагаемых пользователю системой. Включает:

Query-completion suggestions (подсказки при вводе запроса).
Reformulated/Follow-up queries (переформулированные или последующие запросы, например, в блоках «Похожие запросы» на SERP, также называемые Hints).

First Model / First Machine Learning Algorithm (Первая модель)

Модель (например, ранжирующая модель или DSSM), которая генерирует исходный ранжированный список строк-кандидатов на основе данных о запросе пользователя.

Label (Метка)

Индикатор схожести (Ground Truth) между двумя обучающими строками, используемый для обучения Второй модели. Определяется на основе фактического сравнения результатов поиска (SERP Similarity).

Pair-wise configuration (Попарная конфигурация)

Метод обучения Второй модели, при котором модель обучается на парах входных данных (двух строках) для предсказания их взаимосвязи (схожести).

Second Model / Second Machine Learning Algorithm (Вторая модель)

Модель (например, DSSM), обученная предсказывать схожесть двух строк-кандидатов. Она используется для дедупликации списка, сгенерированного Первой моделью.

SERP Similarity (Схожесть выдачи)

Метрика схожести между двумя запросами, основанная на степени пересечения релевантных документов (результатов поиска), которые генерируются в ответ на эти запросы.

Ключевые утверждения (Анализ Claims)

Патент защищает метод дедупликации предложений для пользователя, основанный на сравнении результатов поиска. Описаны два основных механизма реализации: через предварительно обученную модель (Claim 1) и через сравнение выдачи в реальном времени (Claim 11).

Claim 1 (Независимый пункт): Описывает метод с использованием предобученной ML-модели (Вторая модель) для дедупликации.

Система получает запрос пользователя.
Используя Первый алгоритм машинного обучения, генерируются как минимум два кандидата (Кандидат А и Кандидат Б).
Кандидат А и Кандидат Б подаются на вход Второму алгоритму машинного обучения, который определяет, что они являются парой схожих строк.
Ключевая особенность: Второй алгоритм обучен предсказывать вероятность схожести в попарной конфигурации.
Критически важно: Обучение основано на Метках (Labels), которые определяются сравнением релевантных документов (результатов поиска) для пар обучающих запросов. То есть, Ground Truth — это SERP Similarity.
Действие: Система отображает только один из пары схожих кандидатов (А или Б).

Цель Второй модели — научиться предсказывать схожесть результатов поиска, используя только текст запросов, чтобы не выполнять дорогостоящие поисковые операции в реальном времени.

Claim 3 (Зависимый от 1): Уточняет, как определяется Метка схожести для обучения.

Метка указывает на схожесть, если Топ N документов для первого запроса и Топ M документов для второго запроса имеют как минимум заранее определенное количество (pre-determined number) общих документов.

Claim 5 (Зависимый от 1): Уточняет механизм выбора из пары.

Если Первая модель является ранжирующей моделью, то система отображает тот кандидат из пары, который имеет более высокий ранг (higher ranked candidate string).

Claim 11 (Независимый пункт): Описывает альтернативный метод дедупликации в реальном времени (без предобученной Второй модели).

Система получает запрос и генерирует Кандидат А и Кандидат Б.
Система определяет (в реальном времени) первый набор результатов поиска для Кандидата А.
Система определяет (в реальном времени) второй набор результатов поиска для Кандидата Б.
Если наборы результатов имеют как минимум заранее определенное количество общих результатов, Кандидат А и Кандидат Б признаются парой схожих строк.
Действие: Система отображает только один из пары (А или Б).

Этот подход не требует Второй модели, но требует выполнения реальных поисковых операций для сравнения SERP на лету.

Где и как применяется

Изобретение применяется на этапе обработки запроса и генерации интерфейса поисковой системы.

QUERY PROCESSING – Понимание Запросов

Основное применение происходит в подсистеме генерации поисковых подсказок (Suggestions) и связанных запросов.

Генерация кандидатов: First Model анализирует введенный пользователем запрос и генерирует список потенциальных продолжений или переформулировок.
Фильтрация и дедупликация: Second Model (или механизм проверки в реальном времени) активируется для анализа сгенерированного списка и удаления кандидатов, которые приведут к схожим результатам поиска.

BLENDER – Метапоиск и Смешивание / Генерация SERP

На этом этапе отфильтрованный список обогащенных запросов интегрируется в интерфейс пользователя. Это может быть выпадающий список под строкой поиска (для подсказок автодополнения) или специальные блоки на SERP (для связанных запросов).

Взаимодействие с INDEXING и RANKING

Система тесно взаимодействует с ядром поиска (Индексация и Ранжирование) для определения схожести:

Офлайн (Обучение): Для обучения Second Model система должна выполнить поиск по множеству обучающих запросов и проанализировать результаты ранжирования (документы в Топ N/M), чтобы определить эталонную схожесть (Label).
Онлайн (Вариант из Claim 11): Если используется метод проверки в реальном времени, система отправляет запросы-кандидаты в слой Ранжирования и получает результаты для сравнения непосредственно во время обработки пользовательского запроса.

На что влияет

Форматы контента (Предложения): Влияет на разнообразие (Diversity) всех типов Enriched Queries: подсказки при вводе (query completion), связанные запросы внизу SERP (hints), и кликабельные тамбнейлы с последующими запросами вверху SERP (follow-up queries).
Восприятие интентов: Влияет на то, как система интерпретирует и разграничивает близкие поисковые намерения. Если два запроса постоянно генерируют разную выдачу, система будет считать их разными интентами, даже если они текстуально похожи.

Когда применяется

Алгоритм применяется каждый раз, когда система генерирует обогащенные запросы:

Триггеры активации: Ввод символов в поисковую строку (для автодополнения) или загрузка страницы SERP (для связанных запросов).
Условия работы: Наличие более одного сгенерированного кандидата. Если Первая модель сгенерировала несколько кандидатов, активируется механизм дедупликации.
Пороговые значения: Заранее определенное количество общих документов (pre-determined number) при сравнении SERP (используется как для обучения, так и для real-time варианта). Либо порог вероятности схожести, предсказанной Второй моделью.

Пошаговый алгоритм

Процесс А: Обработка запроса и генерация подсказок (Основной вариант с Second Model)

Получение данных о запросе: Система получает индикацию запроса пользователя (полного или частичного).
Генерация кандидатов (First Model): Первая модель генерирует ранжированный список строк-кандидатов.
Дедупликация (Second Model):
1. Система анализирует пары кандидатов из списка (например, Кандидат А и Кандидат Б).
2. Пара подается на вход Второй модели.
3. Вторая модель предсказывает вероятность того, что А и Б являются схожими (т.е. приведут к схожей выдаче).
Фильтрация: Если пара признана схожей (вероятность выше порога), система исключает один из кандидатов. Как правило, исключается кандидат с более низким рангом.
Отображение: Отфильтрованный и диверсифицированный список обогащенных запросов отправляется пользователю.

Процесс Б: Офлайн-обучение Second Model

Сбор данных: Формирование обучающего набора из пар прошлых запросов (Обучающая строка 1 и 2).
Определение эталонной схожести (Label Generation):
1. Выполнение поиска по Строке 1 и получение Топ N релевантных документов.
2. Выполнение поиска по Строке 2 и получение Топ M релевантных документов.
3. Сравнение списков документов. Если они пересекаются выше определенного порога (имеют общее заранее определенное количество документов), паре присваивается Метка «Схожие».
Обучение модели: Вторая модель (например, DSSM) обучается в попарной конфигурации. Цель — научиться предсказывать Метку (схожесть выдачи), используя только текст Строки 1 и Строки 2.

Процесс В: Обработка запроса (Альтернативный вариант из Claim 11)

Получение запроса и Генерация кандидатов (First Model).
Дедупликация в реальном времени:
1. Для пары кандидатов (А и Б) система выполняет поиск в реальном времени.
2. Система получает и сравнивает результаты поиска для А и для Б.
3. Если результаты пересекаются выше порога, пара признается схожей.
Фильтрация и Отображение.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Тексты текущего запроса пользователя используются Первой моделью для генерации кандидатов. Тексты запросов-кандидатов используются Второй моделью для предсказания схожести. Тексты прошлых запросов используются для обучения.
Системные данные (Результаты поиска/Документы): Данные о том, какие документы ранжируются в топе (Топ N/M) по определенным запросам. Это ключевые данные для определения эталонной схожести (Label) при обучении Второй модели или для сравнения в реальном времени (Вариант В).

Какие метрики используются и как они считаются

SERP Similarity (Схожесть выдачи): Ключевая метрика патента. Определяется на основе сравнения результатов поиска.
- Методы расчета: Сравнение Топ N и Топ M релевантных документов. Схожесть фиксируется, если количество общих документов превышает заранее определенное число (pre-determined number). В одном из вариантов упоминается сравнение только самого релевантного результата (Топ-1).
Predicted Similarity (Предсказанная схожесть): Выход Второй модели. Это вероятность (likelihood) того, что два запроса похожи (т.е. имеют схожую выдачу).
Ranking Score (Оценка ранжирования): Первая модель генерирует оценки для кандидатов. Эти оценки используются для выбора лучшего кандидата из пары дубликатов.

Методы и Алгоритмы

Deep Semantic Similarity Model (DSSM): Явно упоминается как возможная реализация для Первой и Второй моделей.
Pair-wise Learning: Метод обучения Второй модели на парах запросов для предсказания их взаимосвязи.

Выводы

SERP Similarity как эталон схожести запросов: Это самый важный вывод для SEO. Патент подтверждает, что Яндекс определяет истинную схожесть (или различие) поисковых интентов на основе того, насколько пересекаются результаты поиска по этим запросам. Если выдача одинаковая, запросы считаются схожими, независимо от их текста.
Цель — разнообразие предложений (Diversity): Система активно борется с избыточностью в подсказках и связанных запросах. Если две подсказки ведут на одну и ту же выдачу, они считаются дубликатами, и одна из них удаляется.
Два режима дедупликации: Яндекс может использовать либо быструю, предварительно обученную модель (Вторую модель) для предсказания SERP Similarity, либо более ресурсоемкий, но точный метод сравнения выдачи в реальном времени.
Обучение моделей на основе SERP: Вторая модель (вероятно, DSSM или аналог) обучается аппроксимировать SERP Similarity. Это означает, что система пытается научить языковую модель понимать, какие изменения в тексте запроса приведут к изменению выдачи, а какие — нет.
Важность Топ выдачи: Для определения схожести используется сравнение Топ N/M документов, что подчеркивает важность именно верхней части выдачи для определения интента запроса.

Практика

Best practices (это мы делаем)

Использование SERP Similarity для кластеризации ядра: При группировке ключевых слов необходимо в первую очередь опираться на схожесть выдачи (процент общих документов в Топ-10/20), а не на текстовую близость. Этот патент подтверждает, что именно так Яндекс определяет схожесть интентов. Инструменты кластеризации, основанные на анализе Топов (Hard Clustering), критически важны.
Анализ границ интента: Необходимо тщательно анализировать выдачу по текстуально близким запросам. Если вы видите, что выдача значительно меняется при небольшом изменении запроса, это означает, что система считает эти запросы различными (низкая SERP Similarity), и они требуют отдельных страниц или стратегий оптимизации.
Мониторинг связанных запросов и подсказок: Анализируйте, какие обогащенные запросы предлагает Яндекс по вашим целевым запросам. Тот факт, что они отображаются вместе, означает, что система считает их достаточно разнообразными (согласно этому патенту). Это может дать идеи для расширения контента и охвата смежных, но отличных интентов.

Worst practices (это делать не надо)

Кластеризация только по текстовой близости (Soft Clustering): Группировка запросов на основе общих слов или лемм без учета SERP Similarity может привести к созданию некорректных кластеров. Текстуально разные запросы могут быть идентичными с точки зрения поиска, и наоборот.
Создание отдельных страниц под синонимы с идентичной выдачей: Если несколько запросов (например, синонимы или разные формулировки) имеют практически идентичную выдачу (высокая SERP Similarity), создание отдельных страниц под каждый из них нецелесообразно. Яндекс рассматривает их как один и тот же интент.

Стратегическое значение

Патент имеет высокое стратегическое значение для SEO-специалистов, занимающихся семантическим анализом. Он официально подтверждает приоритет SERP Similarity над текстовой схожестью при определении интента пользователя. Это фундаментальное знание, которое должно лежать в основе любой современной стратегии кластеризации семантического ядра. Понимание того, как Яндекс обучает свои модели (DSSM) предсказывать эту схожесть, подчеркивает движение поиска к глубокому пониманию того, какие результаты удовлетворяют какие запросы.

Практические примеры

Сценарий 1: Дедупликация подсказок и влияние на кластеризацию

Исходный запрос пользователя: «купить iphone».
Генерация кандидатов (Первая модель):
- Кандидат 1: «купить iphone 15 pro цена» (Ранг 1)
- Кандидат 2: «iphone 15 pro купить стоимость» (Ранг 2)
- Кандидат 3: «купить iphone 15 pro бу» (Ранг 3)
Анализ схожести (Вторая модель):
- Система определяет, что Кандидат 1 и Кандидат 2 имеют практически идентичную выдачу (высокая SERP Similarity).
- Система определяет, что Кандидат 1 и Кандидат 3 имеют разную выдачу (низкая SERP Similarity, так как интент меняется на б/у товары).
Фильтрация: Кандидат 2 отбрасывается, так как он похож на Кандидат 1 и имеет более низкий ранг.
Результат для пользователя: Отображаются подсказки «купить iphone 15 pro цена» и «купить iphone 15 pro бу».
Вывод для SEO: Запросы 1 и 2 нужно оптимизировать на одной странице (это один кластер). Запрос 3 требует отдельной страницы или фильтра (это другой кластер).

Сценарий 2: Определение границ интента

Анализ запросов: SEO-специалист анализирует запросы «лучшие рестораны москвы» (Запрос А) и «недорогие рестораны москвы» (Запрос Б).
Проверка SERP Similarity: Специалист видит, что Топ-10 выдачи по этим запросам пересекается слабо (например, только на 20%).
Интерпретация (на основе патента): Несмотря на текстовую близость, Яндекс считает эти запросы разными, так как они генерируют разные результаты. Вторая модель предсказала бы низкую схожесть.
Действие SEO: Создать две отдельные статьи/лендинга: один для премиум-сегмента, другой для бюджетного, так как попытка оптимизировать одну страницу под оба интента будет неэффективной.

Вопросы и ответы

Что в этом патенте понимается под «обогащенным запросом» (Enriched Query)?

Это общий термин, который охватывает любые запросы, предлагаемые пользователю системой в дополнение к его текущему вводу. В патенте явно упоминаются подсказки автодополнения (query-completion suggestions), которые появляются при вводе запроса в строку поиска, а также связанные или последующие запросы (hints, follow-up queries), которые отображаются на странице результатов поиска (SERP), например, в блоках внизу страницы или в виде интерактивных элементов наверху.

Каков главный критерий схожести двух запросов согласно этому патенту?

Главным и эталонным (Ground Truth) критерием схожести является степень пересечения результатов поиска (SERP Similarity). Два запроса считаются похожими, если в ответ на них поисковая система генерирует значительно пересекающееся множество релевантных документов (например, если Топ-N результатов совпадают). Текстовая или семантическая близость самих запросов вторична по отношению к совпадению выдачи.

Как это изобретение влияет на ранжирование моего сайта?

Патент не описывает алгоритмы ранжирования документов, поэтому прямого влияния на позиции сайта он не оказывает. Он описывает механизм фильтрации и повышения разнообразия самих поисковых подсказок. Однако он дает критически важное понимание того, как Яндекс определяет интент и границы между кластерами запросов, что напрямую влияет на стратегию сбора и кластеризации семантического ядра.

В патенте описаны два способа определения схожести: через Вторую модель и в реальном времени. В чем разница?

Разница в производительности и точности. Способ в реальном времени (Claim 11) предполагает выполнение поиска для каждого кандидата и сравнение выдачи. Это точно, но ресурсоемко. Способ через Вторую модель (Claim 1) использует предварительно обученную нейросеть, которая предсказывает SERP Similarity только на основе текста запросов. Это гораздо быстрее, так как не требует выполнения реального поиска, но является аппроксимацией.

Как обучается Вторая модель?

Она обучается в офлайн-режиме в попарной конфигурации (pair-wise configuration). Система берет пары прошлых запросов и определяет для них эталонную схожесть (Ground Truth) путем сравнения их реальной выдачи (Топ-N документов). Затем модель (например, DSSM) обучается предсказывать эту эталонную схожесть, используя только текст запросов. Цель — научить модель предсказывать, насколько похожей будет выдача, не генерируя саму выдачу.

Как этот патент влияет на подход к кластеризации семантического ядра?

Он подтверждает необходимость использования SERP Similarity как основного метода кластеризации (Hard Clustering). Группировка запросов только на основе текстовой близости (Soft Clustering) является устаревшим подходом. Если два запроса ведут на практически одинаковую выдачу, они принадлежат к одному кластеру, независимо от того, насколько различается их текст. SEO-специалистам следует использовать инструменты, которые анализируют пересечение Топ-10 выдачи.

В патенте упоминается DSSM. Использует ли Яндекс эту модель или более современные трансформеры (BERT/YATI)?

В патенте DSSM (Deep Semantic Similarity Model) приводится как пример реализации Первой и Второй моделей. Хотя Яндекс активно использует трансформерные архитектуры (YATI) для ранжирования, DSSM-подобные модели часто применяются для задач, требующих высокой скорости и эффективности, таких как генерация и фильтрация подсказок. Вероятно, используются современные модели, оптимизированные для быстрого расчета семантической схожести.

Если я вижу две очень похожие подсказки в Яндексе, значит ли это, что алгоритм не сработал?

Не обязательно. Во-первых, пороги схожести могут быть настроены так, что некоторое пересечение выдачи допустимо. Если выдача совпадает на 70%, система может решить, что оставшиеся 30% достаточно уникальны, чтобы показать обе подсказки. Во-вторых, если используется Вторая модель, она может ошибаться в предсказании SERP Similarity, так как является аппроксимацией реальной выдачи.

Что такое «заранее определенное количество общих документов» для определения схожести?

Это пороговое значение, используемое при сравнении SERP. Например, система может быть настроена так, что если при сравнении Топ-10 результатов по двум запросам совпадает 8 или более документов, то запросы считаются похожими. Конкретные значения в патенте не указаны и являются настройкой поисковой системы.

Как Первая модель выбирает, какой кандидат оставить, если они похожи?

Первая модель генерирует не просто список кандидатов, а ранжированный список (Claim 5). Если Вторая модель (или real-time проверка) определяет, что два кандидата похожи, система оставляет тот кандидат, который имеет более высокий ранг, присвоенный Первой моделью, а второй отбрасывается. Это гарантирует, что сохраняются наиболее качественные или релевантные предложения.