Как Яндекс дедуплицирует похожие поисковые подсказки и связанные запросы на основе SERP Similarity

Яндекс патентует метод фильтрации и дедупликации поисковых подсказок и связанных запросов. Система определяет схожесть двух запросов-кандидатов на основе степени пересечения их результатов поиска (SERP Similarity). Если две подсказки ведут на схожие выдачи, система отображает только одну из них (с более высоким рангом), чтобы обеспечить разнообразие предложений для пользователя.

Описание

Какую задачу решает

Патент решает задачу повышения качества и разнообразия (Diversity) поисковых подсказок (саджестов) и связанных запросов. Он устраняет проблему избыточности (Redundancy), когда пользователю предлагаются разные по формулировке, но одинаковые по смыслу и результатам поиска варианты. Например, показывать одновременно подсказки «купить подержанный авто» и «приобрести автомобиль с пробегом» неэффективно, если они ведут на идентичную выдачу. Система улучшает пользовательский опыт, фильтруя такие дубликаты.

Что запатентовано

Запатентована система формирования и фильтрации расширенных запросов (автодополнения, связанные запросы, переформулировки). Суть изобретения заключается в механизме дедупликации кандидатов. Первая модель генерирует и ранжирует кандидатов. Затем Вторая модель (или альтернативный real-time процесс) определяет степень схожести между кандидатами, основываясь на эталоне — пересечении релевантных документов (SERP Similarity).

Как это работает

Процесс состоит из нескольких этапов. Сначала Первая модель (например, модель ранжирования или DSSM) генерирует и ранжирует список строк-кандидатов для расширения исходного запроса. Затем система оценивает схожесть между этими кандидатами. Схожесть определяется на основе того, насколько сильно пересекаются результаты поиска (SERP) по этим кандидатам. Патент описывает два основных метода оценки схожести:

Использование Второй модели (Claim 1): Эта модель (например, DSSM) обучена предсказывать степень пересечения SERP на основе текста запросов. Это быстрый метод.
Сравнение выдачи в реальном времени (Claim 11): Система генерирует результаты поиска для обоих кандидатов в реальном времени и напрямую сравнивает количество одинаковых документов в выдаче.

Если кандидаты признаны схожими, система инициирует отображение только одного из них — того, который имеет более высокий ранг согласно Первой модели.

Актуальность для SEO

Высокая. Понимание семантической близости запросов и управление качеством поисковых подсказок являются ключевыми задачами современных поисковых систем. Использование SERP Similarity как эталона схожести (Ground Truth) и применение семантических моделей (явно упомянуты DSSM) соответствует текущим трендам в Information Retrieval.

Важность для SEO

Влияние на SEO среднее (6/10). Патент не описывает алгоритмы ранжирования документов, поэтому прямого влияния на позиции сайта нет. Однако он имеет критическое стратегическое значение. Он четко определяет, как именно Яндекс измеряет схожесть запросов — через пересечение выдачи (SERP Similarity). Это валидирует подходы к семантической кластеризации на основе Топа (Hard Clustering) как фундаментально верные. Кроме того, система влияет на поисковый путь пользователя, определяя, какие именно подсказки увидит пользователь.

Детальный разбор

Термины и определения

DSSM (Deep Structured Semantic Model / Углубленная модель семантического сходства): Нейросетевая архитектура, используемая для создания векторных представлений (эмбеддингов) текстов и определения семантической близости между ними. В патенте указано, что и Первая, и Вторая модели могут быть реализованы как DSSM (Claims 6, 7, 22, 23).
Расширенный запрос (Expanded Query): Общий термин для запросов, сгенерированных системой на основе исходного запроса пользователя. Включает Дополненный и Переформулированный запрос.
Дополненный запрос (Augmented Query): Расширенный запрос, содержащий исходный запрос. Например, автодополнение (Search Suggest). Может отображаться как при вводе запроса (без SERP, Claim 8), так и на странице SERP (Claim 10).
Переформулированный запрос (Reformulated Query): Альтернативная формулировка исходного запроса. Обычно отображается на странице SERP (например, «Связанные запросы» или «Люди также ищут», Claim 9).
Первая модель: Модель (например, модель ранжирования или DSSM), ответственная за генерацию и ранжирование строк-кандидатов для расширенного запроса.
Вторая модель: Модель (например, DSSM), обученная в парной конфигурации для определения схожести между двумя строками-кандидатами. Она предсказывает степень SERP Similarity на основе текста запросов.
SERP Similarity (Сходство на основе документов/SERP): Метрика схожести двух запросов, определяемая как степень пересечения множеств релевантных документов (результатов поиска) по этим запросам. В патенте это является эталоном (Ground Truth) для обучения Второй модели.
Парная конфигурация (Pairwise Configuration): Метод обучения модели, при котором на вход подается пара объектов (пара запросов), а модель учится предсказывать отношение между ними (схожесть).

Ключевые утверждения (Анализ Claims)

Патент защищает два различных способа дедупликации расширенных запросов: один основан на предварительно обученной ML-модели (Claim 1), а другой — на сравнении результатов поиска в реальном времени (Claim 11).

Claim 1 (Независимый пункт): Основной метод (Использование ML-модели).

Сервер получает пользовательский запрос.
Первая модель формирует строки-кандидаты (например, Кандидат А и Кандидат Б).
Вторая модель определяет, что Кандидат А и Кандидат Б являются схожими.
Критически важно: Вторая модель обучена в парной конфигурации. Обучающий набор содержит пары запросов и метку схожести.
Критически важно: Эта метка определяется на основе сравнения документов, релевантных этим запросам (т.е. на основе SERP Similarity). Вторая модель учится предсказывать эту метку, используя только текст запросов.
Сервер инициирует отображение лишь одной строки из этой схожей пары.

Система использует машинное обучение (Вторую модель), чтобы быстро предсказать, будут ли результаты поиска по двум разным запросам одинаковыми, не выполняя фактический поиск.

Claim 3 (Зависимый от 1): Определение эталонной схожести (SERP Similarity).

Уточняет механизм определения метки схожести (Ground Truth) для обучения. Сравниваются Топ-N документов для первого запроса и Топ-M документов для второго запроса. Метка указывает на схожесть, если в этих множествах содержится по меньшей мере заранее заданное количество одинаковых документов (порог пересечения).

Claim 5 (Зависимый от 1): Логика выбора при дедупликации.

Уточняется, что Первая модель является моделью ранжирования. При обнаружении пары схожих кандидатов отображается строка-кандидат с большим рангом.

Claim 11 (Независимый пункт): Альтернативный метод (Real-time сравнение SERP).

Описывает способ, который не использует предобученную Вторую модель.

Сервер получает запрос и формирует кандидатов (Первая модель).
Сервер определяет в реальном времени первое множество документов (SERP 1), релевантных первому кандидату.
Сервер определяет в реальном времени второе множество документов (SERP 2), релевантных второму кандидату.
Сервер определяет, что кандидаты схожи, если в SERP 1 и SERP 2 содержится «по меньшей мере заранее заданное количество одинаковых документов» (прямое сравнение SERP).
Сервер инициирует отображение лишь одной строки из пары.

Эта реализация более точна, так как использует актуальные данные SERP, но значительно более ресурсоемка.

Где и как применяется

Изобретение применяется на этапах, связанных с генерацией интерфейса и пониманием запроса.

QUERY PROCESSING – Понимание Запросов
Основное применение — в подсистемах, отвечающих за генерацию поисковых подсказок (Search Suggest/Autocomplete) и связанных запросов (Related Searches). Когда пользователь вводит запрос, Первая модель генерирует кандидатов. Затем описанный механизм фильтрации (Вторая модель или сравнение SERP) дедуплицирует этот список перед показом пользователю. Это соответствует Claim 8 (отображение дополненного запроса без отображения SERP).

BLENDER – Метапоиск и Смешивание / Генерация SERP
Механизм также применяется при формировании блоков на странице результатов поиска (SERP). Если расширенный запрос представляет собой переформулированный запрос (Claim 9, «Похожие запросы») или дополненный запрос на SERP (Claim 10, уточнения/фильтры), дедупликация происходит на этапе формирования финальной страницы выдачи.

Офлайн-процессы
Для реализации по Claim 1 требуется значительная офлайн-работа (Claim 4):

Сбор логов запросов и соответствующих им результатов поиска (SERP).
Расчет фактической SERP Similarity между парами запросов на основе пересечения Топ-N/M документов (Claim 3).
Обучение Второй модели (например, DSSM) предсказывать эту схожесть, используя только текст запросов.

На что влияет

Пользовательский опыт (UX): Напрямую влияет на разнообразие и полезность поисковых подсказок и связанных запросов. Уменьшает информационный шум.
Специфические форматы: Влияет на поисковые подсказки (Autocomplete), блоки связанных запросов (Related Searches) и интерактивные элементы уточнения запроса на SERP.
Ранжирование: Не влияет на ранжирование документов в основном поиске.

Когда применяется

Алгоритм применяется при каждом взаимодействии пользователя с поисковой строкой (для автодополнения) или при генерации страницы выдачи (для связанных запросов).

Триггеры активации: Генерация Первой моделью более одного кандидата для расширенного запроса.
Условия работы: Система должна определить, превышает ли схожесть между кандидатами (рассчитанная Второй моделью или путем сравнения SERP) заранее заданный порог.

Пошаговый алгоритм

Процесс А: Офлайн-обучение Второй модели (Основа для Claim 1)

Сбор данных: Формирование обучающего набора пар прошлых запросов (Q1, Q2).
Генерация SERP (Автономный режим): Для Q1 определяется Топ-N релевантных документов (SERP1), а для Q2 — Топ-M документов (SERP2).
Расчет эталонной схожести (Ground Truth): Вычисление степени пересечения между SERP1 и SERP2. Если пересечение превышает порог («заранее заданное количество»), паре (Q1, Q2) присваивается положительная Метка схожести.
Обучение модели: Вторая модель (DSSM) обучается в парной конфигурации предсказывать эту Метку, используя только текстовое содержание Q1 и Q2.

Процесс Б: Применение в реальном времени (Метод по Claim 1 — Быстрый)

Получение запроса: Система получает исходный запрос пользователя.
Генерация и Ранжирование Кандидатов: Первая модель генерирует и ранжирует список строк-кандидатов (C1, C2, C3…).
Оценка Схожести: Вторая модель используется для оценки схожести между парами кандидатов (например, между C1 и C2) на основе их текста.
Идентификация Дубликатов: Если предсказанная схожесть превышает порог, они помечаются как пара схожих строк.
Фильтрация: Из пары схожих строк выбирается только одна. Выбор основывается на ранге, присвоенном Первой моделью (выбирается кандидат с большим рангом, Claim 5).
Отображение: Инициируется отображение отфильтрованного списка расширенных запросов.

Процесс В: Применение в реальном времени (Метод по Claim 11 — Точный)

Получение запроса, Генерация и Ранжирование Кандидатов: Аналогично Процессу Б.
Генерация SERP в реальном времени: Для кандидатов C1 и C2 система определяет множества релевантных документов (SERP1, SERP2).
Оценка Схожести: Система сравнивает SERP1 и SERP2 и подсчитывает количество одинаковых документов.
Идентификация Дубликатов: Если количество одинаковых документов превышает заранее заданное количество, C1 и C2 помечаются как схожие.
Фильтрация и Отображение: Аналогично Процессу Б (выбирается кандидат с большим рангом).

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Текст исходного пользовательского запроса. Тексты сгенерированных строк-кандидатов. Эти тексты являются входными данными для Первой и Второй моделей (DSSM).
Системные данные (Индекс и SERP):
- Для обучения Второй модели (офлайн): Исторические данные о том, какие документы являются наиболее релевантными для обучающих запросов (SERP).
- Для метода по Claim 11 (онлайн): Результаты поиска (SERP), генерируемые в реальном времени для строк-кандидатов.

В патенте не упоминаются ссылочные, поведенческие, временные или технические факторы для целей дедупликации.

Какие метрики используются и как они считаются

Метрика Схожести Выдачи (SERP Similarity): Ключевая метрика патента. Рассчитывается как количество одинаковых документов в Топ-N и Топ-M результатов поиска по двум запросам (Claim 3). Используется как эталон (Ground Truth) для обучения и как метрика для сравнения в реальном времени (Claim 11).
Предсказанная Схожесть (Predicted Similarity): Метрика, которую выдает Вторая модель. Это оценка вероятности того, что два запроса имеют схожую выдачу, основанная на их текстовом содержании.
Ранг Кандидата (Ranking Score): Метрика, выдаваемая Первой моделью. Используется для первоначального упорядочивания кандидатов и для выбора лучшего варианта из пары дубликатов (Claim 5).

Методы и Алгоритмы

DSSM (Углубленная модель семантического сходства): Явно указана как технология для реализации Первой и Второй моделей. DSSM преобразует тексты в векторы (эмбеддинги) и вычисляет близость между ними.
Машинное обучение в парной конфигурации (Pairwise Learning): Метод, используемый для обучения Второй модели. Модель учится предсказывать метку взаимосвязи между парой запросов.

Выводы

SERP Similarity как эталон интента: Это самый важный вывод для SEO. Патент подтверждает, что Яндекс определяет схожесть интента двух запросов на основе схожести их результатов поиска (SERP Similarity). Это является эталоном (Ground Truth).
Цель патента — разнообразие подсказок: Основная задача изобретения — улучшение пользовательского опыта путем дедупликации семантически близких поисковых подсказок и связанных запросов, а не изменение ранжирования основного поиска.
Аппроксимация SERP Similarity через текст: Для быстрой работы в реальном времени Яндекс обучает специальную модель (Вторая модель, например, DSSM) предсказывать SERP Similarity, используя только текст запросов. Модель учится понимать, какие текстуальные различия не влияют на интент.
Два метода дедупликации: Запатентованы два подхода: быстрый с использованием обученной модели (Claim 1) и более медленный, но точный, основанный на сравнении SERP в реальном времени (Claim 11).
Выбор лучшего варианта: Если два варианта расширения признаны схожими, система выбирает тот, который имеет более высокий ранг согласно модели генерации (Первая модель).

Практика

Best practices (это мы делаем)

Хотя патент направлен на улучшение интерфейса Яндекса, он дает критически важные инсайты для SEO-стратегии в области семантического анализа и кластеризации.

Использование SERP Similarity для кластеризации ядра (Hard Clustering): Применяйте методы кластеризации, которые основываются на анализе пересечения Топ-10/Топ-20 выдачи Яндекса. Патент подтверждает, что именно этот метод Яндекс использует как эталон схожести запросов. Если по двум запросам выдача сильно пересекается, их следует объединить в один кластер и оптимизировать на одной странице.
Фокус на покрытии различных интентов, а не синонимов: Понимайте, что множество текстуально различных запросов интерпретируется Яндексом как один интент. Сосредоточьтесь на создании страниц, которые покрывают действительно разные поисковые намерения (с разной выдачей), а не на оптимизации под отдельные ключевые слова.
Анализ поисковых подсказок и связанных запросов: Изучайте, какие подсказки предлагает Яндекс. Поскольку они проходят фильтрацию, описанную в патенте, они представляют собой наиболее релевантные и разнообразные (с точки зрения интента) направления для расширения темы контента.

Worst practices (это делать не надо)

Кластеризация только на основе текста (Soft Clustering): Использование методов кластеризации, основанных только на текстовой близости запросов (например, по общим словам), может привести к ошибкам. Текстуально близкие запросы могут иметь разный интент (разную выдачу), и наоборот.
Создание отдельных страниц под близкие синонимы (Каннибализация): Создание разных страниц для запросов, которые имеют высокую степень SERP Similarity (например, «продвижение сайта» и «раскрутка сайта»). Яндекс считает их схожими. Это приведет к каннибализации трафика и неэффективному расходованию ресурсов.
Игнорирование анализа Топа при сборе семантики: Сбор семантики без последующей проверки SERP Similarity приведет к некорректной структуре сайта и ошибкам в оптимизации.

Стратегическое значение

Патент имеет высокое стратегическое значение для SEO, так как он раскрывает механизм определения схожести запросов в Яндексе. Он подтверждает глобальный тренд перехода от ключевых слов к интентам, где интент верифицируется через анализ выдачи. Это подчеркивает необходимость использования продвинутых инструментов для анализа семантики, которые учитывают SERP Similarity, и уход от устаревших методов работы с семантическим ядром.

Практические примеры

Сценарий 1: Кластеризация семантического ядра для интернет-магазина

Сбор данных: SEO-специалист собрал список запросов: Q1=»купить холодильник недорого», Q2=»дешевый холодильник купить», Q3=»купить холодильник цена», Q4=»рейтинг холодильников».
Анализ (имитация работы системы Яндекса):
- Специалист проверяет SERP Similarity для (Q1, Q2). Пересечение Топ-10 составляет 90%. Яндекс определит их как схожие.
- Проверка (Q1, Q3). Пересечение Топ-10 составляет 70%. Вероятно, также будут признаны схожими (зависит от порога).
- Проверка (Q1, Q4). Пересечение Топ-10 составляет 10%. Q1 — коммерческий интент (листинги), Q4 — информационный (обзоры). Яндекс определит их как различные.
Действие SEO-специалиста: Запросы Q1, Q2, Q3 объединяются в один кластер и оптимизируются на одной коммерческой странице (листинге). Запрос Q4 выносится в отдельный кластер для статьи в блоге.
Результат: Структура сайта соответствует тому, как Яндекс группирует интенты, что предотвращает каннибализацию и улучшает ранжирование.

Сценарий 2: Анализ разнообразия интентов

Задача: Понять различные интенты, связанные с запросом «Python».
Действие SEO-специалиста: Ввести запрос «Python» и проанализировать поисковые подсказки.
Наблюдение: Видны подсказки: «Python скачать», «Python курс», «Python для начинающих».
Интерпретация: Благодаря механизму дедупликации из патента, мы можем быть уверены, что эти подсказки ведут на существенно разные выдачи (низкий SERP Similarity) и представляют собой разные интенты (навигационный, транзакционный/обучение, информационный).
Результат: При планировании контент-стратегии необходимо учитывать эти различные направления для полного охвата темы.

Вопросы и ответы

Какова основная цель этого патента Яндекса?

Основная цель — улучшить пользовательский опыт за счет повышения разнообразия поисковых подсказок (автодополнения) и связанных запросов на странице выдачи. Система предназначена для дедупликации предложений: если несколько сгенерированных подсказок текстуально отличаются, но ведут к практически одинаковым результатам поиска, пользователю будет показана только одна из них.

Что является эталоном (Ground Truth) для определения схожести запросов в этом патенте?

Эталоном схожести является степень пересечения результатов поиска (SERP Similarity). Два запроса считаются схожими, если в их Топ-N и Топ-M результатах содержится заранее заданное количество одинаковых документов (Claim 3). Именно этот показатель используется как целевая метрика (метка) для обучения Второй модели.

Описывает ли этот патент алгоритм ранжирования сайтов в поиске?

Нет, напрямую он не описывает, как ранжируются документы в основной выдаче. Он описывает, как генерируются, ранжируются и фильтруются (дедуплицируются) сами расширенные запросы (поисковые подсказки и связанные запросы). Ранжированием кандидатов занимается Первая модель, но детали ее работы не раскрываются.

Как этот патент влияет на стратегию кластеризации семантического ядра?

Он имеет критическое значение для кластеризации. Патент подтверждает, что для Яндекса единственным надежным критерием схожести запросов является схожесть выдачи (SERP Similarity). Это означает, что SEO-специалисты должны использовать Hard Clustering (кластеризацию на основе пересечения топов выдачи) как основной метод группировки ключевых слов, а не полагаться только на текстовую близость (Soft Clustering).

Что такое «Вторая модель» и зачем она нужна, если можно сравнивать выдачу в реальном времени (Claim 11)?

Сравнивать выдачу (SERP) в реальном времени для каждой пары подсказок слишком ресурсоемко и медленно. Вторая модель — это ML-алгоритм (например, DSSM), который обучается предсказывать SERP Similarity, используя только текст запросов. Она является быстрой аппроксимацией эталонной схожести и позволяет проводить дедупликацию мгновенно (Claim 1).

Что такое DSSM, упоминаемая в патенте?

DSSM (Deep Structured Semantic Models) — это класс глубоких нейронных сетей, используемых для задач семантического сопоставления. Они преобразуют тексты (запросы) в векторы в семантическом пространстве и вычисляют расстояние между ними. В патенте DSSM предлагается использовать как для генерации подсказок (Первая модель), так и для их дедупликации (Вторая модель).

Что происходит, если система определила две подсказки как схожие?

Если две строки-кандидата признаны схожими, система отображает только одну из них. Выбор делается на основе ранга, присвоенного Первой моделью (моделью генерации). Отображается подсказка с более высоким рангом (Claim 5), то есть наиболее качественная или вероятная формулировка.

Где именно отображаются эти «расширенные запросы»?

Патент указывает несколько вариантов. Это может быть «дополненный запрос», отображаемый без показа SERP (например, автодополнение в поисковой строке до клика на поиск, Claim 8). Также это может быть «переформулированный запрос», отображаемый на странице SERP (например, блок «Похожие запросы» или «Люди также ищут», Claim 9).

Как этот механизм влияет на стратегию продвижения по низкочастотным запросам (Long-Tail)?

Он подчеркивает важность таргетинга на уникальные интенты, а не на незначительные вариации формулировок. Если несколько НЧ-запросов имеют одинаковую выдачу, их следует рассматривать как один кластер. Эффективная Long-Tail стратегия должна фокусироваться на покрытии множества различных интентов (с разными SERP), а не на размножении страниц под синонимы.

Как я могу использовать знания из этого патента в своей ежедневной работе?

Во-первых, пересмотрите свою методологию кластеризации семантики, убедившись, что она основана на строгом анализе SERP Similarity. Во-вторых, анализируйте поисковые подсказки и связанные запросы как источник гарантированно разных интентов, которые Яндекс идентифицировал для вашей тематики, и используйте их для планирования контент-стратегии и структуры сайта.