Как Яндекс использует текстовую схожесть для переноса поведенческих сигналов с известных запросов на новые при ранжировании

Яндекс патентует метод улучшения ранжирования для новых или редких запросов. Система использует модель (Second MLA), обученную предсказывать поведенческую схожесть запросов на основе их текста. Для нового запроса находятся похожие прошлые запросы. Затем система анализирует историческую эффективность (CTR, Dwell Time) документов по этим прошлым запросам и использует эти данные как фактор ранжирования (Second Similarity Parameter), комбинируя текстовую схожесть и силу поведенческого сигнала.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» для новых, редких или ранее не встречавшихся запросов (new query), для которых отсутствует прямая статистика поведения пользователей. Изобретение позволяет улучшить релевантность выдачи путем переноса поведенческих сигналов (user-interaction parameters) с семантически похожих запросов, по которым уже накоплена статистика взаимодействий.

Что запатентовано

Запатентован метод генерации специфического фактора ранжирования (ranking feature), названного Second Similarity Parameter (SSP). Суть изобретения заключается в использовании обученной модели (Second MLA) для предсказания схожести между текущим (новым) запросом и прошлыми запросами, по которым документ показал хорошие поведенческие метрики. Этот фактор рассчитывается как произведение предсказанной текстовой схожести и исторических параметров взаимодействия пользователя (например, CTR или Dwell Time) и используется в основном алгоритме ранжирования (First MLA).

Как это работает

Система работает в два этапа: обучение и применение.

Обучение: Second MLA (например, нейронная сеть, основанная на принципах DSSM) обучается предсказывать «поведенческую схожесть» между запросами, используя только их текст. Поведенческая схожесть (Ground Truth) рассчитывается на основе того, насколько похожи взаимодействия пользователей (клики, dwell time) с результатами выдачи по этим запросам.

Применение: Когда поступает новый запрос, система находит похожие прошлые запросы. Она извлекает результаты и их «аннотации» (Annotations). Аннотация содержит список других запросов, которые приводили к этому результату, и связанные с ними поведенческие метрики. Ключевой механизм: система вычисляет SSP путем умножения текстовой схожести нового запроса с запросом из аннотации на поведенческую метрику из аннотации. Максимальное значение SSP используется в основной формуле ранжирования.

Актуальность для SEO

Высокая. Использование векторных представлений (эмбеддингов) для определения семантической близости и перенос поведенческих сигналов между похожими интентами являются центральными элементами современных поисковых систем, включая Яндекс (с применением моделей типа YATI). Описанный механизм напрямую адресует задачу повышения качества на «длинном хвосте» запросов.

Важность для SEO

Влияние на SEO значительно (8/10). Патент демонстрирует конкретный механизм, посредством которого Яндекс определяет релевантность документа не только по его соответствию текущему запросу, но и по его исторической успешности (поведенческим факторам) для семантически близких запросов. Это требует стратегического фокуса на покрытии всего кластера интентов (Topical Authority) и максимизации удовлетворенности пользователя по всем связанным запросам.

Детальный разбор

Термины и определения

Annotation (Аннотация): Структура данных, связанная с документом. Включает список прошлых запросов (respective search queries или Q_access), которые использовались для доступа к этому документу, и связанные с ними параметры взаимодействия пользователя (UIP).
DSSM (Deep Structured Semantic Model): Глубокая нейронная сеть для оценки семантической близости текстов. Упоминается в патенте как основа для разработанной технологии.
First MLA (Первый алгоритм машинного обучения): Основной алгоритм ранжирования (например, GBDT или CatBoost). Использует SSP как один из признаков для финального ранжирования.
Query Vector (Вектор запроса): Численное представление запроса на этапе обучения. Строится на основе поведенческих параметров (UIP) пользователей с результатами поиска по этому запросу (Поведенческий вектор).
Second MLA (Второй алгоритм машинного обучения): Алгоритм (например, нейронная сеть), обученный предсказывать поведенческую схожесть запросов, используя только их текстовое содержание.
Second Similarity Parameter (SSP) (Второй параметр схожести): Ключевой фактор ранжирования, генерируемый системой. Рассчитывается как произведение текстовой схожести (между новым запросом и запросом из аннотации) и исторического UIP.
User-Interaction Parameter (UIP) (Параметр взаимодействия пользователя): Поведенческие метрики. В патенте явно упоминаются Dwell Time (время на сайте) и CTR.

Ключевые утверждения (Анализ Claims)

Патент защищает метод генерации фактора ранжирования (SSP) путем комбинирования предсказанной текстовой схожести и исторических поведенческих данных.

Claim 1 (Независимый пункт): Описывает процесс применения системы (In-Use Phase).

Система (Second MLA) получает новый запрос (New Query).
Вычисляется First Similarity Parameter (текстовая схожесть) между новым запросом и множеством прошлых запросов.
Выбирается прошлый запрос (First Past Query) с наивысшей схожестью.
Извлекается набор результатов, связанных с этим прошлым запросом.
Каждый результат имеет Аннотации. В Claim 1 описан пример с двумя аннотациями для одного результата:
- Аннотация 1: Содержит Второй Прошлый Запрос (Q_access1) и связанный с ним UIP1.
- Аннотация 2: Содержит Третий Прошлый Запрос (Q_access2) и связанный с ним UIP2.
Вычисляется Second Similarity Parameter (SSP) для каждой аннотации. Это вычисление включает (согласно Claim 1 и уточнениям в Claims 5, 6):

Определение Third Similarity Parameter (текстовая схожесть) между Новым запросом и запросом из Аннотации (Q_access).
Умножение этой текстовой схожести на поведенческий параметр (UIP) из Аннотации. (Например, SSP1 = Similarity(New, Q_access1) * UIP1).

Система сравнивает полученные SSP (SSP1 и SSP2).
Наибольший SSP (если SSP1 > SSP2, то используется SSP1) применяется как фактор ранжирования в First MLA.

Claim 2 (Зависимый пункт): Описывает процесс обучения Second MLA (Training Phase).

Извлекаются исторические данные: прошлые запросы, их результаты и UIP.
Для каждого запроса вычисляется Query Vector (Поведенческий вектор) на основе взаимодействий с результатами.
Для пар запросов вычисляется Training Similarity Parameter (Поведенческая схожесть) путем сравнения их Query Vectors (например, скалярное произведение или косинусная близость, Claim 4). Это Ground Truth.
Second MLA обучается на наборе данных, где вход — это текстовые признаки пары запросов (Claim 5), а цель — предсказать их Training Similarity Parameter.

Где и как применяется

Изобретение интегрирует офлайн-обучение и онлайн-обработку запросов для генерации факторов ранжирования.

Офлайн-процессы (INDEXING / Feature Extraction)

Обучение Second MLA: Процесс, описанный в Claim 2. Система учится понимать корреляцию между текстом и поведением.
Генерация Аннотаций: Система (в патенте упоминается возможность использования Third MLA, Claim 11) анализирует логи и создает для документов аннотации, хранящие исторические Q_access и UIP.

Онлайн-процессы (QUERY PROCESSING и RANKING)

QUERY PROCESSING – Понимание Запросов
На этом этапе Second MLA используется для быстрого вычисления текстовой схожести и определения наиболее похожего прошлого запроса (First Past Query).

RANKING – Ранжирование (Уровни L2/L3/L4)
Основное применение патента. Система извлекает результаты и их аннотации. Происходит расчет фактора SSP (умножение текстовой схожести на UIP). Этот фактор передается в First MLA (основная формула ранжирования, вероятно CatBoost) как один из признаков для финального ранжирования.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на новые (Unseen Queries), редкие и длиннохвостые (long-tail) запросы. Система позволяет перенести поведенческий успех с семантически близких популярных запросов на эти новые запросы.
Контентные факторы: Повышает важность создания контента, который удовлетворяет широкий кластер интентов и накапливает позитивные поведенческие сигналы (богатые аннотации).

Когда применяется

Алгоритм применяется в процессе ранжирования при обработке поискового запроса.

Триггеры активации: Активируется для генерации фактора SSP. Особенно важен, когда для текущего запроса недостаточно прямой поведенческой статистики (сценарий «холодного старта»).
Условия работы: Требует наличия предобученной Second MLA и базы данных Аннотаций документов.

Пошаговый алгоритм

Процесс А: Офлайн-обучение Second MLA (Training Phase)

Сбор данных: Извлечение из логов прошлых запросов, результатов и UIP (CTR, Dwell Time).
Генерация Поведенческих Векторов (Query Vectors): Для каждого запроса вычисляется вектор на основе взаимодействий с результатами.
Расчет Поведенческой Схожести (Ground Truth): Для пар прошлых запросов вычисляется схожесть путем сравнения их Query Vectors.
Обучение Модели: Second MLA обучается предсказывать эту Поведенческую Схожесть, используя только текстовые признаки запросов.

Процесс Б: Обработка запроса в реальном времени (In-Use Phase)

Получение Нового Запроса (Q_new).
Поиск Похожих Запросов: Second MLA вычисляет текстовую схожесть между Q_new и прошлыми запросами.
Выбор Лучшего Прошлого Запроса (Q_best_past).
Извлечение Результатов и Аннотаций: Получение документов, связанных с Q_best_past, и их Аннотаций (содержащих Q_access и UIP).
Вычисление Фактора Ранжирования (SSP): Для каждого документа и каждой его аннотации:

Вычисление текстовой схожести: Sim_Score = Second MLA (Q_new, Q_access).
Расчет SSP: $SSP = Sim\_Score * UIP_{Q\_access}$.

Агрегация SSP: Выбор максимального значения SSP для данного документа (если аннотаций несколько).
Ранжирование: Максимальный SSP используется как признак в основном алгоритме ранжирования (First MLA).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны. Используются User Interaction Parameters (явно упомянуты Dwell time, CTR; также упоминаются Loss/Win, Long/short click). Они используются (i) для расчета Ground Truth при обучении Second MLA и (ii) как компонент (множитель) финального фактора ранжирования (SSP).
Контентные факторы (Текстовые): Тексты запросов. Используются Second MLA для вычисления текстовой схожести. Патент упоминает использование лингвистических признаков (семантических, грамматических, лексических).
Структурные данные (Системные): Логи запросов, Логи взаимодействий, предварительно рассчитанные Аннотации документов.

Какие метрики используются и как они считаются

Query Vector (Поведенческий вектор): Вектор, представляющий запрос на основе взаимодействий пользователей с результатами.
Training Similarity Parameter (Поведенческая схожесть): Метрика близости между Query Vectors. Упоминаются скалярное произведение (scalar multiplication) и косинусная близость (cosine similarity).
Текстовая схожесть (First/Third Similarity Parameter): Выход Second MLA, обученного предсказывать поведенческую схожесть на основе текстовых признаков (эмбеддингов).
Second Similarity Parameter (SSP — Фактор Ранжирования): Рассчитывается как комбинация текстовой схожести и поведенческого параметра. В патенте (Claim 6) явно указан метод умножения:
$$ SSP = \text{TextualSimilarity}(Q_{new}, Q_{access}) \times \text{UIP}(Q_{access}, Doc) $$
Алгоритмы машинного обучения: Упоминаются Нейронные сети и DSSM (для Second MLA) и алгоритмы на основе решающих деревьев, такие как GBDT (для First MLA, например, CatBoost).

Выводы

Поведенческие данные как эталон схожести: Яндекс рассматривает схожесть поведения пользователей (клики на одни и те же документы) как истинную меру схожести запросов (Ground Truth). Текстовая схожесть обучается предсказывать этот эталон.
Трансфер поведенческих сигналов для «холодного старта»: Ключевая идея — перенос авторитета и релевантности с запросов, имеющих богатую историю, на новые или редкие запросы, если они семантически близки.
Мультипликативный эффект ПФ: Фактор ранжирования (SSP) рассчитывается через умножение текстовой схожести на исторические ПФ (UIP). Это означает, что без сильных исторических ПФ буст будет минимальным, даже при высокой текстовой схожести.
Критическая роль Аннотаций: Система полагается на качество и полноту «Аннотаций» документов — истории того, по каким запросам (Q_access) документ был успешен (высокий UIP) в прошлом.
Максимизация сигнала: При наличии нескольких релевантных исторических запросов в аннотациях система выбирает тот, который дает максимальное значение SSP, обеспечивая наибольший возможный буст.

Практика

Best practices (это мы делаем)

Максимизация позитивных поведенческих сигналов (UIP): Высокий CTR и длительное время взаимодействия (Dwell Time) критически важны. Они напрямую используются как множитель при расчете фактора SSP. Улучшайте сниппеты и качество контента, чтобы максимизировать эти метрики по всем релевантным запросам.
Фокус на Topical Authority и широком охвате интента: Создавайте контент, который полностью покрывает тему и отвечает на широкий спектр семантически связанных запросов. Это увеличивает вероятность того, что ваш документ будет иметь богатую историю успеха (Аннотации) по запросам, похожим на будущие запросы пользователей.
Оптимизация под семантические кластеры: Необходимо понимать весь кластер запросов, которые пользователи используют для поиска одной и той же информации. Используйте QBST фразы и синонимы, чтобы повысить текстовую схожесть с различными формулировками интента.
Анализ SERP Similarity: Анализируйте запросы с похожей выдачей. Это косвенный признак поведенческой схожести. Убедитесь, что ваш контент релевантен всему этому кластеру для накопления сильных аннотаций.

Worst practices (это делать не надо)

Оптимизация под один точный запрос: Стратегия фокусировки только на одном ВЧ-запросе без учета семантического окружения не позволит накопить разнообразные аннотации и снизит эффективность механизма переноса сигналов.
Игнорирование удовлетворенности пользователя (User Satisfaction): Если пользователи быстро покидают страницу (низкий Dwell Time), это минимизирует пользу от данного алгоритма, так как поведенческий множитель (UIP) в формуле SSP будет низким.
Накрутка CTR без удержания: Если система использует Dwell Time в качестве UIP (что явно указано в патенте), клики без реального взаимодействия приведут к низкому значению множителя.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса на синергию семантического анализа и анализа больших данных о поведении пользователей. Он демонстрирует, как поведенческие факторы становятся эталоном для обучения семантических моделей и напрямую интегрируются в ядро ранжирования через мультипликативные факторы. Долгосрочная SEO-стратегия должна строиться на создании авторитетных ресурсов, которые системно решают задачи пользователей и демонстрируют высокое качество взаимодействия по широкому спектру запросов.

Практические примеры

Сценарий: Ранжирование нового редкого запроса

Новый запрос (Q_new): «экологичные методы утилизации литий-ионных батарей 2025» (редкий, статистики нет).
Действие системы: Система находит похожий прошлый запрос и извлекает Документ Д.
Анализ Аннотаций Документа Д: Система видит две аннотации:
- Аннотация 1: Q_access1 = «как правильно выбросить батарейку», UIP1 (CTR) = 0.1.
- Аннотация 2: Q_access2 = «переработка аккумуляторов телефона», UIP2 (CTR) = 0.8.
Расчет схожести (Second MLA):
- Текстовая схожесть (T1) между Q_new и Q_access1 = 0.7.
- Текстовая схожесть (T2) между Q_new и Q_access2 = 0.9.
Расчет фактора ранжирования (SSP):
- SSP1 = T1 * UIP1 = 0.7 * 0.1 = 0.07.
- SSP2 = T2 * UIP2 = 0.9 * 0.8 = 0.72.
Результат: Система выбирает максимальный SSP (0.72) и использует его как фактор ранжирования. Документ Д получает значительный буст по новому запросу Q_new, потому что он был очень успешен (UIP=0.8) для очень похожего запроса (T=0.9).

Вопросы и ответы

В чем ключевое различие между First MLA и Second MLA в этом патенте?

First MLA — это основной алгоритм ранжирования (например, CatBoost), который определяет финальный порядок документов в выдаче, используя сотни признаков. Second MLA — это вспомогательная модель (например, нейронная сеть), задача которой — предсказывать степень схожести между запросами на основе их текста. Second MLA генерирует значения схожести, которые используются для расчета фактора SSP, а SSP уже подается в First MLA.

Что такое поведенческая схожесть запросов и почему она так важна?

Поведенческая схожесть определяется на основе того, насколько схоже пользователи взаимодействуют с результатами поиска по двум запросам (например, кликают на одни и те же сайты). В патенте она рассматривается как эталон (Ground Truth). Она важна, потому что отражает реальное намерение пользователя: если люди решают свои задачи на одних и тех же сайтах, значит запросы близки по смыслу, даже если их текст отличается.

Как система обрабатывает совершенно новые или очень редкие запросы (Unseen Queries)?

Для новых запросов нет истории поведения. Система использует Second MLA, который обучен предсказывать поведенческую схожесть по тексту. Она находит текстово похожие прошлые запросы и переносит поведенческие сигналы (CTR, Dwell Time) с этих прошлых запросов на новый запрос через механизм генерации фактора ранжирования (SSP).

Что такое «Аннотация» (Annotation) документа в контексте этого патента?

Аннотация — это запись истории успеха документа. Она содержит список прошлых запросов (Q_access), по которым этот документ получал клики, и связанные с ними поведенческие метрики (UIP, например, CTR или Dwell Time). Это позволяет системе понять, для каких интентов документ был наиболее полезен в прошлом.

Как именно рассчитывается ключевой фактор ранжирования (SSP)?

Он рассчитывается путем умножения двух компонентов: (1) Текстовой схожести между текущим запросом и запросом из аннотации документа (предсказанной Second MLA) и (2) Исторического поведенческого параметра (UIP) из аннотации. Если у документа несколько аннотаций, система рассчитывает SSP для каждой и выбирает максимальное значение для использования в ранжировании.

Как это влияет на стратегию сбора семантического ядра?

Это подтверждает необходимость работы с широкими семантическими кластерами и оптимизации под интент. Необходимо собирать максимально полное ядро, включая QBST фразы. Важно, чтобы страница удовлетворяла пользователей по максимальному количеству семантически близких запросов, чтобы обогатить ее аннотации и улучшить ранжирование по всему кластеру.

Что важнее для этой системы: текстовая оптимизация или поведенческие факторы (UIP)?

Они критически важны и взаимосвязаны, так как перемножаются в формуле SSP (T * UIP). Высокая текстовая схожесть (T) не поможет, если исторические поведенческие показатели (UIP) низкие (множитель близок к нулю), и наоборот. Необходимо работать над обоими аспектами одновременно.

В патенте упоминается DSSM. Использует ли Яндекс его сейчас или перешел на YATI?

DSSM (Deep Structured Semantic Model) упоминается как базовая технология. Хотя конкретные модели типа YATI не названы, логично предположить, что на практике Яндекс использует свои самые современные языковые модели (трансформеры) для реализации Second MLA, так как они обеспечивают наилучшее понимание семантической близости текстов.

Может ли этот механизм понизить мой сайт в выдаче?

Косвенно да. Если ваш контент не удовлетворяет пользователей по семантически связанным запросам или имеет плохие ПФ, он не накопит сильных аннотаций. Конкуренты, которые работают с кластером шире и имеют лучшие поведенческие метрики, получат преимущество за счет фактора SSP и могут вытеснить ваш сайт.

Как я могу оптимизировать свой сайт под этот алгоритм?

Ключевая стратегия — максимизация удовлетворенности пользователя по широкому кругу связанных запросов. Работайте над Topical Authority, улучшайте CTR сниппетов и вовлеченность на странице (Dwell Time). Это позволит накопить качественные аннотации (высокие UIP по разным Q_access), что напрямую повлияет на расчет фактора SSP.