Как Яндекс создает профиль релевантности документа на основе запросов, которые к нему приводят, и поведения пользователей

Яндекс патентует метод генерации «Аннотационных векторов» для документов. Эти векторы агрегируют лингвистические характеристики всех запросов, по которым пользователи находили документ, и связанные с ними поведенческие метрики (CTR, Dwell Time). Система может кластеризовать эти данные для идентификации разных интентов, которые обслуживает документ. Эти векторы используются как признаки ранжирования, в частности, в моделях DSSM и основной формуле.

Описание

Какую задачу решает

Патент решает задачу создания богатого, семантически и поведенчески обоснованного представления документа для использования в алгоритмах ранжирования. Он позволяет системе понять, каким запросам документ релевантен и насколько хорошо он удовлетворяет пользователей, основываясь не только на контенте документа, но и на агрегированных данных о том, как его находят и как с ним взаимодействуют. Это улучшает качество информационного поиска, позволяя моделям ранжирования (например, на базе DSSM) точнее оценивать релевантность пары запрос-документ.

Что запатентовано

Запатентован метод генерации Annotation Vectors (Аннотационных векторов) для документа. Суть изобретения заключается в создании векторного представления, которое инкапсулирует (1) все запросы, которые исторически приводили к обнаружению документа, (2) лингвистические (семантические, грамматические, лексические) признаки этих запросов и (3) параметры взаимодействия пользователей (User Interaction Parameters) с документом после этих запросов. Эти векторы служат признаками для основного алгоритма ранжирования.

Как это работает

Система анализирует логи поиска. Для конкретного документа она извлекает все запросы, по которым он был найден. Для каждой пары запрос-документ извлекаются лингвистические признаки запроса и поведенческие метрики сессии (например, CTR, Dwell Time). Эта информация объединяется в Annotation Vector. Поскольку у документа может быть много таких векторов (по одному на каждый исторический запрос), система применяет методы сжатия: либо усредняет их в единый вектор, либо кластеризует их по семантической близости или схожести поведения пользователей, создавая отдельный усредненный вектор для каждого кластера. Это позволяет учитывать разные интенты, которые может обслуживать один документ.

Актуальность для SEO

Высокая. Использование векторных представлений, глубокое обучение (в частности, DSSM, упомянутое в патенте) и интеграция поведенческих сигналов в семантические модели являются ядром современных поисковых технологий. Механизм агрегации и кластеризации исторических данных для формирования признаков ранжирования крайне актуален для понимания того, как Яндекс оценивает релевантность.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент демонстрирует механизм, посредством которого поведенческие факторы и широта охвата запросов напрямую влияют на формирование профиля релевантности документа. Он подчеркивает, что релевантность документа для системы определяется тем, по каким запросам на него кликают и насколько успешно эти клики завершаются. Это требует стратегического фокуса на Topical Authority и максимизации позитивных поведенческих сигналов по всему семантическому кластеру.

Детальный разбор

Термины и определения

Примечание: В патенте есть некоторая путаница в терминах между Claims (Формула изобретения) и Detailed Description (Описание). В Claims система, генерирующая векторы, называется Second MLA. В Описании представлена архитектура из трех MLA. В анализе мы будем опираться на роли, описанные в Detailed Description и схемах патента, так как они дают более полное представление о системе.

Annotation Vector (Аннотационный вектор): Векторное представление, сгенерированное для пары Документ-Запрос. Включает в себя сам запрос, его лингвистические признаки (Query Features) и параметры взаимодействия пользователя с документом после этого запроса (User Interaction Parameters).
Average Annotation Vector (Усредненный аннотационный вектор): Единый вектор, представляющий документ. Получается путем усреднения всех Annotation Vectors документа, либо путем усреднения векторов внутри одного кластера.
DSSM (Deep Structured Semantic Model): Модель глубокого обучения (нейронная сеть), которая проецирует запросы и документы в общее низкоразмерное пространство. Релевантность вычисляется как расстояние между ними. В патенте указано, что технология основана на модифицированной вариации DSSM.
First MLA (Первый алгоритм машинного обучения): Основной алгоритм ранжирования поисковой системы (в патенте упоминается GBDT – Gradient Boosted Decision Tree, например, CatBoost/MatrixNet). Использует Annotation Vectors как признаки.
Query Features (Признаки запроса): Лингвистические характеристики запроса. Включают семантические, грамматические и лексические признаки.
Second MLA (Второй алгоритм машинного обучения): Согласно Описанию патента: Алгоритм, использующий модифицированную модель DSSM для обогащения признаков для First MLA.
Third MLA (Третий алгоритм машинного обучения): Согласно Описанию патента: Система, ответственная за генерацию Annotation Vectors. Включает Aggregator, Annotation Vector Generator, Averager и Cluster Generator.
User Interaction Parameters (Параметры взаимодействия пользователя): Поведенческие метрики. Примеры: Clicks, CTR, Dwell Time, Click Depth, Bounce Rate, Average Time Spent.

Ключевые утверждения (Анализ Claims)

Патент описывает систему генерации признаков ранжирования на основе агрегации исторических данных о запросах и поведении пользователей.

Claim 1 (Независимый пункт): Описывает базовый процесс генерации аннотационных векторов.

Система (Third MLA) извлекает из логов документ.
Извлекаются все запросы, которые использовались пользователями для обнаружения этого документа.
Для каждого из этих запросов извлекаются параметры взаимодействия пользователей (User Interaction Parameters).
Генерируется множество Annotation Vectors (по одному на каждый запрос).
Критически важно: Каждый вектор включает (i) сам запрос, (ii) Query Features (лингвистические признаки запроса), и (iii) User Interaction Parameters (поведенческие данные, связанные с этим запросом и документом).
Эти векторы предназначены для использования в качестве признаков First MLA (алгоритмом ранжирования).

Claim 5 (Зависимый пункт): Описывает механизм усреднения.

Система генерирует Average Annotation Vector для документа.
Этот вектор является усреднением (средним значением) множества сгенерированных ранее Annotation Vectors.
Усредненный вектор сохраняется и ассоциируется с документом.

Claim 6 (Зависимый пункт): Описывает механизм кластеризации (ключевой для понимания обработки мульти-интента).

Система кластеризует множество Annotation Vectors документа в предопределенное количество кластеров.
Кластеризация основывается на (i) Query Features (лингвистическая/семантическая близость запросов) И/ИЛИ (ii) User Interaction Parameters (схожесть поведения пользователей).
Для каждого кластера генерируется свой Average Annotation Vector.
Эти усредненные векторы кластеров сохраняются и ассоциируются с документом.

Claim 7 (Зависимый пункт): Уточняет, что при генерации векторов элементы могут быть взвешены (weighting factor) для указания их относительной важности при кластеризации.

Где и как применяется

Изобретение относится к этапу подготовки данных и генерации признаков для ранжирования. Это преимущественно офлайн-процесс, результаты которого используются в онлайн-ранжировании.

INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Процесс генерации Annotation Vectors можно рассматривать как этап извлечения признаков и обогащения индекса. Система (Third MLA) работает офлайн, обрабатывая данные из Search Log Database (включая Index, Query Log, User Interaction Log). Результаты ее работы (Усредненные векторы или Векторы кластеров) сохраняются и, вероятно, добавляются в Прямой Индекс (Forward Index) документа для быстрого доступа на этапе ранжирования.

RANKING – Ранжирование
Сгенерированные Annotation Vectors используются на этапе ранжирования (вероятно L2/L3) двумя способами, как описано в патенте:

Вход для Second MLA (DSSM): Векторы используются для обучения и работы модифицированной модели DSSM. Эта модель использует их для сопоставления запросов и документов и прогнозирования взаимодействия пользователя. Выход Second MLA затем используется как вход для First MLA.
Прямой вход для First MLA (GBDT/CatBoost): Векторы могут использоваться напрямую как признаки основным алгоритмом ранжирования (First MLA) для определения релевантности документа текущему запросу.

На что влияет

Все типы контента и запросов: Механизм универсален и применяется ко всем документам, по которым накоплена достаточная история запросов и взаимодействий.
Документы с мульти-интентом: Оказывает значительное влияние на документы, которые отвечают на несколько разных интентов (например, главная страница бренда, статья о многозначном термине). Механизм кластеризации позволяет системе создать отдельные профили релевантности для каждого интента.
Topical Authority: Усиливает позиции документов, которые стабильно показывают хорошие поведенческие метрики по широкому кластеру семантически связанных запросов, так как это приводит к формированию сильных Annotation Vectors.

Когда применяется

Офлайн-генерация: Генерация и обновление векторов происходит офлайн, по мере накопления новых данных в логах поиска и взаимодействий.
Онлайн-использование: Сгенерированные векторы используются в реальном времени на этапе ранжирования при обработке запросов пользователя.
Условие активации: Наличие достаточного количества исторических данных о запросах, которые приводили к документу, и связанных с ними взаимодействий пользователей. Для новых документов этот механизм не применим до накопления статистики.

Пошаговый алгоритм

Процесс генерации аннотационных векторов (выполняется Third MLA, офлайн).

Сбор данных (Aggregator):
1. Выбор документа для обработки.
2. Извлечение из Query Log всех запросов, которые использовались для обнаружения этого документа.
3. Извлечение из User Interaction Log параметров взаимодействия (User Interaction Parameters) для каждой пары запрос-документ.
Генерация признаков запроса (Annotation Vector Generator):
1. Для каждого извлеченного запроса определяются Query Features (лингвистические, семантические, грамматические, лексические признаки). Это может включать NLP-обработку (лемматизация, NER, парсинг и т.д.).
Генерация базовых векторов (Annotation Vector Generator):
1. Для каждого исторического запроса формируется Annotation Vector, объединяющий:.
2. (Опционально) Элементы вектора взвешиваются для указания их важности при кластеризации (Claim 7).
Обработка множества векторов (Ветвление логики): Система решает, использовать ли усреднение или кластеризацию (на основе количества векторов или степени их схожести).
- Путь А: Усреднение (Averager): Если векторы схожи или их мало.
  1. Вычисляется единый Average Annotation Vector путем усреднения всех элементов базовых векторов.
- Путь Б: Кластеризация (Cluster Generator): Если векторы различны или их много.
  1. Применение алгоритма кластеризации (например, k-means) к множеству Annotation Vectors. Кластеризация происходит по Query Features и/или User Interaction Parameters.
  2. Идентификация кластеров (разные семантические значения или паттерны поведения).
  3. Генерация Average Annotation Vector для каждого отдельного кластера.
Сохранение: Полученные усредненные векторы (один или несколько) сохраняются и ассоциируются с исходным документом для использования в ранжировании (First MLA и Second MLA).

Какие данные и как использует

Данные на входе

Поведенческие факторы (User Interaction Parameters): Критически важные данные, извлекаемые из User Interaction Log. В патенте явно упомянуты: Number of Clicks, Click-Through Rate (CTR), Dwell Time, Click Depth, Bounce Rate, Average Time Spent on the document. Также упоминаются Session Time, Queries per user, Clicks per Query, DAU, Query Success Rate (клик + пребывание > 30 сек), Query Interval.
Контентные факторы (Текстовые/Лингвистические): Тексты исторических запросов из Query Log. Из них извлекаются Query Features. Текст самого документа на этом этапе не используется.
Query Features (Лингвистические признаки):
- Semantic features: Семантические роли (agent, theme), категории, свойства (morpheme, word, sentence).
- Grammatical features: Род, число, лицо, падеж, время, аспект.
- Lexical features: Части речи (прилагательные, наречия, глаголы), лексические отношения (синонимы, антонимы, гипонимы и т.д.).

Какие метрики используются и как они считаются

Annotation Vector: Составной вектор, объединяющий разнородные данные (лингвистические и поведенческие).
Методы кластеризации: Для группировки векторов используются стандартные алгоритмы. В патенте упомянуты (Claim 9): k-means clustering, expectation maximization, farthest first, hierarchical clustering, cobweb clustering, density clustering.
Weighting Factor: Используется для определения относительной важности элементов вектора при кластеризации (Claim 7).
NLP и Семантический анализ: Используются для извлечения Query Features. Упомянуты лемматизация, морфологический сегментация, NER, парсинг и т.д.
Модели Машинного Обучения:
- GBDT (Gradient Boosted Decision Tree): Используется в First MLA (Ранжирование).
- DSSM (Deep Structured Semantic Model): Используется в Second MLA (Генерация семантических признаков/Прогнозирование).

Выводы

Поведение определяет семантику: Патент демонстрирует, как Яндекс напрямую интегрирует поведенческие данные (User Interaction Parameters) в векторное представление документа (Annotation Vector). То, как пользователи взаимодействуют с документом после определенных запросов, формирует его профиль релевантности.
Релевантность основана на исторических запросах: Документ считается релевантным тем запросам, по которым его исторически находили и успешно потребляли. Лингвистический анализ этих успешных запросов (Query Features) определяет семантическое ядро документа в глазах системы.
Механизм обработки мульти-интента (Кластеризация): Ключевым элементом является кластеризация Annotation Vectors. Яндекс признает, что документ может обслуживать разные интенты или иметь разную эффективность для разных групп запросов. Система создает отдельные векторы для каждого кластера, позволяя точнее оценивать релевантность в разных контекстах.
Интеграция с Deep Learning (DSSM): Сгенерированные векторы являются входными данными для моделей глубокого обучения, в частности DSSM. Это подтверждает важность поведенческих и лингвистических сигналов для обучения нейросетевых моделей Яндекса, отвечающих за семантическое соответствие.
Topical Authority через поведение: Для формирования сильных и разнообразных Annotation Vectors документ должен демонстрировать высокие поведенческие метрики по широкому спектру связанных запросов.

Практика

Best practices (это мы делаем)

Оптимизация под семантические кластеры, а не отдельные ключи: Создавайте контент, который полностью покрывает тему и отвечает на широкий спектр запросов внутри кластера. Это увеличивает количество и разнообразие Annotation Vectors, ассоциированных с документом, улучшая его профиль релевантности.
Максимизация позитивных поведенческих сигналов: Поскольку User Interaction Parameters (CTR, Dwell Time, Bounce Rate) напрямую встраиваются в Annotation Vector, критически важно оптимизировать сниппеты для повышения CTR и улучшать качество контента/UX для удержания пользователя и решения его задачи.
Анализ и структурирование мульти-интентных страниц: Если страница предназначена для обслуживания нескольких интентов (например, информационного и транзакционного), убедитесь, что контент четко структурирован для удовлетворения обоих. Механизм кластеризации оценит эффективность для каждого интента отдельно.
Использование разнообразной лексики и синонимов (QBST фраз): Используйте разнообразные формулировки и термины, соответствующие тому, как пользователи ищут информацию. Анализ Query Features в патенте подчеркивает важность семантических, грамматических и лексических признаков успешных запросов.

Worst practices (это делать не надо)

Узкая оптимизация под один запрос: Создание контента, оптимизированного только под один ВЧ запрос, не позволит сформировать богатый набор Annotation Vectors.
Игнорирование Dwell Time и Bounce Rate: Если документ привлекает клики, но не удерживает пользователей (плохие поведенческие метрики), эти негативные данные будут зафиксированы в Annotation Vector, ухудшая профиль релевантности документа.
Кликбейт и привлечение нецелевого трафика: Привлечение трафика по запросам, на которые документ не отвечает. Это приведет к формированию кластеров Annotation Vectors с очень плохими поведенческими параметрами, что может негативно сказаться на общем ранжировании документа.

Стратегическое значение

Этот патент подтверждает стратегический курс Яндекса на использование машинного обучения (GBDT и DSSM) и больших данных о поведении пользователей для определения релевантности. Он показывает, что для Яндекса документ — это не просто текст, а совокупность его «истории успеха» в ответ на запросы пользователей. Стратегически, это закрепляет важность комплексной работы над качеством сайта: невозможно успешно ранжироваться только за счет текстовой оптимизации или только за счет ссылок, если поведенческие сигналы, зафиксированные в Annotation Vectors, будут негативными.

Практические примеры

Сценарий 1: Обработка мульти-интента (Кластеризация)

(Основано на примере из патента, параграф: страница Википедии об Анджелине Джоли).

Документ: Страница Википедии об Анджелине Джоли.
Исторические запросы: Система видит три группы запросов: А) Фильмография («Лара Крофт», «Малефисента»), Б) Личная жизнь («жена Брэда Питта»), В) Общественная деятельность («посол ООН»).
Работа алгоритма: Яндекс генерирует Annotation Vectors. Система замечает, что векторы сильно различаются по Query Features (семантика) и, возможно, поведению (например, по запросам группы В Dwell Time выше). Применяется Cluster Generator.
Результат: Создается три кластера (А, Б, В), каждый со своим Average Annotation Vector. При ранжировании по новому запросу (например, «фильмы с Джоли») Яндекс будет использовать вектор из Кластера А как наиболее релевантный признак.

Сценарий 2: Усиление Topical Authority через поведенческие факторы

Задача: Продвинуть статью «Как выбрать треккинговые ботинки».
Действия SEO: Статья прорабатывается так, чтобы отвечать на смежные запросы: «лучшие бренды треккинговых ботинок», «ботинки для похода в горы летом», «как ухаживать за мембраной gore-tex».
Работа алгоритма: Пользователи находят статью по всем этим запросам и проводят на ней много времени (хороший Dwell Time). Яндекс генерирует множество Annotation Vectors, каждый из которых содержит лингвистические признаки этих запросов и высокие поведенческие метрики.
Результат: Так как запросы семантически близки, система усредняет эти векторы (Averager). Полученный Average Annotation Vector имеет сильный вес, что улучшает ранжирование статьи по основному ВЧ запросу «Как выбрать треккинговые ботинки».

Вопросы и ответы

Что такое Annotation Vector простыми словами и почему он важен?

Annotation Vector — это профиль релевантности документа, созданный Яндексом. Он содержит агрегированную информацию обо всех запросах, по которым пользователи находили этот документ, и о том, насколько успешным было это взаимодействие (CTR, время на сайте). Это важно, потому что он является прямым признаком ранжирования и показывает, что релевантность документа определяется его историей успеха у пользователей, а не только его содержимым.

Как механизм кластеризации Annotation Vectors влияет на SEO?

Механизм кластеризации позволяет Яндексу понять, что один документ может обслуживать несколько разных интентов (например, статья про «Наполеон» может быть интересна ищущим рецепт торта и ищущим биографию полководца). Система создает отдельные векторы для каждого кластера интентов. Это означает, что SEO-специалистам нужно четко понимать все интенты, которые покрывает страница, и убедиться, что она эффективно удовлетворяет каждый из них.

В патенте упоминается DSSM. Что это значит для нас?

DSSM (Deep Structured Semantic Model) — это класс нейронных сетей, используемых для оценки семантической близости текстов (запроса и документа). Упоминание DSSM означает, что сгенерированные Annotation Vectors используются как входные данные для этих нейросетей. Это подчеркивает, что поведенческие данные напрямую обучают семантические модели Яндекса, делая их более точными в определении релевантности.

Какие поведенческие факторы используются в Annotation Vectors?

Патент явно перечисляет широкий спектр метрик: количество кликов (Number of Clicks), CTR, время пребывания на сайте (Dwell Time), глубина клика (Click Depth), показатель отказов (Bounce Rate) и среднее время, проведенное на документе (Average Time Spent). Также упоминается метрика Query Success Rate (успех запроса), определяемая как клик с последующим пребыванием на странице более 30 секунд.

Как этот патент связан с Topical Authority (Авторитетностью темы)?

Он предоставляет механизм для измерения Topical Authority через поведение пользователей. Чтобы сайт считался авторитетным по теме, его документы должны стабильно показывать хорошие поведенческие метрики по широкому спектру запросов в этой теме. Это приведет к генерации сильных и разнообразных Annotation Vectors, что, в свою очередь, улучшит ранжирование по всей тематике.

Что произойдет, если я привлеку на страницу много трафика, но он будет нецелевым (кликбейт)?

Это крайне негативная стратегия. Система зафиксирует эти визиты и сгенерирует Annotation Vectors, которые будут содержать запросы, по которым пришел трафик, и очень плохие поведенческие параметры (высокий Bounce Rate, низкий Dwell Time). Эти негативные векторы либо ухудшат общий Average Annotation Vector, либо сформируют отдельный «плохой» кластер, что негативно скажется на ранжировании документа.

Влияет ли этот механизм на новые документы?

Напрямую нет. Для генерации Annotation Vectors требуется история запросов и взаимодействий с документом. Новые документы не имеют такой истории, поэтому этот механизм начнет работать для них только после того, как они начнут получать трафик и по ним накопится статистика в логах Яндекса.

Что такое Query Features и нужно ли нам проводить сложный лингвистический анализ?

Query Features — это лингвистические (семантические, грамматические, лексические) характеристики запросов. Яндекс проводит этот анализ автоматически. SEO-специалистам не нужно проводить сложный лингвистический анализ, но нужно использовать богатый, естественный язык, включающий синонимы, разные грамматические формы и связанную лексику (QBST фразы), чтобы соответствовать разнообразным запросам пользователей.

Используется ли текст самого документа при генерации Annotation Vectors?

Нет, согласно описанному механизму (Third MLA), текст документа не используется непосредственно при генерации этих конкретных векторов. Векторы строятся исключительно на основе текстов запросов, которые привели к документу, и связанных с ними поведенческих данных. Однако эти векторы затем используются вместе с текстовыми факторами на этапе ранжирования (First и Second MLA).

В чем разница между усреднением и кластеризацией векторов?

Усреднение используется, когда запросы, ведущие на документ, очень похожи семантически и вызывают схожее поведение пользователей. В результате получается один обобщенный вектор. Кластеризация используется, когда запросы или поведение сильно различаются (мульти-интент). В результате получается несколько векторов, каждый из которых представляет отдельный смысловой кластер или паттерн поведения.