Как Яндекс создает векторы аннотации документа, объединяя лингвистику запросов и поведение пользователей

Яндекс патентует метод генерации факторов ранжирования, называемых «векторами аннотации». Система анализирует все прошлые запросы, по которым пользователи находили конкретный документ, изучает лингвистические характеристики этих запросов и фиксирует поведение пользователей (клики, время на сайте). Эти данные объединяются в векторы. Если запросы схожи, создается один усредненный вектор; если различны (разные интенты) — они кластеризуются, и для каждого кластера создается свой вектор. Эти векторы используются основными алгоритмами ранжирования.

Описание

Какую задачу решает

Патент решает задачу генерации высокоинформативных признаков (факторов) для алгоритмов машинного обучения, используемых в поиске информации, в частности, для ранжирования. Он направлен на улучшение качества ранжирования за счет глубокого понимания документа не только через его контент, но и через исторический контекст его обнаружения пользователями. Система позволяет агрегировать и структурировать данные о том, по каким запросам документ был найден и насколько успешным было взаимодействие пользователей, переводя эти данные в формат, пригодный для использования моделями ранжирования (например, DSSM или MatrixNet).

Что запатентовано

Запатентован способ и система создания «векторов аннотации» (Annotation Vectors) для документа. Суть изобретения заключается в агрегации исторических данных из поисковых логов: для документа извлекаются все запросы, по которым он был найден, анализируются лингвистические факторы этих запросов и параметры пользовательского взаимодействия с документом. Эта информация компилируется в векторы аннотации, которые затем могут быть усреднены или кластеризованы для использования в качестве факторов основным алгоритмом ранжирования.

Как это работает

Система работает путем анализа логов поисковой системы. Для индексированного документа система извлекает все исторические запросы, которые приводили к его обнаружению. Для каждой пары (документ, запрос) система извлекает параметры пользовательского взаимодействия (например, CTR, время пребывания) и вычисляет лингвистические факторы запроса (семантические, грамматические, лексические). Эти данные объединяются в вектор аннотации. Поскольку таких векторов может быть много, система применяет постобработку: либо усредняет их в один вектор (если запросы схожи), либо кластеризует их по семантике или поведению и создает усредненный вектор для каждого кластера. Эти итоговые векторы используются как факторы ранжирования.

Актуальность для SEO

Высокая. Генерация факторов ранжирования на основе комбинации поведенческих данных и глубокого лингвистического анализа (NLP) является центральным элементом современных поисковых систем. Описанный подход к векторизации документа на основе истории его нахождения (Query-Document interaction history) крайне актуален для обучения современных нейросетевых моделей ранжирования.

Важность для SEO

Влияние на SEO критическое (9/10). Патент демонстрирует, что релевантность документа в значительной степени определяется тем, по каким запросам пользователи его исторически находили и насколько они были удовлетворены. Это подчеркивает стратегическую важность работы над поведенческими факторами и необходимостью создания контента, который эффективно отвечает на целый кластер семантически связанных запросов, а не только на отдельные ключи.

Детальный разбор

Термины и определения

Annotation Vector (Вектор аннотации): Структура данных, создаваемая для пары (Документ, Запрос). Включает в себя сам запрос, его лингвистические факторы и параметры пользовательского взаимодействия с документом после ввода этого запроса. Является основным объектом изобретения.
Average Annotation Vector (Средний вектор аннотации): Вектор, полученный путем усреднения множества векторов аннотации для одного документа. Может быть один для всего документа или один для кластера.
DSSM (Deep Structured Semantic Model): Глубокая нейронная сеть, которая проецирует запросы и документы в общее низкоразмерное пространство, где релевантность вычисляется как расстояние между ними. В патенте упоминается как потребитель векторов аннотации.
First MLA (Первый MLA): Основной алгоритм машинного обучения, используемый для извлечения информации (в контексте патента — для ранжирования). Потребляет векторы аннотации в качестве факторов. Примеры: GBDT, MatrixNet, CatBoost.
Query Factors (Факторы запроса): Характеристики запроса, используемые в векторе аннотации. Включают лингвистические факторы: семантические (роли, категории), грамматические (род, число, падеж) и лексические (части речи, синонимы, антонимы).
Second MLA / Third MLA (Второй / Третий MLA): Алгоритм машинного обучения, который выполняет процесс создания векторов аннотации. Примечание: В описании патента система создания векторов обозначена как Третий MLA, а система на базе DSSM — как Второй MLA. Однако в Формуле изобретения (Claims) система создания векторов названа «Вторым MLA». В данном анализе мы следуем функциональному назначению — это система, создающая векторы.
User Interaction Parameters (Параметры пользовательского взаимодействия): Поведенческие метрики, связанные с взаимодействием пользователей с документом после ввода конкретного запроса. Примеры: число кликов, CTR, время пребывания (Dwell Time), глубина просмотра, показатель отказов.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является процесс генерации структурированных факторов ранжирования (векторов аннотации) из исторических логов поиска.

Claim 1 (Независимый пункт): Описывает основной способ создания множества векторов аннотации для документа, которые используются как факторы Первым MLA. Способ выполняется Вторым MLA (системой генерации векторов) и включает:

Извлечение индексированного документа из базы данных поискового журнала.
Извлечение множества прошлых запросов, которые использовались для обнаружения этого документа.
Извлечение множества параметров пользовательского взаимодействия для каждого из этих запросов.
Создание множества векторов аннотации. Каждый вектор связан с одним запросом и содержит:

Соответствующий запрос.
Множество факторов запроса (как минимум, лингвистические факторы).
Множество параметров пользовательского взаимодействия, указывающих на поведение пользователей с документом после ввода этого запроса.

Claim 2: Уточняет состав факторов запроса. Они включают по меньшей мере одно из: семантические факторы, грамматические факторы и лексические свойства запроса.

Claim 5: Описывает процесс постобработки — усреднение (Averaging).

Создание среднего вектора аннотации для документа, который является средним значением из (части) множества созданных векторов аннотации.
Сохранение этого среднего вектора, связанного с документом.

Это позволяет сократить объем данных, если запросы схожи.

Claim 6: Описывает альтернативный процесс постобработки — кластеризацию (Clustering).

Кластеризация множества векторов аннотации на заранее определенное число кластеров.
Критически важно: кластеризация основана на факторах запроса И/ИЛИ параметрах пользовательских взаимодействий.
Создание среднего вектора аннотации для каждого кластера.
Сохранение этих средних векторов (по одному на кластер), связанных с документом.

Это позволяет сохранить информацию о разных интентах или типах поведения, связанных с одним документом.

Claim 8: Уточняет примеры параметров пользовательского взаимодействия: число кликов, CTR, время пребывания, глубина просмотра, показатель отказов, среднее время на документе.

Claims 10 и 11: Уточняют назначение кластеров. Каждый кластер указывает на другое семантическое значение (Claim 10) или на сходство в пользовательском поведении (Claim 11).

Где и как применяется

Изобретение относится к этапу подготовки данных и генерации факторов для ранжирования. Это преимущественно офлайн-процесс, выполняемый на инфраструктуре Яндекса (Обучающий сервер).

INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Основное применение патента. Система (Третий MLA в описании) работает как генератор признаков. Она взаимодействует с хранилищами данных:

База данных поискового журнала: Включает Индекс документов, Журнал запросов и Журнал пользовательских взаимодействий. Это основной источник входных данных.
Лингвистические базы данных (например, WordNet, тезаурусы) или NLP-модули: Используются для извлечения лингвистических факторов запроса (лемматизация, NER, семантический анализ).

На выходе система генерирует Векторы Аннотации (усредненные или кластеризованные), которые сохраняются в базе данных факторов и связываются с соответствующими документами.

RANKING – Ранжирование
Сгенерированные векторы аннотации используются на этапе ранжирования. Они выступают в качестве входных факторов для:

Первого MLA (Основной алгоритм ранжирования, например, CatBoost/MatrixNet). Векторы аннотации предоставляют мощные сигналы о исторической релевантности и качестве документа.
Второго MLA (Модель на базе DSSM, как указано в описании). Векторы используются для обучения модели сопоставления запросов и документов в семантическом пространстве.

На что влияет

Все типы контента и запросов: Механизм универсален и влияет на все документы, по которым накоплена достаточная история поисковых взаимодействий.
Документы с множественными интентами: Особенно сильно влияет на документы, которые релевантны разным по смыслу запросам (например, страница Википедии о многозначном термине). Механизм кластеризации позволяет системе разделить эти интенты и создать для них отдельные векторы, улучшая точность ранжирования по каждому из них.
Популярные документы: Чем больше данных о взаимодействиях, тем точнее и информативнее будут векторы аннотации.

Когда применяется

Процесс генерации векторов аннотации выполняется офлайн, в рамках регулярного переобучения моделей и пересчета факторов.

Условия работы: Наличие индексированного документа и достаточного объема исторических данных в Журнале запросов и Журнале пользовательских взаимодействий, связанных с этим документом.
Триггеры активации постобработки:
- Усреднение: Активируется, когда запросы, ведущие к документу, обладают высокой степенью сходства (лингвистического или поведенческого), или когда число запросов ниже определенного порога.
- Кластеризация: Активируется, когда запросы обладают низкой степенью сходства (т.е. представляют разные семантические значения или вызывают разное поведение), или когда число запросов велико.

Пошаговый алгоритм

Процесс создания векторов аннотации (выполняется Обучающим сервером / Третьим MLA).

Извлечение Документа: Система выбирает документ (D) из индекса поисковой системы.
Сбор Исторических Данных (Агрегация):
1. Из Журнала запросов извлекается множество всех прошлых запросов (Q1, Q2… Qn), которые использовались для обнаружения документа D.
2. Из Журнала пользовательских взаимодействий для каждой пары (D, Qi) извлекаются агрегированные параметры взаимодействия (P) (например, CTR, Dwell Time).
Лингвистический Анализ: Для каждого запроса Qi система вычисляет или извлекает множество лингвистических факторов (F) (семантические, грамматические, лексические).
Генерация Векторов Аннотации: Система создает вектор аннотации (V) для каждой пары (D, Qi). Вектор V = {Qi, F, P}. Формируется множество векторов для документа D.
Постобработка (Усреднение или Кластеризация):
1. Оценка Сходства: Система оценивает степень сходства между векторами на основе факторов запроса (F) и параметров взаимодействия (P).
2. Ветвление логики:
  - Если сходство высокое (или запросов мало): Применяется Усреднение. Все векторы усредняются для получения одного Среднего Вектора Аннотации.
  - Если сходство низкое (или запросов много): Применяется Кластеризация (например, k-means). Векторы группируются в K кластеров по семантике или поведению. Для каждого кластера вычисляется свой Средний Вектор Аннотации.
Сохранение: Итоговые Средние Векторы Аннотации сохраняются в базе данных факторов и связываются с документом D.
Применение (Ранжирование): Первый MLA (алгоритм ранжирования) использует эти сохраненные векторы как факторы при расчете релевантности документа D для новых запросов.

Какие данные и как использует

Данные на входе

Поведенческие факторы (User Interaction Parameters): Критически важные данные из Журнала пользовательских взаимодействий. Включают: число кликов, кликабельность (CTR), время пребывания (Dwell Time), глубина просмотра, показатель отказов, среднее время на документе. Эти данные агрегируются по всем пользователям для конкретной пары (Документ, Запрос).
Контентные факторы (Текстовые): Тексты исторических запросов, по которым был найден документ.
Лингвистические факторы (Query Factors): Генерируются на основе текстов запросов с помощью NLP-модулей или извлекаются из баз знаний. Включают: семантические роли, категории, грамматические признаки (род, падеж), лексические признаки (части речи, синонимы, NER).

Какие метрики используются и как они считаются

Вектор Аннотации (Annotation Vector): Композитная структура данных, объединяющая разнородные признаки: V = {Запрос, Лингвистические Факторы, Поведенческие Параметры}.
Метрики сходства/расстояния: Используются на этапе кластеризации для определения близости векторов аннотации. Конкретные метрики не указаны, но они должны учитывать как лингвистическую близость запросов, так и схожесть поведенческих параметров.
Алгоритмы кластеризации: Упоминаются k-средних (k-means), ожидаемая максимизация (EM), иерархическая кластеризация и другие. Используются для группировки векторов аннотации.
Взвешивание факторов: Патент упоминает возможность взвешивания элементов вектора аннотации с помощью взвешивающего фактора (weighting factor), указывающего на относительную важность элемента для кластеризации (Claim 7). Это позволяет приоритизировать, например, поведенческие данные над лингвистическими, или наоборот.
Усреднение: Математическое усреднение элементов векторов для создания Среднего Вектора Аннотации (для всего документа или для кластера).

Выводы

Документ определяется историей его нахождения: Ключевой вывод — Яндекс рассматривает документ не только как текст, но и как совокупность запросов, которые к нему приводят, и пользовательского удовлетворения от этих запросов. Это формирует его «аннотацию».
Слияние Поведения и Лингвистики: Векторы аннотации являются мощным фактором, так как они напрямую связывают лингвистические особенности запросов с реальным поведением пользователей. Это позволяет системе понять, какие семантические нюансы приводят к успешному взаимодействию.
Обработка множественных интентов через кластеризацию: Механизм кластеризации критически важен. Он позволяет Яндексу различать разные семантические значения или разные паттерны поведения, связанные с одним URL. Документ не имеет единой оценки качества; он имеет разные оценки для разных кластеров интентов.
Поведенческие факторы как основа качества: Успешное взаимодействие (высокий CTR, долгое время пребывания) по конкретному запросу напрямую усиливает соответствующий вектор аннотации и, следовательно, улучшает ранжирование документа по этому и схожим запросам в будущем.
Генерация факторов для DSSM/Нейросетей: Патент явно указывает на использование этих векторов для обучения моделей глубокого обучения (DSSM), что подтверждает их важность в семантическом поиске.

Практика

Best practices (это мы делаем)

Максимизация позитивных поведенческих сигналов: Обеспечивайте высокое качество контента, которое ведет к длительному времени пребывания (Dwell Time) и низкому показателю отказов. Это напрямую влияет на параметры пользовательского взаимодействия в векторах аннотации. Чем лучше ПФ по запросу, тем сильнее вектор.
Оптимизация под семантические кластеры (Topical Authority): Создавайте контент, который полностью покрывает тему и отвечает на широкий спектр связанных запросов. Если ваш документ успешно удовлетворяет пользователей по многим схожим запросам, эти запросы сформируют сильный кластер с мощным Средним Вектором Аннотации.
Улучшение CTR на выдаче: Работайте над сниппетами (Title, Description). Высокий CTR по релевантным запросам является ключевым компонентом векторов аннотации и сигнализирует о полезности документа.
Анализ запросов, по которым уже ранжируется страница: Регулярно анализируйте в Вебмастере или Метрике, по каким запросам пользователи реально находят вашу страницу. Убедитесь, что контент полноценно отвечает на эти запросы. Если вы видите запросы с плохими ПФ, это повод доработать контент или пересмотреть его релевантность этому кластеру.
Четкое разделение интентов по разным URL: Если ваш сайт покрывает несколько различных тем, убедитесь, что они находятся на разных URL. Попытка оптимизировать один URL под слишком разные интенты может привести к созданию «размытых» кластеров с противоречивыми поведенческими сигналами.

Worst practices (это делать не надо)

Накрутка поведенческих факторов: Хотя ПФ критически важны для этого алгоритма, искусственные манипуляции с большой вероятностью будут отфильтрованы на этапе агрегации данных или приведут к созданию аномальных векторов, которые не будут коррелировать с лингвистическими факторами.
Привлечение нецелевого трафика (Кликбейт): Привлечение пользователей по запросам, на которые страница не отвечает, приведет к плохим поведенческим сигналам (короткие клики, отказы). Это ухудшит соответствующие векторы аннотации и негативно скажется на ранжировании.
Игнорирование лингвистического разнообразия: Фокусировка только на точных вхождениях ключевых слов. Система анализирует семантику, грамматику и лексику запросов. Контент должен быть естественно написан и включать синонимы и QBST-фразы, чтобы соответствовать разнообразию лингвистических факторов в кластере.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса на использовании исторических поведенческих данных как основы для понимания качества и релевантности документа. Он показывает механизм, как именно ПФ интегрируются в формулу ранжирования на глубоком уровне, в связке с NLP. Для SEO это означает, что долгосрочный успех зависит от реального удовлетворения пользователя по всему спектру релевантных запросов. Работа над контентом и ПФ неразделима.

Практические примеры

Сценарий 1: Усиление Topical Authority

Ситуация: Есть статья «Как выбрать треккинговые ботинки». Пользователи находят ее по запросам: «выбор ботинок для похода», «лучшие треккинговые ботинки обзор», «как не натереть ноги в походе».
Действие системы: Система видит, что по всем этим запросам пользователи кликают на статью и проводят на ней много времени (хорошие ПФ). Лингвистические факторы запросов схожи (семантика: выбор, обувь, поход).
Результат (Усреднение/Тугой Кластер): Система создает один сильный Средний Вектор Аннотации, который агрегирует позитивные ПФ и общую семантику. Этот вектор значительно повышает ранжирование статьи по всему кластеру запросов.

Сценарий 2: Обработка множественных интентов (Кластеризация)

Ситуация: Страница Википедии «Ягуар». Пользователи находят ее по двум группам запросов: Кластер А («ягуар животное», «хищник семейства кошачьих») и Кластер Б («ягуар машина цена», «jaguar xf характеристики»).
Действие системы: Система анализирует лингвистические факторы и видит два разных семантических значения. Также она может видеть разные паттерны поведения (пользователи из Кластера Б могут быстрее уходить, если ищут автосалон).
Результат (Кластеризация): Система создает два Средних Вектора Аннотации. Вектор А агрегирует данные по животному, Вектор Б — по машине. При ранжировании нового запроса «купить ягуар» система будет использовать Вектор Б, а при запросе «ареал обитания ягуара» — Вектор А.

Сценарий 3: Негативное влияние ПФ

Ситуация: Сайт рецептов использует кликбейтный заголовок «Вы не поверите, что можно сделать из картошки» и привлекает трафик по запросу «быстрый ужин».
Действие системы: Пользователи переходят на сайт, видят сложный рецепт и сразу уходят (плохие ПФ). Система генерирует Вектор Аннотации для пары (Страница, «быстрый ужин»), в котором зафиксированы негативные параметры взаимодействия.
Результат: Этот вектор используется при ранжировании и снижает релевантность страницы по запросу «быстрый ужин» и схожим с ним.

Вопросы и ответы

Что такое «Вектор аннотации» простыми словами?

Это «цифровой портрет» документа, основанный на том, как его находили в прошлом. Представьте, что для каждого документа Яндекс ведет досье: по каким запросам на него кликали, какие слова были в этих запросах (их смысл, грамматика) и насколько довольны остались пользователи (долго ли читали, вернулись ли в поиск). Вектор аннотации — это сжатое представление всех этих данных, которое используется алгоритмом ранжирования как фактор.

В чем ключевая ценность этого патента для понимания ранжирования?

Он показывает механизм, как Яндекс объединяет три ключевых элемента: лингвистику запроса (NLP), поведение пользователя (ПФ) и сам документ. Раньше эти факторы часто рассматривались раздельно. Патент демонстрирует, что они сливаются в единый комплексный сигнал (вектор аннотации). Это значит, что хорошие ПФ по конкретному запросу напрямую усиливают вес лингвистических характеристик этого запроса при оценке документа.

Что такое кластеризация векторов аннотации и зачем она нужна?

Если один и тот же документ находят по совершенно разным запросам (например, «Наполеон» как полководец и «Наполеон» как торт), система не смешивает все данные в одну кучу. Она кластеризует (группирует) эти запросы по смыслу или поведению пользователей. Для каждой группы (кластера) создается свой отдельный вектор аннотации. Это позволяет Яндексу точно понимать релевантность документа для разных интентов.

Как я могу повлиять на векторы аннотации моего сайта?

Вы влияете на них через качество контента и оптимизацию ПФ. Обеспечивая полное раскрытие темы, вы привлекаете трафик по широкому кластеру запросов. Удерживая пользователя на странице (интересный контент, хорошая структура, юзабилити), вы улучшаете параметры взаимодействия в векторе. Работая над CTR сниппетов, вы также улучшаете показатели. Все позитивные взаимодействия усиливают вектор.

Значит ли это, что текстовая релевантность больше не важна?

Нет, она по-прежнему очень важна. Текстовая релевантность нужна, чтобы документ вообще начал ранжироваться и собирать первые данные о взаимодействиях. Кроме того, лингвистические факторы запросов являются составной частью вектора аннотации. Однако патент показывает, что одной текстовой релевантности недостаточно; она должна быть подкреплена позитивным поведением пользователей.

Как этот патент связан с моделями типа DSSM или YATI (BERT)?

Патент напрямую упоминает DSSM (Deep Structured Semantic Model). Векторы аннотации создаются как идеальные обучающие данные или факторы для таких моделей. Они позволяют нейросетям (будь то DSSM или более современные трансформеры типа YATI) учиться сопоставлять запросы и документы не только на основе текста, но и на основе агрегированного человеческого опыта (поведенческих данных).

Что произойдет, если я привлеку на страницу много трафика, но он будет нецелевым?

Это негативно скажется на ранжировании. Если пользователи приходят по запросу, но быстро покидают страницу (низкий Dwell Time, высокий Bounce Rate), система зафиксирует это в векторе аннотации для этой пары (документ, запрос). Этот вектор будет сигнализировать алгоритму ранжирования о низкой релевантности или плохом качестве, что приведет к пессимизации по этому и схожим запросам.

Как система определяет, нужно ли усреднять векторы или кластеризовать?

Система анализирует сходство между сгенерированными векторами аннотации. Сходство определяется по двум критериям: лингвистическая близость запросов (факторы запроса) и схожесть поведения пользователей (параметры взаимодействия). Если векторы очень похожи (запросы почти одинаковые и ПФ схожи), их усредняют. Если есть явные различия в семантике или поведении, их кластеризуют.

Влияет ли этот алгоритм на новые документы?

Напрямую нет. Для генерации векторов аннотации требуется история взаимодействий с документом. Новые документы такой истории не имеют («холодный старт»). Однако алгоритм влияет косвенно: новые документы конкурируют с уже существующими документами, у которых эти векторы есть и которые за счет них получают значительный буст в ранжировании.

Какие лингвистические факторы учитываются в векторе?

Патент упоминает три типа: семантические (смысл, роли слов, категории), грамматические (род, число, падеж, время) и лексические (части речи, синонимы, антонимы, омонимы). Это означает, что система проводит глубокий NLP-анализ запросов, по которым был найден документ, и сохраняет результаты этого анализа в векторе.