Яндекс патентует метод обогащения ранжирования за счет использования похожих прошлых запросов. Система определяет схожесть запросов на основе пересечения результатов и поведенческих данных (для известных запросов) или на основе текстовой близости (для новых запросов). Термины из этих похожих запросов используются как факторы ранжирования, повышая позиции документов, содержащих эти термины.
Описание
Какую задачу решает
Патент решает задачу повышения релевантности ранжирования путем использования исторического контекста поиска. Он направлен на улучшение качества выдачи в ситуациях, когда стандартные результаты могут не полностью удовлетворить пользователя. Ключевая проблема, которую решает изобретение — это проблема «холодного старта» для новых, редких или ранее не встречавшихся запросов (так называемых unseen queries), для которых еще нет накопленной статистики поведения. Система позволяет использовать данные, накопленные по семантически похожим запросам, для ранжирования выдачи по новому запросу.
Что запатентовано
Запатентована система обогащения (enriching) процесса ранжирования. Суть изобретения заключается в идентификации прошлых запросов (past queries), похожих на текущий запрос (current query), и использовании этих похожих запросов в качестве дополнительных признаков (features) в основной модели машинного обучения для ранжирования (First MLA). Схожесть определяется двумя основными способами: на основе пересечения результатов и поведения пользователей (для известных запросов) или на основе текстового анализа с помощью специально обученной модели (Second MLA) (для новых запросов).
Как это работает
Система работает по двум основным сценариям:
- Для известных запросов (Seen Queries): Схожесть определяется путем сравнения векторов запросов (Query Vectors). Эти векторы строятся на основе документов, показанных в ответ на эти запросы, и взаимодействий пользователей (user interactions) с этими документами (например, кликов).
- Для новых запросов (Unseen Queries): Схожесть определяется с помощью Second MLA. Эта модель сравнивает текстовые векторы (эмбеддинги) нового запроса с векторами прошлых запросов. Важно, что Second MLA обучена предсказывать поведенческую схожесть (из сценария 1) на основе текстовой близости.
В обоих случаях выбирается набор наиболее похожих прошлых запросов. Затем основная ранжирующая модель (First MLA) использует эти запросы как признаки. В частности, наличие терминов из похожих прошлых запросов в документе способствует повышению его ранга (promotes rank).
Актуальность для SEO
Высокая. Использование исторических данных о поведении пользователей и применение векторных представлений (эмбеддингов) для понимания запросов являются центральными элементами современных поисковых систем, включая Яндекс (например, с использованием трансформерных моделей типа YATI). Описанный механизм решения проблемы «холодного старта» через аппроксимацию поведенческой схожести текстовой близостью крайне актуален в 2025 году.
Важность для SEO
Влияние на SEO значительно (8/10). Патент подчеркивает, что релевантность документа определяется не только его соответствием точному тексту текущего запроса, но и его соответствием семантически близким запросам, которые пользователи исторически использовали для поиска той же информации. Это требует от SEO-специалистов фокусироваться на широком охвате темы и понимании всего семантического кластера связанных запросов (интента), а не на оптимизации под отдельные ключевые слова.
Детальный разбор
Термины и определения
- Current Query (Текущий запрос)
- Запрос, полученный от пользователя в данный момент.
- First MLA (Первый алгоритм машинного обучения)
- Основной алгоритм ранжирования поисковой системы (например, GBDT или CatBoost), который использует различные признаки, включая похожие запросы, для определения порядка результатов в выдаче.
- HNSW (Hierarchical Navigable Small World)
- Алгоритм приближенного поиска ближайших соседей (K-ANNS). Упоминается в патенте как возможная реализация Second MLA для эффективного поиска похожих запросов в векторном пространстве.
- Past Query (Прошлый запрос)
- Запрос, который ранее задавался поисковой системе и по которому накоплена статистика (результаты и взаимодействия).
- Query Vector (Вектор запроса)
- Численное представление запроса. В патенте описаны два типа:
- Поведенческий вектор: Строится на основе документов, показанных в ответ на запрос, и взаимодействий пользователей с ними.
- Текстовый вектор (Эмбеддинг): Строится на основе текстового содержания запроса (textual feature) с использованием методов Word Embedding.
- Second MLA (Второй алгоритм машинного обучения)
- Алгоритм (например, нейронная сеть или K-NNS/HNSW), обученный определять схожесть запросов на основе их текстового содержания. Он учится аппроксимировать поведенческую схожесть, используя только текстовые векторы.
- Similarity Parameter (Параметр схожести)
- Метрика, указывающая на степень схожести между текущим и прошлым запросами. Может рассчитываться на основе поведенческих или текстовых векторов.
- User Interactions (Взаимодействия пользователей)
- Данные о поведении пользователей с результатами поиска (клики, CTR, dwell time и т.д.).
Ключевые утверждения (Анализ Claims)
Патент описывает гибридную систему, которая использует разные методы определения схожести в зависимости от того, является ли запрос новым или известным.
Claim 1 (Независимый пункт): Описывает процесс для известных запросов (Seen Queries), где доступна история взаимодействий.
- Система получает текущий запрос и генерирует набор текущих документов.
- Система извлекает множество прошлых запросов.
- Вычисляется параметр схожести между текущим и каждым из прошлых запросов.
- Критически важно: вычисление схожести основывается на (i) степени схожести между текущими документами и прошлыми документами, И (ii) степени схожести между взаимодействиями пользователей с текущими документами и взаимодействиями с прошлыми документами.
- Выбирается подмножество прошлых запросов, чей параметр схожести выше порога.
- Ранжирование текущих документов выполняется First MLA, который учитывает выбранное подмножество прошлых запросов как признак ранжирования (ranking feature).
Claim 5 (Независимый пункт): Описывает процесс для новых запросов (Unseen Queries) и необходимый для этого этап обучения Second MLA.
Фаза Обучения (Training Phase):
- Система получает обучающие объекты. Каждый объект содержит пару прошлых запросов (Q1, Q2) и их параметр схожести (S12).
- Важно: S12 рассчитывается методом, схожим с Claim 1 (на основе схожести документов и взаимодействий). Это эталонная (Ground Truth) поведенческая схожесть.
- Second MLA обучается предсказывать S12, используя только текстовые признаки (textual features) Q1 и Q2. Цель — научить модель аппроксимировать поведенческую схожесть через текстовую близость.
Фаза Применения (In-use Phase):
- Система получает новый запрос (не встречавшийся ранее).
- Second MLA вычисляет параметр схожести между новым запросом и прошлыми запросами, основываясь только на их текстовых признаках.
- Выбирается подмножество похожих запросов (схожесть > порога).
- Ранжирование выполняется First MLA, используя это подмножество как признак.
Claim 12 (Независимый пункт): Описывает гибридную логику выбора метода.
- Система получает запрос и определяет наличие прошлых взаимодействий пользователей с текущими документами.
- Если взаимодействия ЕСТЬ (Seen Query): Генерируются поведенческие векторы для текущего и прошлых запросов. Выбор похожих запросов основан на схожести этих векторов.
- Если взаимодействий НЕТ (Unseen Query): Генерируются текстовые векторы (эмбеддинги) для текущего и прошлых запросов. Выбор похожих запросов основан на схожести этих векторов.
- Ранжирование (First MLA) использует выбранные похожие запросы.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, интегрируя офлайн-вычисления и онлайн-обработку.
QUERY PROCESSING – Понимание Запросов
На этом этапе происходит генерация текстовых векторов (эмбеддингов) для текущего запроса. Также здесь система определяет, является ли запрос известным (Seen) или новым (Unseen), проверяя наличие исторических данных о взаимодействиях.
RANKING – Ранжирование (Уровни L3/L4)
Основное применение патента происходит на поздних стадиях ранжирования. First MLA (основная формула ранжирования, вероятно CatBoost/YATI) принимает на вход обогащенные данные о запросе.
- Извлечение признаков: Система определяет набор похожих прошлых запросов (используя либо поведенческие векторы, либо Second MLA для текстовых векторов).
- Применение в формуле: First MLA использует эти похожие запросы как признаки. В патенте прямо указано (Abstract, Claim 24), что включение терминов из похожих прошлых запросов в текущий документ способствует повышению ранга (promotes rank) этого документа. Вес признака может зависеть от вычисленного Similarity Parameter.
Офлайн-процессы и обработка данных
Значительная часть работы происходит офлайн:
- Предварительный расчет поведенческих векторов для прошлых запросов на основе логов (Query Log, User Interaction Log).
- Расчет поведенческих параметров схожести между парами прошлых запросов.
- Обучение Second MLA на основе этих данных для предсказания схожести по тексту.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на редкие, длиннохвостые (long-tail) или совершенно новые запросы (Unseen Queries). Для них система может найти семантически близкие популярные запросы и использовать их историю для улучшения ранжирования.
- Контентные факторы: Влияет на то, какие термины в документе считаются важными. Термины, которые присутствуют не в текущем запросе, а в похожих прошлых запросах, получают дополнительный вес.
Когда применяется
Алгоритм применяется при обработке практически каждого поискового запроса. Ключевым моментом является ветвление логики (как описано в Claim 12):
- Триггер активации Поведенческого пути: Когда система идентифицирует, что для текущего запроса и его результатов существуют исторические данные о взаимодействиях пользователей.
- Триггер активации Текстового пути (Second MLA): Когда исторических данных недостаточно или запрос является новым (Unseen Query). В этом случае активируется Second MLA.
Пошаговый алгоритм
Процесс А: Обработка запроса в реальном времени (Гибридный подход)
- Получение запроса: Система получает текущий запрос.
- Генерация первичных результатов: Получение набора кандидатов для ранжирования.
- Определение типа запроса: Система проверяет наличие достаточного количества исторических данных (взаимодействий пользователей) для текущего запроса и его результатов.
- Ветвление логики:
- Путь 1 (Seen Query — Поведенческая схожесть): Если данные есть.
- Генерация (или извлечение) Поведенческого Вектора для текущего запроса (на основе результатов и взаимодействий).
- Извлечение Поведенческих Векторов для прошлых запросов.
- Расчет Similarity Parameter путем сравнения векторов (например, скалярное произведение).
- Путь 2 (Unseen Query — Текстовая схожесть): Если данных нет.
- Генерация Текстового Вектора (эмбеддинга) для текущего запроса.
- Использование Second MLA (например, HNSW) для поиска ближайших соседей (прошлых запросов) в пространстве текстовых векторов и расчета Similarity Parameter.
- Путь 1 (Seen Query — Поведенческая схожесть): Если данные есть.
- Выбор подмножества: Отбор Топ-K прошлых запросов, чей Similarity Parameter превышает установленный порог (predetermined similarity threshold).
- Ранжирование (First MLA): Использование выбранного подмножества запросов как признаков ранжирования. Документы, содержащие термины из этих похожих запросов, получают повышение в ранге. Вес признака может зависеть от значения Similarity Parameter.
- Выдача результатов: Формирование SERP.
Процесс Б: Офлайн-обучение Second MLA
- Сбор данных: Анализ логов для идентификации пар прошлых запросов (Q1, Q2).
- Расчет Поведенческой Схожести: Для каждой пары вычисляется «истинный» Similarity Parameter (S12) на основе пересечения результатов и схожести взаимодействий пользователей (Ground Truth).
- Генерация Текстовых Векторов: Для Q1 и Q2 создаются текстовые эмбеддинги (V1, V2) с использованием методов Word Embedding.
- Обучение: Second MLA обучается на наборе данных {V1, V2, S12}. Цель — научиться предсказывать поведенческую схожесть S12, используя только текстовые векторы V1 и V2.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важные данные для расчета поведенческой схожести и обучения Second MLA. Используются данные из логов (Query Log, User Interaction Log). В патенте упоминаются: клики (Loss/Win), время на сайте (Dwell time), длинные/короткие клики, CTR.
- Контентные факторы (Текстовые): Тексты запросов (textual features) используются для генерации текстовых векторов (эмбеддингов). Тексты документов используются для определения наличия в них терминов из похожих запросов на этапе ранжирования.
- Системные данные: Наборы документов (Search Results), показанные в ответ на прошлые и текущий запросы.
Какие метрики используются и как они считаются
- Поведенческий Вектор Запроса (Query Vector): Вектор, где измерения соответствуют документам, а значения — метрикам взаимодействия. В патенте приводится пример: 1 если взаимодействие есть (или выше порога), 0 если нет (или ниже порога); или само значение метрики (например, CTR).
- Текстовый Вектор Запроса (Query Embedding): Вектор, сгенерированный с помощью моделей Word Embedding. В патенте упоминаются word2vec и LDA как примеры, но на практике вероятно используются более современные трансформерные модели (например, YATI).
- Similarity Parameter (Параметр Схожести): Рассчитывается как мера близости между векторами запросов. В патенте упоминаются скалярное произведение (scalar multiplication) и косинусная близость (cosine similarity).
- K-NNS / HNSW: Алгоритмы поиска ближайших соседей. HNSW (Hierarchical Navigable Small World) упоминается как конкретный алгоритм, используемый в Second MLA для эффективного поиска похожих текстовых векторов и определения расстояния (которое используется как параметр схожести).
Выводы
- Историческое поведение определяет релевантность: Яндекс активно использует историю поискового поведения пользователей для информирования текущего ранжирования. Поведенческая схожесть запросов (основанная на кликах по одним и тем же документам) рассматривается как эталон (Ground Truth) для определения семантической близости.
- Два типа схожести запросов: Патент четко разделяет поведенческую схожесть (для известных запросов) и текстовую схожесть (для новых запросов). При этом текстовая схожесть обучается аппроксимировать поведенческую. Это ключевой механизм патента.
- Обогащение запроса как механизм ранжирования: Ключевой механизм воздействия на выдачу — это добавление терминов из похожих исторических запросов в качестве признаков ранжирования (Query Enrichment). Если документ содержит эти термины, его ранг повышается.
- Решение проблемы «холодного старта»: Система специально разработана для улучшения ранжирования по новым или редким запросам, для которых нет статистики, путем переноса знаний с семантически близких запросов с богатой историей.
- Важность векторного поиска и инфраструктуры: Эффективность системы зависит от быстрого поиска в векторном пространстве, для чего используются специализированные алгоритмы типа HNSW, что подчеркивает технологическую сложность реализации.
Практика
Best practices (это мы делаем)
- Фокус на Topical Authority и широком охвате темы: Создавайте контент, который полностью покрывает тему и отвечает на широкий спектр семантически связанных запросов. Это увеличивает вероятность того, что ваш документ будет релевантен не только целевому запросу, но и тем похожим запросам, которые Яндекс может использовать для обогащения.
- Оптимизация под интент, а не ключевое слово: Необходимо понимать весь кластер запросов, которые пользователи используют для поиска одной и той же информации. Анализируйте связанные запросы и убедитесь, что ваш контент содержит релевантные термины (QBST фразы) из этих запросов.
- Максимизация позитивных поведенческих сигналов: Высокий CTR и вовлеченность пользователей критически важны. Они формируют Поведенческие Векторы запросов, которые определяют «истинную» схожесть и используются для обучения всей системы (Second MLA). Если пользователи кликают на ваш сайт по разным, но связанным запросам, это усиливает связь между этими запросами в модели Яндекса.
- Анализ семантических кластеров по выдаче: При сборе семантики группируйте запросы не только по текстовой близости, но и по схожести выдачи (SERP Similarity). Это поможет лучше понять, как Яндекс видит поведенческую схожесть между запросами.
Worst practices (это делать не надо)
- Оптимизация под один точный запрос: Стратегия фокусировки только на одном высокочастотном запросе без учета его семантического окружения становится менее эффективной. Система может предпочесть документ, который лучше отвечает на кластер похожих запросов.
- Игнорирование низкочастотных и связанных запросов: Пренебрежение long-tail запросами и связанными поисками лишает контент возможности получать дополнительный вес за счет механизма обогащения.
- Создание тонкого контента (Thin Content): Контент, который отвечает только на очень узкий запрос и не содержит связанной информации, не получит преимуществ от этого алгоритма, так как он вряд ли будет содержать термины из похожих запросов.
Стратегическое значение
Этот патент подтверждает стратегический приоритет Яндекса на понимание семантики и интента пользователя через анализ больших данных о поведении. Он показывает, как поведенческие данные напрямую используются для обучения моделей текстовой релевантности. Для SEO это означает, что невозможно разделить работу над контентом и работу над поведенческими факторами. Долгосрочная стратегия должна строиться на создании авторитетных ресурсов, которые становятся центром притяжения для пользователей по широкому спектру связанных запросов в рамках одной тематики.
Практические примеры
Сценарий 1: Ранжирование по новому (Unseen) запросу
- Новый запрос (Current Query): «экологичные методы утилизации литий-ионных батарей 2025» (редкий, статистики нет).
- Действие системы: Активируется Second MLA (Текстовый путь). Система генерирует текстовый эмбеддинг запроса.
- Поиск похожих запросов: Second MLA (используя HNSW) находит прошлые запросы с близкими векторами: «как правильно выбросить батарейку», «переработка аккумуляторов телефона» (статистика есть).
- Обогащение (Enrichment): Термины из похожих запросов («переработка», «телефон», «правильно выбросить») добавляются как признаки ранжирования для исходного запроса.
- Результат: Статья, которая содержит термины исходного запроса, а также упоминает «переработку» и «телефоны», получит буст и ранжируется выше, чем статья, оптимизированная только под точное вхождение нового запроса.
Сценарий 2: Использование поведенческой схожести (Seen Query)
- Известный запрос (Current Query): «лучший кофе для эспрессо».
- Действие системы: Активируется Поведенческий путь. Система анализирует Поведенческий Вектор этого запроса (на какие сайты кликали пользователи).
- Поиск похожих запросов: Система находит запрос «рейтинг кофе в зернах», так как пользователи часто кликают на одни и те же сайты по обоим запросам (Поведенческие Векторы близки).
- Обогащение: Термины «рейтинг» и «в зернах» используются как признаки ранжирования для запроса «лучший кофе для эспрессо».
- Результат: Страница с рейтингом кофе в зернах может ранжироваться выше по запросу «лучший кофе для эспрессо», даже если она слабее оптимизирована под слово «эспрессо», благодаря сильной поведенческой связи.
Вопросы и ответы
В чем ключевое различие между First MLA и Second MLA в этом патенте?
First MLA — это основной алгоритм ранжирования (например, CatBoost), который определяет финальный порядок документов в выдаче, используя сотни или тысячи признаков. Second MLA — это вспомогательный алгоритм (например, на базе HNSW), задача которого — определить степень схожести между запросами на основе их текстового содержания. Second MLA используется для поиска похожих запросов, которые затем передаются в First MLA в качестве одного из признаков ранжирования.
Что такое поведенческая схожесть запросов и почему она так важна?
Поведенческая схожесть (Behavioral Similarity) определяется на основе того, насколько пересекаются результаты поиска по двум запросам и насколько схоже пользователи взаимодействуют с этими результатами (например, кликают на одни и те же сайты). В патенте она рассматривается как эталон (Ground Truth) схожести. Если пользователи решают свои задачи с помощью одних и тех же сайтов, значит запросы семантически близки, даже если их текст сильно отличается.
Как система обрабатывает совершенно новые или очень редкие запросы?
Для новых запросов (Unseen Queries) нет истории взаимодействий, поэтому невозможно рассчитать поведенческую схожесть. В этом случае система использует Second MLA, который определяет схожесть на основе текстовых векторов (эмбеддингов). Second MLA обучен предсказывать поведенческую схожесть, используя только текст, что позволяет найти релевантные прошлые запросы и использовать их историю для ранжирования нового запроса.
Как именно похожие запросы влияют на ранжирование документа?
Патент указывает, что наличие терминов (search terms) из идентифицированных похожих прошлых запросов в текущем документе способствует повышению ранга (promotes rank) этого документа. Похожие запросы становятся признаками в First MLA. Вероятно, чем выше параметр схожести (Similarity Parameter) между текущим и прошлым запросом, тем больший вес имеют термины из этого прошлого запроса при ранжировании.
Как это влияет на стратегию сбора семантического ядра?
Это подтверждает необходимость ухода от сбора отдельных ключевых слов к анализу семантических кластеров и интентов. Необходимо собирать максимально полное ядро, включая все возможные синонимы, вариации и связанные запросы. Важно понимать, какие запросы Яндекс считает поведенчески схожими (например, анализируя SERP Similarity), и обеспечивать наличие релевантных терминов из всего кластера в контенте.
Что важнее для этой системы: текстовая оптимизация или поведенческие факторы?
Оба элемента критически важны и тесно связаны. Поведенческие факторы определяют эталонную схожесть запросов и используются для обучения Second MLA. Текстовая оптимизация (наличие терминов из похожих запросов) является непосредственным механизмом, через который First MLA повышает ранг документа. Невозможно иметь одно без другого: хороший текст привлекает клики, а клики определяют, какой текст будет считаться релевантным в будущем.
Что такое HNSW и зачем он используется?
Hierarchical Navigable Small World (HNSW) — это алгоритм для быстрого приближенного поиска ближайших соседей в многомерном векторном пространстве. Он используется в рамках Second MLA для эффективного поиска прошлых запросов, чьи текстовые векторы наиболее близки к вектору текущего запроса. Это позволяет системе быстро находить похожие запросы в реальном времени даже при огромной базе исторических данных.
Может ли этот механизм понизить мой сайт в выдаче?
Прямого понижения патент не описывает, но он может привести к косвенной пессимизации. Если ваш контент слишком узко оптимизирован и не содержит терминов из семантически связанных запросов, он уступит позиции конкурентам, чей контент шире и получает буст за счет механизма обогащения (Enrichment). Также, если ваш сайт не генерирует позитивных поведенческих сигналов, он не будет участвовать в формировании сильных поведенческих векторов.
Использует ли Яндекс BERT или YATI в этом патенте?
В тексте патента упоминаются общие термины «Word Embedding» и примеры вроде word2vec или LDA для генерации текстовых векторов. Хотя конкретные модели типа BERT или YATI не названы, логично предположить, что на практике Яндекс использует свои самые современные языковые модели (например, YATI) для генерации этих эмбеддингов, так как они обеспечивают наилучшее понимание семантической близости текстов.
Как я могу определить, какие запросы Яндекс считает похожими на мой целевой запрос?
Прямого инструмента нет, но можно использовать косвенные методы. Анализируйте блоки «Похожие запросы» и «Люди также ищут» в выдаче Яндекса. Используйте инструменты для анализа SERP Similarity — если по двум разным запросам показывается много одинаковых URL, вероятно, Яндекс считает их поведенчески схожими. Также изучайте семантические кластеризаторы, которые группируют запросы по интенту.