Как Яндекс индексирует релевантные страницы, не содержащие ключевых слов, на основе анализа поисковых сессий

Яндекс патентует метод создания «Аннотированного Поискового Индекса». Система анализирует исторические поисковые сессии: если пользователь перешел на страницу, которая не содержит слов из исходного запроса, но провел на ней много времени (например, более 30 секунд) после небольшого числа переходов (1-3), эта страница ассоциируется с исходным запросом в индексе. Это позволяет ранжировать документы (например, изображения или схемы) по запросам, для которых они релевантны, даже без текстового соответствия.

Описание

Какую задачу решает

Патент решает фундаментальную проблему ограничений традиционного обратного индекса (Inverted Index) — невозможность найти высокорелевантные ресурсы, которые не содержат текстовых признаков соответствия поисковому запросу (в тексте, URL, заголовке). В качестве примера приводится веб-ресурс, содержащий только изображение-схему, которое очень релевантно запросу, но не содержит слов из него. Изобретение направлено на улучшение полноты поиска (Recall) и пользовательского опыта.

Что запатентовано

Запатентован метод генерации Аннотированного Поискового Индекса (Annotated Search Index). Суть изобретения заключается в анализе исторических поисковых сессий (Historical Search Session) для выявления ресурсов, которые релевантны запросу, но не индексируются по его терминам. Ассоциация между запросом и таким ресурсом устанавливается на основе строгих поведенческих сигналов: количества переходов (Number of Transitions) в рамках сессии и времени взаимодействия пользователя с ресурсом (Time Spent Interacting / Dwell Time).

Как это работает

Система анализирует логи поисковых сессий. Она идентифицирует сценарий, когда пользователь вводит Запрос 1 и взаимодействует с Ресурсом A (который содержит термины Запроса 1). Затем, в рамках той же сессии (часто после переформулировки запроса), пользователь переходит к Ресурсу B, который НЕ содержит терминов Запроса 1. Система вычисляет Параметр Ассоциации (Association Parameter) для Ресурса B. Этот параметр зависит от двух метрик: (1) количества переходов между Ресурсом A и Ресурсом B и (2) времени, проведенного пользователем на Ресурсе B. Если параметр превышает строгий порог (указаны примеры: 1-3 перехода и не менее 30 секунд на странице), система ассоциирует Ресурс B с терминами исходного Запроса 1 в Аннотированном Поисковом Индексе.

Актуальность для SEO

Высокая. Понимание поведения пользователей в рамках сессии и использование поведенческих сигналов (особенно Dwell Time или «длинных кликов») для определения релевантности являются ключевыми элементами современных поисковых систем. Механизм позволяет преодолеть лексическое несоответствие и улучшить ранжирование нетекстового контента.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент предоставляет конкретный механизм, объясняющий, как страница может ранжироваться по запросу, даже если она не содержит ни одного слова из него. Он подчеркивает исключительную важность поведенческих факторов, в частности, времени взаимодействия пользователя с контентом (Dwell Time). Наличие конкретных пороговых значений (30 секунд, 1-3 перехода) дает SEO-специалистам четкие ориентиры для оптимизации пользовательского опыта.

Детальный разбор

Термины и определения

Annotated Search Index (Аннотированный поисковый индекс): Сгенерированный индекс, в котором ресурс (Второй ресурс) ассоциируется с поисковыми терминами, которых он не содержит, на основе анализа поведения пользователей. Может быть реализован как дополнение к основному обратному индексу или как отдельная структура данных.
Association Parameter (Параметр ассоциации): Метрика, определяющая силу связи между Вторым ресурсом и исходным запросом/Первым ресурсом. Основана на First и Second Historical Parameters.
First Historical Parameter (Первый исторический параметр): Количество переходов (Number of Transitions) между Первым ресурсом и Вторым ресурсом в рамках исторической поисковой сессии.
First Resource (Первый ресурс): Ресурс, который содержит хотя бы часть терминов из первого поискового запроса и проиндексирован по ним в основном индексе.
Historical Search Session (Историческая поисковая сессия): Записанные данные о последовательности действий пользователя, включая запросы, переформулировки (reformulated query), переходы по ресурсам и время взаимодействия.
Inverted Index (Обратный индекс): Основной поисковый индекс (Первый поисковый индекс), содержащий списки документов (posting lists) для каждого поискового термина.
Second Historical Parameter (Второй исторический параметр): Время, проведенное предыдущим пользователем во взаимодействии (Time Spent Interacting) со Вторым ресурсом в рамках исторической поисковой сессии (аналог Dwell Time).
Second Resource (Второй ресурс): Ресурс, который НЕ содержит терминов из первого поискового запроса и НЕ проиндексирован по ним в основном индексе, но был найден пользователем в той же сессии и оказался релевантным.

Ключевые утверждения (Анализ Claims)

Патент защищает метод генерации дополнительного индекса на основе анализа поведения пользователей в прошлых сессиях.

Claim 1 (Независимый пункт): Описывает основной метод генерации аннотированного индекса.

Система извлекает данные исторической поисковой сессии для Первого поискового запроса.
В сессии идентифицируются Первый ресурс и Второй ресурс. Оба релевантны Первому запросу.
Условия для Первого ресурса: Содержит термины Первого запроса и проиндексирован по ним.
Условия для Второго ресурса: НЕ содержит терминов Первого запроса и НЕ проиндексирован по ним. Важно: Второй ресурс ассоциирован с переформулированным запросом (reformulated query) в этой сессии и был посещен пользователем после Первого ресурса и после ввода переформулированного запроса.
Вычисляется Параметр Ассоциации для Второго ресурса. Он основан на двух метриках:
- Первый исторический параметр: Количество переходов между Первым и Вторым ресурсами в сессии.
- Второй исторический параметр: Время, потраченное пользователем на взаимодействие со Вторым ресурсом в сессии.
Если Параметр Ассоциации превышает предопределенный порог, Второй ресурс ассоциируется с Первым ресурсом и/или терминами Первого запроса.
Генерируется запись в Аннотированном Поисковом Индексе, что делает Второй ресурс доступным для поиска по терминам Первого запроса.

Claim 2, 3 (Зависимые пункты): Определяют конкретные пороговые значения для активации. Это критически важные детали.

Claim 2: Порог превышен, если количество переходов (Первый параметр) равно 1, 2 или 3, И время взаимодействия (Второй параметр) составляет не менее 30 секунд.
Claim 3: Уточняет Claim 2 (более строгий вариант). Порог превышен, если количество переходов равно 1 или 2, И время взаимодействия не менее 30 секунд.

Claim 7, 8, 9, 10 (Зависимые пункты): Описывают возможные реализации Аннотированного Индекса.

Claim 7 (Вариант 1): Аннотированный индекс может быть создан путем вставки ссылки на Второй ресурс непосредственно в соответствующие списки (posting lists) основного Обратного индекса.
Claim 8 (Вариант 2): Альтернативно, Второй ресурс может быть ассоциирован во Втором поисковом индексе, который отличен от Первого (основного) индекса.
Claim 9 и 10: Этот Второй индекс может быть массивом данных (data array), имеющим 3 или 4 измерения. Измерения могут включать docID (идентификатор документа), breakID (идентификатор строки/фрагмента), regionID (регион пользователя) и sourceID (идентификатор источника аннотации).

Где и как применяется

Изобретение применяется в основном на этапе индексации и использует данные, собранные о поведении пользователей.

Офлайн-обработка данных и Аналитика
Основная работа алгоритма происходит офлайн. Система анализирует логи исторических поисковых сессий. На этом этапе происходит извлечение последовательностей запросов и кликов, расчет количества переходов и времени взаимодействия (Dwell Time) для ресурсов, посещенных в рамках сессий.

INDEXING – Индексирование и извлечение признаков
Результатом работы алгоритма является генерация Аннотированного Поискового Индекса. Система создает новые связи между поисковыми терминами и ресурсами, которые ранее не были связаны в основном обратном индексе. Как описано в патенте, этот индекс может быть реализован путем аннотации существующего Inverted Index или создания отдельного индекса (например, 3D или 4D массива данных).

RANKING – Ранжирование (Уровень L1 — Retrieval)
На этапе поиска кандидатов (Retrieval) поисковая система использует сгенерированный Аннотированный Поисковый Индекс. Ресурсы, найденные через этот механизм, включаются в набор кандидатов для последующего ранжирования наряду с ресурсами, найденными через стандартный обратный индекс.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на нетекстовый или слабо текстуализированный контент: изображения, схемы, диаграммы, видео, аудиофайлы. Также влияет на контент, где используется лексика, отличная от той, что использует пользователь в запросе (проблема Vocabulary Mismatch).
Специфические запросы: Влияет на запросы, где пользователи часто ищут нетекстовую информацию или где наблюдается частое переформулирование запроса для достижения цели (Pogo-sticking с последующим успехом).
Типы ресурсов: Патент (Claim 5) указывает, что ресурсы могут быть документами, изображениями, аудиофайлами, веб-страницами, твитами, ссылками, заголовками или фрагментами документов.

Когда применяется

Алгоритм применяется при обработке исторических данных для обновления поискового индекса.

Триггеры активации: Алгоритм активируется при обнаружении в исторической сессии Второго ресурса, который не содержит терминов исходного запроса, но был посещен после Первого ресурса (который их содержит).
Пороговые значения (Thresholds): Ключевым условием для создания аннотации является превышение порога Параметром Ассоциации. Конкретные пороги, указанные в патенте:
- Количество переходов между Первым и Вторым ресурсом: 1, 2 или 3 (в некоторых вариантах 1 или 2).
- Время взаимодействия со Вторым ресурсом: не менее 30 секунд.

Пошаговый алгоритм

Процесс генерации Аннотированного Поискового Индекса (Офлайн).

Сбор данных: Извлечение порции исторической поисковой сессии для Первого поискового запроса из логов.
Идентификация ресурсов: В рамках сессии определяются Первый ресурс и Второй ресурс.
- Проверка Первого ресурса: Подтверждение, что он содержит термины Первого запроса и проиндексирован по ним.
- Проверка Второго ресурса: Подтверждение, что он НЕ содержит терминов Первого запроса, НЕ проиндексирован по ним, и был посещен в этой сессии после Первого ресурса (часто через переформулированный запрос).
Вычисление исторических параметров:
- Расчет Первого исторического параметра: Подсчет количества переходов между Первым и Вторым ресурсами в сессии.
- Расчет Второго исторического параметра: Определение времени взаимодействия пользователя со Вторым ресурсом (Dwell Time).
Генерация Параметра Ассоциации: Вычисление итоговой метрики на основе Первого и Второго параметров.
Применение порогов: Проверка, превышает ли Параметр Ассоциации установленный порог (например, Переходы ≤ 3 И Время ≥ 30 сек).
Генерация Индекса (Аннотация): Если порог превышен, система ассоциирует Второй ресурс с терминами Первого запроса и/или Первым ресурсом.
- Вариант 1: Обновление основного обратного индекса.
- Вариант 2: Создание записи в отдельном многомерном Аннотированном Индексе (с указанием docID, regionID и т.д.).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Являются основой изобретения. Используются данные из логов поисковых сессий:
- Последовательность запросов и их переформулировок.
- Последовательность переходов (кликов) на ресурсы.
- Время взаимодействия с каждым ресурсом (Dwell Time).
Контентные факторы: Используются только для проверки наличия или отсутствия поисковых терминов в Первом и Втором ресурсах.
Системные данные (Индекс): Данные основного обратного индекса используются для подтверждения статуса индексации ресурсов по исходному запросу.
Географические факторы: В описании структуры многомерного индекса (Claim 10) упоминается regionID (регион пользователя), что предполагает использование географических данных для сегментации индекса.

Какие метрики используются и как они считаются

Number of Transitions (Количество переходов): Подсчет шагов в графе сессии между двумя ресурсами или между запросом и ресурсом.
Time Spent Interacting (Время взаимодействия / Dwell Time): Время, проведенное пользователем на Втором ресурсе в рамках сессии.
Association Parameter (Параметр Ассоциации): Агрегированная метрика на основе двух вышеуказанных.
Пороговые значения: В патенте четко определены пороги для срабатывания:
- Количество переходов: ≤ 3 (или ≤ 2 в некоторых вариантах).
- Время взаимодействия: ≥ 30 секунд.

Выводы

Ранжирование без ключевых слов возможно: Патент описывает конкретный механизм, позволяющий Яндексу индексировать и ранжировать страницы по запросам, терминов которых они не содержат. Это происходит за счет анализа поведения пользователей в прошлых сессиях.
Критическая важность Dwell Time (Времени взаимодействия): Время, проведенное пользователем на странице, является прямым сигналом релевантности в этой системе. Если пользователи находят страницу полезной (остаются на ней долго), система может ассоциировать ее с запросами, которые привели к этой сессии.
Конкретные пороговые значения: В патенте указаны четкие пороги: связь устанавливается, если до полезного ресурса было сделано не более 1-3 переходов, и пользователь провел на нем не менее 30 секунд. Это дает SEO-специалистам конкретные метрики для оценки качества взаимодействия.
Анализ сессий и переформулировок: Система активно использует данные о том, как пользователи переформулируют запросы и перемещаются между результатами. Успешное завершение сессии (длинный клик) после переформулировки позволяет связать конечный результат с исходным запросом.
Структура индекса адаптируется: Яндекс может использовать не только стандартный обратный индекс, но и отдельные многомерные структуры данных (3D/4D массивы) для хранения этих аннотаций, учитывая дополнительные факторы, такие как регион пользователя (regionID).

Практика

Best practices (это мы делаем)

Фокус на удержании пользователя и глубине контента: Создавайте контент, который максимально полно решает задачу пользователя и удерживает его внимание. Цель — максимизировать Dwell Time. Ориентир, указанный в патенте, — более 30 секунд для сигнализации о релевантности.
Оптимизация внутренней перелинковки и навигации: Структурируйте сайт так, чтобы пользователи могли быстро (за 1-3 клика) находить связанный контент. Логичные переходы между страницами, решающими одну задачу (например, от статьи к инструменту или от товара к сравнению), способствуют созданию ассоциаций в Аннотированном индексе.
Оптимизация нетекстового контента: Убедитесь, что страницы с ценным нетекстовым контентом (изображения, инструменты, схемы, видео) удобны для взаимодействия. Этот патент показывает механизм, как такой контент может ранжироваться по текстовым запросам, если он удовлетворяет пользователя (Dwell Time > 30s).
Создание контента, отвечающего на интент, а не только на ключевые слова: Если ваш контент лучше отвечает на интент пользователя, он получит долгий Dwell Time. Это позволит системе проиндексировать вашу страницу по нужным запросам, даже если вы используете другую лексику или формат.

Worst practices (это делать не надо)

Создание «тонкого» контента (Thin Content) и кликбейт: Страницы, которые не удерживают пользователя (Dwell Time < 30 секунд), не получат преимуществ от этого алгоритма. Система ищет подтверждение релевантности через длительное взаимодействие.
Сложная навигация: Если пользователю требуется более 3 переходов, чтобы добраться до нужного контента в рамках решения одной задачи, система может не установить ассоциацию между исходным запросом и целевым контентом.
Игнорирование юзабилити и скорости загрузки: Факторы, которые заставляют пользователя быстро покинуть страницу, напрямую снижают Dwell Time и блокируют работу этого механизма индексации.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Яндекса на измерение реальной удовлетворенности пользователя, а не просто формального соответствия текста запросу. Поведенческие сигналы, особенно Dwell Time, являются не просто факторами ранжирования, но и механизмами для построения поискового индекса. Это подчеркивает, что долгосрочная SEO-стратегия должна быть сосредоточена на создании максимально полезного контента, который эффективно решает задачи пользователя и удерживает его внимание, независимо от формата контента.

Практические примеры

Сценарий 1: Индексация схемы/изображения через переформулировку

Исходный запрос (Query 1): «схема подключения реле напряжения».
Действия пользователя: Пользователь кликает на статью (Первый ресурс), где есть текст о реле. Не найдя нужной схемы, он возвращается в поиск.
Переформулировка (Reformulated Query): Пользователь вводит «как выглядит подключенное реле фото».
Нахождение Второго ресурса: Пользователь находит страницу, которая содержит только качественное фото или схему подключения, но почти не содержит текста (и не содержит слов из Query 1).
Взаимодействие: Пользователь изучает схему в течение 60 секунд (Dwell Time > 30 сек). Количество переходов между ресурсами (через поиск) мало (например, 2).
Результат: Система генерирует запись в Аннотированном Индексе, связывая Второй ресурс с запросом «схема подключения реле напряжения». Теперь страница с фото ранжируется по этому запросу.

Сценарий 2: Индексация инструмента через внутренний переход

Исходный запрос (Query 1): «расчет ипотеки Сбербанк».
Действия пользователя: Пользователь кликает на страницу с условиями ипотеки (Первый ресурс).
Внутренний переход: Пользователь видит кнопку «Калькулятор ипотеки» и переходит на него (Второй ресурс). Количество переходов = 1.
Взаимодействие: На странице калькулятора мало текста, но пользователь взаимодействует с формой 5 минут (Dwell Time > 30 сек).
Результат: Страница калькулятора (Второй ресурс) ассоциируется с запросом «расчет ипотеки Сбербанк» в Аннотированном Индексе, даже если на ней самой нет подробного описания условий Сбербанка.

Вопросы и ответы

Что такое «Аннотированный Поисковый Индекс» в этом патенте?

Это индекс, который позволяет системе находить ресурсы, релевантные запросу, даже если эти ресурсы не содержат слов из запроса. Связь между запросом и ресурсом устанавливается на основе анализа прошлых поисковых сессий, где пользователи посчитали этот ресурс полезным (например, долго его изучали) в контексте исходного запроса.

Насколько важен Dwell Time (время на сайте) согласно этому патенту и какие пороги указаны?

Он критически важен. Dwell Time (в патенте «Time Spent Interacting») является ключевым параметром для принятия решения об индексации ресурса. В Claims 2 и 3 четко указано пороговое значение: не менее 30 секунд. Это означает, что взаимодействие менее 30 секунд считается недостаточным для активации этого механизма.

Что такое «Количество переходов» и какие пороги для него указаны?

Это количество шагов (кликов, переформулировок) в рамках одной поисковой сессии между первым ресурсом (который содержит слова запроса) и вторым ресурсом (который их не содержит). Чем меньше переходов, тем сильнее связь. В патенте указаны пороги в 1, 2 или 3 перехода (в более строгих вариантах 1 или 2).

Как этот патент влияет на оптимизацию нетекстового контента (например, изображений или видео)?

Он объясняет механизм, как нетекстовый контент может ранжироваться по текстовым запросам. Если страница содержит полезное изображение или видео, которое пользователи долго изучают (более 30 сек) после поиска по текстовому запросу, эта страница может быть проиндексирована по этому запросу, даже если на ней нет соответствующего текста или атрибутов alt.

Означает ли это, что текстовая оптимизация больше не нужна?

Нет. Текстовая оптимизация необходима для попадания в основной обратный индекс и для первоначального привлечения трафика (чтобы стать «Первым ресурсом»). Однако этот патент показывает, что для достижения максимальной полноты охвата критически важно удовлетворять интент пользователя и обеспечивать долгий Dwell Time, что может компенсировать недостаток текстового соответствия.

Как система учитывает переформулировку запроса пользователем?

Система анализирует всю историческую сессию. В Claim 1 явно указано, что второй ресурс часто находится после того, как пользователь переформулировал исходный запрос. Если пользователь ввел Запрос 1, кликнул на результат, вернулся, ввел Запрос 2 и нашел полезный результат (длинный клик), система может связать этот результат с Запросом 1.

Аннотированный индекс — это часть основного индекса Яндекса?

Патент предлагает два варианта реализации. Первый — это добавление аннотаций непосредственно в основной обратный индекс. Второй — создание отдельного индекса, который может быть многомерным массивом данных (3D или 4D), учитывающим дополнительные параметры, такие как регион пользователя (regionID) или источник аннотации (sourceID).

Как этот патент влияет на стратегию внутренней перелинковки?

Он значительно повышает важность продуманной перелинковки. Необходимо обеспечить легкий и быстрый переход (в идеале 1-2 клика) между связанными по смыслу страницами. Это увеличивает вероятность того, что пользователи совершат этот переход и проведут на целевой странице достаточно времени, создавая нужные поведенческие сигналы.

Может ли этот механизм работать против моего сайта?

Косвенно да. Если пользователи часто используют ваш сайт как промежуточный шаг (Первый ресурс), а затем уходят (возможно, переформулировав запрос) и находят окончательный ответ на другом сайте (Второй ресурс), проводя там много времени, система может начать ранжировать Второй ресурс выше вашего сайта по исходному запросу.

Как я могу использовать знание этого патента в своей SEO-стратегии?

Необходимо сместить фокус с мониторинга позиций по отдельным ключам на анализ удовлетворенности пользователя и метрик вовлеченности. Используйте аналитику для выявления страниц с высоким Dwell Time (>30 секунд). Убедитесь, что этот контент максимально полезен и легко доступен (за 1-3 клика) со связанных страниц, имеющих поисковый трафик.