Как Яндекс индексирует и ранжирует страницы без ключевых слов в тексте, используя данные о поведении пользователей в сессии

Яндекс патентует метод создания «Аннотированного Поискового Индекса». Если пользователи в рамках одной поисковой сессии переходят с релевантной страницы на другую и проводят там значительное время (например, более 30 секунд), вторая страница может быть проиндексирована по исходному запросу, даже если она не содержит ни одного слова из этого запроса. Это позволяет находить контент на основе поведенческой релевантности.

Описание

Какую задачу решает

Патент решает фундаментальную проблему классического информационного поиска — ограничение поиска только теми документами, которые содержат термины запроса (проблема полноты выдачи или «лексического разрыва»). Изобретение позволяет находить и индексировать релевантные ресурсы, которые не содержат ни одного слова из поискового запроса, но которые пользователи находят полезными в рамках той же поисковой задачи (сессии). Это улучшает качество поиска за счет использования поведенческих сигналов для определения релевантности, минуя необходимость текстового соответствия.

Что запатентовано

Запатентован способ создания Аннотированного Поискового Индекса (Annotated Search Index). Суть изобретения заключается в анализе истории поисковых сессий для выявления ресурсов (Второй Ресурс), которые посещаются после ресурсов, релевантных исходному запросу (Первый Ресурс), и на которых пользователи проводят значительное время. Если поведенческая связь сильна, Второй Ресурс индексируется по терминам исходного запроса, даже если он их не содержит.

Как это работает

Система анализирует логи поисковых сессий. Она ищет сценарий: Пользователь вводит Запрос → Переходит на Первый Ресурс (содержит слова запроса) → В той же сессии переходит на Второй Ресурс (НЕ содержит слов запроса). Для Второго Ресурса рассчитывается Параметр Связи, учитывающий количество переходов (хопов) между ресурсами и время, проведенное на Втором Ресурсе (Dwell Time). Если параметр превышает порог (например, 1-3 перехода и более 30 секунд нахождения), система связывает Второй Ресурс с терминами исходного запроса в индексе.

Актуальность для SEO

Высокая. Использование поведенческих данных для определения релевантности и расширения понимания контента является краеугольным камнем современных поисковых систем. Описанный механизм, позволяющий ранжировать контент без прямого вхождения ключей на основе анализа сессий, крайне актуален для понимания того, как Яндекс оценивает интент и полезность страницы вне ее текстового содержания.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент демонстрирует конкретный механизм, позволяющий Яндексу индексировать и ранжировать страницы по запросам, для которых они текстуально не оптимизированы. Это подчеркивает первостепенную важность пользовательского опыта, вовлеченности (Dwell Time > 30 сек) и продуманной внутренней перелинковки, которая способствует естественным и полезным навигационным путям пользователей.

Детальный разбор

Термины и определения

Аннотированный Поисковый Индекс (Annotated Search Index): Поисковый индекс (модифицированный основной или отдельный дополнительный), в котором ресурсы связаны с поисковыми терминами не только на основе их наличия в тексте, но и на основе поведенческих данных о совместном посещении в рамках поисковых сессий.
Первый Ресурс (R1): Ресурс, который релевантен исходному запросу, содержит по меньшей мере некоторые из его терминов и проиндексирован по ним в основном индексе. Часто является точкой входа из SERP.
Второй Ресурс (R2): Ресурс (веб-страница, документ, изображение и т.д.), который НЕ содержит ни одного термина из исходного запроса и изначально не был проиндексирован по ним. Это целевой ресурс для аннотирования.
Параметр Связи (Link/Connection Parameter): Метрика, рассчитываемая для Второго Ресурса. Определяет силу поведенческой связи между Первым и Вторым Ресурсами на основе истории сессий.
Первый Параметр Истории (Число переходов / Hops): Число переходов (хопов) между Первым Ресурсом и Вторым Ресурсом в рамках одной поисковой сессии.
Второй Параметр Истории (Время взаимодействия / Dwell Time): Время, проведенное предыдущим пользователем во взаимодействии со Вторым Ресурсом в поисковой сессии.
Первый Поисковый Индекс: Основной поисковый индекс (обычно инвертированный индекс), где ресурсы индексируются на основе содержащихся в них терминов.
Второй Поисковый Индекс: Альтернативная реализация Аннотированного Индекса в виде отдельной структуры данных (например, многомерного массива), хранящей поведенческие связи.

Ключевые утверждения (Анализ Claims)

Патент описывает способ расширения поискового индекса за счет анализа поведения пользователей, позволяя индексировать документы, не содержащие слов запроса.

Claim 1 (Независимый пункт): Определяет основной способ создания аннотированного поискового индекса.

Извлечение данных из истории поисковой сессии для Первого Запроса. Сессия включает Первый Ресурс (R1) и Второй Ресурс (R2).
Условие для R1: Релевантен запросу, содержит его термины, проиндексирован по ним.
Критическое условие для R2: НЕ содержит НИ ОДНОГО термина из запроса, НЕ проиндексирован по ним.
Создание Параметра Связи для R2. Он основывается на двух факторах: (i) Число переходов между R1 и R2 в сессии и (ii) Время, проведенное пользователем на R2.
Действие: Если Параметр Связи превышает порог, R2 связывается с R1 и с поисковыми терминами из R1 (и исходного запроса). Это создает Аннотированный Поисковый Индекс.

Claim 2 и 6 (Зависимые пункты): Уточняют конкретные пороговые значения для активации.

Порог превышен, если число переходов равно 1, 2 или 3 (Claim 2). Предпочтительно 1 или 2 (Claim 6).
И время, проведенное на R2, составляет по меньшей мере 30 секунд.

Claim 7 (Зависимый пункт): Уточняет, что число переходов между самим запросом (SERP) и Первым Ресурсом (R1) равно одному (т.е. пользователь кликнул на R1 прямо из выдачи).

Claim 8 (Зависимый пункт): Описывает вариант реализации через модификацию инвертированного индекса.

Если Первый Индекс является инвертированным, то ссылку на Второй Ресурс (R2) вставляют в соответствующие списки словопозиций (posting lists) для поисковых терминов. R2 буквально добавляется в индекс по этим словам.

Claim 5, 9, 10 (Зависимые пункты): Описывают альтернативный вариант реализации через отдельный Второй Поисковый Индекс.

Связывание происходит в отдельном Втором Индексе, который может быть трех- или четырехмерным массивом данных (например, содержащим ID документа, ID разрыва, ID области, ID источника).

Где и как применяется

Изобретение применяется на этапе обработки данных и построения индекса, используя данные, собранные на других этапах.

CRAWLING & ACQUISITION LAYER (Сбор данных)
Система собирает подробные логи поведения пользователей (историю поисковых сессий), включая переходы между ресурсами и время взаимодействия. Это ключевой источник данных для патента.

INDEXING (Индексирование и извлечение признаков)
Это основной этап применения патента. Процесс является офлайновым анализом логов для построения или обновления индекса.

Анализ логов: Специализированный модуль анализирует историю сессий.
Вычисление поведенческих связей: Рассчитываются Параметры Связи между ресурсами на основе числа переходов и Dwell Time.
Аннотирование индекса: Создается Аннотированный Поисковый Индекс. Это может быть реализовано путем модификации основного инвертированного индекса или создания отдельного Второго Поискового Индекса.

RANKING (Ранжирование — Уровень L1/Retrieval)
На этапе ранжирования система использует созданный Аннотированный Поисковый Индекс для поиска кандидатов. Благодаря этому механизму, Второй Ресурс может быть извлечен из индекса (Retrieval) и ранжирован по запросу, даже если он не содержит его терминов.

На что влияет

Типы контента: Влияет на любые типы ресурсов (Claim 3): документы, изображения, аудиофайлы, веб-страницы, твиты и т.д. Особенно полезно для индексации нетекстового контента.
Структура сайта и навигация: Оказывает значительное влияние на важность внутренней перелинковки и архитектуры сайта. Сайты, которые способствуют глубокому изучению темы через логичные переходы между страницами, получают преимущество.
Вовлеченность (Engagement): Метрики времени взаимодействия (Dwell Time) становятся фактором индексации, а не только ранжирования.

Когда применяется

Алгоритм применяется при обработке исторических данных и построении/обновлении поискового индекса (офлайн).

Триггеры активации анализа для конкретной сессии:

Наличие цепочки: Запрос -> Первый Ресурс (R1) -> Второй Ресурс (R2).
Критическое условие: R1 содержит термины запроса, а R2 — нет.

Пороговые значения для создания связи (Claim 2, 6):

Число переходов между R1 и R2: 1, 2 или 3 (оптимально 1 или 2).
Время на R2: По меньшей мере 30 секунд.

Пошаговый алгоритм

Процесс создания Аннотированного Поискового Индекса (Офлайн-обработка).

Сбор данных: Накопление истории поисковых сессий (логи).
Извлечение и Фильтрация Сессий: Обработка логов для извлечения релевантных частей сессий. Идентификация пар ресурсов (R1 и R2) для исходного запроса (Q1).
Проверка Условий:
- Проверка R1: Содержит ли R1 термины Q1? (Да). Был ли переход на R1 в 1 клик от SERP? (Предпочтительно Да, по Claim 7).
- Проверка R2: Содержит ли R2 хоть один термин Q1? (Нет).
Вычисление Параметров Истории: Для отобранных пар (R1, R2) вычисляются:
- Число переходов между R1 и R2.
- Время, проведенное пользователем на R2.
Создание Параметра Связи: Агрегация Параметров Истории в единый Параметр Связи для R2.
Применение Порога: Сравнение Параметра Связи с порогом. Например, проверяется условие: (Переходов ≤ 3) И (Время ≥ 30 секунд).
Аннотирование Индекса: Если порог превышен, R2 связывается с поисковыми терминами из Q1. Реализация: вставка ссылки на R2 в основной инвертированный индекс или запись в отдельный Второй Поисковый Индекс.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Являются основой изобретения. Используются подробные логи поисковых сессий (история). Ключевые данные:
- Последовательность посещенных ресурсов в рамках сессии.
- Число переходов (хопов) между ресурсами.
- Время взаимодействия пользователя со Вторым Ресурсом (Dwell Time).
Контентные факторы: Текстовое содержание Первого и Второго Ресурсов используется только для проверки условий (наличие/отсутствие терминов запроса).
Системные данные: Первый Поисковый Индекс используется для проверки статуса индексации ресурсов и может быть модифицирован в результате работы алгоритма.

Какие метрики используются и как они считаются

Первый Параметр Истории (Число переходов): Рассчитывается путем анализа последовательности навигации в логах сессии. Установлены пороговые значения: 1, 2 или 3 перехода.
Второй Параметр Истории (Время взаимодействия): Измеряется время активности пользователя на Втором Ресурсе. Установлено пороговое значение: минимум 30 секунд.
Параметр Связи: Агрегированная метрика, основанная на Первом и Втором параметрах. Формула расчета не указана, но определены условия, при которых она превышает порог (комбинация порогов для Первого и Второго параметров).

Выводы

Индексация без ключевых слов: Это ключевой вывод. Яндекс обладает механизмом, который позволяет странице быть проиндексированной (и, следовательно, ранжироваться) по запросу, даже если она не содержит НИ ОДНОГО слова из этого запроса.
Поведение как основа релевантности: Релевантность в данном механизме определяется исключительно через анализ совместного посещения ресурсов (co-visitation) в рамках одной поисковой задачи и вовлеченности пользователя.
Критичность Dwell Time (Время взаимодействия): Патент явно указывает минимальное время взаимодействия (30 секунд) как необходимое условие для активации механизма. Это подтверждает важность создания контента, который удерживает внимание пользователя.
Важность навигационных путей (Переходов): Механизм активируется только при небольшом количестве переходов (1-3 хопа) между текстуально релевантной страницей и целевой страницей. Это подчеркивает важность продуманной и эффективной внутренней перелинковки.
Создание Аннотированного Индекса: Яндекс может либо модифицировать основной инвертированный индекс, добавляя поведенческие связи, либо использовать отдельную структуру данных (Второй Индекс) для хранения этой информации.

Практика

Best practices (это мы делаем)

Оптимизация Времени Взаимодействия (Dwell Time): Создавайте качественный, вовлекающий контент, который удерживает пользователя на странице дольше 30 секунд. Используйте мультимедиа, интерактивные элементы, понятную структуру и глубокое раскрытие темы.
Проектирование Пути Пользователя (User Journey): Продумывайте, как пользователь будет двигаться по сайту после попадания на целевую страницу из поиска. Структура сайта должна способствовать дальнейшему изучению темы в 1-3 клика.
Эффективная Внутренняя Перелинковка: Связывайте страницы, которые могут быть полезны пользователю в рамках одной сессии. Ссылки должны быть заметными и релевантными. Это увеличивает вероятность формирования пар (Первый Ресурс, Второй Ресурс) и передачи релевантности.
Создание Контентных Хабов и Кластеров (Hub and Spoke): Развивайте семантические кластеры. Если вспомогательная страница (например, глоссарий, инструкция, галерея) не оптимизирована под основной запрос, она может начать ранжироваться по нему, если пользователи часто переходят на нее с основной страницы (Хаба) и проводят там время.
Анализ Поведенческих Метрик: Используйте Яндекс.Метрику для анализа путей пользователей по сайту и времени взаимодействия со страницами. Идентифицируйте страницы с низким временем вовлечения (<30 сек) и дорабатывайте их.

Worst practices (это делать не надо)

Создание Тупиковых Страниц (Dead Ends): Страницы, с которых пользователю некуда перейти для продолжения изучения темы, прерывают сессию и не позволяют сформировать необходимые поведенческие связи.
Тонкий или Невовлекающий Контент (Thin Content): Страницы, которые пользователи покидают быстрее, чем за 30 секунд, не будут участвовать в формировании Аннотированного Индекса по этому механизму.
Сложная или Глубокая Структура Вложенности: Если для перехода на связанную страницу требуется более 3 кликов, механизм, согласно патенту, не сработает.
Игнорирование Текстовой Релевантности Входной Страницы: Механизм требует наличия Первого Ресурса, который текстуально релевантен запросу. Нельзя полагаться только на поведенческую индексацию; текстовая оптимизация остается важной для привлечения первичного трафика.

Стратегическое значение

Этот патент подтверждает стратегический сдвиг Яндекса от чисто текстового анализа к глубокому пониманию поведения пользователей и их задач (интента). Он показывает, что пользовательский опыт и вовлеченность являются не просто факторами ранжирования, но и факторами, определяющими саму возможность индексации контента по определенным запросам. Долгосрочная SEO-стратегия должна фокусироваться на создании сайтов, которые обеспечивают бесшовный и полезный путь пользователя (User Journey), где каждая страница имеет высокую ценность.

Практические примеры

Сценарий 1: Информационный сайт (Медицина)

Запрос: «симптомы диабета 2 типа».
Первый Ресурс (R1): Статья, оптимизированная под запрос. Пользователь кликает на нее из Яндекса.
Навигация: В статье есть ссылка на страницу «Гликемический индекс продуктов таблица». Пользователь переходит по ней (1 переход).
Второй Ресурс (R2): Страница с таблицей. Она НЕ содержит фразу «симптомы диабета 2 типа».
Взаимодействие: Пользователь изучает таблицу в течение 2 минут (больше 30 секунд).
Результат: Условия выполнены. Страница R2 (Таблица) добавляется в Аннотированный Индекс по запросу «симптомы диабета 2 типа» и может начать ранжироваться по нему.

Сценарий 2: E-commerce (Выбор техники)

Запрос: «лучший недорогой смартфон».
Первый ресурс (R1): Страница рейтинга смартфонов (содержит слова запроса). Пользователь кликает из SERP.
Второй ресурс (R2): В рейтинге есть ссылка на карточку товара «Модель X». Карточка оптимизирована под модель, но не содержит фраз «лучший» или «недорогой». Пользователь переходит на нее (1 переход).
Взаимодействие: Пользователь изучает характеристики, читает отзывы 3 минуты (больше 30 секунд).
Результат: Яндекс аннотирует индекс, связывая карточку товара (R2) с запросом «лучший недорогой смартфон». Карточка товара получает возможность ранжироваться по этому общему запросу.

Вопросы и ответы

Означает ли этот патент, что текстовая оптимизация и ключевые слова больше не важны?

Нет, они по-прежнему критически важны. Механизм требует наличия «Первого Ресурса», который должен быть текстуально релевантен запросу и проиндексирован стандартным способом. Пользователь сначала должен найти и перейти на этот Первый Ресурс. Текстовая оптимизация необходима для запуска всей цепочки анализа поведения.

Какое время взаимодействия считается достаточным для срабатывания этого механизма?

В патенте (Claim 2 и 6) явно указано пороговое значение: «по меньшей мере 30 секунд». Это время, проведенное пользователем во взаимодействии со Вторым Ресурсом. Это дает четкий ориентир для SEO-специалистов по минимально необходимому уровню вовлеченности контента. Если время меньше, связь не будет установлена.

Насколько близко должны находиться Первый и Второй Ресурсы друг к другу на сайте?

Патент определяет это через «число переходов» (хопов) между ресурсами. Допустимые значения — 1, 2 или 3 перехода (Claim 2), но предпочтительными являются 1 или 2 перехода (Claim 6). Это означает, что Второй Ресурс должен быть легко доступен с Первого Ресурса через прямую ссылку или короткую навигационную цепочку.

Работает ли этот механизм, если пользователь вернулся на выдачу после посещения Первого ресурса, а затем перешел на Второй ресурс?

Скорее всего, нет. В патенте анализируется «число переходов МЕЖДУ первым ресурсом и вторым ресурсом». Если пользователь вернулся на SERP, это разрывает прямую навигационную цепочку между R1 и R2. Условия патента (1-3 перехода между R1 и R2) в этом случае не будут выполнены для данной конкретной пары в рамках этого алгоритма.

Что такое «Аннотированный Поисковый Индекс» и как он используется при ранжировании?

Аннотированный Поисковый Индекс — это индекс, обогащенный поведенческими данными. Он позволяет системе на этапе поиска кандидатов (Retrieval) находить документы, которые не содержат слов запроса, но связаны с ним через поведение пользователей. Попадание в этот индекс позволяет Второму Ресурсу быть оцененным основной формулой ранжирования по исходному запросу.

Как я могу использовать этот механизм для улучшения позиций своего сайта?

Ключевая стратегия — оптимизация пути пользователя (User Journey) и вовлеченности. Убедитесь, что с ваших основных страниц (Первые Ресурсы) есть четкие и полезные ссылки на связанные страницы (Вторые Ресурсы). Контент на Вторых Ресурсах должен быть достаточно качественным, чтобы удержать пользователя более 30 секунд. Это позволит связать эти страницы с исходными запросами в индексе Яндекса.

Влияет ли этот патент на важность внутренней перелинковки?

Да, и очень значительно. Внутренняя перелинковка является непосредственным механизмом, обеспечивающим переходы между Первым и Вторым Ресурсами. Без эффективной перелинковки, которая удерживает пользователя в рамках сессии и направляет его на связанные страницы в 1-2 клика, этот механизм индексации не сможет работать в пользу сайта.

Применяется ли этот механизм для всех типов сайтов и контента?

Да, в Claim 3 указано, что Второй Ресурс может быть документом, изображением, аудиофайлом, веб-страницей, твитом и т.д. Это универсальный механизм. Он особенно полезен для сложных тем, где задача пользователя решается путем изучения нескольких взаимосвязанных документов, и для индексации мультимедийного контента.

Может ли этот механизм работать между разными доменами?

Патент не уточняет, должны ли Первый и Второй ресурсы находиться на одном домене. Формулировка «число переходов между… ресурсами в поисковой сессии» технически не исключает переходы между разными сайтами, если Яндекс может отследить сессию. Однако наиболее вероятно и надежно система работает при анализе поведения внутри одного домена.

Как этот механизм связан с нейросетевыми моделями типа YATI?

Они дополняют друг друга. YATI определяет семантическую близость на основе анализа текста и векторных представлений (эмбеддингов). Механизм из этого патента определяет релевантность на основе реального поведения пользователей (co-visitation и Dwell Time), полностью игнорируя текст Второго ресурса. Это два разных, но взаимодополняющих подхода к определению релевантности.