Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс ранжирует документы без ключевых слов, используя историю поисковых сессий (Annotated Search Index)

    A SYSTEM AND METHOD FOR AN ANNOTATION SEARCH INDEX (Система и метод для аннотированного поискового индекса)
    • WO2016198927A1
    • Yandex LLC
    • 2016-12-15
    • 2015-10-13
    2016 Индексация Патенты Яндекс Поведенческие факторы Ранжирование

    Яндекс использует данные о поведении пользователей в исторических поисковых сессиях для выявления релевантных документов, которые не содержат слов из исходного запроса. Если пользователи часто переходят к ресурсу (в пределах 1-3 переходов) и проводят на нем значительное время (более 30 секунд), этот ресурс добавляется в «аннотированный индекс» и может ранжироваться по исходному запросу.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальное ограничение стандартного поиска, основанного на Inverted Index (обратном индексе): неспособность находить высокорелевантные ресурсы, которые не содержат терминов запроса. Это приводит к проблеме неполноты выдачи (Recall). Например, релевантным ответом может быть изображение, схема или документ, использующий совершенно другую лексику (vocabulary mismatch). Система улучшает качество поиска, добавляя ресурсы, чья релевантность определена поведенческими, а не текстовыми сигналами.

    Что запатентовано

    Запатентован метод и система для генерации Annotated Search Index (Аннотированного Поискового Индекса). Суть изобретения заключается в анализе Historical Search Sessions (исторических поисковых сессий) для выявления ресурсов, которые не содержат терминов исходного запроса, но являются поведенчески релевантными. Релевантность устанавливается на основе близости ресурсов внутри сессии (число переходов) и степени удовлетворенности пользователя (время взаимодействия).

    Как это работает

    Система анализирует логи поведения. Если в рамках одной сессии пользователь перешел от результата поиска по Запросу 1 (Ресурс 1) к другому ресурсу (Ресурс 2), который не содержит слов из Запроса 1, система оценивает два параметра: (1) Number of Transitions (количество переходов между ними) и (2) Time Spent Interacting (время взаимодействия с Ресурсом 2). Если путь короткий (указаны пороги 1-3 перехода) и время взаимодействия длительное (указан порог ≥ 30 секунд), система генерирует Association Parameter. При превышении порога Ресурс 2 аннотируется как релевантный Запросу 1 в Annotated Search Index.

    Актуальность для SEO

    Высокая. Анализ поведения пользователей, учет удовлетворенности (Dwell Time) и использование сессионных данных для определения релевантности являются ключевыми направлениями развития современных поисковых систем, включая Яндекс. Механизм ранжирования без прямой текстовой релевантности крайне актуален.

    Важность для SEO

    Влияние на SEO значительно (8/10). Патент описывает конкретный механизм, позволяющий Яндексу ранжировать страницы, основываясь исключительно на поведенческих сигналах, игнорируя отсутствие ключевых слов. Это подчеркивает критическую важность удержания пользователя (Dwell Time) и оптимизации пути пользователя (User Journey). Контент, удовлетворяющий интент, может ранжироваться, даже если он текстуально не оптимизирован под запрос.

    Детальный разбор

    Термины и определения

    Annotated Search Index (Аннотированный Поисковый Индекс)
    Специальный индекс, который связывает ресурсы с запросами на основе поведенческих данных, даже при отсутствии текстовой связи. Может быть реализован как модификация основного индекса или как отдельная структура.
    Association Parameter (Параметр Ассоциации)
    Метрика, рассчитываемая для Ресурса 2, определяющая степень его поведенческой связи с исходным запросом. Основана на числе переходов и времени взаимодействия.
    First Historical Parameter (Первый исторический параметр)
    Число переходов (Number of Transitions) между Ресурсом 1 и Ресурсом 2 в рамках одной исторической сессии.
    First Resource (Ресурс 1)
    Ресурс, найденный в ответ на исходный Запрос 1, который содержит термины из этого запроса и проиндексирован в основном индексе.
    Historical Search Session (Историческая поисковая сессия)
    Записанные данные о последовательности действий пользователя (запросы, клики, переходы) в течение определенного периода времени.
    Inverted Index (Обратный индекс)
    Стандартный поисковый индекс, содержащий списки документов (Posting Lists) для каждого термина.
    Second Historical Parameter (Второй исторический параметр)
    Время, проведенное пользователем во взаимодействии с Ресурсом 2 (Time Spent Interacting или Dwell Time) в исторической сессии.
    Second Resource (Ресурс 2)
    Ресурс (документ, изображение, твит и т.д.), посещенный пользователем позже в той же сессии, который НЕ содержит терминов из исходного Запроса 1 и не проиндексирован по ним.
    4D Data Array (4D Массив данных)
    Один из вариантов реализации Annotated Search Index в виде многомерной структуры данных. Упомянутые измерения: DocID (идентификатор документа), BreakID (идентификатор строки/фразы), RegionID (регион пользователя) и SourceID (источник аннотации).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод генерации аннотированного индекса.

    1. Система извлекает часть исторической поисковой сессии для Запроса 1. Сессия включает Ресурс 1 (содержит термины Запроса 1, проиндексирован) и Ресурс 2 (НЕ содержит термины Запроса 1, не проиндексирован).
    2. Генерируется Association Parameter для Ресурса 2.
    3. Критически важно: Параметр основан на (i) First Historical Parameter (число переходов между Ресурсом 1 и Ресурсом 2) и (ii) Second Historical Parameter (время взаимодействия пользователя с Ресурсом 2).
    4. Если Association Parameter превышает заданный порог, Ресурс 2 ассоциируется с Ресурсом 1 и/или терминами Запроса 1, формируя Annotated Search Index.

    Система ищет паттерны, где пользователи быстро (мало переходов) находят контент и долго его изучают (большое время взаимодействия). Это интерпретируется как сильный сигнал релевантности Ресурса 2 исходному запросу, компенсирующий отсутствие ключевых слов.

    Claim 2 и 3 (Зависимые пункты): Определяют конкретные пороговые значения для активации механизма.

    • Порог считается превышенным, если First Historical Parameter (число переходов) равен 1, 2 или 3, И Second Historical Parameter (время взаимодействия) составляет не менее 30 секунд (Claim 2).
    • В более строгом варианте (Claim 3) число переходов ограничено 1 или 2.

    Claim 5 (Зависимый пункт): Уточняет типы контента.

    Ресурс 2 может быть документом, изображением, аудиофайлом, веб-страницей, твитом, ссылкой, заголовком или фрагментом документа.

    Claims 7-10 (Зависимые пункты): Описывают варианты реализации индекса.

    • Claim 7: Аннотация может быть реализована путем вставки ссылки на Ресурс 2 в Posting List основного Inverted Index для терминов Запроса 1.
    • Claim 8-10: Аннотация может быть реализована в виде отдельного Второго поискового индекса, например, в виде 3D или 4D массива данных, содержащего DocID, BreakID, RegionID и SourceID.

    Где и как применяется

    Изобретение затрагивает этапы обработки данных и индексации, а также влияет на процесс ранжирования.

    INDEXING – Индексирование и извлечение признаков (Offline-процессы)
    Основная работа алгоритма происходит в офлайн-режиме. Система анализирует накопленные логи (Historical Search Sessions) для выявления устойчивых поведенческих паттернов. На основе этого анализа строится Annotated Search Index. Этот индекс может быть интегрирован в основной Inverted Index или существовать как отдельная структура данных (например, 4D Data Array).

    RANKING – Ранжирование (Уровень L1 — Retrieval)
    На этапе поиска кандидатов (Retrieval) система использует Annotated Search Index для извлечения документов, которые были признаны релевантными на основе поведения, но не имеют текстового соответствия запросу. Это позволяет таким документам участвовать в последующих этапах ранжирования.

    • Входные данные: Логи исторических поисковых сессий, текущий основной поисковый индекс (Inverted Index).
    • Выходные данные: Annotated Search Index.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на контент, который сложно индексировать текстуально (согласно Claim 5): изображения, инфографика, схемы, PDF-документы, видео, твиты. Также влияет на контент, где наблюдается vocabulary mismatch (когда запрос и ответ используют разную лексику).
    • Специфические запросы: Информационные запросы, где пользователь ищет конкретный ответ, инструкцию или визуальную информацию, и готов совершить несколько переходов для его нахождения.

    Когда применяется

    Алгоритм применяется в процессе анализа исторических данных и построения индекса. Активация механизма для конкретной пары Ресурс 1 -> Ресурс 2 происходит при выполнении строгих условий, указанных в Claims 2 и 3:

    • Триггер 1 (Близость): Число переходов между Ресурсом 1 и Ресурсом 2 в рамках сессии должно быть малым (1, 2 или 3 перехода).
    • Триггер 2 (Удовлетворенность): Время взаимодействия (Dwell Time) с Ресурсом 2 должно быть значительным (30 секунд или более).

    Если оба триггера срабатывают (предположительно, достаточно часто в исторических данных), формируется устойчивая связь.

    Пошаговый алгоритм

    Процесс построения Аннотированного Поискового Индекса (Offline):

    1. Сбор данных: Накопление и хранение логов Historical Search Sessions (последовательности запросов, кликов, переходов и времени взаимодействия).
    2. Идентификация Паттернов: Анализ сессий для выявления последовательностей вида: Запрос 1 → Клик на Ресурс 1 → → Переход к Ресурсу 2.
    3. Фильтрация Кандидатов: Проверка условий: Ресурс 1 содержит термины Запроса 1; Ресурс 2 НЕ содержит термины Запроса 1.
    4. Вычисление Метрик: Для отфильтрованных пар рассчитываются:
      • First Historical Parameter: Количество переходов между Ресурсом 1 и Ресурсом 2.
      • Second Historical Parameter: Время взаимодействия с Ресурсом 2.
    5. Генерация Параметра Ассоциации: Расчет Association Parameter на основе этих двух метрик.
    6. Применение Порогов: Проверка, превышает ли Association Parameter заданный порог. Конкретно проверяется выполнение условий: (Переходы ≤ 3) И (Время ≥ 30 секунд).
    7. Построение Индекса: Если порог пройден, Ресурс 2 ассоциируется с Запросом 1. Эта связь записывается в Annotated Search Index (например, путем модификации Posting List основного индекса или записи в 4D массив).
    8. Применение (Runtime): При обработке Запроса 1 система извлекает Ресурс 2 из Annotated Search Index как релевантного кандидата для ранжирования.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Являются основой изобретения. Используются данные из логов поисковых сессий:
      • Последовательность запросов и переходов внутри сессии.
      • Number of Transitions (число переходов/кликов между ресурсами).
      • Time Spent Interacting / Dwell Time (время взаимодействия пользователя с ресурсом).
    • Контентные факторы: Тексты запросов и содержимое ресурсов используются для верификации того, что Ресурс 1 содержит термины запроса, а Ресурс 2 — нет.
    • Ссылочные факторы: В описании упоминается, что источниками аннотации (SourceID) могут служить текст ссылки (анкор), околоссылочный текст, URL.
    • Географические факторы: В описании реализации 4D массива (Claim 10) упоминается RegionID (регионы пользователей), что указывает на возможность учета региональности при построении аннотаций.

    Какие метрики используются и как они считаются

    • Association Parameter: Комбинированная метрика, основанная на двух исторических параметрах. Конкретная формула расчета не приводится, но указаны условия, при которых параметр превышает порог.
    • Пороговые значения (Thresholds): В патенте (Claims 2 и 3) четко определены используемые пороги:
      • Порог близости: 1, 2 или 3 перехода (в более строгом варианте 1 или 2).
      • Порог удовлетворенности: не менее 30 секунд взаимодействия.
    • Структуры данных для хранения: Описывается использование Inverted Index (модификация Posting Lists) или многомерных массивов данных (3D/4D Data Array) для хранения аннотаций. 4D массив включает измерения: DocID, BreakID (леммы/фразы), RegionID, SourceID (источник аннотации – например, URL, заголовок, твит).

    Выводы

    1. Ранжирование без текстовой релевантности: Яндекс обладает механизмом для идентификации и ранжирования ресурсов, которые не содержат ни одного слова из поискового запроса. Это позволяет преодолеть ограничения классического поиска по ключевым словам.
    2. Поведенческая релевантность как основа: Релевантность в данном механизме определяется исключительно на основе анализа исторических паттернов поведения пользователей (co-visitation и engagement в рамках сессии).
    3. Критические метрики и пороги: Патент четко определяет две ключевые метрики и их пороговые значения для активации механизма: (1) Близость в сессии (1-3 перехода) и (2) Удовлетворенность пользователя (Dwell Time ≥ 30 секунд).
    4. Важность User Journey: Система учитывает не только немедленный клик по выдаче, но и последующие действия пользователя. Короткий путь к полезному контенту критически важен для формирования ассоциаций.
    5. Индексация нетекстового контента: Механизм объясняет, как нетекстовый контент (изображения, схемы, видео, твиты) или контент с альтернативной лексикой может попадать в индекс и ранжироваться по запросам, с которыми он текстуально не связан.

    Практика

    Best practices (это мы делаем)

    • Максимизация Dwell Time: Создавайте контент, который вовлекает пользователя и удерживает его внимание. Порог в 30 секунд, указанный в патенте, является критически важным ориентиром. Если ваш контент удовлетворяет интент, он может начать ранжироваться по смежным запросам через механизм Annotated Search Index.
    • Оптимизация внутренней перелинковки и навигации: Упрощайте путь пользователя к полезному контенту. Убедитесь, что ключевые страницы сайта находятся в пределах 1-3 кликов от основных точек входа (страниц, получающих трафик из поиска). Это увеличивает вероятность того, что они будут аннотированы как релевантные запросам, по которым приходят на точки входа.
    • Создание полезного вспомогательного контента (особенно нетекстового): Разрабатывайте полезные материалы (таблицы, схемы, инфографику, калькуляторы, видео), которые могут не содержать основных ключевых слов, но решают задачу пользователя. Размещайте ссылки на них на релевантных страницах. Этот патент предоставляет механизм для их ранжирования.
    • Анализ пути пользователя (User Journey): Используйте системы аналитики для отслеживания того, куда пользователи переходят после попадания на сайт из поиска и сколько времени они там проводят. Это поможет выявить страницы, которые могут получать трафик через этот механизм.

    Worst practices (это делать не надо)

    • Кликбейт и контент с низким Dwell Time: Страницы, которые пользователи покидают быстрее, чем за 30 секунд, не смогут воспользоваться преимуществами этого алгоритма, так как не проходят порог удовлетворенности.
    • Сложная или запутанная навигация: Если пользователю требуется более 3 переходов (кликов), чтобы добраться до полезного контента от точки входа, этот контент не будет ассоциирован с исходным запросом, так как не проходит порог близости.
    • Игнорирование нетекстового контента: Полагаться исключительно на текстовую оптимизацию и игнорировать создание ценного визуального или интерактивного контента — это упущенная возможность использовать данный механизм.

    Стратегическое значение

    Этот патент подтверждает стратегический фокус Яндекса на поведенческих факторах как на надежном источнике данных о релевантности. Он демонстрирует, что поведенческая релевантность может существовать независимо от текстовой. Для SEO это означает, что оптимизация под интент и обеспечение высокого качества пользовательского опыта (User Experience и Dwell Time) являются необходимым условием для достижения максимальной полноты ранжирования, особенно в сложных тематиках и для нетекстового контента.

    Практические примеры

    Сценарий 1: Ранжирование инфографики

    1. Запрос 1: «стадии строительства каркасного дома».
    2. Ресурс 1 (Точка входа): Текстовая статья, оптимизированная под запрос.
    3. Действие пользователя: Пользователь читает статью и кликает по внутренней ссылке «Схема узлов каркасного дома» (1 переход).
    4. Ресурс 2: Страница с подробной инфографикой (изображением) узлов. Эта страница не содержит текста «стадии строительства».
    5. Поведение: Пользователи часто изучают эту схему в течение 90 секунд (>= 30s).
    6. Результат: Яндекс фиксирует паттерн: Переходов=1, Время=90s. Ресурс 2 добавляется в Annotated Search Index и начинает ранжироваться по запросу «стадии строительства каркасного дома», несмотря на отсутствие текстовой релевантности.

    Сценарий 2: Vocabulary Mismatch (Различие в терминологии)

    1. Запрос 1: «как называется штука для выдавливания чеснока».
    2. Ресурс 1: Форум или статья, где обсуждается запрос.
    3. Действие пользователя: Пользователь видит ответ со ссылкой на товар и переходит по ней (1 переход).
    4. Ресурс 2: Карточка товара в интернет-магазине с названием «Пресс для чеснока». Она не содержит фраз из Запроса 1.
    5. Поведение: Пользователи изучают карточку товара 45 секунд (>= 30s).
    6. Результат: Яндекс аннотирует Ресурс 2 («Пресс для чеснока») как релевантный Запросу 1 («штука для выдавливания чеснока») на основе поведенческой связи.

    Вопросы и ответы

    В чем ключевая идея патента «Annotated Search Index»?

    Ключевая идея заключается в том, чтобы находить и ранжировать документы, которые релевантны запросу пользователя, но не содержат слов из этого запроса. Система определяет эту «скрытую» релевантность путем анализа исторических поисковых сессий. Если пользователи часто переходят к определенному документу в рамках сессии и проводят на нем много времени, этот документ считается поведенчески релевантным исходному запросу.

    Какие конкретные пороги использует Яндекс для определения поведенческой релевантности в этом патенте?

    Патент определяет два критических порога. Первый — это близость (Number of Transitions): между исходным результатом и целевым ресурсом должно быть не более 1, 2 или 3 переходов. Второй — это удовлетворенность (Dwell Time): пользователь должен провести на целевом ресурсе не менее 30 секунд. Оба условия должны быть выполнены одновременно.

    Что означает порог Dwell Time в 30 секунд для SEO-специалиста?

    Это означает, что 30 секунд — это минимальное время, необходимое для того, чтобы система посчитала взаимодействие пользователя с контентом достаточно качественным для активации этого механизма. Это подчеркивает необходимость борьбы с кликбейтом и создания контента, который реально вовлекает пользователя. Страницы с Dwell Time менее 30 секунд не получат преимуществ от этого алгоритма.

    Как этот патент влияет на стратегию внутренней перелинковки?

    Он значительно повышает важность продуманной и эффективной перелинковки. Поскольку система учитывает ресурсы, находящиеся в 1-3 кликах от точки входа (страницы, на которую пользователь попал из поиска), необходимо обеспечить легкий доступ к самому полезному контенту сайта. Если полезный контент спрятан глубоко в структуре (более 3 кликов), он не сможет быть ассоциирован с исходными запросами через этот механизм.

    Может ли страница начать ранжироваться по запросу, если она вообще не оптимизирована под него?

    Да, именно это и описывает патент. Если страница (Ресурс 2) не содержит ни одного слова из запроса, но пользователи систематически находят ее через другие результаты (Ресурс 1) в течение 1-3 шагов и проводят на ней достаточно времени (≥30 сек), она будет добавлена в Annotated Search Index и сможет ранжироваться по этому запросу на основе поведенческой релевантности.

    Для каких типов контента этот механизм наиболее важен?

    Он критически важен для нетекстового контента: инфографики, изображений, схем, видео, твитов (как указано в Claim 5), которые часто не содержат релевантного текста. Также он важен в случаях «vocabulary mismatch», когда пользователи ищут информацию, используя одни термины, а ответ на сайте сформулирован с использованием других (например, разговорная лексика против профессиональных терминов).

    Как хранится Annotated Search Index? Это часть основного индекса?

    Патент описывает два варианта. Первый (Claim 7) — это модификация основного Inverted Index, когда документ искусственно добавляется в Posting Lists для терминов запроса. Второй (Claims 8-10) — это создание отдельного индекса, реализованного как сложная многомерная структура данных (упоминается 3D или 4D массив), включающая DocID, RegionID и другие параметры.

    Учитывает ли система региональность при построении этого индекса?

    Да, в описании структуры 4D Data Array (Claim 10) упоминается измерение RegionID (регион пользователя). Это предполагает, что поведенческие паттерны и, соответственно, генерируемые аннотации могут быть регионально зависимыми. Поведенческая релевантность в одном регионе не обязательно означает релевантность в другом.

    Является ли этот механизм real-time или он работает с задержкой?

    Механизм основан на анализе Historical Search Sessions, то есть накопленных исторических данных. Построение Annotated Search Index происходит в офлайн-режиме (batch processing) во время переиндексации или обновления баз данных. Это не real-time процесс, требуется время для накопления достаточного количества данных о поведении и их обработки.

    Как можно отследить, получает ли мой сайт трафик благодаря этому механизму?

    Прямого способа нет. Косвенным признаком может быть появление в панели вебмастера или системах аналитики трафика по запросам, которые полностью отсутствуют в тексте ранжируемой страницы. Также стоит анализировать страницы с высоким Dwell Time и смотреть, по каким запросам приходят пользователи на страницы, которые ссылаются на них (точки входа).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.