Как Яндекс анализирует и сегментирует историю браузера для определения текущего намерения пользователя и персонализации выдачи

Яндекс патентует метод анализа полной истории посещений пользователя (Browsing Log). Система использует машинное обучение (GBDT) для разделения этой истории на «логические сессии», каждая из которых соответствует конкретной задаче или цели пользователя. Для этого анализируется схожесть URL, текстов страниц и временные интервалы между посещениями. Эта информация о текущем намерении используется для адаптации и персонализации результатов поиска.

Описание

Какую задачу решает

Патент решает задачу определения текущего поискового намерения (интента или Search Goal) пользователя путем анализа его истории просмотров (Browsing Log). История часто представляет собой непрерывный поток посещений разных страниц, относящихся к разным, перемешанным задачам. Изобретение позволяет автоматически разделить этот поток на тематически связные сегменты или «логические сессии» (Logical Browsing Sessions). Это улучшает понимание того, как меняется информационная потребность пользователя, и позволяет точнее определить его текущий контекст для улучшения релевантности поиска и персонализации.

Что запатентовано

Запатентована система и метод сегментации истории посещений пользователя на основе его поисковых целей. Суть изобретения заключается в использовании машинного обучения (в частности, Pairwise Classification) для определения вероятности того, что две любые страницы в истории относятся к одной и той же цели. На основе этих вероятностей, вычисленных по признакам URL, текста и времени, весь лог браузера разделяется на отдельные логические сессии. Эта сегментированная история затем используется при выполнении последующих интернет-поисков.

Как это работает

Система получает Browsing Log пользователя (URL, запросы, временные метки). Для пар страниц извлекаются признаки (Web Page Features): схожесть URL (Web address features), схожесть текстов страниц (Textual features) и временная близость (Temporal features). Затем используется обученный классификатор (например, Gradient Boosted Decision Trees — GBDT), который оценивает вероятность того, что две страницы относятся к одной цели. На финальном этапе алгоритм сегментации (например, Greedy appending) использует эти вероятности, чтобы разделить весь лог на Logical Browsing Sessions. Информация об этих сессиях используется поисковой системой при обработке новых запросов пользователя.

Актуальность для SEO

Высокая. Понимание контекста сессии, определение интента пользователя и персонализация выдачи являются ключевыми направлениями развития современных поисковых систем. Анализ пути пользователя (User Journey) и идентификация текущей задачи (Task Identification) на основе истории браузера крайне актуальны. Хотя конкретные методы из патента (подача 2014 г.) могут быть дополнены новыми технологиями (например, трансформерами), описанная архитектура остается фундаментальной.

Важность для SEO

Влияние на SEO значительно (8/10). Патент раскрывает ключевой механизм персонализации и понимания контекста. Система определяет текущую задачу пользователя на основе его недавней активности (включая посещения вне поиска) и использует это для адаптации выдачи. Это подчеркивает стратегическую важность оптимизации под весь путь пользователя (User Journey) и удовлетворения интента на уровне сессии, а не только отдельного запроса.

Детальный разбор

Термины и определения

Browsing Log (Лог браузера, история посещений, $D_{u}$): Запись активности пользователя в веб-браузере. Включает URL просмотренных страниц ($d_i$), поисковые запросы, переходы по ссылкам и временные метки действий.
GBDT (Gradient Boosted Decision Trees): Градиентный бустинг над решающими деревьями. Алгоритм машинного обучения, используемый в патенте для обучения классификатора с логистической функцией потерь (logistic loss function).
LCS (Longest Common Substring): Наибольшая общая подстрока. Используется как метрика для определения схожести двух URL.
Logical Browsing Session (Логическая сессия браузера, $D_{u}^{g}$): Подмножество Browsing Log, состоящее из страниц, посещенных с одной и той же поисковой целью (g). Также упоминается как browsing trail.
Pairwise Classification (Парная классификация): Метод машинного обучения, используемый для генерации классификатора. Классификатор обучается определять, принадлежат ли два элемента (две страницы из лога) к одному классу (к одной логической сессии).
Search Goal / Intent (Поисковая цель / Намерение, g): Информационная потребность пользователя, ради которой он осуществляет поиск или просмотр страниц.
Web Page Features (Признаки веб-страниц): Характеристики, извлекаемые из Browsing Log для оценки схожести между двумя страницами. Делятся на три типа:

Ключевые утверждения (Анализ Claims)

Патент защищает метод сегментации истории браузера для определения целей пользователя и использования этой информации в поиске.

Claim 1 (Независимый пункт): Описывает основной процесс системы.

Получение Browsing Log пользователя.
Извлечение признаков (Web Page Features), включая как минимум Web address features.
Генерация классификаторов, связанных с разными поисковыми целями. Ключевой этап: выполнение Pairwise Classification как минимум признаков веб-адресов.
Сегментация Browsing Log на отдельные Logical Browsing Sessions. Ключевой этап: анализ пар просмотренных страниц и определение вероятности ($p(d_i, d_j)$) того, относятся ли они к одной и той же поисковой цели.
Выполнение интернет-поиска на основе (i) поискового запроса пользователя И (ii) информации об одной из логических сессий.

Ядро изобретения — это автоматическое определение контекста пользователя через сегментацию его истории и использование этого контекста при ранжировании.

Claim 3 (Зависимый пункт): Детализирует процесс обучения классификатора.

Обучающий набор создается путем присвоения метки 1 парам страниц, относящимся к одной цели, и метки 0 — к разным. В патенте отмечается, что метки зависят от контекста (соседних страниц).

Claim 5 (Зависимый пункт): Уточняет алгоритм машинного обучения.

Для обучения используется Gradient Boosted Decision Tree (GBDT) с логистической функцией потерь.

Claims 6, 7, 8 (Зависимые пункты): Определяют конкретные метрики для признаков URL (Claim 6), текстовых признаков (Claim 7) и временных признаков (Claim 8), такие как LCS, косинусное расстояние, триграммы, векторы терминов и временные интервалы.

Где и как применяется

Изобретение применяется на стыке анализа поведения пользователя и выполнения поискового запроса.

Офлайн-процессы и обработка данных
Значительная часть работы происходит офлайн:

Сбор и разметка исторических Browsing Logs для создания обучающей выборки.
Обучение классификатора (GBDT) для предсказания вероятности принадлежности пары страниц к одной сессии.

QUERY PROCESSING – Понимание Запросов
Система анализирует недавнюю активность пользователя для определения его текущего контекста (Search Goal). Это может происходить в реальном времени с использованием онлайн-алгоритмов сегментации (например, Greedy appending). Когда пользователь вводит новый запрос, система уже имеет представление о его текущей Logical Browsing Session. Патент упоминает использование этой информации для реформулировки запросов (search query reformulations).

RANKING – Ранжирование (Уровень L4 — Personalization)
Основное применение. Информация о логической сессии используется как входной сигнал для поискового движка (Claim 1). Это позволяет персонализировать результаты поиска, адаптируя их под текущую задачу пользователя.

На что влияет

Персонализация выдачи: Основной эффект. Результаты адаптируются под текущую цель пользователя, определенную по его недавней активности в браузере.
Специфические запросы: Наибольшее влияние на неоднозначные или широкие запросы. Контекст логической сессии помогает сузить и уточнить интент.
Моделирование поведения: Помогает системе понять, как пользователи решают задачи (User Journey) и как меняются их информационные потребности.
Таргетированная реклама: В патенте также упоминается использование этой информации для улучшения точности таргетированной рекламы.

Когда применяется

Алгоритм применяется непрерывно по мере того, как пользователь просматривает веб-страницы.

Триггеры активации: Посещение новой страницы или ввод нового поискового запроса.
Временные рамки: Патент описывает онлайн-алгоритмы (например, Greedy appending, Last page maximal likelihood), которые работают в реальном времени для немедленной адаптации поиска. Также описаны офлайн-алгоритмы (например, Greedy merging) для анализа полных логов (например, дневных).

Пошаговый алгоритм

Процесс А: Обучение классификатора (Офлайн)

Сбор и разметка данных: Получение Browsing Logs. Для пар страниц $(d_1, d_2)$ присваивается метка: 1, если они принадлежат одной сессии, и 0 в противном случае. Метки могут зависеть от контекста (соседних страниц).
Извлечение признаков: Для размеченных пар извлекаются Web address features, Textual features и Temporal features.
Обучение: Классификатор (GBDT с логистической функцией потерь) обучается на этих признаках предсказывать вероятность $p(d_1, d_2)$ получения метки 1.

Процесс Б: Сегментация лога (Онлайн или Офлайн)

Получение лога: Система получает Browsing Log пользователя $D_u$.
Вычисление вероятностей: Использование обученного классификатора для расчета вероятностей $p(d_i, d_j)$ для пар страниц (где $d_i$ предшествует $d_j$).
Сегментация: Разделение лога на Logical Browsing Sessions. Цель — максимизировать совместную вероятность (P) или, эквивалентно, сумму логарифмов шансов ($\Phi$):

$$P=\Pi^{\prime}p(d_{i},d_{j})\Pi^{\prime\prime}(1-p(d_{i},d_{j}))$$ (3a)

$${ \Phi = \sum’ \log \frac{p(d_i, d_j)}{1-p(d_i, d_j)} }$$ (3b)

(Где $\Pi^{\prime}$ и $\sum^{\prime}$ проходят по парам страниц с одним интентом, а $\Pi^{\prime\prime}$ — с разными интентами).

Применение эвристик: Поскольку точное решение NP-сложно, используются эвристики. Например, в онлайн-режиме (Greedy appending): при поступлении новой страницы $d_n$ система решает, добавить ли ее к существующей сессии (если это максимизирует $\Phi(g)$ и $\Phi(g)>0$) или начать новую.

Процесс В: Применение в поиске (Онлайн)

Получение запроса: Пользователь вводит новый запрос.
Использование контекста: Система использует информацию о текущей Logical Browsing Session (из Процесса Б).
Выполнение поиска: Поиск выполняется с учетом запроса и контекста сессии для персонализации ранжирования или реформулировки запроса.

Какие данные и как использует

Данные на входе

Система использует данные из Browsing Log пользователя.

Технические/Структурные факторы (Web address features): URL просмотренных страниц. Включают Хосты (Hosts), Пути.
Контентные факторы (Textual features): Тексты и заголовки (Titles) просмотренных страниц, тексты запросов.
Временные факторы (Temporal features): Временные метки (timestamps) посещения страниц.
Пользовательские факторы (Поведенческие): Последовательность посещенных страниц и отправленных запросов. Количество страниц, посещенных между двумя анализируемыми страницами.

Какие метрики используются и как они считаются

Ключевые метрики связаны с расчетом схожести между парами страниц.

Web address features (Схожесть URL):

Косинусное расстояние (Cosine distance) между векторами, составленными из триграмм (trigrams) URL.
Длина наибольшей общей подстроки (LCS) и ее отношение к длинам URL.
Совпадение хостов (Match of hosts).

Textual features (Схожесть текстов):

Косинусное расстояние между векторами терминов (term vectors) заголовков.
Отношение tf.idf общих слов к длине каждой страницы.
То же самое для Топ-слов (например, Топ-10) с наивысшим скором tf.idf.

Temporal features (Временная близость):

Разница во времени между моментами открытия страниц.

Методы вычислений и алгоритмы:

Машинное обучение: Используется Pairwise Classification. Реализация через Gradient Boosted Decision Trees (GBDT) с логистической функцией потерь для расчета вероятности $p(d_1, d_2)$.
Оптимизация (Сегментация): Задача решается как максимизация суммы логарифмов шансов (log-odds). Используются эвристические алгоритмы (например, Greedy appending, Greedy merging) для приближенного решения.

Выводы

Контекст пользователя критически важен: Яндекс активно использует историю посещений (а не только историю запросов) для определения текущего контекста и поискового намерения пользователя. Система стремится понять не отдельный запрос, а всю поисковую задачу (Search Goal).
Автоматическое определение смены интента: Система не полагается на простые таймауты для разделения сессий. Используется обученная модель машинного обучения (GBDT), которая анализирует схожесть контента, структуру URL и временные интервалы, чтобы определить момент смены задачи.
Мультимодальный анализ схожести: Для определения связи между страницами Яндекс анализирует комбинацию сигналов: текстовые, структурные (URL) и временные. Это подчеркивает комплексный подход к пониманию навигации.
Персонализация на основе целей: Сегментированные Logical Browsing Sessions напрямую используются при выполнении поиска (Claim 1). Это позволяет персонализировать выдачу, основываясь на немедленном контексте действий пользователя.
Оценка качества на уровне сессии: Изобретение подтверждает, что успешность поиска оценивается не по релевантности ответа на один запрос, а по способности системы помочь пользователю достичь цели в рамках всей сессии.

Практика

Best practices (это мы делаем)

Фокус на Topical Authority и полном удовлетворении интента: Создавайте контент и структуру сайта так, чтобы пользователь мог решить всю свою задачу в рамках вашего ресурса. Это формирует сильную Logical Browsing Session, связанную с вашим сайтом, и увеличивает вероятность того, что пользователь достигнет цели.
Логичная структура URL и ЧПУ: Поскольку Web address features (LCS, совпадение хостов, триграммы URL) напрямую используются для определения принадлежности к одной сессии, наличие четкой, иерархической структуры URL (например, /category/product/) помогает системе связать посещения разных страниц вашего сайта с одной целью пользователя.
Тематическая согласованность и оптимизация Заголовков (Titles): Страницы в рамках одного раздела должны иметь высокую текстовую схожесть. Поскольку заголовки используются в Textual features (косинусная близость), они должны быть четкими и семантически связанными. Это укрепляет сигнал для системы, что пользователь продолжает решать ту же задачу.
Оптимизация пути пользователя (User Journey) и навигации: Обеспечьте легкий доступ к следующему логическому шагу в решении задачи пользователя. Продуманная внутренняя перелинковка минимизирует временные задержки и количество промежуточных шагов (Temporal features).

Worst practices (это делать не надо)

Хаотичная структура сайта и неинформативные URL: Размещение связанного контента в нелогичных директориях или использование URL вида /page?id=123 затрудняет анализ с помощью метрик LCS и триграмм. Это может привести к тому, что система классифицирует посещения как разные поисковые цели.
Резкое изменение тематики контента или смешивание интентов: Если страница содержит блоки, нерелевантные основной теме, или агрессивно перелинкована на несвязанные разделы, это может снизить текстовую схожесть и запутать классификатор, приводя к разрыву сессии.
Медленная загрузка страниц: Хотя скорость напрямую не указана как признак, большие временные задержки (Temporal features) между действиями пользователя могут быть интерпретированы как потенциальное переключение контекста или завершение сессии.
Создание тупиковых страниц (Thin Content): Контент, который не удовлетворяет интент и заставляет пользователя немедленно покинуть сайт, прерывает логическую сессию и сигнализирует о неудаче в достижении цели.

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на глубоком понимании поведения и намерений пользователя за пределами одного поискового запроса. Поисковые системы стремятся понимать контекст и помогать достигать целей. Для SEO это означает, что долгосрочный успех зависит от способности сайта стать предпочтительным ресурсом для решения целых классов задач. Стратегия должна быть направлена на построение авторитетных ресурсов, которые помогают пользователю последовательно решать его задачи, формируя четкие и успешные Logical Browsing Sessions.

Практические примеры

Сценарий 1: Оптимизация структуры интернет-магазина

Задача пользователя (Search Goal): Выбрать и купить смартфон.
Путь пользователя (Browsing Log): Запрос «смартфоны 2025» -> Переход на shop.ru/catalog/phones -> Просмотр shop.ru/products/phone-123 -> Просмотр обзора shop.ru/reviews/phone-123-review.
Анализ системы:
- Web address features: Совпадение хоста (shop.ru). Высокая LCS для каталога и товаров.
- Textual features: Высокая схожесть терминов (смартфон, характеристики, обзор) и заголовков.
- Temporal features: Небольшие временные интервалы.
Результат: Система уверенно классифицирует все посещения как одну Logical Browsing Session.
Действие SEO: Обеспечить логичную структуру URL (как в примере). Обеспечить тесную перелинковку между каталогом, товарами и обзорами для поддержания высокой текстовой и структурной схожести в рамках сессии.

Сценарий 2: Персонализация выдачи по широкому запросу

Действия пользователя: Пользователь читает статьи о программировании на Python на сайте A, затем на сайте B. Система определяет Logical Browsing Session с целью «Изучение Python».
Новый запрос: Пользователь вводит широкий запрос «Panda».
Результат: Яндекс использует информацию о текущей сессии («Изучение Python») для персонализации выдачи. Результаты о библиотеке данных Pandas будут ранжироваться значительно выше, чем результаты о животном или автомобиле Fiat Panda.

Вопросы и ответы

Что такое «Logical Browsing Session» и чем она отличается от обычной сессии в аналитике?

Logical Browsing Session (Логическая сессия) — это последовательность действий пользователя (посещения страниц, запросы), объединенных одной конкретной целью или намерением. В отличие от стандартной сессии в аналитике, которая обычно завершается по тайм-ауту (например, 30 минут бездействия), логическая сессия завершается, когда пользователь меняет задачу. Яндекс определяет этот момент смены задачи с помощью машинного обучения (GBDT), анализируя схожесть контента, URL и временные интервалы между действиями.

Какие три основных типа признаков использует Яндекс для сегментации истории браузера?

Система использует три группы признаков. Во-первых, Web address features — анализируется схожесть URL (совпадение хоста, пути, общие подстроки LCS, триграммы). Во-вторых, Textual features — анализируется схожесть контента и заголовков страниц (используя векторы терминов, косинусное расстояние и tf.idf). В-третьих, Temporal features — учитывается временная разница между посещениями и количество действий между ними.

Как именно информация о логических сессиях влияет на ранжирование?

Патент прямо указывает (Claim 1), что результаты поиска основываются на запросе пользователя И информации о логических сессиях. Это ключевой механизм персонализации и контекстного поиска. Если система определила текущую цель пользователя по его недавней активности, она может скорректировать ранжирование, отдавая предпочтение результатам, соответствующим этому контексту, или даже реформулировать запрос для лучшего соответствия цели.

Означает ли это, что структура URL стала более важной?

Да, патент подтверждает важность логичной структуры URL. Метрики схожести URL, такие как длина наибольшей общей подстроки (LCS) и триграммы, напрямую используются как признаки (Web address features) для связывания страниц в одну сессию. Иерархическая и человеко-понятная структура URL (ЧПУ) помогает системе лучше определять тематическую близость страниц и корректно классифицировать активность пользователя на сайте.

Что такое GBDT и Pairwise Classification в этом патенте?

Pairwise Classification — это подход, при котором система учится определять отношения между парами объектов. В данном случае, система учится отвечать на вопрос: «Принадлежат ли эти две страницы к одной поисковой цели?». GBDT (Gradient Boosted Decision Trees) — это конкретный алгоритм машинного обучения (градиентный бустинг), который используется для обучения этого классификатора на основе извлеченных признаков (URL, текст, время).

Чем отличается онлайн и офлайн сегментация, описанные в патенте?

Онлайн-сегментация (например, Greedy appending) происходит в реальном времени по мере поступления данных о действиях пользователя. Она использует более быстрые эвристики для немедленной адаптации поиска. Офлайн-сегментация (например, Greedy merging) обрабатывает полные логи (например, за день) и может использовать более сложные и точные, но медленные алгоритмы, обеспечивая лучшее качество для аналитики и обучения моделей.

Как этот патент связан с поведенческими факторами (ПФ)?

Этот патент напрямую связан с анализом ПФ, но на уровне сессии. Вместо анализа отдельных кликов, система анализирует весь путь пользователя (User Journey) для достижения цели. Успешная логическая сессия (когда цель достигнута) является сильным позитивным поведенческим сигналом, подтверждающим качество сайтов, участвовавших в ней.

Может ли система объединить посещения разных сайтов в одну сессию?

Да. Если пользователь переходит с одного сайта на другой, но продолжает искать информацию по той же теме (например, сравнивает цены в разных магазинах), система обнаружит высокую текстовую схожесть и небольшие временные интервалы. Несмотря на различие хостов, эти посещения будут классифицированы как одна логическая сессия, посвященная одной цели.

Используются ли в этом алгоритме современные нейросети (BERT/YATI)?

В тексте патента (подача 2014 г.) современные нейросетевые подходы не упоминаются. Для анализа текста используются классические методы: векторы термов (на основе TF-IDF) и косинусное расстояние. Для анализа URL используются векторы триграмм. Хотя принципы патента актуальны, на практике Яндекс, вероятно, использует более современные методы (например, YATI) для извлечения текстовых и поведенческих признаков.

Как SEO-специалисту адаптировать контент-стратегию под этот механизм?

Необходимо сместить фокус с оптимизации под отдельные запросы на оптимизацию под целые задачи (интенты). Создавайте контент, который полностью покрывает тему и предоставляет пользователю исчерпывающую информацию, чтобы он мог решить свою задачу в рамках одной сессии, желательно не покидая ваш сайт. Обеспечьте логичную навигацию между связанными материалами.