Как Яндекс обучает модели ранжирования, анализируя, на каком элементе пользователи прекращают просмотр выдачи

Яндекс патентует метод обучения ранжирования (Learning to Rank) через анализ поведения пользователей в выдаче или ленте. Система определяет «Последний просмотренный элемент», с которым пользователь взаимодействовал перед уходом. Выбранные элементы получают положительную оценку. Элементы, показанные ниже последнего просмотренного, получают отрицательную оценку. Ключевая особенность: чем ближе проигнорированный элемент к последнему просмотренному, тем выше его штраф, так как предполагается, что именно он стал причиной прекращения сессии.

Описание

Какую задачу решает

Патент решает задачу повышения качества обучения моделей ранжирования (Learning to Rank, LTR) за счет более точной интерпретации неявных сигналов обратной связи от пользователей (implicit feedback), особенно отрицательных. Основная проблема традиционных LTR-подходов заключается в том, что все пропущенные (проигнорированные) элементы часто получают одинаковый отрицательный сигнал. Данное изобретение предлагает метод дифференциации этих сигналов, позволяя определить, какие именно элементы с большей вероятностью стали причиной прекращения просмотра пользователем ранжированного списка или ленты.

Что запатентовано

Запатентован способ обучения системы ранжирования, основанный на анализе пользовательских взаимодействий с ранжированным списком контента. Суть изобретения заключается в определении «Последнего просмотренного элемента» (Last Viewed Item) перед тем, как пользователь покинул интерфейс, и в специфическом методе расчета «Оценки проигрыша» (Loss Score) для элементов, расположенных ниже него. Новизна заключается в том, что оценка проигрыша тем выше, чем ближе проигнорированный элемент находится к последнему просмотренному.

Как это работает

Система работает в две фазы: обучение и использование. Во время фазы обучения анализируются логи взаимодействий.

Идентифицируется «Последний просмотренный элемент» — последний элемент, с которым пользователь взаимодействовал перед уходом (например, закрытием вкладки).
Элементы, которые пользователь выбрал (кликнул), получают «Оценку выигрыша» (Win Score).
Элементы, которые были показаны ниже последнего просмотренного, получают «Оценку проигрыша» (Loss Score).
Ключевой механизм: Оценка проигрыша рассчитывается на основе расстояния до последнего просмотренного элемента. Элемент, находившийся сразу под ним, получает максимальный штраф (высокую оценку проигрыша), так как предполагается, что он не заинтересовал пользователя и спровоцировал уход. Чем дальше элемент находится, тем меньше его штраф.
Система ранжирования (ML-модель) обучается на этих данных для прогнозирования релевантности.

Актуальность для SEO

Высокая. Методы Learning to Rank на основе неявных поведенческих сигналов являются стандартом в современных поисковых и рекомендательных системах. Описанный механизм представляет собой важное усовершенствование интерпретации этих сигналов, направленное на более точное моделирование причин неудовлетворенности пользователя.

Важность для SEO

Влияние на SEO значительно (8/10). Хотя патент, судя по описанию («вертикально расположенный набор мозаичных элементов», Claim 4), может быть в первую очередь нацелен на рекомендательные системы (например, Дзен) или ленты (Новости, Видео), описанные принципы LTR универсальны. Патент демонстрирует, как именно Яндекс квантифицирует негативный пользовательский опыт (прекращение сессии) и использует его для обучения моделей. Это подчеркивает критическую важность не только привлечения клика (CTR), но и удержания внимания пользователя на выдаче, что напрямую зависит от качества и привлекательности сниппетов или превью.

Детальный разбор

Термины и определения

Loss Score (Оценка проигрыша): Отрицательная оценка, присваиваемая элементу содержимого. В контексте патента присваивается элементам, имеющим более низкий ранг (показанным ниже), чем Последний просмотренный элемент. Используется как негативный сигнал при обучении.
Last Viewed Item (Последний просмотренный элемент содержимого): Элемент в ранжированном списке, который был последним элементом, с которым взаимодействовал пользователь до того, как соответствующий интерфейс был покинут (например, закрыт или обновлен).
Ranking System (Система ранжирования): Алгоритм (обычно основанный на машинном обучении), который обучается прогнозировать оценку релевантности для элементов содержимого и определять их порядок в выдаче.
Win Score (Оценка выигрыша): Положительная оценка, присваиваемая элементу содержимого из ранжированного списка, который выбрал (кликнул) пользователь. Используется как позитивный сигнал при обучении.
Фаза обучения (Training Phase): Этап, на котором система ранжирования обрабатывает исторические данные о взаимодействиях пользователей (логи) для расчета Оценок выигрыша и проигрыша и настройки весов ML-модели.
Фаза использования (In-use Phase): Этап работы обученной системы ранжирования в реальном времени для обработки новых наборов контента и определения их порядка.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения системы ранжирования с использованием специфической интерпретации поведенческих данных.

Claim 1 (Независимый пункт): Описывает общий способ определения положений элементов, состоящий из фазы обучения и фазы использования.

Фаза обучения:

Получение множества наборов данных о предыдущих пользовательских взаимодействиях с ранжированным списком.
Для каждого набора данных:
1. Определение Последнего просмотренного элемента (с которым пользователь взаимодействовал последним перед уходом).
2. Определение Оценки выигрыша для элементов, которые пользователь выбрал.
3. Определение Оценки проигрыша для элементов с более низким рангом (расположенных ниже), чем Последний просмотренный элемент.
Обучение системы ранжирования прогнозированию релевантности на основании этих оценок выигрыша и проигрыша.

Фаза использования:

Прием набора элементов содержимого.
Прогнозирование оценки релевантности для каждого элемента с помощью обученной системы ранжирования.
Определение положений в ранжировании на основе этих прогнозируемых оценок.

Claim 3 (Зависимый от п.1): Раскрывает ключевой механизм расчета Оценки проигрыша. Это ядро изобретения.

Определяется количество элементов между первым элементом (с низким рангом) и Последним просмотренным элементом.
Определяется количество элементов между вторым элементом (с низким рангом) и Последним просмотренным элементом.
Рассчитываются Оценки проигрыша для первого и второго элементов на основе этих количеств (расстояний).
Критическое условие: Если второе количество элементов меньше первого (т.е. второй элемент ближе к Последнему просмотренному), то Оценка проигрыша второго элемента больше, чем первого.

Интерпретация: Система штрафует проигнорированные элементы тем сильнее, чем ближе они расположены к точке, где пользователь прекратил взаимодействие. Предполагается, что именно эти ближайшие элементы стали причиной ухода пользователя (Abandonment).

Claim 9 (Независимый пункт): Описывает способ определения оценок проигрыша как отдельный процесс (аналогично логике обучения в Claim 1).

Система отображает интерфейс, фиксирует взаимодействия (включая уход), определяет Последний просмотренный элемент и назначает Оценки проигрыша элементам ниже него на основании их положения (логика расчета детализирована в зависимом Claim 11, идентичном Claim 3).

Где и как применяется

Изобретение относится к процессу обучения моделей ранжирования и затрагивает офлайн-обработку данных и этап ранжирования.

RANKING – Ранжирование (Обучение Моделей / Офлайн-процессы)
Основное применение патента — это офлайн-процесс обучения моделей машинного обучения (например, CatBoost), используемых на стадиях L2/L3/L4 ранжирования. Изобретение описывает способ формирования целевой переменной (target) и обучающей выборки на основе логов поведения пользователей.

Входные данные: Логи пользовательских взаимодействий (сессии), включающие показанные элементы, их порядок, клики, скроллинг и события ухода (закрытие, обновление).
Процесс: Логи обрабатываются для расчета Win Scores и Loss Scores по описанной методике (с учетом расстояния от Last Viewed Item).
Выходные данные: Обучающая выборка (признаки элементов + рассчитанные оценки), которая подается на вход алгоритму машинного обучения. В результате получается обученная Система Ранжирования.

Фаза использования (In-use Phase)
На этапе выполнения запроса (RANKING L2/L3/L4) обученная модель применяется для прогнозирования релевантности и определения порядка элементов.

На что влияет

Форматы контента и интерфейсы: Наибольшее влияние патент оказывает на интерфейсы с длинными списками или бесконечной прокруткой (Infinite Scroll). В патенте (Claim 4) упоминается «вертикально расположенный набор мозаичных элементов» (Tiles), что характерно для рекомендательных лент (Дзен), поиска по картинкам/видео или новостных агрегаторов. Хотя механизм применим и к стандартной SERP, его эффективность выше там, где пользователь просматривает большое количество результатов в рамках одной сессии.
Качество сниппетов/превью: Механизм напрямую влияет на важность визуальной и текстовой привлекательности сниппета или мозаичного элемента. Элемент с непривлекательным или вводящим в заблуждение превью, оказавшись сразу после последнего взаимодействия, сгенерирует сильный негативный сигнал (высокую Оценку проигрыша) и обучит модель понижать подобный контент.

Когда применяется

Временные рамки: Механизм расчета оценок применяется во время регулярного переобучения моделей ранжирования (офлайн). Применение обученной модели происходит в реальном времени при каждом запросе пользователя к системе.
Условия активации: Для расчета оценок необходимо наличие сессии, в которой пользователь взаимодействовал хотя бы с одним элементом и после этого покинул интерфейс, при этом ниже этого элемента были показаны другие результаты.
Исключения: Claims 7 и 19 указывают, что элементы, которые не были фактически отображены пользователю (например, не попали в видимую область экрана), исключаются из анализа.

Пошаговый алгоритм

Фаза Обучения (Офлайн)

Сбор данных: Накопление логов пользовательских взаимодействий с ранжированным списком. Каждый лог содержит порядок элементов, взаимодействия и событие окончания сессии (уход/обновление).
Предварительная обработка: Удаление из рассмотрения элементов, которые фактически не были отображены пользователю (Claim 7).
Идентификация Последнего Просмотренного Элемента: Для каждой сессии определяется последний элемент, с которым пользователь взаимодействовал перед уходом.
Расчет Оценок Выигрыша (Win Scores): Присвоение положительных оценок всем элементам, которые были выбраны пользователем в течение сессии.
Идентификация Проигравших Элементов: Определение всех элементов, которые имели более низкий ранг (находились ниже) Последнего просмотренного элемента и были показаны пользователю.
Расчет Оценок Проигрыша (Loss Scores): Для каждого проигравшего элемента:
1. Вычисление расстояния (количества промежуточных элементов) между ним и Последним просмотренным элементом.
2. Определение Оценки проигрыша на основе этого расстояния. Оценка обратно пропорциональна расстоянию (чем меньше расстояние, тем выше оценка проигрыша).
Обучение Модели: Использование рассчитанных Оценок выигрыша и проигрыша в качестве целевых значений для обучения Системы ранжирования (ML-модели).

Фаза Использования (Онлайн)

Получение набора контента: Система принимает набор элементов для ранжирования.
Прогнозирование: Обученная Система ранжирования прогнозирует оценку релевантности для каждого элемента.
Ранжирование: Элементы сортируются от самой высокой прогнозируемой оценки до самой низкой (Claim 8).
Отображение: Формирование финального ранжированного списка для пользователя.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Являются основой для всего метода. Используются:
- Выбор элемента (Клик/Взаимодействие).
- Событие прекращения сессии (выключение или обновление интерфейса).
- Данные о просмотре (какие элементы были фактически отображены пользователю).
Структурные факторы (Интерфейсные):
- Ранжированный список элементов (порядок отображения контента).
- Положение элемента в списке.

Какие метрики используются и как они считаются

Win Score (Оценка выигрыша): Бинарная или численная положительная оценка за факт выбора элемента пользователем. Конкретные формулы расчета в патенте не приведены.
Расстояние до Последнего Просмотренного Элемента: Ключевая метрика для расчета Оценки проигрыша. Рассчитывается как количество элементов, отображаемых между данным элементом и Последним просмотренным элементом (Claim 2).
Loss Score (Оценка проигрыша): Численная отрицательная оценка. Рассчитывается на основании Расстояния. Патент устанавливает правило (Claim 3): Меньшее расстояние = Большая Оценка проигрыша.
Если $D$ – это расстояние, то $Loss Score = f(D)$, причем функция $f(D)$ является убывающей.
Конкретная функция (например, линейная, экспоненциальная) не указана.
Прогнозируемая оценка релевантности: Выходной скор ML-модели (Системы ранжирования), обученной на Win/Loss Scores.

Выводы

Моделирование «Точки Отказа» (Abandonment Point): Яндекс активно пытается смоделировать не просто факт неудовлетворенности пользователя, а точную причину прекращения сессии. Система ищет элемент, который «сломал» процесс просмотра.
Дифференцированный негативный сигнал: Не все проигнорированные результаты одинаково плохи. Результат, показанный сразу после последнего взаимодействия и приведший к уходу пользователя, получает значительно больший штраф (Высокий Loss Score), чем результат, показанный гораздо ниже.
Важность контекста взаимодействия: Оценка элемента зависит не только от его собственных свойств, но и от его положения относительно действий пользователя в конкретной сессии.
Фокус на LTR и поведенческие факторы: Патент подтверждает, что обучение ранжирования (Learning to Rank) на основе детального анализа логов поведения является ключевым компонентом развития поиска и рекомендательных систем Яндекса.
Применимость к лентам и SERP: Механизм идеально подходит для интерфейсов типа лент (Дзен, Новости), что подтверждается упоминанием «мозаичных элементов», но его принципы могут использоваться и в основном поиске для оценки качества выдачи.

Практика

Best practices (это мы делаем)

Оптимизация сниппетов и превью для продолжения сессии: Поскольку элемент, вызвавший прекращение просмотра, получает максимальный штраф, критически важно, чтобы сниппеты (в поиске) или плитки/превью (в Дзене, Картинках, Видео) были максимально релевантными и привлекательными. Они должны мотивировать пользователя либо кликнуть, либо продолжить скроллинг.
Борьба с кликбейтом на уровне превью: Если превью/сниппет выглядит нерелевантно, скучно или обманчиво (даже если контент внутри качественный), он может сгенерировать высокий Loss Score, если пользователи систематически прекращают просмотр на нем или сразу над ним. Необходимо тестировать разные варианты заголовков и изображений на превью.
Обеспечение консистентного качества (для агрегаторов и лент): В системах, где отображается много элементов подряд (например, Маркет, Дзен), важно поддерживать стабильно высокое качество. Один «плохой» результат может прервать сессию и сгенерировать сильные негативные сигналы для этого результата и более слабые для всех последующих.
Анализ поведенческих метрик в контексте позиций: При анализе CTR и вовлеченности необходимо учитывать не только факт клика, но и стремиться к тому, чтобы контент удовлетворял пользователя (генерировал Win Score) и не становился причиной отказа от дальнейшего поиска.

Worst practices (это делать не надо)

Использование отталкивающих или нерелевантных сниппетов/превью: Использование стоковых, некачественных изображений или автоматически сгенерированных, неинформативных заголовков увеличивает вероятность того, что пользователь прекратит сессию, увидев этот элемент. Это приведет к высокому Loss Score (если он следующий после точки отказа) и пессимизации в долгосрочной перспективе.
Игнорирование оптимизации Title/Description для Web-поиска: Если предположить, что механизм применяется в SERP, то неоптимизированные сниппеты будут напрямую обучать модель ранжирования против вашего сайта, если пользователи систематически уходят с выдачи, увидев ваш результат или остановившись прямо над ним.

Стратегическое значение

Патент раскрывает важный аспект работы Learning to Rank в Яндексе — детальное моделирование негативного пользовательского опыта. Это подтверждает стратегический приоритет Яндекса на удержание пользователя и максимизацию длины успешной сессии. Для SEO-специалистов это сигнал о том, что оптимизация должна выходить за рамки традиционных факторов и фокусироваться на том, как именно контент представлен в выдаче и как это представление влияет на дальнейшее поведение пользователя. Качество и привлекательность сниппета становятся не просто способом повысить CTR, а фактором, влияющим на обучение базовых моделей ранжирования.

Практические примеры

Сценарий: Просмотр ленты (например, Дзен или Поиск по Видео)

Действия пользователя: Пользователь открывает ленту. Он кликает на Элемент 1 (Видео А) и Элемент 3 (Статья Б). Затем он видит Элемент 5 (Видео В) и взаимодействует с ним (например, просматривает превью или наводит курсор). После этого он видит Элемент 6 (Статья Г с отталкивающим заголовком) и закрывает вкладку. Элементы 6 и 7 были видны на экране.
Анализ системы:
- Последний просмотренный элемент: Элемент 5 (Видео В).
- Оценки выигрыша: Элементы 1 и 3 получают положительные оценки (Win Score). (Интерпретация Элемента 5 зависит от того, считается ли взаимодействие достаточным для Win).
- Оценки проигрыша: Рассматриваются элементы ниже 5-го.
- Элемент 6 (Статья Г): Расстояние до Последнего просмотренного минимально (он сразу под ним). Получает МАКСИМАЛЬНУЮ Оценку проигрыша. Система предполагает, что он стал причиной ухода.
- Элемент 7: Расстояние больше, чем у Элемента 6. Получает высокую Оценку проигрыша, но ниже, чем у Элемента 6.
- Элемент 15 (если был показан): Получает низкую Оценку проигрыша.
Результат: Модель ранжирования обучается пессимизировать контент, похожий на Элемент 6 (Статья Г), так как он генерирует сильные негативные сигналы, связанные с прекращением сессии.

Вопросы и ответы

В чем основное отличие этого метода расчета Loss Score от традиционных подходов (например, DBNM или Click > Skip)?

В традиционных подходах (например, Click > Skip) обычно штрафуются элементы, которые были просмотрены, но пропущены перед кликом. Этот патент фокусируется на другом типе негативного сигнала: отказ от просмотра (Abandonment). Он штрафует элементы, расположенные НИЖЕ последнего взаимодействия. Ключевое отличие в том, что Оценка проигрыша (Loss Score) дифференцирована и зависит от расстояния до точки отказа: чем ближе, тем сильнее штраф.

Что такое «Последний просмотренный элемент»? Это последний кликнутый элемент?

Не обязательно. Согласно патенту (Claim 1), это «последний элемент содержимого, с которым взаимодействовал пользователь до того, как соответствующий интерфейс был покинут». Взаимодействие может включать клик, но также может включать наведение курсора, просмотр превью (в случае видео), остановку скроллинга или другие формы взаимодействия, которые система фиксирует перед событием ухода (закрытием или обновлением интерфейса).

Применяется ли этот патент в основном поиске Яндекса (Web Search) или только в рекомендательных системах типа Дзен?

В патенте упоминается «вертикально расположенный набор мозаичных элементов» (Claim 4), что очень похоже на интерфейс Дзена, поиска по Картинкам или Видео. Механизм идеально подходит для длинных лент и бесконечной прокрутки. Однако описанный принцип Learning to Rank является универсальным и может применяться в любой системе ранжирования, включая основной поиск, для более точной интерпретации поведенческих сигналов при обучении моделей.

Почему элемент, расположенный сразу под Последним просмотренным, получает максимальный штраф?

Логика изобретения основана на предположении, что если пользователь взаимодействовал с одним элементом, а затем увидел следующий и сразу покинул интерфейс, то именно этот следующий элемент стал причиной прекращения просмотра. Он оказался настолько нерелевантным или непривлекательным, что пользователь потерял интерес к дальнейшему изучению списка.

Как это влияет на SEO-стратегию оптимизации сниппетов?

Это критически повышает важность качества сниппетов (Title, Description, фавиконка, быстрые ссылки) или превью (заголовок, изображение). Сниппет должен не только генерировать клик, но и не должен отталкивать пользователя от продолжения сессии. Плохой сниппет, вызвавший уход пользователя с выдачи, генерирует сильный негативный сигнал (высокий Loss Score), который напрямую обучает модель ранжирования пессимизировать ваш контент.

Учитывает ли система элементы, которые пользователь проскроллил, но не взаимодействовал с ними, и которые были выше Последнего просмотренного?

Патент фокусируется на Оценках выигрыша для выбранных элементов и Оценках проигрыша для элементов НИЖЕ Последнего просмотренного. Обработка пропущенных элементов ВЫШЕ Последнего просмотренного (или выше кликов) в данном патенте не детализирована и, вероятно, регулируется другими стандартными механизмами LTR.

Что происходит, если пользователь вообще ни с чем не взаимодействовал, а просто просмотрел список и ушел?

Патент описывает ситуацию, когда взаимодействия были (Claim 1: «определяют последний просмотренный элемент содержимого… с которым взаимодействовал пользователь»). Если система не может определить «Последний просмотренный элемент» из-за отсутствия явных взаимодействий, этот конкретный механизм расчета Loss Score может не применяться. Такие сессии обрабатываются другими методами или исключаются.

Как система определяет, был ли элемент фактически показан пользователю?

Патент (Claims 7, 19) упоминает необходимость удаления элементов, которые не отображались пользователю. Это требует наличия технической возможности отслеживать видимость элементов в браузере или приложении пользователя (например, с помощью Intersection Observer API в вебе) для корректного сбора данных и расчета оценок. Если элемент не попал в видимую область, он не получит Loss Score.

Если мой сайт занимает несколько позиций в выдаче, может ли плохой сниппет на одной позиции повлиять на другие?

Прямого влияния в рамках одной сессии патент не описывает. Однако в долгосрочной перспективе, если контент с вашего сайта систематически генерирует высокие Оценки проигрыша (т.е. пользователи часто прекращают сессию, увидев ваш сниппет), ML-модель будет обучаться снижать прогнозируемую релевантность для вашего сайта или контента в целом, что может косвенно затронуть все ваши позиции.

Является ли этот процесс онлайн-ранжированием или офлайн-обучением?

Патент четко разделяет процесс на две части. Расчет Win/Loss Scores и обучение модели ранжирования происходят офлайн (Фаза Обучения) на основе исторических логов. Применение этой обученной модели для определения порядка результатов в ответ на запрос пользователя происходит онлайн (Фаза Использования).