Как Яндекс использует поведенческие метрики и теги для ранжирования рекомендаций медиаконтента

Яндекс патентует систему рекомендаций медиаконтента (например, видео), которая определяет схожесть объектов, комбинируя совпадение тегов (тематика, жанр) с поведенческими метриками (время просмотра, CTR). Запатентованная формула использует сумму поведенческих показателей обоих объектов как множитель для количества совпадающих тегов, приоритизируя тематически схожий и высоко вовлекающий контент.

Описание

Какую задачу решает

Патент решает задачу повышения релевантности рекомендаций медиаконтента. Существующие методы, основанные только на тегах или только на истории просмотров, не всегда дают удовлетворительные результаты. Изобретение направлено на более точное определение «глубины» и «уровня» сходства между элементами контента путем интеграции поведенческих данных в оценку контентного сходства. Это улучшает навигацию и сокращает время поиска интересующего контента.

Что запатентовано

Запатентованы способ и система для рекомендации Медиаобъектов (видео, аудио, изображений). Ядром изобретения является метод расчета Параметра отношения (Relationship Parameter). Этот параметр использует агрегированные Параметры пользовательского взаимодействия (UIP) (например, время просмотра, CTR) в качестве весовых коэффициентов для оценки схожести, определенной на основе совпадения Тегов (тематик, категорий).

Как это работает

Система поддерживает базу данных медиаобъектов с их тегами и поведенческими метриками (UIP). Когда требуется рекомендация для текущего объекта (A), система сначала находит кандидатов (B), имеющих общие теги. Затем для каждого кандидата рассчитывается Параметр отношения. Эта оценка вычисляется путем комбинирования количества совпадающих тегов и UIP обоих объектов. Например, запатентованная формула умножает количество совпадающих тегов на сумму UIP объекта A и объекта B. Кандидаты с наивысшими оценками выбираются в качестве рекомендаций.

Актуальность для SEO

Высокая. Рекомендательные системы (например, в Яндекс Видео, Дзен) играют ключевую роль в удержании пользователей. Описанный гибридный подход, сочетающий контентные сигналы (теги) и поведенческие данные (вовлеченность), является стандартом в современных алгоритмах рекомендаций и крайне актуален.

Важность для SEO

Влияние на SEO умеренное (6/10), но критическое для продвижения на медиаплатформах Яндекса. Патент не относится к ранжированию веб-поиска, но раскрывает механизмы работы рекомендательных систем. Он предоставляет критически важное понимание того, как Яндекс математически комбинирует поведенческие факторы (вовлеченность) и контентные факторы (теги/тематики). Для успеха на этих платформах необходимо максимизировать метрики вовлеченности (UIP) и обеспечивать точное тегирование.

Детальный разбор

Термины и определения

Медиаобъект (Media Object): Единица контента, которая потребляется или рекомендуется. Примеры включают видеоконтент (наиболее частый пример), изображения, аудиофайлы, игры, VR-контент.
Параметр пользовательского взаимодействия (User Interaction Parameter, UIP): Поведенческая метрика, представляющая уровень взаимодействия пользователей с конкретным медиаобъектом. Используется как весовой коэффициент (показатель качества или популярности). Примеры: время просмотра, количество просмотров, частота воспроизведения, частота обмена в социальных сетях, показатель кликабельности (CTR), коэффициент конверсии.
Параметр отношения (Relationship Parameter): Ключевая метрика в патенте. Это расчетная оценка, которая указывает на уровень сходства между текущим медиаобъектом и потенциальным кандидатом. Является основой для ранжирования рекомендаций.
Тег (Tag): Метаданные или извлеченные признаки, представляющие контент медиаобъекта. Примеры: категория, название, исполнитель, тема, описание, язык, рейтинг, режиссер, текст, расположение.
Сервер анализа (Analysis Server): Компонент системы (например, Yandex.Metrica), который отслеживает взаимодействие пользователей и предоставляет Параметры пользовательского взаимодействия.

Ключевые утверждения (Анализ Claims)

Патент описывает метод взвешивания релевантности контента с помощью поведенческих метрик для использования в рекомендательных системах.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы.

Система поддерживает базу медиаобъектов, каждый из которых имеет (i) Параметры пользовательского взаимодействия (UIP) и (ii) Теги.
При получении запроса на рекомендацию для текущего медиаобъекта (Объект А), система идентифицирует потенциальных кандидатов (Объект Б).
Критерий отбора кандидатов: наличие хотя бы одного совпадающего тега между Объектом А и Объектом Б.
Для каждого кандидата определяется количество совпадающих тегов.
Рассчитывается Параметр отношения (оценка схожести). Этот расчет основан как на количестве совпадающих тегов, так и на UIP Объекта А и Объекта Б.
Выбираются медиаобъекты с заранее заданным значением Параметра отношения (например, Топ-N с наивысшими оценками).

Claim 2 (Зависимый от 1): Определяет конкретную формулу для расчета Параметра отношения (R).

Система сначала суммирует UIP Объекта А и Объекта Б ($UIP_A + UIP_B$). Затем эта сумма умножается на количество совпадающих тегов ($N_{tags}$).

Формула 1:

$$R = (UIP_A + UIP_B) \times N_{tags}$$

Это означает, что схожесть прямо пропорциональна как комбинированной вовлеченности объектов, так и широте их тематического пересечения.

Claim 3 (Зависимый от 1): Определяет альтернативную формулу расчета.

Система суммирует соответствующие суммы ($UIP_A + UIP_B$) для всех совпадающих тегов.

Формула 2:

$$R = \sum_{i=1}^{N_{tags}} (UIP_A + UIP_B)$$

Примечание: Если UIP является глобальным показателем для объекта, эта формула математически эквивалентна Формуле 1.

Где и как применяется

Важно понимать, что этот патент описывает работу Рекомендательных систем Яндекса (например, Яндекс Видео, потенциально Дзен), а не основного алгоритма ранжирования веб-поиска.

Офлайн-процессы (аналог INDEXING)
Значительная часть работы происходит офлайн или периодически:

Сбор медиаобъектов.
Извлечение Тегов (с Сервера Тегов). Патент упоминает, что теги могут быть получены путем анализа окружающего текста, комментариев, преобразования речи в текст или из внешних источников.
Сбор Параметров пользовательского взаимодействия (UIP) (с Сервера Анализа).
Агрегация данных: Система связывает ID медиаобъекта, его вектор тегов и его поведенческие метрики в единой базе данных.

Онлайн-процессы (аналог RANKING)
Когда пользователь взаимодействует с медиаобъектом, Сервер Рекомендаций активирует логику:

Candidate Retrieval (Обнаружитель совпадений): Быстрый поиск медиаобъектов в базе, которые имеют общие теги с текущим объектом.
Ranking (Формирователь параметров отношения): Расчет Параметра отношения для отобранных кандидатов с использованием формул.
Пост-обработка: В описании патента упоминается важный механизм защиты от смещения в сторону популярности (Popularity Bias). Система может устанавливать предельное пороговое значение (кэппинг) для UIP, чтобы очень популярные, но менее релевантные объекты не доминировали в рекомендациях.

На что влияет

Типы контента: В первую очередь влияет на медиаконтент. В патенте явно упоминаются видеоматериалы, изображения, аудиофайлы и видеоигры.
Видимость контента: Влияет на вероятность попадания контента в блоки «Похожие видео», «Рекомендуемое для вас» или в персонализированные ленты на сервисах Яндекса.

Когда применяется

Алгоритм применяется при необходимости генерации рекомендаций. Триггеры активации включают:

Автоматический запрос рекомендации, когда пользователь завершил (или близок к завершению) взаимодействие с текущим медиаобъектом.
Явный запрос пользователя на получение рекомендаций.
Генерация рекомендаций при начале взаимодействия пользователя с сервисом (на основе его прошлой истории).

Пошаговый алгоритм

Фаза 1: Подготовка данных (Офлайн/Периодически)

Сбор данных: Получение набора медиаобъектов. Для каждого объекта извлекаются Теги и UIP.
Агрегация: Создание и сохранение связей между ID медиаобъекта, его вектором тегов и его UIP в базе данных.

Фаза 2: Генерация рекомендаций (Онлайн)

Прием запроса: Сервер рекомендаций получает запрос, инициированный взаимодействием с Текущим Медиаобъектом (Объект А).
Получение данных объекта: Извлечение Тегов и $UIP_A$ для Объекта А.
Идентификация кандидатов: Поиск в базе данных медиаобъектов (Объект Б), которые имеют хотя бы один совпадающий тег с Объектом А.
Подсчет тегов: Для каждого кандидата определяется количество совпадающих тегов ($N_{tags}$).
Расчет Параметра отношения (R): Для каждого кандидата извлекается его $UIP_Б$ и рассчитывается оценка схожести. Например, используется формула (Claim 2):
$$R = (UIP_A + UIP_Б) \times N_{tags}$$
Митигация смещения (Опционально): Применение предельных значений (кэпов) к $UIP_A$ и $UIP_Б$, если они превышают установленный порог.
Ранжирование и Выбор: Ранжирование кандидатов по значению R и выбор Топ-N результатов.
Передача рекомендаций: Отправка списка рекомендуемых медиаобъектов.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Критически важны): Используются как Параметры пользовательского взаимодействия (UIP). Они выступают в роли весовых коэффициентов (множителей) в формуле схожести. Примеры:
- Время просмотра (Watch time).
- Количество просмотров (View count).
- Частота воспроизведения/взаимодействия.
- Частота обмена в социальных сетях.
- Показатель кликабельности (CTR).
- Коэффициент конверсии.
Эти данные поступают от систем веб-аналитики (упоминаются Yandex.Metrica).
Контентные и Структурные факторы (Теги): Используются для определения тематического пересечения. Примеры:
- Категория, Название, Исполнитель, Тема, Описание, Язык, Рейтинг, Режиссер, Расположение.
Источники тегов: метаданные объекта, анализ окружающего текста и комментариев на странице ресурса, преобразование речи в текст (с использованием TF-IDF), внешние источники (тексты песен, энциклопедии).

Какие метрики используются и как они считаются

Параметр отношения (R): Основная метрика, указывающая на уровень сходства.
Формулы расчета: Патент предлагает две основные формулы (см. Анализ Claims 2 и 3), где $UIP$ — параметр пользовательского взаимодействия, а $N_{tags}$ — количество совпадающих тегов.
1. $R = (UIP_A + UIP_B) \times N_{tags}$
2. $R = \sum_{i=1}^{N_{tags}} (UIP_A + UIP_B)$
Сравнение тегов: Процесс может включать нормализацию (лемматизацию) тегов и учет синонимов для более точного определения совпадений.
Пороговые значения и Кэпы:
- Система может использовать порог минимального количества совпадающих тегов для включения объекта в список кандидатов.
- Система может применять предельные значения (кэпы) к UIP для борьбы со смещением в сторону популярности.

Выводы

Поведенческие факторы как множитель релевантности: В рекомендательных системах Яндекса поведенческие метрики (UIP) используются как прямые весовые коэффициенты для тематической релевантности (тегов).
Схожесть = Тематика x Вовлеченность: Схожесть объектов является функцией как широты тематического пересечения (количества общих тегов), так и комбинированной вовлеченности пользователей в оба объекта.
Математическая модель взаимодействия факторов: Патент предоставляет конкретные формулы (Claims 2 и 3), демонстрирующие, как именно Яндекс комбинирует контентные и поведенческие сигналы в своих рекомендательных движках.
Признание и борьба с Popularity Bias: Яндекс признает риск того, что высокая популярность может перевесить тематическую релевантность. Для митигации этого риска описана стратегия ограничения (кэппинга) максимального значения UIP.
Важность метаданных и окружающего текста: Поскольку теги могут извлекаться из различных источников, включая окружающий текст и комментарии, оптимизация этих элементов критична для попадания в рекомендации.

Практика

ВАЖНО: Этот патент относится к оптимизации медиаконтента для рекомендательных систем (Яндекс Видео, Дзен и т.п.), а не к ранжированию в основном веб-поиске (SERP).

Best practices (это мы делаем)

Максимизация вовлеченности пользователей (UIP): Это критически важно, так как UIP является множителем в формуле схожести. Необходимо фокусироваться на увеличении времени просмотра (Watch Time), CTR, процента досмотров и частоты обмена в соцсетях.
Комплексная оптимизация метаданных (Тегов): Обеспечьте точное и широкое описание медиаобъекта с использованием релевантных ключевых слов в названии, описании и тегах. Это увеличивает вероятность и количество тематических совпадений ($N_{tags}$).
Оптимизация окружающего контента и транскрипций: Поскольку теги могут извлекаться из окружающего текста и путем преобразования речи в текст, убедитесь, что страница размещения содержит релевантный текст и, по возможности, качественные субтитры или транскрипцию.
Развитие Topical Authority в медиа: Создавайте серии контента, которые одновременно популярны (высокий UIP) и тематически связаны (много общих тегов). Это максимизирует вероятность того, что ваши объекты будут рекомендовать друг друга и появляться в рекомендациях к схожему контенту конкурентов.

Worst practices (это делать не надо)

Кликбейт и низкая вовлеченность: Создание контента, который привлекает клики (высокий CTR), но не удерживает внимание (низкое время просмотра). Низкий итоговый UIP снизит вес объекта в рекомендациях.
Вводящие в заблуждение метаданные или спам тегами (Tag Stuffing): Использование нерелевантных тегов. Если теги не соответствуют содержанию, вовлеченность, скорее всего, будет низкой, что нивелирует потенциальную выгоду от совпадения тегов.
Игнорирование текстового сопровождения: Размещение медиаобъектов без детальных описаний уменьшает количество источников, из которых Яндекс может извлечь релевантные теги.

Стратегическое значение

Патент подтверждает симбиотическую связь между релевантностью контента и поведением пользователей в экосистеме Яндекса. Для успеха на рекомендательных платформах контент должен быть не только тематически релевантным, но и высоко вовлекающим. Вовлеченность выступает в роли множителя качества. Долгосрочная стратегия должна фокусироваться на создании качественного контента, который естественным образом генерирует сильные поведенческие сигналы (длительное время взаимодействия).

Практические примеры

Сценарий: Оптимизация видеорецепта для рекомендаций

Задача: Увеличить видимость нового видео «Как приготовить пасту Карбонара» (Видео Б) в рекомендациях после популярного видео «Рецепт пиццы» (Видео А).

Действия:

Оптимизация вовлеченности (UIP): Создать качественное видео для максимизации времени просмотра и CTR (для Видео Б).
Оптимизация Тегов ($N_{tags}$): Убедиться, что у Видео А и Видео Б есть максимальное пересечение тегов: «рецепт», «итальянская кухня», «ужин».

Как работает система (Расчет по Claim 2):

Предположим, $N_{tags} = 3$. $UIP_{А (пицца)}=500$.

Случай 1: Видео Б имеет высокое время просмотра ($UIP_Б=450$).

Расчет: $R = (500 + 450) * 3 = 2850$.
Случай 2: Видео Б имеет низкое время просмотра ($UIP_Б=50$).

Расчет: $R = (500 + 50) * 3 = 1650$.

Результат: Видео с высокой вовлеченностью (2850) имеет значительно больше шансов быть рекомендованным, чем видео с низкой вовлеченностью (1650), при одинаковом тематическом пересечении.

Вопросы и ответы

Применяется ли этот алгоритм в основном веб-поиске Яндекса (SERP)?

Нет. Патент описывает способ и систему для рекомендации медиаобъектов. Это относится к рекомендательным движкам, используемым в таких сервисах, как Яндекс Видео, Дзен, или в блоках «Похожее» на различных платформах. Он не описывает алгоритм ранжирования документов в основном веб-поиске.

Что такое «Параметр пользовательского взаимодействия» (UIP) и какие метрики в него входят?

UIP — это численное представление уровня вовлеченности или популярности медиаобъекта. В патенте в качестве примеров приводятся время просмотра (Watch Time), количество просмотров, частота воспроизведения, частота обмена в социальных сетях, показатель кликабельности (CTR) и коэффициент конверсии.

Что важнее для попадания в рекомендации: количество совпадающих тегов или поведенческие метрики (UIP)?

Оба компонента критически важны, так как они перемножаются в формуле схожести. Совпадающие теги необходимы для первичного отбора (если тегов нет, схожесть равна нулю). Поведенческие метрики (UIP) действуют как множитель: высокое вовлечение значительно усиливает вес тематического совпадения.

Как рассчитывается схожесть по основной формуле из патента (Claim 2)?

Формула выглядит так: Оценка Схожести = (UIP Объекта А + UIP Объекта Б) * Количество Общих Тегов. Например, если у Объекта А UIP равен 100, у Объекта Б — 150, и у них 5 общих тегов, то схожесть будет (100 + 150) * 5 = 1250.

Может ли очень популярное видео быть рекомендовано, даже если оно малорелевантно по тегам?

Да, это возможно из-за того, что UIP суммируются и умножаются на количество тегов. Это создает смещение в сторону популярности (Popularity Bias). Однако в патенте упоминается механизм защиты: система может устанавливать предельное пороговое значение (кэппинг) для UIP, чтобы ограничить влияние чрезмерной популярности и сохранить релевантность.

Откуда Яндекс берет «теги» для медиаобъектов?

Патент описывает несколько источников. Это могут быть явно указанные метаданные (название, категория, описание). Также теги могут извлекаться автоматически путем анализа текста, окружающего медиаобъект на странице, включая комментарии пользователей. Кроме того, упоминается возможность использования преобразования речи в текст и анализ внешних источников (Википедия, субтитры).

Как я могу повлиять на теги, которые Яндекс присваивает моему контенту?

Необходимо тщательно прорабатывать все текстовые элементы, связанные с медиаобъектом. Оптимизируйте заголовки, описания и метатеги. Размещайте контент на страницах с богатым, релевантным текстовым сопровождением. Для видео используйте качественные субтитры или транскрипции, так как они также могут быть источником тегов.

Учитывает ли система синонимы при сравнении тегов?

Да, в описании патента упоминается, что «Обнаружитель совпадений» может быть способен нормализировать теги (например, приводить слова к их лемме) и учитывать синонимы тегов для более точного определения тематического пересечения.

Влияет ли вовлеченность моего контента на рекомендации чужого контента?

Да, влияет. В формуле используется сумма параметров взаимодействия обоих объектов ($UIP_A + UIP_B$). Если ваш контент (Объект А) имеет высокое вовлечение, это увеличивает общую оценку схожести с любым другим тематически связанным контентом (Объект Б), повышая вероятность того, что Объект Б будет рекомендован рядом с вашим, и наоборот.

Имеет ли смысл накручивать просмотры или CTR для улучшения позиций в рекомендациях?

Это неэффективно и рискованно. Хотя CTR и количество просмотров упоминаются как возможные UIP, системы Яндекса обычно фокусируются на метриках качества вовлечения, таких как время просмотра (Watch Time). Накрученные просмотры часто характеризуются коротким временем взаимодействия, что приведет к низкому значению UIP и, как следствие, к низкому весу в рекомендациях.