Как Яндекс ранжирует рекомендации медиаконтента, умножая тематическую схожесть тегов на показатели вовлеченности

Яндекс патентует метод для систем рекомендаций (например, Видео или Дзен). Система рассчитывает финальный скор схожести (Correspondence Parameter), перемножая количество общих тегов (тематическая близость) на сумму показателей вовлеченности (например, время просмотра) исходного и рекомендуемого объекта. Это усиливает позиции вовлекающего контента в рекомендациях.

Описание

Какую задачу решает

Патент решает задачу повышения релевантности рекомендаций медиаобъектов (видео, аудио, изображений). Он направлен на улучшение существующих методов, основанных только на истории переходов, тегах или поведении, которые могут не всегда давать удовлетворительные результаты. Изобретение предлагает механизм для более точного определения «глубины» или «уровня» сходства между единицами контента путем использования поведенческих метрик в качестве веса для тематической близости.

Что запатентовано

Запатентована система и метод рекомендации медиаобъектов, основанный на расчете специфической метрики — Correspondence Parameter (Параметр Соответствия). Суть изобретения заключается в формуле расчета этой метрики, которая объединяет тематическую близость (количество пересекающихся тегов) и показатели вовлеченности пользователей (User Interaction Parameters, UIP) как исходного, так и рекомендуемого объекта.

Как это работает

Система индексирует медиаобъекты, их теги и UIP (например, время просмотра, CTR). Когда требуется рекомендация для исходного объекта, система сначала находит кандидатов с общими тегами. Затем рассчитывается Correspondence Parameter: система суммирует UIP исходного объекта и UIP кандидата, а затем умножает эту сумму на количество их общих тегов. Объекты с наивысшим скором рекомендуются пользователю.

Актуальность для SEO

Высокая. Рекомендательные системы являются ядром контентных платформ (таких как Яндекс.Видео и потенциально Дзен). Комбинирование контентных сигналов (тегов) с поведенческими метриками вовлеченности (UIP) в качестве мультипликатора тематической релевантности — это актуальный и эффективный подход в современных системах.

Важность для SEO

Влияние на SEO значительно для контент-платформ (7/10). Этот патент не описывает ранжирование в основном веб-поиске, но он критически важен для понимания генерации трафика внутри рекомендательных экосистем Яндекса. Он четко показывает, что для получения видимости недостаточно иметь релевантные теги; необходимы высокие показатели вовлеченности (UIP), которые выступают мультипликатором релевантности.

Детальный разбор

Термины и определения

Aggregator (Агрегатор): Компонент системы, отвечающий за сбор медиаобъектов и ассоциацию их с соответствующими тегами и параметрами взаимодействия пользователей.
Correspondence Parameter (Параметр Соответствия): Ключевая метрика изобретения. Показатель уровня сходства между потенциальным кандидатом и исходным медиаобъектом. Используется для ранжирования рекомендаций.
Matcher (Сопоставитель): Компонент системы, который определяет потенциальных кандидатов для рекомендации путем поиска медиаобъектов с пересекающимися тегами и подсчета количества этих пересечений.
Media Object (Медиаобъект): Единица контента (видео, изображения, аудиофайлы, VR-контент, игры), для которой генерируются рекомендации.
Tag (Тег): Метаданные, представляющие содержание медиаобъекта. Примеры: категория, название, исполнитель, тема, описание, язык, режиссер, локация. Могут быть извлечены из текста, связанного с объектом.
User Interaction Parameter (UIP, Параметр Взаимодействия с Пользователем): Метрика, указывающая на уровень взаимодействия пользователей с медиаобъектом. Примеры: время просмотра (view time/watch time), количество просмотров (view count), CTR, уровень вовлеченности (engagement rate), частота социального обмена (social sharing rate).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на конкретном методе расчета сходства, который использует показатели вовлеченности как веса для тематических тегов.

Claim 1 (Независимый пункт): Описывает основной метод выбора рекомендуемых медиаобъектов.

Система собирает медиаобъекты, их теги и UIP (показатель уровня взаимодействия).
Получается запрос на рекомендацию для исходного медиаобъекта.
Определяются потенциальные кандидаты на основе наличия хотя бы одного пересекающегося тега с исходным объектом.
Для каждого кандидата определяется количество пересекающихся тегов (N).
Генерируется Параметр Соответствия (CP). Способ генерации является ядром изобретения:
- Суммирование UIP кандидата и UIP исходного объекта (Полученная Сумма).
- Назначение этой Полученной Суммы *каждому* из пересекающихся тегов.
- Сложение назначенных сумм всех пересекающихся тегов для получения финального CP.
Выбор рекомендуемых объектов на основе значения CP.

Claim 2 и Claim 3 (Зависимые пункты): Описывают альтернативные, но математически эквивалентные способы расчета Параметра Соответствия.

Claim 2 описывает расчет как умножение Полученной Суммы на количество пересекающихся тегов.
Claim 3 описывает расчет как суммирование Полученной Суммы для каждого пересекающегося тега.

Все три пункта описывают одну и ту же математическую операцию: $CP = N \times (UIP_{кандидат} + UIP_{исходный})$.

Где и как применяется

Изобретение описывает работу рекомендательной системы (Recommendation Server), которая функционирует отдельно от основного веб-поиска. Применимо к сервисам типа Яндекс.Видео или Дзен.

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит подготовка данных. Aggregator взаимодействует с Analytics Server для получения UIP и с Tag Server для получения тегов. Теги могут извлекаться из текста (описания, комментарии) или генерироваться (например, speech-to-text). Данные индексируются для быстрого доступа.

RANKING – Ранжирование (Генерация рекомендаций — Онлайн)
Алгоритм применяется при запросе рекомендаций для конкретного медиаобъекта.

Retrieval: Matcher идентифицирует кандидатов на основе пересечения тегов.
Scoring: Correspondence Parameter Generator вычисляет CP для каждого кандидата по запатентованной формуле.
Selection: Выбираются объекты с наивысшими оценками CP.

На что влияет

Типы контента: Влияет на медиаконтент — видео (основной пример в патенте), аудио, изображения, статьи на контентных платформах.
Платформы: Критически важен для платформ, где потребление контента управляется рекомендациями (ленты, блоки «Похожие видео», автовоспроизведение).
Баланс: Алгоритм напрямую влияет на баланс между тематической релевантностью и популярностью/вовлеченностью контента в рекомендациях.

Когда применяется

Алгоритм активируется, когда система должна предоставить пользователю связанный контент.

Триггеры активации: Пользователь завершил взаимодействие с медиаобъектом (например, досмотрел видео), запрос похожих материалов, загрузка страницы с блоком рекомендаций.

Пошаговый алгоритм

Процесс работы системы делится на офлайн и онлайн этапы.

Этап 1: Сбор и подготовка данных (Офлайн/Постоянно)

Сбор медиаобъектов: Определение корпуса контента.
Генерация тегов: Анализ контента и связанного текста для назначения релевантных тегов каждому объекту.
Сбор UIP: Агрегация данных о взаимодействии пользователей (время просмотра, клики и т.д.) для каждого объекта.
Индексация: Сохранение ассоциаций {ID объекта, Теги, UIP} в базе данных.

Этап 2: Генерация рекомендаций (Онлайн)

Получение запроса: Система получает запрос на рекомендацию для исходного медиаобъекта (Source).
Извлечение данных Source: Получение тегов и UIP для исходного объекта.
Отбор кандидатов (Matching): Поиск медиаобъектов (Candidates), которые имеют хотя бы один общий тег с Source.
Расчет Параметра Соответствия (CP): Для каждой пары (Source, Candidate):
1. Определение количества пересекающихся тегов (N).
2. Расчет суммы UIP: $Sum_{UIP} = UIP(Source) + UIP(Candidate)$.
3. Расчет CP: $CP = Sum_{UIP} \times N$.
Ранжирование и Выбор: Ранжирование кандидатов по убыванию CP и выбор Топ-K результатов.
Выдача: Отправка списка рекомендаций.

Какие данные и как использует

Данные на входе

Система использует два основных типа данных: Теги (контентные/структурные факторы) и Параметры Взаимодействия (поведенческие факторы).

Контентные и Структурные факторы (для генерации Тегов):
- Метаданные: категория, название (title), исполнитель, режиссер, рейтинг, язык, локация.
- Текстовое окружение: описание (description), комментарии, текст на странице.
- Содержание объекта: текст, полученный путем распознавания речи (speech-to-text), субтитры.
Поведенческие факторы (для расчета UIP):
- Метрики потребления: время просмотра (view time/watch time), количество просмотров (view count), частота воспроизведения (play rate).
- Метрики вовлеченности: engagement rate, частота социального обмена (social sharing rate).
- Метрики кликов: CTR, конверсия.

Какие метрики используются и как они считаются

User Interaction Parameter (UIP): Агрегированное значение поведенческих факторов (например, суммарное время просмотра объекта всеми пользователями).
Number of Overlapping Tags (N): Количество общих тегов. В патенте упоминается возможность использования лемматизации и синонимов при сопоставлении тегов для более точного определения пересечений.
Correspondence Parameter (CP): Основная метрика ранжирования. Рассчитывается по формуле:

$$CP = (UIP_{кандидат} + UIP_{исходный}) \times N$$

В этой формуле сумма UIP выступает в роли веса (Weight), а количество общих тегов (N) – в роли показателя тематической близости (Relevance). $CP = Weight \times Relevance$.
Обработка предвзятости (Bias Handling): Патент признает, что формула может отдавать предпочтение объектам с высоким UIP даже при малом N. Для устранения этой предвзятости предлагается устанавливать пороговое ограничение (capping) на максимальное значение UIP (например, если время просмотра больше 100 000, оно устанавливается равным 100 000).

Выводы

Вовлеченность (UIP) как мультипликатор релевантности: Ключевой вывод — в данной системе поведенческие факторы (UIP) мультипликативно усиливают тематическую релевантность (N). UIP функционирует не как аддитивный фактор, а как мощный множитель.
Теги определяют возможность, UIP определяет ранг: Наличие общих тегов (N>0) является необходимым условием для попадания в список кандидатов. Финальное ранжирование в значительной степени определяется UIP обоих объектов.
Синергия популярности: Алгоритм отдает предпочтение связям между двумя популярными объектами, так как их суммарный UIP будет выше. Популярный контент будет чаще рекомендоваться к другому популярному контенту (эффект «богатые богатеют»).
Важность источника тегов: Поскольку теги могут извлекаться из метаданных и текстового окружения (описания, комментарии), оптимизация этих элементов критически важна для обеспечения максимального охвата тематических связей.
Механизмы балансировки: Система предусматривает возможность ограничения влияния сверхпопулярного контента путем установки верхнего порога (capping) для UIP, что важно для поддержания баланса между популярностью и релевантностью.

Практика

Best practices (это мы делаем)

Рекомендации применимы для оптимизации контента на платформах, использующих подобные рекомендательные механизмы (Яндекс.Видео, Дзен).

Максимизация показателей вовлеченности (UIP): Сосредоточьтесь на метриках удержания аудитории (Audience Retention) и времени просмотра (Watch Time). Создавайте контент, который мотивирует пользователей потреблять его до конца. Высокий UIP критически важен, так как является множителем.
Комплексное и точное тегирование (Максимизация N): Обеспечьте наличие максимально полного набора релевантных тегов. Используйте комбинацию широких и специфических тегов для увеличения вероятности пересечения с другими медиаобъектами.
Оптимизация текстового окружения: Насыщайте заголовки, описания и (если применимо) текст статьи или расшифровку видео релевантными ключевыми словами и сущностями. Система использует эти данные для генерации тегов.
Создание серийного контента: Создавайте серии материалов на связанные темы с последовательным тегированием. Это увеличивает вероятность рекомендаций между вашими материалами за счет высокого N и потенциально высокого суммарного UIP.

Worst practices (это делать не надо)

Создание поверхностного контента: Контент с низкими показателями вовлеченности (низкий UIP) не будет эффективно рекомендоваться, даже если он идеально оптимизирован по тегам.
Использование кликбейта (если UIP основан на времени просмотра): Если основной UIP — это время просмотра, кликбейт приведет к коротким сессиям и низкому UIP, что контрпродуктивно для рекомендаций.
Нерелевантный тег-спамминг: Добавление популярных, но нерелевантных тегов. Хотя это может увеличить N, пользователи не будут вовлекаться (низкий UIP), и эффект будет минимальным.
Слишком узкое тегирование: Использование только очень специфичных тегов может снизить шансы нахождения пересечений (низкий N) с другими материалами.

Стратегическое значение

Патент подтверждает стратегическую важность поведенческих факторов в экосистеме Яндекса. Для достижения успеха на контентных платформах контент должен быть не только релевантным (правильные теги), но и исключительно вовлекающим (высокий UIP). Алгоритм демонстрирует, как качество (выраженное через вовлеченность) напрямую влияет на дистрибуцию контента через рекомендации.

Практические примеры

Сценарий: Ранжирование похожих видео по кулинарии

Исходное видео (Source): «Рецепт Пасты Карбонара». UIP (Время просмотра) = 500 часов. Теги: {Паста, Итальянская кухня, Ужин, Рецепт}.

Кандидат A: «Как приготовить Лазанью» (Тематически близкое, средняя популярность).

UIP(A) = 200 часов.

Общие теги: {Паста, Итальянская кухня, Ужин, Рецепт} (N=4).

Расчет CP(A): (500 + 200) * 4 = 700 * 4 = 2800.

Кандидат B: «Обзор лучшей Пиццерии в городе» (Менее близкое, очень популярное).

UIP(B) = 1000 часов.

Общие теги: {Итальянская кухня, Ужин} (N=2).

Расчет CP(B): (500 + 1000) * 2 = 1500 * 2 = 3000.

Результат: Кандидат B будет ранжироваться выше Кандидата A, несмотря на меньшую тематическую точность (2 тега против 4). Высокая вовлеченность (UIP) Кандидата B компенсировала меньшее теговое пересечение. Система предпочла рекомендовать более популярный контент.

Вопросы и ответы

Что такое UIP (User Interaction Parameter) в этом патенте и что он может включать?

UIP — это количественная метрика, отражающая уровень взаимодействия пользователей с контентом. В патенте приведены примеры: время просмотра (view time/watch time), количество просмотров, CTR, уровень вовлеченности (engagement rate) и частота шеринга в соцсетях. На практике для платформ типа Видео или Дзен наиболее вероятным кандидатом на роль основного UIP является суммарное время просмотра или удержание аудитории.

Как рассчитывается ключевая метрика схожести (Correspondence Parameter)?

Она рассчитывается по формуле: (UIP источника + UIP кандидата) * Количество общих тегов. Сначала суммируются метрики вовлеченности (UIP) исходного материала и материала-кандидата. Затем эта сумма умножается на количество общих тегов (N) между ними. Это означает, что и вовлеченность, и тематическая близость являются множителями.

Что важнее для получения рекомендаций: много общих тегов или высокая вовлеченность (UIP)?

Оба фактора критически важны. Наличие общих тегов обязательно (N>0), чтобы установить связь. Однако, поскольку UIP выступает множителем, он оказывает огромное влияние на финальный скор. Как показано в практическом примере, контент с меньшим количеством тегов, но значительно более высоким суммарным UIP может обойти контент с большим количеством тегов, но низким UIP.

Влияет ли этот патент на ранжирование в основном поиске Яндекса?

Напрямую нет. Патент описывает метод для систем рекомендации медиаобъектов (видео, аудио, статьи на контентных платформах), а не ранжирование веб-документов в основном поиске. Он актуален для получения трафика из Дзена, Яндекс.Видео и других рекомендательных блоков.

Откуда система берет теги для медиаобъектов?

Патент упоминает несколько источников. Это могут быть явные метаданные (категория, название, описание). Также указывается, что теги могут быть сгенерированы из текста, ассоциированного с медиаобъектом (например, окружающий текст, комментарии пользователей) или из самого контента (например, путем распознавания речи из видео).

Как система борется с предвзятостью к сверхпопулярному контенту (эффект «богатые богатеют»)?

Алгоритм естественно склонен продвигать популярный контент. Однако в патенте упоминается механизм для смягчения этой предвзятости: ограничение (capping) максимального значения UIP. Система может установить верхний порог для UIP (например, 100 000), чтобы избежать чрезмерного доминирования вирусного контента над тематически релевантным.

Как этот алгоритм влияет на новый контент, у которого еще нет накопленных UIP?

Новый контент находится в невыгодном положении, так как его UIP близок к нулю. Это значительно снижает итоговый CP по сравнению с «прогретым» контентом. Для нового контента критически важно быстро набрать первичную вовлеченность, чтобы начать полноценно участвовать в этой рекомендательной модели.

Как система определяет, что теги пересекаются? Учитывается ли семантика?

Да, помимо прямого совпадения текста тегов, в патенте упоминается возможность использования лингвистической обработки. Система может применять лемматизацию (приведение слова к нормальной форме) и учитывать синонимы, чтобы определить, что теги семантически соответствуют друг другу.

Почему система суммирует UIP источника и кандидата, а не использует только UIP кандидата?

Суммирование UIP обоих объектов создает более сильную связь между двумя популярными материалами. Это логика, направленная на поддержание высокого уровня качества в рамках сессии. Если пользователь смотрит очень популярный контент (высокий UIP источника), система с большей вероятностью порекомендует ему другой популярный контент (высокий UIP кандидата), так как их суммарный UIP будет максимальным.

Учитывает ли система схожесть самих пользователей при рекомендации?

В основном методе (Claim 1) это не учитывается; используются агрегированные UIP. Однако в описании патента упоминается возможность улучшения точности путем расчета UIP на основе подмножества пользователей. Например, можно учитывать взаимодействия только тех пользователей, чей профиль или история похожи на текущего пользователя.