Как Яндекс отбирает источники и персонализирует контент для своих Рекомендательных Систем (например, Дзен)

Патент Яндекса описывает двухкомпонентную систему генерации персональных рекомендаций. Первый компонент (офлайн) оценивает качество и пригодность сайтов (Source Suitability) на основе агрегированных поведенческих метрик и трафика. Второй компонент (онлайн) формирует ленту, смешивая контент из известных пользователю источников с новыми, подобранными с помощью коллаборативной фильтрации (SVD/PMI), и затем персонально ранжирует их.

Описание

Какую задачу решает

Патент решает задачу масштабирования и повышения эффективности систем рекомендаций контента (например, Дзен). Основные проблемы — огромный объем потенциальных источников и вычислительная сложность анализа всего контента в реальном времени. Изобретение направлено на (1) предварительный отбор (pre-qualification) качественных источников контента в офлайн-режиме для снижения нагрузки и (2) эффективное совмещение контента из известных пользователю источников (Exploitation) с открытием нового (Exploration), обеспечивая релевантность и разнообразие.

Что запатентовано

Запатентована система генерации контентных рекомендаций, состоящая из двух ключевых механизмов. Первый механизм (описанный в FIG. 4) использует ML-модель для оценки пригодности сетевого ресурса (Source Suitability Parameter) на основе его поведенческих и трафиковых характеристик. Второй механизм (описанный в FIG. 5 и Claims 1-15) формирует персональную ленту, комбинируя user-specific sources (известные) и user-non-specific sources (новые), подобранные методами коллаборативной фильтрации (SVD, PMI), с последующим персональным ранжированием.

Как это работает

Система работает в двух режимах:

Офлайн (Квалификация источников): Система анализирует агрегированные поведенческие метрики ресурса (например, Hits per visit, Time spent, источники трафика). На основе этих данных формируется Network Resource Profile. ML-алгоритм оценивает этот профиль и присваивает Source Suitability Parameter. Если он выше порога, контент с ресурса попадает в пул системы рекомендаций.

Онлайн (Генерация рекомендаций): При запросе пользователя система определяет известные ему источники. Затем она ищет новые похожие источники, используя данные других пользователей (коллаборативная фильтрация SVD/PMI). Из этих двух групп отбираются кандидаты (например, самые свежие или популярные). Финальный ML-алгоритм ранжирует этих кандидатов на основе user-profile-vector для формирования ленты.

Актуальность для SEO

Высокая. Рекомендательные системы являются стратегическим направлением для Яндекса. Описанные механизмы — оценка качества источников через поведенческие метрики и использование коллаборативной фильтрации (SVD, PMI) для баланса персонализации и новизны — являются стандартными и актуальными подходами в современных системах рекомендаций.

Важность для SEO

Влияние на SEO значительно (7/10), но специфично. Патент напрямую не относится к ранжированию в основном веб-поиске, но критически важен для оптимизации под трафик из рекомендательных систем (Recommendation System Optimization). Он раскрывает конкретные поведенческие метрики, по которым Яндекс оценивает пригодность сайта как источника. Для попадания в эту экосистему сайт должен демонстрировать высокое вовлечение пользователей и регулярное обновление контента.

Детальный разбор

Термины и определения

DPV (Dated-pages per visit) / DPH (Dated-pages per hit): Количество страниц с датой в URL, посещенных пользователем за визит/хит. Используется как индикатор того, что ресурс содержит новостной или статейный контент.
First Machine Learning Algorithm (Первый ML-алгоритм): Алгоритм в онлайн-процессе, отвечающий за отбор источников контента для пользователя. Он комбинирует User-Specific и User-Non-Specific источники.
HPV (Hits per visit) / HPU (Hits per user): Количество хитов (переходов между страницами) за визит или в среднем на пользователя. Метрика вовлеченности.
MTIME (Time spent on the network resource): Время, проведенное на сетевом ресурсе.
Network Resource Profile (Профиль сетевого ресурса): Набор признаков, описывающий ресурс. Включает агрегированные поведенческие метрики (HPV, MTIME, источники трафика и т.д.). Используется для оценки пригодности источника.
PMI (Pointwise Mutual Information): Алгоритм коллаборативной фильтрации. Используется для поиска новых источников на основе анализа совместной встречаемости (co-occurrence) ресурсов в сессиях пользователей.
Second Machine Learning Algorithm (Второй ML-алгоритм): Финальный алгоритм ранжирования в онлайн-процессе. Отбирает и ранжирует конкретные материалы из списка кандидатов на основе user-profile-vector.
Source Suitability Parameter (Параметр пригодности источника): Оценка, генерируемая ML-алгоритмом в офлайн-режиме. Указывает, подходит ли сетевой ресурс для публикации контента, пригодного для рекомендательной системы (например, часто обновляемый контент).
SVD (Singular Value Decomposition): Алгоритм коллаборативной фильтрации. Используется для разложения матрицы взаимодействий (пользователи х ресурсы) на векторы. Позволяет находить новые ресурсы на основе близости векторов пользователей и ресурсов.
User-Non-Specific Content Sources (Второй набор источников): Источники, с которыми пользователь ранее не взаимодействовал. Добавляются для открытия нового контента (Exploration/Discovery).
User-Specific Content Sources (Первый набор источников): Источники, с которыми пользователь взаимодействовал в прошлом (Exploitation).

Ключевые утверждения (Анализ Claims)

Патент описывает два основных процесса: (А) Оценка пригодности источников (детально описана в Description, FIG. 4) и (Б) Генерация персональных рекомендаций (защищена Claims 1-15, FIG. 5).

Процесс А: Оценка пригодности источников (На основе Description):

Этот механизм направлен на предварительный отбор ресурсов, подходящих для рекомендательной системы.

Система получает индикацию сетевого ресурса и извлекает множество признаков (поведенческие метрики, трафик).
Генерируется Network Resource Profile на основе этих признаков.
Использование обученного ML-алгоритма для определения Source Suitability Parameter на основе профиля. Этот параметр показывает, склонен ли ресурс публиковать контент, пригодный для системы.
Если параметр выше порога, контент с ресурса отбирается для последующей обработки.

Процесс Б: Генерация персональных рекомендаций (На основе Claims 1-15):

Claim 1 (Независимый пункт): Описывает основной метод генерации рекомендации в ответ на запрос.

Система получает запрос на рекомендацию.
Выполняется Первый ML-алгоритм для определения набора рекомендованных источников. Этот процесс включает:

Получение данных о прошлых взаимодействиях пользователя (user-past-interactions).
Определение Первого набора User-Specific Sources (известные пользователю).
Генерация Второго набора User-Non-Specific Sources (новые). Это делается на основе (i) обученной ML-формулы (коллаборативная фильтрация), использующей взаимодействия других пользователей, И (ii) данных текущего пользователя (Первый набор источников ИЛИ user-profile-vector).
Обработка Первого и Второго наборов для формирования финального набора источников.

Анализ рекомендованных источников для выбора кандидатов (потенциально рекомендуемых единиц контента).
Выполняется Второй ML-алгоритм для выбора и ранжирования финальных рекомендаций из кандидатов на основе user-profile-vector.

Claims 2-6 (Зависимые): Уточняют, что для генерации Второго набора (User-Non-Specific) могут использоваться алгоритмы SVD (Claims 2-4) или PMI (Claims 5-6).

Claims 7-8 (Зависимые): Уточняют, что отбор кандидатов из источников может осуществляться путем выбора предопределенного числа самых свежих (Claim 7) или самых популярных (Claim 8) материалов.

Где и как применяется

Изобретение применяется не в архитектуре основного веб-поиска, а в рамках отдельной Рекомендательной Системы (например, Дзен). Процесс разделен на офлайн и онлайн фазы.

CRAWLING & INDEXING (Офлайн-процессы / Оценка источников)

Здесь применяется Процесс А (Квалификация источников).

Входные данные: URL ресурса, агрегированные поведенческие данные (логи браузеров, счетчики типа Яндекс.Метрики).
Процесс: Система генерирует Network Resource Profile и рассчитывает Source Suitability Parameter.
Выходные данные: Список квалифицированных источников, контент которых индексируется для пула рекомендаций. Это позволяет отсеять неподходящие ресурсы до запроса пользователя.

RANKING (Онлайн-процессы / Генерация рекомендаций)

Здесь применяется Процесс Б. Активируется в момент запроса пользователя.

Этап 1 (Отбор источников): Первый ML-алгоритм определяет персональный набор источников, смешивая известные (User-Specific) и новые (User-Non-Specific). Для поиска новых используются предобученные модели SVD или PMI.
Этап 2 (Отбор кандидатов): Из выбранных источников извлекаются конкретные материалы (например, по свежести/популярности).
Этап 3 (Ранжирование): Второй ML-алгоритм выполняет финальное ранжирование кандидатов на основе user-profile-vector.

На что влияет

Типы контента: Система предпочитает ресурсы с часто обновляемым контентом (новости, блоги, агрегаторы) — на это указывает использование признаков вроде DPV (страницы с датой в URL). Статические или узконишевые сайты с меньшей вероятностью пройдут фильтр Source Suitability.
Видимость в рекомендациях: Патент напрямую влияет на то, будет ли сайт вообще допущен к показам (Процесс А) и как часто он будет предлагаться новым пользователям через механизм Exploration (Процесс Б).

Когда применяется

Процесс А (Квалификация): Выполняется периодически в офлайн-режиме для обновления пула источников или при обнаружении нового ресурса краулером.
Процесс Б (Генерация рекомендаций): Выполняется в реальном времени каждый раз, когда пользователь запрашивает ленту рекомендаций (например, открывает приложение или новую вкладку браузера с лентой).

Пошаговый алгоритм

Процесс А: Оценка пригодности источника (Офлайн)

Сбор данных: Получение индикации о сетевом ресурсе.
Извлечение признаков: Сбор множества поведенческих признаков, связанных с ресурсом (HPV, MTIME, DPV, источники трафика и т.д.).
Генерация профиля: Создание Network Resource Profile. Может включать генерацию производных признаков (например, логарифмирование) и нормализацию.
Вычисление оценки: Выполнение обученного ML-алгоритма (например, логистическая регрессия, случайный лес) для определения Source Suitability Parameter.
Применение порога: Если параметр выше порога, ресурс считается пригодным.
Индексация контента: Отбор контента с пригодного ресурса для добавления в пул рекомендательной системы.

Процесс Б: Генерация персональной рекомендации (Онлайн)

Получение запроса: Получение запроса от пользователя.
Идентификация пользователя: Получение user-past-interactions и user-profile-vector.
Отбор известных источников (Exploitation): Определение Первого набора (User-Specific Sources).
Отбор новых источников (Exploration): Генерация Второго набора (User-Non-Specific Sources) с помощью коллаборативной фильтрации:

Вариант SVD: Использование user-profile-vector для поиска близких ресурсов на основе поведения похожих пользователей.
Вариант PMI: Расчет близости (co-occurrence) между известными источниками и другими ресурсами в сессиях других пользователей.

Формирование пула источников: Объединение или выборка из Первого и Второго наборов.
Отбор кандидатов: Выбор конкретных материалов из пула источников (например, Топ-N самых свежих/популярных).
Ранжирование (Второй ML-алгоритм): Персональное ранжирование отобранных кандидатов на основе user-profile-vector.
Выдача: Формирование ленты рекомендаций.

Какие данные и как использует

Данные на входе

Патент описывает использование большого количества поведенческих факторов, как на уровне ресурса (для Процесса А), так и на уровне пользователя (для Процесса Б).

Поведенческие факторы (Агрегированные на уровне ресурса, Процесс А):

Метрики вовлечения: Hits per visit (HPV), Time spent (MTIME), Home page per visit (MPV), Hits per user (HPU), Visits per user (VPU).
Метрики сессий: Sessions per visit (SPV), Last/First domain per session (LPS/FPS), Hits per session (HPS), Sessions per user (SPU).

Структурные / Технические факторы (Процесс А):

Наличие даты в URL: Используется для метрик Dated-pages per visit (DPV) и Dated-pages per hit (DPH). Помогает идентифицировать новостной или блоговый контент.

Источники трафика (Процесс А):

Доли переходов: Поисковые системы (TT_SE), Социальные сети (TT_SN), Прямые заходы (TT_GR), Мессенджеры (TT_IM), Рекламные платформы (TT_AD), Сокращатели ссылок (TT_US).

Пользовательские факторы (Персональные, Процесс Б):

User-past-interactions: История взаимодействий пользователя.
Географические и языковые настройки: Упоминаются как критерии для фильтрации контента.

Какие метрики используются и как они считаются

Source Suitability Parameter: Рассчитывается ML-моделью (упомянуты логистическая регрессия, наивный Байес, k-NN, Random Forest). Модель обучается на основе Network Resource Profile.
Network Resource Profile: Вектор поведенческих признаков. Патент упоминает использование абсолютных и относительных признаков, а также генерацию производных признаков (например, через логарифмирование) и нормализацию (mean=0, stddev=1).
Коллаборативная фильтрация:
- SVD: Разложение матрицы взаимодействий для получения латентных векторов пользователей и ресурсов. Ранк рассчитывается как произведение векторов.
- PMI: Метрика, рассчитывающая отношение частоты совместного появления двух ресурсов к произведению частот их индивидуальных появлений.

Выводы

Квалификация источников основана на поведении, а не только на контенте: Яндекс использует механизм предварительного отбора сайтов (Процесс А). Этот отбор (Source Suitability) базируется на анализе общих паттернов трафика и вовлеченности аудитории сайта (MTIME, HPV), а не только на анализе текстов статей.
Структура сайта и частота обновлений имеют значение: Явно выделяются признаки, связанные с датами в URL (DPV, DPH). Это указывает на приоритет ресурсов с регулярно обновляемым, «fast paced» контентом (новости, статьи).
Явное разделение Exploitation и Exploration: Система в реальном времени (Процесс Б) активно управляет балансом между контентом из известных пользователю источников (User-Specific) и открытием новых (User-Non-Specific).
Коллаборативная фильтрация для поиска новых источников: Для Exploration используются методы SVD и PMI. Это означает, что сайт будет рекомендован новым пользователям, если он поведенчески похож на сайты, которые эти пользователи уже читают (схожесть аудитории или совместное потребление).
Многоступенчатое машинное обучение: Применяется несколько уровней MLA: один для офлайн-квалификации источников, второй для онлайн-выбора источников (SVD/PMI), и третий для финального ранжирования контента.

Практика

Best practices (это мы делаем)

Рекомендации направлены на повышение шансов сайта быть принятым в рекомендательную систему Яндекса и увеличить охват внутри нее.

Улучшение общесайтовых поведенческих метрик: Фокусируйтесь на увеличении глубины просмотра (HPV) и времени на сайте (MTIME). Это ключевые факторы для расчета Source Suitability Parameter. Используйте качественную перелинковку и блоки рекомендаций для удержания пользователя.
Регулярное обновление контента: Поддерживайте высокий темп публикаций. Система отдает предпочтение источникам с динамичным контентом.
Оптимизация структуры URL для статейного контента: Если вы публикуете новости или статьи, рассмотрите возможность включения даты публикации в URL. Признаки DPV/DPH явно используются системой для идентификации подходящих форматов контента.
Диверсификация и качество трафика: Система анализирует профиль источников трафика (Direct, Search, Social и т.д.). Развивайте разные каналы привлечения аудитории, особенно прямые заходы, что свидетельствует о лояльности.
Стимулирование поведенческой схожести с лидерами ниши: Для успешной работы алгоритмов Exploration (SVD/PMI) ваш сайт должен привлекать аудиторию, схожую с аудиторией других качественных ресурсов. Стремитесь к пересечению аудиторий с авторитетными источниками.

Worst practices (это делать не надо)

Использование кликбейта для краткосрочного привлечения трафика: Если трафик привлекается, но не удерживается (низкий MTIME, низкий HPV), это негативно скажется на Network Resource Profile и может привести к исключению из пула источников.
Публикация редко обновляемого или узконишевого контента: Сайты с редкими обновлениями могут быть классифицированы как непригодные источники для динамичной ленты рекомендаций.
Игнорирование внутренней перелинковки и юзабилити: Плохая навигация напрямую снижает метрики HPV и MTIME, что негативно сказывается на оценке пригодности источника.

Стратегическое значение

Патент подтверждает, что для успеха в рекомендательных системах Яндекса критически важен холистический подход к качеству ресурса. Недостаточно создать хороший контент; необходимо обеспечить положительный пользовательский опыт на уровне всего сайта и сформировать четкие поведенческие паттерны у аудитории. Стратегия должна быть направлена на формирование лояльного ядра аудитории и обеспечение высоких метрик вовлеченности, что является фундаментом для работы как алгоритмов квалификации источников, так и механизмов коллаборативной фильтрации.

Практические примеры

Сценарий 1: Повышение Source Suitability Parameter (Процесс А)

Проблема: Новостной сайт получает мало трафика из рекомендательной системы из-за низкого Source Suitability Parameter. Метрики показывают низкий HPV (1.2).
Действия (на основе патента):
- Внедрение бесконечной ленты или эффективных блоков «Читайте также» после каждой статьи для увеличения HPV.
- Проверка структуры URL, чтобы убедиться, что новости имеют дату в адресе для корректного учета DPV.
Ожидаемый результат: Улучшение поведенческих метрик ведет к пересчету Network Resource Profile в офлайн-процессе и повышению Source Suitability Parameter.

Сценарий 2: Увеличение охвата через Exploration (Процесс Б, PMI)

Проблема: Тематический блог читает только лояльная аудитория (User-Specific), но он редко предлагается новым пользователям (User-Non-Specific). Вероятно, низкая совместная встречаемость (co-occurrence) с другими ресурсами.
Действия (на основе патента):
- Анализ интересов аудитории крупных тематических порталов.
- Создание контента, который пересекается с интересами этой аудитории, чтобы стимулировать посещение обоих ресурсов.
- Активное продвижение, таргетированное на аудиторию смежных по тематике крупных ресурсов.
Ожидаемый результат: Увеличение случаев, когда блог и крупные порталы посещаются совместно. Алгоритм PMI идентифицирует эту связь, и блог начинает чаще предлагаться читателям этих порталов как User-Non-Specific Source.

Вопросы и ответы

Относится ли этот патент к основному поиску Яндекса или только к рекомендательным системам (Дзен)?

Патент напрямую описывает механизмы работы именно рекомендательной системы. Он не описывает ранжирование в основном веб-поиске. Однако он дает ценное понимание того, как Яндекс в целом оценивает качество сайтов на основе агрегированных поведенческих факторов, что может косвенно влиять и на другие сервисы.

Что такое Source Suitability Parameter и почему он важен?

Source Suitability Parameter (Параметр пригодности источника) — это оценка, которую Яндекс вычисляет в офлайн-режиме, чтобы определить, подходит ли сайт в принципе для использования в рекомендательной системе. Он основан на общих поведенческих метриках сайта. Если этот параметр ниже порога, контент с сайта, скорее всего, не попадет в рекомендации, независимо от его содержания.

Какие поведенческие метрики наиболее важны для попадания в рекомендации согласно патенту?

Патент перечисляет множество метрик, но ключевыми для оценки вовлечения являются Hits per Visit (HPV) — глубина просмотра, и Time Spent (MTIME) — время на ресурсе. Также важны метрики лояльности, такие как Visits per User (VPU), и анализ профиля источников трафика (доли поиска, соцсетей, прямых заходов).

В чем разница между User-Specific и User-Non-Specific источниками?

User-Specific источники — это сайты, с которыми пользователь уже знаком и взаимодействовал ранее (Exploitation). Они гарантируют базовую релевантность. User-Non-Specific источники — это новые для пользователя сайты, подобранные системой для расширения его кругозора (Exploration). Баланс между ними определяет разнообразие ленты.

Как Яндекс находит «новые» (User-Non-Specific) источники, которые могут мне понравиться?

Для этого используются методы коллаборативной фильтрации — SVD и PMI. SVD ищет пользователей со схожими вкусами и предлагает источники, которые понравились им. PMI анализирует, какие сайты часто посещаются вместе (co-occurrence). Если многие читатели сайта А также читают сайт Б, система порекомендует сайт Б другим читателям сайта А.

Влияет ли частота обновления контента на моем сайте на получение трафика из рекомендаций?

Да, критически влияет. Система предпочитает источники с «быстрым темпом» («fast paced» content), то есть часто обновляемые. Также используются метрики, связанные с датами в URL (DPV, DPH), что подтверждает фокус на свежем контенте. Редко обновляемые сайты имеют меньше шансов пройти фильтр Source Suitability.

Имеет ли смысл включать дату в URL страниц для лучшей индексации в рекомендательных системах?

Согласно патенту, да. Система явно использует признаки Dated-pages per visit (DPV) и Dated-pages per hit (DPH), которые основаны на анализе URL, содержащих дату. Для новостных сайтов, блогов и медиа это может быть сигналом, помогающим системе классифицировать контент как подходящий для рекомендаций.

Что такое User-profile-vector и как он используется?

User-profile-vector — это математическое представление интересов пользователя, основанное на истории его взаимодействий. Он используется дважды: во-первых, в алгоритме SVD для поиска похожих источников путем сравнения с векторами других пользователей и ресурсов; во-вторых, на финальном этапе ранжирования (Второй ML-алгоритм) для определения релевантности конкретного материала.

Мой сайт имеет качественный контент, но плохие поведенческие факторы. Есть ли шанс попасть в рекомендации?

Шансы минимальны. Первый этап системы — офлайн-оценка пригодности источника (Source Suitability) — в значительной степени основан на агрегированных поведенческих метриках. Если у сайта низкое время вовлечения и глубина просмотра, он, скорее всего, будет отфильтрован еще до анализа качества конкретных статей.

Как SEO-специалист может повлиять на коллаборативную фильтрацию (SVD/PMI)?

Напрямую повлиять сложно, но можно создать условия для ее активации. Необходимо привлекать на сайт аудиторию, которая также читает другие авторитетные ресурсы в вашей тематике. Если система увидит пересечение аудиторий (SVD) или совместное посещение (PMI), она начнет ассоциировать ваш сайт с этими авторитетными ресурсами и рекомендовать его их читателям.