Как Яндекс оценивает пригодность сайтов для рекомендаций и формирует персональную ленту контента

Патент описывает два ключевых механизма рекомендательных систем Яндекса (например, Дзен). Первый — офлайн-оценка «пригодности» сайтов на основе поведенческих метрик и структуры трафика. Второй — онлайн-генерация ленты, которая смешивает известные пользователю источники с новыми, найденными через коллаборативную фильтрацию (SVD или PMI), и финальное ранжирование контента ML-моделью.

Описание

Какую задачу решает

Патент решает задачу повышения эффективности и релевантности систем рекомендаций контента (таких как Дзен). Он адресует три основные проблемы: (1) необходимость предварительной оценки качества и типа веб-сайтов, чтобы определить их пригодность как источников рекомендаций (особенно актуально при запуске на новых территориях); (2) снижение вычислительной нагрузки при генерации рекомендаций в реальном времени за счет многоэтапного подхода; (3) необходимость баланса между показом контента из уже известных пользователю источников (эксплуатация интереса) и открытием новых релевантных ресурсов (исследование/Discovery).

Что запатентовано

Запатентован способ и система для генерации персонализированных рекомендаций, включающий два основных аспекта. Первый (детально описан в тексте патента) — офлайн-механизм предварительной квалификации сайтов для определения Параметра пригодности источника на основе поведенческих метрик. Второй (описан в Формуле изобретения, Claims 1-22) — двухэтапный процесс генерации ленты: Первый Алгоритм ML (MLA1) выбирает источники, смешивая известные пользователю и новые (найденные через коллаборативную фильтрацию, например SVD или PMI), а Второй Алгоритм ML (MLA2) ранжирует контент из этих источников.

Как это работает

Система работает в двух режимах. В офлайн-режиме она оценивает сайты, анализируя агрегированные поведенческие данные (время на сайте, глубина просмотра, источники трафика) для определения Параметра пригодности источника. В онлайн-режиме, при запросе пользователя, система определяет известные ему источники (Первое подмножество) и с помощью коллаборативной фильтрации (SVD/PMI) находит новые релевантные источники (Второе подмножество). Из объединенного списка выбираются кандидаты контента (например, самые свежие или популярные). Финальное ранжирование выполняется MLA2 на основе Вектора профиля пользователя.

Актуальность для SEO

Высокая. Персонализированные рекомендательные системы являются ключевым элементом современных контентных платформ. Описанная архитектура (предварительная оценка источников, коллаборативная фильтрация SVD/PMI, двухэтапное ранжирование) является актуальной и эффективной моделью для обеспечения вовлеченности пользователей.

Важность для SEO

Влияние на SEO значительно (7/10), особенно для контентных проектов, СМИ и блогов, стремящихся получить трафик из рекомендательных систем Яндекса (Дзен). Патент не описывает ранжирование в органическом поиске, но раскрывает, как Яндекс оценивает качество источников на основе поведенческих метрик (Аспект 1) и как работает дистрибуция контента в персональных лентах (Аспект 2). Это критически важно для оптимизации под Дзен.

Детальный разбор

Термины и определения

DPV (Dated Pages per Visit) / DPH (Dated Pages per Hit): Количество страниц с датой в URL, посещенных пользователем за визит/хит. Используется для оценки пригодности источника (сигнал обновляемого контента).
HPV (Hits per Visit) / HPU (Hits per User): Количество переходов (хитов) между страницами ресурса за визит/на пользователя. Метрика глубины просмотра и вовлеченности.
MTIME (Time spent on network resource): Время, проведенное на сетевом ресурсе. Метрика вовлеченности.
Параметр пригодности источника (Source Suitability Parameter): Метрика, вычисляемая офлайн с помощью ML на основе характеристик сайта. Указывает, подходит ли ресурс для использования в системе рекомендаций (например, часто ли обновляется и интересен ли аудитории).
Первый Алгоритм Машинного Обучения (MLA1): Алгоритм, отвечающий за выбор подмножества рекомендуемых источников для пользователя. Включает логику смешивания известных и новых источников.
Второй Алгоритм Машинного Обучения (MLA2): Финальный алгоритм ранжирования. Ранжирует конкретные элементы контента на основе Вектора профиля пользователя.
Связанные с пользователем источники (Первое подмножество): Источники, с которыми пользователь уже взаимодействовал в прошлом.
Не связанные с пользователем источники (Второе подмножество): Новые для пользователя источники, найденные методами коллаборативной фильтрации (SVD или PMI).
SVD (Singular Value Decomposition, Сингулярное разложение): Метод коллаборативной фильтрации. Используется для поиска новых источников (Второе подмножество) путем разложения матрицы взаимодействий пользователи-источники и анализа Вектора профиля пользователя.
PMI (Pointwise Mutual Information, Точечная взаимная информация): Метод коллаборативной фильтрации. Используется для поиска новых источников (Второе подмножество) на основе частоты совместного появления (co-occurrence) источников во взаимодействиях пользователей.
Вектор профиля пользователя (User Profile Vector): Численное представление интересов и истории взаимодействий пользователя.

Ключевые утверждения (Анализ Claims)

Текст патента описывает два аспекта: (А) Офлайн-оценку пригодности источников и (Б) Онлайн-генерацию рекомендаций. Формула изобретения (Claims 1-22) защищает именно процесс Б.

Claim 1 (Независимый пункт): Описывает основной процесс генерации рекомендаций (Процесс Б).

Система получает запрос на рекомендацию от пользователя.
Выполняется Первый Алгоритм ML (MLA1) для определения подмножества рекомендуемых источников. Этот процесс включает:

Анализ предыдущих взаимодействий пользователя.
Определение Первого подмножества (Связанные с пользователем источники).
Создание Второго подмножества (Не связанные с пользователем источники). Это делается на основе: (i) обученной формулы ML (учитывающей взаимодействия ДРУГИХ пользователей) И (ii) Первого подмножества ИЛИ (iii) Вектора профиля пользователя.
Объединение Первого и Второго подмножеств.

Анализ выбранных источников для выбора множества потенциально рекомендуемых элементов контента.
Выполнение Второго Алгоритма ML (MLA2) для финального выбора и ранжирования элементов на основе Вектора профиля пользователя.

Claims 2-6 (Зависимые пункты): Уточняют методы коллаборативной фильтрации для создания Второго подмножества.

Claims 2-4: Описывают использование SVD. В этом случае новые источники определяются на основе Вектора профиля пользователя (опция iii). Требует предварительного офлайн-расчета матрицы взаимодействий.
Claims 5-6: Описывают использование PMI. В этом случае новые источники определяются на основе Первого подмножества (опция ii), путем анализа совместной встречаемости источников.

Claims 7-9 (Зависимые пункты): Уточняют эвристики для выбора потенциальных элементов контента: самые новые (Claim 7), самые популярные (Claim 8) или специфичные для географической области (Claim 9).

Где и как применяется

Патент описывает архитектуру и логику работы Системы Рекомендаций (например, Дзен), а не основного веб-поиска Яндекса. Система функционирует в двух режимах: офлайн и онлайн.

Офлайн-процессы (Предварительная обработка и обучение)

CRAWLING & Data Acquisition: Сбор данных о сетевых ресурсах и взаимодействиях пользователей (логи браузеров, Метрика, поисковые логи).
INDEXING & Feature Extraction:
- Процесс А: Оценка пригодности источников (Описано в тексте патента): Система предварительно классифицирует сайты. Вычисляются характеристики (HPV, MTIME, DPV, источники трафика). ML-алгоритм определяет Параметр пригодности источника. Если параметр выше порога, сайт допускается в систему рекомендаций.
- Обучение коллаборативных моделей: Анализ логов взаимодействий всех пользователей для построения матрицы «пользователь-ресурс». Выполнение SVD для создания векторов или расчет PMI для определения схожести ресурсов.

Онлайн-процессы (Генерация рекомендаций в реальном времени — Процесс Б)

Процесс активируется при запросе пользователя.

RANKING (Этап 1: Выбор источников): Активируется MLA1. Определяет известные источники (Первое подмножество) и подбирает новые источники (Второе подмножество) с использованием предобученных моделей SVD или PMI.
RANKING (Этап 2: Выбор кандидатов): Извлечение контента из выбранных источников по эвристикам (свежесть, популярность).
RANKING (Этап 3: Финальное ранжирование): Активируется MLA2. Персонализированное ранжирование кандидатов с использованием Вектора профиля пользователя.

На что влияет

Типы контента и Ниши: Наибольшее влияние на контентные проекты, СМИ, блоги. Механизм оценки пригодности источника (Процесс А) отдает предпочтение сайтам с часто обновляемым контентом («быстрое» содержимое) и высоким вовлечением. Узкоспециализированные или редко обновляемые сайты могут быть отсеяны на этапе квалификации.
Поведенческие факторы: Патент демонстрирует прямое использование агрегированных поведенческих метрик для оценки качества и типа веб-сайта (Процесс А).
Разнообразие выдачи: Система (Процесс Б) активно управляет балансом между известным контентом (Exploitation) и открытием нового (Exploration).

Когда применяется

Квалификация источников (Процесс А): Выполняется в офлайн-режиме, регулярно или по мере поступления новых данных о ресурсах и взаимодействиях.
Генерация ленты (Процесс Б): Выполняется в онлайн-режиме при каждом запросе пользователя на получение рекомендаций (например, открытие ленты Дзен).

Пошаговый алгоритм

Патент описывает два ключевых процесса.

Процесс А: Квалификация источника (Офлайн, описано в тексте патента)

Сбор данных: Получение указания на сетевой ресурс (например, от краулера).
Извлечение характеристик: Сбор множества поведенческих и трафиковых характеристик ресурса (HPV, DPV, MTIME, источники трафика и т.д.).
Создание профиля ресурса: Формирование вектора характеристик (включая базовые, производные и нормализованные данные).
Оценка пригодности: Выполнение обученного алгоритма машинного обучения (например, логистическая регрессия, случайный лес) для определения Параметра пригодности источника.
Принятие решения: Если параметр превышает порог, ресурс помечается как пригодный источник для системы рекомендаций.

Процесс Б: Генерация ленты рекомендаций (Онлайн, соответствует Claim 1)

Получение запроса: Система получает запрос от пользователя.
Этап 1: Выбор источников (MLA1)

Анализ истории: Определение Первого подмножества (известные источники) и извлечение Вектора профиля пользователя.
Поиск новых источников (Второе подмножество):
- Вариант SVD: Умножение Вектора профиля пользователя на предобученные векторы ресурсов для ранжирования и выбора новых источников.
- Вариант PMI: Анализ Первого подмножества и поиск источников, которые часто встречаются совместно с ними у других пользователей (на основе PMI скоров).
Объединение: Комбинирование и взвешивание Первого и Второго подмножеств.

Этап 2: Выбор кандидатов контента: Извлечение конкретных элементов контента из выбранных источников по эвристикам (например, Топ-5 самых свежих или популярных статей). Применение фильтров (язык, география).
Этап 3: Финальное ранжирование (MLA2): Ранжирование кандидатов для конкретного пользователя с использованием Вектора профиля пользователя.
Выдача: Формирование ленты рекомендаций.

Какие данные и как использует

Данные на входе

Система критически зависит от поведенческих данных, собираемых из разных источников (логи браузера, поисковой системы, виджеты отслеживания типа Метрики).

Для квалификации источников (Процесс А):

Поведенческие факторы (Агрегированные):
- Метрики вовлеченности: HPV (Хиты за визит), MTIME (Время на сайте).
- Метрики лояльности: VPU (Визиты на пользователя).
- Метрики сессий: LPS/FPS (Последний/первый домен за сессию).
Структурные факторы:
- DPV/DPH (Страницы с датой в URL) — индикатор обновляемости контента.
- MPV/MPH (Посещения домашних страниц).
Трафиковые факторы (Источники визита): TT_GR (прямой), TT_SE (поиск), TT_SN (соцсети), TT_IM (сообщения), TT_US (сокращатели ссылок), TT_AD (реклама).

Для генерации ленты (Процесс Б):

Поведенческие факторы (Индивидуальные и агрегированные): История взаимодействий пользователя (для Вектора профиля и Первого подмножества). История взаимодействий ВСЕХ пользователей (для обучения SVD/PMI).
Временные факторы: Свежесть контента (для выбора кандидатов).
Географические и Языковые факторы: Используются для фильтрации контента.

Какие метрики используются и как они считаются

Параметр пригодности источника: Вычисляется с помощью ML-модели (упомянуты логистическая регрессия, Байес, k-NN, случайный лес). Вход — вектор характеристик сайта (Профиль ресурса). Выход — скор пригодности, сравниваемый с порогом.
SVD (Сингулярное разложение): Применяется к матрице взаимодействий (Пользователи х Источники). Матрица разлагается, позволяя получить векторные представления. Схожесть вычисляется путем умножения Вектора профиля пользователя на векторы ресурсов.
PMI (Точечная взаимная информация): Рассчитывается как пропорция числа совместных возникновений двух ресурсов к произведению их индивидуальных частот возникновений. Измеряет статистическую связь (co-occurrence).
Вектор профиля пользователя: Численное представление истории и интересов пользователя, используемое как вход для SVD и MLA2.

Выводы

Квалификация источника — первый барьер (Процесс А): Яндекс использует сложный офлайн-процесс для предварительной оценки сайтов. Сайты должны доказать свою пригодность на основе агрегированных поведенческих метрик (вовлеченность, структура трафика) и типа контента (предпочтение отдается часто обновляемым ресурсам).
Баланс между эксплуатацией и исследованием (Процесс Б): Ядро системы рекомендаций спроектировано для баланса: показ контента из известных источников (Первое подмножество) и открытие новых (Второе подмножество).
Коллаборативная фильтрация для поиска нового: Открытие новых источников основано на методах коллаборативной фильтрации (SVD и PMI). Это означает, что рекомендации формируются на основе поведения похожих пользователей или совместного потребления источников.
Многоэтапное ранжирование: Используется двухэтапный подход ML: сначала отбор источников (MLA1), затем ранжирование контента (MLA2). Это оптимизирует скорость и позволяет использовать разные модели для разных задач.
Поведенческие данные как фундамент: Все процессы — от оценки пригодности источников до персонализации ленты — критически зависят от сбора и анализа данных о поведении пользователей (логи, Метрика).

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию сайта для попадания в рекомендательные системы Яндекса (Дзен) и максимизацию трафика из них.

Оптимизация под Квалификацию Источника (Процесс А):

Повышайте метрики вовлеченности: Работайте над увеличением глубины просмотра (HPV) и времени на сайте (MTIME). Используйте качественный контент, внутреннюю перелинковку и удобную навигацию.
Сигнализируйте об обновлениях (DPV): Патент выделяет метрику DPV (страницы с датой в URL) как важную характеристику. Если это уместно для вашего контента (новости, блог), используйте даты в ЧПУ и регулярно публикуйте материалы.
Диверсифицируйте источники трафика: Система анализирует профиль трафика (поиск, соцсети, прямые заходы). Здоровый баланс источников может положительно влиять на оценку пригодности.
Формируйте лояльную аудиторию: Метрики вроде VPU (Визиты на пользователя) указывают на качество аудитории. Работайте над возвращаемостью пользователей.

Оптимизация под Генерацию Ленты (Процесс Б):

Формируйте четкие поведенческие связи (PMI): Создавайте контент, который потребляется вместе с авторитетными ресурсами в вашей нише. Если ваша аудитория пересекается с аудиторией лидеров мнений, алгоритмы коллаборативной фильтрации будут рекомендовать ваш сайт их читателям.
Работайте над свежестью и популярностью: Система использует эвристики выбора самых новых (Claim 7) или самых популярных (Claim 8) материалов. Обеспечьте постоянный поток качественного и потенциально вирального контента.

Worst practices (это делать не надо)

Создание сайтов с низким вовлечением (MFA, дорвеи): Сайты, оптимизированные только под сбор трафика без заботы о глубине просмотра или времени на сайте, будут классифицированы как непригодные источники (Процесс А).
Редкое обновление контента: Система рекомендаций ищет «быстрый» контент. Статичные или редко обновляемые сайты с меньшей вероятностью пройдут квалификацию источника.
Привлечение нецелевого или смешанного трафика: Разнородная аудитория размывает профиль сайта, что затрудняет работу коллаборативной фильтрации (SVD/PMI) и снижает эффективность рекомендаций (Процесс Б).

Стратегическое значение

Патент демонстрирует, как Яндекс использует большие данные о поведении пользователей для автоматической оценки качества и типа ресурсов, а также для генерации персонализированных рекомендаций. Для SEO-стратегии это означает, что успех в рекомендательных системах требует комплексного подхода: соответствия требованиям к качеству источника (высокая вовлеченность, регулярные обновления) и формирования четких аудиторных сегментов, которые позволят алгоритмам коллаборативной фильтрации эффективно работать.

Практические примеры

Сценарий 1: Повышение Параметра пригодности источника (Процесс А)

Задача: Блог о технологиях хочет пройти квалификацию как источник для Дзена.
Действия: Внедрение URL с датами публикаций (увеличение DPV). Оптимизация внутренней перелинковки и добавление видеообзоров для увеличения глубины просмотра (HPV) и времени на сайте (MTIME). Активное продвижение в тематических Telegram-каналах и соцсетях (диверсификация трафика TT_SN).
Ожидаемый результат: Алгоритм офлайн-оценки фиксирует улучшение ключевых метрик и классифицирует блог как пригодный источник, открывая доступ к трафику из системы рекомендаций.

Сценарий 2: Использование механизма PMI для рекомендации нового сайта (Процесс Б)

Ситуация: Пользователь регулярно читает сайты о путешествиях по Алтаю (Сайт А и Сайт Б). Это его Первое подмножество.
Анализ системы: Система знает, что многие другие пользователи, читающие Сайты А и Б, также часто читают новый Сайт В (форум о походах на Алтае). У пар (Сайт А, Сайт В) и (Сайт Б, Сайт В) высокий скор PMI (частая совместная встречаемость).
Генерация рекомендаций: MLA1 использует механизм PMI. Основываясь на высоком PMI, система добавляет Сайт В во Второе подмножество (новые источники) для данного пользователя.
Результат: Пользователь видит рекомендацию контента с Сайта В в своей ленте, хотя никогда ранее его не посещал.

Вопросы и ответы

Этот патент описывает алгоритмы ранжирования в основном поиске Яндекса?

Нет. Патент напрямую описывает механизмы работы системы рекомендаций контента (например, Дзен), а не основного веб-поиска. Он фокусируется на выборе источников и персонализации ленты на основе коллаборативной фильтрации и поведенческих данных. Это отдельная система со своими алгоритмами.

Что такое «Параметр пригодности источника» и почему он важен?

Это внутренняя метрика, которая определяет, подходит ли веб-сайт в качестве источника для системы рекомендаций. Она рассчитывается офлайн (Процесс А) на основе агрегированных поведенческих и трафиковых характеристик сайта. Если параметр низкий, сайт отсеивается и его контент не будет попадать в ленты рекомендаций, независимо от его релевантности.

Какие поведенческие факторы Яндекс использует для оценки пригодности сайтов?

В патенте упоминается множество метрик. Ключевые из них — это показатели вовлеченности: HPV (Хиты за визит или глубина просмотра) и MTIME (Время, проведенное на ресурсе). Также важны метрики лояльности (VPU — Визиты на пользователя), структура сайта (наличие дат в URL — DPV) и профиль источников трафика (доли прямого, поискового, социального трафика).

В чем разница между Первым и Вторым подмножеством источников?

Первое подмножество — это сайты, которые пользователь уже знает и посещал ранее (Связанные с пользователем источники). Второе подмножество — это новые для пользователя сайты, которые система нашла как потенциально интересные с помощью коллаборативной фильтрации (Не связанные с пользователем источники). Система смешивает их для баланса.

Как работают SVD и PMI и для чего они нужны?

Это два разных метода коллаборативной фильтрации для поиска новых источников (Второго подмножества). SVD (Сингулярное разложение) анализирует общие паттерны поведения всех пользователей и предсказывает интерес на основе Вектора профиля пользователя. PMI (Точечная взаимная информация) измеряет, как часто два сайта посещаются вместе (co-occurrence), и рекомендует новые сайты, которые часто «сопутствуют» уже известным пользователю ресурсам.

Как я могу использовать знание о PMI для продвижения своего сайта в рекомендациях?

PMI основан на совместной встречаемости. Если ваш сайт часто посещают в одной сессии с авторитетными ресурсами вашей тематики, у вас будет высокий PMI с ними. Стратегически нужно создавать контент и выстраивать дистрибуцию так, чтобы привлекать аудиторию, которая уже читает лидеров ниши. Это увеличит вероятность того, что ваш сайт будет рекомендован их читателям.

В чем разница между Первым (MLA1) и Вторым (MLA2) алгоритмами машинного обучения?

MLA1 работает на уровне источников (сайтов). Его задача — отобрать релевантные сайты для пользователя, используя коллаборативную фильтрацию. MLA2 работает на уровне элементов контента (статей). Его задача — из уже отобранного пула контента отранжировать то, что будет показано в ленте, используя персональный Вектор профиля пользователя.

Влияет ли свежесть или популярность контента на попадание в ленту?

Да, влияет. После того как источник отобран (MLA1), система выбирает из него конкретные материалы. Патент явно указывает (Claims 7 и 8), что для этого могут использоваться эвристики выбора «самых новых» или «самых популярных» элементов. Поэтому регулярные публикации и работа над вовлеченностью критически важны.

Почему механизм оценки пригодности источников описан в тексте патента, но не включен в основную формулу изобретения (Claims 1-22)?

Формула изобретения (Claims) определяет конкретный юридически защищаемый объем инновации. В данном случае фокус в Claims сделан на методе персонализации в реальном времени (смешивание источников через SVD/PMI). Оценка пригодности источника является важным, но вспомогательным офлайн-процессом предварительной фильтрации, который может рассматриваться отдельно от основного изобретения.

Актуален ли этот патент для интернет-магазинов?

Для основного каталога товаров — маловероятно, так как система фокусируется на информационном и развлекательном контенте. Однако, если у магазина есть качественный блог с обзорами и статьями, который соответствует критериям пригодного источника (высокая вовлеченность, частые обновления), то этот патент актуален для получения трафика на блог через систему рекомендаций.