Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует двухэтапное машинное обучение и предварительную квалификацию источников для формирования ленты рекомендаций (Дзен)

    METHOD AND APPARATUS FOR GENERATING A CONTENT RECOMMENDATION IN A RECOMMENDATION SYSTEM (Метод и аппаратное обеспечение для генерации рекомендаций контента в рекомендационной системе)
    • US10430481B2
    • Yandex LLC
    • 2019-10-01
    • 2017-05-26
    2019 Патенты Яндекс Рекомендательные системы Холодный старт Яндекс Дзен

    Яндекс использует многоуровневый подход для рекомендательных систем (Дзен). Он включает офлайн-квалификацию источников на основе их трафика и частоты обновлений (Source Suitability). В онлайн-режиме система работает в два этапа: сначала выбирает источники, смешивая известные пользователю сайты с новыми, найденными через коллаборативную фильтрацию (SVD/PMI); затем ранжирует конкретные материалы из этих источников.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает две ключевые задачи в системах рекомендаций контента (таких как Яндекс Дзен). Во-первых, он снижает вычислительную нагрузку и решает проблему «холодного старта» (особенно на новых территориях) за счет механизма офлайн предварительной квалификации источников (Source Suitability). Во-вторых, он улучшает качество ленты, обеспечивая баланс между эксплуатацией (Exploitation) известных пользователю источников и исследованием (Exploration) новых релевантных источников.

    Что запатентовано

    Запатентована архитектура рекомендательной системы, включающая офлайн-квалификацию источников и двухэтапную онлайн-генерацию рекомендаций. Суть изобретения в методе, который сначала использует Первый ML алгоритм (например, SVD или PMI) для выбора релевантных источников (балансируя известные и новые сайты), а затем Второй ML алгоритм для выбора конкретных единиц контента из этих источников на основе User-Profile-Vector.

    Как это работает

    Система работает в двух режимах. В офлайн-режиме (Механизм А) анализируются характеристики сайтов (трафик, частота обновлений, источники визитов) для определения Source Suitability Parameter. В онлайн-режиме (Механизм Б) система выполняет два этапа: Этап 1 определяет известные пользователю источники и использует коллаборативную фильтрацию (SVD/PMI) для поиска новых. Этап 2 выбирает материалы из этих источников (например, самые свежие или популярные) и ранжирует их персонально, используя User-Profile-Vector.

    Актуальность для SEO

    Высокая. Рекомендательные системы (Дзен) являются значительным источником трафика. Описанные методы коллаборативной фильтрации (SVD, PMI), двухэтапная архитектура и предварительная квалификация источников являются стандартной практикой для крупномасштабных систем персонализации.

    Важность для SEO

    Влияние на SEO (6/10). Этот патент не относится к ранжированию в основном веб-поиске Яндекса. Однако он критически важен для оптимизации трафика из рекомендательных платформ (Дзен). Он раскрывает, как Яндекс квалифицирует источники (Source Suitability) и как использует поведение похожих пользователей (коллаборативную фильтрацию) для дистрибуции контента.

    Детальный разбор

    Термины и определения

    First Machine Learning Algorithm Module (Первый модуль ML / First MLA)
    Алгоритм, отвечающий за Этап 1 – выбор подмножества рекомендуемых источников контента. Использует методы коллаборативной фильтрации (SVD или PMI).
    PMI (Pointwise Mutual Information – Поточечная взаимная информация)
    Метрика, используемая в коллаборативной фильтрации для измерения статистической связи (совместной встречаемости) между двумя источниками контента. Помогает найти источники, которые часто потребляются вместе (co-consumption).
    Second Machine Learning Algorithm Module (Второй модуль ML / Second MLA)
    Алгоритм, отвечающий за Этап 2 – выбор и ранжирование финальных рекомендуемых единиц контента на основе User-Profile-Vector.
    Source Suitability Parameter (Параметр пригодности источника)
    Метрика (Механизм А), определяемая в офлайн-режиме. Указывает, подходит ли сетевой ресурс для использования в рекомендательной системе. Основана на анализе характеристик трафика и обновлений ресурса.
    SVD (Singular Value Decomposition – Сингулярное разложение)
    Метод матричной факторизации, используемый в коллаборативной фильтрации. Разлагает матрицу взаимодействий пользователей и источников на латентные факторы для предсказания предпочтений.
    User-Non-Specific Content Sources
    Источники, с которыми пользователь ранее не взаимодействовал, но которые были определены как релевантные на основе поведения похожих пользователей (коллаборативная фильтрация).
    User-Profile-Vector (Вектор профиля пользователя)
    Численное представление интересов пользователя, сгенерированное на основе его прошлых взаимодействий.
    User-Specific Content Sources
    Источники, с которыми пользователь уже взаимодействовал в прошлом (например, посещал, читал, подписывался).

    Ключевые утверждения (Анализ Claims)

    Патент описывает два основных механизма: офлайн-квалификацию источников (Механизм А, описан в спецификации и на Фиг. 4) и онлайн-генерацию рекомендаций (Механизм Б, описан в Claims 1-20 и на Фиг. 5).

    Механизм А: Офлайн-квалификация источников (Анализ Спецификации и Фиг. 4)

    Система определяет пригодность сетевого ресурса в качестве источника для рекомендательной системы. Это критично для снижения нагрузки и обеспечения качества.

    1. Система получает индикацию сетевого ресурса и связанные с ним характеристики (features). Примеры: хиты за визит (HPV), время на сайте (MTIME), источники переходов (TT_SE, TT_SN, TT_GR), наличие страниц с датой в URL (DPV).
    2. Генерируется профиль сетевого ресурса (Network Resource Profile).
    3. Исполняется обученный алгоритм машинного обучения (например, логистическая регрессия, Random Forest), который определяет Source Suitability Parameter. Параметр показывает, является ли ресурс качественным и обновляемым источником.
    4. Если параметр превышает порог, контент из этого источника допускается к дальнейшей обработке в Механизме Б.

    Механизм Б: Онлайн-генерация рекомендаций (Анализ Claim 1)

    Описан процесс генерации рекомендаций в ответ на запрос пользователя.

    1. Система получает запрос на рекомендацию.
    2. Этап 1: Выбор источников. Исполняется First MLA для определения подмножества рекомендуемых источников. Это включает:
      • Определение User-Specific Content Sources (известные источники) на основе истории пользователя.
      • Генерация User-Non-Specific Content Sources (новые источники). Это делается с помощью коллаборативной фильтрации (SVD или PMI – Claims 2-6), обученной на взаимодействиях других пользователей, с учетом данных текущего пользователя (его известных источников И/ИЛИ User-Profile-Vector).
      • Объединение специфических и неспецифических источников.
    3. Выбор кандидатов. Система анализирует выбранные источники для выбора потенциальных единиц контента (Claims 7-9 уточняют: самые свежие, популярные или географически релевантные).
    4. Этап 2: Ранжирование контента. Исполняется Second MLA для выбора финальных рекомендаций. Выбор основан на User-Profile-Vector.

    Где и как применяется

    Этот патент применяется исключительно в рамках Рекомендательных Систем (например, Яндекс Дзен), а не в основном контуре веб-поиска Яндекса.

    CRAWLING & INDEXING (Офлайн-процессы)

    Здесь происходит Механизм А и подготовка данных для Механизма Б.

    • Расчет Source Suitability (Механизм А): Система собирает данные о сетевых ресурсах (паттерны трафика, частота обновлений, источники визитов). Модель ML анализирует эти данные офлайн, чтобы квалифицировать источники.
    • Обучение Коллаборативной Фильтрации: Построение и обновление моделей SVD (матричная факторизация) и PMI (расчет совместной встречаемости) на основе агрегированных логов поведения всех пользователей.

    RANKING (Онлайн-конвейер рекомендаций – Механизм Б)

    Процесс генерации ленты происходит в реальном времени в два этапа:

    1. Этап 1 (Выбор источников): Используется First MLA (SVD или PMI).
      • Вход: История пользователя, User-Profile-Vector, предобученные модели CF.
      • Процесс: Комбинирование известных источников с новыми, найденными через анализ поведения похожих пользователей.
      • Выход: Список рекомендуемых источников.
    2. Этап 2 (Выбор элементов): Используется Second MLA.
      • Вход: Потенциальные элементы контента из Этапа 1 (свежие/популярные), User-Profile-Vector.
      • Процесс: Модель ранжирует конкретные статьи/видео на основе их соответствия вектору интересов пользователя.
      • Выход: Финальный ранжированный список рекомендаций.

    На что влияет

    • Типы контента: Механизм А отдает предпочтение источникам с часто обновляемым контентом (СМИ, блоги, агрегаторы). Статичные сайты или ресурсы с редкими обновлениями с меньшей вероятностью получат высокий Source Suitability Parameter.
    • Дистрибуция контента: Механизм Б определяет, как контент распространяется среди пользователей, особенно влияя на открытие новых авторов через коллаборативную фильтрацию.

    Когда применяется

    • Офлайн-квалификация (Механизм А): Выполняется периодически или при обнаружении нового ресурса, особенно важен при запуске системы на новой территории.
    • Онлайн-генерация (Механизм Б): Активируется в реальном времени каждый раз, когда пользователь запрашивает ленту рекомендаций (например, открывает Дзен).

    Пошаговый алгоритм

    Процесс А: Офлайн-квалификация источников (Source Suitability)

    1. Сбор данных: Получение характеристик сетевого ресурса (трафик, структура URL, источники визитов).
    2. Генерация профиля: Создание профиля ресурса (Network Resource Profile) на основе собранных характеристик.
    3. Вычисление параметра: Применение обученной модели ML для расчета Source Suitability Parameter.
    4. Квалификация: Сравнение параметра с порогом. Если порог превышен, источник квалифицируется как пригодный.

    Процесс Б: Онлайн-генерация рекомендаций

    1. Получение запроса: Система получает запрос на рекомендацию.
    2. Подготовка данных: Генерация или извлечение User-Profile-Vector и идентификация User-Specific Content Sources.
    3. Этап 1 (Выбор источников — First MLA):
      1. Исполнение коллаборативной фильтрации для генерации User-Non-Specific Content Sources.
      2. Путь SVD: Умножение User-Profile-Vector на предварительно рассчитанные векторы ресурсов.
      3. Путь PMI: Анализ совместной встречаемости (co-consumption) User-Specific Sources с другими источниками.
      4. Объединение специфических и неспецифических источников.
    4. Выбор кандидатов: Выбор потенциальных элементов контента из отобранных источников (например, самых свежих или популярных).
    5. Этап 2 (Ранжирование контента — Second MLA): Ранжирование кандидатов на основе User-Profile-Vector.
    6. Выдача: Формирование ленты рекомендаций.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Критические): Ядро системы. Прошлые взаимодействия целевого пользователя и агрегированные данные всех пользователей. Используются для генерации User-Profile-Vector и обучения моделей CF (SVD/PMI).
    • Метрики трафика и Структурные факторы (для Механизма А — Source Suitability):

      • Метрики вовлеченности: Хиты за визит (HPV), Время на ресурсе (MTIME), Хиты за сессию (HPS).
      • Метрики аудитории: Визиты на пользователя (VPU), Сессии на пользователя (SPU).
      • Структура URL: Пропорция страниц с датой в URL (DPV/DPH).
      • Источники трафика: Прямой доступ (TT_GR), Поиск (TT_SE), Социальные сети (TT_SN), Мессенджеры (TT_IM) и др.
      • Данные сессий: Был ли домен первым (FPS) или последним (LPS) в сессии.
    • Временные факторы: Свежесть контента используется при выборе кандидатов между Этапом 1 и Этапом 2.
    • Контентные факторы: Используются на Этапе 2 (Second MLA) для ранжирования конкретных единиц контента.

    Какие метрики используются и как они считаются

    • Source Suitability Parameter: Рассчитывается офлайн с использованием ML-алгоритмов (упомянуты логистическая регрессия, Random Forest и др.) на основе метрик трафика и структурных факторов. Цель – выявить активные, часто обновляемые ресурсы.
    • SVD (Singular Value Decomposition): Метод, который разлагает матрицу взаимодействий «пользователь-источник» для выявления скрытых факторов. Используется для прогнозирования интереса к неизвестным источникам на основе схожести векторов в латентном пространстве.
    • PMI (Pointwise Mutual Information): Метрика, измеряющая связь между двумя источниками на основе их совместного потребления (co-consumption). Рассчитывается как логарифм отношения вероятности совместной встречаемости к произведению вероятностей их отдельной встречаемости.
    • User-Profile-Vector: Векторное представление интересов пользователя.

    Выводы

    1. Два барьера для попадания в рекомендации: Источник должен сначала пройти офлайн-квалификацию (Source Suitability), а затем быть выбранным в онлайн-режиме через двухэтапную систему ранжирования.
    2. Квалификация источника основана на активности: Механизм А (Source Suitability) отдает предпочтение сайтам с высокими показателями вовлеченности трафика и частым обновлением контента. Статичные сайты отсеиваются.
    3. Двухэтапная архитектура онлайн-ранжирования: Процесс разделен на выбор источников (Этап 1) и выбор контента (Этап 2), что позволяет оптимизировать нагрузку и качество.
    4. Баланс известного и нового: Система явно комбинирует источники, которые пользователь уже знает (User-Specific), и новые источники (User-Non-Specific).
    5. Коллаборативная фильтрация как ядро для открытий: Поиск новых источников основан на SVD и PMI. Поведение пользователей на одних сайтах (co-consumption) напрямую влияет на рекомендации других сайтов.
    6. Отличие от веб-поиска: Выводы применимы только к Дзену и не имеют отношения к ранжированию в органическом веб-поиске Яндекса.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на оптимизацию для попадания в рекомендательные системы (Яндекс Дзен).

    • Обеспечение статуса «Пригодного источника» (Source Suitability):
      • Частота публикаций: Регулярно публикуйте контент. Механизм А предпочитает часто обновляемые ресурсы.
      • Вовлеченность трафика: Работайте над увеличением глубины просмотра (HPV) и времени на сайте (MTIME). Эти метрики используются для квалификации источника.
      • Диверсификация трафика: Привлекайте трафик из разных источников (прямые заходы TT_GR, соцсети TT_SN). Здоровый профиль трафика важен для Source Suitability.
    • Оптимизация под Коллаборативную Фильтрацию (SVD/PMI):
      • Стимулирование Co-Consumption: Создавайте контент, который интересен аудитории других качественных тематических сайтов. Если пользователи читают ваш сайт вместе с авторитетными ресурсами, алгоритмы PMI/SVD зафиксируют связь и будут рекомендовать ваш сайт новым пользователям (User-Non-Specific).
      • Формирование лояльной аудитории: Стимулируйте возвраты пользователей. Это закрепляет ваш сайт как User-Specific Source, что является основой для дальнейшего охвата.
    • Приоритет свежести и популярности: При выборе кандидатов система предпочитает свежий или популярный контент. Создавайте актуальные и виральные материалы.

    Worst practices (это делать не надо)

    • Статичный контент и редкие обновления: Сайты с низкой активностью рискуют быть отфильтрованными Механизмом А (low Source Suitability).
    • Изоляция в узкой нише без пересечений: Если контент не имеет тематических пересечений с другими ресурсами, алгоритмам CF (SVD/PMI) будет сложнее найти похожих пользователей и рекомендовать источник.
    • Кликбейт и низкое вовлечение: Плохие поведенческие метрики негативно скажутся на оценке Source Suitability и на эффективности коллаборативных сигналов.

    Стратегическое значение

    Патент подтверждает, что стратегия для рекомендательных систем Яндекса фундаментально отличается от традиционного SEO. Приоритет отдается метрикам вовлеченности, частоте обновлений и паттернам совместного потребления контента (коллаборативные сигналы). Долгосрочная стратегия должна строиться на создании активного ресурса, который становится частью привычного медиапотребления целевой аудитории.

    Практические примеры

    Сценарий 1: Прохождение фильтра Source Suitability (Механизм A)

    1. Ситуация: Запущен новый медиа-сайт о технологиях.
    2. Действия: Обеспечивается ежедневная публикация контента. Активно привлекается трафик из соцсетей (TT_SN) и стимулируются прямые заходы (TT_GR). Ведется работа над увеличением глубины просмотра (HPV).
    3. Анализ системы (Офлайн): Система видит высокую частоту обновлений, хорошие показатели HPV и MTIME, а также здоровый профиль трафика.
    4. Результат: Система присваивает сайту высокий Source Suitability Parameter, и он допускается к участию в генерации рекомендаций (Механизм Б).

    Сценарий 2: Использование PMI для расширения охвата (Механизм Б)

    1. Ситуация: Пользователь регулярно читает крупный сайт об автомобилях (Сайт А). Это его User-Specific Source.
    2. Анализ системы: Алгоритм PMI обнаружил, что многие пользователи, которые читают Сайт А, также часто читают Сайт Б (обзоры мотоциклов). Между ними высокая оценка PMI (co-consumption).
    3. Действие системы (Этап 1): При генерации ленты система добавляет Сайт Б в список User-Non-Specific Sources, основываясь на его связи с Сайтом А.
    4. Результат (Этап 2): Пользователь видит в своей ленте рекомендацию свежего материала с Сайта Б, хотя раньше на него не заходил.

    Вопросы и ответы

    Описывает ли этот патент работу основного поиска Яндекса?

    Нет. Патент описывает архитектуру и методы работы Recommendation System (Системы Рекомендаций), например, Яндекс Дзен. Механизмы, описанные здесь, отличаются от архитектуры ранжирования основного веб-поиска и не должны применяться к SEO под SERP.

    Что такое Механизм A (Source Suitability) и зачем он нужен?

    Это система предварительной офлайн-квалификации источников. Она анализирует метрики трафика и вовлеченности сайта (время на сайте, глубина просмотра, источники трафика, частота обновлений), чтобы определить, подходит ли сайт для участия в системе рекомендаций. Это позволяет отсеять неактивные или некачественные ресурсы и снизить нагрузку на систему.

    Какие метрики трафика важны для прохождения фильтра Source Suitability?

    Патент упоминает множество метрик. Ключевыми являются показатели вовлеченности: время на сайте (MTIME), глубина просмотра (HPV), количество сессий на пользователя (SPU). Также важны источники трафика: прямые заходы (TT_GR), социальные сети (TT_SN), поиск (TT_SE). Сайты с хорошими показателями и частыми обновлениями имеют больше шансов пройти фильтр.

    Как система балансирует между тем, что я уже люблю, и новым контентом?

    Система использует гибридный подход на Этапе 1. Она идентифицирует User-Specific Sources (то, что вы уже читаете) и активно добавляет User-Non-Specific Sources (новые источники, подобранные через коллаборативную фильтрацию). Финальный набор источников является комбинацией обоих типов.

    В чем разница между SVD и PMI в контексте этого патента?

    Оба метода используются для коллаборативной фильтрации. SVD (Сингулярное разложение) — это метод матричного разложения, который ищет скрытые связи и схожесть профилей пользователей. PMI (Поточечная взаимная информация) измеряет, насколько часто два источника потребляются вместе (co-consumption), фокусируясь на связи между самими источниками.

    Как SEO-специалист может использовать знание о PMI в своих интересах?

    Нужно добиваться того, чтобы ваш контент потреблялся вместе с другими качественными ресурсами (co-consumption). Если пользователи, читающие авторитетный Сайт А, также читают ваш Сайт Б, между ними формируется сильная связь PMI. Это приведет к тому, что ваш Сайт Б будет рекомендоваться другим читателям Сайта А. Стратегически важно попадать в тот же контекст потребления, что и лидеры ниши.

    В патенте упоминаются Первый (First MLA) и Второй (Second MLA) модули машинного обучения. За что они отвечают?

    First MLA отвечает за Этап 1 — выбор источников контента. Он использует коллаборативную фильтрацию (SVD/PMI), чтобы определить, какие сайты рекомендовать. Second MLA отвечает за Этап 2 — финальное ранжирование конкретных материалов (статей) из этих источников, используя User-Profile-Vector.

    Как система решает, какие именно статьи выбрать из рекомендованного источника?

    После того как источник выбран (Этап 1), система переходит к выбору кандидатов (между Этапом 1 и 2). Патент указывает, что для этого могут использоваться эвристики: выбор самых свежих материалов (most recent) или самых популярных материалов (most popular).

    Что важнее для попадания в Дзен: качество контента или поведенческие факторы сайта?

    Оба аспекта критически важны и тесно связаны. Поведенческие факторы сайта (трафик, вовлеченность) необходимы для прохождения первичного фильтра Source Suitability (Механизм А) и для работы коллаборативной фильтрации (Механизм Б). Качество и релевантность самого контента играют решающую роль на финальном этапе ранжирования (Second MLA).

    Используются ли текстовые факторы или эмбеддинги в этой системе?

    Текстовые факторы и эмбеддинги явно не описаны как основа для выбора источников (First MLA), который больше опирается на коллаборативную фильтрацию. Однако они, вероятнее всего, используются на втором этапе (Second MLA) для сопоставления конкретной единицы контента с вектором профиля пользователя (User-Profile-Vector) при финальном ранжировании.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.