Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс отбирает источники и персонализирует контент для своих Рекомендательных Систем (например, Дзен)

    METHOD AND APPARATUS FOR GENERATING A CONTENT RECOMMENDATION IN A RECOMMENDATION SYSTEM (Метод и устройство для генерации контентных рекомендаций в рекомендационной системе)
    • EP3267386A1
    • Yandex LLC
    • 2018-01-10
    • 2017-07-07
    2018 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

    Патент Яндекса описывает двухкомпонентную систему генерации персональных рекомендаций. Первый компонент (офлайн) оценивает качество и пригодность сайтов (Source Suitability) на основе агрегированных поведенческих метрик и трафика. Второй компонент (онлайн) формирует ленту, смешивая контент из известных пользователю источников с новыми, подобранными с помощью коллаборативной фильтрации (SVD/PMI), и затем персонально ранжирует их.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу масштабирования и повышения эффективности систем рекомендаций контента (например, Дзен). Основные проблемы — огромный объем потенциальных источников и вычислительная сложность анализа всего контента в реальном времени. Изобретение направлено на (1) предварительный отбор (pre-qualification) качественных источников контента в офлайн-режиме для снижения нагрузки и (2) эффективное совмещение контента из известных пользователю источников (Exploitation) с открытием нового (Exploration), обеспечивая релевантность и разнообразие.

    Что запатентовано

    Запатентована система генерации контентных рекомендаций, состоящая из двух ключевых механизмов. Первый механизм (описанный в FIG. 4) использует ML-модель для оценки пригодности сетевого ресурса (Source Suitability Parameter) на основе его поведенческих и трафиковых характеристик. Второй механизм (описанный в FIG. 5 и Claims 1-15) формирует персональную ленту, комбинируя user-specific sources (известные) и user-non-specific sources (новые), подобранные методами коллаборативной фильтрации (SVD, PMI), с последующим персональным ранжированием.

    Как это работает

    Система работает в двух режимах:

    Офлайн (Квалификация источников): Система анализирует агрегированные поведенческие метрики ресурса (например, Hits per visit, Time spent, источники трафика). На основе этих данных формируется Network Resource Profile. ML-алгоритм оценивает этот профиль и присваивает Source Suitability Parameter. Если он выше порога, контент с ресурса попадает в пул системы рекомендаций.

    Онлайн (Генерация рекомендаций): При запросе пользователя система определяет известные ему источники. Затем она ищет новые похожие источники, используя данные других пользователей (коллаборативная фильтрация SVD/PMI). Из этих двух групп отбираются кандидаты (например, самые свежие или популярные). Финальный ML-алгоритм ранжирует этих кандидатов на основе user-profile-vector для формирования ленты.

    Актуальность для SEO

    Высокая. Рекомендательные системы являются стратегическим направлением для Яндекса. Описанные механизмы — оценка качества источников через поведенческие метрики и использование коллаборативной фильтрации (SVD, PMI) для баланса персонализации и новизны — являются стандартными и актуальными подходами в современных системах рекомендаций.

    Важность для SEO

    Влияние на SEO значительно (7/10), но специфично. Патент напрямую не относится к ранжированию в основном веб-поиске, но критически важен для оптимизации под трафик из рекомендательных систем (Recommendation System Optimization). Он раскрывает конкретные поведенческие метрики, по которым Яндекс оценивает пригодность сайта как источника. Для попадания в эту экосистему сайт должен демонстрировать высокое вовлечение пользователей и регулярное обновление контента.

    Детальный разбор

    Термины и определения

    DPV (Dated-pages per visit) / DPH (Dated-pages per hit)
    Количество страниц с датой в URL, посещенных пользователем за визит/хит. Используется как индикатор того, что ресурс содержит новостной или статейный контент.
    First Machine Learning Algorithm (Первый ML-алгоритм)
    Алгоритм в онлайн-процессе, отвечающий за отбор источников контента для пользователя. Он комбинирует User-Specific и User-Non-Specific источники.
    HPV (Hits per visit) / HPU (Hits per user)
    Количество хитов (переходов между страницами) за визит или в среднем на пользователя. Метрика вовлеченности.
    MTIME (Time spent on the network resource)
    Время, проведенное на сетевом ресурсе.
    Network Resource Profile (Профиль сетевого ресурса)
    Набор признаков, описывающий ресурс. Включает агрегированные поведенческие метрики (HPV, MTIME, источники трафика и т.д.). Используется для оценки пригодности источника.
    PMI (Pointwise Mutual Information)
    Алгоритм коллаборативной фильтрации. Используется для поиска новых источников на основе анализа совместной встречаемости (co-occurrence) ресурсов в сессиях пользователей.
    Second Machine Learning Algorithm (Второй ML-алгоритм)
    Финальный алгоритм ранжирования в онлайн-процессе. Отбирает и ранжирует конкретные материалы из списка кандидатов на основе user-profile-vector.
    Source Suitability Parameter (Параметр пригодности источника)
    Оценка, генерируемая ML-алгоритмом в офлайн-режиме. Указывает, подходит ли сетевой ресурс для публикации контента, пригодного для рекомендательной системы (например, часто обновляемый контент).
    SVD (Singular Value Decomposition)
    Алгоритм коллаборативной фильтрации. Используется для разложения матрицы взаимодействий (пользователи х ресурсы) на векторы. Позволяет находить новые ресурсы на основе близости векторов пользователей и ресурсов.
    User-Non-Specific Content Sources (Второй набор источников)
    Источники, с которыми пользователь ранее не взаимодействовал. Добавляются для открытия нового контента (Exploration/Discovery).
    User-Specific Content Sources (Первый набор источников)
    Источники, с которыми пользователь взаимодействовал в прошлом (Exploitation).

    Ключевые утверждения (Анализ Claims)

    Патент описывает два основных процесса: (А) Оценка пригодности источников (детально описана в Description, FIG. 4) и (Б) Генерация персональных рекомендаций (защищена Claims 1-15, FIG. 5).

    Процесс А: Оценка пригодности источников (На основе Description):

    Этот механизм направлен на предварительный отбор ресурсов, подходящих для рекомендательной системы.

    1. Система получает индикацию сетевого ресурса и извлекает множество признаков (поведенческие метрики, трафик).
    2. Генерируется Network Resource Profile на основе этих признаков.
    3. Использование обученного ML-алгоритма для определения Source Suitability Parameter на основе профиля. Этот параметр показывает, склонен ли ресурс публиковать контент, пригодный для системы.
    4. Если параметр выше порога, контент с ресурса отбирается для последующей обработки.

    Процесс Б: Генерация персональных рекомендаций (На основе Claims 1-15):

    Claim 1 (Независимый пункт): Описывает основной метод генерации рекомендации в ответ на запрос.

    1. Система получает запрос на рекомендацию.
    2. Выполняется Первый ML-алгоритм для определения набора рекомендованных источников. Этот процесс включает:
      1. Получение данных о прошлых взаимодействиях пользователя (user-past-interactions).
      2. Определение Первого набора User-Specific Sources (известные пользователю).
      3. Генерация Второго набора User-Non-Specific Sources (новые). Это делается на основе (i) обученной ML-формулы (коллаборативная фильтрация), использующей взаимодействия других пользователей, И (ii) данных текущего пользователя (Первый набор источников ИЛИ user-profile-vector).
      4. Обработка Первого и Второго наборов для формирования финального набора источников.
    3. Анализ рекомендованных источников для выбора кандидатов (потенциально рекомендуемых единиц контента).
    4. Выполняется Второй ML-алгоритм для выбора и ранжирования финальных рекомендаций из кандидатов на основе user-profile-vector.

    Claims 2-6 (Зависимые): Уточняют, что для генерации Второго набора (User-Non-Specific) могут использоваться алгоритмы SVD (Claims 2-4) или PMI (Claims 5-6).

    Claims 7-8 (Зависимые): Уточняют, что отбор кандидатов из источников может осуществляться путем выбора предопределенного числа самых свежих (Claim 7) или самых популярных (Claim 8) материалов.

    Где и как применяется

    Изобретение применяется не в архитектуре основного веб-поиска, а в рамках отдельной Рекомендательной Системы (например, Дзен). Процесс разделен на офлайн и онлайн фазы.

    CRAWLING & INDEXING (Офлайн-процессы / Оценка источников)

    Здесь применяется Процесс А (Квалификация источников).

    • Входные данные: URL ресурса, агрегированные поведенческие данные (логи браузеров, счетчики типа Яндекс.Метрики).
    • Процесс: Система генерирует Network Resource Profile и рассчитывает Source Suitability Parameter.
    • Выходные данные: Список квалифицированных источников, контент которых индексируется для пула рекомендаций. Это позволяет отсеять неподходящие ресурсы до запроса пользователя.

    RANKING (Онлайн-процессы / Генерация рекомендаций)

    Здесь применяется Процесс Б. Активируется в момент запроса пользователя.

    • Этап 1 (Отбор источников): Первый ML-алгоритм определяет персональный набор источников, смешивая известные (User-Specific) и новые (User-Non-Specific). Для поиска новых используются предобученные модели SVD или PMI.
    • Этап 2 (Отбор кандидатов): Из выбранных источников извлекаются конкретные материалы (например, по свежести/популярности).
    • Этап 3 (Ранжирование): Второй ML-алгоритм выполняет финальное ранжирование кандидатов на основе user-profile-vector.

    На что влияет

    • Типы контента: Система предпочитает ресурсы с часто обновляемым контентом (новости, блоги, агрегаторы) — на это указывает использование признаков вроде DPV (страницы с датой в URL). Статические или узконишевые сайты с меньшей вероятностью пройдут фильтр Source Suitability.
    • Видимость в рекомендациях: Патент напрямую влияет на то, будет ли сайт вообще допущен к показам (Процесс А) и как часто он будет предлагаться новым пользователям через механизм Exploration (Процесс Б).

    Когда применяется

    • Процесс А (Квалификация): Выполняется периодически в офлайн-режиме для обновления пула источников или при обнаружении нового ресурса краулером.
    • Процесс Б (Генерация рекомендаций): Выполняется в реальном времени каждый раз, когда пользователь запрашивает ленту рекомендаций (например, открывает приложение или новую вкладку браузера с лентой).

    Пошаговый алгоритм

    Процесс А: Оценка пригодности источника (Офлайн)

    1. Сбор данных: Получение индикации о сетевом ресурсе.
    2. Извлечение признаков: Сбор множества поведенческих признаков, связанных с ресурсом (HPV, MTIME, DPV, источники трафика и т.д.).
    3. Генерация профиля: Создание Network Resource Profile. Может включать генерацию производных признаков (например, логарифмирование) и нормализацию.
    4. Вычисление оценки: Выполнение обученного ML-алгоритма (например, логистическая регрессия, случайный лес) для определения Source Suitability Parameter.
    5. Применение порога: Если параметр выше порога, ресурс считается пригодным.
    6. Индексация контента: Отбор контента с пригодного ресурса для добавления в пул рекомендательной системы.

    Процесс Б: Генерация персональной рекомендации (Онлайн)

    1. Получение запроса: Получение запроса от пользователя.
    2. Идентификация пользователя: Получение user-past-interactions и user-profile-vector.
    3. Отбор известных источников (Exploitation): Определение Первого набора (User-Specific Sources).
    4. Отбор новых источников (Exploration): Генерация Второго набора (User-Non-Specific Sources) с помощью коллаборативной фильтрации:
      • Вариант SVD: Использование user-profile-vector для поиска близких ресурсов на основе поведения похожих пользователей.
      • Вариант PMI: Расчет близости (co-occurrence) между известными источниками и другими ресурсами в сессиях других пользователей.
    5. Формирование пула источников: Объединение или выборка из Первого и Второго наборов.
    6. Отбор кандидатов: Выбор конкретных материалов из пула источников (например, Топ-N самых свежих/популярных).
    7. Ранжирование (Второй ML-алгоритм): Персональное ранжирование отобранных кандидатов на основе user-profile-vector.
    8. Выдача: Формирование ленты рекомендаций.

    Какие данные и как использует

    Данные на входе

    Патент описывает использование большого количества поведенческих факторов, как на уровне ресурса (для Процесса А), так и на уровне пользователя (для Процесса Б).

    Поведенческие факторы (Агрегированные на уровне ресурса, Процесс А):

    • Метрики вовлечения: Hits per visit (HPV), Time spent (MTIME), Home page per visit (MPV), Hits per user (HPU), Visits per user (VPU).
    • Метрики сессий: Sessions per visit (SPV), Last/First domain per session (LPS/FPS), Hits per session (HPS), Sessions per user (SPU).

    Структурные / Технические факторы (Процесс А):

    • Наличие даты в URL: Используется для метрик Dated-pages per visit (DPV) и Dated-pages per hit (DPH). Помогает идентифицировать новостной или блоговый контент.

    Источники трафика (Процесс А):

    • Доли переходов: Поисковые системы (TT_SE), Социальные сети (TT_SN), Прямые заходы (TT_GR), Мессенджеры (TT_IM), Рекламные платформы (TT_AD), Сокращатели ссылок (TT_US).

    Пользовательские факторы (Персональные, Процесс Б):

    • User-past-interactions: История взаимодействий пользователя.
    • Географические и языковые настройки: Упоминаются как критерии для фильтрации контента.

    Какие метрики используются и как они считаются

    • Source Suitability Parameter: Рассчитывается ML-моделью (упомянуты логистическая регрессия, наивный Байес, k-NN, Random Forest). Модель обучается на основе Network Resource Profile.
    • Network Resource Profile: Вектор поведенческих признаков. Патент упоминает использование абсолютных и относительных признаков, а также генерацию производных признаков (например, через логарифмирование) и нормализацию (mean=0, stddev=1).
    • Коллаборативная фильтрация:
      • SVD: Разложение матрицы взаимодействий для получения латентных векторов пользователей и ресурсов. Ранк рассчитывается как произведение векторов.
      • PMI: Метрика, рассчитывающая отношение частоты совместного появления двух ресурсов к произведению частот их индивидуальных появлений.

    Выводы

    1. Квалификация источников основана на поведении, а не только на контенте: Яндекс использует механизм предварительного отбора сайтов (Процесс А). Этот отбор (Source Suitability) базируется на анализе общих паттернов трафика и вовлеченности аудитории сайта (MTIME, HPV), а не только на анализе текстов статей.
    2. Структура сайта и частота обновлений имеют значение: Явно выделяются признаки, связанные с датами в URL (DPV, DPH). Это указывает на приоритет ресурсов с регулярно обновляемым, «fast paced» контентом (новости, статьи).
    3. Явное разделение Exploitation и Exploration: Система в реальном времени (Процесс Б) активно управляет балансом между контентом из известных пользователю источников (User-Specific) и открытием новых (User-Non-Specific).
    4. Коллаборативная фильтрация для поиска новых источников: Для Exploration используются методы SVD и PMI. Это означает, что сайт будет рекомендован новым пользователям, если он поведенчески похож на сайты, которые эти пользователи уже читают (схожесть аудитории или совместное потребление).
    5. Многоступенчатое машинное обучение: Применяется несколько уровней MLA: один для офлайн-квалификации источников, второй для онлайн-выбора источников (SVD/PMI), и третий для финального ранжирования контента.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на повышение шансов сайта быть принятым в рекомендательную систему Яндекса и увеличить охват внутри нее.

    • Улучшение общесайтовых поведенческих метрик: Фокусируйтесь на увеличении глубины просмотра (HPV) и времени на сайте (MTIME). Это ключевые факторы для расчета Source Suitability Parameter. Используйте качественную перелинковку и блоки рекомендаций для удержания пользователя.
    • Регулярное обновление контента: Поддерживайте высокий темп публикаций. Система отдает предпочтение источникам с динамичным контентом.
    • Оптимизация структуры URL для статейного контента: Если вы публикуете новости или статьи, рассмотрите возможность включения даты публикации в URL. Признаки DPV/DPH явно используются системой для идентификации подходящих форматов контента.
    • Диверсификация и качество трафика: Система анализирует профиль источников трафика (Direct, Search, Social и т.д.). Развивайте разные каналы привлечения аудитории, особенно прямые заходы, что свидетельствует о лояльности.
    • Стимулирование поведенческой схожести с лидерами ниши: Для успешной работы алгоритмов Exploration (SVD/PMI) ваш сайт должен привлекать аудиторию, схожую с аудиторией других качественных ресурсов. Стремитесь к пересечению аудиторий с авторитетными источниками.

    Worst practices (это делать не надо)

    • Использование кликбейта для краткосрочного привлечения трафика: Если трафик привлекается, но не удерживается (низкий MTIME, низкий HPV), это негативно скажется на Network Resource Profile и может привести к исключению из пула источников.
    • Публикация редко обновляемого или узконишевого контента: Сайты с редкими обновлениями могут быть классифицированы как непригодные источники для динамичной ленты рекомендаций.
    • Игнорирование внутренней перелинковки и юзабилити: Плохая навигация напрямую снижает метрики HPV и MTIME, что негативно сказывается на оценке пригодности источника.

    Стратегическое значение

    Патент подтверждает, что для успеха в рекомендательных системах Яндекса критически важен холистический подход к качеству ресурса. Недостаточно создать хороший контент; необходимо обеспечить положительный пользовательский опыт на уровне всего сайта и сформировать четкие поведенческие паттерны у аудитории. Стратегия должна быть направлена на формирование лояльного ядра аудитории и обеспечение высоких метрик вовлеченности, что является фундаментом для работы как алгоритмов квалификации источников, так и механизмов коллаборативной фильтрации.

    Практические примеры

    Сценарий 1: Повышение Source Suitability Parameter (Процесс А)

    1. Проблема: Новостной сайт получает мало трафика из рекомендательной системы из-за низкого Source Suitability Parameter. Метрики показывают низкий HPV (1.2).
    2. Действия (на основе патента):
      • Внедрение бесконечной ленты или эффективных блоков «Читайте также» после каждой статьи для увеличения HPV.
      • Проверка структуры URL, чтобы убедиться, что новости имеют дату в адресе для корректного учета DPV.
    3. Ожидаемый результат: Улучшение поведенческих метрик ведет к пересчету Network Resource Profile в офлайн-процессе и повышению Source Suitability Parameter.

    Сценарий 2: Увеличение охвата через Exploration (Процесс Б, PMI)

    1. Проблема: Тематический блог читает только лояльная аудитория (User-Specific), но он редко предлагается новым пользователям (User-Non-Specific). Вероятно, низкая совместная встречаемость (co-occurrence) с другими ресурсами.
    2. Действия (на основе патента):
      • Анализ интересов аудитории крупных тематических порталов.
      • Создание контента, который пересекается с интересами этой аудитории, чтобы стимулировать посещение обоих ресурсов.
      • Активное продвижение, таргетированное на аудиторию смежных по тематике крупных ресурсов.
    3. Ожидаемый результат: Увеличение случаев, когда блог и крупные порталы посещаются совместно. Алгоритм PMI идентифицирует эту связь, и блог начинает чаще предлагаться читателям этих порталов как User-Non-Specific Source.

    Вопросы и ответы

    Относится ли этот патент к основному поиску Яндекса или только к рекомендательным системам (Дзен)?

    Патент напрямую описывает механизмы работы именно рекомендательной системы. Он не описывает ранжирование в основном веб-поиске. Однако он дает ценное понимание того, как Яндекс в целом оценивает качество сайтов на основе агрегированных поведенческих факторов, что может косвенно влиять и на другие сервисы.

    Что такое Source Suitability Parameter и почему он важен?

    Source Suitability Parameter (Параметр пригодности источника) — это оценка, которую Яндекс вычисляет в офлайн-режиме, чтобы определить, подходит ли сайт в принципе для использования в рекомендательной системе. Он основан на общих поведенческих метриках сайта. Если этот параметр ниже порога, контент с сайта, скорее всего, не попадет в рекомендации, независимо от его содержания.

    Какие поведенческие метрики наиболее важны для попадания в рекомендации согласно патенту?

    Патент перечисляет множество метрик, но ключевыми для оценки вовлечения являются Hits per Visit (HPV) — глубина просмотра, и Time Spent (MTIME) — время на ресурсе. Также важны метрики лояльности, такие как Visits per User (VPU), и анализ профиля источников трафика (доли поиска, соцсетей, прямых заходов).

    В чем разница между User-Specific и User-Non-Specific источниками?

    User-Specific источники — это сайты, с которыми пользователь уже знаком и взаимодействовал ранее (Exploitation). Они гарантируют базовую релевантность. User-Non-Specific источники — это новые для пользователя сайты, подобранные системой для расширения его кругозора (Exploration). Баланс между ними определяет разнообразие ленты.

    Как Яндекс находит «новые» (User-Non-Specific) источники, которые могут мне понравиться?

    Для этого используются методы коллаборативной фильтрации — SVD и PMI. SVD ищет пользователей со схожими вкусами и предлагает источники, которые понравились им. PMI анализирует, какие сайты часто посещаются вместе (co-occurrence). Если многие читатели сайта А также читают сайт Б, система порекомендует сайт Б другим читателям сайта А.

    Влияет ли частота обновления контента на моем сайте на получение трафика из рекомендаций?

    Да, критически влияет. Система предпочитает источники с «быстрым темпом» («fast paced» content), то есть часто обновляемые. Также используются метрики, связанные с датами в URL (DPV, DPH), что подтверждает фокус на свежем контенте. Редко обновляемые сайты имеют меньше шансов пройти фильтр Source Suitability.

    Имеет ли смысл включать дату в URL страниц для лучшей индексации в рекомендательных системах?

    Согласно патенту, да. Система явно использует признаки Dated-pages per visit (DPV) и Dated-pages per hit (DPH), которые основаны на анализе URL, содержащих дату. Для новостных сайтов, блогов и медиа это может быть сигналом, помогающим системе классифицировать контент как подходящий для рекомендаций.

    Что такое User-profile-vector и как он используется?

    User-profile-vector — это математическое представление интересов пользователя, основанное на истории его взаимодействий. Он используется дважды: во-первых, в алгоритме SVD для поиска похожих источников путем сравнения с векторами других пользователей и ресурсов; во-вторых, на финальном этапе ранжирования (Второй ML-алгоритм) для определения релевантности конкретного материала.

    Мой сайт имеет качественный контент, но плохие поведенческие факторы. Есть ли шанс попасть в рекомендации?

    Шансы минимальны. Первый этап системы — офлайн-оценка пригодности источника (Source Suitability) — в значительной степени основан на агрегированных поведенческих метриках. Если у сайта низкое время вовлечения и глубина просмотра, он, скорее всего, будет отфильтрован еще до анализа качества конкретных статей.

    Как SEO-специалист может повлиять на коллаборативную фильтрацию (SVD/PMI)?

    Напрямую повлиять сложно, но можно создать условия для ее активации. Необходимо привлекать на сайт аудиторию, которая также читает другие авторитетные ресурсы в вашей тематике. Если система увидит пересечение аудиторий (SVD) или совместное посещение (PMI), она начнет ассоциировать ваш сайт с этими авторитетными ресурсами и рекомендовать его их читателям.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.