Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс оценивает и отбирает сайты в качестве источников для Рекомендательных Систем (например, Дзен) на основе поведения пользователей и структуры трафика

    METHOD AND APPARATUS FOR SELECTING A NETWORK RESOURCE AS A SOURCE OF CONTENT FOR A RECOMMENDATION SYSTEM (Метод и устройство для выбора сетевого ресурса в качестве источника контента для рекомендательной системы)
    • EP3267389A1
    • Yandex LLC
    • 2018-01-10
    • 2017-07-07
    2018 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

    Яндекс патентует механизм предварительной квалификации сайтов для рекомендательных систем. Система использует машинное обучение для оценки «Параметра Пригодности Источника» (Source Suitability Parameter) на основе анализа поведенческих метрик (глубина просмотра, время на сайте) и профиля трафика (источники переходов). Только сайты, прошедшие этот фильтр качества, допускаются в пул контента для рекомендаций.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему эффективности и масштабируемости систем персональных рекомендаций. Анализ контента из всех доступных сетевых ресурсов требует огромных вычислительных мощностей и времени, что затрудняет генерацию рекомендаций в реальном времени. Изобретение предлагает механизм предварительной квалификации (pre-qualification) источников в офлайн-режиме. Это позволяет отсеять неподходящие ресурсы (например, редко обновляемые или узконишевые) и сфокусировать ресурсы системы только на перспективных источниках.

    Что запатентовано

    Запатентован метод и система для автоматического определения пригодности сетевого ресурса (сайта) в качестве источника контента для рекомендательной системы (например, Яндекс Дзен). Суть изобретения заключается в использовании обученного алгоритма машинного обучения (Machine Learning Algorithm) для расчета Параметра Пригодности Источника (Source Suitability Parameter). Этот параметр рассчитывается на основе профиля сайта, сформированного из множества поведенческих и трафиковых признаков, а не анализа самого контента.

    Как это работает

    Система работает преимущественно в офлайн-режиме для оценки источников. Она собирает множество признаков о сайте (например, глубина просмотра, время на сайте, источники трафика, наличие дат в URL). На основе этих признаков формируется Профиль сетевого ресурса (Network Resource Profile). Обученная ML-модель анализирует профиль и определяет, является ли сайт подходящим источником (например, похож ли он на СМИ или популярный блог). Если вычисленный Source Suitability Parameter превышает заданный порог, контент с этого ресурса извлекается и передается в рекомендательную систему для дальнейшего персонализированного ранжирования.

    Актуальность для SEO

    Высокая. Рекомендательные системы являются стратегическим направлением для Яндекса и крупным источником трафика для издателей. Описанные механизмы фильтрации источников на основе машинного обучения и поведенческих данных остаются фундаментом для обеспечения качества и эффективности таких систем в 2025 году.

    Важность для SEO

    Влияние на SEO значительно (7/10), но специфично. Патент не описывает ранжирование в основном веб-поиске Яндекса. Однако он критически важен для понимания того, как попасть в рекомендательные системы Яндекса. Он раскрывает конкретные поведенческие метрики и характеристики трафика, которые Яндекс анализирует для допуска сайта в пул источников. Если сайт не проходит эту квалификацию, он не получит охвата в рекомендациях.

    Детальный разбор

    Термины и определения

    DPV (Dated-pages per visit) / DPH (Dated-pages per hit)
    Количество страниц с датой в URL, просмотренных пользователем за визит или за переход (хит). Ключевой признак для определения новостного или часто обновляемого контента.
    Features (Признаки)
    Характеристики сетевого ресурса. Делятся на Absolute (например, общее число визитов) и Relative (например, среднее число хитов на пользователя). Также могут генерироваться Derivative Features (Производные признаки) из базовых.
    HPV (Hits per visit) / HPU (Hits per user)
    Глубина просмотра. Количество переходов (хитов) внутри ресурса за один визит или в среднем на пользователя.
    LPS (Last domain per session)
    Был ли данный ресурс последним доменом, посещенным в рамках пользовательской сессии. Может указывать на удовлетворенность пользователя.
    MTIME (Time spent on the network resource)
    Время, проведенное на сетевом ресурсе.
    Network Resource Profile (Профиль сетевого ресурса)
    Набор признаков (вектор), описывающий сайт. В данном патенте профиль строится преимущественно на основе поведенческих и трафиковых метрик.
    PMI (Pointwise Mutual Information) и SVD (Singular Value Decomposition)
    Алгоритмы коллаборативной фильтрации. Упоминаются в патенте (FIG. 5) как методы для поиска новых, неспецифичных для пользователя источников (User-non-specific sources) на основе поведения похожих пользователей.
    Source Suitability Parameter (Параметр Пригодности Источника)
    Оценка, генерируемая моделью машинного обучения, которая показывает, насколько ресурс подходит для использования в качестве источника контента для рекомендательной системы.
    Visit Sources (Источники переходов)
    Откуда приходят пользователи на ресурс. Патент выделяет: TT_GR (прямой доступ), TT_SE (поисковые системы), TT_SN (социальные сети), TT_IM (мессенджеры), TT_AD (рекламные платформы).

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на методе предварительной квалификации источников контента для рекомендательных систем.

    Claim 1 (Независимый пункт, FIG.4): Описывает основной процесс отбора сетевого ресурса.

    1. Сервер получает индикацию сетевого ресурса.
    2. Сервер получает множество признаков (Features), связанных с этим ресурсом.
    3. Генерируется Профиль сетевого ресурса (Network Resource Profile) на основе этих признаков.
    4. Выполняется алгоритм машинного обучения (предварительно обученный, Claim 2), который на основе профиля определяет Параметр Пригодности Источника (Source Suitability Parameter). Этот параметр показывает, склонен ли ресурс публиковать контент, который может быть обработан рекомендательной системой.
    5. Если параметр выше предопределенного порога, из ресурса извлекается как минимум одна единица контента для передачи в рекомендательную систему.

    Это система фильтрации источников, работающая, вероятно, в офлайн-режиме. Она использует агрегированные данные о поведении пользователей и трафике для оценки качества и типа ресурса, не анализируя сам контент.

    Claims 3 и 4: Уточняют, что признаки включают как абсолютные, так и относительные метрики, и что система может генерировать производные признаки.

    Claims 5, 6, 7: Перечисляют конкретные примеры признаков: пропорции источников визитов, поведенческие метрики (HPV, DPV, MTIME и т.д.) и абсолютные показатели трафика.

    Claims 8 и 9: Уточняют, что система может выполнять отбор признаков (Feature Selection). Claim 9 определяет конкретное подмножество ключевых признаков:

    • Пропорции посещений главной страницы.
    • Пропорции посещений страниц с датой в URL (DPV/DPH).
    • Профиль источников трафика (Visit Sources).
    • Пропорция сессий, где ресурс был последним (LPS).

    Яндекс определяет пригодность источника по комбинации свежести (даты в URL), вовлеченности (внутренние переходы, LPS) и качества трафика (профиль источников).

    Где и как применяется

    Изобретение применяется в рамках Рекомендательной Системы Яндекса (например, Дзен) на ранних этапах конвейера обработки данных.

    CRAWLING – Сканирование и Сбор данных

    • Система обнаруживает новые сетевые ресурсы с помощью краулера.
    • Система собирает данные о взаимодействии пользователей с ресурсами (логи браузера, данные счетчиков вроде Яндекс Метрики, логи поисковой системы), необходимые для расчета признаков.

    INDEXING & FEATURE EXTRACTION (Офлайн-обработка)

    • Извлечение признаков: Для каждого ресурса рассчитываются агрегированные поведенческие и трафиковые метрики (HPV, DPV, MTIME, Visit Sources и т.д.).
    • Оценка пригодности: Происходит предварительная квалификация источников. Модуль выбора источников использует обученный MLA для расчета Source Suitability Parameter. Неподходящие источники отфильтровываются. Это основной этап применения патента.

    RANKING (Ранжирование в рекомендательной системе)

    • Только контент из ресурсов, прошедших квалификацию, попадает на этап ранжирования. В патенте также кратко описан (FIG. 5) процесс персонализации, где система смешивает известные пользователю источники и новые, используя методы коллаборативной фильтрации (SVD или PMI).

    На что влияет

    • Типы контента и ресурсов: Алгоритм явно предпочитает ресурсы с «быстрым темпом» (fast paced) обновления контента, такие как новостные агрегаторы, СМИ и блоги. Это подтверждается использованием признаков, связанных с датами в URL (DPV, DPH).
    • Исключение ресурсов: Система отсеивает ресурсы, не подходящие для массовых рекомендаций, например, узконишевые сайты, личные страницы с редкими обновлениями или сайты с низкими показателями вовлеченности.
    • Географические аспекты: Механизм полезен при запуске на новых территориях для быстрой оценки локальных ресурсов. Признаки могут группироваться по географии посетителей.

    Когда применяется

    • Офлайн-обработка: Оценка пригодности источника (Source Suitability) в основном выполняется заранее (офлайн), при обнаружении нового ресурса или при периодическом пересмотре статуса существующих.
    • Онлайн-обработка: Выбор конкретных единиц контента из уже одобренных источников и их персонализированное ранжирование происходит в ответ на запрос пользователя.

    Пошаговый алгоритм

    Процесс квалификации источника (на основе FIG. 4):

    1. Обнаружение ресурса: Получение индикации сетевого ресурса (например, от краулера).
    2. Сбор признаков: Получение множества поведенческих и трафиковых признаков, связанных с ресурсом (из логов, счетчиков).
    3. Генерация Профиля: Формирование Network Resource Profile. Это включает:
      • Генерацию производных признаков (например, с помощью логарифмирования) и нормализацию данных.
      • Отбор признаков (Feature Selection): Выбор наиболее предиктивного подмножества (например, DPV, LPS, Visit Sources).
    4. Выполнение ML-модели: Применение обученного алгоритма машинного обучения (например, логистической регрессии или случайного леса) к профилю ресурса.
    5. Определение пригодности: Расчет Source Suitability Parameter.
    6. Фильтрация: Сравнение параметра с предопределенным порогом.
    7. Выбор контента: Если порог превышен, ресурс помечается как пригодный. Из него извлекаются единицы контента для передачи в рекомендательную систему.

    Какие данные и как использует

    Данные на входе

    Система использует исключительно поведенческие и трафиковые факторы для оценки пригодности источника. Контентные факторы (анализ текста, заголовков) на этом этапе не используются.

    • Поведенческие факторы (Агрегированные): Данные о взаимодействии множества пользователей с ресурсом.
      • Глубина просмотра: HPV (Хитов на визит), HPU (Хитов на пользователя).
      • Время на сайте: MTIME.
      • Вовлеченность и паттерны навигации: LPS (Последний домен в сессии), посещение главной страницы (MPV/MPH).
      • Лояльность: VPU (Визитов на пользователя).
    • Трафиковые факторы (Visit Sources): Объем трафика и структура источников:
      • TT_GR (Прямой доступ).
      • TT_SE (Поисковые системы).
      • TT_SN (Социальные сети).
      • TT_AD (Рекламные платформы) и др.
    • Технические / Структурные факторы:
      • Наличие дат в URL страниц: DPV/DPH. Используется как индикатор типа контента (новостной, обновляемый).

    Какие метрики используются и как они считаются

    • Source Suitability Parameter: Основная вычисляемая метрика. Рассчитывается с помощью обученной модели машинного обучения.
    • Алгоритмы машинного обучения: В патенте упоминаются логистическая регрессия, наивный Байес, k-ближайших соседей, случайный лес (Random Forest). Модель обучается на размеченных асессорами данных (пригоден/непригоден).
    • Обработка признаков: Система генерирует производные признаки из базовых (упоминаются логарифмические, сигмоидальные функции) и нормализует данные.
    • Feature Selection: Процесс выбора наиболее значимых признаков. Патент выделяет ключевое подмножество в Claim 9 (DPV, LPS, профиль трафика, посещение главной страницы).

    Выводы

    1. Квалификация источника основана на поведении и трафике, а не на контенте: Чтобы быть принятым в качестве источника для рекомендательных систем Яндекса, сайт должен демонстрировать определенные паттерны поведения пользователей и структуру трафика. Анализ качества текста на этом этапе не производится.
    2. Ключевые сигналы пригодности — вовлеченность и свежесть: Метрики вовлеченности (HPV, MTIME, LPS) и признаки частого обновления контента (наличие дат в URL — DPV/DPH) являются критически важными для прохождения фильтра.
    3. Структура трафика имеет значение: Система анализирует профиль источников переходов (доля прямого, поискового, социального трафика). Разнообразный и качественный трафик может свидетельствовать о популярности ресурса.
    4. Предпочтение отдается медиа-формату: Система настроена на выявление СМИ, блогов и агрегаторов. Нишевые или редко обновляемые сайты с меньшей вероятностью пройдут квалификацию.
    5. Офлайн-оценка для эффективности: Процесс квалификации выполняется преимущественно офлайн, что позволяет рекомендательной системе быстро работать в реальном времени, оперируя уже одобренным пулом контента.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на повышение шансов сайта быть классифицированным как пригодный источник (Suitable Source) для рекомендательных систем Яндекса (например, Дзен).

    • Улучшение поведенческих метрик вовлеченности: Сфокусируйтесь на увеличении глубины просмотра (Hits per Visit) и времени на сайте (MTIME). Используйте качественную внутреннюю перелинковку, блоки «Читать далее» и релевантные рекомендации внутри сайта. Стремитесь к тому, чтобы ваш сайт был последним в сессии пользователя (высокий LPS).
    • Диверсификация и качество источников трафика: Развивайте не только SEO-трафик (TT_SE), но и привлекайте пользователей из социальных сетей (TT_SN), мессенджеров (TT_IM) и работайте над увеличением прямых заходов (TT_GR). Разнообразный профиль качественного трафика является важным признаком для ML-модели.
    • Структурирование URL для контентных проектов: Если сайт регулярно обновляется (новости, блог), рассмотрите возможность включения даты публикации в URL. Патент явно выделяет признаки DPV/DPH (просмотр страниц с датами в URL) как важные для идентификации свежего контента.
    • Стимулирование лояльности аудитории: Работайте над повышением возвращаемости пользователей (Visits per User). Используйте email-рассылки, push-уведомления и создавайте контент, который мотивирует пользователей возвращаться.
    • Использование систем аналитики (Яндекс Метрика): Патент указывает, что данные могут собираться через виджеты отслеживания (tracking widgets). Использование Метрики обеспечивает Яндексу необходимую видимость поведенческих данных для анализа и квалификации сайта.

    Worst practices (это делать не надо)

    • Использование «накруток» поведенческих факторов: Попытки искусственно завысить MTIME или HPV. Паттерны такого трафика вряд ли будут соответствовать профилю качественного источника, который ищет ML-модель.
    • Закупка низкокачественного трафика: Привлечение нецелевого трафика (например, с бирж, ботов). Если профиль трафика будет состоять из некачественных источников с низким вовлечением, сайт будет признан непригодным.
    • Публикация редко обновляемого контента: Сайты, которые редко обновляются, с меньшей вероятностью пройдут порог пригодности, так как система ищет источники для регулярных рекомендаций.
    • Использование кликбейта для генерации хитов: Если кликбейт приводит к низкому времени на сайте (MTIME) из-за разочарования пользователя, это ухудшит профиль ресурса.

    Стратегическое значение

    Патент подтверждает, что для успеха в экосистеме рекомендательных продуктов Яндекса недостаточно просто создавать контент. Стратегическое значение имеют качество аудитории, ее вовлеченность и техническая структура сайта. Долгосрочная стратегия должна включать развитие бренда, формирование лояльной аудитории и улучшение пользовательского опыта на сайте, чтобы соответствовать требованиям ML-модели к «пригодному источнику».

    Практические примеры

    Сценарий: Повышение пригодности новостного сайта для рекомендательной системы

    1. Анализ текущего состояния: Новостной сайт имеет низкую глубину просмотра (HPV = 1.2) и структуру URL без дат. Трафик в основном из социальных сетей (TT_SN).
    2. Действия по оптимизации (Технические): Изменение структуры URL на формат с датой (site.ru/2025/11/27/article-slug). Это позволит системе лучше рассчитывать метрики DPV/DPH и идентифицировать свежесть.
    3. Действия по оптимизации (Вовлеченность): Внедрение блока перелинковки и бесконечной ленты похожих новостей в конце статьи для увеличения HPV и MTIME.
    4. Действия по оптимизации (Трафик): Запуск email-рассылки для увеличения прямых заходов (TT_GR) и диверсификации профиля трафика.
    5. Ожидаемый результат: Улучшение поведенческих метрик и профиля трафика приводит к перерасчету Source Suitability Parameter в сторону увеличения. Сайт проходит порог пригодности и начинает получать трафик из рекомендательной системы.

    Вопросы и ответы

    Описывает ли этот патент факторы ранжирования в основном поиске Яндекса?

    Нет, этот патент не относится к ранжированию в основном веб-поиске. Он описывает исключительно процесс отбора (квалификации) сайтов в качестве источников контента для рекомендательных систем Яндекса (например, Дзен). Это фильтр на входе в систему рекомендаций.

    Что такое «Параметр Пригодности Источника» (Source Suitability Parameter)?

    Это оценка, которую вычисляет алгоритм машинного обучения на основе анализа поведенческих и трафиковых характеристик сайта. Она показывает, насколько сайт подходит для использования в качестве источника массовых рекомендаций. Если этот параметр выше определенного порога, контент сайта допускается в рекомендательную систему.

    Какие поведенческие факторы наиболее важны согласно патенту?

    Патент выделяет несколько ключевых метрик. Наиболее важными являются глубина просмотра (Hits per Visit — HPV), время, проведенное на ресурсе (MTIME), и метрики лояльности (Visits per User — VPU). Также критически важен анализ источников трафика и метрика LPS (был ли сайт последним в сессии).

    Почему система обращает внимание на наличие дат в URL (DPV/DPH)?

    Наличие дат в URL является сильным индикатором того, что контент регулярно обновляется и имеет новостной или блоговый характер. Рекомендательные системы нуждаются в постоянном притоке свежего контента, поэтому такие ресурсы считаются более «пригодными» источниками по сравнению со статичными или редко обновляемыми сайтами.

    Как Яндекс собирает данные о поведении пользователей и источниках трафика?

    В патенте упоминаются несколько возможных источников данных: логи поисковой системы, логи браузера (например, Яндекс.Браузер), а также виджеты отслеживания ресурсов (resource tracking widgets), такие как Яндекс Метрика. Эти данные агрегируются для расчета метрик по каждому ресурсу.

    Влияет ли качество контента (текста) на отбор источника?

    На этапе квалификации источника, описанном в этом патенте, анализ качества самого текста не производится. Система оценивает источник исключительно по поведенческим и трафиковым признакам. Анализ качества и тематики конкретной статьи происходит позже, уже внутри рекомендательной системы, но только если источник прошел первичный отбор.

    Что делать, если мой сайт не попадает в рекомендательную систему Яндекса?

    Согласно этому патенту, необходимо работать над улучшением общих показателей сайта. Это включает увеличение вовлеченности пользователей (глубина, время), диверсификацию источников трафика и обеспечение регулярного обновления контента. Убедитесь, что Яндекс имеет доступ к данным о вашем трафике (например, через Метрику).

    Что такое абсолютные и относительные признаки, упомянутые в патенте?

    Абсолютные признаки — это общие количественные показатели, например, общее число посетителей сайта за месяц. Относительные признаки — это нормализованные метрики, такие как средняя глубина просмотра на одного посетителя (HPV) или процент прямых заходов в общем трафике. Система использует комбинацию обоих типов для более точной оценки.

    Патент упоминает SVD и PMI в описании (FIG. 5). Как они используются?

    SVD и PMI упоминаются во второй части описания патента, касающейся самого процесса генерации рекомендаций (не квалификации источников). Они используются для коллаборативной фильтрации, чтобы найти новые источники контента (User-non-specific sources), которые пользователь еще не посещал, но которые посещали другие пользователи со схожими интересами.

    Происходит ли оценка источников в реальном времени?

    Нет. Патент подчеркивает, что оценка пригодности источника выполняется преимущественно офлайн (заранее), до того как пользователь запросит рекомендации. Это делается специально для экономии вычислительных ресурсов и ускорения работы системы в реальном времени, так как она работает с уже предварительно одобренным пулом контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.