Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс отбирает сайты-источники для рекомендательной системы и персонализирует ленту контента

    METHOD AND APPARATUS FOR SELECTING A NETWORK RESOURCE AS A SOURCE OF CONTENT FOR A RECOMMENDATION SYSTEM (Метод и устройство для выбора сетевого ресурса в качестве источника контента для рекомендательной системы)
    • US10706325B2
    • Yandex LLC
    • 2020-07-07
    • 2017-05-26
    2020 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

    Яндекс патентует двухэтапный механизм для системы рекомендаций контента (например, Дзен). Первый этап – офлайн-квалификация источников: система использует машинное обучение для анализа поведенческих и трафиковых метрик сайта (источники трафика, глубина просмотра, наличие дат в URL), чтобы определить его пригодность. Второй этап – персонализация: система смешивает контент из известных пользователю источников с новым контентом, используя алгоритмы коллаборативной фильтрации (SVD, PMI).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу эффективного отбора качественных источников контента для системы рекомендаций и задачу персонализации выдачи. Основная проблема – огромный объем потенциальных источников и высокие вычислительные затраты на анализ их контента в реальном времени. Изобретение позволяет перенести процесс квалификации источников в офлайн-режим. Также решается задача «холодного старта» при запуске системы на новой территории и задача «открытия» нового контента для пользователя путем смешивания известных и неизвестных источников.

    Что запатентовано

    Запатентована система и метод для отбора сетевых ресурсов в качестве источников контента для рекомендательной системы. Суть изобретения в использовании обученной модели машинного обучения для оценки Source Suitability Parameter (Параметр пригодности источника) на основе профиля ресурса (Network Resource Profile). Этот профиль строится на агрегированных поведенческих и трафиковых метриках сайта. Если параметр превышает порог, контент сайта допускается в систему. Также детально описан метод персонализации, смешивающий User-Specific и User-Non-Specific источники с помощью алгоритмов коллаборативной фильтрации.

    Как это работает

    Система работает в два основных этапа. Этап 1 (Квалификация источника): Система собирает множество признаков о сетевом ресурсе (например, источники трафика, время на сайте, глубина просмотра, наличие дат в URL). На основе этих признаков формируется профиль ресурса. Модель машинного обучения (например, логистическая регрессия или случайный лес) анализирует профиль и вычисляет Source Suitability Parameter. Если он выше порога, ресурс считается пригодным. Этот процесс выполняется офлайн. Этап 2 (Персонализация): При запросе пользователя система определяет известные ему источники (User-Specific) и с помощью алгоритмов SVD или PMI находит похожие, но неизвестные ему источники (User-Non-Specific). Контент из обеих групп смешивается и ранжируется для финальной выдачи.

    Актуальность для SEO

    Высокая. Описанные механизмы лежат в основе современных крупномасштабных систем рекомендаций контента (content discovery platforms), таких как Дзен. Квалификация источников на основе трафиковых паттернов и использование коллаборативной фильтрации (SVD, PMI) для персонализации являются стандартными и актуальными подходами в индустрии.

    Важность для SEO

    Влияние на SEO значительно (8/10), но специфично. Патент не описывает ранжирование в классическом веб-поиске, но критически важен для оптимизации сайтов под рекомендательные системы Яндекса. Он определяет критерии, по которым сайт может быть принят в качестве источника контента. Попадание в систему рекомендаций может генерировать значительный объем трафика. Патент подчеркивает важность качества трафика, вовлеченности аудитории и структуры контента (например, новостной характер) для отбора в качестве источника.

    Детальный разбор

    Термины и определения

    Source Suitability Parameter (Параметр пригодности источника)
    Оценка, вычисляемая моделью машинного обучения. Указывает на вероятность того, что сетевой ресурс публикует контент, подходящий для обработки рекомендательной системой. Отражает «новостной» или часто обновляемый характер ресурса.
    Network Resource Profile (Профиль сетевого ресурса)
    Набор признаков (вектор), характеризующий сетевой ресурс. Основывается на агрегированных поведенческих и трафиковых метриках.
    User-Specific Content Sources
    Источники, с которыми пользователь уже взаимодействовал в прошлом (известные).
    User-Non-Specific Content Sources
    Источники, с которыми пользователь ранее не взаимодействовал, но которые определены системой как потенциально релевантные (новые).
    SVD (Singular Value Decomposition)
    Алгоритм коллаборативной фильтрации (разложение матрицы). Используется для генерации векторов ресурсов и пользователей и поиска User-Non-Specific источников.
    PMI (Pointwise Mutual Information)
    Алгоритм коллаборативной фильтрации. Используется для поиска User-Non-Specific источников путем анализа совместной посещаемости ресурсов разными пользователями.
    Ключевые поведенческие и структурные метрики:
    • DPV (Dated-pages per visit) / DPH: Количество страниц с датой в URL за визит/хит. Индикатор свежести контента.
    • HPV (Hits per visit) / HPU: Хиты за визит / на пользователя. Индикатор глубины просмотра.
    • MTIME: Время, проведенное на ресурсе.
    • LPS (Last domain per session): Был ли ресурс последним в сессии пользователя. Сигнал удовлетворенности.
    • VPU (Visits per user): Визиты на пользователя. Индикатор лояльности.
    Источники Трафика (Traffic Sources):
    • TT_GR: Прямой доступ (Direct).
    • TT_SE: Поисковые системы.
    • TT_SN: Социальные сети.
    • TT_IM: Мессенджеры/Почта.

    Ключевые утверждения (Анализ Claims)

    Патент описывает два ключевых аспекта: (А) Квалификация источников контента (Claims 1-19) и (Б) Персонализация и обогащение ленты рекомендаций (Описание, FIG. 5).

    Аспект А: Квалификация источников (Claims 1-19)

    Claim 1 (Независимый пункт): Описывает основной метод выбора сетевого ресурса как источника контента.

    1. Система получает индикацию сетевого ресурса и связанные с ним признаки.
    2. Генерируется Профиль сетевого ресурса (Network Resource Profile).
    3. Выполняется алгоритм машинного обучения (MLA), который на основе профиля определяет Параметр пригодности источника (Source Suitability Parameter).
    4. Критически важно: Этот процесс выполняется ДО получения запроса на рекомендацию от пользователя (офлайн-квалификация).
    5. При получении запроса от пользователя: Если параметр пригодности выше порога, из этого ресурса выбирается контент для подачи в рекомендательную систему для дальнейшей обработки (персонализации и ранжирования).

    Claim 6 (Зависимый пункт): Уточняет типы признаков, используемых для профиля. Это обширный список относительных поведенческих и трафиковых метрик.

    Включает: HPV, DPV (страницы с датой в URL), MTIME (время), LPS (последний домен в сессии), VPU (визиты на пользователя), а также все источники трафика (TT_GR, TT_SE, TT_SN и т.д.).

    Claim 9 (Зависимый пункт): Определяет конкретный, наиболее важный поднабор признаков (Feature Selection), используемый для квалификации.

    Этот ключевой набор состоит из:

    • Пропорция посещений главной страницы.
    • Пропорция посещений страниц с датой в URL (DPV/DPH).
    • Профиль источников трафика (пропорции Поиска, Соцсетей, Прямых заходов и т.д.).
    • Пропорция сессий, где ресурс был последним (LPS).

    Аспект Б: Персонализация и обогащение (Описано в тексте патента, FIG. 5)

    Текст патента также детально описывает метод генерации рекомендаций (Method 500), который включает смешивание известных и неизвестных источников.

    1. При запросе пользователя выполняется первый MLA для определения набора рекомендуемых источников.
    2. Система анализирует историю пользователя и определяет User-Specific Content Sources (известные).
    3. Система генерирует User-Non-Specific Content Sources (новые). Это делается с помощью алгоритмов коллаборативной фильтрации (SVD или PMI), обученных на взаимодействиях всех пользователей.
    4. User-Specific и User-Non-Specific источники объединяются.
    5. Из них выбираются кандидаты контента.
    6. Выполняется второй MLA для финального выбора и ранжирования рекомендаций под профиль пользователя.

    Где и как применяется

    Изобретение применяется в рамках инфраструктуры рекомендательной системы (например, Дзен), которая функционирует параллельно основному веб-поиску.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе обнаруживаются ресурсы и собираются агрегированные данные о трафике и поведении пользователей (из логов браузеров, поисковых систем, счетчиков типа Yandex.Metrica).

    INDEXING – Индексирование и извлечение признаков (для рекомендательной системы)
    Ключевой этап для Аспекта А. Происходит офлайн.

    • Извлечение признаков и Генерация профиля: Рассчитываются поведенческие метрики (HPV, DPV, LPS и т.д.) и формируется Network Resource Profile.
    • Квалификация: MLA рассчитывает Source Suitability Parameter и определяет, попадает ли ресурс в индекс системы.

    Также на этом этапе офлайн обучаются модели коллаборативной фильтрации (SVD/PMI).

    RANKING – Ранжирование (внутри рекомендательной системы)
    Ключевой этап для Аспекта Б. Происходит онлайн при запросе пользователя.

    • Выбор источников: Используются модели SVD/PMI для генерации набора User-Specific и User-Non-Specific источников.
    • Ранжирование: Второй MLA применяется для финального ранжирования контента из этих источников под профиль пользователя.

    На что влияет

    • Конкретные типы контента: Система предпочитает источники с «быстрым темпом» обновления контента («fast-paced content»), такие как новостные агрегаторы, медиа-ресурсы. На это указывает использование признака DPV (страницы с датой в URL).
    • Ниши и тематики: Отдает предпочтение ресурсам с широкой аудиторией. Нишевые ресурсы (пример в патенте: персональный сайт любителя кошек) с редкими обновлениями и узким интересом с меньшей вероятностью пройдут квалификацию.

    Когда применяется

    • Квалификация источников (Аспект А): Применяется периодически в офлайн-режиме или при обнаружении нового ресурса. Также активируется при запуске системы на новой территории.
    • Персонализация (Аспект Б): Применяется онлайн каждый раз, когда пользователь запрашивает контентную рекомендацию (например, открывает ленту).

    Пошаговый алгоритм

    Процесс А: Квалификация Источника (Method 400, Офлайн)

    1. Сбор данных: Система получает индикацию ресурса и собирает связанные с ним признаки (поведенческие и трафиковые метрики).
    2. Генерация профиля: На основе признаков (особенно из Claim 9: DPV, LPS, источники трафика, посещения главной страницы) генерируется Network Resource Profile.
    3. Выполнение MLA: Обученный алгоритм (например, логистическая регрессия) обрабатывает профиль.
    4. Расчет пригодности: Система определяет Source Suitability Parameter.
    5. Принятие решения: Параметр сравнивается с порогом. Если он выше, ресурс помечается как пригодный.
    6. Выбор контента: Из пригодного источника выбираются элементы контента для добавления в индекс рекомендательной системы.

    Процесс Б: Генерация Персональной Рекомендации (Method 500, Онлайн)

    1. Получение запроса и Анализ истории: Пользователь запрашивает рекомендацию. Система генерирует вектор его профиля.
    2. Определение User-Specific источников: Выделяются источники, с которыми пользователь уже знаком.
    3. Определение User-Non-Specific источников: Используя SVD или PMI, система находит новые источники, похожие на интересы пользователя или посещаемые похожими пользователями.
    4. Генерация набора источников: Смешивание User-Specific и User-Non-Specific источников.
    5. Выбор кандидатов: Из выбранных источников извлекаются потенциально рекомендуемые материалы.
    6. Финальное ранжирование: Второй MLA ранжирует кандидатов на основе вектора профиля пользователя.

    Какие данные и как использует

    Данные на входе

    Система использует преимущественно поведенческие и трафиковые данные, а также структурные признаки.

    • Поведенческие факторы: Критически важны как для квалификации, так и для персонализации. Используются агрегированные данные о посещениях (Visits), переходах (Hits) и сессиях (Sessions). Ключевые метрики: время на ресурсе (MTIME), глубина просмотра (HPV), возвраты на главную (MPV). Метрики LPS (последний домен в сессии) и FPS (первый домен в сессии) характеризуют паттерны потребления.
    • Трафиковые факторы (Источники): Пропорции источников трафика: прямой (TT_GR), поисковый (TT_SE), социальный (TT_SN), из мессенджеров (TT_IM), рекламный (TT_AD).
    • Структурные факторы: Наличие дат в URL. Метрики DPV и DPH анализируют частоту посещения страниц с датированным контентом, что характерно для новостных сайтов.
    • Пользовательские факторы: История взаимодействий конкретного пользователя. Используется для генерации вектора профиля пользователя и определения User-Specific источников.

    Какие метрики используются и как они считаются

    • Source Suitability Parameter: Рассчитывается с помощью ML-моделей, обученных на размеченных данных (асессорские оценки). В патенте упоминаются: логистическая регрессия, наивный Байес, k-ближайших соседей, случайный лес.
    • SVD (Singular Value Decomposition): Используется для разложения матрицы x. Позволяет получить векторные представления (эмбеддинги) пользователей и ресурсов. Схожесть векторов используется для поиска релевантных User-Non-Specific источников.
    • PMI (Pointwise Mutual Information): Используется для измерения статистической связи между двумя ресурсами на основе частоты их совместного посещения. Используется для поиска User-Non-Specific источников, связанных с User-Specific источниками.
    • Производные признаки и Нормализация: Патент упоминает возможность генерации производных признаков из базовых с использованием логарифмических, сигмоидальных функций или функции корня, а также нормализацию признаков (например, mean-0, std-dev-1).

    Выводы

    1. Квалификация источников основана на паттернах трафика: Чтобы быть принятым в качестве источника для рекомендательной системы Яндекса, сайт должен демонстрировать определенные поведенческие и трафиковые характеристики. Система ищет сайты, похожие на новостные или медиа ресурсы.
    2. Ключевые признаки для квалификации (Claim 9): Наиболее важными являются: структура URL (наличие дат — DPV), источники трафика (баланс между поисковым, прямым, социальным), паттерны навигации и завершение сессии на сайте (LPS). Это указывает на предпочтение сайтов с лояльной аудиторией и регулярным обновлением контента.
    3. Офлайн-обработка для скорости: Квалификация источников выполняется заранее (офлайн), что позволяет системе рекомендаций быстро работать в онлайне, оперируя только предварительно одобренным пулом контента.
    4. Персонализация через коллаборативную фильтрацию: Для подбора нового контента (User-Non-Specific) система активно использует методы коллаборативной фильтрации (SVD и PMI), анализируя схожесть поведения пользователей или совместную посещаемость ресурсов.
    5. Баланс известного и нового: Алгоритм персонализации специально разработан для смешивания контента из уже известных пользователю источников (User-Specific) с новым контентом (User-Non-Specific), решая задачу «открытия» контента.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на оптимизацию сайта для прохождения квалификации в качестве источника (Аспект А) и успешного ранжирования внутри системы рекомендаций (Аспект Б).

    • Формирование лояльного ядра аудитории: Для прохождения квалификации важно иметь высокие показатели прямого трафика (TT_GR) и вовлеченности (MTIME, HPV). Стимулируйте пользователей возвращаться на сайт напрямую, используйте email-рассылки и подписки.
    • Оптимизация структуры URL для новостного контента: Система использует наличие дат в URL (метрики DPV, DPH) как сильный сигнал для квалификации источника (Claim 9). Если это применимо к контенту, используйте ЧПУ с датой публикации (например, /YYYY/MM/DD/article-slug).
    • Стимулирование завершения сессии на сайте: Метрика LPS (последний домен в сессии) входит в ключевой набор признаков (Claim 9). Это означает, что сайт должен предоставлять исчерпывающую информацию, чтобы у пользователя не возникало необходимости искать дальше.
    • Регулярное обновление контента: Система предпочитает источники с «быстрым темпом» обновления. Поддерживайте высокую частоту публикаций.
    • Оптимизация контента для вовлечения (Аспект Б): Поскольку персонализация основана на коллаборативной фильтрации (SVD/PMI), критически важно, чтобы контент генерировал позитивные взаимодействия (клики, дочитывания). Оптимизируйте заголовки и сниппеты для повышения CTR в ленте рекомендаций.
    • Диверсификация источников трафика: Поддерживайте здоровый баланс трафика из поисковых систем (TT_SE), социальных сетей (TT_SN) и прямых заходов (TT_GR). Профиль источников трафика анализируется при квалификации.

    Worst practices (это делать не надо)

    • Использование «серого» трафика и накруток: Попытки манипулировать поведенческими метриками (время, глубина просмотра) с помощью ботов приведут к исключению из пула источников, так как паттерны трафика не будут соответствовать эталонным.
    • Публикация исключительно вечнозеленого контента без дат: Сайты без четких сигналов свежести (даты в URL или метаданных) могут иметь проблемы с прохождением квалификации, так как система ищет новостные паттерны.
    • Агрессивная перелинковка, уводящая пользователя: Если сайт часто является промежуточным звеном и быстро теряет пользователя (низкий LPS), это негативно скажется на его профиле.
    • Игнорирование юзабилити и скорости загрузки: Плохой пользовательский опыт приведет к низким показателям MTIME и HPV, что ухудшит Network Resource Profile.

    Стратегическое значение

    Патент подтверждает, что для Яндекса рекомендательные системы являются стратегически важным направлением, требующим отдельной инфраструктуры для отбора и ранжирования контента. Для SEO-специалистов это означает необходимость рассматривать оптимизацию под рекомендации как отдельное направление, отличающееся от классического SEO. Успех здесь зависит не столько от ссылок или текстовой релевантности, сколько от качества трафика, структуры сайта и способности контента вовлекать пользователя и соответствовать паттернам потребления, которые алгоритмы коллаборативной фильтрации (SVD/PMI) могут использовать для распространения.

    Практические примеры

    Сценарий 1: Квалификация новостного сайта (Аспект А)

    1. Действие SEO-специалиста: Новостной сайт внедряет структуру URL вида /category/2025-11-27/news-title. Увеличивает частоту публикаций. Запускает кампанию по привлечению подписчиков для увеличения прямого трафика.
    2. Анализ системы: Система Яндекса анализирует сайт. Она фиксирует высокий DPV (много страниц с датами в URL), значительную долю прямого трафика (TT_GR) и высокий LPS (пользователи часто заканчивают сессию на этом сайте).
    3. Результат: Network Resource Profile получает высокую оценку. Source Suitability Parameter превышает порог. Сайт принимается как источник для системы рекомендаций.

    Сценарий 2: Персонализация и обогащение ленты (Аспект Б)

    1. Контекст: Пользователь регулярно читает сайт «АвтоМир» (это его User-Specific Source).
    2. Анализ системы (PMI): Система определяет, что пользователи, которые читают «АвтоМир», также часто читают сайт «Технологии Тюнинга» (даже если текущий пользователь там не был). Алгоритм PMI фиксирует высокую взаимную информацию между этими двумя ресурсами.
    3. Обогащение: Система добавляет «Технологии Тюнинга» в набор User-Non-Specific Sources для этого пользователя.
    4. Результат: В ленте рекомендаций пользователя появляется контент с сайта «Технологии Тюнинга», смешанный с контентом из «АвтоМира».

    Вопросы и ответы

    Описывает ли этот патент ранжирование в основном поиске Яндекса?

    Нет, этот патент специфичен для системы рекомендаций контента (например, Дзен). Он описывает, как Яндекс отбирает сайты в качестве источников для этой системы (квалификация) и как затем персонализирует ленту для пользователя. Хотя успешность сайта в системе рекомендаций может косвенно влиять на общие сигналы авторитетности сайта, прямых механизмов ранжирования для веб-поиска здесь не описано.

    Что такое Source Suitability Parameter и как на него повлиять?

    Source Suitability Parameter (Параметр пригодности источника) — это оценка, которую MLA выставляет сайту, определяя, подходит ли он для системы рекомендаций. Система ищет сайты с «быстрым темпом» обновления, похожие на новостные ресурсы. Чтобы повлиять на него, нужно оптимизировать ключевые признаки из Claim 9: использовать даты в URL (повышает DPV), работать над лояльностью аудитории (повышает прямой трафик и LPS) и поддерживать здоровую структуру источников трафика.

    Какие поведенческие факторы наиболее важны для квалификации источника?

    Патент выделяет большой список метрик (Claim 6), но ключевой набор (Claim 9) включает: LPS (был ли сайт последним в сессии), DPV (посещение страниц с датой в URL), а также паттерны посещения главной страницы и профиль трафика. Это указывает на то, что важны не просто клики, а сценарии использования сайта: регулярное чтение свежего контента и завершение поиска информации на этом ресурсе.

    Что означают алгоритмы SVD и PMI в контексте этого патента?

    SVD (Сингулярное разложение) и PMI (Поточечная взаимная информация) — это алгоритмы коллаборативной фильтрации, описанные в Аспекте Б патента. Они используются для поиска User-Non-Specific источников (нового контента для пользователя). SVD ищет контент, который нравится пользователям, похожим на вас. PMI ищет контент, который часто потребляется вместе с тем контентом, который вы уже читаете.

    Как система балансирует между показом известного и нового контента?

    Система явно разделяет источники на User-Specific (известные пользователю по истории взаимодействий) и User-Non-Specific (новые, найденные через SVD/PMI). Финальный набор рекомендуемых источников генерируется путем смешивания контента из обеих групп, что позволяет пользователю как получать ожидаемый контент, так и открывать новые ресурсы.

    Влияет ли структура URL на попадание в систему рекомендаций?

    Да, очень сильно. Патент явно указывает на использование метрик DPV и DPH (посещение страниц с датой в URL) как ключевого признака для квалификации источника (Claim 9). Это дает сильное преимущество сайтам, использующим даты в URL для своего контента (например, новостным сайтам или блогам).

    Почему важна метрика LPS (Last domain per session)?

    LPS указывает, что пользователь завершил свою информационную потребность на данном сайте и не пошел искать дальше. Высокий показатель LPS свидетельствует о качестве и полноте контента на ресурсе. Эта метрика входит в ключевой набор признаков (Claim 9) для определения пригодности источника, что делает ее важной для оптимизации.

    Может ли нишевый блог с редкими обновлениями попасть в эту систему?

    Это маловероятно. В патенте прямо говорится, что система предпочитает ресурсы с «быстрым темпом» обновления и широкой аудиторией, а нишевые ресурсы с редкими обновлениями (приводится пример сайта о кошках) вряд ли пройдут квалификацию. Для попадания необходимо имитировать поведение медиа-ресурса.

    Как система собирает данные о поведении пользователей и трафике?

    Патент упоминает несколько источников данных для сбора поведенческих метрик и информации о переходах: логи поисковых систем, логи браузерных приложений (например, Яндекс Браузер) и виджеты отслеживания сетевых ресурсов (например, счетчики аналитики, такие как Yandex.Metrica).

    Что важнее для успеха в системе: пройти квалификацию или оптимизировать контент?

    Оба этапа критичны. Квалификация (Аспект А) — это входной билет. Если сайт не признан пригодным источником, его контент не попадет в систему. Однако после попадания в систему, успех конкретного материала зависит от персонализации (Аспект Б), где алгоритмы SVD/PMI будут распространять контент только если он генерирует позитивные взаимодействия у первичной аудитории.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.