Яндекс патентует метод предварительной оценки сайтов для использования в Системе Рекомендаций (например, Дзен). Система анализирует поведенческие метрики и источники трафика сайта (доля прямых заходов, из соцсетей, поиска и т.д.) с помощью машинного обучения, чтобы определить «Параметр пригодности источника». Это позволяет в оффлайн-режиме отсеять ресурсы, не подходящие для генерации рекомендаций.
Описание
Какую задачу решает
Патент решает задачу повышения эффективности и скорости работы Системы Рекомендаций (например, Яндекс Дзен). Проблема заключается в огромном объеме потенциальных источников контента и высокой вычислительной стоимости анализа всех материалов в реальном времени. Изобретение позволяет перенести часть нагрузки в оффлайн-режим путем предварительной классификации и фильтрации сетевых ресурсов. Система определяет, какие сайты в принципе подходят для роли источника рекомендаций, отсеивая ресурсы с неподходящим или редко обновляемым контентом.
Что запатентовано
Запатентован способ и устройство для автоматической классификации сетевых ресурсов (сайтов) на предмет их пригодности в качестве источников контента для Системы Рекомендаций. Суть изобретения — использование алгоритма машинного обучения, обученного на детальных характеристиках трафика и поведения пользователей на сайте, для определения «Параметра пригодности источника» (Source Suitability Parameter). Если этот параметр превышает порог, контент с сайта допускается к дальнейшей обработке и персонализированному ранжированию.
Как это работает
Система работает в два этапа. На первом этапе (обычно оффлайн) собираются детальные характеристики о сетевом ресурсе. Эти характеристики включают не только общие показатели посещаемости, но и глубокие поведенческие метрики (например, количество хитов за визит, время на сайте) и, что критически важно, профиль источников трафика (доли из поиска, соцсетей, прямых заходов и т.д.). На основе этих данных формируется профиль ресурса. Обученная модель машинного обучения анализирует этот профиль и вычисляет «Параметр пригодности источника». Если ресурс признан пригодным, на втором этапе система выбирает конкретные элементы контента с этого ресурса (например, самые новые или популярные) и передает их в основной конвейер Системы Рекомендаций для персонализированного выбора.
Актуальность для SEO
Высокая. Для платформ типа Дзен, работающих с огромным количеством источников, механизмы предварительной фильтрации и оценки качества источников критически важны для управления масштабом и поддержания качества ленты. Хотя конкретные метрики могут эволюционировать, сам подход использования поведенческих данных для квалификации источников остается актуальным.
Важность для SEO
Влияние на SEO умеренное (4/10). Важно понимать: этот патент описывает механизмы отбора источников для Системы Рекомендаций (Дзен), а НЕ ранжирование в основном веб-поиске Яндекса. Для SEO-специалистов, работающих над продвижением в Дзене или аналогичных рекомендательных системах, патент имеет высокое значение, так как раскрывает критерии, по которым сайт может быть принят или отклонен как источник. Он подчеркивает критическую важность качества трафика и поведенческих метрик для попадания в эти системы.
Детальный разбор
Термины и определения
- Абсолютная характеристика (Absolute characteristic)
- Количественный показатель, связанный с сетевым ресурсом (например, общее число визитов).
- Базовая характеристика (Base characteristic)
- Исходные данные (абсолютные или относительные), на основе которых могут рассчитываться производные характеристики.
- Источник визита (Source of visit)
- Канал, через который пользователь попал на сетевой ресурс. В патенте выделяются: прямой заход (TT_GR), поисковая система (TT_SE), социальная сеть (TT_SN), электронное сообщение/мессенджер (TT_IM), сервис сокращения ссылок (TT_US), рекламная платформа (TT_AD).
- Относительная характеристика (Relative characteristic)
- Показатель, рассчитанный как отношение или среднее значение (например, среднее число посещений за период времени, количество хитов на пользователя).
- Параметр пригодности источника (Source Suitability Parameter)
- Метрика, определяемая алгоритмом машинного обучения на основе профиля сетевого ресурса. Указывает на вероятность того, что ресурс публикует контент, подходящий для обработки Системой Рекомендаций. Может быть бинарным (пригоден/непригоден) или числовым значением.
- Производная характеристика (Derivative characteristic)
- Характеристика, созданная путем математической обработки базовых характеристик (например, с помощью логарифмической формулы, сигмоидной функции).
- Профиль сетевого ресурса (Profile of the network resource)
- Набор базовых и/или производных характеристик, описывающих трафик и поведение пользователей на ресурсе. Используется как входные данные для алгоритма машинного обучения.
- Система Рекомендаций (Recommendation System)
- Система, которая предоставляет пользователю персонализированный контент без явного поискового запроса, основываясь на его интересах (например, Дзен).
- Сетевой ресурс (Network resource)
- Источник контента, доступный по сети (например, веб-сайт, блог, новостной портал).
- Хит (Hit)
- Переход пользователя на конкретный сетевой ресурс, с него или между различными страницами внутри ресурса.
Ключевые утверждения (Анализ Claims)
Патент содержит две основные группы изобретений. Первая группа (описанная в Claims 1-24 в конце документа) посвящена предварительному выбору источников. Вторая группа (описанная в разделе «ВТОРОЙ АСПЕКТ» в середине документа) посвящена методу генерации самих рекомендаций путем смешивания известных и новых источников.
Анализ первой группы (Выбор источников):
Claim 1 (Независимый пункт): Описывает основной способ выбора сетевого ресурса как источника для Системы Рекомендаций.
- Сервер получает указание на сетевой ресурс.
- Сервер получает характеристики этого ресурса. Критическое условие: характеристики должны включать указание на источник визита.
- Сервер создает профиль ресурса на основе этих характеристик.
- Сервер выполняет алгоритм машинного обучения (ML), который на основе профиля определяет «Параметр пригодности источника». Этот параметр показывает, подходит ли ресурс для публикации контента, который может быть обработан системой рекомендаций.
- Если параметр пригодности превышает заранее определенный порог, сервер выбирает элементы контента с этого ресурса и вводит их в Систему Рекомендаций для дальнейшей обработки.
Ядром изобретения является использование машинного обучения для автоматической классификации пригодности источника, при этом обязательным признаком является анализ источников трафика (источник визита).
Claim 3, 4 (Зависимые пункты): Уточняют типы характеристик.
Используются как абсолютные (общее число визитов), так и относительные (среднее время) характеристики. Система может создавать производные характеристики из базовых для улучшения работы ML-модели.
Claim 6 (Зависимый пункт): Перечисляет конкретные поведенческие метрики.
Включает детальный список метрик, используемых для профилирования: HPV (хиты за визит), MTIME (время на ресурсе), VPU (визиты на пользователя) и многие другие, а также полный список источников визита (поиск, соцсети, прямой трафик и т.д.).
Claim 8, 9 (Зависимые пункты): Уточняют механизм выбора характеристик (Feature Selection).
Система может использовать не все возможные характеристики, а только их подмножество. Claim 9 приводит пример такого подмножества, включающего доли целевых страниц, страниц с датой в URL, долевой профиль источников визита и долю сессий, где ресурс был последним.
Где и как применяется
Изобретение не встраивается в стандартную архитектуру веб-поиска (Crawling, Indexing, Ranking), а относится к инфраструктуре Системы Рекомендаций (например, Дзен).
Сбор данных (Data Acquisition Pipeline for Recommendations)
Алгоритм применяется на этапе отбора контента для системы рекомендаций. Он функционирует как предварительный фильтр (Gatekeeper) для сетевых ресурсов.
Процесс применения:
- Оффлайн-обработка: Основная часть работы (анализ характеристик и классификация источников) происходит в оффлайн-режиме, до того как пользователь запросит рекомендации. Это делается для снижения нагрузки в реальном времени.
- Взаимодействие с данными о трафике: Система взаимодействует с хранилищами данных о поведении пользователей и трафике (аналогично данным из Яндекс.Метрики) для получения характеристик сетевых ресурсов.
- Взаимодействие с конвейером рекомендаций: Если ресурс признан пригодным, его контент передается в основной модуль выбора рекомендаций, который уже занимается персонализированным ранжированием для конечного пользователя.
Входные данные: Идентификатор сетевого ресурса (например, URL); Множество характеристик (поведенческие метрики и источники трафика).
Выходные данные: Параметр пригодности источника (оценка или бинарный статус); Набор элементов контента, выбранных с ресурса (если он признан пригодным).
На что влияет
- Конкретные типы контента и ниши: Наибольшее влияние оказывается на контентные проекты, новостные сайты, медиа и блоги, которые стремятся получать трафик из рекомендательных систем. Патент указывает, что система отдает предпочтение ресурсам с «быстрым» содержимым, т.е. часто обновляемым (например, новостные агрегаторы). Меньшее влияние оказывается на статические сайты, узкоспециализированные ресурсы или e-commerce каталоги, которые редко обновляются и имеют узкую аудиторию.
- Географические ограничения: В патенте упоминается, что характеристики могут группироваться на основе географического положения посетителей. Это позволяет системе оценивать пригодность источника для конкретных регионов.
Когда применяется
- Условия работы: Алгоритм применяется для оценки новых обнаруженных сетевых ресурсов или для периодической переоценки существующих источников.
- Триггеры активации: Обнаружение нового ресурса краулером или плановый запуск процесса валидации источников.
- Временные рамки: Процесс классификации источников выполняется преимущественно оффлайн (до запроса пользователя). Выбор конкретного контента из уже одобренных источников может происходить как оффлайн, так и онлайн (в ответ на запрос пользователя).
Пошаговый алгоритм
Процесс А: Обучение модели (Оффлайн)
- Сбор обучающей выборки: Формирование набора сетевых ресурсов с известными оценками пригодности (например, назначенными экспертами).
- Сбор характеристик: Для каждого ресурса в выборке собираются поведенческие метрики и данные об источниках трафика.
- Подготовка данных: Нормализация характеристик и создание производных характеристик (например, с помощью логарифмирования).
- Выбор характеристик (Feature Selection): Определение подмножества характеристик, которые лучше всего коррелируют с оценками пригодности.
- Обучение: Обучение алгоритма машинного обучения (например, логистической регрессии) для предсказания Параметра пригодности источника на основе выбранных характеристик. Определение порогового значения.
Процесс Б: Классификация источника (Оффлайн)
- Получение ресурса: Система получает указание на сетевой ресурс для анализа.
- Получение характеристик: Извлечение множества характеристик (поведенческих и источников трафика) для данного ресурса.
- Создание профиля: Формирование профиля (вектора признаков) ресурса, включая нормализацию и расчет производных характеристик.
- Вычисление пригодности: Применение обученной ML-модели к профилю для определения Параметра пригодности источника.
- Принятие решения: Сравнение параметра с заранее определенным порогом.
Процесс В: Выбор контента (Оффлайн/Онлайн)
- Фильтрация источников: Отбор ресурсов, чей Параметр пригодности превысил порог.
- Выбор элементов контента: Извлечение конкретных материалов с пригодных ресурсов. Это может происходить по эвристическим правилам (например, самые новые, самые популярные за период).
- Передача в систему: Ввод выбранных элементов контента в основной модуль Системы Рекомендаций для дальнейшего персонализированного ранжирования.
Какие данные и как использует
Данные на входе
Основной фокус патента сделан на поведенческих факторах и источниках трафика. Контентные или ссылочные факторы в этом алгоритме не упоминаются.
- Поведенческие факторы: Критически важные данные для профилирования ресурса. Патент приводит обширный список метрик:
- HPV (Hits per visit): Количество страниц, посещенных за визит.
- SPV (Sessions per visit): Количество сессий в визитах.
- DPV/DPH (Dated pages per visit/hit): Количество посещенных страниц с датой в URL.
- MPV/MPH (Home pages per visit/hit): Количество посещений домашней страницы.
- MTIME: Время, проведенное на сетевом ресурсе.
- LPS/FPS (Last/First domain per session): Является ли ресурс последним/первым в сессии.
- HPS (Hits per session): Общее количество переходов за сессию.
- VPU/HPU/SPU (Visits/Hits/Sessions per User): Средние показатели на пользователя.
- Источники трафика (Traffic Sources): Обязательный компонент анализа согласно Claim 1.
- TT_GR: Прямой визит.
- TT_SE: Визит через поисковую систему.
- TT_SN: Визит через социальную сеть.
- TT_IM: Визит через электронное сообщение или мессенджер.
- TT_US: Визит через сервис сокращения ссылок.
- TT_AD: Визит через рекламную платформу.
- Временные факторы: Используются метрики, связанные с датами в URL (DPV, DPH), что косвенно указывает на свежесть контента.
- Географические факторы: Упоминается возможность группировки характеристик на основе географического положения пользователей.
Какие метрики используются и как они считаются
- Параметр пригодности источника (Source Suitability Parameter): Основная вычисляемая метрика. Рассчитывается с помощью обученной ML-модели на основе профиля ресурса.
- Алгоритмы машинного обучения: Для расчета параметра пригодности могут использоваться: логистический регрессионный анализ, упрощенный алгоритм Байеса, алгоритм k-ближайших соседей (k-NN), алгоритм случайного леса (Random Forest), алгоритм невзвешенного голосования.
- Обработка характеристик (Feature Engineering):
- Производные характеристики: Создаются из базовых с помощью математических функций (упомянуты логарифмическая формула, сигмоидная функция, функция квадратного корня).
- Нормализация: Характеристики могут нормализоваться (например, среднее=0, стандартное отклонение=1).
- Выбор характеристик (Feature Selection): Система определяет подмножество характеристик, наиболее важных для классификации. В примере патента ключевыми являются: профиль источников визита, доли целевых страниц, доли страниц с датами в URL и позиция ресурса в сессии.
- Пороговые значения: Пригодность определяется путем сравнения вычисленного параметра с заранее определенным порогом.
Выводы
- Патент строго о Системах Рекомендаций (Дзен), не о Веб-поиске: Описанные механизмы и факторы относятся к процессу отбора источников для рекомендательной ленты, а не к ранжированию в основном поиске Яндекса.
- Поведенческие метрики и трафик — основа для квалификации: Чтобы быть принятым в качестве источника контента, сайт должен демонстрировать определенные паттерны трафика и высокое вовлечение пользователей. Система анализирует глубокие поведенческие данные (вероятно, из Метрики).
- Источники трафика критически важны: Профиль источников трафика (соотношение поиска, соцсетей, прямых заходов и т.д.) является обязательным компонентом анализа и ключевым признаком в ML-модели для определения пригодности сайта.
- Предпочтение «быстрому» контенту: Цель системы — найти ресурсы, которые часто обновляются и интересны широкой аудитории (например, новостные агрегаторы). Метрики, связанные с датами в URL (DPV, DPH), используются для оценки этого аспекта.
- Оптимизация производительности через оффлайн-фильтрацию: Ключевая задача изобретения — снизить нагрузку на систему в реальном времени за счет предварительной (оффлайн) классификации и отсева неподходящих источников.
Практика
Best practices (это мы делаем)
Эти рекомендации применимы для SEO-специалистов, чья цель — продвижение сайта в качестве источника для Системы Рекомендаций (Дзен).
- Максимизация вовлеченности пользователей: Работайте над улучшением ключевых поведенческих метрик, упомянутых в патенте. В частности, увеличивайте время на сайте (MTIME) и глубину просмотра (HPV — хиты за визит). Стимулируйте пользователей к повторным визитам (VPU).
- Диверсификация и качество источников трафика: Патент явно указывает, что профиль источников трафика (TT_SE, TT_SN, TT_GR и т.д.) является ключевым фактором. Модель оценивает паттерны трафика. Необходимо развивать разные каналы, особенно прямые заходы (TT_GR) и трафик из социальных сетей (TT_SN), что часто свидетельствует о лояльности аудитории и виральности контента.
- Регулярное обновление контента («Быстрый контент»): Система отдает предпочтение часто обновляемым ресурсам. Поддерживайте стабильный график публикаций. Использование дат в URL (если это уместно для структуры сайта) может положительно влиять на метрики DPV/DPH.
- Обеспечение корректного сбора данных: Поскольку система полагается на детальные поведенческие характеристики, критически важно убедиться, что счетчики аналитики (например, Яндекс.Метрика) установлены корректно и собирают полные данные.
Worst practices (это делать не надо)
- Накрутка поведенческих факторов: Попытки искусственно завысить MTIME или HPV с помощью ботов могут быть обнаружены на этапе анализа качества трафика и привести к классификации ресурса как непригодного.
- Использование низкокачественного покупного трафика: Резкий рост трафика из рекламных сетей (TT_AD) или через сервисы сокращения ссылок (TT_US) с низкими показателями вовлеченности может негативно сказаться на общем профиле ресурса.
- Публикация статического контента: Сайты, которые редко обновляются или содержат преимущественно «вечнозеленый» статический контент, имеют меньше шансов быть классифицированными как пригодные источники для новостной/рекомендательной ленты.
Стратегическое значение
Патент подтверждает, что Яндекс использует сложные модели машинного обучения, основанные на больших данных о поведении пользователей (Big Data), не только для ранжирования, но и для базовой квалификации сайтов на своих платформах. Для попадания в Систему Рекомендаций недостаточно просто производить контент; необходимо выстраивать стратегию привлечения и удержания аудитории, демонстрируя здоровые паттерны трафика и высокое вовлечение. Это подчеркивает синергию между качественным контент-маркетингом, SMM и SEO при работе с рекомендательными системами.
Практические примеры
Сценарий: Оценка нового новостного сайта
- Задача: Определить, подходит ли новый региональный новостной сайт для Дзена.
- Действие системы (Оффлайн): Система анализирует характеристики сайта за последний месяц.
- Данные:
- MTIME (Время на сайте): Высокое.
- HPV (Глубина просмотра): Высокая.
- Профиль источников: 50% Соцсети (TT_SN), 30% Прямые заходы (TT_GR), 20% Поиск (TT_SE).
- Частота обновлений: Высокая (используются даты в URL, метрика DPV высокая).
- Анализ: ML-модель сравнивает этот профиль с паттернами успешных источников. Сильный сигнал из соцсетей и прямых заходов в сочетании с хорошим вовлечением положительно влияет на оценку.
- Результат: Параметр пригодности источника превышает порог. Сайт принимается как источник, его статьи начинают поступать в конвейер рекомендаций.
Сценарий: Оценка сайта с покупным трафиком
- Задача: Оценить сайт, который активно закупает трафик.
- Действие системы (Оффлайн): Система анализирует характеристики сайта.
- Данные:
- MTIME (Время на сайте): Очень низкое.
- HPV (Глубина просмотра): Низкая (близка к 1).
- Профиль источников: 80% Реклама (TT_AD) или Сокращатели ссылок (TT_US), 20% Поиск (TT_SE).
- Частота обновлений: Средняя.
- Анализ: ML-модель идентифицирует паттерн низкокачественного трафика (низкое вовлечение при доминировании рекламного трафика).
- Результат: Параметр пригодности источника ниже порога. Сайт отклоняется как источник для Системы Рекомендаций.
Вопросы и ответы
Влияет ли этот патент на ранжирование в основном поиске Яндекса?
Нет, прямого влияния нет. Патент явно описывает способ выбора источников для Системы Рекомендаций (например, Дзен). Описанные здесь метрики и механизмы используются для предварительной фильтрации сайтов, которые могут поставлять контент в ленту рекомендаций, а не для определения позиций в результатах веб-поиска.
Что такое «Параметр пригодности источника»?
Это внутренняя метрика Яндекса, рассчитываемая с помощью машинного обучения. Она оценивает, насколько сетевой ресурс подходит для роли поставщика контента в Систему Рекомендаций. При расчете учитываются поведенческие факторы на сайте и его источники трафика. Если параметр выше определенного порога, сайт допускается к участию в рекомендациях.
Какие источники трафика система считает наиболее важными?
Патент не указывает веса для разных источников, но подчеркивает, что анализ профиля источников трафика (соотношение поиска, соцсетей, прямых заходов, рекламы и т.д.) является обязательной частью оценки. Для рекомендательных систем часто важны прямые заходы (лояльность аудитории) и трафик из соцсетей (виральность контента), но система анализирует именно комбинацию источников.
Какие поведенческие метрики самые главные для попадания в Дзен согласно этому патенту?
Патент перечисляет множество метрик, включая время на сайте (MTIME), глубину просмотра (HPV — хиты за визит), количество визитов на пользователя (VPU). Также важны метрики, указывающие на частоту обновления контента, например, количество посещенных страниц с датой в URL (DPV). Система ищет сайты с высоким вовлечением и часто обновляемым контентом.
Откуда Яндекс берет данные о трафике и поведении на моем сайте?
В патенте указаны возможные источники данных: журналы поисковой системы, журналы браузерного приложения (например, Яндекс.Браузера) и виджеты для отслеживания сетевого ресурса. Наиболее вероятным и полным источником детальных поведенческих метрик и данных об источниках трафика является система Яндекс.Метрика.
Что значит, что система предпочитает «быстрый» контент?
Это означает, что система отдает предпочтение источникам, которые часто обновляются и публикуют актуальный контент, например, новостным порталам или активным блогам. Это важно для поддержания свежести и актуальности рекомендательной ленты. Статические сайты, которые обновляются редко, с меньшей вероятностью будут признаны пригодными источниками.
Что такое «производные характеристики» и зачем они нужны?
Это характеристики, полученные путем математической обработки базовых метрик. Например, вместо использования абсолютного числа визитов система может использовать его логарифм. Это помогает модели машинного обучения лучше интерпретировать данные, сглаживать выбросы и выявлять нелинейные зависимости между метриками и пригодностью источника.
Если мой сайт отклонили как источник, это навсегда?
Патент не описывает процедуру апелляции, но указывает, что процесс анализа может выполняться для обновленных сетевых ресурсов. Это подразумевает возможность переоценки. Если вы значительно улучшите поведенческие метрики и качество трафика на вашем сайте, система может пересмотреть его статус при следующем цикле оффлайн-обработки.
В патенте также упоминаются SVD и PMI. Зачем они используются?
Второй аспект патента описывает сам процесс генерации рекомендаций. Алгоритмы SVD (Сингулярное разложение) и PMI (Точечная взаимная информация) используются для коллаборативной фильтрации. Они помогают системе находить новые, неизвестные пользователю источники контента, которые похожи на те, с которыми он уже взаимодействовал, или которые популярны у похожих пользователей.
Как использовать этот патент для улучшения SEO-стратегии?
Хотя патент не о веб-поиске, он подтверждает важность комплексного подхода к развитию сайта. Для успеха в экосистеме Яндекса (включая Дзен) необходимо фокусироваться не только на SEO-трафике, но и на диверсификации каналов (SMM, прямой трафик) и глубокой работе над удержанием пользователей и улучшением поведенческих метрик на сайте.