Как Яндекс прогнозирует популярность контента (видео, статей, музыки) используя данные о ссылках, встраиваниях и поведении пользователей

Яндекс патентует систему прогнозирования популярности контента (например, просмотров видео), особенно размещенного на внешних платформах. Система агрегирует данные из трех источников: поисковые логи (клики в SERP), логи браузера (прямые заходы) и данные краулера (ссылки и встраивания на других сайтах). Эти данные используются для обучения ML-модели (GBDT), которая оценивает текущую и будущую популярность контента для улучшения ранжирования.

Описание

Какую задачу решает

Патент решает задачу оценки текущей и будущей популярности контента, размещенного на внешних ресурсах (например, видео на YouTube, статьи в блогах). Поисковым системам и агрегаторам необходимо идентифицировать популярный и трендовый контент для улучшения ранжирования и рекомендаций. Проблема заключается в том, что полагаться исключительно на данные от хостинга контента (через API) ненадежно, так как API может быть недоступен, иметь ограничения по скорости или предоставлять данные с задержкой.-[04] Изобретение позволяет Яндексу прогнозировать популярность независимо от внешних API.

Что запатентовано

Запатентована система и метод прогнозирования популярности элемента контента с использованием комбинации разнородных источников данных, доступных поисковой системе. Суть изобретения заключается в агрегации сигналов из поисковых логов (активность в SERP), браузерных логов (активность посещений) и статистических веб-данных (ссылки и встраивания контента на других сайтах). Эти данные используются как признаки для модели машинного обучения с целью прогнозирования популярности (например, общего числа просмотров).

Как это работает

Система работает путем сбора данных о взаимодействии с конкретным элементом контента из трех основных источников. Во-первых, анализируются поисковые логи для определения количества показов и кликов на URL контента в результатах поиска. Во-вторых, анализируются браузерные логи (вероятно, из Яндекс.Браузера или аналогичных инструментов) для учета посещений URL. В-третьих, из базы данных краулера извлекаются статистические веб-данные о том, сколько раз и на каких сайтах этот контент был упомянут (через ссылки) или встроен (embedded). Алгоритм машинного обучения, конкретно Градиентный бустинг деревьев решений (GBDT), использует эти данные для прогнозирования популярности контента. Полученный прогноз используется для ранжирования.

Актуальность для SEO

Высокая. Идентификация трендового и вирального контента является ключевой задачей для современных поисковых и рекомендательных систем. Использование поведенческих сигналов (из поиска и браузера) и сигналов веб-графа (ссылки и встраивания) для оценки качества и популярности контента полностью соответствует современным подходам. GBDT модели (такие как CatBoost в Яндексе) являются основой ранжирования.

Важность для SEO

Влияние на SEO значительно (8/10). Патент детально описывает, как Яндекс измеряет популярность, используя собственные данные (поиск и браузер) наряду с традиционными веб-сигналами (ссылки и встраивания). Это подчеркивает важность комплексного продвижения контента. Для высокого ранжирования контента, где популярность является ключевым фактором, необходимо генерировать положительные сигналы по всем трем каналам: органический поиск, прямые/браузерные переходы и естественные упоминания/встраивания в вебе.

Детальный разбор

Термины и определения

Агрегированные-динамические-веб-характеристики (Aggregated Dynamic Web Features): Статистические показатели, рассчитанные на основе данных краулера о ссылках и встраиваниях контента. Примеры: общее число встраиваний, число хостов со ссылками, максимальное число ссылок на хост, время с момента первой/последней ссылки и т.д.
Динамические характеристики (Dynamic Features): Характеристики контента, которые описывают взаимодействие пользователя с ним и меняются со временем. Примеры: число комментариев, лайков, рейтинг. Также включают характеристики из поисковых логов и логов браузера.
Журнал браузера (Browser Log): Логи, хранящие указания на веб-содержимое, просмотренное пользователем через браузерное приложение (например, Яндекс.Браузер). Используются для определения числа посещений URL контента.
Линейная модель влияния (Linear Influence Model): Вспомогательная модель, которая получает на вход не-агрегированные веб-характеристики (список хостов и время ссылок/встраиваний) и, вероятно, оценивает влияние этих событий на популярность. Ее вывод используется как входная характеристика для основной модели GBDT.,,
Модель Фридмана градиентного бустинга деревьев решений (Friedman’s GBDT): Основной алгоритм машинного обучения, используемый для прогнозирования популярности на основе всех собранных характеристик. В экосистеме Яндекса это, вероятно, соответствует CatBoost.
Не-агрегированные-динамические-веб-характеристики (Non-aggregated Dynamic Web Features): Детализированные данные краулера: список конкретных хостов с временными отметками встраиваний или ссылок на элемент контента. Используются как входные данные для Линейной модели влияния.
Поисковый журнал (Search Log): Логи, хранящие данные о поисковых запросах пользователей и их взаимодействии с результатами поиска (SERP). Примеры данных: число показов URL в SERP, число кликов, число переходов.
Сервер прогнозирования популярности (Popularity Prediction Server): Компонент системы, который агрегирует данные из логов и базы краулера и выполняет расчет прогноза популярности с помощью ML-модели.
Статистические веб-данные (Statistical Web Data): Данные, собранные поисковым роботом, о наличии встроенных объектов (embeds) или ссылок на элемент контента на сторонних веб-ресурсах.,
Статические характеристики (Static Features): Характеристики контента, которые не зависят от просмотров пользователей. Примеры: продолжительность видео, категория, длина названия, возраст автора, число подписчиков автора.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на источниках данных и методологии прогнозирования популярности контента.

Claim 1 (Независимый пункт): Описывает основной способ прогнозирования.

Система получает указание на элемент контента из базы данных поискового робота.
Система получает данные из Поискового журнала (поисковая активность, направленная на элемент).
Система получает данные из Журнала браузера (браузерная активность, направленная на элемент).
Система получает Статистические веб-данные (встроенные объекты или ссылки на элемент с других ресурсов) из базы данных поискового робота.
Прогнозирование популярности основывается на комбинации этих трех источников данных (i, ii, iii).

Ядро изобретения — это использование комбинации внутренних поведенческих данных (поиск и браузер) и внешних данных о распространении контента (ссылки/встраивания) для независимой оценки его популярности.

Claim 2 (Зависимый пункт): Описывает опциональное расширение метода.

Дополнительно к данным из Claim 1, система может получать данные через API сервиса хостинга контента.
Эти данные включают статические характеристики (не зависящие от просмотров, например, длительность видео, категория) и динамические характеристики (зависящие от взаимодействий, например, лайки, комментарии).
Прогнозирование основывается на всех четырех источниках данных (i, ii, iii и данные API).

Это показывает, что система может использовать данные API, если они доступны, для повышения точности прогноза, но не зависит от них.

Claims 10, 11 (Зависимые пункты): Детализируют состав статистических веб-данных.

Claim 10 описывает агрегированные характеристики: общее количество ссылок/встраиваний, количество хостов, временные метрики (время с первого/последнего события).
Claim 11 описывает не-агрегированные характеристики: списки хостов с временными метками событий.

Claims 12-15 (Зависимые пункты): Описывают используемые модели машинного обучения.

Используется алгоритм машинного обучения (Claim 12), конкретно GBDT (Claim 13).
GBDT может использовать вывод Линейной модели влияния как входную характеристику (Claim 14).
Линейная модель влияния, в свою очередь, использует Неагрегированные динамические веб-характеристики как вход (Claim 15).

Это описывает двухступенчатую модель обработки офф-пейдж сигналов: сначала Линейная модель влияния обрабатывает сырые данные о ссылках/встраиваниях (кто и когда), а затем ее вывод вместе с другими агрегированными данными поступает в основную модель GBDT.

Claim 18 (Зависимый пункт): Указывает на применение изобретения.

Ранжирование элемента контента основывается на определенном прогнозе популярности.

Это подтверждает, что прогнозируемая популярность используется как фактор ранжирования.

Где и как применяется

Изобретение затрагивает несколько слоев поисковой архитектуры, интегрируя данные краулинга, индексации и поведения пользователей для использования на этапе ранжирования.

CRAWLING – Сканирование и Сбор данных
Поисковый робот выполняет ключевую роль в обнаружении элементов контента на серверах хостинга и обнаружении ссылок/встраиваний на других веб-ресурсах. Эти данные сохраняются в базе данных поискового робота.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обработка собранных данных и расчет характеристик (features) для модели машинного обучения:

Обработка Статистических веб-данных для расчета Агрегированных и Неагрегированных динамических веб-характеристик.
Обработка Поисковых логов и Браузерных логов для расчета поведенческих характеристик.
Вычисление прогноза популярности с помощью обученной ML-модели (GBDT). Этот прогноз может сохраняться как статический фактор документа (элемента контента).

RANKING – Ранжирование
Основное применение патента. Прогнозируемая популярность используется как сигнал ранжирования.,. Это позволяет Яндексу повышать в выдаче популярный или трендовый контент по релевантным запросам.

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, который часто размещается на внешних хостингах и распространяется путем ссылок или встраивания: видео (YouTube, Vimeo), музыка (Soundcloud), мобильные приложения (App Store), посты в социальных сетях (Twitter) и новостные статьи.,
Специфические запросы: Влияет на запросы, где популярность является важным сигналом релевантности (например, развлекательные запросы, поиск трендов, свежие новости).
Конкретные ниши или тематики: Медиа, развлечения, новости, блогосфера.

Когда применяется

Алгоритм применяется при расчете факторов ранжирования для индексируемого контента. Триггером для активации или пересчета прогноза служит:

Обнаружение нового элемента контента поисковым роботом.
Появление новых данных в поисковых или браузерных логах, связанных с этим элементом контента.
Обнаружение новых ссылок или встраиваний во время краулинга веба.

Обучение алгоритма машинного обучения выполняется параллельно с процессом прогнозирования популярности.

Пошаговый алгоритм

Идентификация контента: Поисковый робот обнаруживает новый элемент контента на сервере хостинга и индексирует его URL в своей базе данных.
Инициализация прогнозирования: Сервер прогнозирования популярности получает указание на этот элемент контента из базы данных поискового робота.
Сбор поведенческих данных: Система запрашивает данные из Журналов:
- Из Поискового журнала извлекается поисковая активность, направленная на URL контента (показы и клики в SERP).
- Из Журнала браузера извлекается браузерная активность (посещения URL).
Сбор веб-данных: Система запрашивает из базы данных поискового робота Статистические веб-данные: информацию о всех известных ссылках и встроенных объектах, ведущих на этот URL с других веб-ресурсов.
(Опционально) Сбор данных API: Система может запросить у сервера хостинга через API статистические и динамические характеристики (лайки, комментарии, данные об авторе).
Расчет характеристик (Feature Engineering): Собранные данные преобразуются в признаки для ML-модели. В частности, рассчитываются Агрегированные и Неагрегированные динамические веб-характеристики.
Обработка неагрегированных данных: Неагрегированные характеристики (списки хостов и временные метки) могут обрабатываться Линейной моделью влияния.
Прогнозирование: Алгоритм машинного обучения (GBDT) использует все рассчитанные характеристики (включая вывод Линейной модели влияния) для прогнозирования популярности контента (например, общего числа просмотров).
Применение: Спрогнозированная популярность используется для ранжирования элемента контента.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Поиск): Данные из поисковых логов. Конкретно: число показов URL на SERP, число кликов на URL на SERP, число переходов по URL на SERP.,
Поведенческие факторы (Браузер): Данные из браузерных логов. Конкретно: число посещений URL элемента содержимого.,
Ссылочные факторы (Веб-данные): Данные о входящих ссылках на элемент контента с других веб-ресурсов. Анализируется количество, источники (хосты) и временные метрики.
Структурные факторы (Веб-данные): Данные о встраивании (embedding) элемента контента на других веб-ресурсах. Также анализируется количество, источники и временные метрики.
Временные факторы: Временные метки для ссылок и встраиваний, возраст ссылок/встраиваний (время с первого, последнего, среднее).,

Опциональные данные (через API хостинга):

Контентные факторы (Статические): Продолжительность, категория, длина названия, время загрузки.
Внешние поведенческие факторы (Динамические): Число комментариев, лайков, дислайков, рейтинги.
Данные об авторе: Возраст аккаунта, число загрузок, число друзей/подписчиков.

Какие метрики используются и как они считаются

Система вычисляет обширный набор метрик, основанных на Статистических веб-данных (Агрегированные динамические веб-характеристики):

Метрики встраиваний (Embeds):
- Общее число встраиваний.
- Число хостов со встраиваниями (Host Diversity).
- Макс/среднее число встраиваний на хост/страницу.
- Число дней с первого/последнего/среднее время встраивания.
Метрики ссылок (Links):
- Общее число ссылок.
- Число хостов со ссылками (Host Diversity).
- Макс/среднее число ссылок на хост.
- Число дней с первой/последней/среднее время ссылки.

Также используются Неагрегированные характеристики (списки хостов и временных меток), которые подаются на вход Линейной модели влияния.

Алгоритмы машинного обучения:

Основная модель прогнозирования — Модель Фридмана градиентного бустинга деревьев решений (GBDT).
Линейная модель влияния используется для предварительной обработки неагрегированных данных.

Целевая переменная для прогнозирования — популярность, определяемая как общее число просмотров элемента контента на данный момент времени.

Выводы

Независимая оценка популярности: Яндекс разработал механизм для оценки популярности контента, который не зависит от данных, предоставляемых внешними хостингами. Это позволяет системе быть более устойчивой и точной в определении трендов.
Мультиканальные поведенческие сигналы: Популярность определяется не только поведением в поиске (клики в SERP), но и поведением вне поиска, фиксируемым через браузерные логи (например, прямые заходы или переходы по ссылкам из соцсетей). Это подчеркивает важность комплексного пользовательского взаимодействия.
Глубокий анализ веб-графа (Ссылки и Встраивания): Ссылки и встраивания (embeds) анализируются очень детально. Учитывается не только их количество, но и разнообразие хостов (Host Diversity), а также темпоральные характеристики (скорость появления, время жизни). Это указывает на сложный механизм оценки естественности распространения контента.
Сложное моделирование (GBDT и Линейная модель влияния): Использование GBDT (основа CatBoost) в связке с Линейной моделью влияния для обработки неагрегированных данных говорит о высокой сложности системы прогнозирования и способности учитывать тонкие паттерны распространения информации в сети.
Популярность как фактор ранжирования: Патент прямо утверждает, что рассчитанный прогноз популярности используется для ранжирования контента.

Практика

Best practices (это мы делаем)

Комплексное продвижение контента: Стимулируйте распространение контента по разным каналам (социальные сети, блоги, медиа). Цель — генерация сигналов во всех трех ключевых источниках: получение естественных ссылок и встраиваний (Веб-данные), увеличение прямых заходов и переходов из внешних источников (Браузерные логи), а также рост брендового/витального трафика (Поисковые логи).
Поощрение встраивания (Embedding): Если вы продвигаете медиа-контент (например, видео), обеспечьте техническую возможность и поощряйте пользователей и другие сайты встраивать его на своих ресурсах. Встраивания являются сильным сигналом популярности, анализируемым отдельно от ссылок.
Работа над качеством и разнообразием ссылочного профиля: При работе над распространением контента фокусируйтесь на получении ссылок и встраиваний с разнообразных качественных хостов. Система явно учитывает «число всех хостов со ссылками/встроенными объектами».
Оптимизация поведенческих факторов в поиске: Работайте над повышением CTR в SERP. Показы и клики из поиска являются прямыми входными данными для модели прогнозирования популярности.
Стимулирование виральности и темпоральных сигналов: Контент, который быстро набирает ссылки и просмотры после публикации, вероятно, получит более высокий прогноз популярности, так как система анализирует временные метрики (время с первой/последней ссылки/встраивания).

Worst practices (это делать не надо)

Имитация популярности через спам: Попытки манипулировать популярностью с помощью массовой закупки низкокачественных ссылок или накрутки встраиваний с ограниченного числа хостов будут неэффективны. Система анализирует разнообразие хостов и темпоральные паттерны, что позволяет отличать естественное распространение от спама.
Изолированная SEO-оптимизация: Оптимизация контента только под поисковые запросы без стратегии его дальнейшего распространения и стимулирования пользовательского интереса не позволит достичь высоких показателей популярности.
Запрет на встраивание контента: Техническое ограничение возможности встраивания медиа-контента лишает систему одного из ключевых источников данных о популярности.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование собственных данных (Поиск и Браузер) для оценки качества и популярности контента в интернете. Он демонстрирует сложный механизм измерения «виральности» или «шума» вокруг контента, комбинируя данные о поведении пользователей внутри экосистемы Яндекса с данными веб-графа. Для SEO это означает, что создание контента, который люди активно ищут, посещают напрямую и которым делятся (ссылаются и встраивают), является критически важным для ранжирования в конкурентных и трендовых тематиках.

Практические примеры

Сценарий: Ранжирование вирусного видео

Публикация: На YouTube опубликовано новое видео. Яндекс его индексирует.
Распространение (Веб-данные): Видео становится вирусным. Его встраивают на популярном новостном сайте и в нескольких крупных блогах. Множество пользователей делятся ссылкой в социальных сетях. Краулер Яндекса фиксирует эти встраивания и ссылки, отмечая разнообразие хостов и высокую скорость появления.
Реакция пользователей (Браузерные логи): Пользователи активно переходят по ссылкам из соцсетей и блогов. Яндекс фиксирует большой объем трафика на URL видео через браузерные логи.
Поисковый интерес (Поисковые логи): Пользователи начинают искать видео в Яндексе по названию или связанным запросам. URL видео получает много показов и кликов в SERP.
Прогнозирование и Ранжирование: Система прогнозирования популярности анализирует мощные сигналы из всех трех источников. Модель GBDT прогнозирует высокую популярность. Видео получает значительный буст в ранжировании по релевантным запросам.

Вопросы и ответы

Какие три основных источника данных использует Яндекс для прогнозирования популярности согласно патенту?

Яндекс использует три ключевых источника: (1) Поисковые журналы – данные об активности пользователей в SERP (показы, клики); (2) Браузерные журналы – данные об активности пользователей в браузере (посещения URL); (3) Статистические веб-данные – данные из базы краулера о ссылках и встраиваниях (embeds) этого контента на других сайтах в интернете.

Зачем Яндексу прогнозировать популярность самостоятельно, если можно взять данные о просмотрах у хостинга (например, YouTube)?

Патент объясняет, что полагаться на API хостинга ненадежно. API может быть временно недоступен, иметь ограничения по количеству запросов или предоставлять данные с задержкой. Собственная система прогнозирования позволяет Яндексу оценивать популярность быстрее, стабильнее и использовать для этого собственные метрики и данные, которые недоступны хостингу (например, активность в поиске Яндекса).

Какие конкретные метрики из Поисковых логов используются?

В патенте явно указаны три метрики из поисковых логов: число показов URL элемента контента на странице результатов поиска (SERP), число кликов на URL на SERP и число переходов по URL на SERP. Это означает, что высокий CTR и видимость в поиске напрямую влияют на прогнозируемую популярность.

Что подразумевается под «Браузерными логами» и как Яндекс их получает?

Браузерные логи фиксируют историю посещений URL пользователями. Эти данные собираются через браузерные приложения (например, Яндекс.Браузер) с согласия пользователей. Для системы это важный источник информации о трафике, который идет не из поиска, например, прямые заходы или переходы по ссылкам из социальных сетей и мессенджеров.

Как система обрабатывает ссылки и встраивания (embeds)? Они равнозначны?

Система обрабатывает ссылки и встраивания как отдельные типы Статистических веб-данных. Для каждого типа рассчитывается отдельный набор метрик: общее количество, разнообразие хостов (Host Diversity), максимальное/среднее количество на хост и временные характеристики (скорость появления, свежесть). Это позволяет системе комплексно оценивать, как контент распространяется в сети.

Какой алгоритм машинного обучения используется для прогнозирования?

В патенте указано использование Модели Фридмана градиентного бустинга деревьев решений (GBDT). Это тот же класс алгоритмов, к которому относится CatBoost, являющийся основой ранжирования Яндекса. Это говорит о высокой сложности и эффективности модели прогнозирования.

Что такое «Линейная модель влияния» и как она используется?

Линейная модель влияния — это вспомогательная модель, которая используется для обработки «Неагрегированных динамических веб-характеристик» (детального списка хостов с временными метками ссылок/встраиваний). Вывод этой линейной модели затем используется как один из входных признаков (feature) для основной модели GBDT. Это позволяет учитывать сложные паттерны распространения контента.

Как этот патент влияет на стратегию линкбилдинга и продвижения контента?

Он подчеркивает важность естественного и разнообразного распространения контента. Важно не только количество ссылок, но и количество уникальных хостов, которые ссылаются или встраивают контент, а также скорость распространения. Стратегия должна быть направлена на создание вирального контента, которым пользователи захотят делиться, а сайты — цитировать или встраивать.

Применяется ли этот механизм только к видео контенту?

Нет. Хотя видео часто используется в качестве примера, патент определяет «Элемент содержимого» очень широко. Он может включать текст, изображения, музыку, мобильные приложения, посты в социальных сетях и новостные статьи. Механизм универсален для любого контента, популярность которого можно измерить через веб-активность.

Как SEO-специалисту оптимизировать сайт под этот алгоритм?

Необходимо применять комплексный подход. Во-первых, создавать качественный контент, стимулирующий естественное распространение (ссылки и встраивания). Во-вторых, работать над улучшением поведенческих факторов в поиске (высокий CTR). В-третьих, развивать знание бренда и лояльность аудитории, чтобы увеличить количество прямых посещений и переходов из внешних источников (фиксируемых браузерными логами).