Как Яндекс прогнозирует будущую популярность контента, используя данные из Поиска, Браузера и Веб-графа (ссылки и встраивания)

Яндекс патентует метод прогнозирования популярности контента (например, видео или статей). Система агрегирует данные из трех источников: поисковые логи (показы и клики в SERP), логи браузера (прямые посещения) и веб-граф (ссылки и встраивания на других сайтах, включая динамику их появления во времени). На основе этих данных модель машинного обучения (GBDT) предсказывает будущую популярность, которая затем используется для ранжирования.

Описание

Какую задачу решает

Патент решает задачу раннего выявления трендового, «вирусного» или набирающего популярность контента (например, видео, новостей, статей) для улучшения качества ранжирования. Система позволяет оценить, насколько популярным станет элемент содержимого в будущем, основываясь на текущей динамике его распространения и потребления из различных источников. Это позволяет поисковой системе быстрее реагировать на тренды и предоставлять пользователям наиболее актуальный и востребованный контент.

Что запатентовано

Запатентована система и способ прогнозирования популярности элемента содержимого. Суть изобретения заключается в комплексной агрегации сигналов из трех разнородных источников данных: поисковых журналов (активность в SERP), журналов браузера (прямая активность пользователей) и статистических веб-данных (распространение в вебе через ссылки и встраивания). Эти данные используются как признаки для модели машинного обучения (упоминается GBDT), которая генерирует прогноз популярности, используемый далее для ранжирования.

Как это работает

Система отслеживает конкретный элемент содержимого (например, URL видео или статьи). Она собирает данные из поисковых журналов: как часто URL появляется в выдаче (показы) и как часто на него кликают. Параллельно из журналов браузера (например, Яндекс.Браузера) учитываются прямые посещения этого URL. Дополнительно анализируются статистические веб-данные (собранные краулером): как часто контент встраивают (embedded objects) или ссылаются на него с других ресурсов. Критически важно, что анализируется не только количество, но и динамика появления этих ссылок и встраиваний во времени. Все эти характеристики подаются на вход алгоритма машинного обучения (GBDT), который выдает итоговый прогноз популярности.

Актуальность для SEO

Высокая. Прогнозирование популярности и учет скорости распространения контента (Velocity) критически важны для ранжирования новостей, трендов и медиаконтента в современных поисковых системах. Использование экосистемных данных (Поиск, Браузер) является стандартной практикой для Яндекса. Алгоритмы градиентного бустинга (GBDT), упомянутые в патенте, лежат в основе технологий ранжирования Яндекса (например, CatBoost).

Важность для SEO

Влияние на SEO значительно (8/10). Патент напрямую описывает факторы, влияющие на оценку популярности контента, которая затем используется для ранжирования (Claim 18). Он подтверждает важность комплексного подхода к продвижению: необходимы не только ссылки, но и позитивные сигналы из поиска (CTR в SERP), прямая активность пользователей (трафик из браузера), а также скорость и динамика распространения контента (ссылки и встраивания во времени).

Детальный разбор

Термины и определения

Агрегированные-динамические-веб-характеристики (Aggregated Dynamic Web Characteristics): Сводные статистические данные о ссылках и встраиваниях элемента содержимого. Включают общее количество, количество хостов, средние/максимальные значения на хост/страницу, а также временные метрики (например, число дней с первой/последней ссылки). (Пункт 10)
Встроенные объекты (Embedded objects / Embeds): Элемент содержимого, размещенный на стороннем веб-ресурсе (например, видеоплеер, встроенный на новостной сайт). Учитывается как отдельный тип сигнала наряду со ссылками.
Динамические-характеристики-журналов-браузера: Данные из журналов браузера. Конкретно указано: число посещений URL элемента содержимого. (Пункт 9)
Динамические-характеристики-поисковых-журналов: Данные из поисковых логов. Включают число показов URL в SERP, число кликов на URL в SERP и число переходов по URL в SERP. (Пункт 8)
Журнал браузера (Browser Log): Логи, фиксирующие браузерную активность пользователей (например, пользователей Яндекс.Браузера), направленную на элемент содержимого (прямые заходы, переходы из соцсетей и т.д.).
Линейная модель влияния (Linear Influence Model): Вспомогательная модель, которая обрабатывает не-агрегированные динамические веб-характеристики (списки хостов с временными метками ссылок/встраиваний). Она моделирует процесс распространения (диффузии) контента в сети. Вывод этой модели используется как входная характеристика для основной модели GBDT. (Пункт 14, 15)
Модель Фридмана градиентного бустинга деревьев решений (GBDT): Основной алгоритм машинного обучения, используемый для прогнозирования популярности на основе собранных характеристик. Технология, лежащая в основе CatBoost. (Пункт 13)
Не-агрегированные-динамические-веб-характеристики (Non-Aggregated Dynamic Web Characteristics): Детализированные (сырые) данные о распространении контента: список хостов с временными отметками (timestamp) встраиваний и список хостов с временными отметками ссылок. (Пункт 11)
Поисковый журнал (Search Log): Логи поисковой системы, фиксирующие поисковую активность пользователей (показы и клики в SERP).
Статистические веб-данные (Web Statistics): Данные, полученные из базы данных поискового робота, характеризующие наличие встроенных объектов или ссылок на элемент содержимого на других веб-ресурсах.

Ключевые утверждения (Анализ Claims)

Патент описывает систему сбора данных из нескольких источников для прогнозирования популярности контента с целью его последующего ранжирования.

Пункт 1 (Независимый пункт): Описывает базовый способ прогнозирования популярности, основанный на трех источниках данных.

Получение указания на элемент содержимого (из базы краулера).
Получение данных из поисковых журналов (поисковая активность).
Получение данных из журналов браузера (браузерная активность).
Получение статистических веб-данных (встроенные объекты или ссылки с других ресурсов).
Прогнозирование популярности на основе комбинации этих трех источников данных.

Пункт 2 (Зависимый от п.1): Расширяет базовый способ добавлением четвертого источника данных.

Дополнительно система получает данные через API сервиса хостинга содержимого (например, YouTube API). Эти данные включают статические (например, длительность, автор) и динамические характеристики (например, количество лайков, просмотров на платформе хостинга). Прогнозирование осуществляется с учетом всех четырех источников.

Пункты 8, 9, 10, 11 (Зависимые от п.1): Детализируют состав данных (признаки) из основных источников.

Пункт 8 (Поиск): Включает показы, клики и переходы по URL в SERP.
Пункт 9 (Браузер): Включает число посещений URL.
Пункт 10 (Веб-данные, Агрегированные): Включает детальную статистику по ссылкам и встраиваниям: общее число, число хостов, макс/среднее на хост/страницу. Критически важно, что включены временные метрики (число дней с первого/последнего/среднего появления ссылки или встраивания), которые характеризуют скорость распространения (Velocity).
Пункт 11 (Веб-данные, Не-агрегированные): Включают сырые данные: списки хостов с временными отметками (timestamps) встраиваний и ссылок.

Пункты 12, 13 (Зависимые от п.1): Указывают метод прогнозирования.

Прогнозирование выполняется с помощью алгоритма машинного обучения. Конкретно используется модель Фридмана градиентного бустинга деревьев решений (GBDT).

Пункты 14, 15 (Зависимые от п.13): Описывают сложную архитектуру признаков для ML-модели (Моделирование влияния).

Модель GBDT получает на вход вывод линейной модели влияния (Пункт 14). Эта линейная модель влияния, в свою очередь, получает на вход не-агрегированные динамические веб-характеристики (списки хостов с временными метками из п. 11) (Пункт 15). Это указывает на то, что система не просто считает ссылки, а анализирует паттерны и динамику распространения контента во времени.

Пункт 18 (Зависимый от п.1): Определяет цель прогнозирования.

Выполняется ранжирование элемента содержимого на основе определенного прогноза популярности.

Где и как применяется

Изобретение затрагивает несколько этапов работы поисковой системы, интегрируя данные из разных компонентов инфраструктуры Яндекса.

CRAWLING – Сканирование и Сбор данных
Поисковый робот отвечает за сбор статистических веб-данных. Он обнаруживает ссылки и встроенные объекты на внешних веб-ресурсах, ведущие на анализируемый элемент содержимого, и фиксирует временные метки их появления.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обработка собранных данных и расчет характеристик (признаков) для модели прогнозирования.

Обработка данных веб-графа: Расчет агрегированных (п. 10) и подготовка не-агрегированных (п. 11) динамических веб-характеристик.
Агрегация логов: Извлечение данных из поисковых журналов (п. 8) и журналов браузера (п. 9).

Эти признаки сохраняются в индексе (или хранилище признаков) для использования моделью машинного обучения.

RANKING – Ранжирование (и Предварительные вычисления)
Прогнозирование популярности может происходить как офлайн/near real-time (периодический пересчет), так и в реальном времени.

Применение Линейной модели влияния к временным рядам ссылок/встраиваний (не-агрегированные данные).
Применение основной модели GBDT, использующей все собранные признаки (включая вывод линейной модели) для получения итогового скора популярности.
Использование прогноза популярности как фактора ранжирования (п. 18), вероятно на уровнях L2 или L3, для бустинга трендового контента.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, который активно распространяется через встраивание (видео, аудио, презентации) и ссылки (новости, вирусные статьи). Упоминание API хостинга (п. 2) предполагает фокус на контенте, размещенном на крупных платформах (например, видеохостингах).
Специфические запросы: Влияет на ранжирование по запросам, связанным с трендами, новостями и медиаконтентом (QDF — Query Deserves Freshness), где популярность и свежесть играют ключевую роль.

Когда применяется

Условия работы: Алгоритм применяется для элементов содержимого, по которым начинают поступать данные из указанных источников (Поиск, Браузер, Веб-граф).
Триггеры активации: Появление новой активности – новые показы/клики в поиске, посещения в браузере или обнаружение новых ссылок/встраиваний краулером. Особенно чувствителен к всплескам активности.
Частота применения: Прогнозирование обновляется регулярно по мере поступления новых данных. В патенте указано, что обучение модели может выполняться параллельно с прогнозированием (п. 17), что предполагает непрерывную работу системы.

Пошаговый алгоритм

Процесс прогнозирования популярности элемента содержимого.

Идентификация контента: Определение элемента содержимого, для которого будет строиться прогноз.
Сбор данных из Поиска: Извлечение из поисковых журналов числа показов, кликов и переходов на URL в SERP.
Сбор данных из Браузера: Извлечение из журналов браузера числа посещений URL.
Сбор Веб-данных: Извлечение из базы данных краулера статистических веб-данных о ссылках и встраиваниях.
Сбор данных с Хостинга (Опционально): Запрос через API к сервису хостинга (п. 2).
Извлечение Признаков (Feature Extraction):
- Расчет агрегированных динамических веб-характеристик (общее число ссылок/встраиваний, число хостов, временные метрики скорости и т.д.).
- Подготовка не-агрегированных динамических веб-характеристик (списки хостов с временными метками).
Моделирование Влияния: Применение Линейной модели влияния к не-агрегированным данным для анализа динамики распространения контента во времени.
Прогнозирование: Использование модели GBDT. На вход модели подаются все собранные характеристики и вывод Линейной модели влияния.
Применение: Использование полученного прогноза популярности для ранжирования элемента содержимого (п. 18).

Какие данные и как использует

Данные на входе

Система использует комплексный набор факторов из разных источников.

1. Поведенческие факторы (Поиск) (Пункт 8):

Число показов URL в SERP.
Число кликов на URL в SERP.
Число переходов по URL в SERP.

2. Поведенческие факторы (Браузер) (Пункт 9):

Число посещений URL (включая прямые заходы и переходы из источников, отслеживаемых браузером).

3. Статистические веб-данные (Ссылочные, Временные и Мультимедиа факторы) (Пункты 10, 11):

Агрегированные характеристики (Пункт 10):

Метрики объема (для ссылок и встраиваний): Общее число, число уникальных хостов, макс/среднее на хост/страницу.
Временные метрики (для ссылок и встраиваний): Число дней с первого/последнего появления, средний возраст.

Не-агрегированные характеристики (Пункт 11):

Список хостов с временными отметками встроенных объектов.
Список хостов с временными отметками ссылок.

4. Внешние Платформенные факторы (Опционально) (Пункт 2):

Динамические характеристики (например, просмотры, лайки, комментарии на платформе).
Статические характеристики (например, категория, длительность, автор).

Какие метрики используются и как они считаются

Метрики: Система использует конкретные характеристики, перечисленные в Пунктах 8-11, в качестве признаков для модели машинного обучения.
Алгоритмы машинного обучения:
- GBDT (Gradient Boosting Decision Trees): Основная модель прогнозирования (Модель Фридмана). Она агрегирует все признаки для получения финального прогноза (Пункт 13).
- Линейная модель влияния (Linear Influence Model): Используется для обработки временных рядов данных о появлении ссылок и встраиваний (не-агрегированных характеристик). Она позволяет оценить скорость (Velocity) и паттерны распространения (диффузии) контента. Вывод этой модели становится признаком для GBDT (Пункты 14, 15).

Выводы

Комплексная оценка популярности: Яндекс использует многофакторную модель для прогнозирования популярности, агрегируя данные из Поиска (SERP CTR), Браузера (посещаемость вне поиска) и Веб-графа (ссылки и встраивания). Популярность оценивается по всем каналам распространения.
Данные из Браузера как фактор ранжирования: Патент явно указывает на использование данных из журналов браузера (посещения URL) для прогнозирования популярности, которая затем используется для ранжирования (П. 1, 9, 18). Это прямое подтверждение использования браузерной активности (включая прямой трафик и трафик из соцсетей) как сигнала ранжирования.
Важность встраиваний (Embeds): Для медиаконтента (особенно видео) встраивания на сторонних ресурсах являются таким же важным сигналом распространения, как и ссылки. Система детально анализирует статистику встраиваний (П. 10).
Динамика распространения (Velocity) критически важна: Система не просто считает ссылки и встраивания, но анализирует динамику их появления во времени. Использование агрегированных временных метрик (П. 10) и особенно Линейной модели влияния на основе временных меток (П. 11, 15) указывает на то, что скорость и паттерн распространения являются ключевыми для прогноза популярности.
Сложная архитектура ML (Моделирование диффузии): Использование двухуровневой модели (Линейная модель влияния как вход для GBDT) позволяет системе моделировать процесс распространения влияния контента в сети, а не просто агрегировать статистику.

Практика

Best practices (это мы делаем)

Комплексное продвижение и дистрибуция контента: Стимулируйте распространение контента по всем каналам. Необходим трафик из поиска (сигнал Поискового Журнала), прямые заходы и переходы из соцсетей/мессенджеров (сигнал Журнала Браузера) и распространение на внешних ресурсах (сигнал Веб-данных).
Фокус на скорости распространения (Velocity): Для контента, зависящего от свежести (новости, тренды), критически важно обеспечить быстрое получение ссылок и встраиваний сразу после публикации. Система анализирует динамику (временные метки) через Линейную модель влияния для выявления трендов.
Стимулирование встраиваний (для медиаконтента): Если вы продвигаете видео, инфографику или другой медиаконтент, обеспечьте техническую возможность его легкого встраивания и активно работайте над тем, чтобы СМИ и пользователи размещали его на своих ресурсах.
Оптимизация CTR в SERP: Показы и клики в результатах поиска являются одним из трех основных источников данных. Работа над привлекательностью сниппетов напрямую влияет на оценку популярности контента.
Стимулирование прямой активности (Браузер): Развивайте знание бренда, используйте email-рассылки, социальные сети и другие каналы, которые ведут к прямым посещениям страниц. Активность, фиксируемая в журналах браузера, является сильным сигналом популярности.

Worst practices (это делать не надо)

Медленное и искусственное наращивание ссылок: Постепенная закупка ссылок с фиксированным интервалом может быть неэффективна для прогнозирования популярности, так как система анализирует естественную динамику и временные паттерны распространения через Линейную модель влияния. Естественный виральный всплеск ценится выше.
Изоляция контента: Создание контента, который живет только внутри сайта и не получает внешних ссылок, встраиваний и прямого трафика, не позволит ему получить высокую оценку популярности по этой модели.
Накрутка только одного типа сигналов: Попытки накрутить только CTR в поиске или только прямой трафик могут быть неэффективны, так как модель GBDT ищет подтверждение популярности во всех источниках (Поиск, Браузер, Веб-граф).

Стратегическое значение

Патент подтверждает способность Яндекса отслеживать и оценивать популярность контента за пределами поисковой системы, используя данные своей экосистемы (Браузер) и анализ всего интернета (Веб-граф). Это демонстрирует переход от статического анализа веба к динамическому анализу распространения информации. Для SEO это означает, что стратегии должны быть интегрированы с Digital PR, контент-маркетингом и SMM для обеспечения максимального охвата, скорости распространения контента и генерации сигналов популярности из всех возможных источников.

Практические примеры

Сценарий: Запуск нового исследования или виральной статьи

Подготовка и Посев: Создается качественное исследование. Сразу после публикации запускается email-рассылка и активное продвижение в социальных сетях и Telegram-каналах.
Эффект (Журналы браузера): Генерируется значительный объем прямого трафика и переходов из внешних источников. Яндекс фиксирует рост посещений URL.
Эффект (Веб-данные): Новостные сайты и блоги начинают ссылаться на исследование. Яндекс фиксирует появление новых ссылок с новыми временными метками. Линейная модель влияния анализирует высокую скорость распространения (Velocity).
Эффект (Поисковые журналы): Статья начинает показываться в поиске по актуальным запросам и получает высокий CTR.
Результат: Модель GBDT, получив сильные сигналы по всем трем направлениям и позитивный вывод от модели влияния, прогнозирует высокую популярность контента. Это приводит к агрессивному повышению статьи в ранжировании по релевантным запросам.

Вопросы и ответы

Что такое «Журналы браузера» (Browser Logs) и как Яндекс их получает?

Журналы браузера — это данные об активности пользователей в браузере, в частности, о посещенных URL (Пункт 9). Яндекс получает эти данные преимущественно от пользователей Яндекс.Браузера или через другие свои сервисы (например, расширения), при условии согласия пользователя. Эти логи позволяют фиксировать посещения URL вне контекста поисковой сессии, такие как прямые заходы или переходы из социальных сетей и мессенджеров.

Означает ли этот патент, что прямой трафик является фактором ранжирования в Яндексе?

Да, косвенно. Патент прямо указывает, что данные из журналов браузера (которые включают прямой трафик) используются для прогнозирования популярности контента (Пункт 1). А этот прогноз популярности, в свою очередь, используется для ранжирования (Пункт 18). Таким образом, высокий объем трафика, зафиксированный браузерами, положительно влияет на ранжирование.

В чем разница между «ссылкой» и «встроенным объектом» (Embed) в этом патенте?

Ссылка — это стандартная гиперссылка, ведущая на URL элемента контента. Встроенный объект (Embed) — это включение контента в тело сторонней страницы (например, встраивание видео с YouTube или инфографики). Патент явно разделяет эти два понятия и собирает статистику (количество, хосты, временные метки) по ним отдельно (Пункт 10), рассматривая их как равнозначные сигналы распространения.

Насколько важна динамика получения ссылок и встраиваний (Velocity)?

Она критически важна. Патент перечисляет множество временных факторов (время с первой/последней ссылки – Пункт 10) и использует неагрегированные временные метки в Линейной модели влияния (Пункт 11, 15). Это означает, что система оценивает скорость (Velocity) и ускорение приобретения внешних упоминаний. Быстрый прирост ссылок/встраиваний является сильным сигналом растущей популярности.

Что такое «Линейная модель влияния» (Linear Influence Model) и зачем она нужна?

Это модель, которая обрабатывает неагрегированные данные о ссылках и встраиваниях — списки хостов с временными метками (Пункт 15). Ее задача — оценить, как именно контент распространяется по сети во времени (моделирование диффузии или виральности), а не просто подсчитать количество упоминаний. Вывод этой модели используется как сложный признак для основной модели прогнозирования GBDT (Пункт 14).

Что такое GBDT и как это связано с CatBoost?

GBDT (Gradient Boosting Decision Trees) — это класс алгоритмов машинного обучения. В патенте упоминается конкретная реализация — модель Фридмана (Пункт 13). CatBoost — это разработанная Яндексом библиотека градиентного бустинга, которая является современной и высокоэффективной реализацией GBDT. Вероятно, на практике для реализации описанного в патенте механизма используется именно CatBoost.

Применяется ли этот алгоритм ко всем типам контента?

Теоретически он может применяться к любому элементу контента. Однако наибольшее влияние он оказывает на контент, подверженный колебаниям популярности и виральному распространению — новости, трендовые статьи, видео. Для «вечнозеленого» статического контента или коммерческих страниц его влияние может быть менее выраженным, но сигналы общей популярности (например, прямой трафик) все равно учитываются.

Что, если мой контент размещен на крупной платформе, например, на YouTube или Дзен?

Для такого контента система может использовать дополнительный источник данных — API хостинга (Пункт 2). Это позволяет Яндексу получать статистические и динамические характеристики (например, количество просмотров, лайков, комментариев на самой платформе) напрямую, что может сделать прогноз популярности еще более точным.

Как этот патент связан с алгоритмами типа QDF (Query Deserves Freshness)?

Эти механизмы дополняют друг друга. Алгоритмы типа QDF определяют, что по данному запросу требуется свежий или трендовый контент. Описанный в патенте механизм прогнозирования популярности помогает определить, какие именно из свежих документов являются наиболее востребованными и набирающими популярность прямо сейчас (на основе скорости распространения и потребления), чтобы ранжировать их выше.

Как SEO-специалист может повлиять на факторы, описанные в патенте?

Необходимо применять комплексный подход. Оптимизируйте сниппеты для повышения CTR (влияние на поисковые логи). Создавайте виральный контент и активно занимайтесь его посевом для ускорения распространения и получения ссылок/встраиваний (влияние на веб-данные и Velocity). Привлекайте трафик из разных источников (email, SMM, PR) для генерации сигналов в браузерных логах.