Как Яндекс прогнозирует популярность и скорость ее угасания для приоритизации сканирования новых страниц

Яндекс использует машинное обучение для оптимизации очереди сканирования. Система прогнозирует будущую долгосрочную популярность новой страницы и скорость угасания этой популярности, анализируя исторические данные похожих URL-структур (паттернов). На основе этого рассчитывается «Выгода от сканирования». Страницы с высокой ожидаемой популярностью и быстрым угасанием интереса (например, новости) сканируются в первую очередь, пока они актуальны.

Описание

Какую задачу решает

Патент решает задачу оптимизации ограниченных ресурсов сканирования (Crawl Budget Optimization). В условиях огромного количества нового и обновляющегося контента поисковая система должна определить, какие страницы сканировать в приоритетном порядке для максимизации свежести и актуальности индекса. Изобретение фокусируется на своевременном сканировании контента, чья ценность быстро падает со временем (time-sensitive content). Также решается проблема «холодного старта»: как оценить важность новой страницы, по которой еще нет статистики посещений.

Что запатентовано

Запатентован метод и система определения графика сканирования (Crawling Schedule). Суть изобретения заключается в расчете метрики Crawling Benefit Parameter (Параметр выгоды от сканирования) для каждой страницы в очереди. Эта метрика базируется на двух ключевых прогнозах, получаемых с помощью машинного обучения: ожидаемой долгосрочной популярности (Predicted Popularity Parameter) и ожидаемой скорости угасания этой популярности (Predicted Popularity Decay Parameter).

Как это работает

Система использует модель машинного обучения для прогнозирования популярности новых страниц. Поскольку у новых URL нет истории, модель анализирует исторические данные о посещаемости страниц с похожей структурой URL (URL Patterns). Для нового URL прогнозируется общая популярность (a1) и скорость ее угасания (λ(u)). Затем рассчитывается выгода от сканирования (r(u)) с учетом текущего возраста страницы (Δt). Выгода экспоненциально уменьшается со временем. Страницы с максимальной текущей выгодой сканируются первыми.

Актуальность для SEO

Высокая. Эффективное управление краулинговым бюджетом и скорость индексации трендового контента являются критически важными задачами для современных поисковых систем. Использование предиктивной аналитики и машинного обучения для управления ресурсами краулера является актуальным подходом.

Важность для SEO

Влияние на SEO значительно (7/10). Патент не описывает факторы ранжирования, но напрямую влияет на скорость попадания контента в индекс. Он раскрывает механизм, почему контент в определенных разделах сайта (с исторически высокой популярностью и быстрым угасанием) индексируется приоритетно. Это критически важно для новостных порталов, сайтов событий и разделов с трендовым контентом, а также подчеркивает важность структуры URL для управления индексацией.

Детальный разбор

Термины и определения

Crawling Benefit Parameter (r(u)) (Параметр выгоды от сканирования): Ключевая метрика для приоритизации. Оценка ожидаемой выгоды от сканирования URL (u) в данный момент времени. Чем выше значение, тем выше приоритет.
Predicted Popularity Parameter (p(u) или a1) (Прогнозируемый параметр популярности): Оценка долгосрочной популярности страницы; общее количество визитов, которое страница получит за все время ее существования.
Predicted Popularity Decay Parameter (λ(u)) (Прогнозируемый параметр угасания популярности): Оценка скорости, с которой популярность страницы изменяется (растет и затем падает) со временем. Отражает динамику интереса.
Short-term Popularity (p_t(u)) (Краткосрочная популярность): Количество визитов на страницу в течение определенного интервала времени (t) после ее создания или обнаружения (например, первые 24 часа).
Popularity Ratio (a2) (Коэффициент популярности): Оценка доли краткосрочной популярности от общей популярности (a2 ≈ p_t(u) / p(u)). Используется для расчета параметра угасания λ(u).
URL Pattern (P) (Паттерн URL): Группа URL на домене, имеющих схожую синтаксическую структуру (например, /news/ГГГГ/ММ/*). Используется для агрегации исторических данных, когда индивидуальная история для нового URL недоступна.
V_in(P) (Входящие переходы на паттерн): Количество переходов (визитов) на все URL, соответствующие паттерну P. Признак популярности для ML-модели.
V_out(P) (Исходящие переходы с паттерна): Количество раз, когда URL в паттерне P выступали в качестве рефереров. Признак важности/хабовости для ML-модели.
Δt (Возраст ресурса): Интервал времени между созданием (или обнаружением) веб-страницы и текущим моментом.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии приоритизации очереди сканирования на основе прогнозируемой динамики популярности.

Claim 1 (Независимый пункт): Описывает основной процесс определения порядка сканирования.

Система обнаруживает новые веб-страницы.
Для каждой страницы рассчитывается Crawling Benefit Parameter.
Этот параметр базируется на двух прогнозах:
1. Predicted Popularity Parameter (долгосрочная популярность, общее число визитов).
2. Predicted Popularity Decay Parameter (скорость изменения популярности со временем).
Важно: Параметр угасания прогнозируется на основе ожидаемой краткосрочной популярности, долгосрочной популярности, предопределенного временного интервала (t) и текущего возраста страницы (Δt).
Определяются зависимости: чем выше прогнозируемая популярность, тем выше выгода от сканирования. Однако выгода уменьшается со временем со скоростью, определяемой параметром угасания.
Порядок сканирования определяется путем сортировки страниц в порядке убывания их Crawling Benefit Parameter.

Claims 2-4 (Зависимые пункты): Расширяют метод на повторное сканирование (re-crawling).

Система может использовать ту же логику для приоритизации переобхода старых (ранее просканированных) страниц. Для них рассчитывается Crawling Benefit Parameter, основанный на прогнозируемой популярности и угасании популярности изменений на этой странице. Это позволяет создать единую очередь приоритизации.

Claims 5-10 (Зависимые пункты): Детализируют использование машинного обучения.

Прогнозирование параметров популярности и угасания осуществляется с помощью алгоритма машинного обучения (ML). Обучение модели основывается на признаках (features), извлеченных из исторических данных, агрегированных по URL Patterns (P). Признаки включают статистику переходов НА паттерн (V_in) и ИЗ паттерна (V_out).

Claim 11 (Зависимый пункт): Фиксирует конкретную формулу для расчета Crawling Benefit Parameter (r(u)):

$$ r(u) = a_1 \cdot e^{-\frac{\log(1-a_2)}{t} \cdot \Delta t} $$

Где: a1 – оценка общего числа визитов; a2 – оценка доли визитов за время t; t – предопределенный интервал времени; Δt – текущий возраст ресурса.

Где и как применяется

Изобретение применяется на этапе CRAWLING – Сканирование и Сбор данных.

Алгоритм интегрирован в планировщик краулера (в архитектуре Яндекса это часть подсистемы Scraper), который управляет очередью сканирования и распределением ресурсов.

Взаимодействие: Планировщик использует этот алгоритм для динамической переоценки приоритетов в очереди. Он взаимодействует с хранилищем исторических поведенческих данных и предиктивной ML-моделью.
Профилирование Краулинга (1.1.3): Этот механизм, вероятно, является ключевым для управления Fresh Profiles и определения приоритетов для Быстроробота (Orange), отвечающего за real-time сканирование.
Данные на входе: Список обнаруженных URL, время их обнаружения (для расчета Δt), доступ к дереву URL-паттернов и их историческим признакам.
Данные на выходе: Приоритезированный порядок сканирования (Crawling Order).

На что влияет

Конкретные типы контента и Ниши: Наибольшее влияние оказывается на контент с высокой динамикой популярности (time-sensitive content). Это критично для новостных сайтов, агрегаторов событий, трендовых товаров в e-commerce, блогов. Страницы с ожидаемым быстрым угасанием интереса получат наивысший приоритет.
Вечнозеленый контент: Меньшее влияние на статический контент. Для таких страниц скорость угасания (λ(u)) будет низкой, и выгода от сканирования (r(u)) будет уменьшаться медленно, поэтому система может отложить их сканирование.
Структура сайта: Алгоритм сильно зависит от структуры URL. Сайты с логичной и последовательной структурой позволяют системе точнее определять URL Patterns и использовать их историю для прогнозирования.

Когда применяется

Алгоритм применяется непрерывно в процессе управления очередью сканирования.

Условия работы: Применяется для каждого URL в очереди (как нового, так и для переобхода).
Триггеры активации: Необходимость выбрать следующий URL для сканирования. Приоритеты пересчитываются динамически, так как возраст страницы (Δt) постоянно увеличивается, что снижает выгоду от сканирования (r(u)).

Пошаговый алгоритм

Процесс А: Офлайн-подготовка и обучение модели

Сбор данных: Агрегация исторических логов посещений пользователей (в патенте упоминаются логи тулбара браузера).
Построение дерева паттернов: Группировка URL по синтаксической структуре (URL Patterns P).
Расчет признаков: Для каждого паттерна P вычисляются исторические метрики: V_in(P), V_out(P), их краткосрочные аналоги (за время t) и средние значения.
Обучение ML-модели: Модель обучается предсказывать фактическую долгосрочную популярность (a1) и долю краткосрочной популярности (a2) на основе признаков паттерна.

Процесс Б: Онлайн-приоритизация сканирования

Обнаружение URL: Система идентифицирует URL (u) для сканирования. Определяется его возраст (Δt).
Идентификация паттерна: URL (u) сопоставляется с соответствующим паттерном (P).
Прогнозирование: Обученная ML-модель использует признаки паттерна P для прогнозирования a1 и a2 для URL (u).
Расчет скорости угасания (λ(u)): Вычисляется параметр угасания:
$$ \lambda(u) = -\frac{\log(1-a_2)}{t} $$
Расчет выгоды (r(u)): Вычисляется текущая выгода от сканирования с учетом возраста страницы:
$$ r(u) = a_1 \cdot e^{-\lambda(u) \cdot \Delta t} $$
Приоритизация: URL в очереди сортируются по значению r(u). Краулер выбирает URL с максимальным значением r(u).

Какие данные и как использует

Данные на входе

Система НЕ использует контент страницы, так как он еще не сканирован.

Поведенческие факторы (Агрегированные): Основной источник данных. Исторические логи посещений пользователей (например, с тулбаров браузера). Эти данные агрегируются на уровне URL Patterns. Включают количество переходов НА страницы паттерна (V_in) и С них (V_out).
Структурные факторы: Синтаксис URL. Используется для классификации страниц по шаблонам (URL Patterns).
Временные факторы: Возраст страницы (Δt) – время с момента создания или обнаружения. Предопределенный интервал (t) для измерения краткосрочной популярности (например, 24 часа).
Дополнительные факторы (упомянуты как возможные): Источник обнаружения URL, количество упоминаний во внешних медиа (например, твиты), общее количество известных входящих ссылок.

Какие метрики используются и как они считаются

Алгоритмы машинного обучения: Используются для прогнозирования a1 и a2 на основе признаков паттерна.
Признаки для ML (Features):
- Признаки популярности (Transitions TO the pattern): Например, среднее число переходов на URL в шаблоне P ($V_{in}(P)/|P|$). В патенте указано, что это наиболее важные признаки.
- Признаки важности (Transitions FROM the pattern): Например, среднее число переходов с URL в шаблоне P ($V_{out}(P)/|P|$).
- Размер шаблона (|P|).
Прогнозируемые метрики:
- a1 (Долгосрочная популярность): Прогноз ML-модели.
- a2 (Доля краткосрочной популярности): Прогноз ML-модели.
Расчетные метрики:
- λ(u) (Скорость угасания): Рассчитывается на основе a2 и t.
- r(u) (Выгода от сканирования): Рассчитывается по формуле экспоненциального угасания, указанной в Claim 11.

Выводы

Приоритет сканирования определяется прогнозируемой популярностью и ее динамикой. Яндекс оптимизирует краулинг, стремясь в первую очередь сканировать контент, который будет востребован пользователями, особенно если интерес к нему быстро угаснет.
Скорость угасания (Decay Rate) критически важна. Недостаточно знать общую популярность. Контент с быстрым угасанием интереса (высокий λ(u)) должен быть проиндексирован немедленно, иначе выгода от его сканирования (r(u)) резко падает.
Структура URL — основа прогнозирования для новых страниц. Система полагается на исторические данные схожих по структуре URL (URL Patterns). Это делает архитектуру сайта и консистентность URL критически важными для управления скоростью индексации.
Поведенческие данные управляют краулингом. Исторические данные о визитах и переходах пользователей (полученные, например, через тулбары браузеров) являются основой для обучения моделей прогнозирования популярности.
Возраст страницы (Δt) как демпфер. Выгода от сканирования экспоненциально уменьшается со временем. Быстрое обнаружение (Discovery) новых URL критически важно для получения высокого приоритета.

Практика

Best practices (это мы делаем)

Поддержание логичной и стабильной структуры URL. Это критически важно. Поскольку прогнозы строятся на основе URL Patterns, изменение структуры может привести к потере накопленной истории паттерна и замедлению индексации нового контента в этом разделе.
Сегментация контента в структуре URL. Используйте разные шаблоны для контента с разной динамикой популярности. Например, /news/ (быстрое угасание, высокий λ(u)) и /articles/ (медленное угасание, низкий λ(u)). Это позволит системе точнее обучиться и эффективнее управлять приоритетами.
Стратегическое размещение нового контента. Размещайте новый контент в разделах (URL-паттернах), которые исторически демонстрируют высокую популярность (высокий V_in). Новые страницы наследуют прогнозируемую популярность от своего паттерна.
Стимулирование ранней популярности и «прогрев» паттернов. Активно привлекайте трафик на новые страницы (соцсети, рассылки, внутренняя перелинковка). Это улучшает исторические поведенческие метрики для соответствующего URL-паттерна, что повышает приоритет сканирования для будущих публикаций в этом разделе.
Обеспечение максимально быстрого обнаружения (Discovery). Минимизируйте возраст страницы (Δt). Используйте XML Sitemaps и грамотную внутреннюю перелинковку, чтобы робот быстро находил новые URL, пока выгода от их сканирования максимальна.

Worst practices (это делать не надо)

Хаотичная или часто меняющаяся структура URL. Это обнуляет историю паттернов и мешает системе использовать исторические данные для прогнозирования популярности, что замедляет сканирование.
Использование неинформативных URL. URL вида site.com/page?id=123 затрудняют эффективное формирование URL Patterns и агрегацию статистики.
Смешивание разных типов контента в одном URL-паттерне. Размещение срочных новостей и архивных статей в одной директории приведет к усреднению показателей Popularity Decay, что может замедлить индексацию срочного контента.
Публикация важного контента в «мертвых» разделах. Размещение нового контента в разделах, которые исторически не пользуются популярностью у пользователей, приведет к низкому прогнозу популярности (a1) и низкому приоритету сканирования.

Стратегическое значение

Патент подтверждает, что управление бюджетом сканирования в Яндексе — это сложный процесс, основанный на машинном обучении и прогнозировании поведения пользователей. Стратегия SEO должна учитывать, что структура сайта является не просто элементом навигации, а ключевым сигналом для системы краулинга, напрямую влияющим на скорость индексации нового контента. Для крупных сайтов и time-sensitive ниш это имеет первостепенное значение.

Практические примеры

Сценарий 1: Оптимизация новостного раздела

Задача: Максимально ускорить индексацию новостей.
Анализ (на основе патента): Новости имеют высокую ожидаемую популярность (a1) и очень быстрое угасание (высокий λ(u)). Приоритет (r(u)) максимален сразу после публикации и быстро падает.
Действие: Использовать стабильный паттерн, например, /news/YYYY-MM-DD/slug. Обеспечить мгновенное обнаружение (Sitemaps, ссылки с главной). Активно генерировать начальный трафик (увеличение V_in(P)).
Результат: ML-модель Яндекса обучается, что данный паттерн генерирует контент с высокой динамикой. Будущие новости в этом разделе получают высокий приоритет сканирования.

Сценарий 2: Влияние задержки обнаружения (Δt)

Ситуация: Опубликована важная новость (высокий a1, высокий λ(u)), но из-за технических проблем робот обнаружил ее только через 12 часов (Δt = 12h).
Анализ (на основе патента): Формула выгоды $$ r(u) = a_1 \cdot e^{-\lambda(u) \cdot \Delta t} $$. Из-за большого возраста (Δt) и высокого темпа угасания (λ(u)) текущая выгода от сканирования r(u) будет значительно ниже, чем сразу после публикации.
Результат: Приоритет сканирования снижен. Страница может быть просканирована с задержкой, уступив место более свежим новостям, даже если их общая популярность ниже.

Сценарий 3: Запуск нового раздела (Проблема холодного старта)

Ситуация: Сайт запускает новый раздел /events/. Это новый URL Pattern, истории нет.
Анализ (на основе патента): Система не имеет данных для точного прогноза a1 и a2. Приоритет сканирования будет низким или средним.
SEO-действие: Необходимо «прогреть» паттерн. Сразу после запуска активно направлять пользователей в новый раздел.
Результат: Система собирает данные о V_in для паттерна /events/. Как только ML-модель увидит популярность паттерна, скорость сканирования новых страниц в нем увеличится.

Вопросы и ответы

Что самое важное в этом патенте для оптимизации краулингового бюджета?

Ключевой инсайт — приоритет сканирования новых страниц напрямую зависит от исторической популярности страниц с аналогичной структурой URL (URL Pattern). Если раздел сайта исторически популярен у пользователей, новые страницы в нем будут сканироваться быстрее. Это подчеркивает критическую важность консистентной структуры URL и необходимость активного привлечения трафика в ключевые разделы.

Что такое «Параметр угасания популярности» (Popularity Decay Parameter) и почему он важен?

Это оценка того, как быстро страница теряет актуальность. Например, новость имеет высокое угасание (актуальна сегодня), а справочная статья — низкое (актуальна долго). Он важен, потому что определяет срочность сканирования. Система стремится просканировать контент с высоким угасанием немедленно, пока он еще интересен пользователям, иначе выгода от его индексации падает.

Как система прогнозирует популярность, если страница только что создана и контент еще не загружен?

Система не использует контент. Она определяет, к какому URL-паттерну (например, директории) относится новый URL, и использует исторические данные о популярности других страниц, принадлежащих к этому же паттерну. Модель машинного обучения обучена прогнозировать будущую популярность на основе этой агрегированной статистики.

Влияет ли этот патент на ранжирование?

Напрямую нет. Патент описывает только процесс приоритизации сканирования (Crawling). Однако он косвенно влияет на видимость: не просканированная страница не может ранжироваться. Для time-sensitive контента (новости, акции) скорость сканирования, определяемая этим алгоритмом, критически важна для своевременного получения трафика.

Как изменение структуры URL повлияет на работу этого алгоритма?

Крайне негативно. Алгоритм основан на исторических данных для конкретных URL-паттернов. При смене структуры старые паттерны теряют актуальность, а новые не имеют истории. Это приведет к неточным прогнозам популярности и значительному замедлению скорости сканирования до тех пор, пока не накопится новая статистика по новым паттернам.

Откуда Яндекс берет данные о посещаемости (V_in/V_out) для обучения модели?

В разделе «Examples and Experiments» патента явно указано, что эксперименты проводились на основе полностью анонимизированного лога посещений веб-страниц, записанного тулбаром браузера поисковой системы (search engine browser toolbar). Это реальные поведенческие данные пользователей, используемые для обучения моделей.

Что важнее для приоритета: общая популярность (a1) или скорость угасания (λ(u))?

Важны оба параметра в совокупности с возрастом страницы (Δt). Страница с высокой популярностью (a1) и быстрым угасанием (высокий λ(u)) получит максимальный приоритет, только если она обнаружена быстро (малый Δt). Если обнаружение задержалось, ее приоритет резко упадет. «Вечнозеленый» контент (низкий λ(u)) может подождать дольше без значительной потери выгоды.

Применяется ли этот подход для повторного сканирования (re-crawling)?

Да, патент (Claims 2-4) явно указывает, что метод может быть расширен для управления повторным сканированием. В этом случае система прогнозирует популярность и скорость угасания не всей страницы, а потенциальных *изменений* на ней, чтобы определить приоритет переобхода и сбалансировать ресурсы между новым и старым контентом.

Как система определяет возраст страницы (Δt)?

Патент указывает, что система может использовать точную дату создания страницы, если она известна. Если дата создания неизвестна, система может использовать время, когда URL был впервые обнаружен краулером, в качестве прокси (приближения) для времени создания.

Как этот алгоритм обрабатывает совершенно новые домены?

Новые домены сталкиваются с проблемой «холодного старта», так как у них нет истории URL-паттернов. В этом случае описанный механизм менее эффективен. Вероятно, система будет полагаться на другие сигналы (например, внешние ссылки, источник обнаружения), пока не накопит достаточно статистики по новому домену для построения надежных прогнозов популярности.