Как Яндекс оптимизирует краулинг, предсказывая популярность страницы и скорость ее угасания

Яндекс патентует метод приоритизации сканирования новых страниц. Система прогнозирует не только общую будущую популярность (количество визитов) страницы, но и скорость, с которой этот интерес будет угасать. Страницы, которые, как ожидается, быстро наберут популярность и так же быстро ее потеряют (например, новости), получают наивысший приоритет в очереди на сканирование, чтобы успеть проиндексировать их на пике интереса.

Описание

Какую задачу решает

Патент решает проблему эффективного распределения ограниченных ресурсов краулера в условиях постоянного появления нового контента. Ключевая задача — определить, какие из новых страниц следует сканировать в первую очередь. Система устраняет неэффективность стандартных подходов, которые могут слишком поздно проиндексировать важный, но быстро устаревающий контент (например, новости или посты в блогах), ориентируясь только на долгосрочную важность (например, ссылочный вес).

Что запатентовано

Запатентован метод определения графика сканирования (crawling schedule), который приоритизирует новые веб-страницы на основе двух ключевых прогнозируемых показателей: ожидаемой популярности (Predicted Popularity Parameter) и ожидаемой скорости угасания этой популярности (Predicted Popularity Decay Parameter). Цель — максимизировать совокупную пользу (например, количество пойманных визитов) от сканирования контента до того, как он потеряет актуальность.

Как это работает

Система использует алгоритм машинного обучения для прогнозирования будущей популярности и скорости ее угасания для нового URL еще до его сканирования. Прогнозы строятся на основе исторических данных о поведении пользователей (визитах) на страницах с похожей структурой URL (URL Patterns). На основе этих двух прогнозов вычисляется Crawling Benefit Parameter (Параметр выгоды от сканирования) — метрика, которая оценивает ожидаемую оставшуюся популярность страницы на текущий момент времени. Очередь сканирования (Crawling Order) формируется путем приоритизации страниц с наивысшим значением этого параметра.

Актуальность для SEO

Высокая. Оптимизация краулингового бюджета и скорость индексации свежего контента остаются критически важными задачами для всех поисковых систем. Использование машинного обучения и поведенческих данных для прогнозирования ценности контента до его сканирования является современным и актуальным подходом к управлению краулингом.

Важность для SEO

Влияние на SEO значительно (8/10). Хотя патент не описывает факторы ранжирования, он напрямую влияет на скорость попадания нового контента в индекс. Для новостных сайтов, блогов и разделов с часто обновляемым контентом понимание этого механизма критично. Он показывает, что историческая популярность определенного типа URL на сайте напрямую влияет на скорость сканирования новых URL того же типа.

Детальный разбор

Термины и определения

Crawling Benefit Parameter (Параметр выгоды от сканирования): Метрика, рассчитываемая для определения приоритета сканирования страницы. Она основана на прогнозируемой популярности и скорости ее угасания. По сути, оценивает ожидаемую оставшуюся популярность страницы на момент расчета.
Crawling Schedule / Crawling Order (График / Порядок сканирования): Стратегия краулера, определяющая, какие URL посещать и в какой последовательности.
New Web Page (Новая веб-страница): Веб-ресурс, который ранее не сканировался краулером.
Old Web Page (Старая веб-страница): Веб-ресурс, который уже был просканирован. В патенте упоминается возможность применения схожего механизма для определения приоритета повторного сканирования (re-crawling).
Predicted Popularity Parameter (Прогнозируемый параметр популярности): Оценка общего количества будущих визитов на веб-страницу (p(u) или a1 в формулах).
Predicted Popularity Decay Parameter (Прогнозируемый параметр угасания популярности): Оценка того, насколько быстро популярность страницы будет снижаться с течением времени (λ(u)). Рассчитывается на основе прогноза доли визитов, которые произойдут в течение короткого периода времени после создания страницы (a2).
URL Pattern (Шаблон URL, Паттерн): Группа URL, организованная на основе их синтаксической структуры (например, все страницы в директории /news/2025/). Используется для агрегации исторических данных о популярности схожих страниц.

Ключевые утверждения (Анализ Claims)

Патент защищает метод формирования очереди сканирования, который учитывает временную динамику популярности страниц.

Claim 1 (Независимый пункт): Описывает основной метод настройки графика сканирования.

Система обнаруживает новые веб-страницы (первую и вторую).
Для каждой новой страницы определяется Crawling Benefit Parameter.
Критически важно: этот параметр базируется как на Predicted Popularity Parameter (общей популярности), ТАК И на Predicted Popularity Decay Parameter (скорости угасания популярности).
На основе сравнения этих параметров выгоды определяется Crawling Order (порядок сканирования) для этих новых страниц.

Claim 5 (Зависимый от 1): Уточняет, как получаются прогнозы.

Прогнозируемые параметры популярности и угасания оцениваются с использованием алгоритма машинного обучения (machine learning algorithm).

Claims 7 и 8 (Зависимые от 6): Описывают признаки (features) для обучения модели машинного обучения.

Обучение основано на исторических данных, агрегированных по URL Patterns (P). Признаки включают количество переходов НА URL в паттерне (Vin(P)) и количество переходов С URL в паттерне (Vout(P)), в том числе средние значения и значения за первые t часов после создания.

Claim 11 (Зависимый от 1): Определяет конкретную формулу для расчета Crawling Benefit Parameter (r(u)).

Параметр рассчитывается по формуле: $$r(u) = a_1 e^{\frac{\log(1-a_2)}{t} \Delta t}$$

Claims 2, 3, 4 (Зависимые): Расширяют метод на балансировку между сканированием новых и повторным сканированием старых страниц.

Система может определить Crawling Benefit Parameter для старой страницы (основываясь на прогнозируемой популярности и угасании популярности изменений на этой странице) и использовать его для определения общего порядка сканирования, включающего как новые, так и старые страницы.

Где и как применяется

Изобретение полностью относится к слою сбора данных.

CRAWLING – Сканирование и Сбор данных

Механизм применяется в планировщике краулера (в подсистеме, которую можно соотнести с Scraper в архитектуре Яндекса), который управляет очередью URL для скачивания.

Взаимодействие: Система взаимодействует с базой данных обнаруженных URL и с хранилищем исторических поведенческих данных (логов визитов, например, из тулбаров или Яндекс.Метрики).
Входные данные: Список новых обнаруженных URL; исторические данные о визитах на ранее просканированные страницы, сгруппированные по URL Patterns.
Выходные данные: Приоритизированная очередь сканирования (Crawling Order).
Технические особенности: Ключевой особенностью является использование машинного обучения для прогнозирования ценности страницы до ее скачивания, основываясь только на URL и исторических данных о похожих URL.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, характеризующийся быстрым всплеском и угасанием популярности (эфемеральный контент): новости, вирусные статьи, горячие обсуждения на форумах, новые посты в популярных блогах.
Конкретные ниши или тематики: Новостные порталы, медиа, социальные сети и блоги.
Структура сайта: Влияет на сайты, где разные разделы (URL паттерны) имеют сильно различающуюся динамику популярности. Например, раздел «Срочные новости» будет обрабатываться иначе, чем раздел «Архив».

Когда применяется

Условия работы: Алгоритм применяется постоянно для управления очередью сканирования при обнаружении новых URL.
Триггеры активации: Обнаружение нового URL. Система должна решить, когда его сканировать.
Частота применения: Расчет Crawling Benefit Parameter может происходить периодически для всех URL в очереди, поскольку параметр зависит от возраста страницы (Δt) — чем дольше страница ждет сканирования, тем ниже становится ее параметр выгоды (если у нее высокая скорость угасания).

Пошаговый алгоритм

Процесс А: Офлайн-подготовка и обучение модели

Сбор исторических данных: Сбор логов визитов пользователей на существующие страницы (например, через тулбары).
Группировка URL: Построение дерева шаблонов (Pattern Tree) для организации URL на основе их синтаксической структуры.
Агрегация статистики по паттернам: Для каждого паттерна (P) рассчитывается статистика: общее число визитов (Vin(P)), число визитов за первые t часов (Vin^t(P)), аналогичные метрики для исходящих переходов (Vout(P)) и т.д.
Обучение модели ML: Обучение алгоритма машинного обучения предсказывать два значения для новых URL на основе признаков их паттерна:
- a1: Общая будущая популярность.
- a2: Доля популярности, которая придется на первые t часов.

Процесс Б: Управление очередью сканирования (Runtime)

Обнаружение URL: Система обнаруживает новый URL (u) и определяет время его обнаружения (используется как прокси времени создания).
Определение паттерна: Новый URL сопоставляется с соответствующим URL Pattern.
Прогнозирование популярности и угасания: С помощью обученной ML-модели прогнозируются значения a1 и a2 для нового URL.
Расчет скорости угасания (λ): Вычисляется параметр угасания: $$\hat{\lambda}(u) = -\frac{\log(1-a_2)}{t}$$
Расчет выгоды от сканирования: Периодически для всех URL в очереди пересчитывается Crawling Benefit Parameter (r(u)) с учетом текущего возраста страницы (Δt): $$r(u) = a_1 e^{\frac{\log(1-a_2)}{t} \Delta t}$$
Приоритизация и сканирование: Краулер выбирает для скачивания URL с наивысшим значением r(u).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Исторические): Основной источник данных для обучения модели. Используются логи визитов (например, из тулбаров). Учитываются переходы НА страницы (popularity) и переходы СО страниц (importance/hubness).
Технические факторы (Структура URL): Синтаксическая структура URL используется для группировки страниц в URL Patterns. Это позволяет переносить исторические данные с известных URL на новые похожие URL.
Временные факторы: Время обнаружения URL (используется как прокси времени создания) и возраст URL (Δt) критически важны для расчета текущей выгоды от сканирования. Также учитывается время визитов относительно момента создания страницы (визиты за первые t часов).

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик с помощью Машинного Обучения:

a1 (Прогноз общей популярности): Оценка общего количества будущих визитов. В патенте упоминается, что может прогнозироваться логарифм популярности из-за тяжелохвостого распределения.
a2 (Прогноз доли краткосрочной популярности): Оценка отношения количества визитов за первые t часов к общему количеству визитов ($$p_t(u)/p(u)$$).

На основе этих прогнозов рассчитываются производные метрики:

λ(u) (Скорость угасания популярности): Оценивает темп снижения интереса к странице. Рассчитывается как: $$\hat{\lambda}(u) = -\frac{\log(1-a_2)}{t}$$
r(u) (Crawling Benefit Parameter): Основная метрика для приоритизации. Оценивает ожидаемую оставшуюся популярность страницы с учетом ее текущего возраста (Δt). $$r(u) = a_1 e^{\frac{\log(1-a_2)}{t} \Delta t}$$ По сути, это эквивалентно $$r(u) = a_1 e^{-\hat{\lambda}(u) \Delta t}$$

Признаки (Features) для ML, основанные на URL Patterns (P):

Vin(P): Общее количество переходов на все URL в паттерне.
Vin^t(P): Количество переходов на URL в паттерне в течение первых t часов после их создания.
Vout(P), Vout^t(P): Аналогичные метрики для исходящих переходов (когда URL в паттерне выступают реферерами).
Также используются средние значения (деленные на количество URL в паттерне |P|) и относительные доли (например, Vin^t(P)/Vin(P)).

Выводы

Скорость угасания популярности — ключевой фактор краулинга: Яндекс явно учитывает не только общую важность или популярность страницы, но и то, как быстро эта популярность исчезнет. Это позволяет оптимизировать ресурсы, чтобы «поймать» трафик на пике интереса.
Приоритет эфемеральному контенту: Страницы с прогнозируемой высокой скоростью угасания (новости, горячие темы) получают значительное ускорение в очереди сканирования по сравнению со страницами с медленным угасанием (вечнозеленый контент), даже если их общая ожидаемая популярность одинакова.
Прогнозирование до сканирования: Система принимает решение о приоритете, не зная содержания страницы. Прогнозы строятся с помощью ML на основе исторических данных о поведении пользователей.
Важность структуры URL (URL Patterns): Историческая производительность (популярность и скорость угасания) определенного раздела или типа страниц (URL Pattern) напрямую влияет на скорость сканирования новых страниц в этом же разделе. Структура URL является ключом к переносу знаний.
Поведенческие данные управляют краулингом: Логи визитов пользователей (например, из тулбаров или Метрики) являются основой для обучения моделей прогнозирования популярности, что напрямую связывает поведение пользователей с эффективностью краулинга.

Практика

Best practices (это мы делаем)

Поддержание чистой и консистентной структуры URL: Поскольку система агрегирует исторические данные по синтаксическим шаблонам URL (URL Patterns), важно иметь логичную и стабильную структуру. Это помогает системе корректно идентифицировать паттерны и применять исторические данные о популярности к новым страницам.
Стимулирование быстрого обнаружения нового контента: Убедитесь, что новые важные страницы быстро получают ссылки с главных или категорийных страниц. Хотя патент фокусируется на приоритизации уже обнаруженных URL, скорость обнаружения также важна (в патенте время обнаружения используется как прокси времени создания).
Развитие популярных разделов (Паттернов): Если определенный раздел сайта (например, /blog/interviews/) исторически генерирует популярный контент, новые страницы в этом разделе будут сканироваться быстрее. Сосредоточьте усилия на создании качественного контента в разделах с хорошей историей популярности.
Оптимизация поведенческих факторов для новых страниц: Стимулируйте быстрый набор популярности для нового контента (например, через соцсети, рассылки). Высокая начальная популярность (Vin^t(P)) является важным признаком для обучения модели и улучшит прогнозирование (a2) для будущих страниц этого типа.

Worst practices (это делать не надо)

Частое изменение структуры URL: Это разрушает накопленные исторические данные по URL Patterns. Новые структуры будут рассматриваться как неизвестные, что может замедлить сканирование до накопления новой статистики.
Смешивание разного типа контента в одном URL паттерне: Размещение вечнозеленого контента и срочных новостей в одной директории может привести к неточным прогнозам скорости угасания. Система усреднит показатели, что может замедлить сканирование новостей или заставить тратить слишком много ресурсов на сканирование архивов.
Создание «мусорных» URL в популярных паттернах: Публикация низкокачественных страниц в разделе, который ранее был популярен, приведет к снижению средней популярности паттерна (Vin(P)/|P|), что замедлит сканирование всех будущих страниц в этом разделе.

Стратегическое значение

Патент подтверждает, что Яндекс рассматривает краулинг не просто как техническую задачу обхода графа, а как задачу оптимизации бизнес-ресурсов, направленную на максимизацию удовлетворенности пользователей (через максимизацию «пойманной» популярности). Стратегически это подчеркивает важность интеграции данных о поведении пользователей в самые базовые процессы поиска. Для SEO это означает, что скорость индексации напрямую зависит от прогнозируемой ценности контента для пользователей, а не только от его доступности или ссылочного веса.

Практические примеры

Сценарий: Оптимизация скорости индексации новостного раздела

Ситуация: На сайте есть два раздела: /news/ (срочные новости) и /archive/ (архивные статьи). Система Яндекс анализирует исторические данные.
Анализ Паттернов:
- Паттерн /news/: Исторически имеет высокую начальную популярность (a2 высок) и высокую скорость угасания (λ высок).
- Паттерн /archive/: Имеет низкую начальную популярность (a2 низок) и медленное угасание (λ низок).
Действие системы: Появляются два новых URL: /news/new-story-1 и /archive/new-doc-1.
Расчет выгоды:
- Для /news/new-story-1: Прогнозируется высокая выгода от немедленного сканирования из-за быстрого угасания.
- Для /archive/new-doc-1: Выгода от сканирования ниже, и она мало зависит от времени.
Результат: Краулер немедленно сканирует /news/new-story-1, а /archive/new-doc-1 ставится в очередь с более низким приоритетом.
Действие SEO: Для поддержания высокой скорости индексации раздела /news/ необходимо постоянно публиковать там контент, который быстро набирает популярность. Если начать публиковать там неактуальный контент, средние показатели паттерна упадут, и скорость индексации замедлится.

Вопросы и ответы

Что такое «Predicted Popularity Decay Parameter» и почему он важен?

Это прогнозируемая скорость угасания популярности страницы (λ). Она определяет, насколько быстро страница потеряет актуальность и перестанет собирать визиты. Это критически важно для краулера: если страница имеет высокую популярность, но и очень высокое угасание (например, срочная новость), ее нужно просканировать немедленно. Если угасание медленное (вечнозеленый контент), сканирование можно отложить без большой потери выгоды.

Как система предсказывает популярность, если она еще не сканировала страницу?

Система не анализирует контент. Вместо этого она использует машинное обучение, которое анализирует URL страницы и находит похожие по структуре URL (URL Patterns), которые уже были просканированы ранее. Прогноз строится на основе исторических данных о том, насколько популярными были эти похожие страницы и как быстро угасал интерес к ним.

Что такое URL Pattern в контексте этого патента?

Это группа URL с похожей синтаксической структурой, например, все страницы в директории /product/id/ или /blog/2025/11/. Система предполагает, что страницы внутри одного паттерна имеют схожую динамику популярности. Это позволяет агрегировать исторические данные и применять их к новым страницам того же типа.

Как изменение структуры URL повлияет на скорость сканирования согласно этому патенту?

Негативно. Если вы измените структуру URL (например, с /news/id/ на /articles/date/id/), система будет рассматривать новые URL как совершенно новый паттерн без истории. Скорость сканирования замедлится до тех пор, пока система не накопит достаточно статистики по новому паттерну, чтобы делать надежные прогнозы популярности и угасания.

Откуда Яндекс берет данные о популярности (визитах) страниц?

В патенте упоминаются логи визитов, которые могут быть собраны, например, через браузерные тулбары (как указано в прилагаемых к патенту исследованиях) или другие системы аналитики (например, Яндекс.Метрика). Эти данные о реальном поведении пользователей используются для обучения моделей прогнозирования.

Что произойдет, если я начну публиковать некачественный контент в ранее популярном разделе?

Это приведет к снижению средней исторической популярности для этого URL Pattern. Модель машинного обучения обновит свои прогнозы, и будущие страницы в этом разделе (даже качественные) будут получать более низкий Crawling Benefit Parameter, что замедлит их сканирование.

Влияет ли этот патент на ранжирование?

Нет, напрямую не влияет. Патент описывает исключительно процесс оптимизации краулинга и определения порядка сканирования страниц. Он определяет, как быстро страница попадет в индекс, но не то, на какой позиции она будет показана. Однако быстрая индексация критически важна для ранжирования по свежим запросам.

Что означает формула расчета выгоды r(u)?

Формула $$r(u) = a_1 e^{\frac{\log(1-a_2)}{t} \Delta t}$$ оценивает ожидаемое количество оставшихся визитов на страницу. Здесь a1 — это общая ожидаемая популярность, а экспоненциальная часть — это коэффициент угасания, зависящий от скорости угасания (a2) и возраста страницы (Δt). Чем старше страница и чем быстрее ее угасание, тем ниже будет r(u).

Применяется ли этот механизм только к новым страницам?

В первую очередь да, но в патенте (Claims 2-4) также описывается возможность применения этого механизма для балансировки ресурсов между сканированием новых страниц и повторным сканированием (re-crawling) старых. Для старых страниц система может прогнозировать популярность и скорость угасания изменений на них.

Как лучше структурировать сайт, чтобы ускорить индексацию важного контента?

Необходимо разделять контент с разной динамикой популярности по разным URL Patterns. Например, срочные новости должны быть в /news/, а вечнозеленые статьи в /guides/. Это позволит системе точнее прогнозировать скорость угасания для каждого типа контента и более агрессивно сканировать новостной раздел.