Как Яндекс приоритизирует сканирование, прогнозируя популярность страницы и скорость ее угасания

Яндекс использует систему для оптимизации графиков сканирования, прогнозируя как долгосрочную популярность нового URL, так и скорость угасания этой популярности (краткосрочный интерес). Рассчитывая «Параметр выгоды от сканирования» на основе этих прогнозов, краулер отдает приоритет страницам, которые, как ожидается, будут очень популярными, но недолговечными, обеспечивая своевременное индексирование свежего, трендового контента.

Описание

Какую задачу решает

Патент решает проблему эффективного распределения ограниченных ресурсов краулера в условиях постоянного появления нового контента. Основная задача — как можно быстрее проиндексировать свежий и популярный контент, особенно тот, который имеет короткий срок жизни (эфемеральный контент). Система устраняет уязвимость стандартных методов планирования, которые не могут оценить будущую популярность только что обнаруженных URL (проблема «холодного старта») и, следовательно, рискуют пропустить трендовый контент до того, как он станет неактуальным.

Что запатентовано

Запатентована система и метод для составления графика сканирования (crawling schedule), который приоритизирует URL на основе прогнозируемой выгоды. Суть изобретения заключается в расчете Crawling Benefit Parameter (Параметр выгоды от сканирования) для каждого URL. Этот параметр базируется на двух ключевых прогнозных метриках: Predicted Popularity Parameter (прогнозируемая общая популярность) и Predicted Popularity Decay Parameter (прогнозируемая скорость угасания популярности).

Как это работает

Система использует алгоритм машинного обучения для прогнозирования будущей популярности нового URL и скорости ее угасания. Модель обучается на исторических данных о поведении пользователей (переходах) на страницах с похожими шаблонами URL (URL Patterns). На основе этих прогнозов рассчитывается Crawling Benefit Parameter (r(u)). Страницы с высокой ожидаемой популярностью и быстрой скоростью ее угасания (например, срочные новости) получают наивысший приоритет и перемещаются в начало очереди на сканирование.

Актуальность для SEO

Высокая. Обеспечение свежести индекса и эффективное сканирование являются критически важными задачами для современных поисковых систем. Использование машинного обучения для приоритизации ресурсов краулера является стандартом индустрии. Описанный подход к прогнозированию динамики популярности остается крайне актуальным для обработки новостного и трендового контента.

Важность для SEO

Влияние на SEO значительно (7.5/10). Этот патент напрямую влияет на то, как быстро новый или обновленный контент попадает в индекс Яндекса. Для сайтов, публикующих времязависимый контент (новости, тренды, акции), этот алгоритм определяет, успеет ли Яндекс просканировать страницу, пока она актуальна. Патент подчеркивает важность структуры URL и сигналов первоначального вовлечения для ускорения индексации.

Детальный разбор

Термины и определения

Crawling Benefit Parameter (r(u)) (Параметр выгоды от сканирования): Метрика, оценивающая ожидаемую выгоду (Expected Profit) от сканирования ресурса u с учетом его текущего возраста (задержки с момента появления). Используется для определения порядка сканирования.
Predicted Popularity Parameter (p(u) или a1) (Прогнозируемый параметр популярности): Оценка общего (долгосрочного) количества посещений, которое получит веб-страница за все время ее существования. В патенте обозначается как p(u), а его оценка моделью машинного обучения как a1.
Predicted Popularity Decay Parameter (λ(u)) (Прогнозируемый параметр угасания популярности): Оценка скорости, с которой популярность веб-страницы будет уменьшаться с течением времени. Указывает на динамику популярности. Высокое значение означает, что страница быстро потеряет актуальность.
Share of Early Popularity (a2) (Доля ранней популярности): Оценка доли от общего числа посещений, которая произойдет в течение определенного короткого интервала времени (t) после создания страницы. Рассчитывается как $p_{t}(u)/p(u)$. Используется для вычисления λ(u).
URL Pattern (P) (Шаблон URL): Узел в дереве шаблонов (Pattern Tree), используемый для организации URL на основе их синтаксической структуры. Позволяет агрегировать статистику для схожих по структуре URL.
Transitions In/Out ($V_{in}, V_{out}$) (Переходы На/Из): Данные о поведении пользователей. $V_{in}(P)$ – количество переходов на все URL в шаблоне P. $V_{out}(P)$ – количество раз, когда URL в шаблоне P выступали в качестве рефереров (источников перехода).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе оптимизации очереди сканирования путем прогнозирования динамики популярности контента.

Claim 1 (Независимый пункт): Описывает основной метод составления графика сканирования.

Система обнаруживает новые веб-страницы (Первую и Вторую).
Для Первой страницы определяется Первый Crawling Benefit Parameter. Критически важно: этот параметр основан как на Predicted Popularity Parameter (общей популярности), так и на Predicted Popularity Decay Parameter (скорости угасания).
Аналогичный Второй Crawling Benefit Parameter определяется для Второй страницы.
На основе сравнения Первого и Второго параметров определяется порядок сканирования этих страниц.

Claim 5 (Зависимый от 1): Уточняет метод прогнозирования.

Прогнозируемые параметры популярности и угасания оцениваются с использованием алгоритма машинного обучения (Machine Learning algorithm).

Claims 7 и 8 (Зависимые от 6): Определяют признаки для обучения ML-модели.

Обучение основано на признаках, агрегированных по шаблонам URL (URL Patterns). Ключевые признаки включают статистику переходов НА (Claim 7) и ИЗ (Claim 8) URL, принадлежащих шаблону, включая общие показатели и показатели за первые t часов.

Claim 11 (Зависимый от 1): Определяет конкретную формулу для расчета Crawling Benefit Parameter.

Параметр рассчитывается по формуле:

$$ r(u) = a_{1}e^{\frac{\log(1-a_{2})}{t}\Delta t} $$

Где $a_1$ – оценка общей популярности, $a_2$ – оценка доли ранней популярности, t – предопределенный временной интервал (например, 24 часа), Δt – текущий возраст ресурса (задержка).

Claims 2-4 (Зависимые от 1): Расширяют применение метода на повторное сканирование.

Метод может применяться не только к новым страницам, но и к старым (ранее просканированным). В этом случае Crawling Benefit Parameter рассчитывается на основе прогнозируемой популярности и скорости угасания интереса к *изменениям* (обновлениям) на этой старой странице.

Где и как применяется

Изобретение применяется исключительно на этапе сбора данных.

CRAWLING – Сканирование и Сбор данных (Crawling & Data Acquisition)
Система интегрируется в модуль планирования подсистемы Scraper (краулера). Ее задача — управлять очередью сканирования (Crawling Queue).

Взаимодействие с компонентами:

Система взаимодействует с базой данных исторических переходов пользователей (User Browsing Statistics) для извлечения признаков.
Она использует инфраструктуру для построения и анализа деревьев шаблонов URL (Pattern Tree).
Она использует обученную ML-модель для прогнозирования.
Результаты ее работы (приоритеты) используются планировщиком краулера для определения следующего URL для загрузки.

Входные данные: Обнаруженный URL (новый или требующий обновления), его шаблон URL, исторические данные о переходах для этого шаблона, текущий возраст URL (Δt).

Выходные данные: Рассчитанный Crawling Benefit Parameter (r(u)) и, как следствие, скорректированная очередь сканирования.

На что влияет

Типы контента: Наибольшее влияние оказывается на новый контент и часто обновляемый контент.
Специфические запросы: Критически важно для времязависимых, новостных и трендовых запросов, где свежесть индекса имеет первостепенное значение.
Конкретные ниши: Сильное влияние на новостные порталы, блоги, агрегаторы социальных сетей, сайты с вирусным контентом, а также на e-commerce в контексте флеш-распродаж или запуска новых продуктов (где интерес высок, но быстро угасает). Сайты со «вечнозеленым» контентом (низкий Decay Parameter) будут иметь более низкий приоритет сканирования по сравнению с трендовыми темами.

Когда применяется

Алгоритм применяется непрерывно в процессе управления очередью сканирования.

Условия работы: Применяется всякий раз, когда новый URL добавляется в очередь или когда необходимо переоценить приоритеты существующих URL в очереди.
Триггеры активации: Обнаружение нового URL или наступление времени для планового обновления старого URL.

Пошаговый алгоритм

Процесс определения приоритета сканирования для URL (u).

Обнаружение и Инициализация: Система обнаруживает URL (u). Определяется время его создания или обнаружения, рассчитывается текущий возраст (Δt).
Извлечение Признаков (Офлайн/Кеш):
1. Определяется шаблон URL (P), к которому принадлежит u.
2. Извлекаются агрегированные исторические данные для шаблона P: общее число переходов ($V_{in}, V_{out}$), переходы за первые t часов (${V^{t}}_{in}, {V^{t}}_{out}$), размер шаблона |P|.
Прогнозирование (ML-модель): Алгоритм машинного обучения использует извлеченные признаки для прогнозирования двух параметров для URL u:
1. $a_1$: Оценка общей (долгосрочной) популярности.
2. $a_2$: Оценка доли ранней популярности (насколько быстро страница наберет основную массу просмотров).
Расчет Выгоды: Вычисляется Crawling Benefit Parameter (r(u)) по формуле: $$ r(u) = a_{1}e^{\frac{\log(1-a_{2})}{t}\Delta t} $$
Приоритизация Очереди: URL (u) помещается в очередь сканирования. Очередь сортируется по убыванию значения r(u). Страницы с наибольшей выгодой сканируются первыми.

Какие данные и как использует

Данные на входе

Система полагается преимущественно на поведенческие и структурные данные, агрегированные на уровне шаблонов URL.

Поведенческие факторы (User Browsing Statistics): Ядро системы. Используются данные о переходах пользователей (вероятно, из логов тулбаров/браузеров).
- Переходы НА страницы шаблона ($V_{in}(P)$) – индикатор популярности.
- Переходы ИЗ страниц шаблона ($V_{out}(P)$) – индикатор важности (страница как источник трафика).
Структурные факторы (URL Patterns): Синтаксическая структура URL используется для построения дерева шаблонов (Pattern Tree) и группировки схожих страниц. Также используется размер шаблона |P| (количество URL в шаблоне).
Временные факторы:
- Текущий возраст страницы (Δt).
- Временное окно для определения краткосрочной популярности (t) (например, 24 часа).
- Статистика переходов за первые t часов (${V^{t}}_{in}, {V^{t}}_{out}$).
Другие факторы (Упомянуты как возможные): В патенте указано, что могут использоваться дополнительные признаки: источник обнаружения URL, количество упоминаний во внешних медиа (например, твитах), общее количество известных входящих ссылок, количество переходов пользователей на конкретный URL.

Какие метрики используются и как они считаются

Алгоритмы машинного обучения: Используются для прогнозирования $a_1$ и $a_2$. Конкретный алгоритм не указан, но он обучается на признаках, описанных выше.
Predicted Total Popularity ($a_1$): Оценка общего количества посещений p(u).
Predicted Share of Early Popularity ($a_2$): Оценка доли посещений за первые t часов $p_{t}(u)/p(u)$.
Predicted Popularity Decay Parameter (λ(u)): Скорость угасания. Вычисляется на основе $a_2$ и t: $$ \hat{\lambda}(\mu)=-\frac{\log(1-a_{2})}{t} $$
Crawling Benefit Parameter (r(u)): Итоговая метрика для приоритизации. Рассчитывается с использованием $a_1, a_2, t$ и текущего возраста Δt: $$ r(u) = a_{1}e^{\frac{\log(1-a_{2})}{t}\Delta t} $$
Эта формула показывает, что выгода экспоненциально уменьшается с возрастом страницы (Δt), и скорость этого уменьшения зависит от прогнозируемого угасания популярности ($a_2$).

Выводы

Приоритет сканирования основан на прогнозируемом спросе: Яндекс приоритизирует сканирование, основываясь на прогнозе будущего интереса пользователей, а не только на статических показателях авторитетности (как PageRank).
Скорость угасания (Decay) критически важна: Система явно учитывает динамику популярности. Контент, который будет популярен, но недолго (эфемеральный контент), получает значительное повышение приоритета по сравнению с контентом, который будет набирать популярность медленно.
Историческое поведение по шаблонам URL — ключевой фактор: Для прогнозирования популярности новых страниц система полагается на исторические данные о поведении пользователей (переходы) на страницах с аналогичной структурой URL.
Важность консистентной структуры URL: Четкие и последовательные структуры URL позволяют системе строить точные деревья шаблонов и агрегировать надежную статистику, что напрямую влияет на точность прогнозов и скорость индексации.
Применение к повторному сканированию: Та же логика используется для определения частоты обновления старых страниц, прогнозируя популярность и скорость угасания интереса к *обновлениям* на этих страницах.

Практика

Best practices (это мы делаем)

Поддерживайте чистую и логичную структуру URL: Используйте консистентные шаблоны URL для однотипного контента (например, /news/YYYY/MM/slug, /product/id-slug). Это помогает Яндексу корректно строить Pattern Tree и агрегировать исторические данные, что улучшает точность прогнозирования популярности для новых страниц этого типа.
Генерируйте немедленный трафик и сигналы для нового контента: Поскольку прогнозы популярности и угасания являются ключевыми, необходимо демонстрировать первоначальный интерес к новому контенту. Используйте email-рассылки, пуши, активное внутреннее перелинковывание с главных страниц и шеринг в социальных сетях сразу после публикации. Это может сигнализировать о высокой популярности и высокой скорости угасания, повышая Crawling Benefit Parameter.
Обеспечивайте быстрое обнаружение времязависимого контента: Для новостей и трендов критически важно минимизировать время обнаружения (Δt). Используйте XML Sitemaps с корректными , Real-time PUSH API (если применимо) и Турбо-страницы для ускорения попадания в поле зрения краулера.
Анализируйте производительность разделов сайта: Понимайте, какие разделы (шаблоны URL) генерируют больше трафика и как быстро этот трафик угасает. Это поможет понять, какие разделы Яндекс считает приоритетными для сканирования.

Worst practices (это делать не надо)

Использование рандомизированных или непоследовательных URL: Создание уникальных, неструктурированных URL для однотипного контента (например, использование случайных GET-параметров вместо ЧПУ) мешает системе идентифицировать шаблоны и использовать исторические данные для прогнозирования.
Публикация контента без немедленного продвижения: Если важный контент публикуется, но не получает начальных сигналов обнаружения и вовлечения, система может предсказать низкую популярность и отложить сканирование.
Частое изменение структуры URL без необходимости: Изменение устоявшихся шаблонов URL сбрасывает накопленную историческую статистику для этого шаблона, что временно ухудшает прогнозирование и может замедлить индексацию новых страниц.

Стратегическое значение

Патент подтверждает, что скорость индексации в Яндексе не является фиксированной величиной и не гарантирована. Она динамически регулируется на основе прогнозируемой ценности контента для пользователей. Для SEO-стратегии это означает, что усилия должны быть направлены не только на создание качественного контента, но и на управление его обнаружением и генерацию немедленных сигналов вовлечения. Особенно это критично для новостных и трендовых ресурсов, где конкуренция идет за минуты попадания в индекс.

Практические примеры

Сценарий 1: Новостной сайт и Срочная новость

Действие: Новостной сайт публикует срочную новость по адресу /news/2025/11/25/breaking-event.
Анализ системы: Яндекс определяет шаблон URL /news/YYYY/MM/DD/. Исторические данные по этому шаблону показывают высокую общую популярность ($a_1$ высок) и очень высокую долю ранней популярности ($a_2$ близок к 1, т.е. быстрое угасание).
Расчет: Crawling Benefit Parameter (r(u)) получается очень высоким.
Результат: Страница перемещается в самое начало очереди сканирования и индексируется почти мгновенно.

Сценарий 2: E-commerce и Флеш-распродажа

Действие: Сайт запускает 24-часовую распродажу и создает страницы товаров в разделе /flash-sale/item-id.
Анализ системы: Система распознает шаблон /flash-sale/. Исторически этот шаблон демонстрирует экстремально быстрое угасание ($a_2$ очень высок). Одновременно сайт добавляет товары в основной каталог /catalog/product-id, где угасание медленное ($a_2$ низок).
Расчет: Страницы из /flash-sale/ получают значительно более высокий r(u), чем страницы из /catalog/.
Результат: Краулер приоритизирует сканирование раздела распродажи, чтобы успеть проиндексировать акционные товары до окончания акции, откладывая сканирование основного каталога.

Сценарий 3: Блог и Вечнозеленый контент

Действие: Блог публикует подробное руководство (например, «Как выбрать палатку») в разделе /guides/kak-vybrat-palatku.
Анализ системы: Шаблон /guides/ исторически показывает умеренную общую популярность ($a_1$ средний) и медленное угасание ($a_2$ низок) – трафик распределен равномерно во времени.
Расчет: r(u) получается умеренным.
Результат: Страница добавляется в очередь, но не получает высшего приоритета. Она будет проиндексирована после срочных новостей и трендового контента.

Вопросы и ответы

Что самое важное для ускорения индексации нового контента согласно этому патенту?

Ключевым фактором является прогнозируемая выгода от сканирования (Crawling Benefit Parameter). Чтобы максимизировать ее, нужно, чтобы система предсказала высокую общую популярность (a1) и быстрое угасание интереса (a2). На практике это достигается за счет использования консистентных шаблонов URL, которые исторически генерировали много трафика, и генерации сильных начальных сигналов вовлечения (трафик, шейринг) сразу после публикации.

Как структура URL влияет на скорость сканирования?

Структура URL имеет решающее значение. Система агрегирует исторические данные о поведении пользователей на уровне шаблонов URL (URL Patterns). Если вы используете четкие и последовательные шаблоны (например, /blog/post-name), система может надежно использовать прошлую статистику этого раздела для прогнозирования популярности новых страниц. Если URL хаотичны, прогнозирование затруднено, что может замедлить сканирование.

Что такое «угасание популярности» (Popularity Decay) и почему оно важно для краулера?

Угасание популярности (λ(u)) — это скорость, с которой страница теряет актуальность и перестает собирать трафик. Новость о вчерашнем событии имеет очень высокое угасание, а энциклопедическая статья — низкое. Краулеру важно быстро сканировать контент с высоким угасанием, чтобы успеть показать его пользователям, пока он еще актуален. Поэтому страницы с прогнозируемым быстрым угасанием получают приоритет.

Использует ли система контент страницы для определения приоритета сканирования?

Нет, согласно патенту, эта система не анализирует контент страницы. Приоритет определяется ДО того, как страница будет скачана. Система использует только метаданные: сам URL (для определения шаблона) и исторические поведенческие данные, связанные с этим шаблоном.

Как этот патент применяется к повторному сканированию (обновлению) старых страниц?

В патенте (Claims 2-4) указано, что тот же механизм может использоваться для приоритизации повторного сканирования. В этом случае система пытается предсказать популярность и скорость угасания интереса не ко всей странице, а конкретно к ее *обновлениям* (изменениям). Если ожидается, что обновления вызовут всплеск интереса, страница получит высокий приоритет на обновление в индексе.

Что важнее для этой системы: общая популярность или скорость угасания?

Они оба важны и используются в формуле расчета выгоды (r(u)). Страница с огромной общей популярностью, но медленным угасанием (вечнозеленый контент) может уступить в очереди странице с меньшей общей популярностью, но очень быстрым угасанием (срочная новость). Система балансирует эти два фактора для максимизации пользы для пользователей.

Какие данные о поведении пользователей использует эта система?

В первую очередь используются данные о переходах (Transitions). Это включает переходы НА страницы определенного шаблона (индикатор популярности) и переходы ИЗ этих страниц на другие (индикатор важности страницы как источника трафика). Эти данные, вероятно, собираются через Яндекс.Браузер и другие сервисы Яндекса.

Могут ли внешние ссылки или упоминания в соцсетях ускорить сканирование?

Да, это возможно. Хотя основными признаками в патенте являются шаблоны URL и переходы, в тексте (пар.) явно упоминается, что в качестве дополнительных признаков для ML-модели могут использоваться количество упоминаний во внешних медиа (например, твитах) и общее количество входящих ссылок. Наличие этих сигналов может улучшить прогноз популярности.

Что делать, если я запускаю новый сайт, у которого еще нет истории и устоявшихся шаблонов URL?

Это сложная ситуация для описанной системы, так как она полагается на исторические данные. В этом случае необходимо максимально сосредоточиться на быстром обнаружении (Sitemaps, ссылки с авторитетных ресурсов) и генерации сильных внешних сигналов (упоминания в медиа, соцсетях), которые могут быть использованы как альтернативные признаки популярности, пока не накопится собственная статистика сайта.

Влияет ли этот патент на ранжирование?

Прямого влияния на ранжирование нет. Патент описывает исключительно систему управления очередью сканирования (Crawling Scheduling). Однако косвенное влияние есть: если ваш контент не будет своевременно просканирован из-за низкого приоритета, он не сможет ранжироваться вообще. Особенно это касается трендовых запросов, где свежесть является фактором ранжирования.