Как Яндекс приоритизирует сканирование новых страниц, прогнозируя их будущую популярность и скорость ее угасания

Яндекс патентует метод оптимизации очереди сканирования. Система прогнозирует не только общую будущую популярность новой страницы, но и то, как быстро эта популярность будет снижаться. Используя машинное обучение, обученное на исторических данных о трафике схожих по структуре URL (шаблонов), система рассчитывает «Параметр полезности просмотра». Страницы с высокой ожидаемой популярностью и быстрым ее угасанием сканируются в первую очередь.

Описание

Какую задачу решает

Патент решает задачу эффективного управления очередью сканирования (Crawl Queue) в условиях ограниченных ресурсов поисковой системы. Цель — оптимизировать последовательность просмотра веб-страниц, чтобы ускорить сканирование и индексацию наиболее релевантного и важного контента. Изобретение адресует проблему «холодного старта» для новых URL, прогнозируя их популярность до того, как по ним накопится статистика, и учитывает, что ценность контента снижается со временем (угасание популярности).

Что запатентовано

Запатентован способ приоритизации сканирования веб-страниц. Суть изобретения заключается в расчете «Параметра полезности просмотра» (View Utility Parameter, $r(u)$). Этот параметр базируется на двух прогнозируемых с помощью машинного обучения метриках: «Параметре ожидаемой популярности» (Expected Popularity, $a_1$) и «Параметре ожидаемого снижения популярности» (Expected Decline in Popularity, связан с $a_2$).

Как это работает

Система использует алгоритм машинного обучения для прогнозирования популярности и скорости ее угасания для новых URL. Модель обучается на исторических данных о трафике, агрегированных по «Шаблонам URL» (URL Templates) — группам страниц с похожей структурой адреса. Когда обнаруживается новый URL, система соотносит его с шаблоном и использует агрегированные признаки этого шаблона для прогноза ($a_1$ и $a_2$). На основе этих прогнозов и времени, прошедшего с момента обнаружения страницы ($\Delta t$), вычисляется «Параметр полезности просмотра». Чем он выше, тем быстрее страница будет просмотрена поисковым ботом.

Актуальность для SEO

Высокая. Эффективное управление краулинговым бюджетом и приоритизация свежего, трендового контента остаются критически важными задачами для всех поисковых систем. Использование поведенческих данных и машинного обучения для прогнозирования важности страниц является стандартом в индустрии.

Важность для SEO

Влияние на SEO значительно (7/10). Патент не описывает факторы ранжирования, но напрямую влияет на скорость индексации контента. Для новостных сайтов, e-commerce и любого контента, зависящего от свежести, этот механизм определяет, насколько быстро страница попадет в индекс и сможет конкурировать в выдаче. Понимание этого алгоритма критично для оптимизации структуры сайта и управления скоростью индексации.

Детальный разбор

Термины и определения

Новая веб-страница: Веб-ресурс (URL), который ранее не был просмотрен (сканирован) поисковым приложением.
Параметр ожидаемой популярности ($p(u)$ или $a_1$): Прогнозируемое общее количество посещений данной веб-страницы за весь период ее жизни.
Параметр ожидаемого снижения популярности ($\lambda(u)$): Метрика, характеризующая скорость, с которой популярность веб-страницы снижается со временем. В расчетах используется параметр $a_2$.
Параметр $a_2$: Оценка соотношения количества посещений в течение времени $t$ после создания к общей численности посещений ($p_t(u)/p(u)$). Высокое значение указывает на быстрое угасание популярности.
Параметр полезности просмотра ($r(u)$): Интегральная оценка, рассчитываемая на основе $a_1$, $a_2$ и возраста страницы $\Delta t$. Определяет приоритет URL в очереди сканирования.
Старая веб-страница: Веб-ресурс, который уже был ранее просмотрен. Может требовать повторного просмотра для индексации обновлений.
Шаблон URL (Template, P): Структура синтаксиса URL, используемая для группировки похожих адресов в пределах домена (например, /news/<id>). Используется для агрегации исторических данных о трафике.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной способ определения последовательности просмотра.

Система обнаруживает новые веб-страницы для просмотра.
Для каждой страницы оцениваются (прогнозируются) Параметр ожидаемой популярности и Параметр ожидаемого снижения популярности.
На основе этих двух параметров для каждой страницы определяется Параметр полезности просмотра.
Определяется последовательность просмотра: сервер предоставляет приоритет веб-странице с более высоким Параметром полезности.
Выполняется просмотр (сканирование) страниц с более высоким приоритетом.

Claim 2, 3, 4 (Зависимые пункты): Расширяют способ на управление повторным сканированием.

Система может применять этот же метод для приоритизации повторного просмотра старых страниц. В этом случае оценивается ожидаемая популярность и снижение популярности потенциальных изменений на старой странице. Ресурсы распределяются между новыми и старыми страницами на основе сравнения их параметров полезности.

Claim 5, 6 (Зависимые пункты): Уточняют метод оценки.

Оценка параметров популярности и ее снижения выполняется с использованием алгоритма машинного обучения, который требует предварительного обучения.

Claim 7, 8, 9 (Зависимые пункты): Детализируют признаки для обучения ML-модели. Признаки основаны на агрегированных данных о трафике для Шаблонов URL (P).

Ключевые признаки включают входящие переходы ($V_{in}(P)$), исходящие переходы ($V_{out}(P)$), их временные характеристики (например, переходы за первые $t$ часов), а также размер шаблона ($|P|$).

Claim 11 (Зависимый пункт): Определяет конкретную формулу для расчета Параметра полезности просмотра $r(u)$.

Формула: $$ r(u) = a_1 e^{\frac{\log(1-a_2)}{t} \Delta t} $$

Где $a_1$ – ожидаемая популярность; $a_2$ – доля посещений в первые $t$ часов; $t$ – предопределенный интервал; $\Delta t$ – возраст страницы.

Где и как применяется

Изобретение применяется на слое сбора данных.

CRAWLING – Сканирование и Сбор данных (Crawling & Data Acquisition)

Система интегрирована в подсистему управления обходом сети (Scraper) и конкретно в Модуль планирования (Scheduler / Load Strategy).

Взаимодействие с компонентами:

Алгоритм управляет приоритетами в Очереди сканирования (Crawl Queue).
Он использует данные из Базы поведенческих логов (в патенте упоминаются данные панели инструментов браузера) для обучения ML-модели.
Он взаимодействует с системой построения Шаблонов URL для агрегации признаков.
Поисковый бот (YandexBot, Orange) выполняет сканирование в соответствии с рассчитанными приоритетами.

Технические особенности: Процесс разделен на офлайн-обучение (построение шаблонов, обучение ML-модели) и онлайн-приоритизацию (расчет $r(u)$ в реальном времени).

На что влияет

Скорость индексации: Основное влияние. Алгоритм определяет, как быстро новый контент попадет в индекс.
Типы контента: Наибольшее влияние на контент, чья ценность быстро угасает (высокий $a_2$): новости, тренды, свежие обсуждения, новые товары/акции. Меньшее влияние на «вечнозеленый» контент (низкий $a_2$).
Структура сайта: Критически зависит от структуры URL. Сайты с четкими и стабильными шаблонами URL получают преимущество в точности прогнозирования и скорости сканирования.
Ниши: Новостные порталы, СМИ, крупные eCommerce площадки.

Когда применяется

Условия работы: Алгоритм применяется непрерывно для управления очередью сканирования.
Триггеры активации: Обнаружение нового URL или наступление времени для повторного сканирования старого URL.
Частота применения: Приоритет $r(u)$ динамически меняется по мере увеличения возраста страницы ($\Delta t$), если страница еще не просканирована.

Пошаговый алгоритм

А. Офлайн-обучение ML-модели (Периодический процесс)

Сбор данных: Сбор анонимных данных о посещениях веб-страниц (логи трафика).
Построение Шаблонов URL: Группировка URL по синтаксической структуре для каждого домена.
Агрегация признаков: Для каждого шаблона (P) вычисляются агрегированные признаки на основе исторических данных: входящий трафик ($V_{in}(P)$), исходящий трафик ($V_{out}(P)$), краткосрочный трафик ($V^t(P)$), размер шаблона ($|P|$).
Обучение: Алгоритм машинного обучения обучается предсказывать фактическую популярность ($a_1$) и скорость угасания ($a_2$) для URL на основе признаков их Шаблонов.

Б. Онлайн-приоритизация очереди сканирования (Реальное время)

Обнаружение URL: Обнаружение нового URL (u) и фиксация времени обнаружения.
Сопоставление с шаблоном: Определение Шаблона (P), к которому принадлежит URL (u).
Прогнозирование: Использование обученной ML-модели и признаков Шаблона (P) для прогнозирования $a_1$ и $a_2$ для нового URL (u).
Расчет возраста: Определение текущего возраста страницы ($\Delta t$).
Расчет Полезности: Вычисление Параметра полезности просмотра $r(u)$ по формуле: $$ r(u) = a_1 e^{\frac{\log(1-a_2)}{t} \Delta t} $$
Приоритизация: Размещение URL (u) в очереди сканирования в соответствии с его оценкой $r(u)$.
Сканирование: Поисковый бот загружает страницы, начиная с наивысшего приоритета.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Трафик): Основные данные для обучения модели. Источник, упомянутый в патенте — логи «панели инструментов поискового браузера». Используются:
- Количество переходов (посещений) на URL.
- Временные метки посещений.
- Данные о реферерах.
Структурные факторы (URL): Структура URL используется для создания и идентификации Шаблонов URL.
Временные факторы: Время обнаружения/создания страницы (для расчета $\Delta t$); предопределенный интервал $t$ (например, 24 часа).

Контентные и ссылочные факторы в основном алгоритме не используются, хотя ссылочные факторы и сигналы из соцсетей («твиты») упомянуты как возможные дополнительные признаки для ML-модели.

Какие метрики используются и как они считаются

Признаки Шаблона URL (Features): Агрегированные статистические данные.

$V_{in}(P)$: Общее количество входящих переходов на все URL в шаблоне P.
$V_{out}(P)$: Общее количество исходящих переходов (когда URL в шаблоне выступают как рефереры).
$V^t(P)$: Переходы в течение первых $t$ часов.
Средние значения (деленные на $|P|$) и соотношения (например, $V^t_{in}(P)/V_{in}(P)$).

Прогнозируемые Метрики (ML Output):

$a_1$: Оценка общей популярности. В патенте отмечено, что может использоваться логарифм популярности для нормализации.
$a_2$: Оценка доли посещений в первые $t$ часов.

Расчетные Метрики:

Параметр снижения популярности ($\lambda(u)$): Вычисляется на основе $a_2$: $$ \hat{\lambda}(u) = -\frac{\log(1-a_2)}{t} $$
Параметр полезности просмотра ($r(u)$): Финальная метрика для приоритизации. Рассчитывается по формуле (Claim 11), приведенной выше. Она моделирует экспоненциальное снижение ценности сканирования с течением времени.

Выводы

Приоритет сканирования определяется прогнозируемым поведением пользователей: Яндекс оптимизирует краулинг, прогнозируя, насколько популярной будет страница и как долго продлится интерес к ней.
Скорость угасания популярности (Decay Rate) – ключевой фактор: Учет не только общей популярности ($a_1$), но и скорости ее снижения ($a_2$) является ядром изобретения. Контент, который быстро теряет актуальность (новости, тренды), должен быть просканирован немедленно.
Зависимость от Шаблонов URL и исторических данных: Для новых страниц система использует исторические данные о трафике на структурно похожих страницах (Шаблонах URL) того же домена. Производительность раздела сайта влияет на скорость индексации новых страниц в нем.
Математическая модель полезности: Используется конкретная экспоненциальная модель для количественной оценки полезности сканирования в текущий момент времени, учитывающая возраст страницы ($\Delta t$).
Влияние структуры сайта на индексацию: Логичная, последовательная и стабильная структура URL критически важна для точности прогнозов и, следовательно, для скорости индексации нового контента.

Практика

Best practices (это мы делаем)

Поддерживать чистую, логичную и последовательную структуру URL: Это критически важно для корректного определения Шаблонов URL. Четкая иерархия (например, /blog/YYYY/MM/post-title/) позволяет системе агрегировать релевантные исторические данные и делать точные прогнозы популярности для новых страниц этого типа.
Размещать новый контент в «прогретых» разделах: Новые страницы, опубликованные в разделах (шаблонах), которые исторически генерируют много трафика, получат более высокий прогноз популярности ($a_1$) и, как следствие, более высокий приоритет сканирования.
Стимулировать ранний трафик на новые страницы: Обеспечивайте приток пользователей на новый контент сразу после публикации (через внутреннюю перелинковку, рассылки, соцсети). Это улучшает исторические метрики краткосрочной популярности ($V^t_{in}(P)$) для данного шаблона, что ускорит индексацию будущих публикаций.
Оптимизировать скорость обнаружения (Discovery): Минимизируйте время $\Delta t$. Убедитесь, что новые URL быстро обнаруживаются ботом через Sitemaps и внутренние ссылки с важных страниц.

Worst practices (это делать не надо)

Использование хаотичных, неструктурированных или динамических URL: Использование URL вида /?id=123 для всех типов контента мешает системе идентифицировать Шаблоны и использовать исторические данные для прогнозирования.
Частое изменение структуры URL: Это сбрасывает накопленную статистику по Шаблонам URL. Система будет вынуждена заново изучать паттерны популярности, что замедлит сканирование.
Смешивание разного типа контента в одном шаблоне: Размещение срочных новостей и архивных материалов в одной директории приведет к усреднению показателей популярности и скорости угасания, что снизит приоритет сканирования для срочного контента.
Публикация важного контента в «холодных» разделах: Размещение новых важных страниц в разделах сайта с минимальным историческим трафиком приведет к низкому прогнозу популярности и медленному сканированию.

Стратегическое значение

Патент подтверждает, что управление сканированием в Яндексе — это сложный, основанный на данных процесс, направленный на максимизацию ценности индекса для пользователя. Стратегическое значение для SEO заключается в понимании глубокой связи между технической архитектурой сайта (структурой URL), реальным поведением пользователей (трафиком) и скоростью индексации. Долгосрочная стратегия должна фокусироваться на создании авторитетных разделов сайта, которые стабильно генерируют интерес.

Практические примеры

Сценарий 1: Новостной портал (Быстрое угасание)

Контекст: Публикация срочной новости в разделе /breaking-news/.
Анализ Системы: Шаблон /breaking-news/<*> исторически имеет высокую популярность (высокий $a_1$) и очень быстрое угасание (высокий $a_2$).
Результат: Параметр полезности просмотра $r(u)$ будет максимальным сразу после публикации. Страница получает наивысший приоритет и сканируется немедленно (Быстроробот Orange).

Сценарий 2: Интернет-магазин (Среднее угасание)

Контекст: Добавление нового товара в категорию /catalog/gadgets/.
Анализ Системы: Шаблон /catalog/gadgets/<*> имеет высокую популярность (высокий $a_1$), но угасание медленнее, чем у новостей (средний $a_2$).
Результат: Параметр полезности $r(u)$ будет высоким, но ниже, чем у срочной новости. Страница будет просканирована в приоритетном порядке, но после более срочного контента.

Сценарий 3: Архивный раздел (Низкая популярность)

Контекст: Создание новой страницы в разделе /archive/2014/.
Анализ Системы: Шаблон /archive/<year>/<*> исторически имеет очень низкий трафик (низкий $a_1$).
Результат: Параметр полезности $r(u)$ будет низким. Страница попадает в конец очереди сканирования и может ожидать индексации длительное время.

Вопросы и ответы

Влияет ли этот патент напрямую на ранжирование сайтов?

Нет, напрямую не влияет. Патент описывает исключительно процессы CRAWLING (Сканирования) — как Яндекс определяет приоритет (очередность) сканирования страниц. Однако он имеет значительное косвенное влияние: страница не может ранжироваться, пока она не проиндексирована. Этот алгоритм определяет, насколько быстро ваш контент попадет в индекс.

Что такое «Параметр ожидаемого снижения популярности» и почему он важен?

Это прогноз того, как быстро страница потеряет свою актуальность и трафик (Decay Rate). Это критически важно, потому что поисковая система стремится как можно быстрее проиндексировать контент, который скоро станет неактуальным (например, новости). Если ожидается, что популярность будет снижаться быстро, приоритет немедленного сканирования повышается.

Как Яндекс прогнозирует популярность для совершенно нового URL, у которого еще нет трафика?

Яндекс использует подход, основанный на машинном обучении и Шаблонах URL (Templates). Система определяет, к какому шаблону (разделу сайта) относится новый URL, и смотрит на исторические данные о трафике других страниц этого же шаблона. На основе этой агрегированной статистики делается прогноз для нового URL.

Насколько важна структура URL согласно этому патенту?

Структура URL критически важна. Консистентные и логичные структуры позволяют системе точно идентифицировать Шаблоны и агрегировать исторические данные. Если структура URL хаотична или часто меняется, система не сможет точно прогнозировать популярность, что приведет к замедлению индексации нового контента.

Какие данные Яндекс использует для прогнозирования популярности?

Согласно патенту, основными данными являются исторические логи посещений веб-страниц (трафик), например, зафиксированные панелью инструментов браузера. Система анализирует количество входящих ($V_{in}$) и исходящих ($V_{out}$) переходов, а также их временные характеристики (например, трафик за первые 24 часа).

Как я могу использовать знание об этом патенте для ускорения индексации моего сайта?

Поддерживайте стабильную и логичную структуру URL. Размещайте новый контент в разделах (шаблонах), которые уже имеют хороший исторический трафик. Стимулируйте приток пользователей на новые страницы сразу после публикации, чтобы улучшить метрики краткосрочной популярности для этого шаблона, что ускорит индексацию будущих страниц.

Как формула полезности учитывает возраст страницы?

Формула включает параметр $\Delta t$ — время, прошедшее с момента создания (или обнаружения) страницы. Формула построена по принципу экспоненциального затухания. Если ожидается быстрое снижение популярности (высокий $a_2$), то чем больше $\Delta t$ (чем старше страница), тем ниже будет рассчитанный Параметр полезности просмотра ($r(u)$). Это мотивирует систему сканировать такие страницы как можно раньше.

Применяется ли этот механизм только к новым страницам?

В первую очередь да, но патент также описывает (Claims 2-4) применение этого механизма для приоритизации повторного сканирования старых страниц. В этом случае система прогнозирует ожидаемую популярность и скорость ее снижения для потенциальных *изменений* на старой странице, балансируя ресурсы между новыми и старыми URL.

Если мой сайт новый и у него нет истории трафика, как система оценит его?

Это сложный случай для системы, описанной в патенте, так как она полагается на исторические данные Шаблонов URL. Если истории нет, система, вероятно, будет использовать более общие эвристики для сканирования (например, авторитетность домена, внешние ссылки) или присвоит стандартный/низкий приоритет до тех пор, пока не накопится достаточно данных для построения прогнозов популярности.

Для каких типов сайтов этот патент наиболее важен?

Он критически важен для сайтов с контентом, чувствительным ко времени (time-sensitive). Это в первую очередь новостные порталы, сайты о событиях, а также крупные e-commerce платформы с частыми обновлениями ассортимента или акциями. Для них скорость попадания в индекс напрямую влияет на трафик и конверсии.