Как Google использует машинное обучение (K-armed Bandits) и поведенческие факторы для оптимизации частоты сканирования динамического контента

Google оптимизирует ресурсы сканирования для динамического контента (например, цен товаров). Система использует алгоритм обучения с подкреплением (K-armed adversarial bandits) для адаптивного выбора наилучшей стратегии переобхода. Частота сканирования определяется прогнозируемой вероятностью изменения контента и популярностью страницы (клики, показы), которые рассчитываются с помощью нейронных сетей на основе исторических данных и метаданных.

Описание

Какую задачу решает

Патент решает проблему эффективного планирования переобхода (recrawl scheduling) для высокодинамичного контента (например, цен и наличия товаров на offer pages) в условиях ограниченных ресурсов сканирования (crawl budget). Традиционные подходы (например, равномерное сканирование) неоптимальны: они либо тратят избыточные ресурсы на неизменившийся контент, либо приводят к устареванию данных в индексе (staleness). Цель изобретения — максимизировать свежесть (freshness) фактической информации в репозитории поисковой системы, особенно той, которая важна для пользователей.

Что запатентовано

Запатентована система адаптивного управления сканированием, которая использует комбинацию нескольких стратегий переобхода (recrawl strategies). Для динамического выбора наилучшей стратегии в реальном времени применяется алгоритм машинного обучения с подкреплением — K-armed adversarial bandits (KAB). Ключевой особенностью является использование глубоких нейронных сетей (DNN) для прогнозирования входных параметров стратегий: частоты кликов (Click Rate μ), частоты показов (Impression Rate v) и вероятности изменения контента (Change Rate Δ).

Как это работает

Система работает итеративно, оптимизируя процесс сканирования:

Прогнозирование: Для каждого URL система прогнозирует его популярность (μ, v) и волатильность (Δ), используя DNN-модели, обученные на исторических данных и метаданных (например, категория товара, бренд, мерчант).
Выбор стратегии: Алгоритм KAB выбирает одну из доступных стратегий сканирования (например, приоритет по кликам, приоритет по изменениям, равномерная) на основе накопленных данных об их эффективности (Reward).
Планирование и Исполнение: Выбранная стратегия определяет частоту переобхода (Recrawl Rate ρ) для каждого URL. Система выполняет сканирование.
Обучение: Если было обнаружено изменение контента на популярной странице, стратегия получает высокое вознаграждение (оптимизация Click-weighted freshness). Система обновляет свою политику (Recrawl Policy), отдавая предпочтение более успешным стратегиям.

Актуальность для SEO

Высокая. Оптимизация краулингового бюджета и обеспечение свежести динамического контента (особенно в eCommerce и новостях) являются критически важными задачами для поисковых систем. Использование обучения с подкреплением (RL) и глубоких нейронных сетей (DNN) для управления инфраструктурой сканирования соответствует современным подходам Google.

Важность для SEO

Патент имеет высокое значение (8.5/10) для SEO, особенно для E-commerce и крупных сайтов с динамическим контентом. Он детально описывает механизм, определяющий приоритеты Google при переобходе страниц. Популярность страницы (клики и показы) и прогнозируемая волатильность контента напрямую влияют на частоту сканирования. Понимание этих механизмов необходимо для обеспечения актуальности информации в поиске.

Детальный разбор

Термины и определения

Change Rate (Δ – Вероятность изменения): Вероятность того, что фактическое значение (Quantity) сущности (например, цена товара) изменится в заданный период времени.
Click Rate (μ – Частота кликов): Количество кликов, которые получает страница сущности из результатов поиска за период времени.
Click-weighted freshness (Свежесть, взвешенная по кликам): Основная метрика полезности (Utility) и цель оптимизации системы. Измеряет процент кликов, при которых пользователи увидели актуальную информацию.
Entity / Offer (Сущность / Предложение): Объект, информация о котором отслеживается. В контексте патента часто используется страница товара (Offer Page).
Exploration Probability (γ) (Вероятность исследования): Параметр в алгоритме KAB, который гарантирует, что система иногда выбирает случайные стратегии для адаптации к изменениям, а не только исторически лучшие.
History Features (Исторические признаки): Данные из прошлых логов сканирования и поведения пользователей. Примеры: частота изменений в прошлом, время с последнего изменения, клики/показы за прошлые периоды.
Impression Rate (v – Частота показов): Количество показов страницы сущности в результатах поиска за период времени.
K-armed Adversarial Bandits (KAB): Алгоритм обучения с подкреплением, используемый для выбора оптимальной стратегии (Arm) в условиях неопределенности и меняющейся среды.
Metadata Features (Признаки метаданных): Атрибуты сущности, используемые для прогнозирования. Примеры: Бренд, Страна, Язык, ID Мерчанта, Категория продукта, День недели.
Quantity (Значение): Конкретная фактическая информация на странице, свежесть которой отслеживается (например, цена, наличие товара).
Recrawl Policy (Политика переобхода): Распределение весов (Weight Distribution) между различными стратегиями сканирования, определяющее вероятность выбора каждой из них.
Recrawl Rate (ρ – Частота переобхода): Количество запланированных переобходов URL за единицу времени.
Recrawl Strategy / Arm (Стратегия переобхода / Рука): Конкретный алгоритм расчета Recrawl Rate. Примеры: Uniform, Change-weighted (по Δ), Click-weighted (по μ), Impression-weighted (по v), Resource-optimized.
Reward (Награда): Численная оценка успеха стратегии сканирования. Награда начисляется, если сканирование обнаружило изменение Quantity, и взвешивается по Click Rate.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обновления данных (refresh policy).

Система получает набор сущностей (entities) со значениями (quantity), актуальными на предыдущий момент времени.
Для каждой сущности генерируются текущие значения параметров: частота доступа (access rate, например, клики) и/или вероятность изменения значения (likelihood of a change).
Выбирается стратегия обновления (refresh strategy) из множества доступных стратегий в соответствии с политикой обновления.
Политика включает распределение весов (weight distribution). Упомянуты стратегии: uniform, change-weighted, access-weighted, resource-optimized.
Для каждой сущности генерируется частота обновления (refresh rate) согласно выбранной стратегии и значениям параметров.
Выполняется операция обновления (сканирование) репозитория на основе рассчитанных частот.

Claim 4 (Зависимый): Детализирует генерацию параметров для расчета refresh rate.

Для генерации значений параметров (например, вероятности изменения или частоты доступа) используется соответствующая модель нейронной сети (neural network model).

Claims 5, 6, 7, 8 (Зависимые): Детализируют обучение нейронных сетей.

Модели обучаются на основе исторических признаков (history features) (Claim 5, 6) и метаданных (metadata) (Claim 7, 8). Исторические признаки включают прошлую частоту изменений и количество доступов. Метаданные включают день недели, бренд, ID мерчанта, страну.

Claim 11 и 12 (Зависимые, в рамках Computer Program Product): Уточняют механизм выбора и обучения.

Каждая стратегия представлена как «рука» (arm) алгоритма K-armed adversarial bandits (Claim 11). Веса генерируются с использованием обучения с подкреплением (reinforcement learning) для максимизации параметра награды (reward parameter), который указывает на полезность стратегии (Claim 12).

Где и как применяется

Изобретение применяется на этапе управления сканированием и напрямую влияет на сбор данных.

CRAWLING – Сканирование и Сбор данных

Это основная область применения патента. Система определяет приоритеты и частоту переобхода URL (Crawl Scheduling) и управляет распределением бюджета (Crawl Budget Management).

Prediction Manager: Использует данные из логов сканирования (Crawling Logs / History) и сигналы страниц (Entity Page Signals / Metadata) для прогнозирования параметров (μ, v, Δ) с помощью DNN.
Recrawl Policy Manager: Использует алгоритм K-armed bandit для выбора стратегии на текущий временной шаг.
Recrawl Manager: Рассчитывает конкретные частоты сканирования (ρ) на основе выбранной стратегии и прогнозов, а затем выполняет сканирование для обновления Content Data.

INDEXING – Индексирование и извлечение признаков

На этом этапе извлекаются и сохраняются Metadata Features (например, бренд, категория), которые затем используются Prediction Manager. Также здесь обновляются фактические данные (Quantity, например, цена).

Входные данные:

Набор URL (Entities/Offers) и их предыдущие значения Quantity.
History Features (из логов сканирования и взаимодействия).
Metadata Features (из индекса).
Ограничение на ресурсы сканирования (бюджет b).

Выходные данные:

Расписание переобхода (Recrawl Rates ρ).
Обновленные значения Quantity в индексе.
Обновленная политика сканирования (Policy Weights).

На что влияет

Конкретные типы контента и ниши: В первую очередь влияет на контент с высокодинамичными фактическими данными. Патент фокусируется на commercial offer pages (E-commerce), но также упоминает новости, события, прогнозы погоды, отзывы.
Географические и языковые ограничения: Country code и Language используются как признаки для прогнозирования, что позволяет адаптировать политики сканирования под региональные особенности.

Когда применяется

Условия работы: Алгоритм работает непрерывно для управления переобходом известного набора динамических URL в условиях ограниченного бюджета (b).
Временные рамки: Процесс итеративный. В патенте упоминаются различные временные шаги (time step), например, два часа для выполнения итерации сканирования, и дневная гранулярность для прогнозирования параметров.

Пошаговый алгоритм

Процесс управления сканированием (на основе Algorithm 1 патента).

Этап 0: Инициализация и Обучение (Офлайн/Периодически)

Обучение DNN моделей для прогнозирования μ, v, Δ на основе History Features и Metadata Features.
Инициализация KAB: Установка равных весов (w) для всех доступных стратегий сканирования (K arms).

Этап 1: Итерация сканирования (Онлайн, на каждом временном шаге t)

Прогнозирование параметров: Использование обученных DNN для генерации текущих значений μ, v, Δ для всех URL.
Расчет вероятностей выбора (q): Для каждой стратегии рассчитывается вероятность выбора. Она зависит от текущего веса (w) и параметра исследования (exploration probability γ), который гарантирует, что даже стратегии с низким весом иногда будут выбираться (баланс exploration/exploitation).
Выбор стратегии: Выбор одной стратегии (Arm A) для применения ко всем URL на текущем шаге, согласно распределению вероятностей q.
Расчет частоты сканирования (ρ): Для каждого URL рассчитывается Recrawl Rate (ρ), используя формулу выбранной стратегии (например, из Table 2) и спрогнозированные параметры (μ, v, Δ), с учетом бюджетных ограничений (b).
Выполнение сканирования: Переобход URL и обновление локальных значений (Quantity) в репозитории.
Расчет награды (Reward): Рассчитывается суммарная награда для выбранной стратегии. Награда начисляется, если сканирование выявило изменение значения, и взвешивается по Click Rate (μ) (Формула Eq. 2). Это измеряет прирост Click-weighted freshness.
Обновление политики: Вес (w) выбранной стратегии A увеличивается пропорционально полученной награде (Reinforcement Learning).

Какие данные и как использует

Данные на входе

Система использует два основных типа данных для прогнозирования (детализировано в Table 3 патента): History Features и Metadata Features.

Исторические признаки (History Features):

Поведенческие факторы (Критически важные): Клики (Clicks) и Показы (Impressions) за различные периоды (вчера, неделя, 2 недели, месяц).
Временные факторы: Частота изменения цены за последний месяц; Время с момента последнего изменения.

Метаданные (Metadata Features):

Структурные/Контентные факторы: Уникальный ID бренда (Brand); Уникальный ID продавца (Merchant); Категория продукта (Product Category); Состояние товара (Condition).
Географические и языковые факторы: Код страны (Country); Язык страницы (Language).
Контекстуальные факторы: День недели (Day of Week) на момент прогноза.

Какие метрики используются и как они считаются

Прогнозируемые параметры (μ, v, Δ): Вычисляются с помощью Deep Neural Network (DNN). В патенте используется TensorFlow DNNClassifier с тремя скрытыми слоями, функцией активации ReLU и оптимизацией Adagrad. Прогнозирование рассматривается как задача классификации.
Recrawl Rate (ρ): Рассчитывается по формулам конкретных стратегий (Table 2). Например, для Click-weighted: ρ пропорциональна μ и нормализована по бюджету b.
Reward (Награда): Метрика для обучения KAB. Рассчитывается по формуле (Eq. 2). Это сумма полезности по всем URL, где полезность = индикатор изменения цены * нормализованный вес клика.
Policy Weights (w) и Probabilities (q): Метрики KAB. Веса обновляются экспоненциально на основе наград. Вероятности рассчитываются на основе весов и параметра исследования (γ).

Выводы

Адаптивное сканирование с помощью Reinforcement Learning: Google использует сложные алгоритмы (K-armed adversarial bandits) для динамического управления краулингом. Система не полагается на одну стратегию, а постоянно учится и адаптируется, выбирая наиболее эффективный подход в текущий момент.
Приоритет сканирования = Популярность × Волатильность: Частота переобхода URL определяется двумя ключевыми факторами: его популярностью (Click Rate, Impression Rate) и прогнозируемой вероятностью изменения контента (Change Rate).
«Click-weighted freshness» как главная метрика: Цель системы — не просто обеспечить свежесть всех страниц, а максимизировать свежесть именно тех страниц, на которые кликают пользователи. Награда за обнаружение изменений напрямую взвешивается по кликам.
Сложное прогнозирование волатильности (DNN): Для предсказания вероятности изменений используются DNN, учитывающие не только историю изменений URL, но и его метаданные (категория, бренд, мерчант) и контекст (день недели). Это позволяет прогнозировать изменения даже для новых URL (решение проблемы холодного старта).
Важность метаданных для краулинга: Точность атрибутов страницы (Metadata Features), часто передаваемых через структурированные данные, напрямую влияет на прогнозирование и, следовательно, на частоту сканирования.

Практика

Best practices (это мы делаем)

Обеспечение точности структурированных данных (Metadata): Критически важно поддерживать актуальность метаданных, используемых системой для прогнозирования (Metadata Features): бренд, категория продукта, ID мерчанта, состояние товара. Для eCommerce это означает тщательную работу с микроразметкой Schema.org/Product и фидами данных (Google Merchant Center).
Повышение популярности контента (Clicks & Impressions): Поскольку Click Rate и Impression Rate являются ключевыми факторами для повышения частоты сканирования (как входные параметры и как вес в Reward), необходимо работать над улучшением поведенческих сигналов: оптимизация сниппетов для повышения CTR и улучшение позиций для увеличения показов.
Оптимизация извлечения фактических данных (Quantity): Убедитесь, что ключевые динамические данные (цена, наличие) легко доступны для краулера и однозначно интерпретируемы. Это ускоряет процесс определения изменений и корректного расчета Reward.
Анализ логов с учетом контекста: При анализе частоты посещения сайта роботом следует учитывать не только историю изменений на сайте, но и внешние факторы (например, день недели, сезонность), так как система прогнозирования Google учитывает этот контекст (Day of Week).

Worst practices (это делать не надо)

Искусственная генерация изменений: Попытки увеличить частоту сканирования путем незначительных изменений контента неэффективны. Система фокусируется на изменении ключевых фактических данных (Quantity), и награда взвешивается по кликам.
Игнорирование ошибок в метаданных: Неверная категоризация товара или ошибки в указании бренда могут привести к неверному прогнозированию Change Rate и, как следствие, к неоптимальному сканированию.
Затруднение доступа к динамическим данным: Скрытие цен или статуса наличия за сложным для рендеринга JavaScript может привести к тому, что система не сможет эффективно отслеживать изменения, что приведет к устареванию данных в индексе.

Стратегическое значение

Патент подтверждает стратегическую важность поведенческих факторов (кликов и показов) не только в ранжировании, но и в управлении инфраструктурными процессами, такими как сканирование. Система отдает явный приоритет пользовательскому опыту, стремясь предоставить актуальную информацию там, где это наиболее востребовано (Click-weighted freshness). Для сайтов, зависящих от актуальности информации (E-commerce, новости), это означает, что популярность контента напрямую влияет на скорость его обновления в индексе.

Практические примеры

Сценарий 1: Управление сканированием во время распродажи (Black Friday)

Подготовка: SEO-специалист убеждается, что все товары имеют корректные метаданные (категория, бренд).
Прогнозирование Google: Система Google анализирует Metadata Features и History Features. Учитывая контекст (Day of Week, приближение распродажи), система прогнозирует резкое увеличение Change Rate (Δ) и Click Rate (μ).
Адаптация политики: Алгоритм K-armed bandits начинает отдавать предпочтение стратегиям Change-weighted и Click-weighted, так как они приносят большую награду.
Результат: Частота сканирования (ρ) для страниц популярных товаров значительно увеличивается. Это гарантирует, что акционные цены быстро попадают в индекс.

Сценарий 2: Новый товар (Cold Start)

Ситуация: На сайте появляется новый товар. Исторических данных нет.
Прогнозирование Google: Система использует только Metadata Features (например, популярный бренд, волатильная категория, авторитетный продавец) для прогнозирования μ и Δ.
Результат: Благодаря качественным метаданным, система может назначить новому товару адекватную частоту сканирования, решая проблему холодного старта.

Вопросы и ответы

Как именно клики (Click Rate) влияют на частоту сканирования согласно патенту?

Клики влияют тремя способами. Во-первых, прошлые клики используются как History Features для прогнозирования будущей популярности. Во-вторых, прогнозируемый Click Rate используется как входной параметр для расчета частоты сканирования в некоторых стратегиях (например, Click-weighted). В-третьих, клики используются для взвешивания награды (Reward) — обнаружение изменений на странице с высоким Click Rate приносит больше пользы системе, стимулируя ее сканировать такие страницы чаще.

Что такое Metadata Features и почему они важны для SEO?

Metadata Features — это атрибуты страницы, такие как категория продукта, бренд, ID мерчанта, страна, язык и день недели. Они используются нейронной сетью для прогнозирования вероятности изменения контента и популярности страницы. Это важно для SEO, так как точность этих данных (часто передаваемых через микроразметку или фиды) напрямую влияет на то, как часто Google будет сканировать ваши страницы, особенно если у них еще нет долгой истории.

Что такое K-armed Adversarial Bandits и как это работает в краулинге?

Это алгоритм обучения с подкреплением. Представьте несколько разных стратегий сканирования (например, приоритет по кликам, приоритет по изменениям). Каждая стратегия — это «рука» (arm). Система пробует разные «руки» и отслеживает, какая из них приносит наибольшую награду (находит больше изменений на популярных страницах). Со временем система учится чаще выбирать наиболее успешные стратегии, но также периодически пробует другие (exploration), чтобы адаптироваться к изменениям.

Применяется ли этот патент только к E-commerce сайтам?

Хотя патент в качестве основного примера использует коммерческие предложения (Offers) и цены, описанные механизмы применимы к любому высокодинамичному контенту. Это могут быть новостные сайты, страницы мероприятий (изменение времени или места), агрегаторы билетов или любые другие страницы, где критически важна свежесть фактической информации.

Может ли эта система решить проблему холодного старта для новых страниц?

Да, частично. Поскольку система использует Metadata Features (категория, бренд, мерчант) для прогнозирования вероятности изменений и популярности, она может сделать обоснованное предположение о том, как часто нужно сканировать новую страницу, даже если у нее еще нет исторических данных (History Features). Например, новая страница в категории, известной частыми обновлениями, будет сканироваться чаще.

Что произойдет, если я буду часто менять цены на непопулярном товаре?

Система зафиксирует высокую частоту изменений (Change Rate Δ). Это может увеличить частоту сканирования, если будет выбрана стратегия Change-weighted. Однако, поскольку Click Rate (μ) низкий, общая награда (Reward) за обнаружение этих изменений будет небольшой (из-за взвешивания по кликам). Система не будет тратить на это столько же ресурсов, сколько на популярный товар.

Что является главной метрикой успеха для этой системы?

Главной метрикой успеха, которую система стремится максимизировать, является Click-weighted freshness (свежесть, взвешенная по кликам). Это означает, что Google стремится максимизировать вероятность того, что пользователь, кликнув по результату, увидит актуальную информацию. Актуальность популярного контента приоритетнее.

Какие технологии машинного обучения используются для прогнозирования?

Для прогнозирования Click Rate, Impression Rate и Change Rate используются глубокие нейронные сети (DNN). В патенте конкретно упоминается использование TensorFlow DNNClassifier с тремя скрытыми слоями, активацией ReLU и оптимизатором Adagrad. Это указывает на использование сложных моделей для достижения высокой точности прогнозов.

Как этот патент связан с управлением краулинговым бюджетом (Crawl Budget)?

Это патент напрямую об управлении краулинговым бюджетом. Он описывает сложный механизм для определения того, как распределить ограниченное количество запросов сканирования (resource constraints) максимально эффективно, чтобы достичь наибольшей полезности для пользователей (Click-weighted freshness).

Что такое «Exploration Probability» (γ) и зачем она нужна?

Exploration Probability (гамма) — это параметр в алгоритме K-armed bandits, который гарантирует, что система не застрянет на использовании только одной, кажущейся лучшей, стратегии. Он заставляет систему периодически выбирать случайную стратегию для исследования. Это делает общую политику сканирования более устойчивой и адаптивной к изменениям в поведении пользователей и контенте сайтов.