
Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее ценность, основываясь на показателях других страниц с аналогичной структурой URL. Это влияет на приоритеты сканирования, индексирования и начальное ранжирование.
Патент решает проблему «холодного старта» (cold start problem) для новых или редко посещаемых документов. Когда поисковая система обнаруживает новый URL, у нее отсутствуют исторические данные (например, поведение пользователей, частота обновлений, сигналы качества), необходимые для оценки его важности. Это затрудняет эффективное планирование сканирования (Crawl Scheduling), принятие решений об индексировании (Index Selection) и начальное ранжирование.
Запатентована система для прогнозирования атрибутов документа на основе анализа структуры его URL. Система идентифицирует повторяющиеся структурные шаблоны (Repeated String Patterns) в большом массиве известных URL и агрегирует исторические данные (например, показатели вовлеченности, такие как «долгие клики») для групп URL, соответствующих этим шаблонам (URL Classes). Для нового URL система прогнозирует его атрибуты, используя агрегированные данные схожих по структуре URL.
Механизм работает в два этапа: офлайн-обработка и онлайн-прогнозирование.
Pattern Extraction Procedure), которая разбирает URL на иерархию структурных элементов (путем усечения пути, замены параметров wildcards и т.д.). Идентифицируются повторяющиеся шаблоны, которые определяют Классы URL (URL Classes). Для каждого класса рассчитываются агрегированные данные (Aggregated Data).Lookup-URL), система извлекает из него шаблоны тем же методом. Она находит соответствующие Классы URL в базе данных и использует их агрегированные данные для прогноза. Если URL соответствует нескольким классам, больший вес (more deference) придается данным из более специфичного (детализированного) шаблона.Высокая. Эффективное управление краулинговым бюджетом и способность быстро оценивать качество и потенциал нового контента критически важны для Google. Использование структурных сигналов, таких как шаблоны URL, для масштабирования оценок качества и прогнозирования поведения пользователей остается фундаментальным подходом в современных поисковых системах.
Патент имеет высокое значение для технического SEO и информационной архитектуры (8/10). Он демонстрирует, что структура URL является не просто идентификатором, а сигналом, используемым для прогнозирования качества и релевантности. Архитектура сайта и логика формирования URL напрямую влияют на то, как быстро и насколько положительно Google оценит новые страницы, определяя приоритет сканирования, скорость индексации и потенциально начальные позиции в ранжировании.
URL Class на основе индивидуальных данных всех URL, входящих в этот класс. Служат основой для прогнозирования.life expectancy), меру качества, коммерциализацию или тематическую категорию.truncating the file path), замены аргументов/параметров на подстановочные знаки (wildcard) и обработки имен хоста/домена.URL Class.Repeated String Pattern.Claim 1 (Независимый пункт): Описывает основной метод прогнозирования атрибутов документа на основе URL.
Long Clicks).Pattern Extraction Procedure.Claim 3 (Зависимый от 1): Уточняет метод Pattern Extraction Procedure, фокусируясь на параметрах (аргументах) URL.
Процедура включает идентификацию аргументов в URL. Генерируются шаблоны путем индивидуальной замены каждого аргумента на wildcard, а также путем замены всех аргументов на wildcard. Это создает шаблоны разной степени специфичности.
Claim 4 (Зависимый от 1): Уточняет метод Pattern Extraction Procedure, фокусируясь на структуре пути.
Процедура включает идентификацию файлового пути (сайт, каталоги, файл) и генерацию шаблонов путем последовательного усечения этого пути сегмент за сегментом (например, от файла к каталогу).
Claim 5 (Зависимый от 1): Уточняет метод Pattern Extraction Procedure, фокусируясь на имени сайта.
Процедура включает идентификацию имени хоста и домена. Генерируются два набора шаблонов: первый включает и хост, и домен (например, user1.blog.com); второй включает домен, но не хост (например, *.blog.com).
Claim 6 (Зависимый от 1): Описывает механизм интеграции прогнозов от разных шаблонов.
Если целевой URL соответствует нескольким шаблонам разной специфичности, система получает прогнозы от всех. При интеграции этих данных для финального прогноза большее предпочтение (more deference) отдается данным из более специфичного шаблона.
Изобретение применяется на нескольких ключевых этапах жизненного цикла документа в поиске для оптимизации ресурсов и улучшения качества.
CRAWLING – Сканирование и Сбор данных
Crawl Frontier).INDEXING – Индексирование и извлечение признаков
life expectancy).RANKING – Ранжирование
Входные данные (Офлайн):
Long Clicks, Click-Count, данные о сроке жизни, качестве и т.д.).Входные данные (Онлайн/Прогноз):
Lookup-URL.URL Classes и их Aggregated Data.Выходные данные:
Lookup-URL.Алгоритм состоит из двух основных процессов: построение базы данных шаблонов и использование ее для прогнозирования.
Процесс А: Построение базы данных классов URL (Офлайн)
Pattern Extraction Procedure: wildcards (индивидуально и всех сразу).Repeated String Patterns).URL Class. Группировка URL по соответствующим классам.URL Class расчет Aggregated Data (например, среднее значение, дисперсия атрибута, количество URL в классе) на основе данных всех URL в классе.Процесс Б: Прогнозирование атрибутов для Lookup-URL (Онлайн)
Lookup-URL от клиента (краулера, индексатора или системы ранжирования).Pattern Extraction Procedure к Lookup-URL для генерации его иерархии шаблонов.URL Classes.Aggregated Data для всех найденных соответствующих классов URL.more deference) отдается данным из более специфичных классов URL. Может учитываться Confidence Score (Оценка уверенности).Система использует несколько типов данных для построения модели прогнозирования.
Long Clicks / Dwell Time). Также упоминаются click-count (количество кликов), click-duration (продолжительность клика) и click-to-impression ratio (CTR).life expectancy) и частота обновления (update-frequencies).number of links).wildcards являются более специфичными.URL Class. Методы расчета включают среднее значение (mean), дисперсию (variance) и общее количество образцов (URLs в классе).Aggregated Data из разных классов URL, где веса определяются специфичностью или Confidence Score.URL Class). Новая страница, размещенная в директории, которая исторически показывала высокие показатели вовлеченности (Long Clicks), унаследует положительный прогноз. И наоборот, размещение в «плохой» директории приведет к пессимизации./category/subcategory/), имеет значительно больший вес, чем прогноз, основанный на общем шаблоне (например, /category/).URL Classes и точное прогнозирование.URL Classes./blog/) от пользовательского контента низкого качества (/forum/) или технических страниц.Long Clicks, высокий CTR). Это обеспечит новым страницам начальный «буст» доверия.wildcards и группировать страницы в правильные классы.URL Classes.URL Classes и снижает точность прогнозов./page?id=12345 менее эффективны для этого алгоритма, чем структурированные пути, хотя система и пытается обрабатывать параметры (Claim 3).Aggregated Data) для этого шаблона URL, навредив всем страницам в классе.URL Classes, и вынуждает систему заново строить модель для новых шаблонов.URL Classes, заставляя ее полагаться только на общие данные всего сайта.Патент подчеркивает важность технического SEO и информационной архитектуры как фундаментальных элементов стратегии продвижения. Способность Google прогнозировать качество на основе структуры URL означает, что архитектурные решения имеют прямое влияние на производительность контента, особенно на этапе запуска. Стратегия должна включать проектирование структуры сайта таким образом, чтобы максимизировать положительные прогнозы, группируя высокоценный контент в четко определенные иерархические структуры.
Сценарий 1: Оптимизация краулингового бюджета для E-commerce
/product/item-name/) имеют высокую вовлеченность, а страницы фильтрации (/category/?color=red&size=M...) – низкую.URL Class для /product/* с высокими агрегированными данными и URL Class для /category/?* с низкими данными./category/red-dresses/), чтобы они формировали отдельный, более качественный URL Class./product/* и низкую ценность для динамических фильтров. Краулер приоритизирует сканирование товаров, экономя бюджет на фильтрах.Сценарий 2: Запуск нового раздела на контентном сайте
nutrition.site.com), новый раздел интегрируется в существующую высокопроизводительную структуру (например, /health/wellness/nutrition/)./health/wellness/. Система прогнозирует высокую вовлеченность (Long Clicks), что ускоряет индексацию и дает начальный буст в ранжировании.Как именно система определяет, какие URL похожи?
Система использует процедуру извлечения шаблонов (Pattern Extraction Procedure). Она не просто ищет текстовое совпадение, а разбирает URL иерархически. Это включает усечение пути (/news/sports/ становится /news/), замену параметров на wildcards (?id=1 становится ?*) и обработку поддоменов. URL считаются похожими, если они разделяют один или несколько общих шаблонов (входят в один URL Class).
Что важнее для прогноза: общий шаблон или более специфичный?
Патент明确 указывает (Claim 6), что при интеграции прогнозов от нескольких шаблонов большее предпочтение (more deference) отдается данным из более специфичного шаблона. Например, если у вас есть данные для /blog/ и /blog/seo/, то для новой статьи /blog/seo/new-post прогноз от /blog/seo/ будет иметь больший вес.
На какие именно данные смотрит Google при агрегации статистики по URL?
Claim 1 патента специфицирует, что данные основаны на подсчете случаев, когда документ просматривался дольше порогового периода времени – это так называемые «долгие клики» (Long Clicks) или Dwell Time. В описании также упоминаются стандартные метрики: количество кликов, CTR, а также другие атрибуты, такие как частота обновления, срок жизни документа и показатели качества (например, ссылки).
Как этот патент влияет на управление краулинговым бюджетом?
Это один из ключевых механизмов управления бюджетом. Если шаблон URL исторически связан с низкокачественным контентом или низкой вовлеченностью, система спрогнозирует низкую ценность для новых URL с этим шаблоном. Краулер, получив этот прогноз, может понизить приоритет сканирования этих URL или вообще исключить их, экономя ресурсы для более важных разделов.
Что делать, если у меня сайт с хаотичной структурой URL или все на параметрах?
Сайты с хаотичной структурой затрудняют работу этого алгоритма, так как системе сложнее выявить надежные повторяющиеся шаблоны (Repeated String Patterns). Если контент качественный, он все равно будет ранжироваться, но вы не получите преимуществ в виде ускоренного сканирования и начального буста доверия. Рекомендуется провести реструктуризацию и внедрить логичную, иерархическую систему ЧПУ.
Влияет ли этот патент на выбор между поддоменом и подкаталогом?
Да, косвенно влияет. Система обрабатывает имена хостов и доменов (Claim 5). Поддомен (blog.site.com) и подкаталог (site.com/blog/) будут формировать разные URL Classes. Если основной домен имеет сильные показатели, размещение в подкаталоге может позволить новому контенту быстрее унаследовать эти сигналы в рамках общих шаблонов. Поддомен может рассматриваться как более обособленная структура.
Что произойдет, если я перемещу раздел сайта в новую директорию?
При изменении структуры URL старые URL Classes перестают быть актуальными для перемещенного контента. Система начнет собирать данные для новых шаблонов с нуля. Перемещенный контент попадет под влияние агрегированных данных новой директории. Если новая директория имеет лучшие исторические показатели, это может быть выгодно, но если показатели хуже или отсутствуют, это создаст временную неопределенность.
Как избежать негативного влияния «плохих» разделов сайта на «хорошие»?
Ключевой стратегией является структурная изоляция. Убедитесь, что контент с разным качеством или интентом находится в разных директориях или использует разные шаблоны URL. Например, не смешивайте UGC (User Generated Content) низкого качества с экспертными статьями в рамках одной структуры /articles/. Разделите их на /forum/ и /experts/.
Может ли система предсказать тематику страницы по URL?
Да, в патенте упоминается, что одним из прогнозируемых атрибутов документа может быть тематическая категория (topical category), основанная на анализе ключевых слов в документах данного URL Class. Если все страницы в директории /cars/toyota/ содержат ключевые слова, связанные с Toyota, система спрогнозирует эту тематику для нового URL в этой директории.
Заменяет ли этот прогноз реальные данные о поведении пользователей?
Нет, не заменяет. Прогноз используется в основном тогда, когда реальных данных для конкретного URL недостаточно (проблема "холодного старта"). Как только страница накопит достаточно собственных исторических данных о кликах и вовлеченности, эти прямые сигналы будут иметь приоритет над прогнозируемыми значениями.

Краулинг
Индексация
Свежесть контента

Поведенческие сигналы
Семантика и интент
SERP

Краулинг
Свежесть контента
Индексация

Структура сайта
Краулинг

Техническое SEO
Краулинг
Индексация

Мультимедиа
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Ссылки
Антиспам
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
EEAT и качество
Индексация

Персонализация
Поведенческие сигналы

Ссылки
Мультиязычность
Семантика и интент

Персонализация
Семантика и интент
Поведенческие сигналы

Структура сайта
SERP
Ссылки
