Как Google определяет и игнорирует часто меняющийся контент (виджеты, рекламу, даты) на сайте, анализируя структуру HTML и статистику изменений

Google использует метод для идентификации областей сайта, содержащих временный контент (например, рекламу, погоду, динамические виджеты). Система сравнивает разные версии страниц и анализирует, как часто меняется контент в определенных структурных расположениях (HTML-путях). Если контент по определенному пути меняется слишком часто, этот путь помечается как «временный», и его содержимое игнорируется при индексации, расчете PageRank и таргетинге рекламы.

Описание

Какую задачу решает

Патент решает проблему идентификации transient content (временного контента) на веб-страницах в большом масштабе. Временный контент — это информация, которая часто меняется (например, дата, время, погода, реклама, динамические виджеты) и не характеризует основную тему страницы. Индексирование такого контента создает шум, снижает точность определения релевантности и может приводить к некорректному таргетингу рекламы.

Что запатентовано

Запатентована система для идентификации transient paths (временных путей) в структуре веб-сайта. Система сначала выявляет временный контент путем сравнения разных версий одной и той же страницы. Затем она определяет структурный путь (HTML-путь), связанный с этим контентом. Ключевой механизм заключается в статистическом обобщении: если контент по определенному пути часто меняется на проанализированных страницах сайта (превышая пороговую частоту), этот путь классифицируется как временный для всего сайта.

Как это работает

Система работает в несколько этапов:

Выявление временного контента: Сравниваются разные версии одной страницы. Страницы парсятся на tokens (теги и текст), для которых генерируются fingerprints (отпечатки/хэши). Токены, которые отличаются между версиями, помечаются как временные в bit vector.
Идентификация пути: Определяется структурный путь (последовательность открытых HTML-тегов), ведущий к временному контенту.
Статистический анализ сайта: Система анализирует множество страниц сайта, подсчитывая для каждого пути: общее количество его появлений (subtree count) и количество раз, когда контент по этому пути изменился (marked subtree count).
Классификация пути: Вычисляется transient frequency (частота изменений). Если она превышает порог, путь помечается как transient path.
Применение: Контент, расположенный по временным путям, игнорируется системами индексирования, расчета PageRank и таргетинга рекламы.

Актуальность для SEO

Высокая. Идентификация основного контента и отделение его от шаблонных блоков, рекламы и часто меняющихся элементов является фундаментальной задачей для поисковых систем. Хотя современные методы Google могут использовать более продвинутый анализ (например, DOM после рендеринга) по сравнению с простым парсингом, описанным в патенте, стратегия статистического анализа структуры сайта для выявления временных областей остается крайне актуальной для повышения качества поиска.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он описывает конкретный механизм, позволяющий Google статистически определять и девальвировать целые блоки контента на сайте. Если важный контент или ключевые ссылки расположены в областях, которые Google классифицирует как transient paths (например, из-за часто меняющихся виджетов или рекламы в том же блоке), они могут быть проигнорированы при определении релевантности или расчете ссылочного веса (PageRank).

Детальный разбор

Термины и определения

Transient Content (Временный контент): Контент на веб-странице, который, вероятно, изменится в будущем и поэтому не полезен для характеристики основного содержания страницы.
Transient Path (Временный путь): Структурный путь на сайте, который статистически часто содержит Transient Content.
Token (Токен): Единица контента, полученная в результате парсинга. Это может быть HTML-тег (tag token) или текст между тегами (content token).
Fingerprint (Отпечаток): Короткое числовое описание токена (например, результат хэш-функции). Используется для быстрого сравнения токенов между версиями.
Bit Vector (Битовый вектор): Структура данных для маркировки токенов как временных (например, 1) или постоянных (0).
Path (Путь): Структурное расположение токена, определяемое последовательностью открытых HTML-тегов, предшествующих токену (например, <html><body><div>).
Subtree Count (Счетчик поддеревьев): Общее количество раз, когда определенный путь появляется на проанализированных страницах сайта.
Marked Subtree Count (Счетчик помеченных поддеревьев): Количество раз, когда контент, связанный с определенным путем, был идентифицирован как временный (т.е. изменился между версиями).
Transient Frequency (Частота временности): Соотношение Marked Subtree Count к Subtree Count.
Threshold Frequency (Пороговая частота): Значение (в патенте упоминаются примеры 50% или 100%), при превышении которого Transient Frequency приводит к классификации пути как временного.

Ключевые утверждения (Анализ Claims)

Патент защищает метод статистического анализа изменений контента в привязке к структуре сайта.

Claim 1 (Независимый пункт): Описывает полный процесс: от идентификации временного контента до его применения для таргетинга рекламы.

Система получает идентификацию известного временного контента на первой веб-странице сайта.
Идентифицируется path, связанный с этим контентом.
Система проверяет другие страницы сайта на наличие этого пути.
Если путь существует, контент по этому пути помечается как «вероятный временный контент» (probable transient content).
Статистическая валидация: Для страниц с этим путем определяется transient frequency — как часто контент меняется в разных версиях.
Частота сравнивается с порогом (threshold frequency).
Если частота превышает порог, путь идентифицируется как transient path.
Применение: Система идентифицирует таргетированную рекламу для сайта, исключая из рассмотрения контент, идентифицированный как временный.

Claim 6 (Независимый пункт): Фокусируется на статистическом методе идентификации временного пути на основе счетчиков.

Определяется путь, связанный с известным временным контентом.
Идентифицируется subtree count (общее количество появлений этого пути на сайте).
Идентифицируется marked subtree count (количество раз, когда контент по этому пути менялся между версиями соответствующих страниц).
Subtree count сравнивается с marked subtree count.
На основе сравнения путь идентифицируется как transient path.

Claim 7 (Зависимый от 6): Уточняет формулу для сравнения.

Путь идентифицируется как временный, если соотношение (ratio) между количеством изменений (marked subtree count) и общим количеством появлений пути (subtree count) превышает пороговое значение (threshold frequency).

Где и как применяется

Изобретение применяется на этапе индексирования для очистки данных.

CRAWLING – Сканирование и Сбор данных
На этом этапе система должна собирать и сохранять несколько версий (snapshots) одной и той же страницы с течением времени, чтобы сделать возможным последующий анализ изменений.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Transient Path/Content Identification Module взаимодействует с Indexing Engine.

Парсинг: Parser обрабатывает HTML для выявления структуры (путей) и разделения контента на токены. Патент описывает линейный парсер, использующий стек открытых тегов для определения родителя текущего токена.
Сравнение версий: Content Analysis Module сравнивает версии страниц для выявления изменений.
Анализ путей: Path Analysis Module агрегирует статистику по всему сайту и идентифицирует Transient Paths.
Очистка данных: Идентифицированный временный контент исключается из индекса (Index).
Влияние на PageRank: В описании патента явно указано, что Indexing Engine может игнорировать ссылки, появляющиеся во временном контенте, во время вычисления Page Rank.

RANKING – Ранжирование
Алгоритм влияет косвенно. Поскольку временный контент исключен из индекса, расчет релевантности (IR score) становится более точным, фокусируясь на основном содержании. Также изменяется расчет PageRank.

Входные данные:

Множественные версии веб-страниц с одного сайта.

Выходные данные:

Битовые векторы (Bit Vectors), маркирующие временные токены.
Идентификация Transient Paths для сайта.
Очищенный контент для индексации.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на динамически генерируемый контент, вставки сторонних виджетов (погода, курсы валют), рекламные блоки, блоки персонализации, а также элементы, содержащие текущую дату/время.
Структура сайта: Влияет на сайты, использующие единую шаблонную структуру для множества страниц, позволяя системе эффективно выявлять общие динамические блоки.

Когда применяется

Условия работы алгоритма: Алгоритм требует наличия нескольких версий страниц, загруженных в разное время, а также достаточного количества страниц с одного сайта для статистического анализа.
Триггеры активации: Классификация пути как временного происходит, когда Transient Frequency превышает Threshold Frequency.
Исключения: Если страница претерпела полную реорганизацию (если соотношение помеченных токенов к общему числу токенов превышает порог), система может решить не маркировать контент как временный, так как сравнение версий становится ненадежным. Также могут игнорироваться слишком длинные пути (например, более 1000 символов) для поддержания линейной сложности операций.

Пошаговый алгоритм

Алгоритм состоит из двух основных частей: анализ на уровне страницы и анализ на уровне сайта.

Процесс А: Идентификация временного контента (Сравнение двух версий страницы)

Получение данных: Получить Версию 1 (V1) и Версию 2 (V2) одной веб-страницы.
Парсинг и Токенизация: Разобрать каждую версию на последовательность токенов. Во время парсинга для каждого токена определяется его путь (Path) и глубина.
Генерация отпечатков: Для каждого токена вычислить Fingerprint (хэш).
Создание структур данных: Создать списки токенов и хэш-таблицы уникальных отпечатков для обеих версий.
Сравнение: Для каждого токена в V1 проверить, существует ли его отпечаток в хэш-таблице V2 (и наоборот).
Маркировка (Bit Vector): Создать битовые векторы для V1 и V2. Если отпечаток не найден в другой версии, установить соответствующий бит в 1 (временный).
Расширение маркировки (Опционально): Если все содержимое между открывающим и закрывающим тегом является временным, сами теги также могут быть помечены как временные.

Процесс Б: Статистический анализ и идентификация временных путей (Уровень сайта)

Инициализация: Создать глобальные хэш-таблицы для сайта: subtrees (общий счетчик) и marked_subtrees (счетчик изменений). Ключом является строка пути.
Агрегация данных: Для множества страниц сайта выполнить Процесс А.
Обновление счетчиков: Просканировать результаты Процесса А.
- Счетчик subtrees для пути инкрементируется каждый раз, когда он встречается.
- Счетчик marked_subtrees инкрементируется, если контент (поддерево) по этому пути был помечен как временный.
Расчет частоты: Для каждого пути рассчитать Transient Frequency: $\text{Frequency} = \frac{\text{marked\_subtrees}(\text{path})}{\text{subtrees}(\text{path})}$ .
Классификация путей: Сравнить Transient Frequency с порогом T.
Идентификация Transient Paths: Если частота превышает T, пометить путь как Transient Path.
Иерархическая обработка: Если родительский путь помечен как временный, все дочерние пути также считаются временными. Также путь может быть признан временным, если все его уникальные дочерние пути уже идентифицированы как временные.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных и временных факторах, получаемых из HTML.

Временные факторы: Ключевыми данными являются разные версии одной и той же веб-страницы, полученные в разное время. Сравнение этих версий позволяет выявить изменения.
Контентные и Структурные факторы: Используется сырой HTML-код страниц. Система анализирует как текст (content tokens), так и HTML-теги (tag tokens) и их последовательность (paths).

Какие метрики используются и как они считаются

Fingerprint (Отпечаток токена): Вычисляется путем применения хэш-функции к текстовому представлению токена.
Subtree Count: Прямой подсчет количества появлений определенного HTML-пути в наборе данных (корпусе сайта).
Marked Subtree Count: Подсчет случаев, когда контент внутри HTML-пути был идентифицирован как изменившийся при сравнении версий.
Transient Frequency: Метрика для оценки стабильности пути. Отношение Marked Subtree Count к Subtree Count.
Threshold Frequency (T): Пороговое значение (например, 0.5 или 1.0), используемое для классификации пути как временного.
Порог максимальных изменений: Метрика для определения редизайна. Если соотношение измененных токенов к общему числу токенов на странице превышает этот порог, результаты сравнения игнорируются.

Выводы

Фокус на основном контенте через исключение временного: Основная цель — повысить качество поиска и таргетинга рекламы путем систематического игнорирования контента, который не характеризует страницу. Google стремится отделить основное содержание от часто меняющихся элементов.
Статистический анализ структуры сайта: Решение о том, является ли блок контента неважным (временным), принимается на основе статистики по всему сайту. Блок не считается временным, если он изменился один раз; он должен меняться часто в этом конкретном структурном местоположении (пути).
Влияние на индексацию и PageRank: В патенте прямо указано, что идентифицированный временный контент может быть исключен из индекса, а ссылки, содержащиеся в нем, могут игнорироваться при расчете PageRank. Это критически важный вывод для SEO.
Зависимость от частоты сканирования: Эффективность метода напрямую зависит от способности Google регулярно сканировать и сохранять различные версии страниц для последующего сравнения.
Отличие от стабильного шаблона (Boilerplate): Этот патент фокусируется именно на динамическом (часто меняющемся) нерелевантном контенте, в отличие от статического шаблонного контента (например, неизменного футера), который может определяться другими методами.

Практика

Best practices (это мы делаем)

Четкое структурное разделение контента: Используйте чистую и консистентную HTML-структуру, чтобы отделить основное содержимое (Main Content) от вспомогательных динамических элементов (виджеты, рекламные блоки). Это помогает системе корректно сегментировать страницу и фокусироваться на важном.
Стабильность основного контента: Убедитесь, что основное содержимое страницы остается относительно стабильным в своем структурном пути. Хотя обновления важны, постоянное полное изменение контента или его структуры может увеличить риск классификации блока как Transient Path.
Размещение ключевых ссылок в основном контенте: Важные внутренние ссылки должны располагаться в стабильных блоках основного контента или стабильной навигации. Ссылки в блоках, которые часто меняются (например, «Случайные статьи» или динамические рекомендации товаров), с высокой вероятностью будут идентифицированы как временные и проигнорированы при расчете PageRank.
Использование семантической верстки: Применение семантических тегов (<main>, <article>, <aside>) помогает четко определить роли различных блоков, снижая вероятность ошибки при классификации путей.

Worst practices (это делать не надо)

Размещение ключевых слов в динамических блоках: Включение важных для ранжирования ключевых слов в динамически обновляемые виджеты. Этот контент может быть проигнорирован при индексации, так как его путь будет признан временным.
Использование динамических блоков для основной перелинковки: Полагаться на блоки типа «Trending Now» или «Related Products» (если они часто меняются) как на основной механизм передачи внутреннего веса.
Смешивание рекламы и основного контента в одном контейнере: Если динамические рекламные блоки часто меняются внутри контейнера, который также содержит важный статический текст, изменения рекламы могут привести к тому, что весь контейнер будет признан временным.
Некорректная настройка A/B тестирования: Проведение A/B тестов, которые часто меняют основной контент или ключевые навигационные элементы при каждом посещении бота, может привести к классификации этих элементов как временных.

Стратегическое значение

Патент подчеркивает, что Google не анализирует страницу как единое целое, а сегментирует ее на основе структуры и стабильности контента во времени. Это подтверждает стратегическую важность технического SEO, направленного на создание чистой, семантически верной и стабильной архитектуры сайта. Приоритет отдается основному и стабильному контенту, в то время как динамический шум отфильтровывается. Это имеет серьезные последствия для стратегий внутренней перелинковки, подтверждая, что не все ссылки на странице обрабатываются одинаково.

Практические примеры

Сценарий: Игнорирование ссылок в блоке «Рекомендуемые товары» в E-commerce

Ситуация: Интернет-магазин использует блок рекомендаций в сайдбаре с путем <div id=»sidebar»><div id=»recommended-products»>.
Проблема: Содержимое этого блока (список товаров) полностью меняется при каждой загрузке страницы для персонализации или показа случайных товаров.
Анализ Google (Процесс А): Сравнивая версии одной страницы, Google видит, что токены внутри пути …/recommended-products постоянно меняются.
Анализ Google (Процесс Б): Система анализирует статистику по сайту. Путь встречается часто (Subtree count высок), и контент внутри него почти всегда меняется (Marked subtree count также высок).
Результат: Transient Frequency приближается к 100%. Путь классифицируется как Transient Path.
Последствия для SEO: Google игнорирует ссылки внутри этого блока при расчете PageRank на всем сайте, и названия товаров в этом блоке не влияют на релевантность текущей страницы.

Вопросы и ответы

Что такое «временный контент» (Transient Content) в контексте этого патента?

Это контент, который часто меняется и не является важным для характеристики основного содержания страницы. Типичные примеры включают текущую дату, время, погоду, динамические рекламные блоки, виджеты персонализации и блоки ссылок, которые постоянно обновляются (например, «Случайные товары»).

Как именно Google определяет, что контент является временным?

Основной метод — сравнение версий. Google сохраняет несколько версий одной и той же страницы, загруженных в разное время. Страницы разбиваются на токены (теги и текст), и для них вычисляются отпечатки (хэши). Если токены отличаются в разных версиях, они помечаются как временные.

Что такое «временный путь» (Transient Path) и чем он отличается от временного контента?

Transient Path — это структурное местоположение в HTML (например, <body><div><aside>). Система не просто фиксирует изменение контента, она определяет, где этот контент находится. Если в этом месте контент меняется статистически часто на разных страницах сайта, само местоположение (путь) помечается как временное.

Что происходит с контентом, который находится внутри Transient Path?

Согласно патенту, такой контент игнорируется системой для нескольких целей. Он не используется при индексировании страницы для ответа на поисковые запросы и исключается из анализа при подборе таргетированной рекламы для показа на этой странице.

Что происходит со ссылками, расположенными внутри Transient Path?

Это критически важно для SEO. В патенте указано, что индексатор может игнорировать ссылки, появляющиеся во временном контенте, во время расчета PageRank. Это означает, что ссылки из динамических блоков могут не передавать ссылочный вес.

Может ли основное содержимое страницы быть ошибочно помечено как временное?

Это маловероятно для качественного контента, но возможно. Если вы постоянно и полностью переписываете основное содержимое страницы (например, используя автоматический спиннинг или агрегацию), и частота этих изменений превысит статистический порог, система может классифицировать блок основного контента как временный.

Какой порог изменений (Threshold Frequency) использует Google?

Патент не указывает точное значение, но приводит примеры 50% и 100%. Если порог равен 50%, то путь будет считаться временным, если контент внутри него меняется более чем в половине случаев его появления на сайте. Реальное значение может быть настроено Google.

Чем этот механизм отличается от обнаружения шаблонов (Boilerplate Detection)?

Обнаружение шаблонов (Boilerplate) фокусируется на статическом контенте, который повторяется на многих страницах (например, футер, меню). Этот патент фокусируется на динамическом контенте, который часто меняется в одном и том же структурном блоке. Это разные, хотя и взаимодополняющие, методы сегментации страницы.

Как этот патент влияет на контент, загружаемый через JavaScript (SPA/SSR)?

Принципы патента актуальны. Современные системы Google могут применять подобный анализ к DOM-дереву после рендеринга JavaScript. Если JavaScript динамически вставляет контент в определенный блок, и этот контент часто меняется между визитами Googlebot, этот блок может быть идентифицирован как временный.

Что делать SEO-специалисту, чтобы учесть этот патент в работе?

Необходимо обеспечить четкое структурное разделение основного контента и динамических блоков. Самое важное — размещать ключевые навигационные и внутренние ссылки в стабильных областях страницы (основной контент, основное меню), а не полагаться на динамические виджеты для перелинковки.