Как Google определяет важность обновлений на странице, используя визуальный рендеринг и структурный анализ (DOM Diff)

Google использует механизм для определения значимости изменений контента на веб-странице. Система анализирует визуальную структуру (рендеринг) старой версии страницы и присваивает «оценки важности» разным блокам. Затем эти оценки переносятся на новую версию с помощью структурного анализа (DOM Diff). Это позволяет системе понять, какие изменения важны (основной контент), а какие нет (реклама, навигация), не выполняя рендеринг страницы заново.

Описание

Какую задачу решает

Патент решает задачу автоматического определения значимых обновлений контента на веб-страницах при одновременной фильтрации нерелевантного шума (реклама, временные метки, счетчики, навигация). Кроме того, изобретение направлено на снижение вычислительной нагрузки за счет устранения необходимости рендеринга каждой новой версии страницы для оценки важности изменений.

Что запатентовано

Запатентована система для обнаружения важных изменений между двумя версиями документа путем использования информации о визуальном макете (rendered layout information), полученной из более старой версии. Система использует алгоритм DOM Diff для сопоставления структуры (DOM-дерева) старой версии и связанных с ней оценок визуальной важности (Importance Scores) с новой версией. Это позволяет оценить значимость обновлений в новой версии без ее фактического рендеринга.

Как это работает

Система работает в двух режимах:

Периодический анализ (Рендеринг): Страница рендерится для анализа визуального макета. Документ сегментируется, и для каждого блока рассчитывается Importance Score на основе его положения, размера, формы и, возможно, данных о запросах/кликах. Эти данные сохраняются.
Обнаружение обновлений (Сравнение): При появлении новой версии строится ее DOM-дерево (без рендеринга). Алгоритм DOM Diff сопоставляет узлы между старой и новой версиями. Importance Scores из старой версии переносятся на сопоставленные узлы новой версии. Изменения в блоках с низким Importance Score (шум) игнорируются, а для важных изменений генерируются сниппеты (Feeds).

Актуальность для SEO

Высокая. Эффективное обнаружение изменений контента и понимание визуальной структуры страницы остаются критически важными задачами для обеспечения свежести индекса и работы поисковых систем. Описанные концепции — использование визуального анализа для оценки важности контента и алгоритм DOM Diff для экономии ресурсов рендеринга — являются фундаментальными и актуальными для современного поиска.

Важность для SEO

Влияние на SEO значительно (7/10), но косвенно. Патент не описывает алгоритмы ранжирования, но подробно раскрывает, как Google анализирует визуальный макет и структуру DOM для определения важности разделов контента и оценки свежести. Это подтверждает, что визуальное представление и размещение контента (например, в основном контенте против сайдбара) напрямую влияют на то, как Google воспринимает значимость этого контента и его обновлений.

Детальный разбор

Термины и определения

Content Nodes (Узлы контента): Узлы в DOM-дереве, представляющие видимый контент (текстовые узлы и узлы изображений). Исходящие гиперссылки также могут рассматриваться как специальный тип текстового узла.
DOM (Document Object Model): Иерархическое представление документа (например, веб-страницы) в виде дерева.
DOM Diff Algorithm (Алгоритм DOM Diff): Алгоритм для определения оптимального сопоставления (mapping) между узлами контента двух DOM-деревьев путем минимизации общей стоимости сопоставления.
Cost Function (Функция стоимости): Метрика, используемая в DOM Diff. Рассчитывается как комбинация Structural Cost и Content Difference.
Structural Cost (Структурная стоимость): Часть функции стоимости. Отражает степень изменения близости (proximity) между узлами контента в структуре DOM после сопоставления. Основана на расстоянии кратчайшего пути между узлами в дереве.
Content Difference (Различие в контенте): Часть функции стоимости. Представляет собой сумму изменений контента (например, редакционное расстояние) между сопоставленными узлами.
Rendered Layout Information (Информация о визуальном макете): Данные, полученные в результате рендеринга документа: координаты, размеры, шрифты, макет (колонки, сайдбары).
Importance Score / Weight Value (Оценка важности / Вес): Метрика, присваиваемая блоку документа, указывающая на его значимость. Рассчитывается на основе Rendered Layout Information и, возможно, Query Information.
Noisy Page Sections (Зашумленные разделы страницы): Блоки, которые часто обновляются, но не содержат основного контента (хедеры, футеры, навигация, реклама).
Query Information (Информация о запросах): Данные о взаимодействии пользователей: популярные поисковые запросы, ведущие на страницу, и агрегированные коэффициенты кликов (click ratios) по ссылкам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения важности обновлений.

Идентификация пар узлов контента DOM между первым (T) и вторым (T’) представлением документа.
Сопоставление выполняется путем минимизации стоимости (Cost), основанной на структурных различиях и различиях в контенте. Стоимость опирается на расстояние кратчайшего пути между узлами в DOM.
Ассоциирование информации о визуальном макете (Rendered Layout Information) от первого узла (T) со вторым узлом (T’).
Принятие решения о генерации сниппета на основе этой информации о макете.

Ядро изобретения — использование структурного анализа (DOM Diff) для переноса данных о визуальной значимости (полученных при рендеринге старой версии) на новую версию документа, чтобы оценить важность изменений без повторного рендеринга.

Claim 3 (Зависимый от 1): Детализирует расчет стоимости.

Расчет инкрементальной стоимости (incremental cost) основан на разнице в расстоянии между связанными узлами в T по сравнению с T’ (измерение Structural Cost), в сочетании с разницей в контенте.

Алгоритм стремится сохранить относительную близость контента. Если два блока текста были рядом в старой версии, система попытается сопоставить их с блоками, которые также находятся рядом в новой версии.

Claim 8 (Зависимый от 1): Упоминает метод для сопоставления групп узлов (разделов).

Метод включает определение соответствия между группами узлов в T и T’ с использованием Венгерского алгоритма (Hungarian algorithm).

Claim 9 (Зависимый от 1): Определяет, как рассчитывается важность.

Информация о макете является оценкой важности (Importance Score). Эта оценка выводится на основе информации о визуальном макете, полученной при рендеринге первого документа, и/или информации о запросах (Query Information).

Где и как применяется

Изобретение применяется в инфраструктуре сбора и обработки данных, преимущественно на этапе индексирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает новые версии документов (T’) для анализа.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента.

Рендеринг (Периодический): Система периодически выполняет рендеринг ресурса (T) для получения Rendered Layout Information и расчета Importance Scores для различных сегментов страницы.
Структурный анализ (Частый): При получении новой версии (T’) система сравнивает ее структуру с предыдущей версией (T) с помощью алгоритма DOM Diff.
Оценка значимости обновлений: Система использует Importance Scores, полученные из T, и переносит их на T’, чтобы определить, являются ли обнаруженные изменения значимыми или шумовыми, без рендеринга T’.
Оценка свежести: Обнаружение важных обновлений влияет на сигналы свежести (Freshness).

Входные данные:

DOM предыдущей версии (T).
Сохраненная Rendered Layout Information и Importance Scores для T.
DOM новой версии (T’).
(Опционально) Query Information (логи запросов и кликов).

Выходные данные:

Идентификация важных обновлений контента.
Сгенерированные сниппеты (Feeds) для этих обновлений.

На что влияет

Конкретные типы контента: Наибольшее влияние на часто обновляемый контент (новости, блоги, главные страницы) и страницы со сложной структурой.
Оценка свежести (Freshness): Механизм напрямую влияет на то, как система воспринимает обновления. Он позволяет игнорировать изменения в неважных областях (реклама, шаблоны) и фокусироваться на обновлении основного контента.
Определение основного контента: Помогает системе точнее определять, где находится основной контент (Main Content), основываясь на визуальном представлении и поведении пользователей.

Когда применяется

Триггер активации (Сравнение): Каждый раз, когда краулер получает новую версию ранее проиндексированного документа.
Триггер активации (Рендеринг и Переоценка): Выполняется периодически (например, еженедельно) ИЛИ когда алгоритм DOM Diff не может надежно сопоставить новую версию со старой из-за значительных структурных изменений (например, после редизайна).
Пороговые значения: Используется порог для Importance Score. Изменения учитываются только в том случае, если они происходят в блоках, чей вес превышает этот порог.

Пошаговый алгоритм

Алгоритм состоит из трех основных процессов: периодического рендеринга и оценки, обнаружения и анализа обновлений, и детализации алгоритма DOM Diff.

Процесс А: Периодический Рендеринг и Оценка Важности

Получение ресурса и Рендеринг: Система получает документ (T) и рендерит его для анализа визуального макета.
Генерация DOM (T).
Сегментация: Разделение ресурса на семантические блоки (основной контент, сайдбар, футер) с использованием эвристик или машинного обучения. Идентификация Noisy Page Sections (реклама, навигация).
Расчет оценок (Scoring): Вычисление компонентных оценок для каждого блока:
- Визуальные оценки (Position Score, Area Score, Shape Score).
- Content Score (количество слов, размер шрифта).
- Query Related Scores (популярные запросы, клики по ссылкам в блоке).
Вычисление итоговой оценки: Расчет финального Importance Score для каждого блока (например, как линейной комбинации компонентных оценок).
Сохранение: Сохранение DOM-дерева T и ассоциированных с ним Importance Scores и Rendered Layout Information.

Процесс Б: Обнаружение и Анализ Обновлений

Получение новой версии и Генерация DOM (T’): (Без рендеринга).
Препроцессинг: Консолидация текстовых узлов (например, <b>this</b> is в this is).
Выполнение DOM Diff: Сопоставление узлов контента между T и T’ для минимизации общей стоимости (см. Процесс В).
Сегментация T’ и сопоставление блоков: Группировка узлов T’ в блоки и сопоставление их с блоками T (например, с помощью Венгерского алгоритма).
Перенос оценок: Ассоциация сохраненных Importance Scores из T с соответствующими узлами и блоками в T’.
Фильтрация изменений: Исключение изменений, произошедших в Noisy Page Sections или в блоках с Importance Score ниже порогового значения.
Генерация и ранжирование сниппетов: Создание сниппетов для важных изменений, их ранжирование и добавление контекстной информации (например, заголовка блока).

Процесс В: Детализация DOM Diff

Простое сопоставление: Определение сопоставлений с высокой степенью уверенности (например, уникальные длинные строки, совпадающие строки с похожими XPATHS).
Сопоставление на основе близости: Определение сопоставлений для неуникальных строк, которые находятся близко к уже сопоставленным узлам (соседям).
Жадное сопоставление: Сопоставление оставшихся узлов путем минимизации инкрементальной стоимости (incremental cost), основанной на Structural Cost (изменение расстояния до соседей) и Content Difference.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных, получаемых при рендеринге, анализе структуры и сборе внешних сигналов.

Контентные факторы: Текстовые узлы, узлы изображений. Исходящие гиперссылки обрабатываются как текстовые узлы.
Структурные факторы (DOM/HTML/CSS): Структура DOM-дерева, HTML-теги, идентификаторы классов стилей CSS (используются для сегментации и определения заголовков).
Визуальные факторы (Rendered Layout Information):
- Общие характеристики макета: ширина/высота страницы, данные о колонках, размер обычного текста и текста ссылок.
- Атрибуты блоков: геометрические параметры (x, y координаты, ширина, высота), категория макета (сайдбар, хедер, футер, тело), визуальная заметность (prominence).
Поведенческие и Внешние факторы (Query Information):
- Наиболее популярные поисковые запросы, используемые для нахождения ресурса.
- Агрегированные коэффициенты кликов (click ratios) для ссылок на странице или внутри блока.

Какие метрики используются и как они считаются

Система вычисляет метрики для оценки важности блоков (Scoring) и для сравнения версий (DOM Diff).

Метрики Важности (Scoring):

Position Score: Основана на x-y координатах блока. Ближе к центру и верху — выше оценка.
Area Score: Основана на относительном размере блока. Больше площадь — выше оценка.
Shape Score: Основана на соотношении сторон блока. Оптимальные соотношения предпочтительнее узких полос.
Vertical/Horizontal Importance Score: Отношение размера блока к размеру самой большой ячейки в той же колонке/строке.
Content Score: Основана на текстовых характеристиках (количество слов, размер шрифта, средняя длина предложения).
Query Related Scores: Основаны на наличии популярных поисковых терминов в блоке и агрегированном click ratio ссылок в блоке.
Importance Score (Weight Value): Итоговая оценка. Рассчитывается как комбинация вышеуказанных метрик (например, линейная комбинация логарифмических значений).

Метрики DOM Diff:

Distance (Расстояние в DOM): Кратчайший путь между двумя узлами контента по ребрам дерева.
Structural Cost: Изменение близости (Distance) между парами узлов до и после сопоставления.
Content Difference: Редакционное расстояние (edit distance) между содержимым сопоставленных узлов.
Total Cost: Комбинация Structural Cost и Content Difference. Алгоритм стремится минимизировать эту стоимость.

Выводы

Визуальный анализ определяет важность контента: Google активно использует данные рендеринга для определения визуальной значимости (Importance Score) различных сегментов страницы. Визуальная заметность (размер, положение, макет) напрямую влияет на вес контента.
Целенаправленная фильтрация шума: Система идентифицирует и игнорирует Noisy Page Sections (реклама, навигация, футеры). Это достигается за счет присвоения низких Importance Scores этим областям на основе визуального анализа и поведенческих сигналов.
Эффективность за счет повторного использования рендеринга: Ключевая особенность системы — способность оценивать важность изменений в новой версии без ее обязательного рендеринга. Это достигается путем переноса Importance Score из ранее отрендеренной версии через сложное сопоставление структур (DOM Diff).
Сложная оценка свежести (Freshness): Не все обновления равны. Сигналы свежести активируются только при обновлении разделов с высоким Importance Score. Изменения в шаблонных элементах игнорируются.
Важность структурной стабильности (DOM): Алгоритм DOM Diff работает лучше всего, когда структура документа меняется постепенно. Резкие и радикальные изменения DOM могут нарушить процесс сопоставления и потребовать повторного рендеринга и анализа.
Комплексная оценка важности: Importance Score учитывает не только визуальный макет, но и поведенческие данные (клики) и данные о запросах (Query Information), что дает системе более глубокое понимание ценности контента для пользователей.

Практика

Best practices (это мы делаем)

Оптимизация визуального макета для выделения основного контента: Убедитесь, что основной контент (Main Content) занимает центральное и визуально доминирующее положение на странице. Это увеличит его Area Score и Position Score, гарантируя высокий Importance Score.
Размещение ключевых обновлений в основном контенте: Сфокусируйте обновления контента (новости, изменения цен, правки в статьях) в областях с высоким Importance Score. Это гарантирует, что система распознает обновление как значимое для сигналов свежести.
Поддержание консистентной и чистой структуры DOM: Сохраняйте стабильность HTML-структуры между обновлениями. Это облегчает работу алгоритма DOM Diff, позволяя системе корректно переносить Importance Scores и ускоряя индексацию изменений.
Использование четкой семантической разметки: Применяйте семантические теги (article, aside, nav, footer) для четкого отделения контента от вспомогательных блоков. Это помогает модулю сегментации корректно идентифицировать основной контент и шум.

Worst practices (это делать не надо)

Частые радикальные редизайны, меняющие DOM: Постоянное и радикальное изменение структуры DOM усложняет работу DOM Diff. Это может привести к задержкам в обнаружении обновлений или вынудить систему чаще проводить ресурсоемкий рендеринг страницы.
Размещение важного контента в визуально незначимых областях: Размещение ключевого контента в узких сайдбарах, футерах или блоках, визуально подавленных рекламой. Система присвоит этим областям низкий Importance Score и может проигнорировать обновления.
Тактики «ложной свежести»: Частое изменение временных меток, счетчиков просмотров или ротация рекламы в надежде сигнализировать о свежести. Этот патент специально разработан для игнорирования таких обновлений как «шума».
Чрезмерная плотность ссылок в основном контенте: Если основной контент перенасыщен ссылками, система может ошибочно классифицировать его как навигационный блок (портальную страницу) и понизить его Importance Score.

Стратегическое значение

Патент подтверждает критическую важность визуального рендеринга в конвейере анализа Google и тесную связь между UX/UI и SEO. Система интерпретирует визуальную значимость контента, а не только анализирует исходный код. Стратегически это означает, что SEO-специалисты должны работать вместе с дизайнерами и разработчиками для создания чистых, структурированных макетов, где основной контент находится в визуальном фокусе. Это также подчеркивает важность оптимизации скорости и стабильности рендеринга.

Практические примеры

Сценарий 1: Обновление цены товара в E-commerce

Ситуация: Цена товара обновлена на странице продукта. Блок с ценой находится в основном контенте, которому ранее был присвоен высокий Importance Score. Структура DOM осталась прежней.
Действие системы: Краулер получает новую версию (T’). DOM Diff легко находит изменение (новую цену) и успешно переносит высокий Importance Score из старой версии (T).
Результат: Обновление признается важным и быстро индексируется.

Сценарий 2: Ротация баннера в сайдбаре

Ситуация: На новостном сайте в правом сайдбаре изменился рекламный баннер. Сайдбару ранее был присвоен низкий Importance Score.
Действие системы: DOM Diff обнаруживает изменение контента (новый баннер). Система переносит низкий Importance Score.
Результат: Изменение фильтруется как незначительное (ниже порога важности) или как шум. Сигнал свежести для основного контента страницы не генерируется.

Вопросы и ответы

Что такое алгоритм DOM Diff, описанный в патенте?

Это алгоритм, который Google использует для сравнения двух версий веб-страницы на уровне их структуры (DOM-дерева). Он находит оптимальное сопоставление между видимым контентом (текст, изображения) старой и новой версии. Цель — минимизировать стоимость, которая учитывает как изменения в самом контенте (редакционное расстояние), так и изменения в структуре (насколько далеко контент «переехал» в DOM-дереве). Это позволяет отслеживать контент, даже если HTML-код сильно изменился.

Зачем Google переносит информацию о рендеринге со старой версии на новую?

Это делается для повышения эффективности и экономии ресурсов. Рендеринг — дорогая операция. Вместо того чтобы рендерить каждую новую версию страницы для определения важности ее блоков, Google выполняет рендеринг периодически. Затем, используя DOM Diff, он переносит оценки важности (Importance Scores) со старой (отрендеренной) версии на новую. Это позволяет быстро оценить значимость изменений без повторного рендеринга.

На основе чего рассчитывается «Оценка важности» (Importance Score) блока?

Патент описывает комбинацию нескольких метрик. Основные — это визуальные характеристики: размер блока (Area Score), его положение на странице (Position Score, центр важнее краев), форма (Shape Score). Также учитываются контентные метрики (размер шрифта, количество слов) и внешние сигналы (Query Information) — популярные запросы, ведущие на страницу, и клики по ссылкам в этом блоке.

Как этот патент влияет на стратегию обновления контента и сигналы свежести (Freshness)?

Влияние прямое. Местоположение обновления критически важно. Чтобы обновление считалось значимым и активировало сигналы свежести, оно должно происходить в блоках с высоким Importance Score (обычно это основной контент). Обновления в футере, сайдбаре или рекламе (низкий Importance Score) будут отфильтрованы и не повлияют на оценку свежести документа.

Что такое «зашумленные разделы» (Noisy Page Sections) и как Google их обрабатывает?

Это блоки, которые часто меняются, но не несут основного контента: реклама, навигационные меню, футеры, временные метки. Система идентифицирует их на основе эвристик (например, анализ размеров блока, соотношения текста ссылок) или машинного обучения. Этим блокам присваивается низкий Importance Score, и изменения в них фильтруются как незначимые.

Влияет ли частота редизайна сайта или изменения структуры DOM на работу этого алгоритма?

Да, влияет негативно. Алгоритм DOM Diff полагается на относительную стабильность структуры DOM. Радикальные изменения структуры (высокий Structure Cost) могут нарушить сопоставление. В таком случае система не сможет перенести старые Importance Scores и будет вынуждена запланировать полный повторный рендеринг и переоценку страницы, что может вызвать задержки в индексации.

Может ли система ошибочно принять основной контент за навигацию?

Да, это возможно. Патент упоминает, что система анализирует соотношение обычного текста и текста ссылок (anchor ratio). Если блок основного контента перенасыщен ссылками, он может быть ошибочно классифицирован как навигационный блок (портальная страница), что приведет к снижению его Importance Score.

Использует ли этот механизм поведенческие факторы?

Да, патент явно упоминает возможность использования Query Information для расчета Importance Score. К ним относятся популярные поисковые запросы, по которым находят страницу, и агрегированные коэффициенты кликов (click ratios) по ссылкам внутри раздела. Блоки, привлекающие больше внимания пользователей, могут получить более высокий вес.

Как система определяет, когда нужно выполнить повторный рендеринг страницы?

Повторный рендеринг выполняется в двух случаях. Во-первых, периодически по расписанию (например, раз в неделю или месяц), чтобы обновить данные о визуальном макете. Во-вторых, внепланово, если алгоритм DOM Diff не может надежно сопоставить новую версию со старой из-за слишком значительных структурных изменений.

Касается ли этот патент только генерации RSS-лент?

Хотя генерация лент обновлений (feeds) упоминается как основное применение, описанные механизмы имеют более широкое значение. Определение того, что изменилось на странице и насколько это важно, является фундаментальной частью процесса индексирования Google. Эти данные используются для обновления индекса, оценки свежести контента и работы систем типа Google News и Discover.