Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

Описание

Какую задачу решает

Патент решает задачу автоматического определения семантической важности различных частей (сегментов) веб-документа. Вместо использования жестко заданных правил (например, «текст в заголовке важнее основного текста»), система предлагает метод определения весов на основе анализа данных о запросах и поведении пользователей. Это позволяет поисковой системе более точно оценивать релевантность контента, расположенного в ключевых областях страницы, и снижать вес шаблонного контента (boilerplate), навигации или рекламы.

Что запатентовано

Запатентована система для автоматического присвоения весов различным частям документа на основе анализа коллекции структурированных документов. Система создает обобщенную модель структуры документа (Document Object Model, DOM) для группы похожих страниц. Затем она анализирует логи запросов (Query Logs) и кликов (Click Logs), чтобы определить, какие узлы DOM чаще всего содержат термины из запросов, которые привели к взаимодействию пользователя с документом (Impression). Узлам с высокой корреляцией присваиваются более высокие веса, которые затем используются при ранжировании.

Как это работает

Ключевой механизм работает следующим образом:

Генерация DOM: Система анализирует коллекцию похожих структурированных документов (например, все страницы товаров на сайте) и создает общий DOM, описывающий их структуру.
Анализ логов: Извлекаются данные о запросах, по которым эти документы были показаны и выбраны пользователями (Impressions).
Идентификация совпадений: Система определяет, в каких частях документов (соответствующих узлам DOM) содержались термины из этих запросов.
Расчет весов узлов (Node Weights): Узлам DOM присваиваются веса. Вес увеличивается, если узел часто содержит поисковые термины из запросов, которые привели к клику на документ.
Применение весов: При индексации и ранжировании конкретного документа контент, найденный в частях с более высоким весом, получает больший вклад в общую оценку релевантности документа (Scoring Function).

Актуальность для SEO

Высокая. Понимание структуры документа и выделение основного контента (Main Content) на фоне шаблонных элементов является критически важной задачей для современных поисковых систем. Методы, описанные в патенте, лежат в основе систем, позволяющих Google игнорировать шум (рекламу, навигацию) и фокусироваться на семантическом центре страницы, что напрямую влияет на оценку качества и релевантности.

Важность для SEO

Патент имеет высокое значение для технического и контентного SEO. Он демонстрирует механизм, с помощью которого Google может автоматически снижать значимость контента в зависимости от его расположения на странице. Это подчеркивает важность чистой семантической верстки и размещения ключевой информации в тех структурных элементах, которые с наибольшей вероятностью будут идентифицированы как семантически важные для данного типа документа.

Детальный разбор

Термины и определения

Click Log (Лог кликов): Часть User Activity Log. Хранит данные о том, какой контент был выбран (кликнут) пользователем в ответ на запросы.
Document Object Model (DOM) (Объектная модель документа): Иерархическое представление структуры электронного документа (например, HTML или XML). В контексте патента, это обобщенная модель, созданная для коллекции похожих документов.
Impression (Показ/Взаимодействие): В контексте патента, это событие, представляющее собой предшествующий выбор пользователем (prior user selection) идентифицированного документа (например, клик по ссылке в результатах поиска).
Node Weight (Вес узла): Вес, присвоенный узлу в обобщенном DOM. Отражает семантическую важность этого структурного элемента, основанную на анализе запросов и кликов в коллекции документов.
Portion Weight (Вес части документа): Вес, присвоенный конкретной части (Portion) конкретного документа. Этот вес наследуется (derived from) от Node Weight соответствующего узла в DOM.
Query Log (Лог запросов): Часть User Activity Log. Хранит историю запросов, отправленных пользователями.
Scoring Function (Функция оценки/ранжирования): Функция, используемая для расчета итоговой оценки релевантности документа. Она учитывает Portion Weights контента, найденного в документе.
Structured Documents (Структурированные документы): Документы, имеющие определенную иерархию элементов и структурные правила (например, HTML, XML). Патент фокусируется на коллекциях документов с похожей структурой (шаблоном).
User Activity Log (Лог активности пользователя): Хранилище данных о действиях пользователей, включая Query Logs и Click Logs.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод присвоения весов частям документа.

Система генерирует DOM, который представляет общий формат документов в коллекции.
Получаются данные, связанные с запросами, для которых эти документы были релевантны.
Выбираются части документов, содержащие поисковые термины из этих запросов.
Узлам DOM присваиваются веса (Node Weights) на основе подсчета (count) поисковых терминов, содержащихся в соответствующих частях документов.
Определяются веса (Portion Weights) для частей конкретного (первого) документа. Эти веса наследуются от весов соответствующих узлов DOM.
Эти веса предоставляются процессу ранжирования для оценки документа.

Ядро изобретения по Claim 1 — это автоматическое определение важности структурных элементов на основе того, насколько часто они содержат релевантные поисковые термины.

Claim 2 (Зависимый от 1): Уточняет, что данные о запросах включают информацию об Impressions (предшествующих выборах пользователя).

Claim 3 (Зависимый от 2): Детализирует процесс присвоения весов.

Вес, связанный с узлом DOM, увеличивается, если этот узел представляет части документа, которые включают поисковые термины.

Claim 4 (Зависимый от 3): Вводит ключевое условие для увеличения веса.

Вес узла дополнительно увеличивается, если этот узел представляет части документа, связанные с Impression (т.е. пользователь кликнул на документ, когда искал эти термины).

Claims 2-4 критически важны, так как они связывают вес структурного элемента не просто с наличием ключевых слов, а с успешным взаимодействием пользователя. Это позволяет системе учиться на поведении пользователей для определения семантической важности.

Claim 5 (Зависимый от 4): Указывает на источник данных.

Система анализирует User Activity Log для определения количества Impressions, связанных с каждой частью документов.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования, используя данные о поведении пользователей.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются структурированные документы и логи активности пользователей (запросы и клики), которые служат входными данными для системы.

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит здесь (вероятно, в виде офлайн или пакетного процесса):

Анализ структуры и генерация DOM: Система идентифицирует коллекции документов с похожей структурой и генерирует обобщенные DOM.
Анализ логов и расчет весов: Система обрабатывает User Activity Logs, сопоставляет запросы и клики (Impressions) с узлами DOM и вычисляет Node Weights.
Присвоение весов и индексация: При обработке конкретного документа ему присваиваются Portion Weights, наследуемые от DOM. Эти веса сохраняются в индексе и используются для взвешивания контента внутри документа.

RANKING – Ранжирование
На этом этапе система использует предварительно рассчитанные веса. Scoring Function при расчете релевантности документа запросу учитывает не только наличие терминов, но и Portion Weights тех частей документа, где эти термины были найдены.

Входные данные:

Коллекция структурированных документов (например, HTML-страницы с одного сайта или использующие один шаблон).
User Activity Log (Query Logs и Click Logs), относящийся к этим документам.

Выходные данные:

Обобщенный DOM с рассчитанными Node Weights.
Portion Weights для индексируемых документов.
Вклад в Scoring Function для ранжирования.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на сайты с большим количеством однотипных страниц, сгенерированных по шаблону: карточки товаров (E-commerce), статьи в блогах, профили пользователей, страницы объектов недвижимости, новостные статьи.
Структурные факторы: Влияет на значимость контента в зависимости от его расположения в структуре документа (DOM) – заголовки, основной текст, боковые панели (sidebars), футеры, навигационные меню, рекламные блоки.

Когда применяется

Условия применения: Алгоритм применяется, когда поисковая система может идентифицировать коллекцию документов, имеющих общую или очень похожую структуру (т.е. когда можно построить обобщенный DOM).
Частота применения: Генерация DOM и расчет Node Weights, вероятно, выполняются периодически в пакетном режиме (офлайн), так как требуют анализа больших объемов логов. Применение рассчитанных весов (Portion Weights) происходит постоянно во время индексации и ранжирования.

Пошаговый алгоритм

Этап А: Генерация модели и расчет весов (Офлайн/Пакетная обработка)

Генерация обобщенного DOM: Система анализирует коллекцию структурированных документов и создает DOM, определяющий структуру узлов, соответствующую формату этих документов.
Сбор данных о запросах и взаимодействиях: Из User Activity Log извлекаются данные о запросах, по которым документы из коллекции были релевантны, а также данные об Impressions (кликах).
Идентификация совпадений: Для каждого запроса определяются части документов (и соответствующие им узлы DOM), которые содержат поисковые термины.
Расчет весов узлов (Node Weights): Система присваивает веса узлам DOM. Расчет основан на:
- Количестве поисковых терминов, найденных в частях документа, соответствующих узлу.
- (Критически важно) Увеличении веса, если наличие этих терминов в узле коррелирует с Impression (кликом пользователя).

Этап Б: Применение весов (Индексация/Ранжирование)

Определение весов частей документа (Portion Weights): Для конкретного документа из коллекции определяются веса его частей. Каждый Portion Weight наследуется от Node Weight соответствующего узла в обобщенном DOM.
Взвешивание контента: Контент, найденный в частях документа, взвешивается в соответствии с присвоенными Portion Weights.
Расчет функции ранжирования: Эти взвешенные значения используются при расчете итоговой Scoring Function для документа. Контент в более важных (с большим весом) частях вносит больший вклад в итоговый рейтинг.

Какие данные и как использует

Данные на входе

Структурные факторы: Структура документов (HTML/XML), позволяющая построить DOM. Идентифицируются узлы, такие как заголовки (Title, Headings), параграфы (Paragraph), таблицы (Table), изображения (Image), навигация (Navigation Menu), реклама (Advertisements), футер (Footer).
Поведенческие факторы: User Activity Log, включающий Query Logs (поисковые запросы) и Click Logs (данные об Impressions или выборе пользователем документа).
Контентные факторы: Текстовое содержимое узлов DOM, которое сопоставляется с терминами из запросов.

Какие метрики используются и как они считаются

Count of Search Terms (Подсчет поисковых терминов): Количество терминов из релевантных запросов, которые появляются в определенном узле DOM в коллекции документов.
Count of Impressions (Подсчет взаимодействий): Количество кликов (выборов пользователя), связанных с запросами, чьи термины появились в определенном узле DOM.
Node Weight (Вес узла): Метрика семантической важности узла DOM. Рассчитывается на основе Count of Search Terms и значительно увеличивается при наличии корреляции с Count of Impressions.
Portion Weight (Вес части документа): Метрика, наследуемая от Node Weight и применяемая к конкретному документу.

Выводы

Автоматическое определение важности структуры: Google использует анализ данных о запросах и кликах для автоматического определения того, какие части страницы являются семантически важными для данного шаблона. Это более продвинутый подход, чем жестко заданные правила.
Важность зависит от контекста шаблона: Важность одного и того же элемента (например, H1 или Sidebar) может различаться для разных сайтов или разных типов страниц (например, блог vs. e-commerce), в зависимости от того, как пользователи взаимодействуют с ними и какой контент там размещен.
Автоматическое снижение веса шаблонного контента: Элементы, которые редко содержат термины из успешных запросов (например, навигация, футеры, рекламные блоки, boilerplate текст), автоматически получат низкий Node Weight. Контент в этих блоках будет иметь меньшее влияние на ранжирование.
Поведенческие данные определяют семантику: Ключевым аспектом является использование Impressions (кликов). Недостаточно просто разместить ключевое слово в элементе; важно, чтобы пользователи, ищущие это слово, кликали на документ именно тогда, когда слово находится в этом элементе.
Фокус на коллекциях структурированных документов: Механизм требует наличия группы похожих страниц для генерации обобщенного DOM и сбора достаточной статистики.

Практика

Best practices (это мы делаем)

Использование семантической верстки: Применяйте чистый, структурированный HTML5 (<header>, <footer>, <nav>, <article>, <aside>, <main>). Это помогает поисковой системе корректно построить DOM и отделить основное содержание от вспомогательных блоков.
Размещение ключевого контента в центральных областях: Убедитесь, что основная тема страницы и ключевые слова расположены в основном контенте (Main Content Area), который с наибольшей вероятностью получит высокий Node Weight.
Поддержание консистентной структуры сайта: Используйте согласованные шаблоны для однотипных страниц (например, всех карточек товаров). Это облегчает генерацию обобщенного DOM и позволяет системе эффективно накапливать статистику для расчета весов.
Оптимизация сниппетов для повышения CTR: Поскольку клики (Impressions) используются для определения весов, важно работать над привлекательностью сниппетов. Высокий CTR по релевантным запросам может косвенно подтвердить системе, что контент в ключевых узлах (например, Title, Description) является важным.

Worst practices (это делать не надо)

Keyword Stuffing в сквозных блоках: Размещение оптимизированных текстов или списков ключевых слов в футере, боковых панелях или других шаблонных элементах. Описанный механизм автоматически присвоит этим блокам низкий вес, делая такую тактику неэффективной.
Размещение критически важной информации в нетипичных местах: Например, размещение основного описания товара в блоке, который структурно похож на рекламу или блок «Похожие товары». Система может присвоить этому блоку низкий вес.
Использование запутанной или неконсистентной верстки: Сложные, вложенные структуры или частая смена шаблонов могут помешать системе сгенерировать корректный обобщенный DOM и точно рассчитать веса узлов.

Стратегическое значение

Патент подтверждает стратегию Google по глубокому пониманию структуры и контекста контента на странице. Он показывает, как поведенческие сигналы используются не только для прямого ранжирования, но и для обучения системы пониманию семантической структуры веб-документов. Для SEO это означает, что информационная архитектура, чистота кода и пользовательский опыт (UX) являются взаимосвязанными факторами, определяющими, как именно контент будет взвешен при ранжировании.

Практические примеры

Сценарий: Оптимизация карточки товара E-commerce

Анализ структуры: Сайт использует единый шаблон для всех товаров. Google генерирует обобщенный DOM с узлами: «Название товара», «Цена», «Описание», «Отзывы», «Похожие товары» (Sidebar), «Футер».
Сбор данных: Пользователи часто ищут конкретные характеристики (например, «размер XL синяя футболка Nike») и кликают на карточку товара.
Расчет весов:
- Термины запроса чаще всего находятся в «Название товара» и «Описание». Эти узлы получают высокий Node Weight.
- Термины редко находятся в «Футер» или «Похожие товары». Эти узлы получают низкий Node Weight.
Применение в SEO:
- Правильно: Включить ключевые характеристики в «Описание». Этот контент получит высокий вес при ранжировании.
- Неправильно: Добавить блок текста о доставке, оптимизированный под эти характеристики, в «Футер». Этот контент получит низкий вес, даже если он содержит ключевые слова.

Вопросы и ответы

Применяется ли этот механизм к каждой отдельной странице в интернете?

Нет. Механизм предназначен для работы с коллекциями структурированных документов, которые имеют общий формат или шаблон. Чтобы система могла рассчитать веса, ей необходимо сгенерировать обобщенный DOM и собрать достаточный объем статистики по запросам и кликам для этой группы страниц. Уникальные страницы с нетипичной структурой, скорее всего, обрабатываются другими алгоритмами.

Как система определяет, какие документы относятся к одной коллекции?

Патент упоминает, что система использует сходство между структурированными документами для генерации общего DOM. На практике это может включать анализ URL-структуры, а также методы распознавания шаблонов (pattern recognition techniques) для сравнения структуры HTML-кода различных страниц. Документы с высоким уровнем структурного сходства объединяются в коллекцию.

Что такое Impression в этом патенте и как он отличается от обычного понимания «показа»?

В патенте термин Impression используется специфически и определяется как «предшествующий выбор пользователем» (prior user selection) документа. Это больше соответствует понятию «клик» (Click) или успешное взаимодействие, а не просто показу документа в результатах поиска. Именно клики используются для увеличения веса узлов DOM.

Как этот патент влияет на значимость контента в футере или сайдбаре?

Он предоставляет механизм для автоматического снижения веса этого контента. Если система определяет, что футер или сайдбар редко содержат термины из запросов, по которым пользователи кликают на документы, этим узлам DOM будет присвоен низкий вес. В результате, контент в этих блоках будет оказывать минимальное влияние на ранжирование страницы по этим запросам.

Означает ли это, что традиционные веса (например, Title важнее Body) больше не используются?

Не обязательно. Система может использовать этот механизм для уточнения или переопределения стандартных весов. Например, если анализ данных показывает, что для определенного типа сайтов (например, форумов) основной текст сообщения (Body) чаще содержит ключевые термины из успешных запросов, чем заголовок (Title), система может присвоить Body больший вес, чем Title, именно для этого шаблона.

Как можно использовать этот патент для улучшения SEO?

Ключевая стратегия — обеспечить четкую семантическую структуру и консистентность шаблонов. Используйте HTML5 теги (<main>, <article>, <nav>) для разграничения основного контента и вспомогательных элементов. Размещайте наиболее важную информацию в тех частях страницы, которые логически являются центральными для пользователя, так как именно они, вероятно, получат наибольший вес.

Влияет ли этот патент на обработку JavaScript и динамического контента?

Патент описывает работу с DOM, который является результатом рендеринга страницы, включая исполнение JavaScript. Если динамический контент формирует стабильную и консистентную структуру DOM в коллекции документов, механизм будет применим. Однако, если JavaScript создает непредсказуемую или сильно различающуюся структуру, это затруднит генерацию обобщенного DOM.

Может ли система ошибочно принять основной контент за рекламу или наоборот?

Да, это возможно, особенно если структура документа запутанная или если реклама маскируется под основной контент. Однако, поскольку веса рассчитываются на основе анализа запросов и кликов, система стремится к самокоррекции. Если пользователи кликают на документ, ища термины, которые находятся в блоке, похожем на рекламу, вес этого блока может быть увеличен.

Как часто пересчитываются веса узлов DOM?

Патент не указывает точную частоту, но предполагает, что это процесс, требующий обработки логов активности пользователей. Вероятно, это происходит периодически в пакетном режиме (офлайн), по мере накопления новых данных о запросах и кликах. Это позволяет системе адаптироваться к изменениям в дизайне сайта или поведении пользователей.

Что произойдет, если я изменю дизайн и структуру своего сайта?

При значительном изменении структуры система должна будет идентифицировать новый шаблон, сгенерировать новый обобщенный DOM и начать процесс сбора статистики и расчета весов заново для новой структуры. В переходный период оценка важности различных частей страницы может быть неоптимальной, пока не накопится достаточно данных по новому шаблону.