Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

Описание

Какую задачу решает

Патент решает проблему автоматического извлечения наиболее релевантного контента (summary content) из веб-страниц для использования в качестве сниппетов в поисковой выдаче. Основная сложность — отличить основное содержание от шаблонного контента (boilerplate), такого как реклама или навигация. Изобретение предлагает метод точной идентификации местоположения ключевой информации и извлечения структурированных данных на основе анализа внутренних ссылочных паттернов сайта.

Что запатентовано

Запатентована система генерации шаблонов домена (Domain Template Generation System). Эта система изучает структуру сайта, анализируя повторяющиеся паттерны внутренних ссылок. Она сопоставляет текст, расположенный рядом с внутренней ссылкой на одной странице (Subordinate Text), с контентом целевой страницы. При совпадении система определяет точное местоположение (DOM path) этой информации и создает Domain Template, который используется для масштабного извлечения сниппетов с однотипных страниц этого домена.

Как это работает

Ключевой механизм основан на предположении, что текст, используемый сайтом для описания страницы в списках, является хорошим кандидатом для сниппета.

Идентификация паттернов: Система ищет повторяющиеся HTML-структуры (Repeated HTML Pattern) на странице (например, список товаров), содержащие внутренние ссылки.
Извлечение контекста: Извлекается текст, подчиненный анкорю (Subordinate Text) — анкор или текст рядом с ним (Proximate Text).
Верификация: Система переходит на целевую страницу и проверяет, присутствует ли там этот текст.
Генерация шаблона: Если текст найден, система определяет его DOM path и создает Domain Template.
Расширенное извлечение (DOM Expansion): Система может анализировать родительские и соседние (sibling) DOM-узлы, чтобы включить в сниппет дополнительную структурированную информацию (например, характеристики товара).
Применение: Шаблон применяется ко всем страницам сайта с аналогичной структурой для автоматического извлечения сниппетов.

Актуальность для SEO

Высокая. Точная генерация сниппетов и понимание структуры страницы (Page Understanding) критически важны для современного поиска. Этот патент описывает конкретный механизм для автоматического создания структурированных сниппетов (Rich Results) и отделения основного контента от boilerplate, что особенно актуально для e-commerce и контентных проектов с шаблонной структурой.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10). Он напрямую влияет на то, как контент сайта отображается в SERP, что критично для оптимизации CTR. Понимание этого механизма позволяет SEO-специалистам структурировать HTML-шаблоны и внутреннюю перелинковку таким образом, чтобы гарантировать правильное извлечение ключевой информации (цен, характеристик, кратких описаний) в сниппеты, даже без использования микроразметки.

Детальный разбор

Термины и определения

Anchor (Анкорь): Элемент в исходном ресурсе (например, HTML-ссылка), который ссылается на целевой ресурс в пределах того же домена.
Domain Template (Шаблон домена): Сгенерированное правило для конкретного домена, которое определяет местоположение (DOM path) ключевого сводного текста на страницах этого домена, имеющих схожую структуру.
DOM Path / DOM Node (Путь в DOM / Узел DOM): Путь в дереве объектной модели документа, ведущий к конкретному узлу (DOM node), содержащему текст. Узлы могут быть родительскими (Parent), дочерними (Child) или соседними (Sibling).
First Resource / Second Resource (Первый и Второй ресурс): Две страницы одного домена. Первый ресурс (например, листинг) содержит ссылку на Второй ресурс (например, карточку товара). Система анализирует контекст ссылки на Первом и ищет этот контекст на Втором.
Proximate Text (Близлежащий текст): Текстовый контент, расположенный в непосредственной близости к анкорю в Первом ресурсе. Пример: краткое описание или цена под ссылкой на товар.
Repeated HTML Pattern (Повторяющийся HTML-паттерн): Структура в исходном коде Первого ресурса, где один и тот же стиль HTML-элементов повторяется (например, список товаров в категории). Наличие такого паттерна является триггером для анализа.
Subordinate Text (Подчиненный текст): Общий термин для текста, связанного с анкорем. Включает Anchor Text и/или Proximate Text.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации шаблона и его использования для сниппетов.

Система получает доступ к Первому ресурсу домена.
Выбирается анкорь, ссылающийся на Второй ресурс того же домена.
Идентифицируется конкретный текст, который подчинен и близок к анкорю (subordinate to and proximate to the anchor) в Первом ресурсе.
Система определяет, содержит ли Второй ресурс этот идентифицированный текст.
Если ДА: Генерируется Domain Template для этого домена, который указывает местоположение этого текста во Втором ресурсе.
Определяются другие ресурсы домена, имеющие структуру, соответствующую Domain Template.
Для каждого такого ресурса извлекается соответствующий текст.
При получении поискового запроса, если один из этих ресурсов релевантен, извлеченный текст предоставляется в качестве сниппета (snippet) на странице результатов поиска.

Claim 2, 3 и 4 (Зависимые): Детализируют, как выбирается анкорь для анализа.

Выбор анкоря основан на идентификации Repeated HTML Pattern. Элементы в этом повторении должны содержать анкорь, ссылающийся на ресурс внутри того же домена (Claim 3). Анкорь выбирается, если количество повторений удовлетворяет пороговому значению (Claim 4).

Claim 8 (Зависимый): Описывает критически важный механизм расширенного извлечения структурированных данных (DOM Expansion).

Идентифицируется конкретный DOM-узел (тот, что содержит совпавший текст).
Идентифицируется родительский DOM-узел этого узла (parent DOM node).
Идентифицируются другие DOM-узлы (Sibling DOM Nodes), которые также являются дочерними для этого родительского узла.
Итоговый текст для сниппета извлекается из (i) конкретного DOM-узла И (ii) из соседних DOM-узлов.

Пример: Если система нашла совпадение по Цене, она может извлечь Название, Характеристики и Рейтинг из соседних узлов, если они находятся под общим родителем.

Где и как применяется

Изобретение применяется на этапах индексирования и формирования поисковой выдачи.

CRAWLING – Сканирование и Сбор данных
Система собирает HTML-код страниц, необходимый для последующего анализа структуры и внутренних ссылок.

INDEXING – Индексирование и извлечение признаков
Основной этап работы алгоритма. Domain Template Generation System работает здесь:

Анализ структуры и ссылок: Система анализирует HTML/DOM страниц, выявляет внутренние ссылки и ищет Repeated HTML Patterns.
Извлечение и верификация контента: Происходит сопоставление Subordinate Text между связанными страницами.
Генерация шаблонов: Создаются и сохраняются Domain Templates, привязанные к домену.
Извлечение признаков: Сводный текст извлекается из страниц с помощью шаблонов и сохраняется в индексе как предпочтительный кандидат для сниппета.

METASEARCH / RERANKING (Формирование SERP)
На этапе формирования SERP система выбирает сниппет для отображения. Текст, извлеченный с помощью Domain Template, получает высокий приоритет, так как он был идентифицирован как точное и структурированное описание контента.

Входные данные:

HTML/DOM структура страниц домена.
Данные о внутренних ссылках (URL, анкоры, окружающий текст).

Выходные данные:

Domain Templates (правила извлечения контента на основе DOM Path).
Извлеченный сводный текст и структурированные данные (кандидаты в сниппеты).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на сайты с четкой шаблонной структурой и большим количеством однотипных страниц:
- E-commerce: Страницы категорий (листинги) и продуктов. Позволяет точно извлекать названия, цены, характеристики.
- Недвижимость, Авто, Вакансии: Листинги и страницы объектов.
- Контентные проекты (Блоги, Q&A): Позволяет извлекать краткие описания статей или ответы на вопросы.
Форматы контента: Влияет на генерацию стандартных текстовых сниппетов и структурированных сниппетов (Rich Snippets), особенно через механизм DOM Expansion (Claim 8).

Когда применяется

Алгоритм активируется при выполнении нескольких условий в процессе индексирования:

Триггер активации 1: Наличие на странице Repeated HTML Pattern, где количество повторений превышает определенный порог (Claim 4).
Триггер активации 2: Элементы паттерна содержат внутренние ссылки (ссылки в пределах того же домена) (Claim 3).
Условие генерации шаблона: Subordinate Text (текст возле ссылки на Первом ресурсе) должен совпадать с текстом на Втором ресурсе (целевой странице) (Claim 1).

Пошаговый алгоритм

Процесс А: Генерация Domain Template

Выборка ресурсов: Система получает доступ к набору страниц домена.
Идентификация паттернов: На Первом ресурсе система ищет Repeated HTML Pattern. Проверяется, превышает ли количество повторений порог.
Фильтрация ссылок: Проверяется, содержат ли элементы паттерна внутренние ссылки. Выбирается анкорь для анализа.
Извлечение контекста: Идентифицируется и извлекается Subordinate Text (анкор и/или Proximate Text) рядом с анкорем на Первом ресурсе.
Верификация на целевой странице: Система обращается ко Второму ресурсу и ищет совпадение извлеченного текста.
- Если НЕТ: Шаблон не генерируется.
- Если ДА: Перейти к шагу 6.
Анализ DOM: Определяется точный DOM path, ведущий к совпавшему тексту на Втором ресурсе.
Создание шаблона: Генерируется Domain Template для домена, специфицирующий этот DOM path.

Процесс Б: Расширенное извлечение (DOM Expansion — Claim 8)

Идентификация узла: Используется DOM-узел, найденный в Процессе А.
Анализ структуры DOM: Система идентифицирует родительский узел.
Идентификация соседей: Система идентифицирует Sibling DOM Nodes (другие дочерние узлы этого родителя).
Расширение извлечения: Система извлекает текст не только из исходного узла, но и из соседних узлов (например, извлечение всех характеристик товара после нахождения цены).

Процесс В: Применение шаблона

Проверка структуры: Для каждой страницы домена система проверяет, соответствует ли ее структура Domain Template.
Извлечение сводки: Если структура соответствует, система извлекает текст из указанных в шаблоне DOM path (включая расширенное извлечение, если применимо).
Использование в поиске: Извлеченный текст используется как сниппет при отображении страницы в результатах поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на структурных, ссылочных и контентных факторах, присутствующих в коде страниц.

Структурные факторы:
- Исходный код HTML и Объектная модель документа (DOM).
- Repeated HTML Patterns (повторяющиеся элементы в коде).
- Иерархия DOM-узлов (родительские, дочерние, соседние отношения) — критично для Claim 8.
Ссылочные факторы:
- Внутренние анкоря (Anchors).
- Anchor Text (текст ссылки).
Контентные факторы:
- Proximate Text / Subordinate Text (текст, окружающий анкорь).
- Текст, содержащийся в DOM-узлах на целевой странице (для верификации).

Какие метрики используются и как они считаются

Порог повторения (Threshold value): Минимальное количество повторений HTML-элементов в Repeated HTML Pattern, необходимое для активации анализа (Claim 4).
Совпадение текста (Text Match): Бинарная проверка (Да/Нет) наличия Subordinate Text с Первого ресурса на Втором ресурсе.
Соответствие шаблону (Structure Matching): Проверка соответствия DOM path страницы структуре, определенной в Domain Template.

Выводы

Google использует внутреннюю перелинковку для понимания структуры сайта: То, как сайт сам описывает свои страницы во внутренних блоках ссылок (анкоры и окружающий текст), используется Google как сильный сигнал о расположении основного контента и как предпочтительный источник для сниппетов.
Автоматическое извлечение структурированных данных (DOM Expansion): Механизм Claim 8 крайне важен. Он позволяет Google извлекать не просто блок текста, а набор атрибутов. Анализируя соседние DOM-узлы (Sibling DOM Nodes), система может собрать структурированную информацию (Цена, Рейтинг, Характеристики) для формирования Rich Snippets, даже без явной микроразметки.
Важность консистентности шаблонов: Система полагается на Domain Templates. Если сайт использует согласованные HTML-шаблоны для однотипных страниц, Google может эффективно создать правило извлечения и применять его масштабно. Хаотичная структура блокирует этот процесс.
Механизм отделения основного контента от Boilerplate: Идентифицируя DOM path текста, который совпадает с описанием из другого места на сайте, Google эффективно определяет местоположение основного контента и игнорирует шаблонные элементы (навигацию, рекламу) при генерации сниппета.
Приоритет извлеченного текста: Текст, полученный с помощью Domain Template, с высокой вероятностью будет использован в качестве сниппета в SERP, переопределяя другие источники (например, meta description).

Практика

Best practices (это мы делаем)

Обеспечение консистентности HTML-шаблонов: Используйте чистую, семантическую и идентичную HTML-структуру для всех однотипных страниц (товары, статьи). Это позволит Google легко сгенерировать и применить Domain Template.
Оптимизация контекста внутренних ссылок в листингах: В блоках Repeated HTML Patterns (категории, похожие товары/статьи) используйте дескриптивные анкоры и/или Proximate Text (цена, краткое описание). Критически важно, чтобы этот текст также присутствовал на целевой странице в основном контенте.
Структурирование атрибутов в DOM (для Claim 8): Группируйте ключевые атрибуты (Название, Цена, Рейтинг, Характеристики) так, чтобы они являлись соседними DOM-узлами (Sibling DOM Nodes) под общим родителем. Использование списков определений (<dl>) или чистой блочной структуры облегчает расширенное извлечение данных.
Приоритет серверного рендеринга (SSR) для ключевой информации: Убедитесь, что ключевая информация и структура DOM доступны для анализа и не скрыты за сложным клиентским JavaScript, что может затруднить идентификацию паттернов и извлечение данных.

Worst practices (это делать не надо)

Использование разных HTML-шаблонов для однотипных страниц: Это блокирует создание Domain Template и приводит к непредсказуемой генерации сниппетов.
Несоответствие текста в листингах и на целевых страницах: Если цена или описание в категории (Первый ресурс) не совпадает с текстом на странице товара (Второй ресурс), механизм верификации не сработает.
Использование общих анкоров без контекста: Использование только ссылок типа «Подробнее» без окружающего дескриптивного текста (Proximate Text) в повторяющихся блоках не дает системе данных для анализа.
Сложная и запутанная структура DOM для атрибутов: Размещение атрибутов товара в разных частях DOM-дерева вместо группировки их под общим родителем не позволит Google применить механизм расширенного извлечения (Claim 8).

Стратегическое значение

Патент подтверждает, что Google активно использует машинное обучение для понимания архитектуры сайтов в масштабе. Вместо анализа каждой страницы индивидуально, система стремится вывести правила на уровне домена (Domain Templates). Для SEO это означает, что архитектурная согласованность, техническая чистота кода и информационная архитектура напрямую влияют на видимость сайта в поиске через качество и структурированность сниппетов.

Практические примеры

Сценарий: Генерация структурированного сниппета для E-commerce (Механизм Claim 8)

Задача: Добиться отображения ключевых характеристик (Цена, Скорость CPU, Рейтинг) в сниппете товара.

Анализ Листинга (Первый ресурс): Убеждаемся, что в листинге рядом со ссылкой указана Цена ($500.00).
Анализ Карточки товара (Второй ресурс): Проверяем DOM-структуру. Характеристики разбросаны по разным блокам.

Действие: Перерабатываем HTML так, чтобы все характеристики находились под одним родительским элементом и являлись Sibling DOM Nodes.

<div class="product-specs"> <!-- Родительский узел --> <span class="price">$500.00</span> <!-- Sibling 1 (Найденный узел) --> <span class="cpu">2.0 GHz</span> <!-- Sibling 2 --> <span class="rating">4.1/5.0</span> <!-- Sibling 3 --> </div>

Ожидаемый результат: Google идентифицирует Цену ($500.00) из листинга на карточке товара (Sibling 1). Затем система анализирует родительский узел («product-specs») и извлекает данные из соседних узлов (Sibling 2 и 3), формируя структурированный сниппет, включающий все эти данные.

Вопросы и ответы

Что такое «Domain Template» и почему он важен для SEO?

Domain Template — это правило, созданное Google для конкретного сайта, которое определяет точное местоположение (DOM path) основного контента на однотипных страницах. Это критически важно для SEO, потому что текст, извлеченный с помощью этого шаблона, почти гарантированно станет сниппетом в поисковой выдаче. Контролируя шаблон через структуру сайта, вы контролируете сниппет и, следовательно, CTR.

Что такое «Repeated HTML Pattern» и как его найти на моем сайте?

Это блок кода, где одна и та же HTML-структура повторяется несколько раз (Claim 2), и количество повторений превышает определенный порог (Claim 4). Типичные примеры — это листинг товаров в категории, список статей в блоге или блок «Похожие товары». Система ищет такие паттерны как отправную точку для анализа.

Что важнее для этого алгоритма: Anchor Text или Proximate Text (текст рядом со ссылкой)?

Патент указывает, что система может использовать и то, и другое (называя это Subordinate Text). Если анкор дескриптивный (например, название товара), он может быть использован. Если анкор общий («Купить»), система будет искать Proximate Text (например, цену или краткое описание). Важно, чтобы хотя бы один из этих элементов точно совпадал с текстом на целевой странице.

Как работает расширенное извлечение данных (Claim 8) и как его оптимизировать?

Это механизм для создания структурированных сниппетов (DOM Expansion). Когда система находит совпадение текста в определенном DOM-узле, она поднимается к родительскому узлу и смотрит на соседние узлы (Sibling DOM Nodes). Чтобы оптимизировать это, группируйте связанные атрибуты (Цена, Рейтинг, Характеристики) под общим родителем в чистой и семантичной DOM-структуре.

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Не заменяет, но дополняет. Этот механизм позволяет Google извлекать структурированные данные имплицитно (через анализ DOM), даже если разметка отсутствует. Однако явная разметка Schema.org всегда предпочтительнее, так как она устраняет неоднозначность и является более надежным сигналом, особенно при сложной верстке.

Что делать, если Google показывает неправильные сниппеты для моих страниц?

Это может означать, что Google не смог создать корректный Domain Template. Проверьте консистентность ваших HTML-шаблонов. Убедитесь, что текст, который вы используете в листингах (рядом с внутренними ссылками), точно совпадает с текстом на целевых страницах и находится в основном контентном блоке, а не в сайдбаре или футере.

Влияет ли этот патент на ранжирование напрямую?

Патент описывает механизм генерации сниппетов, а не ранжирование. Однако, поскольку качественные и структурированные сниппеты значительно повышают CTR, этот механизм оказывает сильное косвенное влияние на поведенческие факторы. Кроме того, способность системы отделять основной контент от boilerplate может влиять на оценку качества страницы.

Как этот алгоритм обрабатывает сайты на JavaScript (SPA/CSR)?

Система анализирует DOM после рендеринга. Если JavaScript формирует консистентную и доступную для анализа DOM-структуру, механизм будет работать. Однако, если ключевая информация требует сложного или отложенного JavaScript-рендеринга, система может столкнуться с трудностями при идентификации совпадений и генерации шаблона. Рекомендуется использовать SSR или пререндеринг.

Применяется ли этот механизм к ссылкам с внешних сайтов?

Нет. Патент четко указывает (Claim 1, Claim 3), что анализируются ссылки между ресурсами, принадлежащими одному и тому же домену (belonging to the particular domain). Это механизм, основанный на анализе внутренней структуры сайта.

Может ли этот механизм объяснить, почему Google игнорирует мой Meta Description?

Да, вполне. Если Google сгенерировал надежный Domain Template, который позволяет извлекать точное и структурированное описание контента непосредственно со страницы, он предпочтет использовать этот текст вместо указанного вручную Meta Description, считая его более релевантным и полезным для пользователя.