Как Google использует семантическую структуру HTML (списки и заголовки) для расчета расстояния между ключевыми словами

Google анализирует структуру веб-страницы, включая списки и заголовки, чтобы определить семантическое расстояние между ключевыми словами. Система выявляет семантические блоки, даже если они не размечены явными HTML-тегами, путем анализа повторяющихся паттернов форматирования. Расстояние между терминами рассчитывается на основе этой структуры: слова внутри одного элемента списка считаются близкими, а слова в разных элементах — далекими, независимо от физического расстояния.

Описание

Какую задачу решает

Патент решает проблему неточности стандартных методов измерения близости (distance) между терминами в сложно структурированных документах, таких как HTML-страницы. Традиционный подход (подсчет слов между терминами или оценка визуального расстояния) часто не коррелирует с семантической связью. Например, последнее слово одного пункта списка и первое слово следующего пункта физически близки, но семантически далеки. Изобретение улучшает оценку релевантности путем введения Semantic Distance (семантического расстояния).

Что запатентовано

Запатентован метод расчета расстояния между терминами на основе семантической структуры документа. Система идентифицирует семантические структуры (списки, заголовки), включая те, которые определены неявно (implicitly defined) с помощью повторяющихся паттернов форматирования, а не стандартных HTML-тегов. Расстояние между терминами корректируется в зависимости от того, находятся ли они в одном семантическом блоке или пересекают границы блоков.

Как это работает

Система работает в несколько этапов:

Анализ структуры: Документ (HTML) парсится в древовидную структуру (Tree Structure, например, DOM-дерево).
Обнаружение структур: Система идентифицирует явные структуры (например, <ul>) и неявные структуры (Implicit Lists). Неявные списки обнаруживаются путем поиска повторяющихся наборов команд форматирования (например, повторяющиеся <br>, <div> или <table> теги).
Аннотирование: Структура аннотируется для обозначения границ семантических элементов (элементы списка, заголовки).
Расчет дистанции: При ранжировании рассчитывается Semantic Distance. Применяются специальные правила: если термины находятся в одном семантическом элементе, они считаются близкими. Если они пересекают границу элемента (например, находятся в разных пунктах списка), расстояние увеличивается (штрафуется).

Актуальность для SEO

Высокая. Понимание структуры документа (DOM) и семантических связей между элементами контента является фундаментальной задачей для современных поисковых систем. Хотя методы анализа эволюционировали с момента подачи патента (например, с учетом визуального рендеринга), базовый принцип использования семантической организации контента для оценки близости терминов и релевантности остается критически важным.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO. Он определяет, как Google интерпретирует близость ключевых слов (Keyword Proximity) — один из базовых сигналов релевантности. Это напрямую влияет на стратегии оптимизации контента, подчеркивая важность логической группировки связанных концепций внутри одних и тех же семантических блоков (абзацев, элементов списка) и использования чистой, семантически верной структуры документа.

Детальный разбор

Термины и определения

Semantic Distance (Семантическое расстояние): Мера близости между терминами, основанная на их расположении внутри семантических структур документа, а не только на физическом расстоянии (количестве слов или Word Count).
Implicitly Defined Semantic Structure (Неявно определенная семантическая структура) / Implicit List: Структура контента (например, список), которая создана без использования стандартных HTML-тегов (например, <ul>, <ol>). Создается с помощью других тегов (<div>, <br>, <p>, <table>) и обнаруживается путем анализа повторяющихся паттернов.
Tree Structure (Древовидная структура): Иерархическое представление структуры документа (например, DOM-дерево HTML-документа), используемое для анализа разметки.
Text Formatting Commands (Команды форматирования текста): HTML-теги, влияющие на отображение текста (например, <br>, <b>, <div>). Повторение этих команд используется для обнаружения неявных структур.
Page Analyzer Component (Компонент анализа страницы): Модуль, который анализирует Tree Structure для обнаружения семантически значимых структур (списки, заголовки, названия).
Distance Component (Компонент расчета расстояния): Модуль, который вычисляет показатели расстояния (Distance Metrics/Value) между парами терминов.
Relevance Component (Компонент релевантности): Модуль, использующий метрики расстояния для генерации Ranking Score.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод расчета расстояния, который использует различные функции в зависимости от того, как термины расположены относительно границ семантических элементов, в частности списков.

Claim 1 (Независимый пункт): Описывает основной метод расчета Distance Value с учетом неявной семантической структуры.

Идентификация неявно определенной семантической структуры в документе. Конкретно: списка с заголовком (header) и элементами (items).
Определение местоположения первого и второго термина внутри этого списка.
Выбор одного правила из набора правил на основе соотношения местоположений терминов. Правила строго определены:
- Правило 1 (First rule): Термины находятся в разных элементах списка.
- Правило 2 (Second rule): Термины находятся в одном и том же элементе списка.
- Правило 3 (Third rule): Один термин в заголовке, другой в элементе списка.
Определение Distance Value с использованием функции, которая зависит от выбранного правила. Ключевое утверждение: функции для Правил 1, 2 и 3 различаются.
Вывод Distance Value для ранжирования документа по запросу.

Claim 6 (Зависимый от 1): Уточняет, как рассчитывается значение расстояния.

Функция рассчитывает Distance Value как количество слов (word count) между терминами, скорректированное (augmented) с помощью выбранного правила.

Claim 7 (Зависимый от 1): Уточняет метод идентификации неявной структуры.

Идентификация включает обнаружение повторяющихся вхождений (repeating occurrences) набора из двух или более команд форматирования текста (Text Formatting Commands).

Claim 9 (Независимый пункт): Описывает метод ранжирования документов на основе семантического расстояния (применимо к явным и неявным структурам).

Логика аналогична Claim 1: идентификация семантической структуры (списка), локализация терминов запроса, выбор правила (1, 2 или 3), расчет Distance Value с использованием функции, специфичной для правила, и ранжирование документов на основе этого значения.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования для улучшения расчета релевантности.

INDEXING – Индексирование и извлечение признаков
На этом этапе Page Analyzer Component анализирует документ. Происходит парсинг HTML в Tree Structure. Система обнаруживает явные и неявные семантические структуры. Ключевой процесс — поиск неявных списков путем обнаружения повторяющихся паттернов форматирования. Документ или его представление в индексе аннотируется этой структурной информацией. Эта работа выполняется заранее (офлайн).

RANKING – Ранжирование
На этом этапе (вероятно, L2 или L3, где происходит детальная оценка релевантности) система использует аннотированную структуру. Distance Component определяет местоположение терминов запроса и применяет правила семантического расстояния для расчета Distance Metrics. Relevance Component использует эти метрики для вычисления итогового Ranking Score.

Входные данные:

(Индексирование) Исходный документ (HTML).
(Ранжирование) Термины поискового запроса и Аннотированная Tree Structure документа.

Выходные данные:

(Индексирование) Аннотированная структура документа.
(Ранжирование) Distance Metrics и Ranking Score документа.

На что влияет

Типы контента: Наибольшее влияние оказывается на контент, организованный в виде списков, перечислений, таблиц, рецептов, обзоров (Ecommerce), инструкций и статей с четкой структурой заголовков.
Специфические запросы: Влияет на запросы, состоящие из нескольких терминов, где важно не только наличие терминов, но и их взаимное расположение и контекстуальная связь (например, [объект] + [характеристика]).
Техническое качество HTML: Влияет на сайты с несемантической версткой, заставляя систему активировать механизм распознавания неявных структур.

Когда применяется

Условия применения: Алгоритм расчета Semantic Distance применяется, когда в документе найдено более одного термина из поискового запроса и система оценивает их близость для расчета релевантности.
Триггеры активации (для обнаружения неявных списков): Активируется, когда Page Analyzer Component обнаруживает повторяющиеся шаблоны команд форматирования в Tree Structure документа во время индексирования.

Пошаговый алгоритм

Этап 1: Анализ структуры документа (INDEXING — Офлайн)

Парсинг: Получение документа и его парсинг в Tree Structure (например, DOM-дерево).
Обнаружение явных структур: Идентификация явных списков (<ul>, <ol>) и заголовков/названий (Titles/Headings) на основе иерархии дерева.
Обнаружение неявных структур: Анализ Tree Structure на предмет повторяющихся наборов команд форматирования (например, последовательности <b>…<br> или повторяющиеся <div> с одинаковой структурой). Идентификация Implicit Lists на основе этих повторений.
Аннотирование: Разметка Tree Structure для обозначения границ семантических элементов (заголовок списка, элемент списка А, элемент списка Б и т.д.).

Этап 2: Расчет расстояния и ранжирование (RANKING — В реальном времени)

Получение данных: Получение поискового запроса и аннотированного документа.
Локализация терминов: Определение местоположения терминов запроса (Термин 1 и Термин 2) в аннотированной структуре.
Выбор правила и функции: Выбор функции расчета расстояния на основе местоположения терминов (согласно Claim 1):
- Правило 2 (Один элемент): Если Термин 1 и Термин 2 в одном элементе списка. Расстояние считается близким.
- Правило 3 (Заголовок-Элемент): Если Термин 1 в заголовке, а Термин 2 в элементе списка. Расстояние считается относительно близким (и равным для всех элементов относительно заголовка).
- Правило 1 (Разные элементы): Если Термин 1 в элементе А, а Термин 2 в элементе Б. Расстояние считается большим (штраф), даже если физически слова рядом.
Применение дополнительных правил: Термин в названии документа (Title) считается близким ко всем терминам. Термин в заголовке раздела (Heading) считается близким к терминам под ним в иерархии.
Вычисление метрик: Расчет Distance Metrics с использованием выбранной функции (Word Count, модифицированный правилом).
Расчет релевантности: Генерация Ranking Score. Документы, в которых термины семантически ближе, получают более высокий балл.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных и контентных факторах для определения близости.

Структурные факторы (HTML-теги): Критически важные данные. Анализируется иерархия и последовательность HTML-тегов в Tree Structure. Особое внимание уделяется тегам (Text Formatting Commands), используемым для создания списков:
- Явные: <ul>, <ol>.
- Неявные (повторяющиеся): <div>, <br> (line break), <p> (paragraph), <table>, <tr>, <b> (bold), <font>.
Контентные факторы: Текст документа и расположение поисковых терминов внутри этого текста, используемые для подсчета базового Word Count.

Какие метрики используются и как они считаются

Pattern Recognition (Распознавание шаблонов): Используется для обнаружения неявных списков путем поиска повторяющихся вхождений (repeating occurrences) наборов команд форматирования.
Word Count (Количество слов): Базовая метрика физического расстояния.
Semantic Distance (Семантическое расстояние): Основная вычисляемая метрика. Патент описывает ее как значение расстояния (Word Count), дополненное (augmented by) концепцией семантической близости, основанной на структуре документа (Claim 6).
Rule-Based Functions (Функции на основе правил): Расчет Semantic Distance зависит от того, где расположены термины (Правила 1, 2, 3). Для каждого сценария используется своя функция расчета расстояния, что означает применение разных весов или штрафов при пересечении семантических границ.

Выводы

Приоритет семантической структуры над физической близостью: Google активно интерпретирует логическую организацию страницы (DOM-дерево) для оценки связи между терминами. Semantic Distance является более важным показателем, чем простое количество слов между терминами.
Штраф за пересечение семантических границ: Термины, расположенные в разных семантических блоках (например, в разных пунктах списка), считаются далекими друг от друга (Правило 1), даже если физически они находятся рядом. Это предотвращает случайное связывание несвязанных понятий.
Обнаружение неявных структур: Система не полагается только на корректную семантическую разметку. Она способна распознавать списки и разделы, созданные с помощью общих тегов (<div>, <br>), анализируя повторяющиеся паттерны форматирования.
Ключевая роль заголовков и названий: Заголовки (Headings) и названия (Titles) служат важными связующими элементами (Правило 3). Термины в заголовке считаются семантически близкими к контенту, который структурно им подчиняется.
Структура контента влияет на релевантность: То, как организована информация на странице (группировка связанных идей в одном блоке — Правило 2), напрямую влияет на расчет релевантности по многословным запросам.

Практика

Best practices (это мы делаем)

Используйте явную семантическую разметку: Всегда предпочитайте стандартные HTML-теги для списков (<ul>, <ol>, <dl>) и заголовков (H1-H6). Это гарантирует правильную интерпретацию структуры системой и устраняет зависимость от алгоритмов распознавания неявных структур.
Группируйте связанные концепции в одном блоке: Ключевые слова и фразы, которые должны рассматриваться вместе (например, название продукта и его ключевая характеристика), должны находиться в одном семантическом блоке (одном абзаце <p> или одном элементе списка <li>). Это обеспечивает минимальное расстояние (Правило 2).
Используйте релевантные и иерархичные заголовки: Размещайте важные ключевые слова в заголовках. Согласно патенту, термины в заголовке считаются семантически близкими к контенту, следующему за ним в иерархии (Правило 3).
Соблюдайте консистентность при кастомной верстке: Если по причинам дизайна необходимо использовать <div> для создания списков, убедитесь, что шаблон форматирования абсолютно одинаков и консистентен для всех элементов. Это поможет Google корректно распознать Implicit List через повторяющиеся паттерны.

Worst practices (это делать не надо)

Разделение связанных терминов между блоками: Размещение тесно связанных ключевых слов в разных семантических блоках. Например, если в списке характеристик название свойства находится в одном пункте <li>, а значение — в следующем <li>. Они будут считаться семантически далекими (Правило 1).
Использование форматирования вместо семантики: Создание списков с помощью <br> и <b>. Это менее надежно и может привести к ошибкам интерпретации структуры, если форматирование не идеально консистентно.
Непоследовательное форматирование: Использование разных HTML-структур для элементов одного и того же списка (например, часть элементов через <div>, часть через <p>). Это помешает системе идентифицировать структуру как единый список.
«DIV-soup» и запутанная структура DOM: Сложная, избыточно вложенная структура затрудняет анализ Tree Structure и может привести к неверному определению семантических границ.

Стратегическое значение

Патент подтверждает фундаментальную важность архитектуры контента и технического SEO. Он показывает, что Google стремится понять документ как структурированную информацию, анализируя DOM-дерево. Для SEO-специалистов это означает, что оптимизация — это не просто наличие ключевых слов, но и их расположение относительно друг друга в контексте семантической структуры документа.

Практические примеры

Сценарий: Оптимизация списка характеристик товара

Необходимо оптимизировать страницу под запрос «смартфон с камерой 108 Мп».

Плохая реализация (Большое семантическое расстояние):

<h2>Характеристики</h2>
<ul>
 <li>Наш лучший <b>смартфон</b></li>
 <li>Разрешение <b>камеры</b></li>
 <li>Целых <b>108 Мп</b></li>
</ul>

Анализ: Все ключевые термины («смартфон», «камера», «108 Мп») находятся в разных элементах списка (<li>). Согласно Правилу 1, семантическое расстояние между ними будет считаться большим, что снизит релевантность по точному запросу.

Хорошая реализация (Малое семантическое расстояние):

<h2>Характеристики Смартфона</h2>
<ul>
 <li><b>Камера</b>: Сенсор на <b>108 Мп</b></li>
 <li>Батарея: 5000 мАч</li>
</ul>

Анализ: Термины «Камера» и «108 Мп» находятся в одном элементе списка (Правило 2) – расстояние минимально. Термин «Смартфон» находится в заголовке (H2), который связан со списком, и расстояние до элементов списка также считается малым (Правило 3). Это повысит релевантность страницы по данному запросу.

Вопросы и ответы

Что такое «Semantic Distance» и чем оно отличается от обычного подсчета слов между терминами (Proximity)?

Semantic Distance — это мера близости, учитывающая логическую структуру документа (DOM). В отличие от простого подсчета слов (физического расстояния), она накладывает штрафы (увеличивает расстояние), если термины находятся в разных семантических блоках (например, в разных пунктах списка), даже если физически они рядом. Это позволяет точнее оценить смысловую связь между словами.

Что такое «неявный список» (Implicit List) и как Google его находит?

Неявный список — это контент, который функционирует как список, но создан без использования стандартных тегов <ul> или <ol> (например, с помощью <div> или <br>). Google находит их, анализируя древовидную структуру документа и ища повторяющиеся наборы команд форматирования (Text Formatting Commands), например, повторяющиеся последовательности <b>…<br> или одинаковые <div>.

Означает ли это, что можно использовать <div> или <br> вместо <ul> для списков?

Хотя Google пытается распознавать такие структуры, это не рекомендуется. Использование явной семантической разметки (<ul>, <ol>) всегда надежнее, так как гарантирует правильную интерпретацию структуры. Использование <div> или <br> требует идеальной консистентности верстки и несет риск того, что список не будет распознан корректно.

Если два ключевых слова находятся рядом на экране, но в разных пунктах списка в коде, как Google оценит расстояние между ними?

Согласно патенту (Правило 1, Claim 1), расстояние между ними будет считаться большим. Система определяет, что термины находятся в разных семантических элементах, и применяет штраф к расстоянию, несмотря на визуальную или физическую близость. Это снижает предполагаемую релевантность этой пары терминов.

Какова роль заголовков (H1-H6) в контексте этого патента?

Заголовки играют важную роль в уменьшении семантического расстояния. Согласно патенту (включая логику Правила 3), термин, находящийся в заголовке, считается близким к терминам, которые находятся ниже него в древовидной структуре документа. Это подтверждает важность использования релевантных ключевых слов в заголовках для установления контекста раздела.

Как обеспечить максимальную семантическую близость между важными терминами?

Необходимо убедиться, что они находятся в одном и том же неделимом семантическом элементе — одном абзаце (<p>), одном элементе списка (<li>) или одной ячейке таблицы. Это соответствует Правилу 2 (Claim 1), которое обеспечивает наименьшее значение расстояния.

Как этот патент влияет на использование таблиц (<table>)?

Таблицы (<table>, <tr>) упоминаются как способ создания неявных структур. Логично предположить, что ячейки и строки таблицы создают семантические границы, аналогично элементам списка. Термины в одной ячейке будут считаться близкими, а термины в разных ячейках или строках — более далекими.

Влияет ли этот патент на Featured Snippets в виде списков?

Да, весьма вероятно. Для корректного извлечения сниппета в виде списка Google должен точно определить границы списка и его элементов. Механизмы, описанные в патенте для идентификации явных и неявных списков, напрямую способствуют этой задаче, позволяя системе понять структуру контента.

Актуален ли этот патент для страниц, генерируемых с помощью JavaScript (SPA)?

Да. Механизмы применяются к итоговому DOM-дереву (Tree Structure) после рендеринга страницы. Независимо от того, как была создана структура (на сервере или клиенте), Google будет анализировать финальную структуру на предмет повторяющихся шаблонов и семантических границ для расчета Semantic Distance.

Актуален ли этот патент 2004 года в эпоху нейронных сетей (например, BERT)?

Да, принципы остаются актуальными. Современные NLP-модели превосходно понимают контекст на уровне предложений и абзацев, но им по-прежнему нужна информация о структуре всего документа. Данные о семантических границах (DOM-структура), извлекаемые описанным механизмом, служат важными сигналами для нейронных сетей, помогая им понять взаимосвязи между различными блоками текста.