
Google анализирует структуру веб-страницы, включая списки и заголовки, чтобы определить семантическое расстояние между ключевыми словами. Система выявляет семантические блоки, даже если они не размечены явными HTML-тегами, путем анализа повторяющихся паттернов форматирования. Расстояние между терминами рассчитывается на основе этой структуры: слова внутри одного элемента списка считаются близкими, а слова в разных элементах — далекими, независимо от физического расстояния.
Патент решает проблему неточности стандартных методов измерения близости (distance) между терминами в сложно структурированных документах, таких как HTML-страницы. Традиционный подход (подсчет слов между терминами или оценка визуального расстояния) часто не коррелирует с семантической связью. Например, последнее слово одного пункта списка и первое слово следующего пункта физически близки, но семантически далеки. Изобретение улучшает оценку релевантности путем введения Semantic Distance (семантического расстояния).
Запатентован метод расчета расстояния между терминами на основе семантической структуры документа. Система идентифицирует семантические структуры (списки, заголовки), включая те, которые определены неявно (implicitly defined) с помощью повторяющихся паттернов форматирования, а не стандартных HTML-тегов. Расстояние между терминами корректируется в зависимости от того, находятся ли они в одном семантическом блоке или пересекают границы блоков.
Система работает в несколько этапов:
Tree Structure, например, DOM-дерево).<ul>) и неявные структуры (Implicit Lists). Неявные списки обнаруживаются путем поиска повторяющихся наборов команд форматирования (например, повторяющиеся <br>, <div> или <table> теги).Semantic Distance. Применяются специальные правила: если термины находятся в одном семантическом элементе, они считаются близкими. Если они пересекают границу элемента (например, находятся в разных пунктах списка), расстояние увеличивается (штрафуется).Высокая. Понимание структуры документа (DOM) и семантических связей между элементами контента является фундаментальной задачей для современных поисковых систем. Хотя методы анализа эволюционировали с момента подачи патента (например, с учетом визуального рендеринга), базовый принцип использования семантической организации контента для оценки близости терминов и релевантности остается критически важным.
Патент имеет высокое значение (8/10) для SEO. Он определяет, как Google интерпретирует близость ключевых слов (Keyword Proximity) — один из базовых сигналов релевантности. Это напрямую влияет на стратегии оптимизации контента, подчеркивая важность логической группировки связанных концепций внутри одних и тех же семантических блоков (абзацев, элементов списка) и использования чистой, семантически верной структуры документа.
Word Count).<ul>, <ol>). Создается с помощью других тегов (<div>, <br>, <p>, <table>) и обнаруживается путем анализа повторяющихся паттернов.<br>, <b>, <div>). Повторение этих команд используется для обнаружения неявных структур.Tree Structure для обнаружения семантически значимых структур (списки, заголовки, названия).Distance Metrics/Value) между парами терминов.Ranking Score.Ядром изобретения является метод расчета расстояния, который использует различные функции в зависимости от того, как термины расположены относительно границ семантических элементов, в частности списков.
Claim 1 (Независимый пункт): Описывает основной метод расчета Distance Value с учетом неявной семантической структуры.
header) и элементами (items).Distance Value с использованием функции, которая зависит от выбранного правила. Ключевое утверждение: функции для Правил 1, 2 и 3 различаются.Distance Value для ранжирования документа по запросу.Claim 6 (Зависимый от 1): Уточняет, как рассчитывается значение расстояния.
Функция рассчитывает Distance Value как количество слов (word count) между терминами, скорректированное (augmented) с помощью выбранного правила.
Claim 7 (Зависимый от 1): Уточняет метод идентификации неявной структуры.
Идентификация включает обнаружение повторяющихся вхождений (repeating occurrences) набора из двух или более команд форматирования текста (Text Formatting Commands).
Claim 9 (Независимый пункт): Описывает метод ранжирования документов на основе семантического расстояния (применимо к явным и неявным структурам).
Логика аналогична Claim 1: идентификация семантической структуры (списка), локализация терминов запроса, выбор правила (1, 2 или 3), расчет Distance Value с использованием функции, специфичной для правила, и ранжирование документов на основе этого значения.
Изобретение применяется на этапах индексирования и ранжирования для улучшения расчета релевантности.
INDEXING – Индексирование и извлечение признаков
На этом этапе Page Analyzer Component анализирует документ. Происходит парсинг HTML в Tree Structure. Система обнаруживает явные и неявные семантические структуры. Ключевой процесс — поиск неявных списков путем обнаружения повторяющихся паттернов форматирования. Документ или его представление в индексе аннотируется этой структурной информацией. Эта работа выполняется заранее (офлайн).
RANKING – Ранжирование
На этом этапе (вероятно, L2 или L3, где происходит детальная оценка релевантности) система использует аннотированную структуру. Distance Component определяет местоположение терминов запроса и применяет правила семантического расстояния для расчета Distance Metrics. Relevance Component использует эти метрики для вычисления итогового Ranking Score.
Входные данные:
Tree Structure документа.Выходные данные:
Distance Metrics и Ranking Score документа.Semantic Distance применяется, когда в документе найдено более одного термина из поискового запроса и система оценивает их близость для расчета релевантности.Page Analyzer Component обнаруживает повторяющиеся шаблоны команд форматирования в Tree Structure документа во время индексирования.Этап 1: Анализ структуры документа (INDEXING - Офлайн)
Tree Structure (например, DOM-дерево).<ul>, <ol>) и заголовков/названий (Titles/Headings) на основе иерархии дерева.Tree Structure на предмет повторяющихся наборов команд форматирования (например, последовательности <b>...<br> или повторяющиеся <div> с одинаковой структурой). Идентификация Implicit Lists на основе этих повторений.Tree Structure для обозначения границ семантических элементов (заголовок списка, элемент списка А, элемент списка Б и т.д.).Этап 2: Расчет расстояния и ранжирование (RANKING - В реальном времени)
Distance Metrics с использованием выбранной функции (Word Count, модифицированный правилом).Ranking Score. Документы, в которых термины семантически ближе, получают более высокий балл.Патент фокусируется на структурных и контентных факторах для определения близости.
Tree Structure. Особое внимание уделяется тегам (Text Formatting Commands), используемым для создания списков: <ul>, <ol>.<div>, <br> (line break), <p> (paragraph), <table>, <tr>, <b> (bold), <font>.Word Count.repeating occurrences) наборов команд форматирования.Word Count), дополненное (augmented by) концепцией семантической близости, основанной на структуре документа (Claim 6).Semantic Distance зависит от того, где расположены термины (Правила 1, 2, 3). Для каждого сценария используется своя функция расчета расстояния, что означает применение разных весов или штрафов при пересечении семантических границ.Semantic Distance является более важным показателем, чем простое количество слов между терминами.<div>, <br>), анализируя повторяющиеся паттерны форматирования.<ul>, <ol>, <dl>) и заголовков (H1-H6). Это гарантирует правильную интерпретацию структуры системой и устраняет зависимость от алгоритмов распознавания неявных структур.<p> или одном элементе списка <li>). Это обеспечивает минимальное расстояние (Правило 2).<div> для создания списков, убедитесь, что шаблон форматирования абсолютно одинаков и консистентен для всех элементов. Это поможет Google корректно распознать Implicit List через повторяющиеся паттерны.<li>, а значение — в следующем <li>. Они будут считаться семантически далекими (Правило 1).<br> и <b>. Это менее надежно и может привести к ошибкам интерпретации структуры, если форматирование не идеально консистентно.<div>, часть через <p>). Это помешает системе идентифицировать структуру как единый список.Tree Structure и может привести к неверному определению семантических границ.Патент подтверждает фундаментальную важность архитектуры контента и технического SEO. Он показывает, что Google стремится понять документ как структурированную информацию, анализируя DOM-дерево. Для SEO-специалистов это означает, что оптимизация — это не просто наличие ключевых слов, но и их расположение относительно друг друга в контексте семантической структуры документа.
Сценарий: Оптимизация списка характеристик товара
Необходимо оптимизировать страницу под запрос "смартфон с камерой 108 Мп".
Плохая реализация (Большое семантическое расстояние):
<h2>Характеристики</h2>
<ul>
<li>Наш лучший <b>смартфон</b></li>
<li>Разрешение <b>камеры</b></li>
<li>Целых <b>108 Мп</b></li>
</ul>
Анализ: Все ключевые термины ("смартфон", "камера", "108 Мп") находятся в разных элементах списка (<li>). Согласно Правилу 1, семантическое расстояние между ними будет считаться большим, что снизит релевантность по точному запросу.
Хорошая реализация (Малое семантическое расстояние):
<h2>Характеристики Смартфона</h2>
<ul>
<li><b>Камера</b>: Сенсор на <b>108 Мп</b></li>
<li>Батарея: 5000 мАч</li>
</ul>
Анализ: Термины "Камера" и "108 Мп" находятся в одном элементе списка (Правило 2) – расстояние минимально. Термин "Смартфон" находится в заголовке (H2), который связан со списком, и расстояние до элементов списка также считается малым (Правило 3). Это повысит релевантность страницы по данному запросу.
Что такое "Semantic Distance" и чем оно отличается от обычного подсчета слов между терминами (Proximity)?
Semantic Distance — это мера близости, учитывающая логическую структуру документа (DOM). В отличие от простого подсчета слов (физического расстояния), она накладывает штрафы (увеличивает расстояние), если термины находятся в разных семантических блоках (например, в разных пунктах списка), даже если физически они рядом. Это позволяет точнее оценить смысловую связь между словами.
Что такое "неявный список" (Implicit List) и как Google его находит?
Неявный список — это контент, который функционирует как список, но создан без использования стандартных тегов <ul> или <ol> (например, с помощью <div> или <br>). Google находит их, анализируя древовидную структуру документа и ища повторяющиеся наборы команд форматирования (Text Formatting Commands), например, повторяющиеся последовательности <b>...<br> или одинаковые <div>.
Означает ли это, что можно использовать <div> или <br> вместо <ul> для списков?
Хотя Google пытается распознавать такие структуры, это не рекомендуется. Использование явной семантической разметки (<ul>, <ol>) всегда надежнее, так как гарантирует правильную интерпретацию структуры. Использование <div> или <br> требует идеальной консистентности верстки и несет риск того, что список не будет распознан корректно.
Если два ключевых слова находятся рядом на экране, но в разных пунктах списка в коде, как Google оценит расстояние между ними?
Согласно патенту (Правило 1, Claim 1), расстояние между ними будет считаться большим. Система определяет, что термины находятся в разных семантических элементах, и применяет штраф к расстоянию, несмотря на визуальную или физическую близость. Это снижает предполагаемую релевантность этой пары терминов.
Какова роль заголовков (H1-H6) в контексте этого патента?
Заголовки играют важную роль в уменьшении семантического расстояния. Согласно патенту (включая логику Правила 3), термин, находящийся в заголовке, считается близким к терминам, которые находятся ниже него в древовидной структуре документа. Это подтверждает важность использования релевантных ключевых слов в заголовках для установления контекста раздела.
Как обеспечить максимальную семантическую близость между важными терминами?
Необходимо убедиться, что они находятся в одном и том же неделимом семантическом элементе — одном абзаце (<p>), одном элементе списка (<li>) или одной ячейке таблицы. Это соответствует Правилу 2 (Claim 1), которое обеспечивает наименьшее значение расстояния.
Как этот патент влияет на использование таблиц (<table>)?
Таблицы (<table>, <tr>) упоминаются как способ создания неявных структур. Логично предположить, что ячейки и строки таблицы создают семантические границы, аналогично элементам списка. Термины в одной ячейке будут считаться близкими, а термины в разных ячейках или строках — более далекими.
Влияет ли этот патент на Featured Snippets в виде списков?
Да, весьма вероятно. Для корректного извлечения сниппета в виде списка Google должен точно определить границы списка и его элементов. Механизмы, описанные в патенте для идентификации явных и неявных списков, напрямую способствуют этой задаче, позволяя системе понять структуру контента.
Актуален ли этот патент для страниц, генерируемых с помощью JavaScript (SPA)?
Да. Механизмы применяются к итоговому DOM-дереву (Tree Structure) после рендеринга страницы. Независимо от того, как была создана структура (на сервере или клиенте), Google будет анализировать финальную структуру на предмет повторяющихся шаблонов и семантических границ для расчета Semantic Distance.
Актуален ли этот патент 2004 года в эпоху нейронных сетей (например, BERT)?
Да, принципы остаются актуальными. Современные NLP-модели превосходно понимают контекст на уровне предложений и абзацев, но им по-прежнему нужна информация о структуре всего документа. Данные о семантических границах (DOM-структура), извлекаемые описанным механизмом, служат важными сигналами для нейронных сетей, помогая им понять взаимосвязи между различными блоками текста.

SERP
EEAT и качество

Семантика и интент
Структура сайта
Техническое SEO

Индексация
Local SEO
Структура сайта

Google Shopping
SERP
Индексация

Структура сайта
Индексация

Knowledge Graph
Свежесть контента
Семантика и интент

Свежесть контента
Ссылки
Техническое SEO

Knowledge Graph
Семантика и интент
Персонализация

Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
Local SEO

Персонализация
Семантика и интент
Поведенческие сигналы

SERP
EEAT и качество
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
