Как Google определяет основную тему страницы, сегментируя контент и игнорируя нерелевантные блоки (шаблоны, навигацию, рекламу)

Google использует систему для определения истинного смысла документа путем разделения его на регионы (например, основной текст, меню, футер). Система анализирует локальные концепции в каждом регионе, определяет доминирующую тему документа, а затем исключает регионы, не связанные с этой темой. Это позволяет точно понять основное содержание страницы, отфильтровав шаблонный текст и шум.

Описание

Какую задачу решает

Патент решает фундаментальную проблему понимания контента веб-страниц: как отделить основное содержание (Main Content) от вспомогательного или шаблонного контента (Boilerplate, навигация, реклама, футеры). Нерелевантные разделы создают тематический шум и «разбавляют» общее значение документа. Это приводит к неточному определению темы страницы и ошибкам при ее сопоставлении с целевым контентом (например, поисковыми запросами или контекстной рекламой).

Что запатентовано

Запатентована система для определения истинного смысла документа (Source Meaning) путем его сегментации на регионы (Regions) и итеративного концептуального анализа. Система идентифицирует локальные концепции (Local Concepts) в каждом регионе, определяет, какие регионы не связаны с доминирующей темой документа (Unrelated Regions), и исключает их из анализа. Финальный смысл документа рассчитывается только на основе оставшихся релевантных регионов.

Как это работает

Система использует многоэтапный подход для очистки данных:

Сегментация: Документ разделяется на Regions с использованием структурных и лингвистических эвристик (HTML-теги, структура текста).
Локальный анализ: Для каждого региона определяются ключевые Local Concepts.
Глобальный анализ: Все концепции объединяются и ранжируются для формирования приблизительной общей темы документа. При ранжировании учитывается важность регионов и специфика концепций.
Идентификация и Исключение шума: Регионы, чьи основные концепции не совпадают с глобальной темой, помечаются как нерелевантные и исключаются.
Определение смысла: Финальный Source Meaning (например, взвешенный вектор концепций) рассчитывается только на основе релевантных регионов.

Актуальность для SEO

Высокая. Идентификация основного содержания (Main Content) и отделение его от шаблонных элементов (Boilerplate Detection) является критически важной задачей для современных поисковых систем. Способность Google игнорировать шум для точного понимания цели страницы фундаментальна для оценки качества контента, релевантности и применения сигналов E-E-A-T. Описанные принципы остаются крайне актуальными.

Важность для SEO

Патент имеет высокое значение для SEO (85/100). Он описывает базовый механизм, с помощью которого Google интерпретирует макет страницы и изолирует основной контент от вспомогательного. Это напрямую влияет на индексацию и оценку релевантности. Если система не сможет корректно идентифицировать основной контент из-за плохой структуры или чрезмерного шума, тематическое позиционирование страницы может пострадать.

Детальный разбор

Термины и определения

Concept (Концепция): Смысловая единица, извлеченная из текста. Определяется через набор связанных слов/терминов (синонимов). Характеризуется связями с другими концепциями, частотой и широтой значения (breadth).
Document Engine: Система, отвечающая за анализ документа. Включает Preprocessor, Meaning Processor и Matching Processor.
Item (Элемент): Внешний контент, с которым сопоставляется документ (например, ключевое слово, реклама, другой документ).
Local Concept (Локальная концепция): Наиболее релевантная концепция, идентифицированная в пределах одного конкретного региона.
Region (Регион): Сегмент документа, идентифицированный на основе эвристик. Примеры: Title region (заголовок), Text region (основной текст), Link region (ссылки), List region (список).
Semantic Network (Семантическая сеть): Структура взаимосвязанных значений (база знаний), используемая для сопоставления слов документа с концепциями.
Source Meaning (Смысл источника/документа): Финальное тематическое представление документа после исключения нерелевантных регионов. Может представлять собой взвешенный вектор релевантных концепций (vector of weighted concepts).
Unrelated Regions (Нерелевантные/Несвязанные регионы): Регионы, чьи локальные концепции не согласуются с основной темой документа (например, шаблонный контент, реклама).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения смысла документа.

Система идентифицирует несколько регионов в первом документе.
Определяются концепции, выраженные в документе, и соотносятся с регионами, в которых они выражены.
Концепции ранжируются (ranking).
Ранжирование используется для идентификации первого региона, который выражает концепции, не связанные (not related) с концепциями, получившими высокий рейтинг (т.е. с основной темой).
Система исключает (eliminating) по крайней мере некоторые концепции, выраженные в первом регионе, при определении смысла первого документа.

Ядром изобретения является использование глобального ранжирования концепций для выявления и последующего игнорирования разделов страницы, которые тематически не соответствуют основному содержанию документа.

Claim 2 (Зависимый от 1): Детализирует процесс ранжирования и фильтрации.

Создается коллекция всех концепций из всех регионов.
Оценивается релевантность (scoring the relevancy) концепций.
Создается отфильтрованная коллекция путем исключения концепций, чей вклад в общую сумму оценок ниже порогового значения (threshold amount).

Этот пункт описывает создание аппроксимированного смысла документа (отфильтрованной коллекции), которое затем используется для оценки релевантности отдельных регионов.

Claims 3 и 4 (Зависимые): Детализируют факторы оценки концепций.

Claim 3: Оценка повышается (boosting a score), если концепции имеют сильную связь (strong connection) друг с другом. (Фокус на тематической связности).
Claim 4: Оценка понижается (diminishing a score), если концепция является относительно более широкой или общей (broader or more common), чем другие. (Фокус на специфичности).

Claim 8 (Независимый пункт): Описывает систему, реализующую метод на примере веб-страницы.

Получение веб-страницы.
Идентификация локальных концепций и регионов.
Ранжирование локальных концепций.
Идентификация первого региона, выражающего локальные концепции, не связанные с большинством концепций.
Исключение первого региона и выраженных в нем концепций из определения смысла веб-страницы в целом.

Где и как применяется

Этот патент описывает критически важный процесс, происходящий на этапе обработки и анализа контента.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Document Engine анализирует сырой контент, полученный после сканирования.

Рендеринг и Структурный анализ: Система обрабатывает документ (например, HTML) и применяет эвристики для сегментации на Regions.
Извлечение Признаков (Feature Extraction) и NLP: Preprocessor применяет NLP и использует Semantic Network для извлечения Concepts из текста.
Определение Смысла (Meaning Determination): Meaning Processor выполняет итеративный процесс анализа и очистки (исключение Unrelated Regions) для определения финального Source Meaning. Этот смысл сохраняется в индексе.

RANKING – Ранжирование / METASEARCH – Метапоиск
Результат (Source Meaning) используется на этих этапах. Matching Processor сопоставляет очищенный смысл документа с запросами пользователей (для ранжирования) или с другим контентом, например, рекламой (как описано в патенте).

Входные данные:

Исходный документ (HTML, текст, форматирование).
Данные Semantic Network для идентификации концепций и их связей.

Выходные данные:

Source Meaning документа (например, взвешенный вектор релевантных концепций).
Идентификация релевантных и нерелевантных регионов документа.

На что влияет

Структура страницы: Влияет на то, как Google интерпретирует макет. Страницы с четким разделением основного (MC) и вспомогательного (SC) контента будут поняты более точно.
Типы контента: Применимо ко всем типам документов (веб-страницы, PDF), особенно к тем, которые имеют сложную структуру и много шаблонных элементов (новости, блоги, e-commerce).
Точность определения темы: Повышает точность за счет фильтрации шума и фокуса на специфичных, взаимосвязанных концепциях.

Когда применяется

Триггеры активации: Применяется во время индексации или обновления индекса. Также может применяться в реальном времени при запросе на сопоставление контента (например, рекламы) для новой или измененной страницы.
Условия работы: Алгоритм наиболее эффективен при наличии в документе нескольких регионов с различным тематическим содержанием.

Пошаговый алгоритм

Этап 1: Предварительная обработка и Сегментация

Препроцессинг документа: Применение NLP для извлечения слов/токенов. Сопоставление токенов с Semantic Network для идентификации Concepts.
Идентификация регионов: Применение эвристик для сегментации документа:
- HTML-теги (например, <title> определяет Title region).
- Плотность ссылок (например, >70% текста внутри тегов <a> определяет Link region).
- Структура текста (короткие фразы без глаголов/пунктуации – List region; длинные предложения с глаголами и пунктуацией – Text region).

Этап 2: Локальный анализ концепций

Определение локальных оценок: Для каждой концепции в регионе рассчитывается оценка (score). Факторы:
- + Связность с другими концепциями (сильная связь повышает оценку).
- — Широта/Частота (слишком общие или частые концепции пессимизируются).
- + Важность (например, выделение жирным шрифтом).
Фильтрация: Наименее релевантные концепции удаляются, формируя набор Local Concepts для региона.

Этап 3: Глобальный анализ и фильтрация регионов

Объединение и перерасчет оценок: Все Local Concepts объединяются в глобальный список. Оценки пересчитываются с учетом:
- Важности региона (например, Title region важнее Link region).
- Появления концепции в нескольких регионах (оценки суммируются).
Фильтрация глобального списка: Список сортируется. Концепции с низким вкладом в общую оценку (например, менее 20%) удаляются. Это формирует «приблизительный смысл» документа.
Исключение регионов: Для каждого региона проверяется, присутствуют ли его наиболее репрезентативные Local Concepts в отфильтрованном глобальном списке. Если НЕТ, регион помечается как нерелевантный (Unrelated Region).

Этап 4: Определение итогового смысла

Пересчет: Оценки концепций пересчитываются, используя только концепции из оставшихся (релевантных) регионов.
Сокращение и Нормализация: Список сокращается до фиксированного числа (например, топ-25), оценки нормализуются для получения финального Source Meaning.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа (слова, токены).
Структурные факторы:
- HTML-теги: Упоминаются <title> и <a> для идентификации регионов.
- Структура текста: Длина абзацев и предложений.
Лингвистические факторы: Наличие глаголов, пунктуации (используется для отличия Text region от List/Link region).
Технические факторы (Форматирование): Упоминается выделение жирным шрифтом (bold) как сигнал важности концепции.
Внешние данные: Semantic Network для связи слов с концепциями и определения их характеристик (связность, широта).

Какие метрики используются и как они считаются

Система использует несколько уровней оценок (Scores) и порогов.

Local Concept Score (Локальная оценка концепции): Рассчитывается внутри региона. Факторы:
- Связность (Connection strength): Повышает оценку.
- Частота (Frequency) и Широта (Breadth): Слишком высокие значения пессимизируются.
- Важность (Importance): Сигналы форматирования (например, bold).
Global Concept Score (Глобальная оценка концепции): Рассчитывается при объединении. Факторы:
- Важность региона (Region importance): Концепции из более важных регионов (например, Title) получают больший вес.
- Кросс-региональное появление: Повышает оценку (оценки суммируются).
Пороги фильтрации:
- Порог частоты: Для фильтрации слишком частых концепций.
- Порог вклада в глобальную оценку: Например, 20%. Используется для удаления шума из глобального списка концепций.

Выводы

Фундаментальность сегментации контента (Page Segmentation): Google активно сегментирует веб-страницы для изоляции основного контента от шаблонных элементов (boilerplate), навигации и рекламы. Это не просто структурный анализ, а итеративный тематический процесс.
Игнорирование нерелевантных блоков: Система сначала определяет общую тему страницы, а затем проверяет каждый блок на соответствие этой теме. Блоки, которые тематически выбиваются, игнорируются при определении Source Meaning.
Приоритет специфичности и связности: При оценке концепций система предпочитает специфичные (не слишком широкие) и тематически связанные концепции (сильные связи повышают оценку). Основной контент должен быть сфокусированным и когерентным.
Структура и форматирование как сигналы: HTML-теги, лингвистические особенности текста (структура предложений) и форматирование (жирный шрифт) используются как эвристики для сегментации и определения важности контента.
Влияние на Индексацию и Ранжирование: Точность определения Source Meaning напрямую влияет на то, по каким запросам страница будет считаться релевантной. Если основной контент не будет корректно изолирован от шума, релевантность страницы может быть недооценена.

Практика

Best practices (это мы делаем)

Обеспечение четкой структуры страницы (Page Layout): Используйте чистую верстку и семантические элементы HTML5 (<main>, <article>, <aside>, <nav>). Это помогает системам сегментации корректно идентифицировать Regions и отделять Основной Контент (MC) от Вспомогательного (SC) и шаблонного.
Фокус на тематической когерентности MC: Основной контент должен быть сфокусированным и внутренне связанным. Патент указывает, что связанные концепции усиливают друг друга (boosting a score).
Глубина и Специфичность контента: Сосредоточьтесь на глубоком раскрытии темы. Используйте специфичные термины, так как слишком широкие концепции пессимизируются (diminishing a score).
Использование форматирования для акцентов: Используйте выделение (например, жирным шрифтом) для важных терминов в MC, так как патент упоминает это как фактор повышения важности (Perceived Importance) концепции.
Качественная структура текста в MC: Пишите основной контент полноценными, грамматически правильными предложениями. Это помогает системе классифицировать его как Text region, а не как менее важный List region.

Worst practices (это делать не надо)

Оптимизация шаблонных элементов (Boilerplate): Насыщение футера, сайдбара или сквозных блоков ключевыми словами. Этот патент разработан для игнорирования таких регионов при определении основной темы страницы.
Сложные и запутанные макеты: Неструктурированный HTML, затрудняющий алгоритмическую сегментацию страницы на регионы.
Разбавление MC нерелевантными блоками: Вставка больших объемов нерелевантного контента (например, агрессивной рекламы или несвязанных виджетов) в середину основного контента. Это может привести к неправильной сегментации и разбавлению Source Meaning.
Тонкий основной контент: Ситуации, когда шаблонный контент и реклама по объему значительно превосходят уникальное основное содержание, что затрудняет определение Source Meaning.

Стратегическое значение

Патент подчеркивает важность совместной работы технического SEO, дизайна (UX/UI) и контент-стратегии. Стратегическим приоритетом является создание сайтов, которые не только удобны для пользователей, но и алгоритмически понятны. Необходимо обеспечить, чтобы основное содержание было легко идентифицируемо, сфокусировано и семантически богато, в то время как вспомогательные элементы не создавали тематического шума.

Практические примеры

Сценарий: Оптимизация карточки товара E-commerce

Проблема: Карточка товара содержит описание, характеристики, отзывы (MC), а также навигацию, футер и большие блоки «С этим товаром покупают» и «Вы недавно смотрели» (SC/Boilerplate). Необходимо, чтобы Google точно понял тематику товара.

Применение на основе патента:

Структурирование: MC (описание, отзывы) структурно выделяется (например, с помощью микроразметки Product и семантических тегов). Блоки SC помещаются в <aside> или располагаются так, чтобы не разрывать MC.
Анализ Концепций:
- Регион MC содержит специфичные концепции: «Модель XYZ», «Характеристики процессора», «Отзывы о батарее».
- Регионы SC/Boilerplate содержат общие или несвязанные концепции: «Ноутбуки», «Контакты», «Кроссовки» (из блока «Недавно смотрели»).
Ожидаемый результат: Система определяет глобальное значение, сфокусированное на «Модель XYZ». Регионы с общими или несвязанными концепциями идентифицируются как Unrelated Regions и игнорируются. Финальный Source Meaning точно отражает содержание карточки товара, улучшая ранжирование по товарным запросам.

Вопросы и ответы

Что такое сегментация контента в контексте этого патента?

Это процесс разделения документа на отдельные регионы (regions) на основе структурных и текстовых эвристик. Цель — отделить функциональные части страницы (например, основной текст, меню, футер, рекламу), чтобы проанализировать их тематическое содержание по отдельности и понять, какие из них формируют основную тему документа.

Как Google определяет, какие регионы являются нерелевантными (шумом)?

Система использует итеративный подход. Сначала она объединяет концепции из всех регионов и ранжирует их, чтобы получить приблизительное общее значение документа. Затем она сравнивает ключевые концепции каждого отдельного региона с этим общим значением. Если концепции региона не совпадают с доминирующей темой документа, регион помечается как нерелевантный (unrelated) и игнорируется.

Влияет ли этот патент на органический поиск или только на контекстную рекламу?

Хотя примеры в патенте часто ссылаются на сопоставление с рекламой (например, AdSense), описанный механизм определения смысла документа (Source Meaning) является фундаментальным для понимания контента. Точное определение основной темы страницы критически важно как для релевантности рекламы, так и для ранжирования в органическом поиске. Этот процесс происходит на этапе индексации.

Какие HTML-теги помогают системе сегментировать страницу?

Патент явно упоминает использование <title> для идентификации региона заголовка и анализ плотности тегов <a> (ссылок) для идентификации регионов ссылок (Link region). Также система анализирует структуру текста (абзацы, предложения). Использование современных семантических тегов HTML5 (<nav>, <main>, <aside>) также значительно облегчает этот процесс.

Что важнее для оценки концепций: частота или специфичность?

Патент подчеркивает важность специфичности и связности. Частота учитывается, но система активно пессимизирует слишком общие или широкие концепции (broader or more common). Также повышается оценка для концепций, которые имеют сильные связи с другими концепциями на странице. Специфичность и тематическая связность важнее простой частоты.

Как система отличает основной текстовый контент от меню или списка?

Патент описывает использование лингвистических и структурных эвристик. Текст без структуры законченного предложения (например, без глагола, слишком мало слов или без пунктуации), может быть помечен как List region или Link region. Текст в длинных предложениях, с глаголами и пунктуацией, помечается как Text region (основной контент).

Стоит ли пытаться оптимизировать футер или навигацию ключевыми словами?

Нет. Этот патент демонстрирует, что Google активно разрабатывает механизмы для идентификации и игнорирования таких шаблонных элементов при определении основной темы страницы. Усилия по оптимизации должны быть сосредоточены исключительно на основном контенте (Main Content).

Влияет ли форматирование текста (например, жирный шрифт) на этот процесс?

Да. Патент упоминает, что форматирование, такое как выделение жирным шрифтом слов, связанных с концепцией, может использоваться как сигнал для повышения воспринимаемой важности (Perceived Importance) этой концепции, что положительно влияет на ее оценку в процессе анализа.

Может ли блок перелинковки (например, «Похожие статьи») навредить релевантности страницы?

Если блок содержит контент, тематически сильно отличающийся от основного содержания, он может внести шум. Однако, если система корректно сегментирует страницу, этот блок будет идентифицирован как отдельный регион. Если его концепции не совпадут с общей темой, он будет проигнорирован. Риск возникает, если структура страницы затрудняет корректную сегментацию.

Как этот патент соотносится с современными концепциями Main Content (MC) и Supplementary Content (SC)?

Патент напрямую описывает алгоритмический способ разделения MC и SC. Основное содержание (MC) состоит из тех регионов, которые остались после фильтрации Unrelated Regions. Вспомогательный контент (SC), навигация и шаблоны (boilerplate) – это те самые Unrelated Regions, которые система стремится идентифицировать и исключить из анализа смысла документа.