Google анализирует структуру веб-страницы (HTML-теги, форматирование), разделяя ее на регионы (заголовок, основной текст, списки ссылок). Система определяет локальные концепции для каждого блока, а затем сравнивает их, чтобы выявить общее значение страницы. Регионы, чьи концепции не совпадают с общим значением (например, навигация, футер или реклама), игнорируются, позволяя точнее определить смысл основного контента.
Описание
Какую задачу решает
Патент решает проблему «размывания» (dilution) основного смысла документа из-за наличия нерелевантных или шаблонных блоков (boilerplate content), таких как навигационные меню, футеры или рекламные вставки. Если анализировать весь текст страницы целиком, контент из этих блоков вносит шум и затрудняет точное определение главной темы документа. Изобретение позволяет системе идентифицировать и игнорировать эти нерелевантные регионы для более точного понимания контента.
Что запатентовано
Запатентована система определения основного значения (Source Meaning) документа путем его интеллектуальной сегментации. Система идентифицирует различные регионы (Regions) на странице, используя структурные и форматные признаки (HTML/XML теги). Для каждого региона определяются локальные концепции (Local Concepts). Затем система выявляет и исключает регионы, чьи концепции не соответствуют общему значению документа. Итоговое значение формируется только на основе релевантных блоков.
Как это работает
Система работает в несколько этапов:
- Сегментация: Документ разделяется на регионы на основе HTML-тегов, форматирования и структуры текста (например, Title Region, Text Region, Link Region).
- Локальный анализ: Для каждого региона определяются и взвешиваются ключевые Local Concepts.
- Глобальный анализ: Локальные концепции объединяются в глобальный список (Global List). При этом учитывается важность и размер каждого региона (например, заголовок важнее ссылок).
- Фильтрация регионов: Система определяет, присутствуют ли основные концепции региона в топе глобального списка. Если нет, регион помечается как нерелевантный (шаблонный) и исключается.
- Определение значения: Итоговое Source Meaning, представленное как взвешенный вектор концепций (weighted vector of concepts), рассчитывается только на основе концепций из оставшихся релевантных регионов.
Актуальность для SEO
Высокая. Понимание структуры страницы и отделение основного контента (Main Content) от шаблонных блоков (Boilerplate) остается критически важной задачей для современных поисковых систем. Этот патент, разработанный ключевыми фигурами Applied Semantics (ядро AdSense), описывает фундаментальный механизм для такого анализа контента, который необходим как для ранжирования, так и для контекстной рекламы.
Важность для SEO
Патент имеет критическое значение для SEO. Он описывает конкретный механизм, позволяющий Google игнорировать целые блоки контента на странице, если система сочтет их нерелевантными основной теме. Это напрямую влияет на стратегии оптимизации структуры шаблонов, размещения ключевой информации и внутренней перелинковки, так как контент в «неправильном» блоке может быть полностью исключен из определения смысла страницы.
Детальный разбор
Термины и определения
- Concept (Концепция)
- Единица смысла, представленная кластером связанных слов или терминов (синонимов). Концепции имеют характеристики, такие как широта значения (breadth) и частота использования (frequency).
- Formatting Information (Информация о форматировании)
- Признаки, используемые для идентификации регионов. Включают HTML/XML теги (<title>, <a>) и структурные характеристики текста.
- Global List / Ranked Global List (Глобальный список)
- Объединенный и ранжированный список всех локальных концепций из всех регионов документа. Используется как предварительное приближение значения документа для выявления нерелевантных регионов.
- Local Concepts (Локальные концепции)
- Концепции, идентифицированные и ранжированные внутри конкретного региона документа.
- Region (Регион)
- Сегмент документа, идентифицированный системой на основе эвристик, форматирования или структуры. Примеры: Title Region (заголовок), Link Region (ссылки), Text Region (текст), List Region (список).
- Semantic Network (Семантическая сеть)
- Структура данных, содержащая взаимосвязанные концепции. Используется для сопоставления слов документа с концепциями.
- Source Meaning (Значение источника)
- Итоговое определение основного смысла документа после фильтрации нерелевантных регионов. Представляется как взвешенный вектор релевантных концепций (weighted vector of relevant concepts).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает базовый метод определения значения веб-страницы.
- Получение веб-документа.
- Идентификация различных регионов на основе formatting information (включая контент между открывающими и закрывающими HTML или XML тегами).
- Определение концепций в каждом регионе.
- Определение оценок (scores) для концепций. Оценка может базироваться на размере региона (size of the region).
- Создание ranked global list концепций.
- Удаление несвязанных (unrelated) концепций из глобального списка.
- Определение Source Meaning как вектора концепций (vector of concepts).
Claim 6 (Независимый пункт): Описывает более детальный процесс, включающий исключение целых регионов и финальное сопоставление.
- Идентификация регионов на основе форматирования (HTML/XML теги).
- Определение Local Concepts в каждом регионе.
- Определение оценок (scores) для локальных концепций, учитывая важность региона (importance associated with the region) (в отличие от размера в Claim 1).
- Анализ и исключение несвязанных концепций путем создания ranked global list.
- Анализ и исключение несвязанных регионов путем сравнения ранжированного списка локальных концепций для каждого региона с Global List. (Это ключевой механизм удаления boilerplate).
- Определение Source Meaning как взвешенного вектора (weighted vector) оставшихся концепций.
- Сопоставление Source Meaning со значением внешнего элемента (Item).
Claim 16 (Зависимый): Детализирует критически важный механизм выявления и исключения несвязанных концепций и регионов (шаги 4 и 5 из Claim 6).
- Рассчитываются пересмотренные оценки (revised scores) для всех локальных концепций.
- Создается ранжированный Global List.
- Удаляются концепции, чей суммарный вклад в общую оценку ниже определенного порога (создается результирующий список).
- Идентифицируются регионы, чьи наиболее релевантные локальные концепции (most relevant local concepts – концепция с наивысшей оценкой в регионе) отсутствуют в результирующем списке.
- Все локальные концепции из этих идентифицированных (нерелевантных) регионов удаляются для создания финального списка релевантных концепций.
Где и как применяется
Изобретение применяется на этапе анализа и понимания контента для определения его основной тематики.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе извлечения признаков (Feature Extraction) система (Document Engine) должна проанализировать структуру документа (HTML/XML), отделить основной контент от шаблонных элементов и точно определить его тематику (Source Meaning). Этот процесс необходим для сохранения релевантной информации о документе в индексе.
RANKING – Ранжирование
Рассчитанное Source Meaning (взвешенный вектор концепций) используется алгоритмами ранжирования для определения семантической релевантности документа запросу пользователя.
Примечание: Патент также описывает применение этого механизма для контекстной рекламы (AdSense).
Входные данные:
- Исходный документ (HTML, XML, PDF).
- Semantic Network для идентификации концепций.
Выходные данные:
- Source Meaning (взвешенный вектор концепций).
- Идентификация релевантных и нерелевантных регионов страницы.
На что влияет
- Конкретные типы контента: Наиболее сильно влияет на веб-страницы (HTML/XML) со сложной структурой, содержащие множество разнородных блоков (меню, сайдбары, футеры, реклама, основной текст).
- Структурные факторы: Влияет на то, как Google воспринимает шаблон сайта. Контент, размещенный в блоках, которые система классифицирует как нерелевантные (например, обширные Link Regions), может быть проигнорирован при определении основной темы.
- Лингвистические факторы: Влияет на восприятие стиля текста. Текст, написанный полноценными предложениями, с большей вероятностью будет классифицирован как важный Text Region, чем рубленые фразы (List Region).
Когда применяется
- Условия работы и Триггеры: Алгоритм применяется при индексации (или переиндексации) документа, или в момент, когда требуется определить его значение для контекстного сопоставления (например, при запросе на размещение рекламы на этой странице).
Пошаговый алгоритм
Процесс определения значения документа (Source Meaning):
- Предварительная обработка документа: Документ парсится. Выполняется NLP-анализ для идентификации слов (токенов), которые затем сопоставляются с концепциями из Semantic Network.
- Идентификация регионов: Документ сегментируется на регионы (Regions). Используются эвристики, основанные на:
- HTML-тегах (например, <title> для Title Region).
- Плотности ссылок (например, если >70% текста в абзаце внутри <a>, это Link Region).
- Структуре текста (длина абзацев, наличие глаголов, пунктуация) для различения Text Region и List Region.
- Крупные регионы (например, >20% документа) могут быть разбиты на более мелкие части.
- Определение локальных концепций: Для каждого региона составляется ранжированный список Local Concepts. Оценка концепции (Score) зависит от ее связей с другими концепциями в регионе, частотности, широты значения и признаков важноosti (например, выделение жирным шрифтом).
- Создание глобального списка (Global List): Все Local Concepts объединяются. Оценки концепций пересчитываются (Revised Score) с учетом факторов смещения (Biasing Factors): важности региона (Region Importance), размера региона и присутствия концепции в нескольких регионах.
- Предварительная фильтрация концепций: Из Global List удаляются концепции с низким вкладом в общую оценку (например, нижние 20%). Оставшийся список представляет собой приблизительный смысл всего документа.
- Исключение нерелевантных регионов: Система проверяет каждый регион: присутствуют ли его наиболее важные Local Concepts в отфильтрованном Global List. Если ключевые концепции региона отсутствуют в глобальном списке, регион помечается как нерелевантный (шаблонный) и исключается из дальнейшего анализа.
- Определение итогового значения: Source Meaning пересчитывается заново, используя только концепции из оставшихся релевантных регионов. Результат нормализуется и представляется как взвешенный вектор концепций.
Какие данные и как использует
Данные на входе
Система активно использует структурные, контентные и лингвистические данные для сегментации и анализа:
- Структурные и Технические факторы: Критически важны для сегментации. Используются HTML/XML теги (<title>, <a> и другие).
- Контентные факторы: Текст внутри каждого региона, который анализируется для извлечения концепций.
- Лингвистические факторы: Структура предложений (наличие глаголов, пунктуация), длина предложений и абзацев используются для определения типа региона (например, отличие Text Region от List Region).
- Факторы форматирования: Упоминается использование визуального форматирования (например, жирный шрифт/bold) для повышения оценки важности (importance) концепции.
Какие метрики используются и как они считаются
- Local Concept Score (Локальная оценка концепции): Рассчитывается внутри региона. Зависит от связей концепции, ее частотности (frequency), широты значения (breadth/focus) и признаков важности (форматирование). Слишком частые или широкие концепции могут пессимизироваться.
- Region Importance (Важность региона): Метрика, присваиваемая региону на основе его типа (например, Title Region важнее, чем Link Region) и его размера (size).
- Revised/Global Concept Score (Пересмотренная оценка): Глобальная оценка концепции в Global List. Агрегирует Local Concept Scores с учетом Region Importance и появления в нескольких регионах.
- Пороги (Thresholds):
- Порог плотности ссылок (например, 70%) для идентификации Link Region.
- Порог размера региона (например, 20%) для его разделения на части.
- Порог фильтрации глобального списка (например, 20%) для удаления нерелевантных концепций.
Выводы
- Активная сегментация и игнорирование Boilerplate: Google не рассматривает страницу как единый монолитный текст. Система активно сегментирует ее на регионы (Regions) и применяет сложную логику для отделения основного контента от шаблонных элементов (навигация, футер, реклама).
- Механизм определения релевантности блока: Ключевой механизм — это сравнение локальной и глобальной тематики. Регион считается релевантным, только если его основные темы (Local Concepts) соответствуют общим темам документа (Global List). Если темы блока уникальны и не поддерживаются другими частями документа, он будет проигнорирован.
- Важность структуры и разметки: Идентификация регионов и определение их типа напрямую зависят от HTML-разметки (теги <title>, <a>) и лингвистических характеристик текста. Чистая верстка критична для корректного анализа.
- Дифференцированное взвешивание регионов: Разные типы регионов имеют разный вес (Region Importance). Контент в Title Region получает больший вес, чем контент в Link Region или List Region. Также учитывается размер региона.
- Смысл как вектор концепций: Итоговое понимание страницы (Source Meaning) — это не набор ключевых слов, а взвешенный вектор концепций, извлеченных исключительно из релевантных блоков документа.
Практика
Best practices (это мы делаем)
- Использование четкой семантической структуры (HTML5): Активно использовать семантические теги (<header>, <nav>, <main>, <article>, <aside>, <footer>). Это помогает системе корректно идентифицировать регионы и правильно оценить их важность (Region Importance).
- Обеспечение доминирования основного контента: Убедиться, что основной контент страницы составляет значительную ее часть, классифицируется как Text Region и содержит ключевые концепции страницы.
- Согласованность тематики (Thematic Consistency): Основные темы должны прослеживаться в разных важных регионах (например, Title Region и Text Region). Это повышает их вес в Global List и гарантирует, что регионы будут признаны релевантными.
- Оптимизация заголовков: Патент подтверждает высокую важность Title Region. Концепции в заголовках получают повышенный вес при формировании Global List.
- Качество написания текста: Писать контент, используя полноценные предложения с правильной структурой и пунктуацией. Это помогает классифицировать блок как Text Region (более важный), а не как List Region.
- Использование форматирования для акцентов: Использование выделения (например, жирным шрифтом) для важных терминов может повысить оценку важности (importance) соответствующей концепции.
Worst practices (это делать не надо)
- Размещение ключевой информации в шаблонных блоках: Размещение важного для ранжирования контента в футере, сайдбаре или обширных меню. Эти блоки с высокой вероятностью будут классифицированы как Link Regions или признаны нерелевантными и проигнорированы.
- Чрезмерная перелинковка внутри основного контента: Если в абзаце основного текста более 70% содержимого составляют ссылки (<a>), весь абзац может быть классифицирован как Link Region, что значительно снизит его вес.
- Использование неструктурированного текста: Представление основной информации в виде коротких, рубленых фраз без глаголов или пунктуации. Это может привести к классификации блока как List Region вместо Text Region.
- Запутанная верстка («Div Soup» или таблицы): Использование несемантических тегов или табличной верстки для макета затрудняет сегментацию и может привести к ошибкам в идентификации регионов.
- Тематическое несоответствие блоков: Наличие больших блоков текста, тематически не связанных с основной темой страницы. Такие блоки рискуют быть исключенными как Unrelated Regions.
Стратегическое значение
Патент демонстрирует фундаментальный подход Google к пониманию контента: анализ страницы не как единого целого, а как набора структурных компонентов с разной степенью релевантности. Для SEO это подтверждает важность технической оптимизации шаблонов и архитектуры сайта. Чтобы контент работал на ранжирование, он должен быть не только качественным, но и расположенным в той части документа, которую Google идентифицирует как основной релевантный регион. Этот механизм является основой для работы систем, определяющих полезность контента (Helpful Content).
Практические примеры
Сценарий: Оптимизация шаблона статьи в блоге
- Проблема: В шаблоне статьи используется большой сайдбар, содержащий список последних новостей, облако тегов и рекламный баннер. Основной текст статьи занимает менее 50% ширины экрана.
- Анализ по патенту: Система сегментирует страницу. Сайдбар, вероятно, будет разбит на Link Regions (новости, теги) и нерелевантный блок (баннер). Основной текст будет идентифицирован как Text Region. Концепции из сайдбара могут «зашумлять» Global List и размыть основную тему статьи.
- Действие: Использовать тег <aside> для сайдбара и <article> внутри <main> для основного текста. Это поможет системе правильно определить важность регионов. Убедиться, что текст статьи написан полноценными предложениями и тематически согласован с заголовком (Title Region).
- Результат: Система с большей вероятностью присвоит высокий Region Importance блоку <article> и низкий блокам в <aside>. При формировании Source Meaning основной вес будет отдан концепциям из статьи, что улучшит ее тематическую релевантность.
Вопросы и ответы
Как система определяет, что является регионом (Region) на странице?
Система использует комбинацию эвристик и информации о форматировании. Упоминаются анализ HTML/XML-тегов (например, <title> определяет Title Region), анализ плотности ссылок (абзац, где более 70% текста внутри <a>, может стать Link Region), а также лингвистический анализ. Длинные предложения с глаголами и пунктуацией идентифицируются как Text Region, а короткие фразы — как List Region.
Как Google решает, какой регион важен, а какой нет?
Патент описывает два механизма. Во-первых, используется важность региона (Region Importance), которая зависит от типа региона (Title Region важнее Link Region) и его размера. Во-вторых, применяется динамическая оценка: если ключевые темы региона не совпадают с общими темами документа (Global List), регион признается нерелевантным и исключается из анализа смысла, независимо от его типа.
Означает ли это, что ключевые слова в футере или меню полностью игнорируются?
Да, с высокой вероятностью. Меню и футеры часто классифицируются как Link Regions с низкой важностью. Поскольку они содержат общие навигационные термины, которые могут не совпадать с основной темой конкретной страницы, эти регионы, скорее всего, будут исключены как нерелевантные при определении итогового смысла страницы (Source Meaning).
Как обеспечить, чтобы основной контент был правильно идентифицирован?
Необходимо использовать чистую семантическую разметку (например, <main>, <article>) и следить за качеством текста. Основной контент должен быть написан полноценными предложениями (для классификации как Text Region) и быть тематически согласованным с заголовком страницы (Title Region).
Влияет ли форматирование текста (например, жирный шрифт) на анализ?
Да. В патенте упоминается, что форматирование (например, выделение жирным/bold) может использоваться для определения важности (importance) концепции. Выделение ключевых терминов может повысить оценку (Score) соответствующей концепции внутри региона.
Что такое «взвешенный вектор концепций» (weighted vector of concepts)?
Это способ представления смысла документа. Вместо одного ключевого слова, смысл описывается набором тем (концепций) с присвоенными им весами. Например, смысл страницы может быть определен как: «Ловля нахлыстом (40%), Семга (40%), Вашингтон (20%)». Этот вектор (Source Meaning) используется для ранжирования и сопоставления.
Как этот патент связан с семантическими тегами HTML5 (header, nav, main, aside)?
Патент был подан до широкого распространения HTML5 и описывает эвристики для угадывания структуры. Использование семантических тегов HTML5 значительно упрощает для Google задачу идентификации регионов и определения их важности, делая анализ более точным и менее зависимым от эвристик.
Может ли блок внутренней перелинковки в статье негативно повлиять на ее оценку?
Да, может. Если блок слишком большой или содержит слишком много ссылок по отношению к тексту (>70%), он может быть классифицирован как Link Region с низким весом. Если темы в этом блоке сильно отличаются от основной темы статьи, он может быть исключен или внести шум в Global List, размывая тематику.
Как обрабатываются большие блоки текста (лонгриды)?
В патенте (и Claim 20) указано, что если текстовый регион занимает более определенного процента документа (например, 20%), он может быть разбит на более мелкие части. Это позволяет системе более гранулярно анализировать длинные документы и, возможно, исключать отдельные нерелевантные разделы внутри основного контента.
Является ли этот механизм частью AdSense или основного поиска Google?
Изобретатели работали в Applied Semantics (основа AdSense), и патент часто упоминает сопоставление с рекламой. Однако описанный механизм определения смысла документа путем сегментации и исключения нерелевантных блоков является фундаментальным процессом понимания контента, который применим и используется в основном поиске Google для индексации и ранжирования.