Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

Описание

Какую задачу решает

Патент решает проблему неточного определения основного предмета (Сущности или Темы) документа, когда стандартные методы, такие как использование заголовка (Title) страницы, оказываются неэффективными. Заголовки часто содержат информацию, не относящуюся к основному предмету страницы, например, название бренда, рекламу или навигационные элементы (например, «CNN.com — Oscar Awards 2006»). Изобретение предлагает автоматизированный метод для отделения названия Сущности от этого шума, повышая точность извлечения фактов (Information Extraction) и понимания контента.

Что запатентовано

Запатентована система для идентификации предмета документа путем анализа структурных и ссылочных шаблонов на уровне домена. Система анализирует группу похожих документов на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Путем сравнения заголовков этих документов с наиболее релевантными анкорными текстами (Labels), система выявляет общие шаблоны (General Patterns), такие как повторяющиеся префиксы или суффиксы. Применение этих шаблонов позволяет изолировать и извлечь истинный предмет целевого документа.

Как это работает

Ключевой механизм основан на предположении, что страницы в пределах одного домена часто следуют схожим шаблонам заголовков, и что анкорные тексты часто описывают суть страницы точнее, чем ее полный заголовок.

Идентификация «Пэров»: Система находит документы на том же домене, что и целевой документ (Peer Documents).
Генерация «Метки» (Label): Для каждого пэра система анализирует входящие анкорные тексты. Выбирается Longest-match anchor text — самый длинный анкор, который также является подстрокой заголовка пэра. Это и есть «Метка».
Выявление Шаблонов: Система сравнивает Метки с полными заголовками пэров, чтобы найти повторяющиеся префиксы и суффиксы (например, префикс «CNN Programs — Anchors/Reporters — «).
Обобщение: Наиболее частые шаблоны (превышающие порог) выбираются как Общий Шаблон (General Pattern) для сайта.
Извлечение Субъекта: Общий Шаблон применяется к заголовку целевого документа для извлечения его основного предмета (Сущности).

Актуальность для SEO

Высокая. Извлечение сущностей (Entity Extraction) и понимание основного предмета страницы остаются фундаментальными задачами для поисковых систем (Knowledge Graph, Information Retrieval). Хотя методы NLP эволюционировали, описанный подход, использующий комбинацию анализа структуры сайта (шаблонов) и ссылочных сигналов (анкоров), остается актуальным для масштабируемого и точного извлечения информации.

Важность для SEO

Патент имеет высокое значение (8/10). Он напрямую влияет на то, как Google идентифицирует основную Сущность страницы. Это критически важно для Entity-First SEO, попадания в Knowledge Graph и точного определения релевантности. Понимание этого механизма требует оптимизации структуры заголовков (Title Consistency) и стратегии анкорных текстов для обеспечения корректной интерпретации контента поисковой системой.

Детальный разбор

Термины и определения

Anchor Text (Анкорный текст): Текст гиперссылки в ссылающемся документе. Используется для описания содержания целевой страницы.
Domain (Домен): Группа документов в интернете, связанных общим доменным именем. Используется для определения Peer Documents.
General Pattern (Общий Шаблон / Второй шаблон в Claim 1): Шаблон (сочетание префиксов и суффиксов), который статистически часто встречается при сравнении Labels и Titles группы Peer Documents. Отражает структуру заголовков на сайте.
Individual Pattern (Индивидуальный Шаблон / Первый шаблон в Claim 1): Специфический префикс и/или суффикс, найденный при сравнении Title и Label одного конкретного Peer Document.
Label (Метка): Текст, предназначенный для представления предмета документа. В патенте генерируется путем выбора Longest-match anchor text для Peer Document.
Linking Document (Ссылающийся документ): Документ (внешний или внутренний), содержащий гиперссылку на Peer Document или целевой документ.
Longest-match anchor text (Самый длинный совпадающий анкорный текст): Анкорный текст, который является подстрокой (substring) заголовка (Title) документа и при этом является самым длинным среди всех таких анкорных текстов.
Peer Documents (Пэр-документы, Документы-аналоги): Документы из того же домена, что и целевой документ. Предполагается, что они имеют схожую структуру или шаблоны заголовков.
Subject (Предмет, Субъект документа): Основная тема или Сущность (Entity), описываемая в документе. Цель изобретения — его точная идентификация.
Target Document (Целевой документ): Исходный документ, для которого система пытается определить Subject.
Title (Заголовок): Заголовок документа (например, HTML-тег <TITLE>).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения предмета целевого документа.

Идентификация множества Peer Documents в том же домене, что и целевой документ.
Для каждого Peer Document:
1. Идентификация ссылающихся документов (Linking Documents) и их анкорных текстов.
2. Выбор одного анкорного текста (Label) на основе заголовка Peer Document.
3. Идентификация первого шаблона (Individual Pattern), общего для заголовка и выбранного анкорного текста.
Идентификация второго шаблона (General Pattern) на основе первых шаблонов. Выбор основан на количестве Peer Documents, связанных с этими первыми шаблонами (т.е. на частоте встречаемости шаблона на сайте).
Идентификация предмета (Subject) целевого документа на основе второго шаблона и заголовка целевого документа.

Claim 2 (Зависимый от 1): Уточняет метод выбора анкорного текста (шаг 1.ii).

Выбор анкорного текста включает определение того, является ли анкорный текст подстрокой заголовка Peer Document. Выбирается тот анкорный текст, который является самой длинной подстрокой заголовка (Longest-match anchor text).

Claim 3 (Зависимый от 1): Уточняет критерий выбора второго (общего) шаблона (шаг 3).

Второй шаблон идентифицируется из первых шаблонов, если он связан с группой Peer Documents, размер которой превышает определенный порог (Threshold).

Claim 4 (Зависимый от 1): Уточняет, как идентифицируется первый шаблон (шаг 1.iii).

Идентификация первого шаблона включает определение префикса или суффикса в заголовке Peer Document относительно выбранного анкорного текста (Label).

Claim 5 (Зависимый от 1): Описывает логику применения второго шаблона.

Если второй шаблон применим к заголовку целевого документа, тема идентифицируется. Если не применим, система может определить, что у целевого документа нет конкретной темы или сущности.

Где и как применяется

Изобретение применяется на этапе индексирования для улучшения понимания контента и извлечения данных.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необходимые исходные данные: документы, их заголовки (Titles), структура ссылок и анкорные тексты.

INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)

Основное применение патента. Описанный механизм является частью процесса извлечения информации (Information Extraction), который выполняется для точного определения Сущности (Subject), с которой связан документ.

Анализ Структуры Сайта: Система группирует документы по доменам (Peer Documents) для выявления шаблонов.
Анализ Ссылок и Анкоров: Используются анкорные тексты входящих ссылок для генерации Labels.
Извлечение Сущностей (Entity Extraction): Цель — вычислить General Patterns для определения истинной темы (Subject). Это критически важно для корректной атрибуции извлеченных фактов к правильному объекту в базе знаний (Fact Repository или Knowledge Graph).

Входные данные:

Целевой документ (URL, Домен, Title).
Набор Peer Documents с того же домена и их Titles.
Данные о входящих ссылках (Linking Documents) и их Anchor Texts для Peer Documents.

Выходные данные:

Идентифицированный Предмет (Subject) или Название Сущности (Entity Name) для целевого документа.
Определение того, что документ не описывает конкретную Сущность (если шаблоны не применимы).

На что влияет

Конкретные типы контента: Наиболее сильно влияет на страницы, являющиеся частью структурированных разделов сайта, где используется шаблонное формирование заголовков: биографии, карточки товаров, статьи в энциклопедиях, профили компаний.
Определенные форматы контента: Страницы, посвященные одной конкретной Сущности (Topic Pages).
Конкретные ниши или тематики: E-commerce, новостные сайты, каталоги, базы знаний — любые сайты с большим количеством однотипных страниц.

Когда применяется

Условия работы алгоритма: Алгоритм применяется во время индексирования или переиндексирования документа, когда система пытается извлечь факты и определить основную Сущность страницы.
Триггеры активации: Наличие достаточного количества Peer Documents на том же домене и наличие входящих ссылок (внутренних или внешних) с анкорными текстами на эти Peer Documents.
Пороговые значения: Алгоритм требует, чтобы общий шаблон (General Pattern) встречался среди Peer Documents выше определенного порога (Threshold). Порог может быть фиксированным (например, 50 раз) или динамическим (например, 33% от общего числа пэров).
Исключения: Если сайт не имеет четкой структуры, имеет слишком мало страниц или на страницы нет входящих ссылок, алгоритм может не сработать.

Пошаговый алгоритм

Процесс определения предмета целевого документа.

Идентификация Пэр-документов: Система определяет набор Peer Documents для целевого документа с того же домена.
Генерация Меток (Labels) для Пэров: Для каждого Peer Document выполняется:
1. Идентификация Ссылок: Находится набор Linking Documents и извлекаются их анкорные тексты.
2. Анализ и Нормализация (Опционально): Анкоры и заголовки могут нормализоваться (удаление пунктуации, стоп-слов).
3. Выбор Метки: Система сравнивает анкорные тексты с заголовком (Title) Peer Document. Выбирается Longest-match anchor text — самый длинный анкорный текст, который является подстрокой заголовка. Этот текст становится Меткой (Label).
Идентификация Индивидуальных Шаблонов: Для каждого пэра система сравнивает его Title и Label. Определяется префикс и суффикс в Title относительно Label. (Например, если Title=»A — B — C», а Label=»B», то префикс=»A — «, суффикс=» — C»). Это формирует Individual Pattern.
Идентификация Общих Шаблонов (General Patterns): Система агрегирует все Individual Patterns и подсчитывает частоту их встречаемости. Шаблоны, частота которых превышает установленный порог (Threshold), выбираются как General Patterns.
Применение Шаблона к Целевому Документу: Система проверяет, применим ли какой-либо из General Patterns к заголовку (Title) целевого документа.
Извлечение Предмета (Subject): Если шаблон применим, он используется для извлечения части заголовка, соответствующей позиции Label в шаблоне. Эта часть и есть искомый Subject. Если применимо несколько шаблонов, может выбираться тот, который генерирует самое длинное описание предмета.

Какие данные и как использует

Данные на входе

Система использует ограниченный набор данных, фокусируясь на структуре и ссылках.

Контентные факторы:
- Заголовки (Titles): Title целевого документа и Peer Documents. Это основной источник для извлечения предмета.
Ссылочные факторы:
- Анкор-тексты (Anchor Texts): Анкорные тексты входящих ссылок на Peer Documents. Используются для генерации Labels и валидации содержания заголовков.
Технические/Структурные факторы:
- Домен/URL: Используется для группировки документов и идентификации Peer Documents на уровне сайта.

Какие метрики используются и как они считаются

Совпадение подстроки (Substring Match): Метрика соответствия анкорного текста заголовку. Анкорный текст должен быть непрерывной последовательностью символов в заголовке.
Длина строки (String Length): Используется для определения Longest-match anchor text.
Частота Шаблона (Pattern Frequency): Количество Peer Documents, чьи Individual Patterns совпадают.
Порог (Threshold): Минимальная частота (абсолютное число или процент), необходимая для того, чтобы Individual Pattern был классифицирован как General Pattern.
Нормализация: При сравнении текста могут применяться правила нормализации (удаление пунктуации, стоп-слов).

Выводы

Google использует анализ шаблонов сайта для извлечения Сущностей: Система не полагается исключительно на анализ контента отдельной страницы. Она активно ищет повторяющиеся структурные элементы (шаблоны заголовков) в пределах одного домена, чтобы понять, как сайт представляет Сущности и отделяет их от шаблонного текста (boilerplate).
Анкорный текст как семантический валидатор заголовка: Патент подтверждает использование анкорного текста как семантического индикатора для определения основного предмета страницы. Longest-match anchor text используется для подтверждения того, какая часть Title является названием Сущности, а какая — шумом.
Преодоление шумных заголовков (Брендинг/Рубрики): Система спроектирована так, чтобы игнорировать брендинг, названия рубрик и другие повторяющиеся элементы в заголовках, если они идентифицированы как часть General Pattern (префикс или суффикс).
Критическая важность согласованности (Consistency): Для корректной работы алгоритма критически важна согласованность структуры заголовков. Если сайт использует множество разных шаблонов для однотипных страниц, системе будет сложнее выявить доминирующий General Pattern, что затруднит извлечение Сущностей.
Извлечение Сущности без прямых ссылок на страницу: Целевому документу самому не обязательно иметь входящие ссылки. Достаточно, чтобы ссылки были на его Peer Documents, что позволяет системе выявить общий шаблон и применить его к целевому документу.

Практика

Best practices (это мы делаем)

Обеспечение максимальной согласованности заголовков (Title Consistency): Используйте четкий и последовательный шаблон для формирования <Title> для однотипных страниц (например, карточек товаров, статей, биографий). Это поможет системе легко идентифицировать General Pattern. Например, используйте формат [Название Сущности] | [Категория] | [Бренд].
Включение названия Сущности в Title как непрерывной фразы: Убедитесь, что полное название основного предмета страницы присутствует в <Title> в виде непрерывной подстроки. Это необходимо для работы механизма Longest-match anchor text.
Оптимизация анкорных текстов (внутренних и внешних): Стимулируйте использование анкорных текстов, которые точно соответствуют названию Сущности страницы. Внутренняя перелинковка должна использовать чистые, неразбавленные анкоры. Это увеличивает вероятность того, что система выберет правильный Label.
Структурирование сайта по разделам: Четкая организация сайта на разделы с однотипным контентом помогает системе эффективно группировать Peer Documents и выявлять релевантные шаблоны.

Worst practices (это делать не надо)

Использование несогласованных или случайных заголовков: Изменение структуры <Title> от страницы к странице для одного и того же типа контента помешает системе выявить General Pattern и надежно извлекать тему.
«Размывание» названия Сущности в Title: Вставка слов внутрь названия Сущности в заголовке. Например, если Сущность — «iPhone 15 Pro Max», а заголовок — «iPhone 15, лучший Pro и большой Max — купить». Анкорный текст «iPhone 15 Pro Max» не будет являться подстрокой этого заголовка.
Использование только общих или кликбейтных анкоров: Если большинство входящих ссылок имеют анкоры типа «читать далее», «лучший продукт» или фразы, не содержащие названия Сущности, система не сможет сгенерировать корректный Label.
Длинные шаблонные префиксы: Использование очень длинных префиксов перед основной темой в заголовке увеличивает сложность анализа и риск ошибки при извлечении темы.

Стратегическое значение

Этот патент подчеркивает важность технического SEO и информационной архитектуры сайта для семантического анализа контента. Он демонстрирует, что для Google важна не только сама информация, но и то, как она структурирована и представлена на сайте. Согласованность (Consistency) является ключевым фактором, позволяющим поисковой системе понимать контент в масштабе. В контексте Entity-First SEO, обеспечение легкого и однозначного извлечения Сущностей из заголовков является фундаментом для дальнейшего ранжирования и представления в Knowledge Graph.

Практические примеры

Сценарий: Оптимизация раздела биографий на новостном сайте (Пример из патента)

Сайт CNN имеет тысячи страниц с биографиями. Необходимо, чтобы Google корректно извлекал Имя и Фамилию.

Анализ заголовков (Peer Documents): Заголовки имеют вид: «CNN Programs — Anchors/Reporters — [Имя Фамилия]» (например, «CNN Programs — Anchors/Reporters — Nancy Grace»).
Анализ входящих анкоров (Labels): Внешние сайты ссылаются, используя анкоры «Nancy Grace» или «Grace».
Проверка работы алгоритма: Система определяет, что «Nancy Grace» является Longest-match anchor text. Это становится Меткой (Label).
Определение шаблона: Система анализирует множество таких страниц и определяет General Pattern: Префикс = «CNN Programs — Anchors/Reporters — «, Суффикс = «».
Действие SEO-специалиста: Убедиться, что все новые страницы биографий строго следуют этому шаблону и что внутренняя перелинковка использует полные имена в качестве анкоров.
Ожидаемый результат: Google надежно извлекает Имя и Фамилию как основную Сущность (Subject) для каждой страницы, игнорируя шаблонный префикс в заголовке.

Сценарий: Исправление ошибок извлечения Сущностей в E-commerce

Google путает названия товаров на сайте из-за непостоянных заголовков.

Анализ проблемы: На сайте используются разные форматы Title для товаров одной категории:
- «Купить Samsung Galaxy S25 Ultra в Москве недорого»
- «Samsung: Модель Galaxy S25 Ultra — характеристики»
- «Лучший смартфон 2025 года — Galaxy S25 Ultra от Samsung»
Действие SEO-специалиста: Стандартизировать все заголовки к единому формату, где название модели идет непрерывной фразой, например: «Смартфон Samsung Galaxy S25 Ultra — Характеристики и Цены | Название Магазина». Обеспечить использование анкора «Samsung Galaxy S25 Ultra» во внутренней перелинковке.
Ожидаемый результат: Система сможет выявить единый General Pattern и корректно извлекать «Samsung Galaxy S25 Ultra» как Сущность, опираясь на стандартизированные заголовки и подтверждающие анкоры.

Вопросы и ответы

Что такое «Peer Documents» и почему они важны в этом патенте?

Peer Documents (Пэр-документы) — это страницы на том же домене, что и целевая страница. Они критически важны, потому что алгоритм основан на предположении, что страницы на одном сайте используют схожие шаблоны для формирования заголовков (Titles). Анализируя множество пэров, система может статистически определить, какие части заголовка являются повторяющимся шумом (префиксы/суффиксы), а какие — уникальным названием Сущности.

Как система выбирает «Label» (Метку) для страницы?

Система анализирует все анкорные тексты, ссылающиеся на страницу. Она выбирает тот анкорный текст, который одновременно является подстрокой (непрерывной частью) заголовка Title этой страницы и при этом является самым длинным среди всех таких совпадающих анкоров (Longest-match anchor text). Это делается для того, чтобы найти наиболее полное и точное описание Сущности, подтвержденное как ссылками, так и самим заголовком.

Влияет ли этот патент на важность внешних ссылок?

Да, но не с точки зрения авторитетности (PageRank), а с точки зрения семантики. Патент показывает, что анкорные тексты ссылок (как внешних, так и внутренних) используются как важный сигнал для валидации и понимания основного предмета страницы. Если сайты ссылаются на вашу страницу, используя название Сущности в анкоре, это помогает Google правильно идентифицировать эту Сущность, даже если ваш Title зашумлен.

Может ли этот алгоритм работать, если на мою страницу совсем нет входящих ссылок?

Да. Алгоритму не требуются ссылки непосредственно на целевую страницу. Ему нужны ссылки на Peer Documents (другие страницы этого же сайта), чтобы выявить общий шаблон заголовков (General Pattern). Как только шаблон выявлен на основе анализа других страниц, он может быть применен к целевой странице, даже если у нее нет собственных входящих ссылок.

Что произойдет, если мой сайт использует много разных шаблонов для Title?

Это значительно снизит эффективность алгоритма. Система ищет доминирующий шаблон (General Pattern), частота которого превышает определенный порог. Если шаблонов много и ни один из них не доминирует, система не сможет надежно определить структуру заголовков. Это может привести к ошибкам в извлечении Сущностей — либо Сущность не будет извлечена, либо будет извлечена некорректно.

Как этот патент связан с микроразметкой Schema.org?

Патент описывает метод извлечения Сущности без использования микроразметки, анализируя шаблоны представления (Titles и Anchor Texts). Эти методы дополняют друг друга. Микроразметка предоставляет явные данные о Сущности, а описанный алгоритм может использоваться для валидации этих данных или как резервный механизм, если разметка отсутствует или реализована некорректно.

Влияет ли расположение названия Сущности в Title (начало, середина, конец)?

Алгоритму не важно расположение, важна структура шаблона. Система может идентифицировать как префиксы, так и суффиксы вокруг названия Сущности. Главное требование — чтобы название Сущности было непрерывной подстрокой в Title и чтобы шаблон был согласованным на большинстве Peer Documents.

Что делать, если название Сущности само по себе содержит название бренда (например, «Кроссовки Nike Air Max»)?

В этом случае и анкорные тексты, и Title должны содержать полное название. Система определит «Кроссовки Nike Air Max» как Label. Шум в данном случае — это дополнительная информация в Title, например: «Купить Кроссовки Nike Air Max в Москве | Магазин Спортмастер». Алгоритм корректно отделит Сущность от префикса «Купить « и суффикса » в Москве | Магазин Спортмастер».

Актуален ли этот метод в эпоху нейронных сетей и BERT?

Хотя современные модели NLP (такие как BERT) очень эффективны в понимании контента, методы, описанные в патенте, остаются актуальными. Они основаны на структурных (шаблоны сайта) и ссылочных сигналах, которые обеспечивают масштабируемость и высокую точность при анализе огромного количества документов. Вероятно, современные системы используют комбинацию таких структурных методов и глубокого анализа контента с помощью NLP.

Стоит ли нам менять стратегию формирования Title на основе этого патента?

Если ваша текущая стратегия уже использует согласованные и четкие заголовки, то менять ее радикально не нужно. Однако стоит провести аудит согласованности Titles для всех ключевых типов страниц и убедиться, что название основной Сущности всегда присутствует как непрерывная фраза. Также стоит проверить, что ваша стратегия внутренней перелинковки использует эти названия Сущностей в качестве анкорных текстов.