
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
Патент решает проблему неточного определения основного предмета (Сущности или Темы) документа, когда стандартные методы, такие как использование заголовка (Title) страницы, оказываются неэффективными. Заголовки часто содержат информацию, не относящуюся к основному предмету страницы, например, название бренда, рекламу или навигационные элементы (например, "CNN.com - Oscar Awards 2006"). Изобретение предлагает автоматизированный метод для отделения названия Сущности от этого шума, повышая точность извлечения фактов (Information Extraction) и понимания контента.
Запатентована система для идентификации предмета документа путем анализа структурных и ссылочных шаблонов на уровне домена. Система анализирует группу похожих документов на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Путем сравнения заголовков этих документов с наиболее релевантными анкорными текстами (Labels), система выявляет общие шаблоны (General Patterns), такие как повторяющиеся префиксы или суффиксы. Применение этих шаблонов позволяет изолировать и извлечь истинный предмет целевого документа.
Ключевой механизм основан на предположении, что страницы в пределах одного домена часто следуют схожим шаблонам заголовков, и что анкорные тексты часто описывают суть страницы точнее, чем её полный заголовок.
Peer Documents).Longest-match anchor text — самый длинный анкор, который также является подстрокой заголовка пэра. Это и есть "Метка"."CNN Programs - Anchors/Reporters - ").General Pattern) для сайта.Высокая. Извлечение сущностей (Entity Extraction) и понимание основного предмета страницы остаются фундаментальными задачами для поисковых систем (Knowledge Graph, Information Retrieval). Хотя методы NLP эволюционировали, описанный подход, использующий комбинацию анализа структуры сайта (шаблонов) и ссылочных сигналов (анкоров), остается актуальным для масштабируемого и точного извлечения информации.
Патент имеет высокое значение (8/10). Он напрямую влияет на то, как Google идентифицирует основную Сущность страницы. Это критически важно для Entity-First SEO, попадания в Knowledge Graph и точного определения релевантности. Понимание этого механизма требует оптимизации структуры заголовков (Title Consistency) и стратегии анкорных текстов для обеспечения корректной интерпретации контента поисковой системой.
Peer Documents.Labels и Titles группы Peer Documents. Отражает структуру заголовков на сайте.Title и Label одного конкретного Peer Document.Longest-match anchor text для Peer Document.Peer Document или целевой документ.Title) документа и при этом является самым длинным среди всех таких анкорных текстов.Subject.<TITLE>).Claim 1 (Независимый пункт): Описывает основной метод определения предмета целевого документа.
Peer Documents в том же домене, что и целевой документ.Peer Document: Linking Documents) и их анкорных текстов.Label) на основе заголовка Peer Document.Individual Pattern), общего для заголовка и выбранного анкорного текста.General Pattern) на основе первых шаблонов. Выбор основан на количестве Peer Documents, связанных с этими первыми шаблонами (т.е. на частоте встречаемости шаблона на сайте).Subject) целевого документа на основе второго шаблона и заголовка целевого документа.Claim 2 (Зависимый от 1): Уточняет метод выбора анкорного текста (шаг 1.ii).
Выбор анкорного текста включает определение того, является ли анкорный текст подстрокой заголовка Peer Document. Выбирается тот анкорный текст, который является самой длинной подстрокой заголовка (Longest-match anchor text).
Claim 3 (Зависимый от 1): Уточняет критерий выбора второго (общего) шаблона (шаг 3).
Второй шаблон идентифицируется из первых шаблонов, если он связан с группой Peer Documents, размер которой превышает определенный порог (Threshold).
Claim 4 (Зависимый от 1): Уточняет, как идентифицируется первый шаблон (шаг 1.iii).
Идентификация первого шаблона включает определение префикса или суффикса в заголовке Peer Document относительно выбранного анкорного текста (Label).
Claim 5 (Зависимый от 1): Описывает логику применения второго шаблона.
Если второй шаблон применим к заголовку целевого документа, тема идентифицируется. Если не применим, система может определить, что у целевого документа нет конкретной темы или сущности.
Изобретение применяется на этапе индексирования для улучшения понимания контента и извлечения данных.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необходимые исходные данные: документы, их заголовки (Titles), структура ссылок и анкорные тексты.
INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)
Основное применение патента. Описанный механизм является частью процесса извлечения информации (Information Extraction), который выполняется для точного определения Сущности (Subject), с которой связан документ.
Peer Documents) для выявления шаблонов.Labels.General Patterns для определения истинной темы (Subject). Это критически важно для корректной атрибуции извлеченных фактов к правильному объекту в базе знаний (Fact Repository или Knowledge Graph).Входные данные:
Title).Peer Documents с того же домена и их Titles.Linking Documents) и их Anchor Texts для Peer Documents.Выходные данные:
Subject) или Название Сущности (Entity Name) для целевого документа.Peer Documents на том же домене и наличие входящих ссылок (внутренних или внешних) с анкорными текстами на эти Peer Documents.General Pattern) встречался среди Peer Documents выше определенного порога (Threshold). Порог может быть фиксированным (например, 50 раз) или динамическим (например, 33% от общего числа пэров).Процесс определения предмета целевого документа.
Peer Documents для целевого документа с того же домена.Peer Document выполняется: Linking Documents и извлекаются их анкорные тексты.Title) Peer Document. Выбирается Longest-match anchor text — самый длинный анкорный текст, который является подстрокой заголовка. Этот текст становится Меткой (Label).Title и Label. Определяется префикс и суффикс в Title относительно Label. (Например, если Title="A - B - C", а Label="B", то префикс="A - ", суффикс=" - C"). Это формирует Individual Pattern.Individual Patterns и подсчитывает частоту их встречаемости. Шаблоны, частота которых превышает установленный порог (Threshold), выбираются как General Patterns.General Patterns к заголовку (Title) целевого документа.Label в шаблоне. Эта часть и есть искомый Subject. Если применимо несколько шаблонов, может выбираться тот, который генерирует самое длинное описание предмета.Система использует ограниченный набор данных, фокусируясь на структуре и ссылках.
Title целевого документа и Peer Documents. Это основной источник для извлечения предмета.Peer Documents. Используются для генерации Labels и валидации содержания заголовков.Peer Documents на уровне сайта.Longest-match anchor text.Peer Documents, чьи Individual Patterns совпадают.Individual Pattern был классифицирован как General Pattern.Longest-match anchor text используется для подтверждения того, какая часть Title является названием Сущности, а какая — шумом.General Pattern (префикс или суффикс).General Pattern, что затруднит извлечение Сущностей.Peer Documents, что позволяет системе выявить общий шаблон и применить его к целевому документу.<Title> для однотипных страниц (например, карточек товаров, статей, биографий). Это поможет системе легко идентифицировать General Pattern. Например, используйте формат [Название Сущности] | [Категория] | [Бренд].<Title> в виде непрерывной подстроки. Это необходимо для работы механизма Longest-match anchor text.Label.Peer Documents и выявлять релевантные шаблоны.<Title> от страницы к странице для одного и того же типа контента помешает системе выявить General Pattern и надежно извлекать тему."iPhone 15, лучший Pro и большой Max - купить". Анкорный текст "iPhone 15 Pro Max" не будет являться подстрокой этого заголовка.Label.Этот патент подчеркивает важность технического SEO и информационной архитектуры сайта для семантического анализа контента. Он демонстрирует, что для Google важна не только сама информация, но и то, как она структурирована и представлена на сайте. Согласованность (Consistency) является ключевым фактором, позволяющим поисковой системе понимать контент в масштабе. В контексте Entity-First SEO, обеспечение легкого и однозначного извлечения Сущностей из заголовков является фундаментом для дальнейшего ранжирования и представления в Knowledge Graph.
Сценарий: Оптимизация раздела биографий на новостном сайте (Пример из патента)
Сайт CNN имеет тысячи страниц с биографиями. Необходимо, чтобы Google корректно извлекал Имя и Фамилию.
"CNN Programs - Anchors/Reporters - [Имя Фамилия]" (например, "CNN Programs - Anchors/Reporters - Nancy Grace")."Nancy Grace" или "Grace"."Nancy Grace" является Longest-match anchor text. Это становится Меткой (Label).General Pattern: Префикс = "CNN Programs - Anchors/Reporters - ", Суффикс = "".Subject) для каждой страницы, игнорируя шаблонный префикс в заголовке.Сценарий: Исправление ошибок извлечения Сущностей в E-commerce
Google путает названия товаров на сайте из-за непостоянных заголовков.
"Купить Samsung Galaxy S25 Ultra в Москве недорого""Samsung: Модель Galaxy S25 Ultra - характеристики""Лучший смартфон 2025 года - Galaxy S25 Ultra от Samsung""Смартфон Samsung Galaxy S25 Ultra - Характеристики и Цены | Название Магазина". Обеспечить использование анкора "Samsung Galaxy S25 Ultra" во внутренней перелинковке.General Pattern и корректно извлекать "Samsung Galaxy S25 Ultra" как Сущность, опираясь на стандартизированные заголовки и подтверждающие анкоры.Что такое "Peer Documents" и почему они важны в этом патенте?
Peer Documents (Пэр-документы) — это страницы на том же домене, что и целевая страница. Они критически важны, потому что алгоритм основан на предположении, что страницы на одном сайте используют схожие шаблоны для формирования заголовков (Titles). Анализируя множество пэров, система может статистически определить, какие части заголовка являются повторяющимся шумом (префиксы/суффиксы), а какие — уникальным названием Сущности.
Как система выбирает "Label" (Метку) для страницы?
Система анализирует все анкорные тексты, ссылающиеся на страницу. Она выбирает тот анкорный текст, который одновременно является подстрокой (непрерывной частью) заголовка Title этой страницы и при этом является самым длинным среди всех таких совпадающих анкоров (Longest-match anchor text). Это делается для того, чтобы найти наиболее полное и точное описание Сущности, подтвержденное как ссылками, так и самим заголовком.
Влияет ли этот патент на важность внешних ссылок?
Да, но не с точки зрения авторитетности (PageRank), а с точки зрения семантики. Патент показывает, что анкорные тексты ссылок (как внешних, так и внутренних) используются как важный сигнал для валидации и понимания основного предмета страницы. Если сайты ссылаются на вашу страницу, используя название Сущности в анкоре, это помогает Google правильно идентифицировать эту Сущность, даже если ваш Title зашумлен.
Может ли этот алгоритм работать, если на мою страницу совсем нет входящих ссылок?
Да. Алгоритму не требуются ссылки непосредственно на целевую страницу. Ему нужны ссылки на Peer Documents (другие страницы этого же сайта), чтобы выявить общий шаблон заголовков (General Pattern). Как только шаблон выявлен на основе анализа других страниц, он может быть применен к целевой странице, даже если у нее нет собственных входящих ссылок.
Что произойдет, если мой сайт использует много разных шаблонов для Title?
Это значительно снизит эффективность алгоритма. Система ищет доминирующий шаблон (General Pattern), частота которого превышает определенный порог. Если шаблонов много и ни один из них не доминирует, система не сможет надежно определить структуру заголовков. Это может привести к ошибкам в извлечении Сущностей — либо Сущность не будет извлечена, либо будет извлечена некорректно.
Как этот патент связан с микроразметкой Schema.org?
Патент описывает метод извлечения Сущности без использования микроразметки, анализируя шаблоны представления (Titles и Anchor Texts). Эти методы дополняют друг друга. Микроразметка предоставляет явные данные о Сущности, а описанный алгоритм может использоваться для валидации этих данных или как резервный механизм, если разметка отсутствует или реализована некорректно.
Влияет ли расположение названия Сущности в Title (начало, середина, конец)?
Алгоритму не важно расположение, важна структура шаблона. Система может идентифицировать как префиксы, так и суффиксы вокруг названия Сущности. Главное требование — чтобы название Сущности было непрерывной подстрокой в Title и чтобы шаблон был согласованным на большинстве Peer Documents.
Что делать, если название Сущности само по себе содержит название бренда (например, "Кроссовки Nike Air Max")?
В этом случае и анкорные тексты, и Title должны содержать полное название. Система определит "Кроссовки Nike Air Max" как Label. Шум в данном случае — это дополнительная информация в Title, например: "Купить Кроссовки Nike Air Max в Москве | Магазин Спортмастер". Алгоритм корректно отделит Сущность от префикса "Купить " и суффикса " в Москве | Магазин Спортмастер".
Актуален ли этот метод в эпоху нейронных сетей и BERT?
Хотя современные модели NLP (такие как BERT) очень эффективны в понимании контента, методы, описанные в патенте, остаются актуальными. Они основаны на структурных (шаблоны сайта) и ссылочных сигналах, которые обеспечивают масштабируемость и высокую точность при анализе огромного количества документов. Вероятно, современные системы используют комбинацию таких структурных методов и глубокого анализа контента с помощью NLP.
Стоит ли нам менять стратегию формирования Title на основе этого патента?
Если ваша текущая стратегия уже использует согласованные и четкие заголовки, то менять её радикально не нужно. Однако стоит провести аудит согласованности Titles для всех ключевых типов страниц и убедиться, что название основной Сущности всегда присутствует как непрерывная фраза. Также стоит проверить, что ваша стратегия внутренней перелинковки использует эти названия Сущностей в качестве анкорных текстов.

Структура сайта
SERP
Ссылки

Ссылки
Структура сайта
Семантика и интент

Knowledge Graph
Семантика и интент
Ссылки

Поведенческие сигналы
Ссылки
SERP

Семантика и интент
Структура сайта
Техническое SEO

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Ссылки

Ссылки
SERP
Техническое SEO

Персонализация
Ссылки

Поведенческие сигналы

Ссылки
Поведенческие сигналы
Мультимедиа

Мультимедиа
EEAT и качество
Ссылки

Local SEO
Антиспам
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Ссылки
SERP
EEAT и качество
