Как Google использует анкорные тексты ссылок на авторитетные источники (например, Wikipedia) для обучения своих NLP-систем

Google автоматически создает массивный обучающий набор данных для своих систем семантического анализа (NLP). Система анализирует миллионы веб-страниц, которые ссылаются на авторитетные источники (например, Wikipedia). Анкорный текст этих ссылок рассматривается как высокоточное упоминание сущности, которое затем используется для обучения алгоритмов распознавания сущностей (NER), их типизации и разрешения неоднозначностей.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в машинном обучении (ML) и обработке естественного языка (NLP): нехватку больших объемов высококачественных, аннотированных данных, необходимых для обучения и оценки систем семантического анализа (Semantic Analysis Engines). Ручное создание таких наборов данных медленное и дорогостоящее. Патент предлагает метод автоматической генерации этих данных в масштабах веба.

Что запатентовано

Запатентован метод автоматического создания аннотированного набора данных (Annotated Dataset) для обучения NLP-систем. Суть изобретения заключается в использовании «неявных аннотаций», сделанных авторами веб-страниц. Когда автор ссылается из своего контента на документ в авторитетном источнике (Authoritative Source, например, Wikipedia), система рассматривает анкорный текст этой ссылки как высокоточное упоминание сущности (Entity Mention), связанное с целевой страницей.

Как это работает

Система работает путем анализа корпуса документов, не входящих в авторитетный источник:

Идентификация и Фильтрация: Находятся документы, ссылающиеся на авторитетный источник. При этом отфильтровываются документы, которые являются копиями страниц авторитетного источника, чтобы избежать смещения (bias) в данных.
Извлечение Упоминаний: Извлекается анкорный текст (Anchor Text) ссылки и его контекст (free text) в исходном документе.
Валидация: Проверяется, что анкорный текст соответствует названию или псевдониму (Alias) целевой авторитетной страницы.
Создание Набора Данных: Генерируется запись, связывающая упоминание, контекст и целевую сущность.
Обучение и Оценка: Этот набор данных используется для обучения и оценки различных NLP-систем: распознавания именованных сущностей (Noun-Phrase Engine), типизации сущностей (Entity Tagging Engine) и разрешения ссылок/неоднозначностей (Reference Resolution Engine / Entity Matching Engine).

Актуальность для SEO

Высокая. Понимание сущностей и контекста является ядром современных поисковых алгоритмов Google (например, BERT, MUM). Системы машинного обучения требуют огромных объемов обучающих данных, и методы автоматической генерации этих данных критически важны для их масштабирования и точности. Этот патент описывает фундаментальный механизм, используемый Google для обучения своих базовых NLP-моделей.

Важность для SEO

Патент имеет высокое стратегическое значение (7/10). Он не описывает алгоритм ранжирования напрямую, но раскрывает, как именно Google обучает свои системы понимать контент и сущности. Понимание этого механизма критически важно для стратегий, основанных на семантическом поиске (Entity-based SEO). Он подчеркивает огромную роль авторитетных источников (таких как Wikipedia) не только как источников фактов, но и как основного источника обучающих данных для NLP.

Детальный разбор

Термины и определения

Anchor Text (Анкорный текст): Текст, который автор документа связывает со ссылкой на целевой документ. В данном патенте это ключевой источник для идентификации Entity Mentions.
Authoritative Source (Авторитетный источник): Источник контента, признанный точным и информативным (например, Wikipedia, энциклопедии). Характеризуется большим количеством внешних ссылок на него (упоминается примерный порог в 1 миллион независимых документов). Документы в нем обычно соответствуют отдельным сущностям.
Entity Mention (Упоминание сущности): Фраза в тексте (часто Anchor Text), которая ссылается на конкретную сущность.
Entity Tagging Engine (Движок типизации сущностей): Система семантического анализа, которая классифицирует упоминания сущностей по типам (например, ‘человек’, ‘организация’ или более гранулярно – ‘астроном 18 века’).
Entity Matching Engine / Reference Resolution Engine (Движок сопоставления сущностей / Разрешения ссылок): Система, которая определяет, какая именно сущность в базе знаний соответствует данному упоминанию в тексте (разрешение неоднозначностей).
Graph-structured Knowledge Base (Графовая база знаний): База данных, хранящая сущности (узлы) и отношения между ними (ребра). Пример: Google Knowledge Graph.
Noun-Phrase Engine (Движок распознавания именных групп): Система семантического анализа, задачей которой является идентификация потенциальных упоминаний сущностей в тексте (сегментация фраз).
Semantic Analysis Engines (Системы семантического анализа): Общий термин для NLP-систем, занимающихся пониманием смысла текста (включает Noun-Phrase Engine, Entity Tagging Engine, Entity Matching Engine).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает процесс генерации данных для обучения движка типизации сущностей (Entity Tagging).

Система получает корпус документов, разделенный на авторитетный набор (Authoritative set) и второй набор (Second set).
Второй набор — это документы, которые не являются авторитетными, не являются копиями авторитетных документов, но содержат ссылки на авторитетный набор с анкорным текстом.
Для каждого документа второго набора система идентифицирует упоминания сущностей (Entity Mentions) на основе анкорного текста.
Система ассоциирует эти упоминания с типами сущностей (Entity Types), основываясь на контенте целевого авторитетного документа (например, его категориях).
Система обучает Entity Tagging Engine, используя эти идентифицированные упоминания и ассоциированные с ними типы.

Claim 5 (Зависимый от 1): Уточняет механизм проверки на копирование.

Используются отпечатки (fingerprints) предложений документов. Если большинство отпечатков совпадает, документ считается копией и удаляется из Second set. Это делается для предотвращения смещения (bias) в обучающих данных.

Claim 9 (Независимый пункт): Описывает аналогичный процесс, но для обучения движка сопоставления сущностей (Entity Matching).

Система использует тот же подход к идентификации второго набора документов и извлечению Entity Mentions.
Каждый документ в авторитетном наборе уже ассоциирован с сущностью в Graph-structured Knowledge Base.
Система ассоциирует извлеченное Entity Mention с соответствующей конкретной сущностью в графе знаний.
Система обучает Entity Matching Engine, используя эти упоминания и ассоциированные с ними сущности (для дисамбигуации).

Claim 14 (Независимый пункт): Фокусируется на процессе фильтрации и использовании данных для Оценки (Evaluation).

Система генерирует набор данных (как описано выше, с проверкой на копии) и использует его для оценки точности работы Semantic Analysis Engine.

Где и как применяется

Описанный в патенте процесс является преимущественно ОФЛАЙН-механизмом для генерации обучающих данных и тренировки моделей машинного обучения. Однако обученные модели (Semantic Analysis Engines) затем применяются на ключевых этапах онлайн-поиска.

Офлайн-процессы (Генерация данных и Обучение ML)
Система анализирует данные, собранные на этапах CRAWLING и INDEXING (Crawled Documents, Authoritative Source), чтобы создать Annotated Dataset и обучить NLP-модели.

INDEXING – Индексирование и извлечение признаков
На этом этапе используются уже обученные системы семантического анализа. Когда Google индексирует контент, эти системы применяются для:

Идентификации потенциальных упоминаний сущностей (с помощью Noun-Phrase Engine).
Типизации этих упоминаний (с помощью Entity Tagging Engine).
Связывания упоминаний с конкретными узлами в Knowledge Graph (с помощью Entity Matching Engine).

Качество индексации и глубина понимания контента напрямую зависят от качества обучения этих систем.

QUNDERSTANDING – Понимание Запросов
Обученные NLP-модели также применяются для анализа запроса пользователя в реальном времени, чтобы распознать упомянутые сущности, их типы и интент пользователя.

Входные данные (для системы обучения):

Crawled Documents (весь веб).
Authoritative Source (например, Wikipedia), включая ее внутреннюю структуру ссылок и категории.
Graph-structured Knowledge Base (Knowledge Graph).

Выходные данные (системы обучения):

Annotated Dataset (массивный набор данных с размеченными упоминаниями сущностей).
Обученные модели NLP (Trained Semantic Analysis Engines).

На что влияет

Типы контента и запросы: Механизм влияет на способность Google понимать любой контент и запрос, где присутствуют именованные сущности. Это критически важно для информационных, исследовательских и коммерческих запросов, где точность идентификации сущностей (продуктов, людей, мест, концепций) имеет первостепенное значение.
Гранулярность понимания: Патент подчеркивает возможность гранулярной типизации (не просто «человек», а «астроном 18 века»), что позволяет поисковой системе лучше различать нюансы тем и интентов.

Когда применяется

Триггеры активации: Процесс генерации данных и обучения моделей происходит офлайн, в периодическом режиме, по мере обновления веба и авторитетного источника.
Применение моделей: Обученные модели применяются постоянно — при каждом индексировании нового или обновленного контента и при обработке каждого поискового запроса.

Пошаговый алгоритм

Процесс А: Генерация аннотированного набора данных

Сбор данных и Идентификация кандидатов: Выборка документов, которые не принадлежат к авторитетному источнику, но содержат ссылки на него.
Фильтрация копий (Anti-Bias): Проверка каждого документа-кандидата на предмет того, не является ли он копией страницы из авторитетного источника. В патенте предлагается метод сравнения отпечатков (fingerprinting) предложений. Если большинство отпечатков совпадает (например, порог 70%), документ исключается.
Извлечение свободного текста: Удаление шаблонов, таблиц для фокусировки на основном контенте (free text), который служит контекстом.
Извлечение анкорного текста: Идентификация ссылок на авторитетный источник и извлечение их Anchor Text.
Валидация упоминания: Проверка того, совпадает ли токен в анкорном тексте с токеном в названии (Title) целевой авторитетной страницы ИЛИ с ее псевдонимом (Alias). Псевдонимы могут определяться по анкорным текстам внутренних ссылок внутри самого авторитетного источника.
Создание записи: Если валидация успешна, создается запись в Annotated Dataset. Запись включает исходный документ, анкорный текст, его позицию (offset) или контекст, и идентификатор целевого авторитетного документа.

Процесс Б: Обучение и Оценка NLP-систем

Ассоциация данных:
- Для Entity Tagging: Система получает категории (Categories) целевой авторитетной страницы и использует их для присвоения гранулярных тегов (Entity Tags) упоминанию.
- Для Entity Matching: Система сопоставляет целевую авторитетную страницу с соответствующим узлом в Graph-structured Knowledge Base.
Обучение (Training): Аннотированные данные (упоминание + контекст + тег/сущность) подаются на вход соответствующему движку (Entity Tagging Engine или Entity Matching Engine) для тренировки ML-модели.
Оценка (Evaluation): Обученный движок запускается на тестовом наборе документов. Результаты его работы сравниваются с известными, высокоточными аннотациями из Annotated Dataset.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Свободный текст (free text) внешних документов: используется как контекст для упоминания сущности.
- Названия (Titles) страниц авторитетного источника: используются для валидации анкорного текста.
- Категории (Categories) в авторитетном источнике: используются как основа для гранулярной типизации сущностей (Entity Tagging).
Технические факторы:
- URL страниц авторитетного источника: используются для идентификации целей ссылок.
Ссылочные факторы:
- Входящие ссылки на авторитетный источник из внешних документов: критически важный элемент, запускающий анализ.
- Анкорный текст (Anchor Text) этих внешних ссылок: используется как Entity Mention.
- Внутренние ссылки внутри авторитетного источника: анкорные тексты этих ссылок используются для определения псевдонимов (Alias) сущностей.

Какие метрики используются и как они считаются

Токенизация и Сопоставление: Система использует сравнение токенов (слов или фраз) между анкорным текстом и названием/псевдонимом сущности для валидации упоминания.
Fingerprinting (Отпечатки): Метод для обнаружения дубликатов контента. Вычисляются хэши (fingerprints) для предложений в авторитетном источнике и в анализируемом документе.
Порог совпадения копий: Документ считается копией, если совпадает «большинство отпечатков» (majority of fingerprints match). В патенте упоминается пример порога в 70%.
Определение Авторитетности: Источник может считаться авторитетным, если на него ссылаются более 1 миллиона независимых документов (пример из патента).
Алгоритмы машинного обучения: Патент подразумевает использование стандартных методов обучения с учителем (supervised learning) для тренировки Semantic Analysis Engines на основе сгенерированного набора данных.

Выводы

Фундаментальная роль внешних данных в обучении NLP: Патент демонстрирует, как Google систематически использует то, как весь веб описывает и ссылается на авторитетные источники, для обучения своих базовых систем понимания языка. Это масштабное использование «мудрости толпы» (авторов контента).
Wikipedia как главный источник обучающих данных: Авторитетные источники, и в первую очередь Wikipedia, являются не просто источниками фактов для Knowledge Graph, но и основным источником размеченных данных для обучения распознавания (NER), типизации (Tagging) и сопоставления (Matching) сущностей.
Критическая ценность анкорного текста: Анкорный текст ссылок на авторитетные источники рассматривается как высокоточный сигнал (high confidence) упоминания сущности, превосходящий по качеству ручную разметку.
Важность контекста и борьба со смещением (Bias): Система специально фильтрует копии авторитетного источника и фокусируется на free text из разнообразных внешних сайтов. Это делается для того, чтобы обучить модели на реальных, разнообразных примерах употребления языка и избежать смещения, которое могло бы возникнуть при обучении только на энциклопедическом стиле.
Сущности как основа поиска: Этот механизм является фундаментом для перехода от ключевых слов к семантическому поиску. Точность, с которой Google понимает сущности в контенте и запросах, напрямую зависит от качества данных, генерируемых этим методом.

Практика

Best practices (это мы делаем)

Анализ типизации сущностей через Wikipedia: Изучайте категории, присвоенные страницам Wikipedia для ключевых сущностей в вашей нише. Это дает прямое понимание того, какие типы (Entity Tags) Google учится ассоциировать с этими сущностями во время обучения Entity Tagging Engine. Используйте эту информацию для формирования контент-стратегии.
Использование точных анкорных текстов при исходящих ссылках: При ссылках на авторитетные источники (например, Wikipedia) используйте точные и естественные анкорные тексты, соответствующие названию или псевдониму сущности. Это помогает Google лучше понять контекст вашей страницы и ее связь с сущностью.
Фокус на семантическом контексте и ясности: Поскольку модели обучаются на разнообразных контекстах из free text, необходимо обеспечивать богатый семантический контекст вокруг упоминаний ключевых сущностей на вашем сайте. Используйте однозначные именные группы и предоставляйте достаточно контекста для дисамбигуации.
Присутствие в авторитетных источниках: Убедитесь, что ключевые сущности вашего бизнеса (компания, продукты) представлены в Authoritative Sources (например, Wikipedia, Wikidata). Эти источники являются эталоном (ground truth), на который опирается Google при обучении своих систем распознавания.

Worst practices (это делать не надо)

Копирование контента из авторитетных источников: Создание страниц, которые в основном копируют контент из Wikipedia. Патент явно описывает механизм (fingerprinting) для исключения таких страниц из обучающего набора, что указывает на их низкую ценность для этой системы.
Манипуляции с анкорными текстами исходящих ссылок: Попытки спама или использования неестественных анкорных текстов при ссылках на Wikipedia в надежде повлиять на обучение моделей. Это неэффективно и может быть расценено как неестественные исходящие ссылки.
Игнорирование сущностей и фокус только на ключевых словах: Построение контента без учета сущностей. Поскольку базовые NLP-системы Google обучаются распознавать и типизировать сущности этим методом, контент, ориентированный только на ключевые слова, будет плохо интерпретирован.
Неоднозначное упоминание сущностей: Использование местоимений или сокращений без достаточного контекста затрудняет работу Entity Matching Engine.

Стратегическое значение

Этот патент имеет ключевое значение для понимания того, как работает семантический поиск в Google. Он объясняет фундамент, на котором строится способность системы связывать текстовые упоминания с реальными сущностями в Knowledge Graph. Стратегически это подтверждает, что SEO должно фокусироваться на четком определении сущностей, их атрибутов и взаимосвязей. Понимание того, как Google использует Wikipedia для обучения типизации сущностей, дает SEO-специалистам мощный инструмент для анализа семантического ландшафта ниши.

Практические примеры

Сценарий 1: Анализ типизации сущностей для YMYL-тематики

Задача: Понять, как Google типизирует (Entity Tagging) сущность, например, «Кетогенная диета».
Действие: SEO-специалист изучает страницу Wikipedia для «Ketogenic diet» и ее категории (Categories) внизу страницы.
Наблюдение: Видны категории: «High-fat diets», «Low-carbohydrate diets», а также потенциально спорные, например, «Fad diets» (причудливые диеты).
Интерпретация (на основе патента): Google использует эти категории для генерации Entity Tags при обучении Entity Tagging Engine. Система учится ассоциировать упоминания «Кетогенная диета» в вебе с этими типами.
SEO-вывод: Если Google классифицирует эту тему как «Fad diet», это может влиять на требования к E-E-A-T. Необходимо учитывать эту классификацию при создании контента и демонстрации авторитетности.

Сценарий 2: Обучение движка дисамбигуации (Entity Matching)

Цель: Научить Google различать «Ягуар» (животное) и «Ягуар» (автомобиль).
Сбор данных (по патенту):
- Сайт о дикой природе пишет: «…хищник Ягуар обитает…». Google записывает: Mention=»Ягуар», Context=»хищник, обитает», Target=Entity A (Животное).
- Автомобильный блог пишет: «…новый Ягуар развивает скорость…». Google записывает: Mention=»Ягуар», Context=»новый, скорость», Target=Entity B (Автомобиль).
Обучение модели: Entity Matching Engine обучается ассоциировать контекстные слова («хищник») с Entity A, а слова («скорость») с Entity B.
Результат для SEO: При создании контента о Ягуаре необходимо обеспечить четкий контекст, чтобы обученная модель Google правильно интерпретировала сущность.

Вопросы и ответы

Является ли этот патент алгоритмом ранжирования?

Нет, это не алгоритм ранжирования. Патент описывает систему для автоматической генерации обучающих данных (Annotated Dataset). Эти данные затем используются для обучения систем семантического анализа (NLP), которые, в свою очередь, используются на этапах индексирования и понимания запросов. Влияние на ранжирование косвенное, но очень значительное.

Что такое «Авторитетный источник» (Authoritative Source) в контексте этого патента?

Это источник контента, который система считает точным и на который часто ссылаются. Классический пример — Wikipedia. В патенте упоминается примерный критерий: источник может считаться авторитетным, если на него ссылаются более 1 миллиона независимых документов. Важно, что страницы в этом источнике обычно соответствуют одной конкретной сущности.

Почему система отфильтровывает копии авторитетных источников (например, зеркала Wikipedia)?

Система стремится обучить NLP-модели на разнообразных примерах использования языка в реальном вебе (free text). Если включить в обучающий набор копии Wikipedia, модель будет переобучаться на энциклопедическом стиле. Фильтрация копий позволяет избежать этого смещения (bias) и улучшает способность моделей работать с разнообразным контентом.

Как система определяет, что анкорный текст действительно является упоминанием сущности?

Система использует два основных метода валидации. Во-первых, она проверяет, совпадает ли токен в анкорном тексте с токеном в названии (Title) целевой авторитетной страницы. Во-вторых, она проверяет совпадение с псевдонимом (Alias) этой страницы. Псевдонимы часто определяются по тому, как страницы ссылаются друг на друга внутри самого авторитетного источника.

Что такое гранулярная типизация (Entity Tagging) и как она работает?

Это процесс присвоения сущности не просто общих типов (например, «Человек»), а более конкретных (например, «Астроном 18 века»). Согласно патенту, система достигает этого, используя категории (Categories), указанные на целевой странице авторитетного источника (например, категории внизу страницы Wikipedia).

Как SEO-специалист может использовать знание о категориях Wikipedia?

Изучение категорий Wikipedia для сущностей в вашей нише дает представление о том, как Google обучается типизировать эти сущности. Это позволяет понять семантические связи, атрибуты и потенциальные классификации (в том числе спорные, например, в YMYL), которые Google ассоциирует с темой. Это знание критически важно для построения Topical Authority.

Имеет ли смысл специально ссылаться на Wikipedia с нужными анкорами?

Использование точных и естественных анкорных текстов при ссылках на авторитетные источники является хорошей практикой. Это помогает Google лучше понять контекст вашей страницы и ее связь с сущностями, на которые вы ссылаетесь. Однако попытки манипулировать этим процессом через спам исходящими ссылками не рекомендуются.

Что этот патент говорит о важности контекста вокруг ссылки?

Контекст очень важен. Система сохраняет позицию (offset) упоминания и окружающий его free text. Этот контекст используется при обучении Entity Matching Engine, чтобы научить модель разрешать неоднозначности (понимать, о каком именно «Джоне Смите» идет речь) на основе окружающих слов.

Как этот патент связан с Google Knowledge Graph?

Патент напрямую связан с Knowledge Graph (Graph-structured Knowledge Base). Описанный механизм используется для обучения Entity Matching Engine — системы, которая отвечает за связывание упоминаний сущностей в тексте с конкретными узлами в Knowledge Graph. Это позволяет Google уточнять и валидировать базу знаний.

Какие NLP-системы обучаются этим методом?

Патент упоминает три ключевые системы: Noun-Phrase Engine (распознавание фраз/упоминаний), Entity Tagging Engine (типизация сущностей) и Reference Resolution Engine или Entity Matching Engine (сопоставление упоминания с конкретной сущностью в Knowledge Graph и разрешение неоднозначностей).