Как Google использует данные из Поиска (IR) и Knowledge Graph для обучения языковых моделей (NLP) понимать сложные запросы и документы

Патент описывает, как Google улучшает понимание коротких, неоднозначных или грамматически некорректных текстов, таких как поисковые запросы. Для этого модели обработки языка (NLP) обучаются с использованием аннотаций от системы информационного поиска (IR), например, связей с Knowledge Graph. Это позволяет NLP-системам точнее определять структуру и смысл текста, опираясь на внешние знания о сущностях.

Описание

Какую задачу решает

Патент решает проблему низкой эффективности стандартных моделей обработки естественного языка (Natural Language Processing Model, NLP), обученных на «чистых» данных (например, новостных статьях), при анализе «шумных» или плохо структурированных текстов, таких как реальные поисковые запросы и веб-документы. Запросы часто короткие, грамматически некорректные и лишены контекста, что затрудняет для NLP-моделей точное определение частей речи (part-of-speech tagging) и синтаксической структуры, снижая качество понимания запроса.

Что запатентовано

Запатентован метод обучения NLP-моделей, который интегрирует аннотации, сгенерированные моделью информационного поиска (Information Retrieval Model, IR). Система использует знания IR-модели о сущностях, фразах и связях с базами знаний (например, Knowledge Graph) в качестве дополнительных признаков (features) для обучения NLP. Это позволяет NLP-модели использовать сигналы информационного поиска для более точного лингвистического анализа.

Как это работает

Система работает в две фазы: обучение и применение.

Фаза Обучения (Офлайн): Берется набор данных с лингвистической разметкой. Этот набор дополнительно аннотируется IR-моделью (например, помечаются сущности из Knowledge Graph). NLP-модель обучается на этих обогащенных данных, учась ассоциировать сигналы от IR-модели с лингвистическими категориями.

Фаза Применения (Онлайн): Когда поступает новый запрос или анализируется документ, он сначала аннотируется IR-моделью. Затем обученная NLP-модель обрабатывает этот аннотированный ввод. Используя IR-аннотации как подсказки, NLP-модель выполняет более точный лингвистический анализ (например, разрешает неоднозначность частей речи). Улучшенные NLP-предсказания затем используются для ранжирования.

Актуальность для SEO

Высокая. Точное понимание естественного языка, особенно в контексте сложных и неоднозначных запросов, является фундаментом современного поиска (включая алгоритмы типа BERT и MUM). Этот патент описывает фундаментальный подход к интеграции лингвистического анализа (NLP) и знаний о мире (IR/Knowledge Graph) для улучшения базовых NLP-технологий. Участие Fernando Pereira (VP Google по AI/ML) подчеркивает важность этого направления.

Важность для SEO

Влияние на SEO значительно (75/100). Патент имеет важное инфраструктурное значение, объясняя, как Google совершенствует свои базовые системы понимания языка (Query Understanding и Indexing). Он не вводит новых факторов ранжирования, но демонстрирует, насколько глубоко сущности и Knowledge Graph (данные IR-модели) интегрированы в базовый лингвистический анализ. Это подтверждает критическую важность стратегий, основанных на Entity SEO, для обеспечения корректной интерпретации контента.

Детальный разбор

Термины и определения

Annotated Training Data Set (Аннотированный набор обучающих данных): Набор данных, содержащий текст, стандартные NLP-аннотации (например, Part-of-Speech tagging) и дополнительные аннотации, сгенерированные Information Retrieval Model.
Confidence Score (Оценка уверенности): Числовая метрика, указывающая на уровень уверенности NLP-модели в правильности своего предсказания.
Information Retrieval (IR) Model (Модель информационного поиска): Компонент поисковой системы, отвечающий за получение информации. Генерирует IR Model Annotations, связывая текст с базами знаний.
IR Model Annotations (Аннотации модели информационного поиска): Данные, добавляемые IR-моделью к тексту. Включают связи с Knowledge Graph, Concept Graph Model, Entity Repository, а также идентификацию многословных выражений (multi-word expressions), фраз (phrases) и имен собственных (proper names).
Knowledge Graph (Граф Знаний): База знаний о сущностях и связях между ними. Ключевой источник для IR-аннотаций.
Mention Chunking Prediction (Предсказание фрагментов упоминаний): Процесс идентификации фрагментов текста (chunks), которые ссылаются на определенные сущности или концепции.
Natural Language Processing (NLP) Model (Модель обработки естественного языка): Система машинного обучения, предназначенная для анализа лингвистической структуры текста (определение частей речи, синтаксический разбор).
Part-of-Speech (POS) Tagging (Разметка частей речи): Процесс маркировки слов в тексте в соответствии с их частью речи. Используется как эталон при обучении.
Predictions (Предсказания): Выходные данные NLP-модели. Включают POS predictions, синтаксические деревья (parse-tree predictions), Mention Chunking и распознавание именованных сущностей (Named Entity Recognition).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл метода, включающий обучение и применение.

Система получает обучающие данные, уже содержащие NLP-теги (natural language processing tag, например, POS-теги).
Система добавляет к этим данным аннотации IR-модели (information retrieval model annotation).
NLP-модель обучается на основе ОБОИХ типов аннотаций.
Процесс обучения включает генерацию предсказаний (POS-тегов), расчет Confidence Score и фильтрацию предсказаний с низкой уверенностью (ниже порога).
После обучения: система получает новый запрос или документ (potential search result).
К нему добавляются IR-аннотации.
Обученная NLP-модель применяется к этому входу, используя добавленные IR-аннотации для генерации предсказания.
Это предсказание используется для поиска информации или определения релевантности.

Ядро изобретения — использование IR-аннотаций как на этапе обучения, так и на этапе применения для повышения точности NLP.

Claim 9 (Независимый пункт): Альтернативное описание с фокусом на извлечении признаков.

Генерация обученной NLP-модели на основе данных, содержащих текст, NLP-теги и IR-аннотации.
Обучение включает извлечение признаков информационного поиска (information retrieval features) из IR-аннотаций.
Эти признаки используются для предсказания NLP-тегов (с фильтрацией по Confidence Score).
Применение: получение целевого документа (target document) с IR-аннотациями и генерация предсказаний.

Claim 15 (Независимый пункт): Описывает механизм повышения уверенности во время применения.

Процесс аналогичен Claim 9 (обучение и применение).
Ключевое действие: система увеличивает (increasing) Confidence Score для предсказания (например, mention-chunking prediction), если оно соответствует упоминанию (mention-chunk), идентифицированному IR-аннотацией в целевом документе.

Это означает, что если и NLP-модель, и IR-модель согласны в идентификации фрагмента текста (например, как сущности), система становится более уверенной в этом выводе.

Где и как применяется

Изобретение является инфраструктурным улучшением, затрагивающим ключевые этапы обработки текста.

QUNDERSTANDING – Понимание Запросов
Основное применение. В процессе обработки запрос сначала аннотируется IR-моделью (распознавание сущностей, связи с KG), а затем эта информация используется NLP-моделью для более глубокого лингвистического анализа (синтаксис, части речи). Это критически важно для интерпретации сложных и неоднозначных запросов.

INDEXING – Индексирование и извлечение признаков
Применяется для анализа контента (Potential Search Results). При индексировании веб-документов IR-модель аннотирует контент, а обученная NLP-модель использует эти аннотации для лучшего понимания структуры и смысла документа, улучшая качество извлеченных признаков.

Системное взаимодействие (Офлайн):
Механизм также включает офлайн-процесс обучения NLP-модели с использованием исторических данных, обогащенных IR-аннотациями.

Входные данные:

На этапе обучения: Текст, Лингвистические аннотации (POS-теги), Аннотации IR-модели.
На этапе применения: Текст запроса или документа, Аннотации IR-модели для этого текста.

Выходные данные:

Улучшенные лингвистические предсказания (POS tags, NER, Parse-tree).
Confidence Scores для этих предсказаний.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на короткие, неоднозначные, разговорные или грамматически некорректные запросы, где традиционные NLP-модели терпят неудачу из-за недостатка контекста.
Разрешение неоднозначности (Disambiguation): Система помогает различать слова, которые могут принадлежать к разным частям речи. Например, определить, является ли слово глаголом или частью названия бренда/фильма, используя данные из Knowledge Graph.
Конкретные типы контента: Влияет на анализ всех типов текстового контента (веб-документов), улучшая точность извлечения признаков.

Когда применяется

Временные рамки и частота: Обучение моделей происходит периодически офлайн. Применение обученной модели происходит в реальном времени при обработке каждого поискового запроса и при индексировании документов.
Условия работы: Это не отдельный алгоритм, который активируется при определенных условиях, а усовершенствование инфраструктуры обработки языка. Эффективность зависит от наличия и качества аннотаций, которые может предоставить IR-модель.

Пошаговый алгоритм

Процесс разделен на две основные фазы.

Фаза А: Обучение NLP-модели (Офлайн)

Сбор данных: Получение Training Data Set, который содержит текст и базовые лингвистические аннотации (например, POS tagging).
Обогащение данных (IR Annotation): Information Retrieval Model обрабатывает текст и добавляет свои аннотации (связи с Knowledge Graph, Concept Graph, идентификация proper names и т.д.). Создается Annotated Training Data Set.
Извлечение признаков: Во время обучения NLP-модель извлекает признаки как из текста, так и из добавленных IR-аннотаций (information retrieval features).
Генерация предсказаний: NLP-модель делает лингвистические предсказания для обучающих примеров.
Расчет и фильтрация уверенности: Генерация Confidence Score для каждого предсказания. Предсказания ниже определенного порога могут игнорироваться (согласно Claims 1 и 9).
Оценка и Корректировка: Сравнение предсказаний NLP-модели с эталонной разметкой. Корректировка весов модели для повышения точности.

Фаза Б: Применение обученной NLP-модели (Онлайн)

Получение ввода: Система получает новый запрос или документ.
Аннотирование IR-моделью: IR-модель добавляет к вводу IR Model Annotations.
Обработка NLP-моделью: Обученная NLP-модель обрабатывает аннотированный ввод, используя IR-аннотации как дополнительные признаки.
Генерация предсказаний: NLP-модель генерирует лингвистические предсказания.
Корректировка уверенности: Confidence Score предсказаний может быть увеличен, если они согласуются с IR-аннотациями (согласно Claim 15).
Использование результатов: Предсказания передаются обратно в систему поиска для использования в процессе понимания запроса и ранжирования.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании специфических типов данных для обучения и работы NLP-модели.

Контентные факторы: Текст запросов или документов.
Лингвистические данные (в обучении): Предварительно размеченные Part-of-Speech tags в обучающих данных (эталон).
Системные/Семантические данные (IR Model Annotations): Это ключевые данные в патенте. Они включают:
- Связи с графовыми структурами: Knowledge Graph, Concept Graph Model.
- Связи с базами данных сущностей: Entity Repository (например, онлайн-энциклопедии).
- Идентификация текстовых конструкций: Multi-word expressions (многословные выражения или n-граммы), Phrases (фразы), Proper Names (имена собственные).

Какие метрики используются и как они считаются

Confidence Score: Вероятностная оценка корректности предсказания. Рассчитывается NLP-моделью. Может быть скорректирована (увеличена) при совпадении предсказания NLP с IR-аннотацией (Claim 15).
Пороги (Thresholds): Используются во время обучения для фильтрации предсказаний с низким Confidence Score (Claims 1 и 9).
Алгоритмы машинного обучения: NLP-модель может быть реализована с использованием различных методов, упомянутых в патенте: Bayesian network (Байесовская сеть), artificial neural network (искусственная нейронная сеть), support vector machine (метод опорных векторов).

Выводы

Глубокая интеграция NLP и Информационного Поиска (IR): Патент демонстрирует, что лингвистический анализ в Google не происходит изолированно. NLP-модели специально обучаются использовать данные из систем информационного поиска (в первую очередь, связи с Knowledge Graph) для понимания языка.
Сущности как ключ к пониманию структуры языка: IR-аннотации (распознавание сущностей) предоставляют критически важный контекст, который помогает NLP-модели правильно определить лингвистическую структуру и части речи, особенно в неоднозначных случаях. Сущности становятся фундаментальным элементом в интерпретации текста.
Улучшенное разрешение неоднозначности (Disambiguation): Ключевое преимущество метода — лучшая обработка слов с несколькими значениями. Если IR-модель идентифицирует фразу как сущность (например, название фильма в KG), NLP-модель учится классифицировать слова в этой фразе как имена собственные (Proper Nouns), даже если грамматически они выглядят как глаголы или прилагательные.
Адаптация к «шумным» данным: Система спроектирована так, чтобы справляться с грамматическими ошибками и отсутствием контекста в реальных поисковых запросах, опираясь на распознанные сущности.
Повышение уверенности через консенсус: Система использует механизм повышения Confidence Score, если предсказания NLP-модели совпадают с аннотациями IR-модели, что делает итоговый анализ более надежным.

Практика

Best practices (это мы делаем)

Фокус на Entity SEO (Оптимизация под сущности): Критически важно обеспечить четкую связь вашего контента и сайта с релевантными сущностями в Knowledge Graph. Поскольку данные о сущностях (IR-аннотации) используются для обучения и работы базовых NLP-моделей, правильное распознавание сущностей на вашем сайте улучшает то, как Google интерпретирует ваш контент лингвистически.
Использование микроразметки (Schema.org): Помогает IR-моделям корректно аннотировать ваш контент (Potential Search Results). Чем точнее аннотации IR-модели, тем лучше NLP-модель поймет семантику и структуру вашего текста.
Устранение неоднозначности в контенте: Используйте ясную и однозначную терминологию. Если вы используете термины с несколькими значениями, предоставьте достаточный контекст и используйте микроразметку, чтобы помочь IR-модели выбрать правильную интерпретацию и сгенерировать корректную аннотацию.
Создание четкой лингвистической структуры: Несмотря на то, что система предназначена для работы с «шумными» данными, чистая грамматика и четкая структура предложений снижают вероятность ошибок интерпретации со стороны NLP-модели.

Worst practices (это делать не надо)

Игнорирование связи с Knowledge Graph: Создание контента без учета существующих сущностей и их связей. Если контент «изолирован» семантически, IR-моделям сложнее его аннотировать, а NLP-моделям — сложнее интерпретировать и классифицировать.
Неоднозначный брендинг: Использование названий брендов или продуктов, состоящих из общих слов (например, глаголов или прилагательных), без создания сильных сигналов для их идентификации как сущностей. Это может привести к тому, что NLP-модель будет неверно классифицировать название как набор обычных слов.
Переоптимизация и неестественный язык: Использование текстов, перенасыщенных ключевыми словами в неестественных конструкциях (Keyword Stuffing). Это затрудняет работу как IR-моделей (для аннотирования), так и NLP-моделей (для лингвистического анализа).

Стратегическое значение

Патент демонстрирует глубокую интеграцию различных систем Google. Модели ранжирования/поиска и модели понимания языка обучают друг друга в рамках единой экосистемы. Это подтверждает стратегический курс на entity-oriented search. Сущности (Entities) становятся универсальным языком, который используют и IR-, и NLP-модели Google. Долгосрочная SEO-стратегия должна быть основана на Entity-based подходе, гарантируя корректное лингвистическое понимание контента системами Google.

Практические примеры

Сценарий: Улучшение распознавания неоднозначного названия бренда

Предположим, есть бренд обуви под названием «Go Far».

Проблема: Пользователь вводит запрос «обувь go far». Стандартная NLP-модель может интерпретировать «go» как глагол, а «far» как наречие, не понимая, что это бренд.
Действия SEO-специалиста: Специалист работает над тем, чтобы «Go Far» был распознан как сущность (Бренд) в Knowledge Graph (через GMB, разметку Schema.org/Organization, PR-активность).
Как работает система (согласно патенту):
- Обучение: В обучающих данных, где встречается «Go Far», IR-модель добавляет аннотацию: [«Go Far» — Сущность KG: Бренд Обуви]. NLP-модель учится, что эта последовательность слов в данном контексте является именем собственным (Proper Noun).
- Применение: Когда пользователь вводит «обувь go far», IR-модель сразу аннотирует запрос, указывая на сущность бренда. Обученная NLP-модель получает этот сигнал и корректно классифицирует «Go Far» как имя собственное, что позволяет системе правильно понять интент.
Результат: Улучшение ранжирования по брендовым запросам и более точное понимание упоминаний бренда в контенте.

Вопросы и ответы

Что такое «аннотации модели информационного поиска» (IR Model Annotations)?

Это данные, которые система поиска (IR-модель) добавляет к тексту запроса или документа. Они включают идентификацию фраз, имен собственных и, самое главное, связывание частей текста с сущностями в Knowledge Graph, Concept Graph или других базах данных (Entity Repository). По сути, это результат работы системы распознавания сущностей.

В чем основная проблема, которую решает этот патент?

Стандартные лингвистические модели (NLP) плохо понимают поисковые запросы, потому что запросы короткие, часто содержат ошибки и не следуют правилам грамматики. Патент решает эту проблему, обучая NLP-модели использовать сигналы от систем поиска (IR-аннотации), чтобы лучше интерпретировать такой «шумный» язык.

Как именно IR-аннотации помогают NLP-модели?

Они помогают разрешить неоднозначность. Например, если слово может быть глаголом или существительным, но IR-модель распознает его как часть известной сущности из Knowledge Graph (например, название фильма или бренда), NLP-модель использует эту информацию, чтобы уверенно классифицировать его как имя собственное в данном контексте.

Означает ли это, что Knowledge Graph теперь является фактором ранжирования?

Knowledge Graph и раньше играл важную роль в поиске. Этот патент показывает, что он также играет фундаментальную роль в обучении базовых систем понимания языка (NLP). Это не новый фактор ранжирования, но подтверждение того, что сущности лежат в основе всего процесса поиска, начиная с самой первой интерпретации запроса и анализа контента.

Как этот патент влияет на работу SEO-специалиста?

Он подтверждает критическую важность стратегии Entity SEO. Специалистам необходимо убедиться, что их контент, бренды и авторы четко связаны с сущностями в Knowledge Graph. Это помогает IR-моделям правильно аннотировать контент, что, в свою очередь, улучшает его интерпретацию NLP-моделями.

Влияет ли этот механизм только на запросы или на контент сайтов тоже?

Он влияет и на то, и на другое. В патенте явно указано, что входными данными могут быть как поисковые запросы (Search Query), так и потенциальные результаты поиска (Potential Search Results), то есть контент веб-страниц. Улучшенная NLP-модель используется для анализа контента на сайтах при индексировании и определении его релевантности.

Что такое Confidence Score и как он используется?

Это мера уверенности NLP-модели в своем предсказании. Патент описывает, что во время обучения предсказания с низкой уверенностью могут фильтроваться. А во время работы Confidence Score может быть увеличен, если предсказание NLP-модели совпадает с аннотацией IR-модели, что делает итоговый анализ более надежным.

Это старый патент (подача 2013 год). Актуален ли он сейчас?

Да, он высоко актуален. Он описывает фундаментальный принцип интеграции знаний (IR) и лингвистики (NLP). Хотя конкретные модели изменились (например, на нейронные сети типа Трансформеров, BERT, MUM), принцип использования сигналов из разных систем для взаимного обучения остается ключевым.

Нужно ли использовать грамматически неправильный язык на сайте, чтобы соответствовать запросам?

Нет. Патент описывает, как Google учится понимать плохую грамматику в запросах пользователей. Контент на сайте должен быть четким, структурированным и качественным. Это облегчает IR-моделям корректное аннотирование вашего контента, что помогает NLP-системам правильно его интерпретировать.

Как я могу помочь Google правильно аннотировать мой контент с помощью IR-моделей?

Используйте структурированные данные (Schema.org), чтобы явно указать на сущности и их связи. Развивайте тематический авторитет, чтобы ваш сайт ассоциировался с ключевыми концепциями в вашей нише. Работайте над присутствием вашего бренда или ключевых авторов в Knowledge Graph.