
Google использует механизм для понимания фактов и связей, описанных в свободном (неструктурированном) тексте. Система анализирует слова, окружающие сущность («Контекстное Облако»), и сравнивает этот контекст с тем, как эти слова используются в уже известных фактах. Это позволяет системе извлекать новую информацию и автоматически расширять Knowledge Graph, даже если контент не использует строгую разметку или шаблоны.
Патент решает проблему извлечения структурированных знаний (фактов и отношений между сущностями) из неструктурированного или слабоструктурированного текста (unstructured data/semi-structured data). Основная сложность заключается в том, что поисковые системы могут распознавать сущности (например, даты или имена), но им трудно понять отношения, выраженные свободным текстом (free-form text), который не соответствует заранее определенным шаблонам (например, система понимает шаблон "Дата рождения: 16 октября", но может не понять фразу "родился 16-го октября").
Запатентована система для автоматического построения и расширения Базы Знаний (Knowledge Base), в частности Knowledge Graph. Метод основан на анализе "Контекстных Облаков" (Context Clouds) — набора слов и объектов, находящихся рядом с целевой сущностью в тексте. Система сравнивает эти контекстные облака с уже известными данными (seed knowledge) и статистикой совместной встречаемости (occurrence lists), чтобы вывести значение или отношение для целевой сущности в неструктурированном контенте.
Система работает следующим образом:
target object), например, дата "Oct. 16, 1992".proximate objects), например, "Bryce Harper", "was born on". Это формирует Target Context Cloud.seed knowledge), где встречается тот же целевой объект, используя списки встречаемости (occurrence lists).Target Context Cloud сравнивается с контекстными облаками из других документов (Candidate Context Clouds).Knowledge Graph и используется для ответов на запросы.Высокая. Извлечение фактов и наполнение Knowledge Graph являются критически важными задачами для Google. Способность понимать неструктурированный контент без зависимости от Schema.org или строгих шаблонов лежит в основе современных NLP-технологий и напрямую влияет на качество поиска, генерацию Knowledge Panels и ответы на фактические запросы.
Влияние на SEO значительно (8/10). Патент описывает механизм, с помощью которого Google учится понимать контент и извлекать из него факты. Это напрямую влияет на то, как Google оценивает авторитетность ресурса и насколько полно он может использовать его контент для наполнения Knowledge Graph. Для SEO-специалистов это означает, что ясность и контекстуальная точность изложения фактов в тексте критически важны для Entity SEO, даже без использования микроразметки.
frequency of co-occurrence). Используется для поиска похожих контекстов.free-form text), который не соответствует заранее определенным шаблонам или структурам данных, что затрудняет машинное понимание отношений между объектами.Claim 1 (Независимый пункт): Описывает систему для генерации и использования графов знаний, охватывая весь процесс от извлечения факта до его использования в поиске.
target data object) в документе в Интернете.proximate) с целевым объектом.frequency of co-occurrence) второго и третьего объектов в сохраненных списках встречаемости (stored occurrence lists).relationship), ассоциированное с целевым объектом, на основе идентифицированного третьего объекта.Knowledge Graph генерируется первая запись, включающая целевой объект и определенное отношение.Это ядро патента, описывающее извлечение фактов из текста. Если система видит "А рядом с Б" (формируя Context Cloud), она проверяет базу данных (occurrence lists и seed knowledge): "С чем обычно встречается Б?". Если Б часто встречается с отношением В (например, слово "родился" часто встречается с фактом "Дата Рождения"), система делает вывод, что А имеет отношение В, и записывает этот факт в Knowledge Graph. Затем этот факт используется в поиске.
Claim 6 и 11 (Независимые пункты): Описывают аналогичный процесс, но как компьютерно-реализуемый метод и как неперезаписываемый компьютерный носитель соответственно.
Изобретение применяется преимущественно на этапе обработки контента и построения базы знаний.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются документы (веб-страницы), которые служат источником неструктурированных данных для анализа.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. В рамках этого этапа Knowledge Server выполняет:
n-grams), идентифицируются сущности (Target Objects).Context Clouds для анализа неструктурированного текста и вывода отношений, когда стандартные шаблоны не работают.Knowledge Graph.Data Mining Engine) также может обновлять occurrence lists на основе анализа всего корпуса документов.METASEARCH – Метапоиск и Смешивание
Результаты работы алгоритма (новые факты в Knowledge Graph) используются на этом этапе для генерации обогащенных результатов поиска, таких как Knowledge Panels или прямые ответы, в ответ на запросы пользователей (как прямо указано в Claims).
Входные данные:
Knowledge Graph или другие базы данных (Seed Knowledge).Occurrence Lists.Выходные данные:
Knowledge Graph (сущности и отношения между ними).Knowledge Graph, наполненного с помощью этого механизма.YMYL-темы, где точность фактов критична.Knowledge Graph.Этап 1: Обнаружение объекта и анализ структуры
Target Object).Этап 2: Генерация контекста и поиск кандидатов
Proximate Objects) и создается Target Context Cloud.Occurrence Lists для поиска других документов (Seed Knowledge), где встречается Целевой Объект и/или Близлежащие Объекты.Context Clouds.Этап 3: Сравнение и вывод отношений
Target Context Cloud сравнивается с облаками кандидатов. Рассчитывается оценка схожести (Similarity Score) или достоверности (Confidence Level). Оценка может учитывать количество совпадающих объектов и их близость к целевому объекту.Этап 4: Обновление Базы Знаний
Патент фокусируется на обработке текстовых данных и использовании статистики корпуса.
n-grams и объекты.proximity) слов и сущностей друг к другу в тексте (в одном предложении, абзаце или пространственной локации). Система также анализирует общую структуру, чтобы определить, является ли текст шаблонным или свободным.Occurrence Lists, показывающая, насколько часто два объекта появляются вместе в корпусе документов. Используется для идентификации потенциальных отношений и поиска кандидатов.Target Context Cloud и Candidate Context Clouds. Может учитывать: Proximate Objects.Context Clouds основан на анализе слов, непосредственно окружающих сущность (proximity). Четкость и ясность контекста напрямую влияют на способность Google правильно интерпретировать факты.Knowledge Graph) как эталон и ищет похожие паттерны в новом контенте. Это метод бутстрэппинга (bootstrapping).Occurrence Lists играют ключевую роль. Google определяет отношения не только через грамматический разбор, но и через статистику совместной встречаемости (co-occurrence): если слово "родился" в 99% случаев соседствует с датой рождения, система выучивает это отношение.Knowledge Graph факты напрямую используются для генерации результатов поиска в ответ на запросы пользователей.Context Clouds.Occurrence Lists), использование общепринятых фраз для описания отношений (например, "основан в", "автор книги") повышает вероятность правильного извлечения фактов.Context Cloud Engine. Используйте ясную структуру Субъект-Предикат-Объект, когда это возможно.Knowledge Graph и, возможно, станет частью Seed Knowledge.Context Cloud и снижает веса близости (proximity).Seed Knowledge.Context Clouds, что снижает достоверность извлекаемых фактов.Knowledge Graph — проигрышная стратегия.Патент подтверждает стратегию Google по переходу от индексации строк к индексации сущностей и знаний (Entity-Oriented Search). Способность извлекать структурированные данные из неструктурированного текста позволяет Google масштабировать Knowledge Graph экспоненциально. Для Senior SEO-специалистов это подчеркивает необходимость фокусироваться на создании качественного, фактически точного и семантически ясного контента. Стратегия должна быть направлена на то, чтобы сайт был распознан как надежный источник информации о сущностях в своей тематике.
Сценарий: Оптимизация биографической статьи для Knowledge Graph
Задача: Убедиться, что Google правильно извлечет дату рождения спортсмена Брайса Харпера из статьи.
Context Cloud шумный, близость низкая.proximity). Ключевое слово отношения ("родился") является распространенным и имеет четкую статистику в Occurrence Lists. Система легко сравнит этот Context Cloud с Seed Knowledge и извлечет факт "Дата Рождения".Что такое "Контекстное Облако" (Context Cloud) на практике?
Context Cloud — это, по сути, набор слов, которые находятся в непосредственной близости от интересующей нас сущности в тексте. Например, если есть предложение "Компания Apple основана Стивом Джобсом в 1976 году", то для сущности "Apple" контекстное облако будет включать "Компания", "основана", "Стивом Джобсом", "1976 году". Система анализирует этот набор слов, чтобы понять отношения между Apple, Джобсом и датой.
Означает ли этот патент, что можно больше не использовать разметку Schema.org для фактов?
Не совсем. Schema.org предоставляет явные, структурированные сигналы, которые Google легко интерпретировать. Описанный механизм Context Clouds предназначен для извлечения фактов, когда явная разметка отсутствует или текст нешаблонный. Лучшая стратегия — использовать Schema.org для максимальной точности, но при этом писать текст так, чтобы он был понятен и без разметки, полагаясь на механизмы, подобные описанному в патенте.
Как система определяет, какие слова включать в Context Cloud?
Патент указывает на использование "близлежащих объектов" (Proximate Objects). Это может означать слова, находящиеся в том же предложении, абзаце или в определенной пространственной близости (например, в одной ячейке таблицы). Система также может присваивать веса этим словам, причем чем ближе слово к целевой сущности (proximity), тем выше может быть его вес в контекстном облаке.
Что такое "Списки Встречаемости" (Occurrence Lists) и как они формируются?
Occurrence Lists — это глобальная статистика совместной встречаемости объектов (co-occurrence), собранная по всему корпусу документов (веб-индексу). Они показывают, насколько часто определенные слова или сущности появляются вместе. Например, они могут содержать информацию о том, что слово "родился" очень часто встречается рядом с датами и именами людей. Система использует эту статистику для вывода отношений.
Что такое "Seed Knowledge" и как оно влияет на мой сайт?
Seed Knowledge – это уже существующая база знаний Google (факты, которые система уже знает). Google использует эти знания для интерпретации вашего контента. Если ваш контент предоставляет контекст, похожий на тот, что уже есть в авторитетных источниках (которые, вероятно, формируют Seed Knowledge), системе будет проще понять ваш текст и извлечь из него факты.
Как этот патент влияет на E-E-A-T и авторитетность сайта?
Он имеет косвенное, но важное влияние. Если Google может успешно и точно извлекать факты из вашего контента с помощью этого механизма, это служит сигналом качества и достоверности информации на сайте. Сайты, которые регулярно поставляют точную информацию, которая попадает в Knowledge Graph, укрепляют свою авторитетность и экспертность в глазах поисковой системы.
Стоит ли использовать синонимы при описании отношений?
Да, но важно, чтобы контекст оставался ясным. Система может распознавать синонимы (например, "родился", "дата рождения", "появился на свет"), если эти синонимы часто встречаются в схожих контекстах в Occurrence Lists. Однако использование наиболее распространенных и четких терминов обычно повышает надежность извлечения фактов.
Может ли этот механизм извлекать неверные факты?
Да. Поскольку механизм основан на статистике и сравнении схожести контекстов, он может ошибаться, особенно если контекст в документе неоднозначен или если оценка достоверности (Confidence Score) рассчитана неверно. Система использует пороговые значения, чтобы минимизировать ошибки, но они не исключены полностью.
Как лучше всего оптимизировать текст, учитывая этот патент?
Лучшая оптимизация — это ясность и точность. Пишите предложения так, чтобы отношения между сущностями были очевидны. Используйте структуру "Субъект — Предикат — Объект" (например, "[Компания] основала [Продукт] в [Год]"). Держите связанные сущности и описывающие их слова близко друг к другу в тексте.
Применяется ли этот метод только к тексту или также к таблицам и спискам?
Хотя патент фокусируется на неструктурированном (свободном) тексте, он упоминает, что Proximate Objects могут определяться по пространственной локации, что включает таблицы и списки (например, слова непосредственно над или под целевым объектом). Если таблица или список не соответствуют известным структурированным шаблонам, этот механизм может быть применен для анализа контекста внутри этих элементов.

Knowledge Graph
Семантика и интент
Структура сайта

Семантика и интент
Knowledge Graph

Knowledge Graph
Семантика и интент
SERP

Knowledge Graph
Семантика и интент
EEAT и качество

Knowledge Graph
Семантика и интент
SERP

Мультимедиа
EEAT и качество
Ссылки

Поведенческие сигналы
Персонализация
SERP

Техническое SEO
Ссылки

Local SEO
Ссылки
SERP

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Поведенческие сигналы
Local SEO

Поведенческие сигналы
SERP

Структура сайта
Техническое SEO
Индексация

Свежесть контента
Антиспам
Ссылки

Поведенческие сигналы
SERP
Мультимедиа
