Как Google создает временные Графы Знаний для освещения событий в реальном времени

Google использует систему для мониторинга живых потоков данных (социальные сети, поисковые запросы) для обнаружения развивающихся событий. Для этих событий создаются временные «Event-Specific Provisional Knowledge Graphs», которые агрегируют информацию в реальном времени до того, как она будет проверена и добавлена в основной Граф Знаний. Это позволяет поиску быстро предоставлять информацию о последних новостях.

Описание

Какую задачу решает

Патент решает проблему задержки обновления основного general-purpose knowledge graph (Графа Знаний общего назначения) во время быстро развивающихся или «живых» событий (developing events), таких как стихийные бедствия, спортивные матчи или протесты. Информация о таких событиях часто появляется в live data streams (живых потоках данных, например, социальных сетях) раньше, чем в традиционных источниках, и до того, как основной Граф Знаний успевает ее верифицировать. Это создает пробел в знаниях системы в критические моменты.

Что запатентовано

Запатентована система для создания и обновления event-specific provisional knowledge graph (временного графа знаний для конкретного события, PKG). Этот временный граф строится поверх основного Графа Знаний и предназначен для агрегации информации из live data streams в реальном времени. Он организует непроверенную или неподтвержденную информацию о развивающемся событии в виде сущностей (entities) и связей, позволяя системе отвечать на запросы до того, как данные будут полностью верифицированы и интегрированы в основной Граф Знаний.

Как это работает

Система работает следующим образом:

Обнаружение события: Система отслеживает всплески семантически связанных поисковых запросов или активности в live data streams, что сигнализирует о начале нового события.
Анализ потоков: Анализируются релевантные живые потоки данных (например, посты в социальных сетях) с использованием NLP и обработки медиа для извлечения сущностей и фактов.
Построение временного графа (PKG): Создается event-specific provisional knowledge graph. Он использует существующие сущности из основного графа, но добавляет новые узлы и связи, специфичные для текущего события, даже если они еще не подтверждены.
Предоставление информации: Временный граф используется для ответа на запросы пользователей или для проактивного информирования заинтересованных лиц («подписчиков») о развитии события.
Верификация и слияние: Система продолжает мониторинг для подтверждения информации. Как только элементы временного графа верифицируются, они объединяются (merging) с general-purpose knowledge graph.

Актуальность для SEO

Высокая. Обработка событий в реальном времени (Real-Time Search) и концепция QDF (Query Deserves Freshness) являются критически важными аспектами современного поиска. Способность Google быстро структурировать информацию о последних новостях напрямую влияет на качество выдачи. Этот патент описывает инфраструктуру для интеграции данных из социальных сетей и других живых потоков непосредственно в структуру Графа Знаний.

Важность для SEO

Патент имеет высокое значение (8.5/10) для SEO, особенно для новостных сайтов и контент-проектов, работающих с трендами. Он раскрывает механизм, с помощью которого Google использует неверифицированные источники (например, социальные сети) для формирования понимания событий в реальном времени. Это подчеркивает важность скорости публикации и присутствия бренда/сущности в live data streams для быстрого попадания в Граф Знаний и, как следствие, в поисковую выдачу по горячим темам.

Детальный разбор

Термины и определения

Developing Event (Развивающееся событие): Живое событие, происходящее в реальном времени (например, катастрофа, спортивное событие, протест), информация о котором быстро меняется.
Event-Specific Provisional Knowledge Graph (PKG) (Временный граф знаний для конкретного события): Временная или «эфемерная» структура данных, создаваемая для конкретного developing event. Содержит информацию из живых потоков, которая еще не подтверждена (uncorroborated) или не проверена (unverified) для включения в основной граф знаний.
Event Subscribers (Подписчики события): Пользователи, которые выразили интерес к событию (например, задав запрос) или интересуются определенным типом событий, и получают проактивные обновления.
Event Type Template (Шаблон типа события): Структура данных для классификации событий. Включает «слоты» для ожидаемых данных (например, шаблон «пожар» ожидает данные о «дыме», «пожарных машинах»).
General-Purpose Knowledge Graph (KG) (Граф знаний общего назначения): Основная база данных (Граф Знаний), содержащая проверенные факты о сущностях и их взаимосвязях.
Live Data Stream (Живой поток данных): Поток информации в реальном времени (текст, изображения, видео). Примеры: посты в социальных сетях, видеотрансляции, поисковые запросы.
Query Monitor (Монитор запросов): Компонент, который отслеживает поисковые запросы и кластеризует семантически связанные запросы для обнаружения развивающихся событий.
Live Stream Monitor (Монитор живых потоков): Компонент, который отслеживает live data streams для обнаружения событий и сбора информации.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл обработки информации о новом событии от обнаружения до интеграции в основной Граф Знаний.

Система анализирует два или более live data streams.
На основе анализа система обнаруживает новое (newly detecting) developing event и идентифицирует связанные сущности.
В ответ на обнаружение система конструирует event-specific provisional knowledge graph (PKG).
Система запрашивает PKG для получения первой информации.
Система выводит эту первую информацию (Первый вывод).
После создания PKG система продолжает мониторинг потоков для подтверждения или верификации (corroborate or verify) элементов PKG.
В ответ на верификацию система выполняет слияние (merging) этих элементов с general-purpose knowledge graph (KG).
В результате основной KG становится доступным для поиска информации об этом событии.

Ядром изобретения является создание промежуточной структуры данных (PKG) для управления неверифицированной информацией и последующий процесс ее верификации и интеграции в основной, доверенный Граф Знаний (KG).

Claim 2 (Зависимый от 1): Первый вывод (из PKG) содержит аннотацию о том, что информация не подтверждена (uncorroborated).

Claim 3 и 4 (Зависимые): Описывают процесс после слияния. Система запрашивает основной KG и выводит вторую информацию (Второй вывод), которая содержит аннотацию о том, что она подтверждена (corroborated).

Claim 5 и 6 (Зависимые): Уточняют, что PKG и KG могут иметь общие узлы сущностей (shares one or more entity nodes).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, формируя конвейер обработки данных в реальном времени.

CRAWLING – Сканирование и Сбор данных
Система активно сканирует live data streams (социальные сети, новостные ленты) и собирает данные о поисковых запросах в реальном времени. За это отвечают Live Stream Monitor и Query Monitor.

INDEXING – Индексирование и извлечение признаков
Происходит специализированное индексирование в реальном времени. Данные из потоков обрабатываются через конвейер (Data Processing Pipeline): применяются NLP-модели для извлечения тем (topic extraction) и сущностей (entity identification/linking), а также обработка медиа (Image/Video Sub-pipeline). Эти данные используются для построения event-specific provisional knowledge graph (PKG).

QUNDERSTANDING – Понимание Запросов
Query Monitor анализирует поток запросов. Обнаружение кластеров семантически связанных запросов служит триггером для активации системы и создания PKG. Система также определяет интент пользователя как поиск информации о текущем событии.

RANKING / METASEARCH – Ранжирование и Метапоиск
Когда пользователь запрашивает информацию о развивающемся событии, система может обращаться как к основному KG, так и к PKG. Если в основном KG информации нет, система использует данные из PKG для формирования ответа (например, в блоках выдачи или через Ассистента).

Входные данные:

Потоки из live data streams (текст, изображения, видео, аудио).
Поток поисковых запросов.
Данные из general-purpose knowledge graph (для связывания сущностей).

Выходные данные:

Event-specific provisional knowledge graph.
Обновления для general-purpose knowledge graph (после верификации).
Сводки о событии и Push-уведомления для пользователей.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, требующие максимальной свежести (QDF-запросы), связанные с последними новостями и внезапными событиями.
Конкретные типы контента: Повышается значимость контента из социальных сетей, прямых трансляций и свежих новостных сообщений.
Конкретные ниши: Новости, спорт, развлечения, политика, чрезвычайные ситуации – тематики, где скорость обновления информации критична.

Когда применяется

Триггеры активации: Система активируется при обнаружении developing event. Это происходит при:
- Обнаружении кластера семантически связанных поисковых запросов.
- Обнаружении всплеска семантически связанных постов в live data streams.
- Поступлении информации от доверенных источников (например, служб экстренного реагирования).
Условия работы: Алгоритм работает, пока событие развивается и информация в основном Графе Знаний отстает от данных в живых потоках.

Пошаговый алгоритм

Этап 1: Обнаружение события и инициализация

Мониторинг потоков: Непрерывный анализ запросов (Query Monitor) и live data streams (Live Stream Monitor).
Обнаружение кластеров: Идентификация кластеров семантически связанных данных (запросов или постов), которые могут указывать на новое событие. Учитывается временная и пространственная близость.
Подтверждение события: Если вероятность нового события превышает порог, регистрируется developing event.
Инициализация PKG: Создание нового event-specific provisional knowledge graph.

Этап 2: Построение и обновление PKG (Data Processing Pipeline)

Сбор и парсинг данных: Crawler/Parser извлекает данные из релевантных потоков.
Обработка медиа: Image/Video Sub-pipeline анализирует нетекстовые данные (распознавание объектов, OCR).
Извлечение признаков (NLP): Применение моделей для Topic Extraction (например, LDA, PLSA) и Entity Identification/Linking.
Дедупликация: Deduplicator фильтрует повторяющуюся информацию.
Обновление PKG: Добавление новых сущностей и связей в PKG.
Классификация события (Опционально): Определение типа события с помощью Event Type Templates или моделей ML.

Этап 3: Предоставление информации и Верификация

Обработка запросов: При получении запроса система использует PKG для генерации ответа (возможно, с меткой uncorroborated).
Суммаризация и доставка: Sentence Summarization генерирует сводки, которые доставляются подписчикам через Notification Streamer или TTS Streamer.
Верификация (Corroboration): Постоянный мониторинг потоков для подтверждения фактов в PKG.
Слияние (Merging): Перенос подтвержденных элементов из PKG в general-purpose knowledge graph. После слияния информация помечается как corroborated.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст постов в социальных сетях, текст поисковых запросов. Текст, извлеченный из аудио (Speech-to-Text) или изображений (OCR).
Мультимедиа факторы: Изображения и видео из live data streams. Используется для распознавания объектов, лиц и контекста события.
Географические факторы: Координаты (например, GPS) устройств, с которых публикуются посты или отправляются запросы. Используется для определения местоположения события и релевантности источников.
Временные факторы: Временные метки публикаций/запросов. Критичны для определения актуальности и хронологии события.
Пользовательские факторы (Надежность источника): Оценка достоверности источника live data stream. Патент упоминает мониторинг доверенных лиц/организаций (например, first responders, reporters, influencers).

Какие метрики используются и как они считаются

Семантическая близость (Semantic Similarity): Используется для кластеризации запросов и постов с целью обнаружения события. Может рассчитываться на основе эмбеддингов (embeddings) в латентном пространстве.
Методы анализа текста (NLP): Модели для извлечения тем (упоминаются PLSA, LDA) и распознавания/связывания сущностей (Entity Identification/Linking).
Алгоритмы машинного обучения (ML): Используются для классификации типа события. Упоминаются нейронные сети, SVM, графовые нейронные сети (GNN). Также используется сравнение с Event Type Templates.
Метрики подтверждения (Corroboration Metrics): Используются для определения момента, когда информация достаточно проверена для переноса в основной KG.

Выводы

Двухуровневая система знаний для реального времени: Google использует двухуровневую систему: быстрый, временный Provisional Knowledge Graph (PKG) для немедленного реагирования на события и медленный, постоянный General-purpose Knowledge Graph (KG) для хранения проверенных фактов.
Скорость важнее точности на старте события: Система готова собирать и отображать информацию через PKG, даже если она еще не подтверждена (uncorroborated), чтобы обеспечить максимальную скорость освещения событий. Точность достигается позже на этапе верификации.
Живые потоки данных как первичный источник: Социальные сети и другие live data streams рассматриваются как критически важные источники для обнаружения новых событий и первичного наполнения Графа Знаний в реальном времени.
Автоматизированный процесс интеграции знаний: Патент описывает автоматический механизм переноса информации из PKG в основной KG по мере ее верификации (merging).
Мультимодальный анализ: Система не полагается только на текст. Она активно анализирует изображения и видео (Image/Video Sub-pipeline) из живых потоков для полного понимания события.
Важность надежности источников и подтверждения: Хотя система собирает данные быстро, ключевым этапом является проверка (corroboration). Данные из надежных источников могут ускорить этот процесс.

Практика

Best practices (это мы делаем)

Оптимизация под Real-Time SEO (QDF): Для новостных и событийных сайтов скорость публикации критична. Необходимо обеспечить максимально быстрое появление точной информации на вашем ресурсе и в связанных live data streams (например, официальных социальных сетях), чтобы попасть в PKG.
Активное использование социальных сетей для дистрибуции: Поскольку live data streams являются первичным источником для PKG, необходимо активно использовать эти каналы для распространения информации о событиях. Это увеличивает шансы быстрого распознавания вашей информации системой.
Насыщение контента сущностями (Entity-First): Четко указывайте ключевые сущности (люди, места, организации, даты) в публикациях и постах. Это облегчает работу NLP-моделей по entity identification/linking для наполнения временного графа.
Повышение авторитетности источника (Source Authority/E-E-A-T): Работайте над тем, чтобы система воспринимала ваш ресурс и ваши социальные аккаунты как надежный источник. Это ускорит процесс подтверждения (corroboration) информации, взятой у вас, и ее перенос в основной KG.
Предоставление мультимедийного контента: Публикация уникальных фото и видео с места событий может быть ценным вкладом, так как система использует конвейеры обработки изображений/видео для извлечения фактов.

Worst practices (это делать не надо)

Медленная реакция на события: Задержка публикации контента о развивающихся событиях приведет к тому, что Граф Знаний будет сформирован на основе данных конкурентов, а вы упустите трафик.
Публикация слухов и непроверенной информации (Fake News): Хотя такая информация может кратковременно попасть в PKG, система стремится ее проверить. Если информация не подтвердится, это может негативно сказаться на долгосрочной оценке надежности источника (Source Reliability).
Дублирующее освещение (Me-Too Content): Компонент Deduplicator фильтрует повторяющуюся информацию. Простое переписывание чужих отчетов имеет низкую ценность для PKG; необходимо предоставлять уникальную информацию или медиа.

Стратегическое значение

Патент подтверждает стратегию Google по интеграции данных реального времени непосредственно в Граф Знаний. Он демонстрирует инфраструктуру, позволяющую Google конкурировать с социальными сетями в скорости освещения срочных новостей. Для SEO-специалистов это означает, что традиционное веб-продвижение должно быть дополнено стратегией присутствия в live data streams (включая SMM) и фокусом на скорость, точность и четкое определение сущностей для QDF-запросов.

Практические примеры

Сценарий: Освещение внезапной новости (Breaking News) новостным порталом

Событие: Происходит незапланированное публичное событие. Google обнаруживает всплеск запросов и постов и создает Provisional Knowledge Graph.
Действия SEO/SMM команды:
- SMM-специалист немедленно публикует сообщение в Twitter/X с ключевыми фактами и сущностями (Кто, Что, Где).
- Новостная команда максимально быстро публикует короткую новость на сайте с оптимизированным заголовком и упоминанием сущностей.
Как работает система Google:
- Система анализирует посты (включая посты новостного портала) как live data streams и извлекает сущности.
- Временный граф наполняется этими первичными данными.
Ожидаемый результат: Новостной портал быстро появляется в выдаче по запросам о событии. По мере того как система верифицирует информацию (сравнивая данные из разных источников), факты переносятся в основной Граф Знаний, а портал закрепляется как авторитетный источник.

Вопросы и ответы

Что такое «Provisional Knowledge Graph» (PKG) и чем он отличается от основного Графа Знаний (KG)?

PKG — это временная структура данных, создаваемая Google на лету для конкретного развивающегося события. Основное отличие в том, что PKG наполняется быстро из живых потоков данных (например, социальных сетей) и может содержать неверифицированную (uncorroborated) информацию. Основной KG содержит только проверенные факты и обновляется медленнее. PKG позволяет Google отвечать на запросы о событии до завершения верификации.

Как Google определяет, что началось новое событие?

Система отслеживает аномалии в потоках данных. Основными триггерами являются обнаружение кластера семантически связанных поисковых запросов (через Query Monitor) или всплеск связанных постов в социальных сетях (через Live Stream Monitor). Также триггером может служить информация от доверенных организаций.

Какие источники использует Google для наполнения временного Графа Знаний?

Используются live data streams. Патент явно упоминает посты в социальных сетях, видео-хостинги, а также поисковые запросы. Система анализирует текст, изображения, видео и аудио из этих источников для извлечения фактов и сущностей в реальном времени.

Как информация попадает из временного графа в основной?

Патент описывает процесс верификации и слияния (merging). Система продолжает мониторинг живых потоков для подтверждения (corroborate or verify) информации, содержащейся в PKG. Как только факт подтверждается (например, появляется в авторитетных источниках или подтверждается множеством сообщений), он переносится в основной general-purpose knowledge graph.

Что это значит для новостных сайтов и Real-Time SEO?

Это подчеркивает критическую важность скорости публикации и активного присутствия в социальных сетях. Чтобы быть источником, который Google использует для наполнения PKG и последующей верификации фактов, необходимо публиковать информацию оперативно и четко указывать вовлеченные сущности. Это ключевой фактор для видимости по QDF-запросам.

Влияет ли этот патент на E-E-A-T?

Да, косвенно. Хотя PKG собирает и неверифицированные данные, система использует оценки надежности источников для верификации. Авторитетные источники (высокий E-E-A-T) будут способствовать более быстрому подтверждению информации и ее переносу в основной Граф Знаний. Регулярное предоставление точной информации укрепляет авторитет источника.

Может ли ложная информация из социальных сетей попасть в Граф Знаний из-за этого механизма?

Она может попасть во временный (provisional) Граф Знаний. Патент предполагает (Claim 2), что такая информация может быть показана пользователям, но с пометкой о ее неподтвержденности (uncorroborated). Однако для попадания в основной Граф Знаний информация должна пройти процесс верификации, который призван отсеять ложные данные.

Использует ли Google визуальный контент для понимания событий в реальном времени?

Да. Патент явно указывает на использование подсистемы обработки изображений и видео (Image/Video Sub-pipeline). Система анализирует визуальный контент из живых потоков (используя OCR, распознавание объектов) для идентификации сущностей и понимания контекста развивающегося события.

Как работает дедупликация информации?

Система включает компонент Deduplicator, который анализирует входящие данные и определяет, является ли информация новой или повторением уже существующей (например, репосты). Для наполнения графа используется в основном новая информация, хотя повторы могут использоваться для подтверждения (верификации) фактов.

Как система определяет тип события (например, спорт или политика)?

Система может использовать Event Type Templates — шаблоны с ожидаемыми полями для разных типов событий (например, «счет» и «команды» для спорта). Также могут применяться модели машинного обучения (например, нейронные сети, GNN, SVM) для классификации события на основе извлеченных признаков.