Как Google создает локальные копии Knowledge Graph на устройствах пользователей для контекстной помощи офлайн

Google патентует систему для создания локального «персонализированного репозитория сущностей» на устройстве пользователя. Глобальная база знаний разделяется на тематические и географические наборы («срезы»). Устройство анализирует контекст (местоположение, контент на экране) и загружает только релевантные срезы, что позволяет быстро распознавать сущности и предлагать действия без подключения к сети.

Описание

Какую задачу решает

Патент решает инфраструктурную проблему доступа к массивному централизованному репозиторию сущностей (например, Knowledge Graph) с мобильных устройств, имеющих ограниченную память и нестабильное сетевое подключение. Цель — обеспечить быстрое локальное распознавание сущностей для предоставления контекстной помощи пользователю (например, предложения действий на основе контента экрана) даже в офлайн-режиме.

Что запатентовано

Запатентована система для создания и динамического управления Personalized Entity Repository на клиентском устройстве. Основной механизм заключается в предварительном разделении глобального репозитория на сервере на «фиксированные наборы» (Fixed Entity Sets или «срезы»). Клиентское устройство использует модель прогнозирования (Set Prediction Model) для выбора и локальной загрузки наиболее контекстуально релевантных наборов.

Как это работает

Система работает в двух плоскостях:

На сервере: Основной Entity Repository заранее делится на Fixed Entity Sets (по местоположению, тематике или функции). Также обучается базовая Set Prediction Model.
На устройстве клиента:

Агент (Screen Content Agent) отслеживает контекст (местоположение, контент на экране, используемые приложения).
Механизм (Set Identification Engine) использует локальную копию Set Prediction Model для определения и ранжирования наиболее релевантных наборов на основе контекста.
Устройство загружает топовые наборы, формируя Personalized Entity Repository, и управляет хранилищем, удаляя устаревшие наборы и обновляя существующие (используя Deltas).

Актуальность для SEO

Высокая. Фокус на «AI on device» (локальный ИИ), контекстную помощь (Google Assistant, Lens) и скорость работы мобильных систем делает эту инфраструктуру крайне актуальной. Тот факт, что данная публикация является продолжением (continuation application) патента с приоритетом от 2015 года, поданным в 2024 году, указывает на стратегическую важность и развитие этой технологии для Google.

Важность для SEO

(2/10). Влияние на традиционное SEO (ранжирование в веб-поиске) минимальное. Патент описывает инфраструктуру для доставки данных и клиентской обработки, а не алгоритмы ранжирования Google Search. Он не влияет на то, какие сайты попадут в топ выдачи. Однако он дает важное концептуальное понимание того, как Google сегментирует и распространяет данные Knowledge Graph.

Детальный разбор

Термины и определения

Delta (Дельта): Информация об изменениях в Fixed Set (список сущностей для добавления/удаления). Используется для обновления набора на клиенте без его полной перезагрузки.
Entity Repository (Репозиторий сущностей): Центральная база данных на сервере (например, Knowledge Graph), хранящая факты и информацию о сущностях.
Fixed Entity Set / Slice (Фиксированный набор сущностей / Срез): Предварительно вычисленное подмножество Entity Repository. Является единицей данных, передаваемой на клиентское устройство.
Functional Set (Функциональный набор): Тип набора, включающий сущности на основе популярности (частоты запросов) или необходимые для определенной функции/приложения.
Location-based Set (Набор на основе местоположения): Тип набора, включающий сущности, физически расположенные внутри определенной географической ячейки (cell).
Personalized Entity Repository (Персонализированный репозиторий сущностей): Локальное хранилище на клиентском устройстве, содержащее коллекцию Fixed Entity Sets, наиболее релевантных для пользователя в данный момент.
Screen Content Agent (Агент контента экрана): Компонент на клиенте, который захватывает контент экрана (текст или изображения) для анализа контекста.
Set Identification Engine (Механизм идентификации наборов): Компонент на клиенте, который управляет Personalized Entity Repository (прогнозирование, ранжирование, загрузка и удаление наборов).
Set Prediction Model (Модель прогнозирования наборов): Модель машинного обучения (упоминаются LSTM, SVM), обученная на сервере и используемая на клиенте для прогнозирования релевантных наборов на основе контекстных сигналов.
Set Usage Parameters (Параметры использования наборов): Ограничения локального репозитория (например, максимальный объем памяти, максимальное количество наборов), часто определяемые пользователем.
Topic-based Set (Тематический набор): Тип набора, содержащий сущности, связанные по теме, часто определяемые путем кластеризации или сходства эмбеддингов (embedding similarity).

Ключевые утверждения (Анализ Claims)

Анализ основан на Claims 1-20, представленных в публикации заявки US20250024237A1. Они фокусируются на механизме использования захваченного контента экрана для управления локальным репозиторием.

Claim 1 (Независимый пункт): Описывает основной процесс на стороне клиента.

Система инициирует захват контента, отображаемого на клиентском устройстве, в виде данных изображения (image data).
В ответ на захват, система обрабатывает эти данные изображения.
На основе обработки идентифицируются одна или несколько сущностей, присутствующих в данных изображения.
На основе идентифицированных сущностей система принимает решение сохранить определенный набор сущностей (particular set of entities) на клиентском устройстве.
В ответ на это решение система инициирует сохранение этого набора сущностей на устройстве.

Claim 5 (Зависимый от 1): Детализирует механизм принятия решения.

В ответ на идентификацию сущностей обновляется оценка (score), связанная с определенным набором сущностей. Решение о сохранении принимается, если обновленная оценка удовлетворяет пороговому значению (threshold). Это описывает механизм ранжирования: просмотр контента повышает релевантность связанных наборов.

Claims 6 и 7 (Зависимые от 1): Уточняют, что сохраняемый набор может быть тематическим (topic-based set) или географическим (location-based set).

Где и как применяется

Изобретение не вписывается в стандартную 6-этапную архитектуру веб-поиска. Оно описывает параллельную инфраструктуру для обеспечения работы контекстной помощи на устройстве пользователя.

INDEXING – Индексирование (Подготовка на сервере)
На этом этапе на сервере происходит предварительная подготовка данных. Глобальный Entity Repository анализируется для создания Fixed Entity Sets (срезов). Также тренируется базовая Set Prediction Model с использованием Search Records и Crawled Documents.

Client-Side Processing (Основное применение на устройстве)
Основные механизмы патента работают локально:

Сбор контекста (Local Data Acquisition): Screen Content Agent захватывает контент экрана. Система собирает данные о локации и других контекстуальных сигналах (время, приложения, внешние устройства).
Понимание и Предсказание (Local Understanding/Prediction): Set Identification Engine использует Set Prediction Model для анализа контекста и предсказания релевантных Fixed Sets.
Управление Репозиторием (Local Repository Management): Система управляет локальным Personalized Entity Repository, загружая новые релевантные наборы с сервера и удаляя устаревшие.

Входные данные (Клиент):

Контент экрана (image data или текст).
Текущее местоположение устройства.
История поиска, установленные приложения, время суток, сигналы от подключенных устройств (IoT).
Set Usage Parameters (лимиты хранилища).

Выходные данные:

Обновленный Personalized Entity Repository на устройстве.

На что влияет

Функциональность устройства: Влияет на функции контекстной помощи, умные ответы (smart replies), интеграцию Google Lens и распознавание сущностей в офлайн-режиме.
Типы контента: Влияет на распознавание любых сущностей (люди, места, продукты, медиа), которые могут отображаться на экране устройства, независимо от приложения.
Веб-поиск: Не оказывает прямого влияния на ранжирование веб-сайтов.

Когда применяется

Алгоритм управления репозиторием на клиенте может активироваться:

Непрерывно или периодически: Для отслеживания изменений контекста.
По триггеру:

Захват экрана (как указано в Claim 1).
Существенное изменение местоположения.
Установка нового приложения (которое может потребовать определенного набора сущностей).
Изменение контекста (например, пользователь начинает исследовать новую тему).

Условия применения: Когда прогнозируемая релевантность нового набора превышает порог (Claim 5) или становится выше, чем у уже хранящихся наборов (при достижении лимитов памяти).

Пошаговый алгоритм

Процесс А: Генерация и обновление наборов (Сервер, Офлайн)

Генерация локационных наборов: Группировка сущностей по географическим ячейкам (cells).
Генерация тематических наборов: Кластеризация сущностей на основе сходства эмбеддингов или связей.
Генерация функциональных наборов: Отбор популярных сущностей или сущностей для конкретных задач/приложений.
Управление версиями: Проверка изменений схемы. При изменении схемы создается новая версия наборов.
Генерация Дельт: Если схема не менялась, вычисляются изменения (добавления/удаления сущностей) для эффективного обновления на клиенте.

Процесс Б: Управление Персонализированным Репозиторием (Клиент)

Сбор контекста: Получение данных о местоположении и захват контента экрана (image data) через Screen Content Agent.
Идентификация релевантных наборов: Использование Set Prediction Model для прогнозирования актуальных Fixed Entity Sets на основе контекста.
Ранжирование наборов: Оценка релевантности. Для геонаборов используется расстояние; для тематических – уверенность модели или сходство эмбеддингов.
Отбор наборов: Определение списка выбранных наборов на основе ранга и ограничений хранилища (Set Usage Parameters).
Обновление репозитория:

Для каждого выбранного набора:

Если набор уже есть локально: Обновить его (используя дельту), если доступно обновление.
Если набора нет локально: Проверить наличие места. При необходимости удалить наименее релевантный набор. Загрузить новый набор в репозиторий.

Какие данные и как использует

Данные на входе

Система использует широкий спектр контекстуальных данных на клиентском устройстве:

Контентные и Мультимедиа факторы: Текст и изображения, захваченные с экрана устройства (screen captured image). Распознанный текст, объекты и логотипы на изображениях.
Географические факторы: Текущее местоположение устройства (GPS-координаты, идентификатор географической ячейки). Критично для Location-based Sets.
Пользовательские и Поведенческие факторы: История поиска пользователя, данные профиля, установленные и активные приложения, история просмотренного контента на устройстве (Screen Capture Index).
Технические и Контекстуальные факторы: Время суток (timestamp), тип устройства.
Внешние сигналы: Данные, полученные с других устройств пользователя или устройств поблизости (например, IoT-устройства, другие смартфоны, если разрешен обмен данными).

Какие метрики используются и как они считаются

Relevancy Score (Оценка релевантности): Основная метрика для ранжирования наборов. Методы расчета зависят от типа набора:

Для Location-based Sets: Может быть обратной величиной расстояния от текущего местоположения устройства до центра географической ячейки набора.
Для Topic-based Sets: Может основываться на сходстве (similarity) между эмбеддингом контекста пользователя и эмбеддингом тематического набора.

Confidence Score / Probability Score: Оценка уверенности, возвращаемая Set Prediction Model для предсказанных наборов.
Set Usage Parameters: Жесткие пороги, используемые для ограничения размера репозитория (Maximum Storage, Maximum Sets, Percent of Storage).

Выводы

Инфраструктура для On-Device Intelligence: Патент описывает критически важную инфраструктуру для переноса распознавания сущностей с сервера на устройство клиента. Это необходимо для обеспечения скорости работы контекстных сервисов (Assistant, Lens) и их доступности офлайн.
Динамическая контекстная адаптация: Система динамически адаптирует локальную базу знаний (Personalized Entity Repository) под текущий контекст пользователя. Контекст определяется холистически: местоположение, история, приложения и контент на экране.
Сегментация Knowledge Graph: Google активно сегментирует свой граф знаний на управляемые части (Fixed Sets) по трем осям: Локация, Тема и Функция. Тематические наборы создаются с использованием кластеризации и эмбеддингов (embedding similarity).
Отсутствие прямой связи с SEO-ранжированием: Патент не описывает алгоритмы веб-поиска. Практических выводов для SEO-специалистов, направленных на улучшение ранжирования сайтов, в этом патенте нет.
Стратегическая важность сущностей: Патент подтверждает, что сущности (Entities) являются основным механизмом Google для понимания контента и контекста не только в веб-поиске, но и на уровне операционной системы устройства.

Практика

ВАЖНО: Патент является инфраструктурным и фокусируется на функциональности мобильных устройств. Он не дает прямых практических рекомендаций для традиционного SEO, направленного на улучшение ранжирования.

Best practices (это мы делаем)

Оптимизация под Knowledge Graph (Entity SEO): Хотя патент не о ранжировании, он подтверждает стратегическую важность присутствия в основном Entity Repository Google. Чтобы бренд, продукт или персона могли быть распознаны на устройствах пользователей с помощью этой системы, они сначала должны попасть в глобальный репозиторий, а затем в соответствующие Fixed Entity Sets. Работа над узнаваемостью сущности остается критически важной.
Укрепление связи Сущность-Локация (Local SEO): Для локального бизнеса необходимо обеспечить четкую привязку сущности к географическим координатам. Это является условием для попадания в Location-based Sets, которые загружаются пользователям поблизости.
Четкая презентация контента на сайте: Так как Screen Content Agent анализирует контент на экране пользователя (включая ваш сайт), важно использовать ясные, текстовые и недвусмысленные названия сущностей. Это облегчает их распознавание локальными моделями.

Worst practices (это делать не надо)

Использование изображений вместо текста для ключевых сущностей: Если названия брендов или продуктов представлены только в виде графики без текстового эквивалента, это может затруднить их распознавание локальным Screen Content Agent, когда пользователь просматривает ваш сайт.
Патент не направлен против каких-либо SEO-тактик или манипуляций с выдачей.

Стратегическое значение

Патент демонстрирует, как Google интегрирует понимание сущностей глубоко в операционные системы и приложения за пределами стандартного веб-поиска. Это часть стратегии по созданию проактивного ассистента (ambient computing). Для SEO это означает, что фокус на сущностях и связях (Entity-Oriented Search) продолжает усиливаться во всех продуктах Google. Долгосрочная стратегия должна быть направлена на управление представлением бренда как сущности в Knowledge Graph.

Практические примеры

Практических примеров для применения в SEO нет. Ниже приведен пример работы системы на устройстве.

Сценарий: Планирование поездки

Контекст: Пользователь просматривает в браузере на смартфоне статьи о Гавайях.
Анализ: Screen Content Agent захватывает контент. Set Identification Engine анализирует его и передает признаки в Set Prediction Model.
Предсказание: Модель обнаруживает устойчивый интерес и предсказывает высокую релевантность тематического набора «Гавайи».
Обновление: Система загружает набор «Гавайи» в локальный Personalized Entity Repository.
Результат: Позже, когда пользователь обсуждает в мессенджере отель на Гавайях, устройство сможет локально (быстро и офлайн) распознать название отеля и предложить связанные действия (например, посмотреть отзывы или маршрут).

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google Поиске?

Нет, прямого влияния нет. Патент описывает архитектуру для доставки данных о сущностях на мобильное устройство пользователя. Он предназначен для улучшения работы контекстных сервисов (например, Google Assistant, Google Lens) на самом устройстве, а не для изменения алгоритмов ранжирования веб-поиска.

Что такое «Fixed Entity Set» (Фиксированный набор сущностей) или «Срез»?

Это заранее подготовленный на сервере Google фрагмент Knowledge Graph. Наборы могут быть тематическими (например, «породы собак»), географическими (например, «рестораны в Берлине») или функциональными. Они создаются заранее, чтобы устройства могли быстро загружать нужные им блоки знаний, не обращаясь к полному графу.

Как устройство решает, какие наборы сущностей загрузить?

Устройство использует модель машинного обучения (Set Prediction Model), которая анализирует текущий контекст пользователя. Контекст включает местоположение, контент, отображаемый на экране (захваченный Screen Content Agent), историю поиска, установленные приложения и даже сигналы от ближайших устройств.

Какова основная ценность этого патента для SEO-специалиста?

Основная ценность – стратегическая. Патент подтверждает, что Google структурирует знания по темам и локациям и активно использует их во всех своих продуктах. Это подчеркивает важность Entity SEO: необходимо убедиться, что ваш бренд корректно представлен в Knowledge Graph и четко связан с релевантными темами и локациями.

Как Google определяет, какие сущности попадают в тематический набор (Topic-based set)?

Патент указывает на использование методов кластеризации, основанных на характеристиках сущностей. В частности, упоминается использование сходства эмбеддингов (embedding similarity). Система группирует сущности, которые тесно связаны между собой семантически.

Работает ли эта система, когда устройство находится офлайн?

Да, это одно из ключевых преимуществ. Загрузка новых наборов требует подключения к сети. Однако, как только Personalized Entity Repository сформирован локально, распознавание сущностей из этого репозитория может происходить полностью офлайн, обеспечивая работу ассистивных функций.

Как обеспечивается актуальность данных в локальном репозитории?

Система использует механизм «дельт» (Deltas). Вместо полной перезагрузки набора сервер отправляет только список изменений (какие сущности добавить или удалить). Это экономит трафик и ускоряет обновление данных на устройстве.

Может ли пользователь контролировать этот процесс?

Да. Патент описывает Set Usage Parameters, которые позволяют пользователю устанавливать ограничения на ресурсы, используемые локальным репозиторием (например, максимальный объем памяти). Также пользователь может включать или отключать работу Screen Content Agent в целях приватности.

Что происходит, когда контекст пользователя меняется?

Система динамически переоценивает релевантность наборов. Если пользователь уезжает из города или перестает интересоваться темой, релевантность связанных наборов падает. Если они больше не попадают в топ (и требуется место), система удаляет их из локального хранилища и загружает более актуальные наборы.

Является ли US20250024237A1 выданным патентом?

Нет, суффикс A1 указывает на то, что это публикация заявки на патент (Patent Application Publication), а не выданный патент. Это продолжение (Continuation) более ранних заявок. Это означает, что изобретение находится на стадии рассмотрения, и финальный объем правовой защиты (Claims) может измениться, хотя базовая технология уже используется.