Как Google анализирует видимый контент, скрытый контент и историю пользователя для генерации контекстных подсказок в Digital Assistant

Google использует технологию анализа контента на экране устройства (включая видимую и прокручиваемую области, а также историю взаимодействий) для прогнозирования следующего шага пользователя. Система идентифицирует и ранжирует сущности на странице по их визуальной значимости (Prominence) и генерирует релевантные подсказки запросов или действий (например, «Позвонить ему» или «Как туда добраться»), часто используя местоимения.

Описание

Какую задачу решает

Патент решает задачу прогнозирования намерений пользователя в момент активации цифрового ассистента (Digital Assistant). Цель — мгновенно предложить релевантные запросы или действия, основанные на том, что пользователь просматривает в данный момент, без необходимости ручного ввода. Это также обучает пользователей тому, что ассистент понимает контекст и местоимения, улучшая общий пользовательский опыт и снижая задержки (latency).

Что запатентовано

Запатентована система генерации контекстных подсказок (Suggested Query) при активации цифрового ассистента. Ключевым аспектом является анализ комплексных данных контекста (Context Data), которые включают видимый контент на экране (Displayed Content), невидимый контент (Off-screen Information, например, в области прокрутки) и историю взаимодействий пользователя (Previous Information). На основе этого анализа система идентифицирует и ранжирует сущности по значимости (Prominence), а затем предлагает релевантные запросы или действия.

Как это работает

Механизм активируется при вызове ассистента. Система собирает Context Data. Модуль идентификации (Term Identifier Module) распознает текст (например, через OCR или API ОС) и сущности. Семантическая модель (Semantic Model) классифицирует эти сущности. Модуль ранжирования (Ranking Module) определяет наиболее значимую сущность на основе визуального форматирования (размер шрифта, расположение), частоты упоминания и типа. Генератор запросов (Query Generator Module) создает релевантную подсказку, часто используя местоимения (он, она, это) для ссылки на главную сущность. Большая часть обработки может происходить локально на устройстве для скорости.

Актуальность для SEO

Высокая. Технология напрямую связана с функциональностью Google Assistant (например, анализ экрана). В эпоху ИИ-ассистентов и мультимодального поиска способность понимать визуальный и текстовый контекст для проактивного взаимодействия является ключевым направлением развития Google.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (75/100). Хотя он не описывает алгоритмы ранжирования веб-поиска, он раскрывает конкретные механизмы, которые Google использует для анализа макета страницы, идентификации сущностей и определения их визуальной значимости (Prominence). Понимание этих механизмов критически важно для оптимизации структуры контента, UX и обеспечения того, чтобы ключевые сущности и действия были легко распознаваемы системой.

Детальный разбор

Термины и определения

Analysis Module (Модуль анализа): Компонент, отвечающий за сбор Context Data при активации ассистента. Он получает данные о том, что отображается на экране (например, через framebuffer или запрос к ОС).
Context Data (Контекстные данные): Комплексная информация, используемая для генерации подсказок. Включает Displayed content (видимый контент), Off-screen information (контент вне видимой области, доступный при прокрутке или свайпе) и Previous information (история взаимодействий пользователя).
Digital Assistant Functionality (Функциональность цифрового ассистента): Программное обеспечение (например, Google Assistant), выполняющее задачи или отвечающее на вопросы пользователя на основе контекста.
Prominence (Значимость / Визуальное выделение): Метрика, используемая Ranking Module для ранжирования сущностей, найденных на экране. Определяется на основе графических характеристик: форматирования (размер шрифта, жирность), расположения (заголовок vs. основной текст) и частоты упоминания.
Query Generator Module (Модуль генерации запросов): Компонент, который создает финальную подсказку (Suggested Query) на основе наиболее значимой сущности и ее классификации. Он также отвечает за выбор местоимений (Pronouns) и проверку неоднозначности.
Ranking Module (Модуль ранжирования): Компонент, который оценивает и ранжирует все идентифицированные сущности для определения основного объекта внимания пользователя.
Semantic Model (Семантическая модель): Модель, которая классифицирует идентифицированные термины по типам сущностей (например, человек, место, организация) и определяет их атрибуты. Может работать локально на устройстве.
Suggested Query / Suggested Request (Предложенный запрос / Подсказка): Сгенерированный запрос или действие, предлагаемое пользователю до того, как он сам введет запрос.
Term Identifier Module (Модуль идентификации терминов): Компонент, который извлекает текст из Context Data (например, с помощью OCR или обработки текстовых данных от ОС) и идентифицирует потенциальные сущности и их форматирование.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы на устройстве пользователя.

Система получает ввод, активирующий Digital Assistant Functionality.
Система получает Context Data, которые включают ТРИ обязательных типа информации:
- Отображаемый контент (displayed content).
- Информация вне экрана (off-screen information) — контент, который станет видимым при прокрутке или свайпе (влево, вправо, вверх, вниз).
- Предыдущая информация (previous information) — история взаимодействий пользователя с устройством.
Система генерирует Suggested Query, относящийся к сущности в отображаемом контенте, основываясь на ВСЕХ трех типах Context Data.
Система предоставляет Suggested Query в ответ на активацию ассистента и ДО того, как пользователь введет свои собственные условия запроса.

Claim 2 и 3 (Зависимые): Детализируют генерацию запроса с использованием местоимений.

Генерация подсказки включает определение местоимения для сущности (с помощью данных маппинга — mapping data) и включение этого местоимения в Suggested Query для ссылки на сущность.

Claim 5 и 6 (Зависимые): Уточняют тип подсказки.

Suggested Query может запрашивать выполнение действия (perform an action) ассистентом. Примеры действий: звонок контакту, информация о котором отображена на экране, или предоставление маршрута к месту, указанному на экране.

Claim 7 (Зависимый): Описывает процесс выбора главной сущности.

Идентификация нескольких сущностей в отображаемом контенте.
Ранжирование каждой сущности на основе ее значимости (Prominence) как в отображаемом контенте, так и в off-screen information.
Выбор сущности для генерации запроса на основе этого ранжирования.

Claim 10 (Зависимый от 7): Уточняет факторы ранжирования.

Ранжирование сущностей основывается на их графических характеристиках (graphical characteristic), таких как форматирование или размер.

Где и как применяется

Изобретение применяется на уровне взаимодействия пользователя с устройством (UI/UX), но опирается на базовые технологии поиска и понимания контента.

QUNDERSTANDING – Понимание Запросов
Основное применение. Система выполняет проактивное понимание и предсказание запроса. Вместо анализа введенного пользователем текста, она анализирует текущий контекст пользователя (Context Data — экран и история) как неявный запрос и генерирует следующий логичный шаг (Suggested Query).

INDEXING – Индексирование и извлечение признаков
Связь на уровне технологий. Используемая Semantic Model опирается на общие принципы понимания сущностей, аналогичные тем, что используются Google при индексировании веба. Механизмы определения Prominence на основе визуальных характеристик тесно связаны с тем, как Google анализирует структуру страницы во время рендеринга.

Технические особенности: Патент подчеркивает возможность локальной обработки (on-device) для снижения задержек (latency) и обеспечения работы без сети.

Входные данные:

Сигнал активации ассистента.
Displayed content: Видимые данные экрана (текст, изображения, форматирование, расположение элементов).
Off-screen information: Контент, доступный при прокрутке/свайпе.
Previous information: Логи предыдущих взаимодействий, история поиска, данные о местоположении.
Semantic Model данные: Классификации сущностей, атрибуты, данные для маппинга местоимений.

Выходные данные:

Один или несколько Suggested Queries (текстовые подсказки или действия), отображаемые в интерфейсе ассистента.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, богатый четко определенными сущностями (статьи, страницы контактов, обзоры продуктов, страницы местных компаний).
Специфические запросы: Влияет на последующие (follow-up) информационные запросы и транзакционные запросы (действия), такие как звонки, навигация, отправка сообщений.
Конкретные ниши или тематики: Особенно актуально для Local SEO (рестораны, услуги), медиа и E-commerce, где система может предлагать действия на основе отображаемой информации о компании или продукте.

Когда применяется

Триггеры активации: Применяется немедленно после того, как пользователь вызывает Digital Assistant Functionality (например, долгим нажатием кнопки, голосовой командой или нажатием на специальный элемент интерфейса).
Условия: Система должна быть способна получить доступ к Context Data и успешно идентифицировать и классифицировать хотя бы одну значимую сущность.
Исключения: Если на экране много равнозначных сущностей одного типа, система может избегать использования местоимений, чтобы предотвратить неоднозначность.

Пошаговый алгоритм

Активация и Сбор данных: Пользователь активирует ассистента. Analysis Module немедленно собирает Context Data: видимый контент, контент вне экрана и историю взаимодействий.
Идентификация терминов: Term Identifier Module обрабатывает собранные данные (например, используя OCR или получая текст от ОС). Идентифицируются термины, сущности, а также их стили и форматирование (размер шрифта, расположение).
Семантическая классификация: Semantic Model анализирует идентифицированные термины и присваивает им типы сущностей (человек, место, знаменитость) и определяет связанные атрибуты (возраст, высота, адрес).
Ранжирование сущностей (Определение Prominence): Ranking Module оценивает все найденные сущности. Ранжирование основывается на:
- Визуальном форматировании (заголовки и крупный шрифт получают больший вес).
- Частоте упоминания на экране (включая Off-screen information).
- Классификации (например, люди могут ранжироваться выше мест).
- Количестве возможных действий, связанных с сущностью.
- Истории взаимодействия пользователя с предыдущими подсказками.
Генерация запроса: Query Generator Module выбирает сущность с наивысшим рейтингом.
- Определяется подходящий тип запроса или действия на основе классификации и контекста.
- Определяется местоимение (он, она, это) для сущности.
- Проверяется наличие двусмысленности (например, если на экране два человека одного пола). Если двусмысленность есть, система может использовать имя сущности вместо местоимения или выбрать другую сущность.
- Формируется финальный Suggested Query (например, «Какая у него средняя скорость бега?»).
Предоставление подсказки: Сгенерированный запрос отображается в интерфейсе ассистента.

Какие данные и как использует

Данные на входе

Система использует комбинацию визуальных, текстовых и контекстуальных данных.

Контентные факторы: Текст, отображаемый на экране и в Off-screen Information. Изображения (может использоваться распознавание образов или OCR для идентификации объектов/текста).
Структурные и Визуальные факторы (Formatting Characteristics): Критически важны для определения Prominence.
- Форматирование текста: размер шрифта, жирность, стиль.
- Расположение элементов: находится ли текст в заголовке, основном блоке или футере.
- Размер и расположение изображений.
- Частота упоминания термина.
Технические / Контекстуальные факторы:
- Текущее приложение, язык устройства, состояние сети, местоположение устройства.
Пользовательские факторы (Previous Information):
- История предыдущих запросов пользователя.
- История взаимодействия с подсказками (какие типы подсказок пользователь выбирал ранее).
- Данные о предыдущих действиях (например, навигация, звонки).

Какие метрики используются и как они считаются

Entity Classification (Классификация сущности): Присвоение типа сущности с помощью Semantic Model.
Prominence Score (Оценка значимости): Агрегированная метрика для ранжирования сущностей. Рассчитывается путем взвешивания различных факторов:
- Вес форматирования (например, больший размер шрифта = выше оценка).
- Вес расположения (например, заголовок = выше оценка).
- Частота упоминания (больше упоминаний = выше оценка).
- Вес типа сущности.
Actionability Score (Оценка возможности действия): Метрика, основанная на количестве и качестве действий, которые можно сгенерировать для сущности (например, контакт с номером телефона имеет высокую оценку).
Ambiguity Score (Оценка двусмысленности): Оценка вероятности того, что сгенерированное местоимение может ошибочно относиться к нескольким сущностям на экране.

Выводы

Визуальная иерархия и Prominence критически важны: Патент подтверждает, что Google анализирует визуальное представление контента для определения его основного фокуса. Факторы, такие как размер шрифта, форматирование (жирность) и расположение (в заголовках или в начале контента), используются для расчета Prominence и определения главной сущности страницы.
Расширенный сбор контекста (Context Data): Система учитывает не только видимый контент, но и контент, доступный при прокрутке (Off-screen information), а также историю действий пользователя (Previous information). Это означает, что оценка релевантности страницы учитывает весь ее объем и контекст пользователя.
Сущности как основа взаимодействия: Вся система построена вокруг идентификации, классификации и ранжирования сущностей. Это подчеркивает стратегическую важность entity-oriented SEO и использования структурированных данных для четкого определения сущностей и их атрибутов.
Оптимизация под действия (Actions): Система активно генерирует не только информационные запросы, но и действия (звонки, навигация). Это требует оптимизации контента (особенно локального) таким образом, чтобы контактная информация и местоположение были легко извлекаемы.
Понимание контекста и местоимений: Google активно использует генерацию запросов с местоимениями, чтобы продемонстрировать понимание контекста. Это требует четкой и недвусмысленной структуры контента, чтобы избежать путаницы между несколькими сущностями на одной странице.

Практика

Best practices (это мы делаем)

Оптимизация визуальной иерархии (Prominence Optimization): Убедитесь, что основная сущность страницы является наиболее визуально выделенной. Используйте четкую структуру заголовков (H1-H6), выделяйте ключевые термины и располагайте важную информацию на видном месте. Это поможет Ranking Module правильно определить фокус страницы.
Использование структурированных данных (Schema.org): Внедряйте подробную микроразметку для всех ключевых сущностей (Организации, Продукты, Персоны, Места). Это поможет Semantic Model правильно классифицировать сущности и их атрибуты, что повышает вероятность генерации релевантных подсказок.
Оптимизация для действий и Local SEO: Для локального бизнеса убедитесь, что NAP (Name, Address, Phone Number) данные четко видны, размечены и консистентны. Система должна легко идентифицировать эту информацию для генерации действий типа «Позвонить» или «Маршрут».
Фокус на атрибутах сущностей: Насыщайте контент релевантными атрибутами для основных сущностей (например, возраст, рост, цена, часы работы). Система использует эти атрибуты для генерации конкретных вопросов (например, «Сколько это стоит?»).
Тестирование на мобильных устройствах: Поскольку технология ориентирована на мобильные устройства, критически важно анализировать, как контент отображается и структурирован именно на маленьких экранах, учитывая как видимую область, так и прокручиваемый контент (Off-screen information).

Worst practices (это делать не надо)

Создание двусмысленности сущностей: Размещение нескольких однотипных сущностей без четкого выделения главной может запутать систему. Если Query Generator обнаружит двусмысленность (например, два ресторана обсуждаются одинаково prominently), он может не сгенерировать действие.
Игнорирование визуального форматирования: Использование плоского текста без четкой иерархии, мелкого шрифта для важных элементов или перегруженного дизайна снижает способность системы рассчитывать Prominence.
Сокрытие важной информации в изображениях без альтернативного текста: Хотя система может использовать OCR, полагаться только на это рискованно. Важная информация (например, номер телефона) должна быть представлена в текстовом формате.
Неконсистентные данные о сущностях: Предоставление противоречивой информации о сущности или ее атрибутах затруднит классификацию и генерацию точных подсказок.

Стратегическое значение

Этот патент подтверждает стратегию Google на переход от анализа ключевых слов к глубокому пониманию сущностей и контекста. Он демонстрирует, что анализ визуального представления контента (Visual Understanding) играет важную роль в интерпретации смысла страницы. Для SEO это означает, что дизайн, UX и структура контента становятся неотъемлемой частью оптимизации, наравне с текстовой релевантностью. Долгосрочная стратегия должна фокусироваться на создании четкого, структурированного и визуально иерархичного контента, который легко интерпретируется ИИ-системами.

Практические примеры

Сценарий 1: Страница ресторана (Local SEO)

Ситуация: Пользователь открывает страницу вашего ресторана на мобильном телефоне. Название ресторана указано крупным шрифтом (H1), адрес и телефон четко видны в шапке.
Действие пользователя: Пользователь активирует Google Assistant.
Работа системы: Система анализирует экран. Она идентифицирует название как главную сущность (высокий Prominence) и классифицирует ее как «Ресторан». Она также извлекает адрес и телефон.
Результат: Ассистент предлагает подсказки: «Позвонить им?» и «Как туда добраться?».
SEO-вывод: Четкое визуальное выделение NAP-данных и использование микроразметки LocalBusiness напрямую способствуют генерации этих конверсионных действий.

Сценарий 2: Информационная статья (Content SEO)

Ситуация: Пользователь читает статью об Усэйне Болте. Его имя часто упоминается и присутствует в заголовке. В статье также упоминается Джастин Гэтлин.
Действие пользователя: Пользователь активирует Google Assistant.
Работа системы: Система идентифицирует обе персоны. Усэйн Болт получает более высокий рейтинг Prominence из-за упоминания в заголовке и большей частоты. Система определяет местоимение «он». Неоднозначности нет, так как Болт является явным фокусом.
Результат: Ассистент предлагает подсказку: «Сколько ему лет?» или «Какой у него рост?».
SEO-вывод: Структура статьи и фокусировка на главной сущности позволяют системе выбрать правильный объект для генерации последующих информационных запросов.

Вопросы и ответы

Как именно рассчитывается показатель значимости (Prominence)?

Патент не дает точной формулы, но перечисляет ключевые факторы, используемые Ranking Module. К ним относятся: визуальные характеристики (размер шрифта, жирность), расположение на экране (заголовки имеют больший вес, чем основной текст), частота упоминания сущности на странице (включая область прокрутки), а также тип классификации сущности.

Означает ли этот патент, что дизайн и верстка напрямую влияют на SEO?

Да, в значительной степени. Патент демонстрирует, что Google анализирует визуальное представление контента для определения его семантического фокуса. Если ключевая информация представлена мелким шрифтом или спрятана в нелогичном месте макета, система может присвоить ей низкий Prominence, посчитав ее второстепенной. Это подчеркивает важность совместной работы SEO-специалистов и UX/UI-дизайнеров.

Анализирует ли система только видимую часть экрана?

Нет. Патент явно указывает, что система анализирует Context Data, которая включает три компонента: видимый контент (Displayed Content), скрытый контент, доступный через прокрутку или свайп (Off-screen Information), и историю взаимодействий пользователя (Previous Information). Вся эта информация используется для определения контекста.

Насколько важна микроразметка (Schema.org) для этой технологии?

Хотя патент упоминает, что система может извлекать текст с помощью OCR или напрямую от ОС, наличие структурированных данных значительно упрощает работу Semantic Model по классификации сущностей и их атрибутов. Микроразметка снижает вероятность ошибок при идентификации и повышает шансы на генерацию точных и полезных подсказок, особенно для действий (звонки, навигация).

Как система обрабатывает страницы с несколькими равнозначными сущностями (неоднозначность)?

Патент описывает механизм разрешения двусмысленности. Если несколько сущностей имеют схожий рейтинг Prominence и могут использовать одно и то же местоимение (например, два мужчины и местоимение «он»), система может либо использовать явное имя сущности вместо местоимения, либо выбрать другую сущность для генерации подсказки, чтобы избежать путаницы.

Является ли эта технология частью основного алгоритма ранжирования Google?

Нет, этот патент описывает функциональность цифрового ассистента (Google Assistant), а не ранжирование в веб-поиске. Однако механизмы анализа контента, идентификации сущностей и определения их значимости (Prominence), описанные здесь, вероятно, используются или похожи на те, что применяются Googlebot при индексировании и рендеринге страниц.

Может ли система предлагать действия, а не только информационные запросы?

Да. Патент явно указывает, что Suggested Request может быть командой к действию. Если на экране есть номер телефона или адрес, система может предложить «Позвонить им?» или «Проложить маршрут?». Это критически важно для локального SEO и конверсионных страниц.

Работает ли эта система только онлайн?

Патент подчеркивает, что значительная часть обработки, включая анализ экрана и работу Semantic Model, может происходить локально на устройстве. Это позволяет системе генерировать подсказки быстро (с низкой задержкой) и даже при ограниченном или отсутствующем подключении к сети.

Какова связь между Semantic Model в патенте и Knowledge Graph?

Semantic Model, описанная в патенте, выполняет функции, аналогичные Knowledge Graph: классификация сущностей, понимание атрибутов и связей. Вероятно, локальная Semantic Model является оптимизированной версией глобальных семантических технологий Google, используемых для быстрого анализа контекста на устройстве.

Что такое «Previous Information» и как она используется?

Это история взаимодействий пользователя с устройством: предыдущие запросы, посещенные места, выполненные действия. Система использует эту информацию для персонализации подсказок. Например, если пользователь часто ищет маршруты, система с большей вероятностью предложит действие «Как добраться?» при обнаружении адреса на экране.