Как Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов

Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст.

Описание

Какую задачу решает

Патент решает проблему сложности и затрат времени пользователя на поиск дополнительной информации, связанной с контентом, который он в данный момент просматривает на устройстве (active resource). Традиционный подход требует от пользователя сформулировать запрос и ввести его вручную или голосом. Изобретение упрощает этот процесс, позволяя пользователю инициировать контекстный поиск одним действием (например, долгим нажатием кнопки) и получить релевантные рекомендации запросов автоматически.

Что запатентовано

Запатентована система для предоставления контекстной информации в ответ на query-independent request (запрос, не зависящий от ввода конкретных ключевых слов пользователем). Система анализирует active resource (активный ресурс, отображаемый на экране), генерирует множество кандидатов в поисковые запросы на основе его содержания и определяет Quality Score (оценку качества) для каждого кандидата. Наиболее качественные запросы предоставляются пользователю в виде рекомендаций (например, в contextual card) для быстрого запуска поиска.

Как это работает

Механизм активируется, когда пользователь инициирует запрос на контекстную информацию (например, через специальный жест или нажатие кнопки).

Сбор данных: Система получает данные об отображаемом контенте (например, скриншот, Document Object Model (DOM) или извлеченный текст).
Генерация запросов: Query Generator создает множество потенциальных запросов, комбинируя термины из контента.
Оценка качества: Quality Scoring Engine оценивает каждый запрос. Оценка учитывает популярность запроса в логах, качество и количество результатов поиска по этому запросу, последующее поведение пользователей (user engagement, например, уточняли ли они запрос) и визуальную значимость (visual appearance) терминов на исходном экране (заголовки, выделение).
Выбор и отображение: Query Selection Engine выбирает запросы с наивысшими оценками, и они отображаются пользователю в интерфейсном элементе.

Актуальность для SEO

Высокая. Технология описывает механизмы, лежащие в основе функций контекстного поиска, таких как анализ экрана Ассистентом или Google Lens (ранее Google Now on Tap). Понимание того, как Google интерпретирует контент страницы для генерации связанных запросов, остается критически важным для оптимизации семантической структуры и визуального представления контента.

Важность для SEO

Патент имеет существенное значение для SEO (7/10), хотя и не описывает алгоритмы ранжирования напрямую. Он раскрывает, как Google анализирует структуру, визуальное представление и семантику контента для определения ключевых тем и генерации последующих шагов поиска. Понимание этого механизма позволяет SEO-специалистам оптимизировать контент так, чтобы он корректно интерпретировался системами контекстного анализа, подчеркивая важность UX и дизайна для машинного восприятия.

Детальный разбор

Термины и определения

Active Resource (Активный ресурс): Данные, включающие контент, который в данный момент отображается на устройстве пользователя (например, веб-страница, интерфейс приложения, переписка). Обычно это контент приложения, работающего на переднем плане.
Contextual Card (Контекстная карточка): Пример пользовательского интерфейсного элемента (user interface element), используемого для отображения рекомендованного запроса и опций для запуска поиска (например, веб-поиск, поиск новостей).
Contextual Information Server (Сервер контекстной информации): Серверная система, которая обрабатывает запросы на контекстную информацию, генерирует и оценивает потенциальные запросы.
Query Generator (Генератор запросов): Компонент системы, который анализирует контент активного ресурса и генерирует множество потенциальных поисковых запросов путем комбинирования терминов.
Query-Independent Request (Запрос, не зависящий от ввода запроса): Запрос на получение контекстной информации, инициированный пользователем без ручного ввода или произнесения ключевых слов (например, через долгий тап, специальный жест).
Quality Score (Оценка качества запроса): Метрика, присваиваемая сгенерированному запросу. Она отражает уверенность системы в том, что этот запрос удовлетворит информационную потребность пользователя. Оценка базируется на качестве результатов, популярности, вовлеченности пользователей и визуальной значимости терминов.
Quality Scoring Engine (Механизм оценки качества): Компонент системы, который вычисляет Quality Score для сгенерированных запросов, используя различные сигналы.
Query Logs (Логи запросов): База данных исторических поисковых запросов. Используется для определения популярности запросов и анализа поведения пользователей (user engagement).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления контекстной информации.

Система получает от пользовательского устройства query-independent request на контекстную информацию, релевантную отображаемому active resource.
Генерируются множественные запросы на основе отображаемого контента ресурса.
Определяется Quality Score для каждого запроса. Ключевое уточнение: определение Quality Score включает (i) определение качества результатов поиска, отвечающих на этот запрос, и (ii) определение оценки на основе этого качества.
Выбираются один или несколько запросов на основе их Quality Scores.
На пользовательское устройство предоставляется интерфейсный элемент для каждого выбранного запроса.

Claim 3 (Зависимый): Уточняет механизм определения Quality Score.

Определение Quality Score для запросов основывается, по крайней мере частично, на визуальном представлении (visual appearance) терминов, из которых сгенерирован соответствующий запрос.

Claim 4 (Зависимый): Уточняет механизм определения Quality Score.

Определение Quality Score включает определение того, что термины, из которых сгенерирован запрос, появляются в заголовке (title) активного ресурса. Оценка качества основывается на этом факте.

Claim 5 (Зависимый): Уточняет механизм определения Quality Score.

Определение Quality Score включает определение меры вовлеченности пользователей (measure of user engagement) для каждого запроса и основывается на этой мере.

Где и как применяется

Изобретение является частью экосистемы поиска, но его основное применение лежит в области взаимодействия с пользователем и инициирования поиска на основе контекста.

QUNDERSTANDING – Понимание Запросов (и Контекста)
Основное применение патента. Система должна проанализировать контент, отображаемый на экране, чтобы понять текущий контекст пользователя и его потенциальные информационные потребности. Это процесс понимания контента для генерации новых запросов.

Анализ контента: Система анализирует текст и структуру active resource.
Генерация кандидатов: Query Generator создает потенциальные запросы.
Оценка и Выбор: Quality Scoring Engine и Query Selection Engine используют данные из поисковой системы (логи запросов, качество результатов) для выбора лучших рекомендаций.

RANKING / INDEXING (Косвенное взаимодействие)
Система взаимодействует с инфраструктурой ранжирования и индексирования для оценки сгенерированных запросов. Quality Scoring Engine должен определить «качество результатов поиска, отвечающих на каждый запрос» (Claim 1). Это требует доступа к данным о результатах поиска и их метриках качества.

Входные данные:

Query-independent request.
Данные об active resource. Это может быть скриншот (требующий OCR), Document Object Model (DOM), определяющий текст и его внешний вид (размер, цвет, позиция, шрифт), или извлеченные текстовые/изобразительные данные.
Метаданные (например, URL ресурса, местоположение устройства).

Выходные данные:

Один или несколько интерфейсных элементов (например, Contextual Cards), каждый из которых содержит рекомендованный запрос и ссылки для запуска поиска по этому запросу.

На что влияет

Конкретные типы контента: Влияет на любой контент, который может быть проанализирован системой: веб-страницы, интерфейсы приложений, электронные письма, текстовые переписки.
Структура и дизайн контента: Влияет на то, как воспринимается структура и оформление контента. Визуально выделенные элементы (заголовки, жирный шрифт) имеют больший вес при генерации и оценке запросов.
Сущности и темы: Система сфокусирована на выявлении ключевых тем и сущностей на экране для генерации релевантных запросов.

Когда применяется

Триггеры активации: Система активируется только по явному запросу пользователя на получение контекстной информации (например, долгий тап на кнопку, специальный жест). Это не автоматический процесс сканирования экрана, а реакция на действие пользователя.
Условия работы: Применяется, когда система способна извлечь контент из active resource и сгенерировать хотя бы один запрос, чей Quality Score превышает установленный порог.

Пошаговый алгоритм

Процесс обработки контекстного запроса

Инициирование запроса: Пользователь выполняет действие (например, долгий тап), указывающее на желание получить контекстную информацию об active resource.
Получение запроса и данных: Contextual Information Server получает query-independent request. Запрос включает данные об отображаемом контенте (например, DOM или скриншот).
Извлечение контента: Система извлекает текст и информацию о его форматировании из предоставленных данных (например, с помощью OCR, если это скриншот, или парсинга DOM).
Генерация кандидатов в запросы: Query Generator генерирует множество запросов, используя различные комбинации терминов из извлеченного контента (n-граммы, удаление стоп-слов и т.д.).
Оценка качества запросов: Quality Scoring Engine вычисляет Quality Score для каждого сгенерированного запроса. Этот шаг включает анализ нескольких факторов:
- Анализ визуальной значимости: Оценка того, насколько выделены термины запроса в исходном контенте (заголовок, шрифт, частота упоминания).
- Анализ популярности: Проверка частоты использования запроса в Query Logs.
- Анализ результатов поиска: Определение количества и качества ресурсов, которые возвращаются по этому запросу.
- Анализ вовлеченности (User Engagement): Оценка поведения пользователей после этого запроса (например, отсутствие последующих уточнений запроса).
Выбор запросов: Query Selection Engine выбирает один или несколько запросов с наивысшими Quality Scores, которые превышают заданный порог качества.
Формирование ответа: Contextual Card Provider генерирует интерфейсные элементы (например, Contextual Cards) для выбранных запросов.
Предоставление ответа: Интерфейсные элементы отправляются на устройство пользователя и отображаются поверх active resource.

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные непосредственно с экрана пользователя, а также внутренние данные поисковой системы.

Контентные и Структурные факторы (из Active Resource):
- Текст, отображаемый на экране.
- Структура документа (DOM).
- Заголовки (title) – термины из заголовков получают более высокий Quality Score (Claim 4).
Визуальные факторы (из Active Resource):
- Визуальное представление (visual appearance) текста (Claim 3): размер, цвет, позиция (например, центрирование), шрифт (например, жирный), подчеркивание. Визуально выделенные термины получают более высокий Quality Score.
- Частота терминов: термины, появляющиеся чаще, могут получить более высокий Quality Score.
Поведенческие факторы (из Query Logs):
- Популярность запроса (popularity): частота, с которой пользователи вводят данный запрос.
- Мера вовлеченности пользователей (measure of user engagement) (Claim 5). Анализируется, предоставляли ли пользователи уточненные запросы (refined search queries) после исходного. Отсутствие уточнений повышает Quality Score.
Данные о качестве выдачи (из Поисковой системы):
- Количество результатов поиска по запросу.
- Качество ресурсов (quality of search results), на которые ссылаются результаты поиска (Claim 1).

Какие метрики используются и как они считаются

Quality Score (Оценка качества запроса): Агрегированная метрика, отражающая уверенность системы в полезности запроса. Она рассчитывается путем взвешивания различных факторов, описанных выше (визуальная значимость, популярность, качество результатов, вовлеченность). Конкретные формулы взвешивания в патенте не приводятся, но указаны компоненты.
Порог качества (Quality Threshold): Минимальное значение Quality Score, которое должен превысить сгенерированный запрос, чтобы быть рекомендованным пользователю.

Выводы

Структура и визуальное оформление контента критичны: Патент явно указывает, что визуальное представление (visual appearance) терминов и их наличие в заголовках (title) используется для оценки качества сгенерированных запросов. Это подтверждает, что Google использует анализ рендеринга для понимания значимости элементов на странице.
Контекст определяет следующие шаги поиска: Google активно использует контент, который просматривает пользователь, для прогнозирования и генерации следующих поисковых запросов. Это подчеркивает важность понимания не только того, как пользователь попал на страницу, но и того, куда он может пойти дальше.
Качество запроса определяется комплексно: Quality Score для рекомендованного запроса — это не просто анализ текста на экране. Он включает в себя оценку популярности этого запроса в реальном поиске, качество и количество результатов выдачи по нему, а также анализ поведения пользователей (user engagement).
Приоритет запросам, удовлетворяющим потребность: Система стремится рекомендовать запросы, которые с высокой вероятностью сразу удовлетворят информационную потребность пользователя, минимизируя необходимость в последующих уточнениях (refined queries).
Оптимизация для распознавания контекста (Context Optimization): Патент подчеркивает важность оптимизации контента не только для ранжирования, но и для корректного распознавания ключевых тем и сущностей проактивными системами.

Практика

Best practices (это мы делаем)

Оптимизация структуры и семантической верстки: Используйте четкую иерархию заголовков (H1-H6) и семантическую верстку. Термины и сущности, размещенные в заголовках, имеют больший вес для генерации контекстных запросов (Claim 4).
Визуальное выделение ключевых сущностей и интентов: Используйте визуальное форматирование (например, жирный шрифт, списки, акцентный цвет) для выделения ключевых терминов, названий продуктов и действий. Система учитывает visual appearance при оценке качества запросов (Claim 3). Убедитесь, что ключевые сущности хорошо видны и легко идентифицируются.
Фокус на создании контента, отвечающего на популярные запросы: Поскольку Quality Score учитывает популярность запроса (user engagement) и качество результатов по нему, убедитесь, что ваш контент использует терминологию, которую пользователи реально ищут, и является высококачественным ответом на эти запросы.
Оптимизация под удовлетворение интента (Search Intent Satisfaction): Создавайте контент, который полностью удовлетворяет информационную потребность. Система предпочитает запросы, которые не ведут к последующим уточнениям.
Анализ пользовательского пути (User Journey): Продумывайте, какие следующие информационные потребности могут возникнуть у пользователя. Явно включайте эти связанные темы и сущности в текст и выделяйте их структурно, чтобы система могла их распознать и предложить.

Worst practices (это делать не надо)

Использование неструктурированного текста («стена текста»): Отсутствие четкой структуры, заголовков и визуальных акцентов затрудняет для системы идентификацию ключевых терминов и снижает вероятность генерации релевантных контекстных запросов.
Вводящее в заблуждение форматирование или кликбейт: Использование заголовков или выделения для неключевых, спамных или кликбейтных терминов может привести к генерации нерелевантных или низкокачественных рекомендаций, что ухудшит пользовательский опыт.
Игнорирование основных сущностей: Если ключевые сущности (продукты, люди, места) не выделены структурно или визуально, система может не счесть их достаточно важными для генерации запросов.

Стратегическое значение

Патент подтверждает важность семантического и структурного анализа контента за пределами традиционного анализа текста. Для Google важно не только предоставить ответ, но и предсказать следующий шаг пользователя. Стратегически это означает, что SEO, дизайн и UX должны работать синхронно. Контент должен быть структурирован так, чтобы четко сигнализировать о главных и второстепенных темах, облегчая системам контекстного анализа (таким как описанная в патенте, Google Lens или Assistant) извлечение релевантных сущностей и действий.

Практические примеры

Сценарий: Оптимизация статьи о продукте для контекстного поиска

Допустим, вы публикуете обзор нового смартфона «Plexus 6X».

Плохая реализация:

Заголовок: «Новинка, которую все ждали!». Текст сплошной, модель «Plexus 6X» не выделяется.
Результат работы системы: Система может сгенерировать общие запросы («новый телефон») или не выделить модель из-за низкой визуальной значимости. Quality Score будет низким.

Хорошая реализация:

Структурирование: Убедитесь, что название «Plexus 6X» находится в H1. Используйте подзаголовки для ключевых действий, например, «Предзаказ Plexus 6X» (H2) или «Сравнение Plexus 6X и Pixel 9» (H2).
Визуальное выделение: Выделите жирным шрифтом название модели при первом упоминании.
Анализ системы (как в патенте):
- Система анализирует страницу и генерирует запросы: «Plexus 6X», «Plexus 6X preorder», «Plexus 6X vs Pixel 9».
- Она оценивает их. «Plexus 6X preorder» получает высокий балл, так как находится в H2 (визуальная значимость) и является популярным запросом (данные из логов).
Ожидаемый результат: Когда пользователь читает эту статью и активирует контекстный поиск, система с высокой вероятностью порекомендует запросы «Plexus 6X preorder» и «Plexus 6X vs Pixel 9», так как они были структурно и визуально выделены в контенте.

Вопросы и ответы

Означает ли этот патент, что дизайн и верстка напрямую влияют на ранжирование?

Патент не описывает влияние дизайна на ранжирование в основном поиске. Однако он четко показывает, что дизайн, верстка и визуальное представление (visual appearance) напрямую влияют на то, как Google интерпретирует контент и определяет наиболее значимые темы на странице. Это критически важно для понимания того, как системы Google воспринимают ваш контент.

Как система определяет, какие термины на странице наиболее важны?

Патент указывает несколько ключевых сигналов значимости. К ним относятся визуальное представление (visual appearance) терминов: появление в заголовке (title), выделение шрифтом (например, жирный, размер), позиция (например, центрирование), а также частота упоминания термина в контенте. Система предпочитает термины, которые визуально выделяются на фоне остального текста.

Что такое «Query-Independent Request»?

Это запрос на получение информации, который не требует от пользователя ввода ключевых слов вручную или голосом. Пользователь инициирует его действием, например, долгим нажатием на кнопку на смартфоне или специальным жестом. Система в ответ анализирует текущий контекст (то, что на экране), чтобы понять информационную потребность.

Как SEO-специалист может повлиять на то, какие запросы будут рекомендованы при просмотре его контента?

Основной способ влияния — это оптимизация структуры и форматирования контента. Четкое использование заголовков для ключевых тем и сущностей, визуальное выделение важных терминов и обеспечение того, что контент покрывает популярные связанные запросы, увеличивает вероятность того, что система выберет именно эти термины для контекстных рекомендаций.

Учитывает ли система популярность запроса при его рекомендации?

Да, популярность является важным фактором для Quality Scoring Engine. Система обращается к Query Logs, чтобы определить, насколько часто пользователи ищут тот или иной запрос. Более популярные запросы при прочих равных получат более высокий Quality Score.

Что патент говорит о поведении пользователей (User Engagement)?

Патент упоминает measure of user engagement (Claim 5). В частности, система проверяет, склонны ли пользователи уточнять (refine) запрос после его ввода. Если пользователи часто вводят запрос и не уточняют его, это считается сигналом того, что запрос хорошо удовлетворяет информационную потребность, и его Quality Score повышается.

Применим ли этот патент только к веб-страницам?

Нет. Патент определяет active resource очень широко. Он может применяться к веб-страницам, интерфейсам приложений, электронным письмам, текстовым перепискам или любому другому контенту, отображаемому на экране устройства, из которого система может извлечь данные.

Как система получает доступ к контенту на экране?

Патент описывает несколько способов. Система может получить скриншот (и использовать OCR для распознавания текста), получить доступ к Document Object Model (DOM) приложения или веб-страницы, которая описывает текст и его стили, или использовать специальные обработчики (handlers) для извлечения данных непосредственно из активного окна.

Какое значение этот патент имеет для оптимизации сущностей (Entity Optimization)?

Патент имеет высокое значение для оптимизации сущностей. Система стремится идентифицировать ключевые элементы на экране для генерации запросов. Четкое определение и выделение сущностей (названий продуктов, организаций, локаций) в контенте помогает системе распознать их как важные и предложить связанные с ними поисковые запросы, улучшая видимость этих сущностей в контекстном поиске.

Какова связь этого патента с Google Assistant или Google Lens?

Описанная технология является фундаментальной для функций, позволяющих анализировать содержимое экрана. Google Now on Tap был ранней реализацией. Современные Google Assistant и Google Lens используют аналогичные механизмы для понимания визуального и текстового контекста и предложения релевантных действий или информации на основе того, что видит пользователь.