Как Google обучает автоматизированных ассистентов визуально понимать и использовать сайты для выполнения задач без API

Google разрабатывает технологию, позволяющую автоматизированным ассистентам (например, Google Assistant) самостоятельно взаимодействовать с веб-сайтами для выполнения транзакций (покупки, бронирования). Система анализирует визуальный и геометрический контекст элементов (кнопки, формы), создавая устойчивые идентификаторы (UIM), и использует машинное обучение (Reinforcement Learning) для навигации по сайту от имени пользователя.

Описание

Какую задачу решает

Патент решает проблему масштабирования возможностей автоматизированных ассистентов (Automated Assistants). Традиционный подход требует, чтобы сторонние сервисы разрабатывали специальные агенты (third party agents) и интегрировались через API ассистента. Это медленно, ресурсоемко и дублирует функциональность существующих веб-сайтов. Изобретение позволяет ассистенту напрямую взаимодействовать с любым интерактивным веб-сайтом для выполнения задач пользователя, минуя необходимость в API.

Что запатентовано

Запатентована система (Website Navigation Engine) для автоматической навигации по веб-сайтам. Система анализирует веб-страницы, абстрагируя их в «состояния пользователя» (User States). Для надежной идентификации интерактивных элементов используются «Универсальные матрицы идентификаторов» (Universal Identifier Matrices, UIM), основанные на визуальном и геометрическом контексте, а не на DOM-структуре. Для выбора последующих действий (заполнение форм, клики) система использует модели машинного обучения (политики/Policies), обученные с помощью Reinforcement Learning, или сравнивает текущее состояние с прошлым опытом (Past User States).

Как это работает

Система работает итеративно:

Понимание: Ассистент определяет намерение пользователя и параметры из естественного языка.
Загрузка и Анализ: Website Navigation Engine загружает и рендерит веб-страницу.
Генерация Состояния: Создается Current User State. Это включает генерацию UIM для интерактивных элементов и преобразование состояния в эмбеддинг (embedding).
Выбор Действия: Эмбеддинг обрабатывается нейронной сетью (Policy), которая предсказывает оптимальное следующее действие (например, заполнить поле X).
Выполнение и Обучение: Действие выполняется. Успех генерирует награду (reward), неудача – штраф (penalty), что используется для обучения политики.
Переход: Процесс повторяется на следующей странице до завершения задачи.

Актуальность для SEO

Высокая. Эта технология является фундаментом для систем типа Google Duplex on the Web, позволяющих Google Assistant выполнять сложные транзакции (бронирование билетов, заказ еды) на сторонних сайтах. Развитие ИИ-агентов и автоматизация задач – ключевой тренд в индустрии.

Важность для SEO

Влияние на традиционное SEO (ранжирование) минимальное, так как патент не описывает сигналы ранжирования. Однако стратегическое значение для будущего взаимодействия с вебом (AEO — Assistant Engine Optimization) высокое (7/10). Если автоматизированные агенты станут основным способом выполнения транзакций, способность сайта быть корректно интерпретированным и управляемым этой системой станет критически важной для конверсий. Это подчеркивает важность технического SEO, UX и семантической чистоты интерфейсов.

Детальный разбор

Термины и определения

Action (Действие): Единичное взаимодействие с элементом веб-страницы (клик, ввод текста, выбор из списка).
Automated Assistant (Автоматизированный ассистент): Программное обеспечение (например, Google Assistant), выполняющее задачи пользователя через диалоговый интерфейс.
Embedding (Эмбеддинг / Векторное представление): Низкоразмерное векторное представление данных (например, User State), используемое как входные данные для нейронных сетей.
Policy (Политика): Модель машинного обучения (обычно нейронная сеть), которая на основе текущего состояния (Current User State) определяет оптимальное следующее действие (Action). Используется в Reinforcement Learning.
Reinforcement Learning (RL) (Обучение с подкреплением): Метод машинного обучения, при котором система (агент) учится действовать в среде, получая награды (rewards) за успешные действия и штрафы (penalties) за неудачные.
Script / Trace (Скрипт / Трасса): Последовательность действий и состояний, необходимая для успешного выполнения задачи на сайте.
Universal Identifier Matrix (UIM) (Универсальная матрица идентификаторов): Ключевая концепция. Структура данных, описывающая интерактивный элемент на основе его типа и визуального/геометрического контекста (окружающий текст и его расположение на отрендеренной странице). Обеспечивает идентификацию элемента независимо от DOM-структуры.
User State (Current/Past) (Состояние пользователя): Абстракция текущего контекста. Включает данные о текущей веб-странице (включая UIMs), параметры запроса, предпочтения пользователя и историю действий. Используется для принятия решений о навигации.
Website Navigation Engine (Движок навигации по сайтам): Компонент системы, отвечающий за загрузку, анализ веб-страниц и выполнение автоматических действий.

Ключевые утверждения (Анализ Claims)

Примечание: US20240232272A1 является публикацией заявки (Application Publication) и продолжением (continuation) более ранних заявок. Claims в этой конкретной публикации сфокусированы на аспекте машинного обучения.

Claim 1 (Независимый пункт): Описывает метод автоматического взаимодействия с веб-страницей с использованием нейронных сетей.

Получение ввода на естественном языке от пользователя с определенным намерением (intent).
Получение веб-страницы, способной выполнить это намерение.
Генерация текущего состояния пользователя (current state) в виде одного или нескольких эмбеддингов (embeddings), представляющих ввод пользователя и интерактивные элементы страницы.
Обработка эмбеддингов с помощью одной или нескольких нейронных сетей (neural networks) для генерации списка кандидатных действий.
Выбор и выполнение конкретного действия с использованием параметров пользователя.
Предоставление пользователю результата.

Ядром изобретения, согласно этому Claim, является использование нейронных сетей (действующих как Policy) для принятия решений о навигации. Система кодирует текущую ситуацию в эмбеддинг и использует обученную модель для предсказания оптимального следующего шага.

Claim 7 (Зависимый): Детализирует процесс обучения нейронных сетей.

Определение награды (reward) или штрафа (penalty) на основе успешности выполненного действия.
Обучение (training) нейронных сетей на основе этой награды или штрафа.

Это явно указывает на использование Reinforcement Learning. Система учится методом проб и ошибок: успешные траектории поощряются, усиливая политику, которая их выбрала, а неудачные – штрафуются.

Важное замечание: Хотя Claims фокусируются на ML, Спецификация (Description) подробно описывает Universal Identifier Matrices (UIMs) как механизм для генерации состояний и обеспечения устойчивости к изменениям на сайте. UIMs, вероятно, являются основой для генерации эмбеддингов или используются как альтернативный механизм навигации.

Где и как применяется

Изобретение функционирует в экосистеме Автоматизированного Ассистента и сосредоточено на выполнении задач (Task Completion), а не на традиционном информационном поиске.

CRAWLING & INDEXING (Специализированное)
Система выполняет сканирование и полный рендеринг страниц, но не для индексации контента, а для индексации функциональности. Website Navigation Engine анализирует визуальный и геометрический контекст для генерации Universal Identifier Matrices (UIMs). Также происходит офлайн-обучение моделей (Policy Training) и периодическая валидация (Validation) известных скриптов навигации.

QUNDERSTANDING – Понимание Запросов
Стандартный этап, на котором из запроса пользователя извлекаются намерение (intent) и параметры (slot values), которые будут использоваться для взаимодействия с сайтом.

Выполнение Задач (Task Execution / Fulfillment)
Основное применение патента. Это не ранжирование в поиске, а процесс выполнения транзакции. Website Navigation Engine действует как агент, используя нейронные сети (Policy) для принятия решений о навигации и взаимодействия с сайтом в реальном времени.

Входные данные:

Запрос пользователя (Intent и Parameters).
Целевая веб-страница (HTML/JS/CSS).
Данные профиля пользователя (предпочтения, платежные данные, адреса).
Обученные нейронные сети (Policy) и/или база данных Past User States.

Выходные данные:

Выполненная задача на стороннем сайте (например, завершенный заказ).
Ответ пользователю о статусе.
Данные для обучения моделей (награды/штрафы).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на транзакционные сайты: E-commerce (чекаут, корзина), Travel (бронирование), Local Services (заказ еды, запись на прием). Влияет на страницы с формами и интерактивными элементами.
Специфические запросы: Запросы с намерением выполнения действия («закажи», «купи», «забронируй»), направленные Ассистенту.

Когда применяется

Триггеры активации: Когда пользователь поручает Ассистенту выполнить задачу, требующую взаимодействия с веб-сайтом.
Условия работы: Особенно актуально, когда у сайта отсутствует прямой API (third party agent). Система должна быть способна отрендерить сайт и идентифицировать элементы управления.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени (Runtime Execution)

Интерпретация: Получение запроса, определение интента и параметров.
Инициализация: Загрузка и рендеринг стартовой веб-страницы.
Генерация состояния (Current User State):
- Анализ отрендеренной страницы.
- Генерация Universal Identifier Matrices (UIMs) для интерактивных элементов, фиксируя их визуальный контекст.
- Преобразование состояния (включая UIMs и параметры пользователя) в эмбеддинг (embedding).
Выбор действия (Action Selection): Эмбеддинг подается на вход нейронной сети (Policy). Сеть предсказывает оптимальное следующее действие. (Альтернативно или дополнительно: сравнение с Past User States).
Выполнение действия: Система взаимодействует с элементом на веб-странице (например, вводит параметр в поле, идентифицированное через UIM).
Оценка и итерация: Оценивается результат действия.
- Если успешно (например, загрузилась новая страница), процесс возвращается к шагу 3.
- Если неуспешно, система может попробовать альтернативное действие или запросить помощь пользователя.
Завершение: Задача выполнена, пользователь информируется.

Процесс Б: Обучение и Валидация (Offline Maintenance)

Обучение политики (Reinforcement Learning): На основе результатов выполнения действий (успех/неудача) система генерирует награды/штрафы и обновляет веса нейронной сети (Policy).
Валидация скриптов: Система периодически загружает известные сайты, генерирует новые UIMs и сравнивает их со старыми. Если визуальный контекст изменился, система пытается найти соответствие (mapping) и адаптировать скрипт взаимодействия.

Какие данные и как использует

Данные на входе

Контентные и Структурные факторы (Визуальный контекст): Критически важны. Анализируется отрендеренная страница: текст, типы элементов (кнопка, поле ввода) и их взаимное геометрическое расположение. Эти данные фиксируются в Universal Identifier Matrices (UIMs) и используются для генерации embeddings.
Пользовательские факторы: Данные профиля пользователя (предпочтения, история покупок, сохраненные адреса, платежные методы). Используются для автозаполнения форм и принятия решений (например, автоматическое подтверждение заказа, если сумма ниже порога).
Технические факторы: Возможность полного рендеринга страницы (включая JS и CSS) необходима для определения визуального контекста.

Какие метрики используются и как они считаются

Universal Identifier Matrix (UIM): Метрика, представляющая контекст элемента. Может быть реализована как сетка (grid-based, FIG. 6A/B), где в ячейки записывается окружающий текст, или как набор пар <location, text>.
Distance between UIMs (Расстояние между UIMs): Метрика для оценки визуального сходства двух элементов. Рассчитывается на основе различий в окружающем тексте и его расположении (FIG. 7, 8). Может использовать IDF (Inverse Document Frequency) для взвешивания значимости терминов.
Embeddings: Векторные представления User State, используемые как вход для нейронных сетей.
Reinforcement Learning Metrics: Reward (награда) и Penalty (штраф). Используются для обучения Policy на основе успешности действий.
Similarity Measures (Меры сходства): Используются для сравнения Current User State с Past User States (например, косинусное сходство между эмбеддингами).

Выводы

Google индексирует функциональность, а не только контент: Патент демонстрирует глубокий анализ того, как работают веб-интерфейсы. Google создает индекс функциональных возможностей сайтов (scripts) и идентификаторы интерактивных элементов (UIMs).
Визуальный контекст (UIM) важнее DOM-структуры: Для идентификации элементов система полагается на их внешний вид и расположение при рендеринге (Universal Identifier Matrices), а не на CSS-селекторы или XPath. Это обеспечивает устойчивость к изменениям в коде, пока визуальный дизайн остается узнаваемым.
Машинное обучение (RL) для адаптивной навигации: Выбор действий определяется нейронной сетью (Policy), обученной с помощью Reinforcement Learning. Система учится на своих ошибках и успехах, что позволяет ей адаптироваться к новым и изменяющимся сайтам.
Стратегический сдвиг к выполнению задач (Task Completion): Подтверждается тренд на превращение Ассистента в ИИ-агента, выполняющего действия от имени пользователя, что может изменить парадигму взаимодействия с вебом и снизить количество прямых посещений сайтов.
Новая эра оптимизации – AEO (Assistant Engine Optimization): Возникает необходимость оптимизации сайтов для успешного взаимодействия с автоматизированными агентами. Ясность UX/UI, семантическая верстка и техническая доступность становятся критически важными для конверсий через этот канал.

Практика

Best practices (это мы делаем)

Рекомендации направлены на обеспечение надежного взаимодействия автоматизированных агентов с сайтом.

Обеспечение четкого визуального контекста для UIMs: Размещайте текстовые метки (labels) в непосредственной близости (сверху или слева) от соответствующих полей ввода и кнопок. Визуальный контекст – это основной способ идентификации элемента агентом.
Использование семантического HTML и Accessibility (A11y): Корректно используйте теги (<button>, <input> с правильными типами) и связывайте метки с полями через атрибут for. Это улучшает понимание структуры как для скринридеров, так и для агентов.
Оптимизация рендеринга (Technical SEO): Убедитесь, что Googlebot может быстро и полностью отрендерить страницу (включая JS и CSS). Система анализирует отрендеренную страницу для построения UIMs и оценки геометрического контекста.
Использование стандартных UX паттернов: Придерживайтесь общепринятых паттернов для транзакционных процессов (чекаут, бронирование). Система лучше адаптируется к сайтам, которые функционально похожи на ранее изученные.
Поддержка автозаполнения (Autofill): Корректная настройка атрибутов autocomplete в формах облегчает агенту ввод данных пользователя (адрес, платежная информация).

Worst practices (это делать не надо)

Отсутствие текстового контекста: Использование только иконок или плейсхолдеров вместо постоянных текстовых меток для полей и кнопок. Если визуальный контекст не содержит текста, UIM может быть недостаточно информативной.
Нестандартные интерактивные элементы: Использование сложных кастомных виджетов (например, <div> вместо <button> без ARIA-ролей) или нестандартных селекторов дат может препятствовать автоматизации.
Радикальные и частые изменения макета: Постоянное изменение визуального расположения элементов может привести к инвалидации ранее изученных скриптов (validated scripts) и UIMs, требуя времени на переобучение системы.
Блокировка рендеринга: Препятствование доступу к CSS и JS не позволит системе корректно оценить визуальный контекст.

Стратегическое значение

Патент имеет высокое стратегическое значение, подтверждая переход от информационного поиска к выполнению задач (Task Completion). В будущем успех e-commerce может зависеть от того, насколько легко ИИ-агент сможет совершить покупку на сайте. Это вводит концепцию AEO (Assistant Engine Optimization), где оптимизация функциональной доступности и UX для машин становится ключевым фактором успеха.

Практические примеры

Сценарий: Оптимизация страницы чекаута для автоматического заполнения агентом

Задача: Убедиться, что Google Assistant может корректно идентифицировать и заполнить поле адреса доставки.

Действия на основе патента (Оптимизация UIM):

Проанализировать расположение поля «Адрес» (Address Line 1) на отрендеренной странице.
Убедиться, что непосредственно перед полем (сверху или слева) присутствует четкий текстовый лейбл, например, «Адрес доставки».
Проверить в коде, что этот текст является текстом (а не изображением) и связан с полем через <label for>.

Ожидаемый результат: Система Google при анализе страницы сгенерирует Universal Identifier Matrix для этого поля ввода, которая будет включать текст «Адрес доставки» в качестве основного визуального контекста. Это позволит надежно идентифицировать назначение поля и автоматически заполнить его данными из профиля пользователя, успешно завершив транзакцию.

Вопросы и ответы

Что такое «Universal Identifier Matrix» (UIM) и почему это важно для моего сайта?

UIM – это метод, позволяющий Google идентифицировать элементы (кнопки, поля форм) на основе их визуального и геометрического контекста (например, какой текст находится рядом с ними), а не только на основе кода (DOM). Это важно, потому что позволяет автоматизированным агентам находить нужные элементы, даже если код сайта изменился. Для владельца сайта это означает, что четкий и логичный дизайн интерфейса помогает Google корректно взаимодействовать с сайтом.

Влияет ли описанная в патенте технология на ранжирование сайта в Google Поиске?

Нет, прямого влияния на органическое ранжирование нет. Патент описывает механизмы работы Автоматизированного Ассистента при выполнении задач, а не алгоритмы Поиска. Однако, если в будущем пользователи будут чаще совершать транзакции через Ассистента, сайт, несовместимый с этой технологией, будет терять конверсии.

Как система определяет, какое действие выполнить следующим на сайте?

В этой публикации патента (A1) акцент сделан на использовании нейронных сетей (Policy). Текущее состояние страницы и намерение пользователя преобразуются в векторное представление (embedding) и подаются на вход сети. Обученная с помощью Reinforcement Learning, сеть предсказывает, какое действие (клик или ввод текста) с наибольшей вероятностью приведет к успешному выполнению задачи.

Как эта система обучается?

Она использует обучение с подкреплением (Reinforcement Learning). Система пробует различные действия на сайтах. Если действие приводит к успешному продвижению к цели (например, переходу на следующий этап заказа), она получает «награду» (reward). Если действие приводит к ошибке – «штраф» (penalty). Со временем она оптимизирует свою политику для максимизации успешных транзакций.

Что произойдет, если я сделаю редизайн сайта? Сломается ли автоматизация Ассистента?

Это зависит от степени изменений. Благодаря UIM, система устойчива к изменениям в коде. Если визуальный контекст ключевых элементов сохранился (например, кнопка «Купить» все еще выглядит так же и находится в похожем окружении), автоматизация продолжит работать. Радикальные изменения могут потребовать переобучения или повторной валидации скрипта системой.

Как этот патент связан с Google Duplex?

Этот патент описывает базовую технологию, лежащую в основе Google Duplex on the Web. Duplex использует описанные методы (анализ состояния, UIM, машинное обучение) для того, чтобы Google Assistant мог самостоятельно бронировать билеты, заказывать еду или арендовать автомобили на сторонних сайтах от имени пользователя.

Какие элементы интерфейса наиболее важны для оптимизации под эту технологию?

Наиболее важны элементы конверсионных путей: формы поиска товаров, кнопки «Добавить в корзину», поля ввода на странице чекаута (адрес, оплата), кнопки подтверждения. Все они должны иметь четкий визуальный контекст (понятные текстовые метки рядом) и стандартную реализацию в HTML.

Помогает ли использование микроразметки (Schema.org) этой системе?

Патент не упоминает микроразметку для этой цели. Эта технология спроектирована как альтернатива API и разметке, полагаясь на визуальный анализ и машинное обучение. Она позволяет автоматизировать взаимодействие даже с сайтами, которые не предоставляют структурированных данных о своих функциях.

Влияет ли скорость загрузки и Core Web Vitals на работу этой системы?

Да, косвенно. Система анализирует отрендеренную страницу для генерации UIM. Если страница загружается медленно, рендеринг блокируется или макет смещается (CLS), система может некорректно определить геометрический контекст элементов, что приведет к сбою автоматизации.

Может ли Ассистент автоматически вводить платежные данные и подтверждать заказы?

Да. Патент описывает, что система может использовать данные из профиля пользователя (сохраненные платежные методы, адреса) для заполнения полей. Решение об автоматическом подтверждении заказа может приниматься на основе настроек пользователя, его истории поведения и суммы транзакции.