Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

Описание

Какую задачу решает

Патент решает проблему неоднозначности и неструктурированности пользовательских запросов, особенно в контексте коммерческого поиска (e-commerce). Пользователи часто вводят широкие или субъективные запросы (например, «высококачественный велосипед» или «дешевый диван»), не указывая конкретные атрибуты. Система направлена на выявление latent intent (скрытого намерения) пользователя и преобразование этого неструктурированного ввода в структурированный набор атрибутов, что позволяет поисковой системе предоставить более релевантные результаты без необходимости уточнения запроса пользователем.

Что запатентовано

Запатентована система, которая использует машинное обучение для понимания намерений пользователя путем анализа исторических данных о взаимодействии с результатами поиска. Система изучает корреляцию между введенными неструктурированными запросами и metadata (структурированными атрибутами) тех результатов (товаров), которые пользователи фактически выбирали. Это позволяет предсказывать latent intent будущих похожих запросов и формировать выдачу на основе предполагаемых желаемых атрибутов.

Как это работает

Система работает в двух основных режимах: обучение и применение.

Обучение: Система анализирует исторические данные: Запрос 1 → Выбор пользователя. Она изучает metadata (например, бренд, размер, материал) выбранных товаров. Используя модель машинного обучения (упоминается Bidirectional Recurrent Neural Network — BRNN), она определяет, какие атрибуты статистически связаны с Запросом 1. Это определяется как latent intent.
Применение: Когда поступает новый Запрос 2, похожий на Запрос 1, система извлекает связанный с ним latent intent.
Структурирование: Система преобразует Запрос 2 во внутренний structured query (структурированный запрос), используя эти атрибуты.
Ранжирование: Результаты поиска генерируются на основе этого структурированного запроса, отдавая приоритет товарам, соответствующим предсказанному намерению.

Актуальность для SEO

Высокая. Понимание намерений пользователя за пределами ключевых слов с помощью глубокого обучения (Deep Learning) является основой современного поиска. Интерпретация интента, особенно в коммерческих нишах (Google Shopping), остается критически важной задачей, которую Google активно решает с помощью передовых ML-моделей (включая RNN и их более современные аналоги).

Важность для SEO

Патент имеет высокое значение (8.5/10), критичное для E-commerce SEO. Он демонстрирует конкретный механизм, как Google интерпретирует запросы, основываясь не только на ключевых словах, но и на предполагаемых атрибутах продукта, изученных через поведение пользователей. Это подчеркивает критическую важность качества данных в продуктовых фидах (metadata) и сигналов вовлеченности пользователей (кликов/выборов) для определения релевантности по широким запросам.

Детальный разбор

Термины и определения

BRNN (Bidirectional Recurrent Neural Network / Двунаправленная рекуррентная нейронная сеть): Тип архитектуры нейронной сети, упомянутый в патенте как механизм машинного обучения для анализа последовательностей (текста запроса) и интерпретации скрытого намерения пользователя.
Implied Attributes (Подразумеваемые атрибуты): Структурированные характеристики продукта (например, бренд, функция, возрастная группа), которые система выводит из неструктурированного запроса на основе анализа исторических данных.
Latent Intent (Скрытое намерение): Истинная цель пользователя, которую он подразумевал, но не выразил явно. В патенте это определяется как набор структурированных поисковых терминов (атрибутов), выведенных на основе метаданных ранее выбранных результатов.
Metadata (Метаданные): Структурированные данные или теги, связанные с продуктом (например, в продуктовом фиде). Патент подчеркивает, что эти данные используются системой для анализа, но могут не отображаться пользователю в интерфейсе.
Selections (Выборы): Действия пользователя, указывающие на интерес к результату (например, клик по ссылке, покупка). Являются обучающим сигналом для системы.
Structured Query (Структурированный запрос): Внутреннее представление запроса, сформированное системой на основе Latent Intent, где намерение выражено через конкретные атрибуты (например, «Размер: 65 дюймов, Бренд: BigTVs»).
Unstructured Query (Неструктурированный запрос): Запрос, введенный пользователем, часто неоднозначный, без явного указания желаемых атрибутов (например, «большой телевизор с высоким разрешением»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод использования исторических данных для предсказания намерений.

Система получает данные о результатах, включая metadata (которые не отображаются пользователю).
Система получает Первый Запрос (Q1) и фиксирует, какие результаты были выбраны пользователем (selections).
Система ассоциирует metadata выбранных результатов с Q1.
Система определяет, что эти metadata представляют собой latent intent для Q1. (Этап обучения).
Система получает Второй Запрос (Q2) и определяет, что он связан с Q1 (содержит похожие термины).
Система определяет latent intent для Q2 на основе ассоциаций, изученных на Q1. (Этап применения).
Система предоставляет результаты для Q2, основываясь на этом предсказанном latent intent.

Ядро изобретения — это использование поведенческих сигналов (выборов) и связанных с ними скрытых атрибутов (метаданных) из прошлых поисковых сессий в качестве обучающего сигнала для понимания истинного намерения неоднозначных запросов и применения этого знания к будущим запросам.

Claim 5 (Зависимый): Уточняет, что система использует machine learning computing system для изучения latent intent. В качестве контекста упоминаются shopping queries (коммерческие запросы).

Claim 7 (Зависимый от 6): Указывает, что для выполнения определений (корреляций и вывода намерения) может использоваться нейронная сеть, в частности bidirectional recurrent neural network (BRNN).

Claim 9 (Зависимый): Определяет latent intent как a set of structured search query terms (набор структурированных поисковых терминов). Это подтверждает, что цель системы — преобразовать неявное намерение в явный структурированный запрос.

Claim 14 и 15 (Зависимые): Указывают, что атрибуты latent intent могут быть категоризированы. Примеры категорий: brand name (бренд), product feature (характеристика товара), age group (возрастная группа).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, связывая данные индексирования с пониманием запросов через анализ поведения пользователей.

INDEXING – Индексирование и извлечение признаков
На этом этапе система получает и обрабатывает данные о продуктах от продавцов (Merchant system). Критически важным является извлечение и сохранение metadata (структурированных атрибутов) для каждого продукта. Эти данные формируют базу знаний о продуктах.

QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Процесс делится на два аспекта:

Офлайн-обучение: Система (используя ML/BRNN) анализирует логи запросов и поведенческие данные (selections). Она учится ассоциировать неструктурированные запросы с конкретными атрибутами (metadata) выбранных товаров, формируя понимание latent intent.
Обработка в реальном времени: При получении нового запроса система использует обученную модель для предсказания Implied Attributes и переписывает входящий запрос в structured query.

RANKING – Ранжирование
На этапе ранжирования используется не исходный неструктурированный запрос пользователя, а сгенерированный системой structured query. Это позволяет найти результаты, которые соответствуют предполагаемым желаемым атрибутам.

Входные данные:

(Офлайн): Продуктовые данные и metadata от продавцов.
(Офлайн): Исторические логи запросов и данные о выборе пользователей (selections).
(Реальное время): Неструктурированный запрос пользователя.

Выходные данные:

(Офлайн): Модель, связывающая запросы с latent intent (атрибутами).
(Реальное время): Structured query, используемый для ранжирования.
(Реальное время): Результаты поиска, основанные на предсказанном намерении.

На что влияет

Конкретные типы контента и Ниши: Патент явно сфокусирован на E-commerce и шоппинг-запросах (shopping queries). Он напрямую влияет на ранжирование продуктовых карточек и страниц категорий.
Специфические запросы: Наибольшее влияние оказывается на неоднозначные, широкие или субъективные запросы. Примеры из патента: «high-end bike» (высококачественный велосипед), «birthday gift for daughter» (подарок на день рождения дочери), «affordable mattress» (доступный матрас).

Когда применяется

Триггеры активации: Система активируется при получении запроса, который она может связать с ранее изученными шаблонами latent intent, особенно если запрос является неструктурированным или неоднозначным.
Условия работы: Требуется наличие достаточного объема исторических данных о запросах и выборах пользователей, а также наличие качественных metadata у проиндексированных товаров для обучения модели.

Пошаговый алгоритм

Алгоритм состоит из двух основных процессов: Обучение (Learning) и Применение (Application/Inference).

Процесс А: Обучение модели интента (Офлайн или непрерывно)

Сбор данных о товарах: Система получает данные о товарах от продавцов, включая metadata (атрибуты, теги).
Сбор поведенческих данных: Система регистрирует поисковые запросы пользователей (Первый Запрос) и фиксирует, какие результаты пользователи выбирают (клики, покупки).
Анализ метаданных выборов: Система идентифицирует metadata, связанные с выбранными результатами для Первого Запроса.
Вывод атрибутов (Inference): Система (используя ML/BRNN) анализирует корреляции между терминами запроса и метаданными выбранных товаров. Часто встречающиеся метаданные определяются как implied attributes.
Определение Latent Intent: Набор этих атрибутов формирует latent intent Первого Запроса.
Категоризация и Сохранение: Выведенные атрибуты категоризируются (например, Бренд, Функция, Возраст) и сохраняются в ассоциации с Первым Запросом для будущего использования.

Процесс Б: Обработка запроса (Онлайн)

Получение запроса: Пользователь вводит неструктурированный запрос (Второй Запрос).
Анализ запроса: Система анализирует термины Второго Запроса и ищет связь или сходство с ранее изученными запросами (Первым Запросом).
Предсказание Latent Intent: Если связь найдена, система извлекает сохраненный latent intent и применяет его ко Второму Запросу.
Генерация структурированного запроса: Система формирует внутренний structured query на основе предсказанных атрибутов. (Например, запрос «костюм спайдермена» преобразуется в атрибуты «костюм, супергерой, мальчик, до 10 лет»).
Поиск и Ранжирование: Система выполняет поиск, используя structured query, чтобы найти результаты, соответствующие предсказанным атрибутам.
Отображение результатов: Результаты, основанные на latent intent, отображаются пользователю.
Обновление данных: Выборы пользователя по Второму Запросу записываются и используются для дальнейшего обучения модели (возврат к Процессу А).

Какие данные и как использует

Данные на входе

Патент явно указывает на использование следующих типов данных:

Структурные факторы (Metadata): Критически важные данные. Это атрибуты, теги и категории, связанные с товаром. Патент подчеркивает, что эти данные могут быть скрыты от пользователя, но используются системой. Сюда входят:
- Feature tags (Теги характеристик: размер, разрешение, материал).
- Age Groups (Возрастные группы).
- Categories (Категории товара).
- Brands (Бренды и линейки продуктов).
Поведенческие факторы (Selections): Данные о взаимодействии пользователя с результатами поиска. Учитывается, какие результаты пользователь выбирает (кликает или покупает) после ввода определенного запроса.
Контентные факторы (Query Terms): Текст неструктурированного запроса, введенного пользователем.

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает методологию вычисления и используемые технологии:

Алгоритмы машинного обучения: Для выполнения корреляций, определений и предсказания latent intent используется machine learning algorithm. В частности, явно упоминается Bidirectional Recurrent Neural Network (BRNN).
Корреляция Запрос-Атрибут: Система вычисляет связь между терминами запроса и metadata выбранных результатов. Это делается путем сравнения и агрегации метаданных для всех выборов по данному запросу.
Частотность и Релевантность Атрибута: Система идентифицирует атрибуты (metadata), которые наиболее часто встречаются в выбранных пользователями товарах. Атрибуты с высокой частотностью считаются частью Latent Intent.
Сходство запросов: Метрика для определения того, что новый запрос связан с историческим запросом. Патент предполагает сравнение терминов запросов, где большее количество совпадений указывает на большую связь.

Выводы

Переход от ключевых слов к атрибутам в E-commerce: Патент демонстрирует механизм, позволяющий Google интерпретировать неоднозначные шоппинг-запросы как набор конкретных структурированных атрибутов (Latent Intent). Ранжирование происходит на основе соответствия этим атрибутам, а не только совпадения ключевых слов.
Пользовательское поведение как источник истины для интента: Система обучается на том, что пользователи выбирают (Selections). Коллективное поведение пользователей определяет, что означает тот или иной запрос в терминах атрибутов (например, какие бренды считаются «дешевыми» или какие размеры считаются «большими»).
Критичность скрытых метаданных (Structured Data): Metadata (структурированные данные в фидах и микроразметке), которые могут быть не видны пользователю, являются основой для понимания характеристик продукта системой. Без этих данных система не может связать клики с атрибутами.
Автоматическое переписывание запросов: Система автоматически генерирует structured query на основе предсказанного намерения. Это означает, что ранжирование может происходить по запросу, отличному от того, что ввел пользователь, и показывать результаты без точного совпадения ключей, если они соответствуют выведенному интенту.
Использование продвинутого ML (BRNN): Применение нейронных сетей (BRNN) указывает на сложность задачи понимания контекста и последовательности слов в коммерческих запросах для точного вывода атрибутов.

Практика

Best practices (это мы делаем)

Рекомендации особенно актуальны для E-commerce проектов, так как патент сфокусирован на shopping queries.

Максимизация качества и полноты продуктовых фидов: Предоставляйте максимально подробные, точные и структурированные metadata в продуктовых фидах (например, Google Merchant Center). Это включает бренд, размеры, цвет, материал, целевую аудиторию, технические характеристики. Именно эти данные используются ML-моделью для обучения и сопоставления с latent intent.
Использование детализированной микроразметки: Убедитесь, что атрибуты продукта четко указаны в микроразметке Schema.org/Product на сайте. Это служит дополнительным источником metadata и должно соответствовать данным в фиде.
Оптимизация под вовлеченность (CTR и Удовлетворенность): Клики (selections) являются обучающими данными. Создавайте привлекательные сниппеты (тайтлы, изображения, цены), которые точно отражают характеристики товара и стимулируют клики. Успешное взаимодействие подтверждает системе, что ваш товар соответствует latent intent запроса.
Анализ атрибутов в SERP: Изучайте выдачу по целевым неоднозначным запросам. Анализируйте, какие общие атрибуты имеют топовые результаты. Это поможет понять, какие Implied Attributes Google уже ассоциирует с этим запросом, и оптимизировать свои продукты и фиды соответственно.

Worst practices (это делать не надо)

Предоставление скудных или неточных метаданных: Если в продуктовом фиде или микроразметке отсутствуют ключевые атрибуты, система не сможет понять характеристики вашего продукта и не сможет сопоставить его с выведенным интентом пользователя.
Keyword Stuffing субъективными терминами: Перенасыщение описаний продуктов терминами вроде «дешевый», «лучший», «высококачественный» менее эффективно, чем предоставление конкретных атрибутов. Google предпочитает выводить эти понятия самостоятельно на основе структурированных данных и поведения пользователей.
Манипуляция атрибутами (Attribute Spamming): Добавление нерелевантных атрибутов в metadata в попытке охватить больше запросов. Поскольку система валидирует атрибуты через поведение пользователей, нерелевантные атрибуты будут отфильтрованы, если пользователи не будут выбирать эти товары.
Игнорирование поведенческих метрик: Низкая вовлеченность (низкий CTR) сигнализирует системе, что товар не соответствует latent intent, что приведет к снижению его релевантности для данного запроса в будущем.

Стратегическое значение

Патент подтверждает стратегию Google по переходу от простого сопоставления ключевых слов к глубокому пониманию сущностей (товаров) и их атрибутов в коммерческом поиске. Успех в E-commerce SEO все больше зависит от качества и структуры предоставляемых данных (Data-Driven SEO). Если вы не предоставите качественные структурированные данные, система не сможет эффективно ранжировать ваши товары по широким и неоднозначным запросам. Стратегия должна фокусироваться на построении семантически богатого каталога с четкими атрибутами.

Практические примеры

Сценарий: Оптимизация фида для магазина велосипедов

Задача: Улучшить ранжирование по широкому запросу «надежный горный велосипед».

Анализ интента: SEO-специалист анализирует выдачу и поведение пользователей, замечая, что они часто кликают на велосипеды с гидравлическими тормозами и алюминиевой рамой. Это текущий Latent Intent.
Действие (Оптимизация Metadata): Специалист обновляет фид данных (Merchant Center) и микроразметку Schema.org/Product для соответствующих товаров, убеждаясь, что атрибуты «Тип тормозов: Гидравлические» и «Материал рамы: Алюминий» четко указаны.
Оптимизация сниппета: Заголовок и описание оптимизируются для повышения CTR, подчеркивая эти характеристики.
Ожидаемый результат: Система Google, опираясь на изученный latent intent, ищет товары с соответствующими атрибутами. Товары магазина получают приоритет, так как они соответствуют предсказанному структурированному запросу. Если пользователи будут активно выбирать эти товары, система укрепит эту связь.

Вопросы и ответы

Что такое «Metadata» в контексте этого патента и где их указывать?

Metadata — это структурированные атрибуты товара (бренд, размер, цвет, функции, категория). Патент подчеркивает, что эти данные могут не отображаться пользователю, но используются системой для обучения. На практике это данные, передаваемые через фиды в Google Merchant Center и микроразметку Schema.org/Product на сайте. Чем полнее эти данные, тем точнее система определит latent intent.

Как система определяет «Latent Intent» (скрытое намерение)?

Система определяет latent intent путем анализа исторических поведенческих данных с помощью машинного обучения. Она смотрит, какие товары пользователи выбирали (кликали, покупали) после ввода определенного запроса, и ищет общие шаблоны в metadata этих товаров. Часто повторяющиеся атрибуты становятся частью latent intent этого запроса.

Насколько важен CTR в выдаче согласно этому патенту?

Критически важен. Весь механизм обучения основан на идентификации того, какие результаты пользователи выбирают (selections). Клики являются обучающим сигналом. Если ваш товар имеет релевантные атрибуты, но низкий CTR, система не сможет надежно связать эти атрибуты с интентом запроса. Оптимизация сниппетов напрямую влияет на эффективность этого механизма.

Что такое «Structured Query» и как он используется?

Structured Query — это внутренний запрос, который система генерирует автоматически. Если пользователь ввел «недорогой диван», а система на основе исторических данных поняла, что пользователи ищут «диван из экокожи бренда X», то последний и будет являться Structured Query. Ранжирование производится именно по этому структурированному запросу, а не по исходному тексту пользователя.

Какова роль машинного обучения (BRNN) в этом патенте?

Машинное обучение (в частности, BRNN — двунаправленная рекуррентная нейронная сеть) используется для анализа огромного массива данных о запросах, выборах пользователей и метаданных. BRNN хорошо подходит для анализа контекста слов в запросе, что позволяет выявить сложные корреляции и статистически предсказать, какие атрибуты пользователь подразумевает при вводе неструктурированного запроса.

Применяется ли этот патент только к Google Shopping?

Хотя формально Claims описывают общую систему, все примеры в патенте, термины (shopping queries, merchant systems) и описание проблемы указывают на то, что основное применение — это коммерческий поиск (E-commerce), такой как Google Shopping или товарные блоки в основной выдаче. Принципы могут применяться шире, но фокус здесь на товарах.

Может ли мой товар ранжироваться, если он не содержит ключевых слов из запроса?

Да. Если система определила Latent Intent запроса и ваш продукт точно соответствует этому интенту через свои структурированные атрибуты (metadata), он может ранжироваться высоко. Например, если система поняла, что «дешевый диван» означает «диван из микрофибры», ваш диван из микрофибры будет ранжироваться, даже если в его описании нет слова «дешевый».

Что важнее для этой системы: текст на странице товара или данные в фиде/микроразметке?

Для механизма выявления latent intent, описанного в этом патенте, критически важны структурированные данные (metadata из фида или микроразметки), так как они служат основой для обучения модели. Текст на странице важен для общей релевантности, конверсии и привлечения клика (который является обучающим сигналом), но атрибуты имеют приоритет для интерпретации неоднозначных запросов.

Как SEO-специалисту узнать, какой Latent Intent Google ассоциирует с запросом?

Патент не предлагает инструмента для этого, но это можно сделать через тщательный анализ SERP. Изучите топовые результаты по целевому неоднозначному запросу и найдите общие структурированные атрибуты (общий бренд, материал, размер, ценовой диапазон). Эти общие черты, скорее всего, и есть выведенный системой Latent Intent.

Как бороться с неправильной интерпретацией интента системой?

Если система неправильно ассоциирует запрос с неверными атрибутами, необходимо пересмотреть ваши metadata на предмет точности и чистоты. Также важно работать над поведенческими сигналами: нужно убедиться, что сниппеты и контент точно отражают суть товара, чтобы привлекать правильные клики. Со временем модель переобучится на новых данных о поведении пользователей.