Google использует модели последовательностей (например, LSTM, RNN, Attention Models) для анализа истории действий пользователя, учитывая их порядок и время. Система создает эмбеддинг (векторное представление) текущих интересов пользователя на основе этих данных. Этот эмбеддинг интегрируется в существующие модели прогнозирования, позволяя системе точнее определять, в каком контексте пользователь совершит конверсию (например, скачает приложение), и персонализировать рекомендации.
Описание
Какую задачу решает
Патент решает проблему неточности систем прогнозирования, которые игнорируют временные (temporal) и последовательные (sequential) характеристики поведения пользователей. Традиционные подходы (например, Bag-of-Words (BoW)) рассматривают все исторические события как равнозначные, не учитывая их порядок и давность. Это снижает точность определения текущего намерения (интента) пользователя. Изобретение улучшает работу рекомендательных систем (например, магазинов приложений), позволяя учитывать эволюцию интересов пользователя для более точного прогнозирования конверсий в конкретном контексте.
Что запатентовано
Запатентована система, которая интегрирует Sequence Model (модель последовательности, такую как LSTM, RNN или Attention Model) в существующую Prediction Model (модель прогнозирования, например, DNN). Sequence Model обрабатывает историю взаимодействий пользователя (contextual information) для генерации Sequence Output (например, sequence embedding), который капсулирует временные и последовательные паттерны поведения. Этот вывод используется как дополнительный признак в Prediction Model для повышения точности рекомендаций и прогнозирования конверсий.
Как это работает
Система работает следующим образом:
- Сбор данных и извлечение признаков: Feature Module собирает contextual information (история поиска, покупок, использования приложений, местоположение, состояние устройства) и извлекает временные и последовательные признаки (с согласия пользователя).
- Моделирование последовательности: Sequence Model обучается на этих признаках, чтобы понять характеристики прошлых взаимодействий, которые привели к конверсиям. Модель генерирует Sequence Output (эмбеддинг), отражающий текущие интересы пользователя.
- Интеграция и Прогнозирование: Существующая Prediction Model обучается с использованием этого Sequence Output вместе с другими признаками (например, демографическими данными, характеристиками приложений).
- Рекомендация в реальном времени: Когда пользователь взаимодействует с системой, его текущий контекст анализируется Prediction Model. Если контекст совпадает с прогнозируемым контекстом конверсии, система активно рекомендует соответствующий элемент (например, приложение).
Актуальность для SEO
Высокая. Моделирование последовательностей (Sequence Modeling) с использованием LSTM и особенно Attention Models (Трансформеров) является основой современных систем персонализации и понимания языка. Учет истории поведения и текущего контекста критически важен для рекомендательных движков, таких как Google Play, YouTube и Google Discover.
Важность для SEO
Влияние на традиционное SEO (веб-поиск) минимальное. Патент описывает инфраструктуру для систем персонализированных рекомендаций, а не алгоритмы ранжирования веб-поиска. Однако он имеет высокое значение для App Store Optimization (ASO) и оптимизации под персонализированные ленты, такие как Google Discover. Патент раскрывает технические детали того, как Google моделирует эволюцию интересов пользователя, его историю и текущий контекст для прогнозирования немедленных потребностей.
Детальный разбор
Термины и определения
- Application Provider Service (Сервис предоставления приложений)
- Пример рекомендательной системы, описанной в патенте. Это может быть магазин приложений (например, Google Play), база данных или репозиторий, откуда пользователи загружают приложения.
- Attention Model (Модель внимания)
- Тип Sequence Model, который позволяет модели фокусироваться на наиболее важных частях входной последовательности. Используется для взвешивания исторических событий по их значимости для текущего прогноза.
- Context (Контекст)
- Состояние пользователя и/или устройства в определенный момент времени. Включает физическое и виртуальное окружение: местоположение, время, погоду, текущие задачи, открытые веб-страницы, воспроизводимую музыку и т.д.
- Contextual Information (Контекстная информация)
- Сырые данные, используемые для определения контекста и истории поведения. Включает историю поиска, покупок, использования приложений, данные сенсоров, календарь, состояние устройства (например, уровень заряда батареи) и т.д.
- Conversion (Конверсия)
- Целевое действие, которое система пытается предсказать и стимулировать. В контексте патента это чаще всего загрузка, покупка или потребление элемента (например, приложения).
- Feature Embeddings (Эмбеддинги признаков)
- Векторные представления характеристик системы, пользователя или элементов (приложений). Делятся на sequence embeddings (временные/последовательные) и другие (например, характеристики пользователя или приложения).
- Latent Crosses (Скрытые пересечения)
- Техника объединения признаков, часто через поэлементное умножение (multiplicative interaction). Используется для более тесной связи между различными типами признаков (например, между последовательными и временными признаками) для улучшения производительности модели.
- LSTM (Long Short-Term Memory)
- Тип рекуррентной нейронной сети (RNN), используемый как Sequence Model. Способен изучать долгосрочные зависимости в данных и определять, какая информация из истории пользователя важна для будущего поведения.
- Prediction Model (Модель прогнозирования)
- Существующая модель (например, Deep Neural Network — DNN), которая принимает на вход различные признаки, включая вывод Sequence Model, для генерации финального прогноза или ранжирования рекомендаций.
- Sequence Model (Модель последовательности)
- Модель машинного обучения (например, RNN, LSTM, Attention Model), предназначенная для обработки последовательных данных. Используется для капсулирования временных и последовательных характеристик поведения пользователя.
- Sequence Output / Sequence Embedding (Вывод модели последовательности / Последовательный эмбеддинг)
- Выходные данные Sequence Model. Это закодированное представление (эмбеддинг) истории пользователя, которое используется как вход для Prediction Model.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод адаптации существующей системы прогнозирования.
- Обучение Sequence Model с использованием признаков из contextual information для определения характеристик прошлых взаимодействий, которые привели к conversions.
- Генерация Sequence Output, который указывает на характеристики будущих взаимодействий, ведущих к конверсии определенного приложения.
- Обучение существующей Prediction Model с использованием этого Sequence Output для идентификации future context (будущего контекста), в котором произойдет конверсия.
- В реальном времени: ввод текущего контекста в Prediction Model.
- Если текущий контекст соответствует прогнозируемому future context, система получает индикацию приложения.
- Модификация пользовательского интерфейса (UI) для более заметного представления этого приложения.
Claim 2 (Зависимый): Уточняет типы данных, используемых для обучения.
Sequence Output представляет собой sequence embedding. Система также генерирует другие эмбеддинги, отражающие non-temporal or non-sequential characteristics (невременные или непоследовательные характеристики). Prediction Model обучается на основе как sequence embedding, так и этих других эмбеддингов.
Claim 4 (Зависимый): Описывает альтернативную форму Sequence Output.
Sequence Output может состоять из latent crosses (скрытых пересечений) между первичными и вспомогательными эмбеддингами признаков. Эти пересечения используются Prediction Model для учета характеристик будущих взаимодействий.
Claims 8 и 9 (Зависимые): Уточняют типы моделей.
Sequence Model может быть комбинацией Attention models, LSTM models и RNN models (Claim 8). Существующая Prediction Model может быть Deep Neural Network (DNN) model, сконфигурированной для приема вывода от Sequence Model (Claim 9).
Где и как применяется
Изобретение применяется в системах персонализированных рекомендаций. Это не алгоритм ранжирования веб-поиска, а механизм для прогнозирования поведения пользователей на платформах типа магазинов приложений, новостных агрегаторов или сервисов потокового медиа.
RANKING / RERANKING (Персонализация)
Это основной этап применения патента. Система использует данные о поведении пользователя для персонализации ранжирования или выбора рекомендуемых элементов.
- Извлечение признаков пользователя: Система анализирует историю взаимодействий пользователя и его текущий контекст.
- Генерация профиля интересов: Sequence Model обрабатывает исторические данные и генерирует Sequence Embedding, представляющий текущие интересы пользователя с учетом временной динамики.
- Прогнозирование: Prediction Model объединяет Sequence Embedding с данными о текущем контексте и характеристиками доступных элементов (приложений).
- Ранжирование/Рекомендация: Модель прогнозирует вероятность конверсии для каждого элемента в данном контексте и ранжирует их соответствующим образом.
Входные данные:
- Исторические Contextual Information (для обучения).
- Текущий Context пользователя и устройства (для инференса).
- Характеристики доступных элементов (приложений).
Выходные данные:
- Sequence Output (промежуточный вывод).
- Индикация рекомендуемого приложения.
- Модифицированный UI с приоритетным показом рекомендации.
На что влияет
- Конкретные типы контента и платформ: Влияет на платформы, где рекомендации сильно зависят от истории поведения и текущего контекста: магазины приложений (ASO), музыкальные и видео сервисы, новостные ленты (Google Discover). Не влияет напрямую на ранжирование стандартных веб-страниц в поиске.
- Специфические запросы: Влияет на обработку неявных запросов (например, открытие магазина приложений без ввода текста поиска), где система должна предсказать намерение пользователя.
Когда применяется
- Условия применения: Алгоритм применяется постоянно при взаимодействии пользователя с рекомендательной системой (например, при открытии магазина приложений, просмотре ленты рекомендаций).
- Триггеры активации: Активируется необходимостью сгенерировать персонализированный набор рекомендаций на основе текущего контекста и профиля пользователя.
Пошаговый алгоритм
Процесс А: Обучение (Офлайн)
- Сбор данных: Накопление Contextual Information о взаимодействиях пользователей с системой и результатах этих взаимодействий (конверсиях). Сбор происходит с согласия пользователя.
- Извлечение признаков: Извлечение временных, последовательных и других признаков из сырых данных. Создание первичных и вспомогательных эмбеддингов.
- Обучение Sequence Model: Обучение модели (LSTM/Attention) для определения характеристик прошлых взаимодействий, которые коррелируют с конверсиями. Цель – научиться генерировать качественный Sequence Output.
- Обучение Prediction Model: Обучение существующей модели (DNN). На вход подаются Sequence Output, сгенерированный на шаге 3, и другие признаки (невременные/непоследовательные). Цель – научиться идентифицировать будущий контекст, в котором произойдет конверсия.
Процесс Б: Инференс (Реальное время)
- Определение текущего контекста: Сбор и анализ текущей Contextual Information пользователя и устройства.
- Генерация Sequence Output: Обработка истории пользователя с помощью обученной Sequence Model для создания актуального эмбеддинга интересов.
- Прогнозирование: Ввод текущего контекста и Sequence Output в обученную Prediction Model.
- Оценка соответствия: Модель определяет, соответствует ли текущий контекст прогнозируемому контексту конверсии для конкретных элементов (приложений).
- Выбор рекомендации: Выбор приложения с наибольшей вероятностью конверсии.
- Модификация UI: Изменение интерфейса для приоритетного показа выбранного приложения пользователю.
Какие данные и как использует
Данные на входе
Система использует широкий спектр данных, определяемых как Contextual Information и Context. Патент подчеркивает, что сбор данных происходит только с явного разрешения пользователя.
- Поведенческие факторы: История поиска, история покупок, история использования приложений (частота, продолжительность сессий), история местоположений, закладки, избранное.
- Временные факторы: Время взаимодействий, последовательность действий, время с момента установки приложения до взаимодействия (time delta).
- Пользовательские факторы: Темы интересов (interest graph), контактная информация (друзья, семья), информация из календаря, демографические данные (возраст, уровень образования, если указаны).
- Технические факторы (Состояние устройства): Уровень заряда батареи, подключение к питанию, активные приложения, режим работы (например, «в самолете»), состояние радиомодулей.
- Географические и Средовые факторы: Местоположение, скорость движения, тип места, адрес, погодные условия, трафик.
- Мультимедиа факторы: Аудио/видео, воспроизводимое на устройстве или рядом с ним (акустические/видео отпечатки).
Какие метрики используются и как они считаются
Патент не приводит конкретных метрик ранжирования, но описывает архитектуру машинного обучения и используемые техники:
- Sequence Embeddings: Генерируются с помощью Sequence Models (LSTM, RNN, Attention Models). Это векторное представление истории пользователя.
- Attention Weights: Модели внимания используются для определения относительной важности различных событий в истории пользователя. Рассчитываются веса (w) для каждого элемента последовательности и нормализуются (например, с помощью SoftMax, как в EQ. 1). Итоговый взвешенный эмбеддинг (c) вычисляется как сумма эмбеддингов элементов, умноженных на их веса (EQ. 2).
- Latent Crosses (Multiplicative Interaction): Техника для более тесного связывания признаков. Например, временные признаки могут быть поэлементно умножены на последовательные признаки (EQ. 3).
- Прогноз Конверсии: Финальная метрика, рассчитываемая Prediction Model (DNN). Это вероятность того, что пользователь совершит конверсию в текущем контексте.
- Skip Connections: Упоминаются как способ гарантировать, что sequence embeddings должным образом учитываются в DNN, путем их конкатенации с входом каждого скрытого слоя.
Выводы
- Последовательность и время имеют значение: Google активно моделирует не только то, ЧТО пользователь делал в прошлом, но КОГДА и В КАКОМ ПОРЯДКЕ. Недавняя активность и паттерны поведения являются сильными индикаторами текущего намерения.
- Sequence Models как генераторы признаков: Патент описывает инфраструктурный подход, где сложные модели последовательностей (LSTM, Attention) используются для генерации высокоуровневых признаков (Sequence Embeddings), которые затем подаются в стандартные модели прогнозирования (DNN).
- Контекст определяет рекомендации: Цель системы — не просто найти релевантный контент, а найти контент, который будет потреблен (конвертирован) в текущем контексте пользователя (время, место, состояние устройства, недавние действия).
- Гибкая интеграция с существующими системами: Метод разработан так, чтобы улучшить существующие рекомендательные системы без их полной переработки, просто добавляя Sequence Output как новый мощный сигнал.
- Техники для усиления сигналов: Используются продвинутые техники, такие как Latent Crosses (multiplicative interaction) и skip connections, чтобы гарантировать, что последовательные признаки оказывают достаточное влияние на финальный прогноз и не теряются среди других признаков.
- Фокус на персонализации, а не на веб-поиске: Описанные механизмы напрямую относятся к системам персонализированных рекомендаций (Google Play, Discover), а не к ранжированию в основном веб-поиске.
Практика
Практическое применение в SEO
ВАЖНО: Этот патент имеет минимальное прямое отношение к традиционному SEO для ранжирования веб-страниц в основном поиске Google. Его основная ценность заключается в понимании работы App Store Optimization (ASO) и персонализированных лент, таких как Google Discover.
Best practices (это мы делаем)
Для Google Discover и Новостей:
- Фокус на развитии интереса пользователя: Создавайте контент, который соответствует эволюционирующим интересам аудитории. Sequence Models анализируют путь пользователя. Если пользователь переходит от базовых тем к продвинутым, ваш контент должен поддерживать этот тренд.
- Поощрение регулярного взаимодействия: Системы, основанные на последовательностях, придают больший вес недавней и регулярной активности. Стимулируйте пользователей возвращаться к вашему контенту (через подписки, серии публикаций).
- Учет контекста потребления контента: Понимайте, в каком контексте пользователи читают ваш контент (утром/вечером, на ходу/дома). Оптимизируйте формат и подачу под эти контексты, так как Prediction Model ищет совпадение контента с контекстом.
Для ASO (App Store Optimization):
- Анализ последовательностей установок: Изучайте, какие приложения пользователи устанавливают до и после вашего. Это поможет понять паттерны поведения, которые Sequence Model может идентифицировать, и оптимизировать метаданные для соответствия этим паттернам.
- Оптимизация под контекст использования: Подчеркивайте в описании и креативах сценарии (контексты), в которых приложение наиболее полезно. Если приложение полезно в путешествии, система с большей вероятностью порекомендует его, когда контекст пользователя изменится на «путешествие».
- Стимулирование постоянного вовлечения: Модель ценит давность и последовательность действий. Регулярное вовлечение создает сильный сигнал для Sequence Model.
Worst practices (это делать не надо)
- Игнорирование контекста и истории пользователя: Предполагать, что интересы пользователя статичны. Рекомендательные системы динамически адаптируются к изменениям в поведении.
- Фокус на разовом взаимодействии: Попытки «обмануть» систему разовыми всплесками активности менее эффективны, чем построение долгосрочных паттернов взаимодействия, которые анализируются Sequence Models.
- Создание контента вне тематического пути пользователя: Публикация контента, который не связан с предыдущими интересами пользователя или не развивает их, снижает вероятность его рекомендации в персонализированных лентах.
Стратегическое значение
Патент подтверждает стратегическую важность машинного обучения (особенно LSTM и Attention Models) в моделировании поведения пользователей. Для Google персонализация — это не просто добавление фильтров, а глубокий анализ последовательности действий и контекста для предсказания будущих потребностей. Для SEO-специалистов это подчеркивает необходимость разделения стратегий для классического поиска и для персонализированных платформ (Discover, ASO), где понимание пользовательского пути и контекста становится определяющим фактором видимости.
Практические примеры
Сценарий ASO: Рекомендация приложения для повышения продуктивности
- История (Sequence): Пользователь недавно установил приложение для медитации и приложение для чтения электронных книг.
- Анализ Sequence Model: Модель определяет паттерн «саморазвитие» и генерирует соответствующий Sequence Embedding.
- Текущий контекст (Context): Рабочий день, пользователь находится в офисе (геолокация), в календаре много встреч.
- Прогноз (Prediction Model): Модель объединяет эмбеддинг «саморазвитие» и контекст «работа». Она прогнозирует высокую вероятность конверсии для приложений по управлению задачами.
- Результат: Система рекомендует пользователю новый таск-менеджер в Google Play, ставя его выше игр или развлекательных приложений.
Сценарий Google Discover: Рекомендация контента
- История (Sequence): Пользователь последние несколько дней читал статьи про выбор палатки и маршруты для хайкинга.
- Анализ Sequence Model: Модель фиксирует развивающийся интерес к теме «походы».
- Текущий контекст (Context): Вечер пятницы, прогноз погоды на выходные хороший.
- Прогноз (Prediction Model): Модель определяет, что в данном контексте пользователь с высокой вероятностью заинтересован в планировании ближайших активностей.
- Результат: В ленте Discover приоритет отдается статье «Топ-5 маршрутов для хайкинга на эти выходные рядом с вашим городом».
Вопросы и ответы
Влияет ли этот патент на ранжирование сайтов в основном поиске Google?
Напрямую нет. Патент описывает архитектуру для систем персонализированных рекомендаций, таких как магазины приложений (Google Play) или ленты контента (Google Discover). Он не описывает механизмы индексирования или ранжирования веб-страниц в классическом поиске. Его фокус — прогнозирование поведения конкретного пользователя на основе его личной истории и контекста.
Какое значение этот патент имеет для Google Discover?
Значение критически важное. Google Discover — это беззапросная рекомендательная система, работа которой полностью основана на понимании интересов пользователя и его контекста. Описанные в патенте механизмы, использующие Sequence Models для анализа истории взаимодействий и Prediction Models для учета текущего контекста, идеально подходят для определения того, какой контент показать пользователю в данный момент.
Что такое Sequence Model и почему она важна?
Sequence Model (модель последовательности, например, LSTM, RNN, Attention Model) — это тип нейронной сети, предназначенный для обработки данных, где важен порядок элементов (например, слова в предложении или действия пользователя во времени). Она важна, потому что позволяет системе понять эволюцию интересов пользователя и отличить недавнюю активность от устаревшей, что критично для точных рекомендаций.
Какие типы контекста учитывает система?
Патент описывает очень широкий спектр контекстной информации (Contextual Information). Сюда входят история поиска и покупок, использование приложений, местоположение, время суток, данные календаря, и даже состояние устройства (уровень заряда батареи, активные подключения). Система стремится учесть все доступные сигналы для точного прогноза.
Что такое Sequence Embedding?
Sequence Embedding — это результат работы Sequence Model. Это сжатое векторное представление всей истории взаимодействий пользователя, которое капсулирует его поведенческие паттерны и текущие интересы. Этот эмбеддинг затем используется как один из входных сигналов для основной модели прогнозирования (Prediction Model).
Что такое Latent Crosses и как они используются?
Latent Crosses (скрытые пересечения) — это техника комбинирования различных признаков, часто через поэлементное умножение (multiplicative interaction). В патенте это используется для более тесной связи между разными типами данных, например, временными и последовательными признаками. Это позволяет модели лучше улавливать сложные взаимодействия между признаками и повышает точность прогнозов.
Как SEO-специалист может использовать информацию из этого патента?
Для классического SEO польза ограничена пониманием того, как Google в целом моделирует поведение пользователей. Однако для оптимизации под Google Discover необходимо создавать контент, соответствующий развивающимся интересам пользователя и актуальному контексту, а также поощрять регулярное взаимодействие. Для ASO важно понимать последовательность установок приложений и контексты их использования.
Чем подход в патенте отличается от традиционных рекомендательных систем?
Традиционные системы часто используют подходы типа Bag-of-Words, которые учитывают, какие действия совершал пользователь, но игнорируют их порядок и время, считая все события равнозначными. Описанный подход явно моделирует последовательность и временную динамику с помощью специализированных нейронных сетей (LSTM, Attention), что позволяет гораздо точнее определять текущие намерения пользователя.
Используются ли модели внимания (Attention Models) в этом патенте?
Да, модели внимания явно упоминаются как один из вариантов реализации Sequence Model. Они используются для взвешивания различных событий в истории пользователя, позволяя системе понять, какие прошлые действия наиболее релевантны для прогнозирования будущего поведения в текущем контексте.
Означает ли этот патент, что Google постоянно следит за пользователями?
Патент описывает техническую возможность анализа широкого спектра контекстных данных для улучшения персонализации. Однако в тексте неоднократно подчеркивается, что сбор и использование Contextual Information происходит только после получения явного разрешения (согласия) от пользователя, и что данные могут быть предварительно обработаны для удаления личной информации.