Как Google использует эмбеддинги и историю взаимодействий для персонализации результатов в вертикальном поиске (Hotels, Flights, Shopping)

Google использует методы коллаборативной фильтрации для персонализации выдачи в вертикальных поисках (Hotels, Flights, Shopping). Система анализирует историю взаимодействий всех пользователей, чтобы создать векторные представления (эмбеддинги) для элементов (отелей, товаров). Затем она сравнивает персональный эмбеддинг пользователя с эмбеддингами элементов для ранжирования результатов, максимально соответствующих его предпочтениям.

Описание

Какую задачу решает

Патент решает проблему предоставления релевантных и персонализированных результатов в условиях, когда стандартные методы фильтрации неэффективны. Это особенно актуально для вертикалей (например, отели, авиабилеты), где пользователи взаимодействуют с элементами нечасто (1-2 раза в год), а данные об элементах могут быть разреженными или ненадежными. Изобретение позволяет генерировать высококачественные персонализированные рекомендации, опираясь на агрегированное поведение пользователей (коллаборативная фильтрация), а не только на прямые характеристики элементов.

Что запатентовано

Запатентована система персонализации результатов поиска, основанная на генерации векторных представлений (эмбеддингов) элементов и пользователей. Система создает Item Embeddings путем факторизации матрицы совместных взаимодействий (Co-interaction Matrix), которая отражает, как часто разные элементы используются одними и теми же пользователями. При получении запроса система генерирует User Embedding на основе его истории и ранжирует результаты по степени схожести (Similarity Value) между эмбеддингом пользователя и эмбеддингами элементов-кандидатов.

Как это работает

Система работает в два этапа: офлайн и онлайн.

Офлайн (Подготовка): Система агрегирует истории взаимодействий (клики, бронирования, покупки) всех пользователей. Строится Co-interaction Matrix (например, сколько пользователей бронировали и Отель А, и Отель Б). К этой матрице применяется Matrix Factorization для создания Item Embeddings — векторов, отражающих скрытые характеристики элементов.
Онлайн (Ранжирование): Когда пользователь отправляет запрос, система вычисляет его User Embedding (например, как среднее значение эмбеддингов элементов, с которыми он взаимодействовал ранее). Затем кандидаты ранжируются на основе близости их Item Embeddings к User Embedding пользователя.

Актуальность для SEO

Высокая. Эмбеддинги, машинное обучение и коллаборативная фильтрация являются foundational технологиями для современных систем рекомендаций и персонализированного поиска. Описанные методы активно используются в Google Shopping, Google Hotels, Google Flights и других сервисах, где критически важно учитывать предпочтения пользователя.

Важность для SEO

Влияние на SEO значительно (8/10), особенно для вертикального поиска (eCommerce, Travel, Local). Патент демонстрирует, что ранжирование в этих нишах зависит не только от текстовой релевантности запросу, но и от того, насколько скрытые характеристики элемента (Item Embedding) соответствуют имплицитным предпочтениям пользователя (User Embedding). Это подчеркивает критическую важность поведенческих факторов и качества взаимодействия с пользователем для ранжирования.

Детальный разбор

Термины и определения

Co-interaction Matrix (Матрица совместных взаимодействий): Матрица, где строки и столбцы соответствуют элементам (например, отелям). Значение на пересечении Элемента А и Элемента Б представляет количество пользователей, которые взаимодействовали (например, бронировали или кликали) с обоими элементами.
Embeddings Matrix (Матрица эмбеддингов): Матрица, содержащая векторные представления (эмбеддинги) для каждого элемента, полученная в результате факторизации Co-interaction Matrix.
First Item Type Interaction History (История взаимодействий с элементами первого типа): Логи взаимодействий пользователя с определенной категорией элементов (например, история бронирования отелей).
Geographic Bias (Географическая предвзятость): Смещение в данных, вызванное тем, что выбор элемента часто ограничен местоположением (например, пользователи выбирают отель в городе назначения). Это приводит к тому, что эмбеддинги элементов из одного региона становятся искусственно ближе друг к другу.
Greatest Contributing Factor (Наибольший фактор вклада): Конкретное прошлое действие пользователя или предпочтение, которое оказало наибольшее влияние на высокую оценку сходства (Similarity Value) для данного результата. Используется для объяснения рекомендации.
Item Embedding (Эмбеддинг элемента): Плотный вектор чисел с плавающей запятой, представляющий скрытые характеристики элемента в низкоразмерном пространстве. Элементы со схожими паттернами взаимодействия имеют близкие эмбеддинги.
Matrix Factorization (Факторизация матрицы): Метод машинного обучения, используемый для разложения разреженной Co-interaction Matrix на более плотные низкоразмерные матрицы (эмбеддинги), выявляя скрытые факторы.
Similarity Value (Значение сходства): Метрика, определяющая близость между User Embedding и Item Embedding. Часто используется косинусное расстояние (Cosine Similarity).
User Embedding (Эмбеддинг пользователя): Векторное представление предпочтений пользователя, обычно вычисляемое на основе Item Embeddings тех элементов, с которыми пользователь взаимодействовал в прошлом.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод оптимизации отображения элементов.

Система анализирует истории взаимодействий (Interaction Histories) множества пользователей с элементами определенного типа.
Генерируется Co-interaction Matrix, где значения показывают, сколько пользователей взаимодействовали с парой элементов.
Генерируется Embeddings Matrix, из которой извлекаются Item Embedding Values для каждого элемента.
Для конкретного пользователя генерируется User Embedding Value на основе его личной истории взаимодействий.
При получении запроса на отображение списка элементов (поиск):
1. Идентифицируются элементы-кандидаты.
2. Вычисляются Similarity Values между User Embedding и Item Embedding каждого кандидата.
3. Элементы ранжируются на основе этих Similarity Values.
Отображается оптимизированный (персонализированный) список, где наиболее схожий элемент находится на первой позиции.

Claim 2 (Зависимый от 1): Детализирует процесс аугментации матрицы.

Система может получать дополнительные данные о взаимодействиях «второго рода» и дополнять ими Co-interaction Matrix. Это позволяет бороться с разреженностью данных. Например, если взаимодействия «первого рода» — это бронирования, то «второго рода» могут быть клики или просмотры.

Claim 3 (Зависимый от 1): Описывает метод нормализации для устранения географической предвзятости (Geographic Bias).

Идентифицируются географически близкие Item Embeddings.
Вычисляется среднее значение эмбеддинга (Average Item Embedding Value) для этой группы.
Каждый Item Embedding в группе модифицируется на основе этого среднего значения (по сути, из эмбеддинга элемента вычитается вклад его местоположения).

Claim 5 (Зависимый от 1): Описывает механизм объяснения рекомендаций.

Для каждого Similarity Value определяется Greatest Contributing Factor (наибольший фактор вклада) на основе истории пользователя. Этот фактор отображается вместе с результатом поиска (например, «Потому что вы останавливались в Отеле X»).

Где и как применяется

Изобретение затрагивает этапы индексирования (в части предобработки данных) и ранжирования/переранжирования для обеспечения персонализации.

INDEXING – Индексирование и извлечение признаков (Предобработка)
Основная часть работы происходит офлайн. Система агрегирует Interaction Histories, генерирует Co-interaction Matrix, выполняет Matrix Factorization и создает базу данных Item Embeddings. Это ресурсоемкий процесс предобработки данных.

QUNDERSTANDING – Понимание Запросов (Понимание пользователя)
В момент запроса система должна понять не только текст запроса, но и предпочтения пользователя. Для этого в реальном времени (или близко к нему) генерируется User Embedding на основе его истории взаимодействий.

RANKING / RERANKING – Ранжирование и Переранжирование
На этапе ранжирования или переранжирования система вычисляет Similarity Values между User Embedding и Item Embeddings кандидатов. Эти значения используются как сильный сигнал персонализации для определения финального порядка выдачи.

Входные данные:

(Офлайн) Агрегированные истории взаимодействий всех пользователей.
(Офлайн, опционально) Метаданные элементов (цена, рейтинг, категория).
(Онлайн) История взаимодействий текущего пользователя.
(Онлайн) Список элементов-кандидатов, релевантных запросу.
(Онлайн) База данных Item Embeddings.

Выходные данные:

(Офлайн) База данных Item Embeddings.
(Онлайн) Персонализированный ранжированный список элементов с Similarity Values и, опционально, объяснениями (Greatest Contributing Factor).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на вертикальный поиск, где предпочтения пользователя играют ключевую роль: Google Hotels, Google Flights, Google Shopping (eCommerce), рекомендации видео (YouTube), локальный поиск (рестораны). Меньшее влияние на общий веб-поиск по информационным запросам.
Специфические запросы: Влияет на запросы, где возможна персонализация — пользователь должен быть идентифицирован (например, залогинен) и иметь достаточную историю взаимодействий.

Когда применяется

Условия применения: Алгоритм применяется, когда система располагает достаточным объемом данных о взаимодействиях (как агрегированных для генерации Item Embeddings, так и персональных для генерации User Embedding).
Триггеры активации: Активируется при обработке поисковых запросов в соответствующих вертикалях (Hotels, Shopping и т.д.) для предоставления персонализированной выдачи.

Пошаговый алгоритм

Процесс А: Офлайн генерация эмбеддингов элементов (Preprocessing)

Сбор данных: Агрегация Interaction Histories (бронирования, клики, покупки, пребывания) от множества пользователей.
Генерация Co-interaction Matrix: Построение матрицы, показывающей, как часто пользователи взаимодействуют с парами элементов.
Аугментация матрицы (Опционально): Дополнение матрицы данными о взаимодействиях другого типа или метаданными элементов (цена, рейтинг) для уменьшения разреженности.
Факторизация матрицы: Применение Matrix Factorization к Co-interaction Matrix для получения плотных векторов — Item Embeddings.
Нормализация (Опционально): Корректировка Item Embeddings для устранения смещений, например, Geographic Bias (путем вычитания среднего эмбеддинга региона).
Хранение: Сохранение готовых Item Embeddings в базе данных.

Процесс Б: Онлайн персонализированное ранжирование (Real-time)

Получение запроса и отбор кандидатов: Идентификация элементов, соответствующих запросу пользователя.
Генерация User Embedding: Вычисление User Embedding на основе его истории взаимодействий. Например, расчет среднего или взвешенного среднего значения эмбеддингов элементов, с которыми он взаимодействовал.
Расчет сходства: Вычисление Similarity Values (например, Cosine Similarity) между User Embedding и Item Embedding каждого кандидата.
Ранжирование: Сортировка кандидатов на основе полученных Similarity Values.
Генерация объяснений (Опционально): Определение Greatest Contributing Factor для топовых результатов.
Отображение: Предоставление пользователю персонализированной выдачи.

Какие данные и как использует

Данные на входе

Основной фокус патента — на использовании поведенческих данных.

Поведенческие факторы (Ключевые): Interaction History. Это ядро системы. Включает: бронирования, покупки, клики по результатам, поисковые запросы, просмотры отзывов. Также может включать пребывания (stays), определенные по данным локации.
Географические факторы: Данные о местоположении пользователя (для определения пребываний) и местоположении элементов (используются для Geographic Bias Normalization).
Контентные/Метаданные (Опционально): Метаданные элементов (звездность отеля, цена, категория, идентификатор сети) могут использоваться для аугментации Co-interaction Matrix.
Пользовательские факторы (Опционально): Явно указанные предпочтения пользователя (ценовая категория, домашний ZIP-код, стиль путешествий) также могут использоваться для аугментации.

Какие метрики используются и как они считаются

Co-interaction Count: Прямой подсчет количества пользователей, взаимодействовавших с двумя элементами.
Item Embedding Vector: Результат применения алгоритма Matrix Factorization к Co-interaction Matrix.
User Embedding Vector: Вычисляется как агрегация (например, среднее или взвешенное по времени среднее) Item Embeddings из истории пользователя.
Similarity Value: Рассчитывается с использованием метрики расстояния, например, Cosine Similarity, между User Embedding и Item Embedding.
Contribution Score: Метрика, используемая для определения, какое прошлое действие пользователя внесло наибольший вклад в итоговый Similarity Value (используется для Greatest Contributing Factor).

Выводы

Персонализация через коллаборативную фильтрацию: Патент детально описывает механизм коллаборативной фильтрации («пользователи, похожие на вас, также интересовались X»), реализованный через технологию эмбеддингов. Это ключевой метод персонализации в вертикальном поиске Google.
Поведенческие сигналы как основа ранжирования: Ранжирование в таких вертикалях, как Shopping или Hotels, в значительной степени определяется паттернами взаимодействия пользователей, а не только текстовой релевантностью или ссылками. Item Embeddings формируются на основе того, КТО и КАК взаимодействует с элементом.
Решение проблемы разреженности данных (Sparsity): Система предусматривает методы борьбы с нехваткой данных (например, для новых или непопулярных элементов) путем аугментации Co-interaction Matrix с помощью различных типов взаимодействий (клики помимо бронирований) и метаданных (цена, категория).
Коррекция смещений (Bias Correction): Патент явно указывает на необходимость коррекции смещений в эмбеддингах, таких как Geographic Bias. Это свидетельствует о высоком уровне проработки алгоритма, стремящегося выделить чистые предпочтения пользователя, а не артефакты данных.
Объяснимость рекомендаций (Explainable AI): Система включает компонент для генерации объяснений (Greatest Contributing Factor), что повышает прозрачность персонализированной выдачи для пользователя.

Практика

Best practices (это мы делаем)

Этот патент описывает внутренние механизмы персонализированного ранжирования, в основном в вертикалях Google (Hotels, Shopping). Прямое манипулирование эмбеддингами затруднено, но понимание механизма позволяет оптимизировать стратегию.

Оптимизация под Взаимодействие (Clicks и Conversions): Поскольку Interaction History является основой для формирования эмбеддингов, критически важно оптимизировать сниппеты (листинги товаров/отелей) для достижения высокого CTR и последующей конверсии. Позитивные взаимодействия укрепляют Item Embedding и его ассоциацию с целевой аудиторией.
Анализ конкурентной среды через призму аудитории: Элементы группируются (в пространстве эмбеддингов) на основе того, кто с ними взаимодействует. Стратегическая задача — добиться того, чтобы ваш элемент находился в кластере с высококачественными и популярными элементами вашей ниши. Это достигается привлечением схожей аудитории.
Обеспечение точности метаданных (для аугментации): Убедитесь, что все метаданные (цена, категория, атрибуты, наличие) передаются точно и полно. Эти данные могут использоваться для аугментации Co-interaction Matrix, что особенно важно для новых или менее популярных элементов (решение проблемы «холодного старта»).
Стимулирование повторных взаимодействий и лояльности: User Embeddings основаны на истории. Поощрение пользователей к повторному взаимодействию с вашим брендом/элементами усиливает их персональную аффилированность с вашими предложениями в рамках этой системы.

Worst practices (это делать не надо)

Генерация фейковых взаимодействий или накрутка кликов: Низкокачественные или мошеннические взаимодействия приведут к тому, что Item Embedding будет ассоциироваться с низкокачественными User Embeddings (ботами, нецелевой аудиторией), что ухудшит ранжирование в персонализированной выдаче для реальных клиентов.
Игнорирование User Experience после клика: Если пользователи кликают на ваш результат, но не конвертируются или быстро уходят, этот паттерн взаимодействия формирует Item Embedding, который будет проигрывать конкурентам, у которых пользователи успешно завершают задачу.

Стратегическое значение

Патент подтверждает стратегический фокус на понимании сущностей (Entity-based understanding) и глубокой персонализации. В конкурентных вертикалях успех зависит от того, насколько характеристики элемента соответствуют предпочтениям пользователя, что часто важнее традиционных SEO-факторов. Это подчеркивает, что поведенческие сигналы и данные о взаимодействиях являются первостепенными факторами ранжирования в персонализированном поиске.

Практические примеры

Сценарий: Оптимизация листинга отеля в Google Hotels

Анализ: SEO-специалист анализирует конкурентов, которые стабильно ранжируются выше в персонализированных поисках. Он предполагает, что эти конкуренты привлекают бизнес-путешественников.
Действие (Привлечение целевых взаимодействий): Специалист обновляет метаданные отеля, акцентируя внимание на бизнес-удобствах (высокоскоростной Wi-Fi, конференц-залы), и запускает таргетированную рекламу для привлечения аналогичной аудитории.
Результат (Изменение Эмбеддинга): По мере того как больше бизнес-путешественников взаимодействуют (кликают/бронируют) с отелем, его Item Embedding смещается ближе к другим бизнес-отелям в векторном пространстве.
Эффект на Ранжирование: Отель начинает ранжироваться выше в персонализированной выдаче для пользователей, чей User Embedding указывает на предпочтение деловых поездок.

Вопросы и ответы

Что такое «Co-interaction Matrix» и как она используется?

Co-interaction Matrix — это матрица, где строки и столбцы представляют элементы (например, отели или товары). Значение на пересечении Элемента А и Элемента Б показывает, сколько пользователей взаимодействовали с обоими элементами. Эта матрица является входными данными для алгоритма Matrix Factorization, который выявляет скрытые связи между элементами на основе общего поведения пользователей.

В чем разница между «Item Embedding» и «User Embedding»?

Item Embedding — это векторное представление элемента (товара, отеля), которое отражает его скрытые характеристики, выведенные из поведения пользователей. User Embedding — это векторное представление предпочтений пользователя. Он обычно рассчитывается как агрегация (например, среднее значение) эмбеддингов тех элементов, с которыми пользователь взаимодействовал в прошлом.

Как этот патент влияет на SEO для Google Shopping или Google Hotels?

Он имеет прямое влияние, показывая, что ранжирование сильно зависит от персонализации, основанной на поведении. Для успеха необходимо не просто оптимизировать тексты под запросы, а гарантировать, что ваш товар или отель привлекает целевую аудиторию и обеспечивает позитивное взаимодействие (клики, конверсии). Это формирует качественный Item Embedding, который будет хорошо ранжироваться для похожих пользователей.

Могу ли я напрямую повлиять на Item Embedding моего продукта?

Напрямую изменить вектор нельзя, но можно повлиять на данные, которые его формируют. Привлекая качественный трафик, который хорошо конвертируется и позитивно взаимодействует с вашим продуктом, вы улучшаете паттерны взаимодействия. Это приводит к тому, что Item Embedding вашего продукта смещается ближе к эмбеддингам других качественных продуктов, привлекающих схожую аудиторию.

Патент упоминает «Geographic Normalization». Что это значит?

Это процесс устранения географической предвзятости в данных. В туризме люди часто ищут отели в одном городе, что делает эмбеддинги отелей этого города искусственно похожими. Нормализация «вычитает» влияние местоположения из эмбеддинга, позволяя системе сравнивать отели на основе их реальных характеристик и предпочтений пользователей, а не только по факту нахождения в одном городе.

Как именно Google рассчитывает User Embedding?

Патент предлагает несколько методов. Наиболее распространенный — это вычисление среднего значения (average hotel embedding) всех элементов, с которыми пользователь взаимодействовал. Также может использоваться взвешенное среднее (weighted average), где более свежим взаимодействиям придается больший вес.

Работает ли эта система, если пользователь не вошел в аккаунт Google?

Патент фокусируется на использовании Interaction History, которая обычно привязана к аккаунту пользователя. Для работы системы требуется идентификация пользователя и доступ к истории его взаимодействий. Если пользователь не залогинен и его история недоступна, применение этого конкретного механизма персонализации невозможно.

Как система обрабатывает новые продукты, у которых нет истории взаимодействий (проблема «холодного старта»)?

Патент предлагает метод аугментации (Augmentation) матрицы (Block 520). Система может дополнять Co-interaction Matrix метаданными элемента (рейтинг, цена, категория, бренд). Это позволяет новым элементам наследовать характеристики схожих элементов на основе метаданных, пока не накопится достаточно данных о взаимодействиях.

Что такое «Matrix Factorization» в контексте этого патента?

Это математический процесс разложения большой и разреженной Co-interaction Matrix на две меньшие и более плотные матрицы. Этот процесс позволяет перейти от прямых связей (кто купил А и Б) к выявлению скрытых факторов и характеристик, которые и фиксируются в виде эмбеддингов.

Что означает объяснение «Greatest Contributing Factor» для пользовательского опыта?

Это функция объяснимости (Explainable AI). Она показывает пользователю, почему ему рекомендован данный результат (например, «Потому что вы искали Отель X»). Это повышает прозрачность работы алгоритмов персонализации и может увеличить доверие пользователя к рекомендациям.