Как Google использует эмбеддинги для генерации и рекомендации целых категорий контента на основе интересов пользователя и контекста запроса

Google патентует систему для рекомендации целых категорий контента (например, «Рецепты барбекю»), а не только отдельных страниц. Система создает «Эмбеддинги Категорий», агрегируя эмбеддинги топовых результатов поиска по названию этой категории. Затем эти категории рекомендуются пользователям, чьи персональные интересы или текущий запрос близки к эмбеддингу категории в латентном пространстве.

Описание

Какую задачу решает

Патент решает проблему ограниченности традиционных рекомендательных систем. Стандартные системы предлагают элементы (например, веб-страницы), очень похожие на те, с которыми пользователь уже взаимодействовал, что ограничивает возможность исследования новых тем. Цель изобретения — расширить охват рекомендаций, предлагая целые категории (семейства) элементов, основываясь как на неявных (Implicit Feedback, история взаимодействий), так и на явных (текущий запрос) данных.

Что запатентовано

Запатентована система рекомендации категорий, основанная на векторном поиске. Суть изобретения заключается в методе создания Category Embeddings (векторных представлений категорий) путем агрегации Item Embeddings (векторных представлений элементов внутри категории). Рекомендации формируются путем поиска ближайших Category Embeddings к User Embedding (вектору интересов пользователя) и/или Query Embedding (вектору текущего запроса) в общем латентном пространстве.

Как это работает

Система работает в двух режимах:

Офлайн-режим (Offline Mode): Система создает Category Embeddings. Для этого она берет название категории (например, «Рецепты барбекю»), использует его как запрос к поисковой системе, получает Топ-N результатов (элементов), извлекает их Item Embeddings и агрегирует (например, усредняет или вычисляет медиану) их. Полученный вектор становится эмбеддингом этой категории.
Режим обслуживания (Serving Mode): В ответ на действия пользователя система генерирует User Embedding и/или Query Embedding. Затем вычисляется показатель сходства (Similarity Score) между этими векторами и предварительно рассчитанными Category Embeddings. Категории с наивысшим показателем сходства рекомендуются пользователю (например, в блоке «Связанные запросы» или Google Discover).

Актуальность для SEO

Высокая. Патент опубликован в 2024 году и описывает архитектуру, полностью соответствующую современному вектору развития информационного поиска в сторону векторного поиска (Vector Search) и использования нейронных сетей (например, Dual Encoder) для генерации эмбеддингов. Это актуальный подход к построению масштабируемых рекомендательных систем.

Важность для SEO

Патент имеет существенное значение (7.5/10). Он не описывает алгоритмы основного ранжирования, но критически важен для понимания того, как Google концептуализирует темы и категории. Он раскрывает конкретный механизм: семантическое значение категории определяется эмбеддингами топовых результатов поиска по названию этой категории. Для SEO это подчеркивает важность доминирования в выдаче по категорийным запросам для влияния на то, как Google «понимает» и рекомендует эту категорию.

Детальный разбор

Термины и определения

Category Embedding (Эмбеддинг категории): Векторное представление категории. Генерируется офлайн путем агрегации Item Embeddings элементов, принадлежащих этой категории.
Dual Encoder (Двойной кодировщик / Two-Tower Model): Архитектура нейронной сети, упомянутая как возможный способ генерации эмбеддингов пользователей и элементов/запросов в общем латентном пространстве на основе данных об их взаимодействии.
Implicit Item Feedback (Неявная обратная связь по элементам): Данные о взаимодействии пользователя с элементами (клики, просмотры, время просмотра), которые используются для обучения моделей и генерации эмбеддингов.
Item Embedding (Эмбеддинг элемента): Векторное представление отдельного элемента (например, веб-страницы, товара, видео).
Latent Space (Латентное пространство / Embedding Space): Многомерное векторное пространство, в которое проецируются эмбеддинги. В этом пространстве схожие сущности (пользователи, запросы, категории, элементы) расположены близко друг к другу.
Offline Mode (Офлайн-режим): Этап предварительной обработки, на котором генерируются Category Embeddings.
Query Embedding (Эмбеддинг запроса): Векторное представление поискового запроса пользователя. Отражает текущий контекст поиска.
Serving Mode (Режим обслуживания): Этап реального времени, на котором система выбирает и ранжирует категории для рекомендации пользователю.
Similarity Score (Показатель сходства): Метрика, определяющая близость между двумя эмбеддингами в латентном пространстве. Часто используется скалярное произведение (inner product) или косинусное сходство (cosine similarity).
User Embedding (Эмбеддинг пользователя): Векторное представление пользователя, отражающее его интересы и предпочтения. Основано на истории его взаимодействий и характеристиках.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод рекомендации категорий.

Генерация множества Category Embeddings. Для каждой категории-кандидата:
- Выбирается подмножество Item Embeddings, соответствующих этой категории.
- Эти Item Embeddings агрегируются для создания Category Embedding.
Выбор набора категорий на основе сходства между их Category Embeddings и, по крайней мере, одним из: User Embedding или Query Embedding.
Предоставление выбранного набора категорий для отображения на устройстве пользователя.

Claim 2 (Зависимый от 1): Детализирует процесс выбора на основе Query Embedding (неперсонализированная, контекстная рекомендация).

Система вычисляет Similarity Scores между Query Embedding и всеми Category Embeddings, ранжирует их и выбирает лучшие категории с наивысшими оценками.

Claim 5 (Зависимый от 1): Детализирует процесс выбора на основе User Embedding (персонализированная рекомендация).

Система вычисляет Similarity Scores между User Embedding (полученным из данных пользователя или его взаимодействий) и всеми Category Embeddings, ранжирует и выбирает лучшие категории с наивысшими оценками.

Claim 8 и 12 (Зависимые от 1): Описывают двухэтапный процесс выбора с использованием и Query Embedding, и User Embedding (персонализированная контекстная рекомендация).

Вычисление первых Similarity Scores на основе одного эмбеддинга (например, Query Embedding — Claim 8, или User Embedding — Claim 12).
Выбор промежуточного набора категорий (Топ-K) с наивысшими первыми оценками (Фильтрация).
Вычисление вторых Similarity Scores на основе второго эмбеддинга (User или Query) для этого промежуточного набора (Переранжирование). (Примечание: В тексте Claim 8 есть потенциальная неточность, указывающая на повторное использование query embedding на этом шаге, но логика Claims 8 и 12 в целом описывает двухэтапный процесс с использованием обоих эмбеддингов).
Генерация финального набора путем выбора категорий с наивысшими ранжированными промежуточными эмбеддингами.

Claim 14 (Зависимый от 1): Уточняет метод агрегации.

Агрегация Item Embeddings может включать вычисление медианы (median) эмбеддингов, соответствующих категории.

Claim 15 и 16 (Зависимые от 1): Описывают, как определяются элементы, принадлежащие категории (Критически важно для SEO).

Процесс получения элементов для категории включает использование идентификатора (названия) этой категории в качестве поисковой строки (search string) для ввода в поисковую систему. Результаты, выданные поисковой системой, формируют список элементов, чьи эмбеддинги затем агрегируются.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, фокусируясь на генерации рекомендаций (например, «Related Searches» или Google Discover).

INDEXING – Индексирование и извлечение признаков
На этом этапе генерируются и сохраняются Item Embeddings для всех элементов (веб-страниц). Также собираются данные о взаимодействиях (Implicit Feedback) для генерации User Embeddings.

QUNDERSTANDING – Понимание Запросов (и Контента)
Этот этап включает как офлайн-, так и онлайн-процессы:

Офлайн (Offline Mode): Происходит генерация Category Embeddings. Система использует поисковый индекс для нахождения Топ-N элементов и агрегирует их Item Embeddings. Это процесс моделирования пространства тем и категорий.
Онлайн (Serving Mode): В реальном времени генерируются Query Embedding для текущего запроса и извлекается/генерируется User Embedding.

RANKING / RERANKING – Ранжирование и Переранжирование (в контексте рекомендаций)
Основное применение патента. Система выполняет векторный поиск (Vector Search) для нахождения ближайших Category Embeddings к текущему User/Query Embedding. Происходит расчет Similarity Scores и ранжирование (и, возможно, двухэтапное переранжирование) категорий.

METASEARCH – Метапоиск и Смешивание
Выбранные категории интегрируются в финальную выдачу (SERP) в виде рекомендательных блоков.

Входные данные (Офлайн):

Кандидатские категории (Candidate Categories).
База данных Item Embeddings.
Доступ к поисковому индексу.

Выходные данные (Офлайн):

База данных Category Embeddings.

Входные данные (Онлайн):

Текущий запрос пользователя (Query).
Характеристики пользователя (User Features).
База данных Category Embeddings.

Выходные данные (Онлайн):

Отранжированный набор рекомендованных категорий (Selected Category Data).

На что влияет

Конкретные типы контента: Наибольшее влияние на сайты с четкой структурой и иерархией (E-commerce, сайты рецептов, новостные порталы, образовательные ресурсы), где контент легко категоризируется.
Специфические запросы: Влияет на информационные и исследовательские запросы, где пользователю может потребоваться уточнение интента или расширение темы.
Форматы выдачи: Влияет на формирование блоков «Связанные запросы» (Related Searches), фильтров, рекомендательных каруселей и лент (Google Discover).

Когда применяется

Условия применения: Алгоритм применяется при необходимости сгенерировать рекомендации категорий. Это может происходить при загрузке поисковой выдачи или при обновлении персонализированной ленты.
Вариативность (Режимы работы): Система выбирает режим в зависимости от доступных данных:
- Только по запросу (Queried): Если нет данных о пользователе. Используется Query Embedding.
- Только по пользователю (Personalized): Если нет запроса (например, Discover). Используется User Embedding.
- Комбинированный режим: Если есть и то, и другое. Используется двухэтапное ранжирование.

Пошаговый алгоритм

Процесс А: Офлайн-генерация эмбеддингов категорий (Offline Mode)

Определение кандидатов: Формируется список категорий-кандидатов (например, «Рецепты барбекю»).
Поиск элементов категории (Критический шаг): Название каждой категории используется как поисковый запрос к основной поисковой системе.
Ранжирование и выбор элементов: Полученные результаты поиска ранжируются, и выбирается Топ-N наиболее релевантных элементов для этой категории.
Извлечение эмбеддингов элементов: Для выбранных Топ-N элементов извлекаются их предварительно рассчитанные Item Embeddings.
Агрегация: Подмножество Item Embeddings агрегируется (усредняется, вычисляется медиана, взвешенное среднее и т.д.) для получения единого вектора.
Сохранение: Полученный вектор сохраняется как Category Embedding для данной категории.

Процесс Б: Рекомендация категорий в реальном времени (Serving Mode)

Получение входных данных: Система получает текущий запрос и/или данные о пользователе.
Генерация эмбеддингов: Генерируются Query Embedding и/или User Embedding в том же латентном пространстве.
Вычисление сходства (Этап 1 — Фильтрация): Вычисляются Similarity Scores между одним из контекстных эмбеддингов (например, Query Embedding) и всеми Category Embeddings.
Выбор Топ-К: Выбирается K категорий с наивысшими показателями сходства (промежуточный набор).
Переранжирование (Этап 2 — Опционально): Если используется комбинированный режим, Топ-К категорий переранжируются на основе их сходства со вторым контекстным эмбеддингом (например, User Embedding). Если используется только один эмбеддинг, этот шаг пропускается.
Предоставление результатов: Финальный отранжированный список категорий отправляется для отображения пользователю.

Какие данные и как использует

Данные на входе

Система использует несколько ключевых типов данных для обучения моделей и генерации эмбеддингов:

Поведенческие факторы (Implicit Feedback): Данные о взаимодействии пользователей с элементами (user-item interactions). Это основа для обучения моделей (например, Dual Encoder), которые генерируют Item и User Embeddings так, чтобы часто взаимодействующие пары находились близко в Latent Space.
Контентные факторы (Неявно): Содержание элементов используется для генерации Item Embeddings.
Пользовательские факторы (User Features): Явные (настройки профиля) и неявные (геолокация, история кликов) данные о пользователе, используемые для генерации User Embedding.
Запросные факторы (Query Data): Текст запроса (или другие данные, например, изображение), используемый для генерации Query Embedding.
Системные данные: Результаты ранжирования основной поисковой системы используются в Офлайн-режиме для определения Топ-N элементов категории.

Какие метрики используются и как они считаются

Similarity Score (Показатель сходства): Основная метрика для ранжирования категорий. Рассчитывается как мера близости в Latent Space. Конкретные методы включают:
- Скалярное произведение (Inner Product).
- Косинусное сходство (Cosine Similarity).
Методы агрегации: Используются для создания Category Embedding из множества Item Embeddings. Упомянуты:
- Среднее арифметическое (Arithmetic Mean).
- Медиана (Median) (Claim 14).
- Взвешенное среднее (Weighted Average).
- Нормализованные версии (среднее/сумма/медиана).
Алгоритмы машинного обучения: Упоминается использование Dual-encoder (two-tower model) архитектуры для генерации эмбеддингов.
Пороги (Top-N и Top-K):
- Top-N: Количество элементов, выбираемых для определения категории в офлайн-режиме.
- Top-K: Количество категорий, выбираемых для рекомендации или для перехода на этап переранжирования в онлайн-режиме.

Выводы

Определение категории зависит от Топа выдачи (Критически важно для SEO): Механизм создания Category Embedding (Claim 15, 16) основан на агрегации эмбеддингов Топ-N результатов, которые поисковая система возвращает по запросу, равному названию категории. Семантическое значение категории для Google определяется контентом лидеров выдачи по этому запросу.
Релевантность как близость в Latent Space: Рекомендации основаны на векторном поиске. Категория будет рекомендована, если ее эмбеддинг находится близко к эмбеддингу запроса или пользователя. Традиционное совпадение ключевых слов не является определяющим фактором.
Критичность качества Item Embeddings и Implicit Feedback: Качество рекомендаций напрямую зависит от качества базовых Item Embeddings. Они должны точно отражать семантику контента и интересы пользователей, что достигается за счет обучения на данных о неявной обратной связи (Implicit Item Feedback).
Гибкая балансировка контекста и персонализации: Система может работать в трех режимах (User, Query или Комбинированный). В комбинированном режиме используется двухэтапное ранжирование (например, фильтрация по запросу, переранжирование по пользователю) для балансировки актуальности и долгосрочных интересов.
Рекомендации как средство исследования: Цель системы — предложить пользователю более широкие темы, выходя за рамки его текущих прямых взаимодействий, решая проблему узости традиционных рекомендаций.

Практика

Best practices (это мы делаем)

Доминирование по категорийным (топиковым) запросам: Это ключевая стратегия, вытекающая из Claims 15 и 16. Необходимо добиться высокого ранжирования по запросам, которые являются названиями ключевых категорий в вашей нише. Если ваш контент входит в Топ-N по запросу «Рецепты барбекю», он будет формировать Category Embedding для этой темы, увеличивая вероятность его рекомендации через связанные поиски или Discover.
Усиление тематической кластеризации (Topical Authority): Создавайте контент, который формирует плотный семантический кластер. Если все элементы категории тесно связаны между собой в векторном пространстве, агрегированный Category Embedding будет более четким и с большей вероятностью будет соответствовать релевантным запросам и интересам пользователей.
Оптимизация Item Embeddings через вовлечение: Так как эмбеддинги обучаются на Implicit Item Feedback, необходимо максимизировать положительные сигналы взаимодействия пользователей с контентом (время на сайте, низкий показатель отказов). Это улучшает качество Item Embeddings и, как следствие, повышает шансы на рекомендацию связанных категорий.
Анализ SERP для понимания категории: Регулярно анализируйте Топ-N выдачи по категорийным запросам. Это даст понимание того, какой контент Google использует для формирования Category Embedding в вашей нише, и позволит скорректировать стратегию, чтобы семантически соответствовать этому набору.

Worst practices (это делать не надо)

Создание разрозненного контента в одной категории: Размещение семантически далеких друг от друга элементов в одной категории приведет к «размыванию» Category Embedding. Агрегированный вектор не будет соответствовать конкретным запросам.
Игнорирование ‘Head Terms’ (ВЧ-запросов): Фокусировка только на long-tail запросах без работы над ранжированием по основным категорийным запросам приведет к тому, что ваш контент не будет учитываться при формировании Category Embeddings.
Создание семантически размытого контента: Контент без четкого фокуса получит «шумный» Item Embedding, что затруднит его кластеризацию и использование для формирования четких Category Embeddings.
Фокус исключительно на ключевых словах: Эта система работает на уровне семантического сходства в векторном пространстве. Переоптимизация текста ключевыми словами не поможет, если семантика контента не соответствует категории.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на использование векторного поиска и машинного обучения для понимания контента и интента за пределами ключевых слов. Он демонстрирует переход от анализа отдельных элементов к пониманию целых категорий на семантическом уровне. Долгосрочная SEO-стратегия должна быть направлена на построение авторитетности в рамках четко определенных тематических категорий, а влияние на категорию напрямую зависит от способности доминировать в стандартной поисковой выдаче по запросам, определяющим эту категорию.

Практические примеры

Сценарий: Усиление влияния сайта рецептов на категорию «Здоровое питание»

Анализ (Offline Mode Simulation): SEO-специалист анализирует Топ-20 результатов по запросу «Здоровое питание». Он видит, какой контент сейчас формирует Category Embedding этой темы.
Цель: Внедрить контент сайта в набор Топ-N, чтобы повлиять на Category Embedding «Здоровое питание».
Действия:
1. Создается мощная хабовая страница «Здоровое питание: Принципы, Меню и Рецепты», оптимизированная под этот ВЧ-запрос.
2. Проводится работа по усилению авторитетности сайта в этой теме (E-E-A-T, ссылочное продвижение хаба) для достижения Топ-N.
Результат (Offline Mode Google): Хабовая страница попадает в Топ-10. При следующем обновлении Category Embeddings, Item Embedding этой страницы участвует в агрегации.
Эффект (Serving Mode Google): Пользователи, чьи User Embeddings близки к тематике рецептов или ЗОЖ, начнут чаще видеть рекомендацию категории «Здоровое питание» (например, в Discover или Related Searches), так как ее обновленный эмбеддинг стал ближе к их интересам и отражает контент оптимизированного сайта.

Вопросы и ответы

Как именно создается эмбеддинг категории (Category Embedding)?

Это ключевой момент патента (Claims 15, 16). Система берет название категории (например, «Итальянская кухня») и использует его как поисковый запрос в основной поисковой системе. Затем она берет Топ-N результатов поиска, извлекает их Item Embeddings и агрегирует их (например, вычисляет среднее или медиану). Этот агрегированный вектор и становится Category Embedding для «Итальянской кухни».

Что это означает для моей контент-стратегии и SEO?

Это имеет критическое значение. Если вы хотите, чтобы Google ассоциировал ваш сайт с определенной категорией или влиял на то, как Google семантически понимает эту категорию, ваш контент должен входить в Топ-N результатов поиска по названию этой категории. Доминирование в выдаче по категорийным запросам напрямую формирует ваше участие в этой рекомендательной системе.

Описывает ли этот патент основной алгоритм ранжирования Google (Core Ranking)?

Нет, этот патент не описывает ранжирование веб-страниц. Он описывает специализированную систему для рекомендации категорий. Эта система, скорее всего, используется в блоках типа «Related Searches» (Связанные запросы) или в рекомендательных лентах, таких как Google Discover, для помощи пользователям в исследовании тем.

Что такое Latent Space и почему важно, что все эмбеддинги находятся в нем?

Latent Space — это многомерное пространство, где семантически похожие сущности расположены близко друг к другу. Размещение User, Query, Item и Category Embeddings в одном пространстве позволяет системе использовать простые математические операции (например, скалярное произведение) для быстрого вычисления сходства между ними, что позволяет мгновенно оценить релевантность.

Система использует только персонализацию (User Embedding) для рекомендаций?

Нет, система гибкая. Она может работать в трех режимах: только на основе текущего запроса (Query Embedding, контекстные рекомендации), только на основе профиля пользователя (User Embedding, персонализированные рекомендации без запроса, например, в Discover), или используя оба фактора одновременно.

Как работает комбинированный режим (User + Query)?

Патент описывает двухэтапный процесс (Claims 8, 12). Например, на Этапе 1 система может отобрать 100 категорий, наиболее релевантных текущему запросу (Query Embedding). Затем на Этапе 2 она переранжирует эти 100 категорий на основе того, насколько они соответствуют долгосрочным интересам пользователя (User Embedding). Порядок может быть и обратным.

Какой метод агрегации Item Embeddings лучше?

Патент не указывает предпочтительный метод, но перечисляет несколько вариантов: среднее, медиана (Claim 14), взвешенное среднее и их нормализованные версии. Выбор метода может зависеть от типа контента; например, медиана может быть более устойчива к выбросам (нерелевантным результатам в Топ-N).

Как я могу улучшить Item Embeddings моего контента?

Хотя патент не описывает процесс создания Item Embeddings, он упоминает, что они генерируются с помощью моделей машинного обучения (например, dual encoder), часто на основе Implicit Feedback. Для улучшения эмбеддингов необходимо фокусироваться на создании семантически четкого контента, обеспечении высокого качества (E-E-A-T) и положительного пользовательского опыта.

Влияет ли этот патент на E-E-A-T?

Прямо не влияет, но косвенно связан. Сигналы E-E-A-T помогают контенту достичь Топ-N в выдаче по категорийному запросу. Только если контент попадает в этот Топ-N, он начинает участвовать в формировании Category Embedding, описанном в этом патенте. Таким образом, E-E-A-T является необходимым условием для работы этого механизма в пользу вашего сайта.

Актуален ли этот патент, учитывая его недавнюю публикацию?

Да, патент крайне актуален (публикация 2024 год). Он описывает современные подходы к Information Retrieval, основанные на векторном поиске и эмбеддингах. Эти технологии активно используются Google для понимания контента, запросов и пользователей, что делает этот патент важным для понимания текущего состояния рекомендательных систем.