Как Google использует эмбеддинги и факторизационные модели для прогнозирования кликов по новым или редким запросам

Google решает проблему нехватки данных для ранжирования новых или редких пар запрос-документ. Вместо запоминания исторических данных система изучает скрытые признаки (эмбеддинги) отдельно для запросов и документов. Оценка релевантности вычисляется как степень сходства этих эмбеддингов (через скалярное произведение), что позволяет прогнозировать вероятность клика или другого целевого действия даже для контента, который никогда ранее не показывался по данному запросу.

Описание

Какую задачу решает

Патент решает проблему разреженности данных (data sparsity) при машинном обучении моделей ранжирования. Традиционные модели, обучаемые на наблюдаемых парах <запрос, ресурс>, хорошо запоминают исторические взаимодействия (например, клики), но плохо работают с данными, которые ранее не встречались (data not yet observed). Это ограничивает их эффективность для длинного хвоста запросов (long tail queries), новых запросов, недавно опубликованных ресурсов или любых пар, по которым нет статистики.

Что запатентовано

Запатентован метод использования факторизационных моделей (Factorization Models) для прогнозирования исхода (outcome), например, вероятности клика или установки приложения. Вместо запоминания весов для конкретных наблюдаемых пар <запрос, ресурс> (называемых в патенте tokens), система обучается выявлять скрытые (латентные) признаки и генерировать векторы признаков (эмбеддинги) отдельно для запросов и отдельно для ресурсов. Это позволяет обобщать знания и прогнозировать исход для ранее не наблюдавшихся пар.

Как это работает

Система работает путем декомпозиции (факторизации) данных о взаимодействиях. Сначала обучается стандартная модель машинного обучения на исторических данных. Затем система создает Query Feature Vector и Resource Feature Vector фиксированной размерности (cardinality). Факторизационная модель обучается так, чтобы значения этих векторов позволяли предсказать тот же исход, что и основная модель. Прогноз вычисляется как скалярное произведение (inner product) вектора запроса и вектора ресурса. Это позволяет оценить любую пару, даже если она не встречалась в обучающих данных.

Актуальность для SEO

Критически высокая. Описанный механизм (использование латентных векторов/эмбеддингов и вычисление релевантности через скалярное произведение) лежит в основе современного нейронного информационного поиска (Neural Information Retrieval). Факторизационные машины и их эволюция в виде двухбашенных нейронных сетей (Two-Tower Models) являются стандартом индустрии для задач поиска и рекомендаций.

Важность для SEO

Влияние на SEO значительное (8/10). Хотя патент описывает инфраструктурный подход к машинному обучению, он фундаментально меняет понимание того, как Google моделирует релевантность. Система уходит от запоминания конкретных сигналов к обобщению через латентные признаки (эмбеддинги). Это означает, что контент может ранжироваться не за счет прямых совпадений или исторических данных, а за счет соответствия его эмбеддинга эмбеддингу запроса, что особенно важно для ранжирования нового контента и обработки редких запросов.

Детальный разбор

Термины и определения

Cardinality (Размерность / Мощность): Фиксированное количество элементов в векторе признаков (эмбеддинге). Определяет количество латентных признаков, которые модель должна изучить.
Categorical Queries (Категорийные запросы): Запросы, охватывающие широкую тему или категорию, для которых может существовать множество результатов с похожей релевантностью.
Factorization Model (Факторизационная модель): Модель машинного обучения (например, Factorization Machine), которая изучает векторы признаков (эмбеддинги) для запросов и ресурсов таким образом, чтобы их взаимодействие предсказывало целевой исход.
Inner Product (Скалярное произведение / Внутреннее произведение): Математическая операция над двумя векторами. В контексте патента используется для вычисления оценки (score) между вектором запроса и вектором ресурса. Высокое значение указывает на сильное соответствие латентных признаков.
Learned Model / Machine Learned Model (Обученная модель): Исходная модель, обученная на наблюдаемых данных для прогнозирования исхода. Генерирует tokens для известных пар.
Navigational Queries (Навигационные запросы): Запросы, по которым конкретный ресурс имеет очень высокую частоту выбора по сравнению с другими, что указывает на намерение пользователя найти именно этот ресурс.
Outcome (Исход / Целевое действие): Событие, которое модель пытается предсказать. Примеры в патенте: вероятность клика, установка приложения (installation), покупка (purchase).
Query Feature Vector (Вектор признаков запроса): Векторное представление (эмбеддинг) запроса, содержащее изученные латентные признаки.
Resource Feature Vector (Вектор признаков ресурса): Векторное представление (эмбеддинг) ресурса (документа, приложения и т.д.), содержащее изученные латентные признаки.
Tokens (Токены): Сгенерированные обученной моделью веса (constituent weight), которые описывают признаки, извлеченные из наблюдаемой пары <запрос, ресурс>. Это результат запоминания исторических данных.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обучения факторизационной модели на основе существующей обученной модели.

Система обучает первую модель (Machine Learned Model) для прогнозирования исхода на основе набора пар <запрос, ресурс>. Обучение генерирует tokens.
Для каждого запроса создается Query Feature Vector фиксированной размерности (cardinality). Элементы вектора — это признаки, которые предстоит изучить.
Для каждого ресурса создается Resource Feature Vector той же размерности.
Система обучает Factorization Model, чтобы изучить значения для элементов этих векторов.
Обучение происходит так, чтобы выход факторизационной модели, основанный на этих векторах, предсказывал тот же исход, для которого была обучена первая модель.

Claim 2 (Зависимый от 1): Уточняет механизм прогнозирования.

Факторизационная модель предсказывает исход, основываясь на скалярном произведении (inner products) векторов признаков запроса и ресурса.

Claim 3 (Зависимый от 1): Уточняет природу признаков.

Признаки запроса и ресурса (т.е. значения в векторах) являются эмерджентными (emergent), то есть возникают в процессе обучения факторизационной модели. Это означает, что они являются латентными признаками, а не предопределенными вручную.

Claims 4 и 5 (Зависимые от 1): Описывают фильтрацию обучающих данных.

Генерация векторов признаков может происходить только для запросов, которые не являются навигационными (Claim 4), или только для запросов, которые являются категорийными (Claim 5).

Claim 6 (Зависимый от 1): Описывает механизм предварительного кэширования оценок для оптимизации.

Определяется подмножество запросов (например, самые популярные).
Для них заранее вычисляются оценки пар <запрос, ресурс> на основе скалярного произведения их векторов.
Эти оценки сохраняются в кэше поисковой системы.
При получении соответствующего запроса система извлекает предварительно вычисленные оценки из кэша.

Claim 8 (Зависимый от 1): Описывает применение модели во время ранжирования (переранжирование).

Система получает набор ресурсов, ранжированных в исходном порядке.
Для каждого ресурса определяется вероятность исхода с помощью факторизационной модели (через скалярное произведение векторов).
Ранжирование ресурсов корректируется на основе этой вероятности, формируя новый порядок.

Где и как применяется

Изобретение охватывает процессы обучения моделей (офлайн) и их применения во время обработки запроса (онлайн).

INDEXING – Индексирование и извлечение признаков
На этом этапе вычисляются и сохраняются Resource Feature Vectors (эмбеддинги ресурсов). В патенте упоминается, что векторы ресурсов могут быть токенизированы для индексирования вместе с соответствующими данными для ресурсов.

QUNDERSTANDING – Понимание Запросов
На этом этапе вычисляются или извлекаются Query Feature Vectors (эмбеддинги запросов). Векторы запросов могут храниться и извлекаться во время запроса.

RANKING – Ранжирование (Retrieval и Scoring)
Основное применение патента. Факторизационная модель используется для оценки ресурсов.

Retrieval (Отбор кандидатов L1): В тексте патента упоминается возможность использования оценок факторизационной модели для выбора начального набора ресурсов в ответ на запрос.
Scoring (Оценка L2/L3): Factorized Scoring Component использует модель для генерации оценки (query-resource score) на основе скалярного произведения векторов.

RERANKING – Переранжирование
Claim 8 явно описывает использование оценок модели для корректировки ранжирования ресурсов из исходного порядка в новый порядок.

Входные данные:

(Офлайн, для обучения): Набор пар <запрос, ресурс> и данные об исходах (например, клики) или tokens от предварительно обученной модели.
(Онлайн, для инференса): Запрос и Ресурс-кандидат.

Выходные данные:

(Офлайн): Изученные Query Feature Vectors и Resource Feature Vectors.
(Онлайн): Оценка (query-resource score), прогнозирующая вероятность исхода для данной пары.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на длинный хвост запросов (long tail), новые запросы и редкие запросы, для которых недостаточно исторических данных о взаимодействиях.
Конкретные типы контента: Влияет на новый контент (newly published resources), для которого еще нет статистики кликов (проблема «холодного старта»). Патент явно упоминает применение для ранжирования приложений (Apps) и аудиофайлов.
Конкретные ниши или тематики: Особенно актуально для вертикалей, где прогнозирование конкретного исхода критично, например, установка приложений (App Stores) или E-commerce (покупки).

Когда применяется

Условия применения: Модель может применяться для любой пары <запрос, ресурс>, для которой существуют соответствующие векторы признаков.
Особые случаи (Claim 11): Патент предлагает гибридный подход: для пар, которые наблюдались при обучении основной модели, можно использовать ее оценки (tokens). Для пар, которые не наблюдались, используются оценки факторизационной модели.
Исключения при обучении: Система может исключать Navigational Queries из обучения или фокусироваться только на Categorical Queries, чтобы улучшить качество обобщения модели.

Пошаговый алгоритм

Процесс А: Обучение модели (Офлайн)

Обучение базовой модели: Обучить модель машинного обучения для прогнозирования исхода (например, клика) на основе исторических пар <запрос, ресурс>. Модель генерирует tokens (веса) для наблюдаемых пар.
Инициализация векторов: Для каждого запроса и ресурса в обучающем наборе сгенерировать Feature Vector фиксированной размерности (cardinality).
Обучение факторизационной модели: Обучить модель (например, используя градиентный спуск) для определения значений элементов в этих векторах. Цель обучения — минимизировать разницу между прогнозируемым исходом и целевым исходом. Прогноз вычисляется как скалярное произведение векторов.
Сохранение векторов: Сохранить изученные векторы признаков запросов и ресурсов для использования поисковой системой.

Процесс Б: Применение модели во время запроса (Онлайн)

Получение запроса и кандидатов: Система получает запрос и определяет набор релевантных ресурсов (исходное ранжирование).
Извлечение векторов: Извлекается Query Feature Vector для данного запроса и Resource Feature Vectors для ресурсов-кандидатов.
Вычисление оценок: Для каждой пары <запрос, ресурс> вычисляется оценка путем расчета скалярного произведения их векторов.
Переранжирование: Исходное ранжирование корректируется на основе вычисленных оценок.
Предоставление результатов.

Процесс В: Предварительное кэширование (Оптимизация)

Выбор запросов: Определить подмножество популярных запросов.
Вычисление оценок (Офлайн): Для этих запросов и релевантных им ресурсов заранее вычислить оценки (скалярное произведение векторов).
Кэширование: Сохранить эти оценки в кэше.
Обработка запроса (Онлайн): При получении запроса из выбранного подмножества извлечь готовые оценки из кэша вместо вычисления их в реальном времени.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных о взаимодействиях, а не на анализе контента для факторизации.

Поведенческие факторы: Основные данные для обучения. Используются наблюдаемые пары <запрос, ресурс> и связанные с ними исходы (outcomes), такие как клики (из Click Logs), установки приложений, покупки.
Контекстные факторы: В описании tokens базовой модели упоминается, что они могут включать контекстные данные: страну происхождения, тип агента (браузер), местоположение, тип устройства пользователя.
Системные данные: Tokens (веса/оценки), сгенерированные предварительно обученной моделью (Learned Model).

Какие метрики используются и как они считаются

Query-Resource Score (Оценка пары Запрос-Ресурс): Основная вычисляемая метрика. Рассчитывается как скалярное произведение (inner product) между Query Feature Vector и Resource Feature Vector.
Алгоритмы машинного обучения: Используются факторизационные модели (Factorization Machines). В патенте приводится стандартное уравнение для модели факторизации степени 2, где <v_i, v_j> — это скалярное произведение вектора запроса i и вектора ресурса j.
Методы обучения: Параметры модели (значения векторов) изучаются с помощью методов градиентного спуска (gradient descent methods) для минимизации функции потерь (losses).

Выводы

Переход от запоминания к обобщению: Патент описывает критически важный механизм, позволяющий поисковой системе перейти от запоминания исторических взаимодействий (tokens) к обобщению через изучение латентных признаков (эмбеддингов). Это основа для масштабируемого и устойчивого ранжирования.
Решение проблемы «холодного старта» и длинного хвоста: Факторизационные модели позволяют генерировать прогнозы для новых или редких запросов и нового контента, по которым отсутствует статистика взаимодействий.
Эмбеддинги как основа ранжирования: Подтверждается, что векторные представления (Feature Vectors) запросов и ресурсов являются центральным элементом моделирования релевантности. Ранжирование сводится к задаче вычисления близости в векторном пространстве (inner product).
Латентная природа признаков: Признаки, используемые моделью, являются эмерджентными (emergent). Система сама определяет, какие скрытые факторы важны для прогнозирования исхода, что затрудняет обратный инжиниринг и прямую оптимизацию под них.
Эффективность вычислений: Патент учитывает производительность системы, предлагая механизмы предварительного кэширования оценок для популярных запросов, чтобы снизить нагрузку во время обработки запроса.

Практика

Best practices (это мы делаем)

Фокус на удовлетворении латентных потребностей и интента: Понимайте, что система пытается сопоставить латентные признаки вашего контента с латентными признаками запроса. Создавайте контент, который глубоко прорабатывает тему и отвечает на связанные вопросы, чтобы система сформировала точный и насыщенный эмбеддинг для вашего ресурса.
Построение тематического авторитета (Topical Authority): Обеспечьте полное покрытие кластера тем. Чем лучше система понимает контекст и семантику вашего сайта и отдельных страниц, тем более качественные Resource Feature Vectors будут сгенерированы, что повышает шансы на высокое ранжирование по широкому спектру запросов, включая длинный хвост.
Оптимизация под целевые действия (Outcomes): Поскольку модели обучаются прогнозировать исходы (клики, конверсии), важно работать над улучшением пользовательского опыта и достижением целей пользователя. Ресурсы, демонстрирующие высокую эффективность, будут лучше моделироваться системой.

Worst practices (это делать не надо)

Поверхностная оптимизация и Keyword Stuffing: Попытки манипулировать ранжированием за счет поверхностных сигналов становятся менее эффективными. Поскольку система ищет соответствие на уровне латентных признаков (эмбеддингов), простое наличие ключевых слов не гарантирует релевантности в этом векторном пространстве.
Игнорирование длинного хвоста запросов: Стратегии, сфокусированные только на высокочастотных запросах, упускают возможности. Описанная система специально разработана для улучшения ранжирования по редким и новым запросам.
Создание разрозненного контента: Публикация контента на разные темы без глубокой проработки может привести к формированию «размытых» или неточных эмбеддингов ресурсов, что затруднит их сопоставление с конкретными запросами.

Стратегическое значение

Этот патент является одним из фундаментальных документов, подтверждающих переход Google к нейронному информационному поиску (Neural IR) и использованию векторных представлений. Он закладывает основу для таких технологий, как Neural Matching, BERT и MUM. Стратегически важно понимать, что релевантность в современном поиске — это близость векторов в латентном пространстве. SEO-стратегия должна быть направлена на формирование качественных, точных и полных векторных представлений для продвигаемых ресурсов.

Практические примеры

Сценарий: Ранжирование новой страницы товара в E-commerce (Холодный старт)

Ситуация: Интернет-магазин публикует страницу нового товара. Исторических данных о кликах или покупках (tokens) по этой странице нет.
Работа стандартной модели: Традиционная модель машинного обучения не может точно предсказать вероятность покупки (outcome) из-за отсутствия данных.
Применение факторизационной модели:
- Система генерирует Resource Feature Vector (эмбеддинг) для нового товара.
- Пользователь вводит редкий запрос (например, название модели с указанием редкого цвета). Система генерирует Query Feature Vector для этого запроса.
- Система вычисляет inner product между вектором запроса и вектором нового товара.
Результат: Если латентные признаки товара хорошо соответствуют латентным признакам запроса (высокий inner product), страница товара может сразу получить высокие позиции в выдаче, несмотря на полное отсутствие исторических поведенческих данных.

Вопросы и ответы

Что такое Factorization Model и почему она важна для SEO?

Это тип модели машинного обучения, который решает проблему нехватки данных. Вместо того чтобы запоминать, какие документы кликали по каким запросам в прошлом, она изучает скрытые (латентные) характеристики запросов и документов и представляет их в виде векторов (эмбеддингов). Это позволяет системе прогнозировать релевантность даже для совершенно новых документов или запросов, что критически важно для ранжирования свежего контента и обработки длинного хвоста запросов.

Что такое «скалярное произведение» (Inner Product) в контексте ранжирования?

Скалярное (или внутреннее) произведение — это способ измерения сходства между двумя векторами. В данном случае система вычисляет его между вектором запроса и вектором документа. Чем выше результат, тем больше сходство между их латентными признаками и тем выше прогнозируемая релевантность или вероятность целевого действия (клика, покупки). Это основной механизм оценки в современных нейронных поисковых системах.

Патент говорит о прогнозировании «исходов» (Outcomes). Касается ли это только кликов (CTR)?

Нет, не только. Патент явно упоминает различные типы исходов, включая вероятность клика, вероятность установки приложения (installation) и вероятность покупки (purchase). Это означает, что Google использует эту технологию для оптимизации ранжирования под конкретные цели в разных вертикалях поиска (например, Google Play, Google Shopping) и для общего веб-поиска.

Что означает, что признаки являются «эмерджентными» (emergent) или латентными?

Это означает, что признаки не задаются инженерами вручную (например, «наличие ключевого слова в title»). Вместо этого модель сама в процессе обучения определяет, какие скрытые факторы важны для прогнозирования. Эти факторы закодированы в измерениях эмбеддинга и не всегда легко интерпретируемы человеком. Для SEO это означает, что нужно фокусироваться на качестве и глубине контента, а не на конкретных технических трюках.

Как этот патент помогает ранжироваться новому контенту?

Он решает проблему «холодного старта». Поскольку для нового контента нет исторических данных о кликах, традиционные модели испытывают трудности с его оценкой. Факторизационная модель может оценить новый контент, вычислив его эмбеддинг (Resource Feature Vector) и сравнив его с эмбеддингом запроса. Если они близки, контент может ранжироваться высоко сразу после публикации.

Почему система может исключать навигационные запросы из обучения?

Навигационные запросы (например, «facebook вход») имеют очень четкое намерение и обычно ведут на один конкретный ресурс. Включение их в обучение может исказить модель, так как она пытается изучить общие закономерности (обобщение), а не запоминать прямые связи. Исключение таких запросов помогает модели лучше фокусироваться на информационных и транзакционных запросах, где выбор релевантного результата менее очевиден.

Как я могу оптимизировать свой контент под факторизационные модели и эмбеддинги?

Невозможно оптимизировать под конкретные значения эмбеддинга напрямую, так как они латентны. Однако можно влиять на то, как система формирует эмбеддинг вашего ресурса. Для этого необходимо создавать глубокий, экспертный контент, который полностью раскрывает тему (Topical Authority), использует естественный язык и четко структурирован. Это помогает системе сформировать более точные и релевантные векторные представления.

Является ли эта технология заменой традиционным факторам ранжирования?

Она является дополнением и эволюцией. В патенте описано, что система может использовать гибридный подход: использовать исторические данные (tokens), когда они доступны, и использовать факторизационную модель, когда данных нет. Кроме того, Claim 8 описывает использование этой модели на этапе переранжирования (Reranking), то есть она корректирует результаты, полученные с помощью других алгоритмов.

Связан ли этот патент с Neural Matching или BERT?

Да, напрямую. Этот патент описывает применение факторизационных машин, что является одним из методов создания и использования эмбеддингов. Neural Matching и модели типа BERT также используют эмбеддинги для понимания семантики и релевантности. Патент демонстрирует конкретный механизм использования эмбеддингов запросов и ресурсов для прогнозирования поведения пользователей путем вычисления их скалярного произведения.

Влияет ли эта система на обработку длинного хвоста запросов (Long Tail)?

Да, это одно из основных применений. Длинный хвост состоит из редких или уникальных запросов, по которым мало или совсем нет статистики. Факторизационная модель позволяет обобщать знания и находить релевантные ответы на такие запросы путем сопоставления эмбеддингов, что значительно улучшает качество поиска в этом сегменте.