SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обучает модели ранжирования, сравнивая результаты из разных, но похожих запросов (Cross-List Learning to Rank)

CROSS-LIST LEARNING TO RANK (Обучение ранжированию на основе перекрестных списков)
  • US12314275B2
  • Google LLC
  • 2023-08-14
  • 2025-05-27
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.

Описание

Какую проблему решает

Патент решает проблему неэффективности традиционных методов обучения ранжированию (Learning to Rank, LTR), которые обычно анализируют пары документов только в рамках одного списка результатов (т.е. для одного запроса). Это ограничивает объем данных для обучения, особенно при коротких списках результатов. Агрегация результатов из разных, не связанных между собой запросов в один обучающий батч может ухудшить точность ранжирования для каждого отдельного запроса, так как критерии релевантности могут сильно различаться. Изобретение позволяет использовать данные из разных списков, сохраняя при этом точность для конкретного запроса.

Что запатентовано

Запатентована система обучения ранжированию, которая использует пары элементов (документов), взятые из разных обучающих примеров (разных списков результатов поиска или рекомендаций). Ключевым механизмом является взвешивание вклада этой пары в функцию потерь (Ranking Loss) на основе Correlation Score — показателя схожести между запросами (или другими атрибутами), которые сгенерировали эти списки. Это позволяет модели учиться на большем объеме данных, используя информацию из семантически связанных контекстов.

Как это работает

Система работает по принципу Cross-List Learning to Rank (XLR):

  • Выборка пар: Система выбирает Документ А из результатов Запроса 1 и Документ Б из результатов Запроса 2.
  • Оценка схожести (Correlation Score): Вычисляется показатель схожести между Запросом 1 и Запросом 2. Это может делаться путем сравнения их векторных представлений (Query Embeddings), полученных, например, с помощью самой модели ранжирования или механизма внимания (Attention Mechanism).
  • Взвешивание потерь: Рассчитывается стандартная попарная функция потерь для Документа А и Документа Б. Однако эта потеря умножается на Correlation Score.
  • Обучение: Если запросы очень похожи (score близок к 1), пара вносит значительный вклад в обучение. Если запросы не связаны (score близок к 0), пара игнорируется или ее вклад минимален. Модель обновляется на основе этой взвешенной функции потерь.

Актуальность для SEO

Высокая. Патент подан в 2023 году и опубликован в 2025. Он описывает современные подходы к обучению глубоких нейронных сетей для ранжирования, включая использование Embeddings и Attention Mechanisms. Учитывая фокус Google на семантическом поиске и кластеризации интентов, методы, позволяющие моделям лучше обобщать сигналы релевантности между похожими запросами, крайне актуальны для улучшения качества поиска.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (75/100). Хотя он описывает внутренние процессы обучения моделей Google, а не конкретные факторы ранжирования, он дает ключевое понимание того, как Google оценивает релевантность. Система учится не изолированно по каждому запросу, а в контексте семантически связанных запросов. Это подтверждает критическую важность построения тематического авторитета (Topical Authority) и широкого охвата кластера запросов, а не оптимизации под отдельные ключевые слова.

Детальный разбор

Термины и определения

Cross-list Learning to Rank (XLR) / Cross Batch Ranking (XBR)
Метод обучения ранжированию, при котором функция потерь рассчитывается на основе пар элементов, взятых из разных списков (результатов разных запросов), с учетом корреляции между этими списками.
Correlation Score (Cqr)
Метрика, определяющая степень схожести или корреляции между двумя списками (например, между двумя запросами Q и R). Используется для взвешивания вклада перекрестных пар в функцию потерь. Пример метрики – косинусное сходство (Cosine Similarity).
Distillation (Дистилляция)
Процесс переноса знаний от сложной модели (Teacher Model) к более простой модели (Student Model). В контексте патента, XLR может применяться для дистилляции попарных ранговых предпочтений.
Intermediate Representation
Промежуточное представление элемента (документа), сгенерированное моделью ранжирования в процессе обработки. Часто это логит (logit score) или векторное представление перед финальным слоем.
Item (Элемент)
Объект, подлежащий ранжированию. В контексте поиска – это веб-страница, документ, изображение или другой ресурс, отвечающий на запрос.
Learning to Rank (LTR)
Область машинного обучения, фокусирующаяся на создании моделей для задач ранжирования.
Listwise Loss (Списочная функция потерь)
Функция потерь в LTR, которая оценивает качество всего упорядоченного списка сразу (например, Softmax listwise loss).
Pairwise Loss (Попарная функция потерь)
Функция потерь в LTR, которая оценивает качество ранжирования на основе пар элементов, стремясь минимизировать количество инверсий (когда менее релевантный элемент ранжируется выше более релевантного). Примеры: RankNet, LambdaRank.
Query Embedding
Векторное представление (эмбеддинг) поискового запроса. Используется для вычисления Correlation Score между запросами.
Training Example (Обучающий пример)
Единица обучающих данных, обычно включающая запрос и список соответствующих элементов с метками релевантности или вовлеченности (Labels).
Weighted Pairwise Ranking Loss
Модифицированная попарная функция потерь, в которой вклад каждой пары взвешивается, например, на основе Correlation Score между списками, из которых взяты элементы.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод Cross-List Learning to Rank.

  1. Система получает два разных обучающих примера: Пример 1 (с Запросом 1 и списком элементов) и Пример 2 (с Запросом 2 и списком элементов).
  2. Элемент 1 (из Примера 1) обрабатывается моделью ранжирования для генерации Представления 1.
  3. Элемент 2 (из Примера 2) обрабатывается моделью ранжирования для генерации Представления 2.
  4. Вычисляется Correlation Score между Запросом 1 и Запросом 2.
  5. Оценивается взвешенная попарная функция потерь (Weighted Pairwise Ranking Loss) на основе Представления 1, Представления 2, их меток и Correlation Score.
  6. Модель ранжирования модифицируется на основе этой функции потерь.

Ядром изобретения является использование пар из разных списков для обучения ранжированию, при условии, что функция потерь учитывает корреляцию между запросами, породившими эти списки.

Claim 2 (Зависимый от 1): Детализирует метод вычисления Correlation Score.

  1. Генерируются Query Embedding для Запроса 1 и Запроса 2.
  2. Correlation Score вычисляется путем оценки метрики схожести (например, косинусного сходства) между этими эмбеддингами.

Claim 10 (Зависимый от 1): Описывает альтернативный метод вычисления Correlation Score.

  1. Запросы обрабатываются сетью внимания (Attention Network), которая обучена предсказывать эмбеддинг одного запроса на основе других запросов в батче. Веса внимания используются как Correlation Score.

Claims 4, 5, 6 (Зависимые от 1): Определяют механизмы взвешивания в функции потерь.

  • Claim 4: Применение понижающего коэффициента (Scaling Factor μ\muμ), если запросы различны.
  • Claim 5: Использование порогового значения (τ\tauτ). Пара учитывается, только если Correlation Score превышает порог.
  • Claim 6: Взвешивание функции потерь на абсолютное значение Correlation Score (∣Cqr∣|C_{qr}|∣Cqr​∣).

Claim 11 (Независимый пункт): Обобщает метод XLR для корреляции по любым признакам (General Cross Feature Ranking).

Процесс аналогичен Claim 1, но Correlation Score определяется не между запросами, а на основе схожести других атрибутов, связанных с обучающими примерами (например, схожесть жанров контента, идентификаторов издателей/авторов или характеристик пользователей).

Это значительно расширяет область применения метода, позволяя обучать модели ранжирования на основе корреляций в различных срезах данных (Data Slices).

Claim 16 (Независимый пункт): Описывает применение XLR в контексте дистилляции (Distillation).

Процесс аналогичен Claim 1, но в нем участвуют две модели: Teacher и Student. Функция потерь рассчитывается на основе разницы между предсказаниями обеих моделей для перекрестной пары, взвешенной на Correlation Score. Цель — обучить Student модель воспроизводить логику ранжирования Teacher модели.

Где и как применяется

Этот патент описывает инфраструктуру машинного обучения, используемую для тренировки моделей ранжирования. Он не применяется в реальном времени при обработке запроса пользователя, а используется офлайн для улучшения базовых моделей.

RANKING – Ранжирование (Обучение моделей)
Основное применение патента находится на этапе разработки и обучения моделей, которые затем будут использоваться на стадиях L1, L2 и L3 ранжирования.

  • Процесс обучения: Механизм Cross-List Learning to Rank интегрируется в процесс тренировки моделей (например, глубоких нейронных сетей, используемых для ранжирования). Он изменяет способ расчета функции потерь (Ranking Loss), используемой для обновления весов модели.
  • Взаимодействие с компонентами: Взаимодействует с хранилищем обучающих данных (Training Data), компонентом расчета признаков (Feature Extraction) и оптимизатором модели (Model Trainer).

Входные данные:

  • Обучающий батч (Training Batch), состоящий из множества обучающих примеров. Каждый пример содержит запрос, список элементов (документов) и метки (Labels) для этих элементов.
  • Признаки (Features) для запросов и элементов.

Выходные данные:

  • Обновленные параметры (веса) обучаемой модели ранжирования.

На что влияет

Патент влияет на общую способность модели ранжирования правильно упорядочивать результаты поиска.

  • Специфические запросы: Наибольшее влияние оказывается на кластеры семантически близких запросов (синонимичные, парафразы, близкие интенты). Модель учится более согласованно ранжировать контент внутри этих кластеров.
  • Конкретные типы контента: Влияет на все типы контента. Однако, благодаря возможности корреляции по атрибутам (Claim 11), система может быть настроена на улучшение ранжирования в определенных срезах, например, по категориям товаров (e-commerce) или жанрам видео/статей.

Когда применяется

  • Условия работы: Алгоритм применяется во время офлайн-обучения или тонкой настройки (fine-tuning) моделей ранжирования.
  • Триггеры активации: Активируется для пар элементов из разных списков внутри обучающего батча. Применение может быть ограничено порогом схожести (τ\tauτ): если Correlation Score ниже порога, пара может быть исключена из расчета потерь (Claim 5).
  • Альтернативный подход (Clustering): Вместо расчета корреляций на лету, система может предварительно кластеризовать похожие запросы в датасете и применять стандартные LTR методы к этим агрегированным спискам.

Пошаговый алгоритм

Описание процесса обучения модели с использованием Cross-List Learning to Rank (на примере попарного подхода).

  1. Получение данных: Система загружает обучающий батч, содержащий множество списков (Training Examples). Например, Список Q и Список R.
  2. Генерация представлений (Forward Pass):
    • Модель ранжирования обрабатывает Запрос Q и Запрос R для генерации Query Embeddings (Eq и Er). (Опционально, если используется метод из Claim 2).
    • Модель обрабатывает все элементы в батче. Например, Элемент i из Списка Q (i_q) и Элемент j из Списка R (j_r) для генерации их промежуточных представлений или логит-оценок (Siq и Sjr).
  3. Вычисление корреляции: Система вычисляет Correlation Score (Cqr) между Списком Q и Списком R. Например, используя косинусное сходство между Eq и Er: Cqr=(Eq,Er)∣∣Eq∣∣⋅∣∣Er∣∣C_{qr} = \frac{(E_q, E_r)}{||E_q|| \cdot ||E_r||}Cqr​=(Eq​,Er​)∥Eq​∥⋅∥Er​∥​
  4. Расчет взвешенной функции потерь (XLR Loss): Система итерирует по всем возможным парам (i_q, j_r) в батче и рассчитывает агрегированную функцию потерь. Для каждой пары применяются модификаторы:
    • Проверка порога: I(∣Cqr∣≥τ)I(|C_{qr}| \ge \tau)I(∣Cqr​∣≥τ) (Учитывать ли пару?)
    • Масштабирование: μ(q,r)\mu(q,r)μ(q,r) (Общее снижение веса для перекрестных пар)
    • Взвешивание по корреляции: ∣Cqr∣|C_{qr}|∣Cqr​∣ (Вклад зависит от степени схожести)
  5. Обновление модели (Backward Pass): Рассчитываются градиенты функции потерь, и параметры модели обновляются с помощью обратного распространения ошибки.

Какие данные и как использует

Данные на входе

Патент фокусируется на процессе обучения и предполагает наличие стандартных входных данных для задач ранжирования:

  • Контентные / Семантические факторы: Признаки, описывающие содержание элемента и запроса. Они используются моделью для генерации Intermediate Representations и Query Embeddings.
  • Поведенческие факторы: Метки (Labels), указывающие на уровень вовлеченности (engagement) или релевантности элемента для запроса (например, клики или оценки асессоров). Эти метки используются для расчета функции потерь.
  • Структурные / Атрибутивные факторы: В реализации General Cross Feature Ranking (Claim 11) используются атрибуты обучающих примеров для расчета корреляции. Упоминаются:
    • Идентификатор издателя (Publisher ID).
    • Жанр или категория контента (Genre/Categories).
    • Характеристики пользователя (User features).
    • Идентификатор рекламодателя (Advertiser ID) в контексте рекламы.

Какие метрики используются и как они считаются

Патент описывает несколько ключевых метрик и расчетов:

1. Correlation Score (Cqr):

  • Метод расчета: Косинусное сходство (Cosine Similarity) между векторными представлениями (Embeddings) запросов или других атрибутов (Уравнение 6). Также упоминается использование ковариации или весов механизма внимания.

2. Модификаторы функции потерь:

  • Порог (τ\tauτ): Гиперпараметр (от 0 до 1), определяющий минимальный уровень корреляции для учета пары. Реализуется через индикаторную функцию I(∣Cqr∣≥τ)I(|C_{qr}| \ge \tau)I(∣Cqr​∣≥τ).
  • Коэффициент масштабирования (μ\muμ): Гиперпараметр (от 0 до 1) для снижения веса перекрестных пар по сравнению с парами внутри одного списка.

3. Функции потерь (Ranking Losses):

Патент адаптирует стандартные LTR функции потерь для XLR. Пример (Уравнение 7) адаптации попарной потери для бинарных меток:

Lxlr−ranking=∑q=1Q∑r=1Q∑iq=1yiq=1Nq∑jr=1yjr=0NrI(∣Cqr∣≥τ)⋅μ(q,r)⋅∣Cqr∣⋅yiq,jrlog[1+exp(sjr−siq)]L_{xlr-ranking} = \sum_{q=1}^{Q} \sum_{r=1}^{Q} \sum_{i_q=1, y_{i_q}=1}^{N_q} \sum_{j_r=1, y_{j_r}=0}^{N_r} I(|C_{qr}| \ge \tau) \cdot \mu(q,r) \cdot |C_{qr}| \cdot y_{i_q,j_r} log[1+exp(s_{j_r}-s_{i_q})]Lxlr−ranking​=∑q=1Q​∑r=1Q​∑yiq​=1iq​=1Nq​​∑yjr​=0jr​=1Nr​​I(∣Cqr​∣≥τ)⋅μ(q,r)⋅∣Cqr​∣⋅yiq​,jr​​log[1+exp(sjr​​−siq​​)]

Эта формула суммирует потери по всем парам (i, j) из всех комбинаций списков (q, r), где у элемента i метка 1 (релевантен), а у элемента j метка 0 (нерелевантен), применяя три модификатора к стандартной логистической потере.

  • Нормализация: Упоминается возможность нормализации функции потерь по общему весу пар, чтобы сбалансировать вклад часто и редко повторяющихся списков.

Выводы

  1. Обучение ранжированию происходит в контексте кластеров: Google не просто обучает модели определять порядок результатов для изолированного запроса. Механизм XLR позволяет моделям сравнивать релевантность документов из разных, но семантически похожих запросов. Это означает, что оценка релевантности документа формируется с учетом его эффективности во всем тематическом кластере.
  2. Важность схожести запросов (Query Similarity): Ключевым элементом системы является Correlation Score. Система активно вычисляет схожесть между запросами (используя Embeddings или Attention), чтобы определить, какие данные можно совместно использовать для обучения. Это подчеркивает глубокое понимание семантики запросов системой.
  3. Гибкость в определении корреляции (General Cross Feature Ranking): Патент не ограничивается только схожестью запросов. Система может определять корреляцию на основе любых атрибутов (Claim 11), таких как категория контента, издатель или характеристики пользователя. Это позволяет Google оптимизировать ранжирование для специфических срезов данных (Data Slices).
  4. Улучшенное обобщение (Generalization): XLR помогает моделям лучше обобщать сигналы релевантности. Модель учится распознавать паттерны качественного контента, которые актуальны не только для одного конкретного запроса, но и для целого ряда схожих интентов.
  5. Инфраструктурный характер: Патент описывает офлайн-процесс обучения моделей. Он направлен на повышение эффективности и качества базовых алгоритмов ранжирования Google, а не на корректировку выдачи в реальном времени.

Практика

Best practices (это мы делаем)

  • Фокус на тематическом авторитете (Topical Authority): Необходимо создавать контент, который полностью покрывает тему и отвечает на все связанные интенты в кластере. Поскольку модель учится на основе схожих запросов, сайт, который постоянно предоставляет релевантные ответы во всем кластере, будет иметь преимущество. Сигналы релевантности для одного запроса могут усиливать понимание модели о релевантности сайта для другого похожего запроса.
  • Кластеризация семантического ядра: Группируйте запросы не только по общим ключевым словам, но и по семантической близости и интенту. Убедитесь, что ваша контент-стратегия обеспечивает согласованное и качественное покрытие внутри этих кластеров. Это соответствует логике обучения XLR.
  • Усиление сигналов сущностей и атрибутов: Учитывая General Cross Feature Ranking (Claim 11), важно четко определять ключевые атрибуты контента (категории, темы) и авторов/издателей (E-E-A-T). Если Google использует корреляцию по атрибутам издателя, сильные и последовательные сигналы авторитетности могут способствовать лучшему обучению модели на вашем контенте.
  • Оптимизация под семантические векторы (Embeddings): Так как схожесть запросов часто определяется через Query Embeddings, необходимо создавать контент, который четко соответствует семантическому пространству целевых запросов. Используйте естественный язык, релевантные сущности и контекстуально связанные термины.

Worst practices (это делать не надо)

  • Изолированная оптимизация под отдельные ключевые слова: Стратегия оптимизации страницы под один высокочастотный запрос без учета связанного семантического контекста становится менее эффективной. XLR позволяет модели видеть "общую картину" релевантности в теме.
  • Создание противоречивого контента внутри кластера: Если ваш сайт предоставляет высококачественный ответ на один запрос, но низкокачественный или нерелевантный ответ на очень похожий запрос, это может негативно повлиять на обучение модели в отношении вашего сайта, так как XLR будет обрабатывать эти данные совместно.
  • Игнорирование структуры и разметки категорий: Если атрибуты, такие как жанр или категория, используются для расчета корреляции (Claim 11), нечеткая или запутанная структура категорий на сайте может помешать системе правильно идентифицировать связанные срезы данных для обучения.

Стратегическое значение

Патент подтверждает стратегию Google на переход от ранжирования на основе ключевых слов к ранжированию на основе тем и семантического соответствия. Cross-List Learning to Rank — это конкретный технический механизм, который позволяет реализовать эту стратегию на уровне обучения базовых моделей. Для SEO это означает, что долгосрочный успех зависит от способности сайта демонстрировать глубокую экспертизу и релевантность в рамках целых тематических областей. Модели Google становятся более устойчивыми к незначительным вариациям запросов и лучше распознают истинное качество и релевантность контента.

Практические примеры

Сценарий: Оптимизация кластера запросов по выбору смартфона

Сайт А фокусируется только на запросе "лучший смартфон 2025". Сайт Б создает хаб, покрывающий кластер: "лучший смартфон 2025", "сравнение флагманских смартфонов 2025", "топ камерофонов 2025".

  1. Обработка Google: Во время обучения модель Google видит, что эти три запроса имеют высокий Correlation Score (они семантически близки).
  2. Применение XLR: Модель использует XLR для совместного обучения на результатах этих запросов. Она сравнивает пару документов из выдачи по "лучший смартфон" с парой из "топ камерофонов".
  3. Результат обучения: Если Сайт Б постоянно показывает высокое качество и релевантность (высокие Labels) по всем трем запросам, модель учится ассоциировать Сайт Б с высокой релевантностью в этом тематическом пространстве. Сайт А, присутствуя только в одном срезе, дает модели меньше положительных сигналов в рамках кластера.
  4. Ожидаемый результат для SEO: Сайт Б с большей вероятностью будет ранжироваться выше по всем запросам в кластере, даже если по некоторым из них его прямая оптимизация слабее, чем у узкоспециализированных конкурентов.

Вопросы и ответы

Что такое Cross-List Learning to Rank (XLR) простыми словами?

Это метод обучения поисковых алгоритмов. Представьте, что Google учится ранжировать, сравнивая два документа. Раньше он сравнивал их, только если оба документа появились в ответ на один и тот же запрос. С XLR Google может сравнить документ, найденный по запросу "как починить кран", с документом, найденным по похожему запросу "ремонт смесителя", чтобы понять, какой из них лучше в целом.

Как Google определяет, что два запроса похожи для использования XLR?

Патент предлагает несколько методов для расчета Correlation Score. Основной метод – это сравнение векторных представлений (Query Embeddings) запросов с помощью метрик типа косинусного сходства (cosine similarity). Эти эмбеддинги могут генерироваться самой моделью ранжирования. Другой продвинутый метод – использование механизма внимания (Attention Mechanism), который определяет, насколько один запрос может предсказать другой.

Влияет ли этот патент на ранжирование в реальном времени?

Нет, напрямую не влияет. Патент описывает офлайн-процесс обучения моделей ранжирования. XLR используется для того, чтобы сделать базовые модели (например, те, что используются в ядре алгоритма Google) более точными и эффективными. Улучшение этих моделей, в свою очередь, приводит к изменению результатов ранжирования в продакшене.

Какое главное последствие этого патента для SEO-стратегии?

Главное последствие – это дальнейшее усиление важности тематического авторитета (Topical Authority) и кластерного подхода к контенту. Поскольку модель обучается путем сравнения результатов из похожих запросов, сайт, который последовательно предоставляет качественные ответы во всем семантическом кластере, получает преимущество. Оптимизация под изолированные ключевые слова теряет эффективность.

Что такое General Cross Feature Ranking (Claim 11) и как это связано с E-E-A-T?

Это расширение метода XLR, позволяющее рассчитывать корреляцию не только по схожести запросов, но и по другим атрибутам, например, по издателю (Publisher) или автору. Если Google применяет этот метод, он может обучать модель, сравнивая результаты от одного и того же авторитетного источника для разных запросов. Это напрямую связано с E-E-A-T, так как позволяет системе лучше понять паттерны ранжирования, связанные с авторитетными издателями.

Стоит ли теперь пытаться оптимизировать одну страницу под максимально возможное количество синонимичных запросов?

Не обязательно. Важнее обеспечить качественное покрытие всего кластера интентов, возможно, с помощью нескольких страниц, связанных в единую тематическую структуру (хаб). XLR помогает Google лучше понимать релевантность на уровне темы. Если одна страница наилучшим образом отвечает на несколько синонимов – отлично. Но если интенты немного различаются, лучше создать отдельные страницы и убедиться, что все они высокого качества.

Как XLR влияет на long-tail запросы?

XLR может улучшить ранжирование по long-tail запросам. Если длинный хвост семантически близок к более общему запросу (имеет высокий Correlation Score), модель может использовать знания, полученные при обучении на данных общего запроса, для улучшения ранжирования по long-tail запросу. Это повышает способность модели обобщать сигналы релевантности.

Что такое дистилляция (Distillation) в контексте этого патента?

Дистилляция – это процесс обучения маленькой и быстрой модели (Student) воспроизводить результаты большой и сложной модели (Teacher). Патент предлагает применять XLR во время дистилляции (Claim 16). Это означает, что Student модель учится у Teacher модели, сравнивая их предсказания для пар документов из разных, но похожих запросов. Это позволяет создавать эффективные продакшн-модели, сохраняя сложное понимание релевантности.

Использует ли система какие-либо пороги для активации XLR?

Да, патент описывает использование порога (τ\tauτ) (Claim 5). Если Correlation Score между двумя запросами ниже этого порога (т.е. запросы недостаточно похожи), то пары документов из этих списков могут быть исключены из расчета функции потерь XLR. Это защищает модель от обучения на ложных корреляциях.

Как этот патент связан с BERT или MUM?

BERT и MUM – это модели для понимания языка, которые используются для генерации качественных векторных представлений (Embeddings) текстов и запросов. Механизм XLR использует эти Query Embeddings для расчета Correlation Score. Таким образом, прогресс в моделях типа MUM напрямую улучшает способность системы определять семантическую близость запросов, что делает механизм XLR более эффективным.

Похожие патенты

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.
  • US8645390B1
  • 2014-02-04
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google комбинирует временные тренды и контекстуальный анализ для определения схожести поисковых запросов
Google использует систему машинного обучения для определения схожести между запросами путем объединения разнородных сигналов. Система анализирует как временные паттерны использования терминов в разных источниках (Temporal Correlation), так и контекст, в котором термины появляются в интернете (Distributional Similarity). Комбинация этих данных позволяет генерировать более точные поисковые подсказки и связанные запросы.
  • US8478699B1
  • 2013-07-02
  • Семантика и интент

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания
Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.
  • US8326861B1
  • 2012-12-04
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.
  • US9116952B1
  • 2015-08-25
  • Семантика и интент

  • Поведенческие сигналы

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.
  • US8868592B1
  • 2014-10-21
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы
Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.
  • US9129029B1
  • 2015-09-08
  • Local SEO

  • Поведенческие сигналы

  • Свежесть контента

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске
Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").
  • US8782030B1
  • 2014-07-15
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

seohardcore