SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

TRAINING A RANKING MODEL (Обучение модели ранжирования)
  • US20210125108A1
  • Google LLC
  • 2016-10-24
  • 2021-04-29
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

Описание

Какую проблему решает

Патент решает фундаментальную проблему при обучении моделей ранжирования (Learning to Rank, LTR) на основе данных о кликах пользователей — позиционную предвзятость (Position Bias, также называемую в патенте Selection Bias). Пользователи склонны чаще кликать на результаты, расположенные выше, независимо от их фактической релевантности. Если модель обучается на необработанных данных о кликах, она ошибочно усваивает эту предвзятость, а не истинную релевантность. Изобретение направлено на "очистку" обучающих данных от этого уклона. Это особенно критично в системах с разреженными данными о кликах (например, в персональном поиске).

Что запатентовано

Запатентована система обучения Ranking Machine Learning Model, которая корректирует влияние позиционной предвзятости. Для каждого обучающего примера (клика пользователя) система рассчитывает Selection Bias Value (вероятность клика из-за позиции) и Importance Value (вес важности этого клика для обучения). Importance Value обратно пропорционален Selection Bias Value. Этот вес используется для корректировки функции потерь (Loss Function) во время обучения модели (метод, известный как Inverse Propensity Weighting).

Как это работает

Система работает в два основных этапа:

  1. Оценка предвзятости (Bias Estimation): С помощью Experiment Data (например, путем случайного перемешивания результатов в выдаче — randomly permuted) система измеряет, насколько часто пользователи кликают на каждую позицию исключительно из-за ее расположения (Selection Bias Value).
  2. Взвешенное обучение (Weighted Training): При обучении модели для каждого клика вычисляется Importance Value (например, 1/Bias). Клики на нижних позициях получают больший вес, а клики на верхних — меньший. Модель обучается минимизировать скорректированную функцию потерь (Adjusted Loss), которая учитывает этот вес важности.

Актуальность для SEO

Критически высокая. Использование поведенческих сигналов (кликов) для обучения моделей ранжирования является стандартом. Корректировка позиционной предвзятости (Debiasing) — обязательное условие для обеспечения точности этих моделей. Описанные методы являются актуальными и стандартными техниками в области Information Retrieval и Machine Learning.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10) для понимания того, как Google интерпретирует поведенческие факторы. Он описывает не алгоритм ранжирования в реальном времени, а процесс обучения моделей. Ключевое понимание: не все клики одинаково полезны как обучающий сигнал. Клики, полученные на более низких позициях ("глубокие клики"), имеют значительно больший вес (Importance Value) в качестве сигнала релевантности, чем клики на первой позиции.

Детальный разбор

Термины и определения

Adjusted Loss (Скорректированная потеря)
Итоговое значение функции потерь для обучающего примера, полученное путем умножения стандартной потери (Loss) на вес важности (Importance Value). Модель обучается минимизировать сумму этих скорректированных потерь.
Experiment Data (Экспериментальные данные)
Данные о кликах, собранные в контролируемых условиях, где позиции результатов были "случайно перемешаны" (randomly permuted) перед показом пользователям. Это позволяет изолировать влияние позиции от влияния релевантности.
Importance Value (Вес важности)
Метрика, определяющая, насколько важен данный обучающий пример (клик) для обучения модели. Она обратно пропорциональна Selection Bias Value.
Loss Function (Функция потерь)
Функция, которая измеряет ошибку модели ранжирования на обучающем примере (например, pair-wise loss function или list-wise loss function).
Ranking Machine Learning Model (Модель машинного обучения для ранжирования)
Модель (например, нейронная сеть или GBDT), обученная генерировать оценку ранжирования (Ranking Score) для документа на основе его признаков и признаков запроса.
Selection Bias Value (Значение предвзятости выбора / Позиционная предвзятость)
Метрика, представляющая степень, в которой позиция результата повлияла на его выбор пользователем. Высокое значение означает, что на эту позицию часто кликают независимо от контента.
Training Data (Обучающие данные)
Набор примеров, используемых для обучения модели. Каждый пример включает запрос, список результатов, кликнутый результат и его позицию.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обучения модели ранжирования с коррекцией предвзятости.

  1. Система получает Training Data (запрос, результаты, выбранный результат) и Position Data (позиция выбранного результата).
  2. Для каждого примера определяется Selection Bias Value (насколько позиция повлияла на выбор).
  3. Для каждого примера определяется Importance Value, который обратно пропорционален Selection Bias Value.
  4. Происходит обучение модели, которое включает для каждого примера:
    • Определение потери (Loss) на основе оценок модели и факта выбора результата.
    • Генерация Adjusted Loss путем корректировки Loss с использованием Importance Value. Примеры с более высоким весом важности сильнее влияют на обучение. Указана формула скорректированной потери L(f)=w⋅l(Q,f)L(f) = w \cdot l(Q,f)L(f)=w⋅l(Q,f), где www – Importance Value, а l(Q,f)l(Q,f)l(Q,f) – Loss.
    • Обучение модели на основе Adjusted Loss.

Claim 2 (Зависимый от 1): Уточняет источник данных для определения предвзятости.

Система получает Experiment Data, где позиции результатов были "случайно перемешаны" (randomly permuted) перед показом пользователям. Это ключевое условие для объективной оценки влияния позиции.

Claim 3 и 4 (Зависимые): Описывают метод расчета глобальной позиционной предвзятости.

  1. На основе Experiment Data для каждой позиции подсчитывается количество выборов (кликов).
  2. Для каждой позиции определяется Position Bias Value на основе этого количества.
  3. Этот Position Bias Value используется как Selection Bias Value для обучающих примеров.

Claim 5 и 6 (Зависимые): Описывают метод расчета предвзятости для разных классов запросов (Query Class).

  1. Запросы в Experiment Data и Training Data классифицируются.
  2. Для каждого класса запросов и для каждой позиции рассчитывается Class-Specific Position Bias Value.
  3. Эта специфичная для класса предвзятость используется как Selection Bias Value.

Claim 7, 8 и 9 (Зависимые): Описывают метод предсказания предвзятости для конкретного запроса с помощью отдельной модели.

  1. Система обучает классификатор (Classifier), который принимает вектор признаков запроса (Feature Vector) и предсказывает Query-Specific Position Bias Value для каждой позиции.
  2. Для обучающего примера система использует этот обученный классификатор для генерации предвзятости, специфичной для данного запроса.
  3. Этот предсказанный уклон используется как Selection Bias Value.

Где и как применяется

Важно понимать, что этот патент описывает офлайн-процесс обучения моделей ранжирования, а не алгоритм, работающий в реальном времени при обработке запроса.

Инфраструктура Обучения (Training Pipeline)
Основное применение патента. Training Engine использует данные, собранные из взаимодействия пользователей с поисковой выдачей (логи кликов), и Experiment Data для обучения Ranking Machine Learning Model. На этом этапе рассчитываются Selection Bias Values, Importance Values и происходит оптимизация параметров модели с использованием Adjusted Loss.

RANKING – Ранжирование
Обученная модель (Ranking Model) затем развертывается в продакшн и используется Ranking Engine на этапах ранжирования (вероятно, L2 или L3) для генерации Ranking Scores. Сама модель уже не выполняет коррекцию предвзятости в реальном времени; она применяет то, что выучила на скорректированных данных.

Входные данные:

  • Training Data: Запросы, списки результатов, кликнутые документы, позиции кликнутых документов.
  • Experiment Data: Данные о кликах на рандомизированных выдачах.
  • (Опционально) Feature Vectors для запросов (используются при расчете Query-Specific Bias).

Выходные данные:

  • Обученная Ranking Machine Learning Model, параметры которой оптимизированы для предсказания релевантности с учетом коррекции позиционной предвзятости.

На что влияет

  • Все типы контента и запросов: Механизм влияет на обучение базовых моделей ранжирования и, следовательно, затрагивает все типы запросов и контента, для которых доступна статистика кликов и используются LTR-модели.
  • Персональный поиск и разреженные данные: В описании патента особо отмечается, что этот метод эффективен в системах, где данные о кликах сильно разрежены (highly sparse), например, в персональном поиске (поиск по почте, документам пользователя), так как он позволяет более эффективно использовать имеющиеся данные.

Когда применяется

  • Условия применения: Алгоритм применяется во время циклов обучения или переобучения основных моделей ранжирования (например, моделей на основе глубокого обучения).
  • Частота применения: Офлайн, периодически, по мере накопления новых обучающих данных и проведения экспериментов для калибровки предвзятости.

Пошаговый алгоритм

Процесс состоит из двух основных фаз: измерение предвзятости и обучение модели.

Фаза А: Измерение позиционной предвзятости (Офлайн-эксперименты)

  1. Сбор экспериментальных данных: Система показывает пользователям результаты поиска, где порядок документов случайно перемешан (randomly permuted). Собираются данные о том, на какие позиции кликают пользователи.
  2. Анализ данных: Для каждой позиции подсчитывается общее количество кликов.
  3. Расчет Position Bias Value: Определяется значение предвзятости для каждой позиции на основе частоты кликов. Это может быть сделано тремя способами:
    • Глобально (Global): Одно значение предвзятости для каждой позиции для всех запросов.
    • По классам (Class-Specific): Значения предвзятости рассчитываются отдельно для разных классов запросов.
    • По запросам (Query-Specific): Обучается отдельный классификатор для предсказания предвзятости на основе признаков конкретного запроса.

Фаза Б: Обучение модели ранжирования (Офлайн-обучение)

  1. Получение обучающего примера: Система берет один пример из Training Data (запрос, результаты, клик).
  2. Идентификация позиции: Определяется позиция, на которой находился кликнутый результат.
  3. Определение Selection Bias Value: Извлекается соответствующее значение предвзятости (рассчитанное в Фазе А) для этой позиции (и, возможно, для этого класса запроса или конкретного запроса).
  4. Расчет Importance Value: Вычисляется вес важности, обратно пропорциональный Selection Bias Value. w∝1/Biasw \propto 1/Biasw∝1/Bias.
  5. Расчет стандартной потери (Loss): Текущая версия модели ранжирования оценивает результаты, и вычисляется стандартная функция потерь (например, pairwise loss, l(Q,f)l(Q,f)l(Q,f)).
  6. Расчет скорректированной потери (Adjusted Loss): Стандартная потеря умножается на Importance Value. L(f)=w⋅l(Q,f)L(f) = w \cdot l(Q,f)L(f)=w⋅l(Q,f).
  7. Обновление модели: Параметры модели обновляются (например, с помощью градиентного спуска или MART) для минимизации суммы Adjusted Loss по всем обучающим примерам.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Критически важные данные. Используются данные о выбранных результатах (result document that was selected by a user) и позиции этих результатов (position data). Эти данные собираются как в стандартных условиях (Training Data), так и в экспериментальных (Experiment Data с рандомизацией).
  • Контекстные / Пользовательские факторы (Опционально): При расчете Query-Specific Position Bias могут использоваться признаки запроса (query features) или пользователя. Примеры, упомянутые в патенте: количество слов в запросе, класс запроса, предпочитаемый язык пользователя (preferred language of the user).

Какие метрики используются и как они считаются

  • Selection Bias Value (Position Bias Value): Рассчитывается на основе частоты кликов на определенную позицию в рандомизированных экспериментах.
  • Importance Value (w): Вес важности. Рассчитывается как значение, обратно пропорциональное Selection Bias Value.
  • Loss Function (l(Q,f)): Стандартная функция потерь для LTR. Патент упоминает pair-wise loss, например: l(Q,f)=∑xi>Qxjmax(0,f(xj)−f(xi))l(Q,f) = \sum_{x_i >_Q x_j} max(0, f(x_j)-f(x_i))l(Q,f)=∑xi​>Q​xj​​max(0,f(xj​)−f(xi​)), где xix_ixi​ – кликнутый документ, xjx_jxj​ – некликнутый.
  • Adjusted Loss (L(f)): Скорректированная потеря. Формула: L(f)=w⋅l(Q,f)L(f) = w \cdot l(Q,f)L(f)=w⋅l(Q,f).
  • Query-Specific Position Bias Value (biQb_i^QbQi​): В одном из вариантов реализации используется логистическая регрессия для предсказания предвзятости: biQ=11+exp(βi⋅v(Q))b_i^Q = \frac{1}{1+exp(\beta_i \cdot v(Q))}bQi​=1+exp(βi​⋅v(Q))1​, где v(Q)v(Q)v(Q) – вектор признаков запроса Q.

Выводы

  1. Google активно борется с позиционной предвзятостью (Position Bias): При использовании данных о кликах для обучения моделей ранжирования (LTR) Google применяет сложные механизмы для нейтрализации влияния позиции на вероятность клика.
  2. Дифференцированный вес кликов: Ключевой вывод — не все клики имеют одинаковый вес как обучающий сигнал. Система использует Importance Value, который обратно пропорционален позиционной предвзятости (Inverse Propensity Weighting).
  3. Клики на низких позициях важнее для обучения: Клик по результату на позиции, которая редко просматривается (низкий Selection Bias Value), получает высокий Importance Value. Это интерпретируется как сильный сигнал релевантности, так как пользователь приложил усилия, чтобы найти этот результат.
  4. Клики на ТОП-1 имеют меньший вес: Клик по первой позиции (высокий Selection Bias Value) получает низкий Importance Value, так как он мог быть вызван просто расположением, а не высокой релевантностью.
  5. Измерение предвзятости через рандомизацию: Google использует контролируемые эксперименты (Experiment Data), включая случайное перемешивание результатов, чтобы точно измерить чистый эффект позиционной предвзятости.
  6. Предвзятость не является константой: Патент описывает, что предвзятость может различаться для разных классов запросов (Class-Specific) или даже для конкретных запросов (Query-Specific) в зависимости от их признаков.

Практика

Best practices (это мы делаем)

  • Оптимизация сниппетов для привлечения кликов на любых позициях: Поскольку клики на более низких позициях имеют больший вес (Importance Value), критически важно иметь привлекательные и релевантные Title и Description. Если ваш сайт находится на 5-й позиции, но получает CTR выше ожидаемого для этой позиции, это посылает очень сильный положительный сигнал моделям ранжирования во время их обучения.
  • Фокус на истинной релевантности и удовлетворении интента: Создавайте контент, который настолько релевантен и полезен, что пользователь готов прокрутить выдачу вниз, чтобы найти его. Это генерирует высокоценные обучающие примеры для Google.
  • Анализ CTR в контексте позиции: При анализе данных из GSC следует оценивать CTR не в вакууме, а в сравнении со средними показателями для занимаемой позиции. Превышение ожидаемого CTR на низких позициях — индикатор высокой релевантности контента.

Worst practices (это делать не надо)

  • Манипуляции с CTR на высоких позициях: Попытки искусственно накрутить CTR, особенно на позициях ТОП-1-3, будут иметь ограниченный эффект в качестве обучающего сигнала, так как система присвоит этим кликам низкий Importance Value из-за высокого Selection Bias Value.
  • Кликбейт и игнорирование интента: Использование кликбейтных заголовков для получения кликов может сработать краткосрочно, но если контент нерелевантен, это приведет к негативным поведенческим сигналам (которые учитываются другими системами) и не поможет в долгосрочном обучении моделей релевантности для вашего сайта.
  • Предположение, что высокий CTR на P1 гарантирует релевантность: Нельзя считать, что если страница на 1 месте и имеет высокий CTR, то она автоматически считается Google максимально релевантной. Значительная часть этих кликов будет дисконтирована при обучении моделей.

Стратегическое значение

Патент подтверждает, что Google рассматривает CTR и поведенческие данные как важный, но "шумный" источник информации для обучения моделей ранжирования и активно применяет методы для его очистки (Debiasing). Наивное понимание "CTR — это фактор ранжирования" неверно. Стратегия SEO должна фокусироваться на демонстрации высокой релевантности, которая проявляется в способности привлекать внимание пользователя и удовлетворять его интент независимо от начальной позиции в выдаче.

Практические примеры

Сценарий: Интерпретация кликов для обучения модели

Предположим, Google провел эксперимент (Фаза А) и определил следующие глобальные значения позиционной предвзятости (Selection Bias Value):

  • Позиция 1 (P1): Bias = 0.6 (очень высокая предвзятость)
  • Позиция 5 (P5): Bias = 0.1 (низкая предвзятость)

Теперь система обучает модель (Фаза Б) и рассматривает два клика с одинаковой базовой потерей (Loss = 1.0):

Клик А (на P1):

  1. Importance Value (1/Bias) = 1 / 0.6 ≈ 1.67
  2. Adjusted Loss = 1.0 * 1.67 = 1.67

Клик Б (на P5):

  1. Importance Value (1/Bias) = 1 / 0.1 = 10.0
  2. Adjusted Loss = 1.0 * 10.0 = 10.0

Результат: Клик Б (на P5) оказывает значительно большее влияние (Adjusted Loss = 10.0) на обновление параметров модели ранжирования, чем Клик А (Adjusted Loss = 1.67). Модель получит гораздо более сильный стимул повысить рейтинг документа, получившего клик на P5.

Вопросы и ответы

Является ли CTR фактором ранжирования согласно этому патенту?

Не напрямую. Патент показывает, что CTR используется как источник обучающих данных (Training Data) для моделей ранжирования (Learning to Rank). Однако эти данные не используются в сыром виде. Они проходят сложный процесс обработки для устранения позиционной предвзятости (Position Bias). Важен не сам факт клика, а его вес (Importance Value) после коррекции.

Правда ли, что клик на 5-й позиции лучше, чем клик на 1-й?

С точки зрения влияния на обучение модели ранжирования — да. Поскольку 1-я позиция имеет высокую позиционную предвзятость (Selection Bias Value), клик на ней получает низкий вес важности (Importance Value). Клик на 5-й позиции преодолевает значительную предвзятость, поэтому он получает высокий вес важности и сильнее влияет на параметры модели. Это более сильный сигнал истинной релевантности.

Как Google измеряет позиционную предвзятость (Position Bias)?

Патент четко указывает на использование Experiment Data. Это данные, собранные в ходе экспериментов, где результаты поиска были "случайно перемешаны" (randomly permuted). Анализируя клики на рандомизированной выдаче, Google может изолировать влияние позиции от влияния релевантности и точно измерить предвзятость.

Как я могу использовать эти знания для улучшения SEO?

Ключевая тактика — оптимизация сниппетов (Title, Description, микроразметка) для повышения CTR, особенно если вы находитесь не в ТОП-3. Если вы сможете "заработать" клики на более низких позициях, эти клики получат очень высокий Importance Value и послужат сильным сигналом релевантности для обучающихся моделей ранжирования.

Является ли позиционная предвзятость одинаковой для всех запросов?

Нет. Патент описывает три варианта расчета предвзятости: глобальный (одинаковый для всех), специфичный для класса запросов (Class-Specific) и специфичный для конкретного запроса (Query-Specific). Например, предвзятость для навигационных запросов (сильный фокус на ТОП-1) может отличаться от предвзятости для информационных запросов.

Влияет ли этот механизм на ранжирование в реальном времени?

Нет. Этот патент описывает офлайн-процесс обучения модели ранжирования. Система корректирует обучающие данные, а затем обучает модель. В реальном времени используется уже обученная модель, которая применяет выученные закономерности для генерации Ranking Scores.

Делает ли этот патент накрутку поведенческих факторов бесполезной?

Он значительно снижает эффективность накрутки, особенно на высоких позициях (ТОП-1-3), так как вес этих кликов искусственно занижается системой (низкий Importance Value). Накрутка на низких позициях теоретически может дать больший вес, но такие действия, скорее всего, будут отфильтрованы системами обнаружения спама и аномалий как неестественное поведение.

Что такое корректировка функции потерь (Adjusted Loss)?

Это процесс взвешивания ошибок модели во время обучения. Вместо того чтобы считать все ошибки одинаково важными, система умножает стандартную ошибку (Loss) на Importance Value. Ошибки, связанные с кликами на низких позициях, получают больший вес, заставляя модель уделять им больше внимания при оптимизации.

Применяется ли этот метод только для стандартного веб-поиска?

Метод является универсальным для обучения LTR-моделей. Хотя он применим к стандартному поиску, в патенте особо подчеркивается его эффективность в сценариях с разреженными данными о кликах (sparse click data), таких как персональный поиск (поиск по email, документам пользователя).

Что такое Inverse Propensity Weighting (IPW) в контексте этого патента?

Хотя термин IPW не используется в патенте, описанный механизм является его реализацией. Это статистический метод для уменьшения смещения в данных. В данном случае Selection Bias Value — это "склонность" (propensity) к клику из-за позиции, а Importance Value — это обратный вес (inverse weight). IPW позволяет скорректировать обучающие данные, чтобы они лучше отражали истинную релевантность.

Похожие патенты

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google приоритизирует локальное поведение пользователей над глобальной популярностью в международном поиске
Google использует систему для корректировки поискового ранжирования на основе местоположения и языка пользователя. Система приоритизирует данные о кликах от конкретной популяции пользователей (например, страны) над более широкими популяциями (например, глобальными данными). Глобальные сигналы популярности «понижаются» в весе, чтобы гарантировать более высокое ранжирование локально релевантных результатов, даже если они менее популярны в мировом масштабе.
  • US8694511B1
  • 2014-04-08
  • Local SEO

  • Поведенческие сигналы

  • SERP

Популярные патенты

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank
Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.
  • US7565630B1
  • 2009-07-21
  • Персонализация

  • SERP

  • Ссылки

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)
Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.
  • US9146966B1
  • 2015-09-29
  • Поведенческие сигналы

  • SERP

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
  • US8738643B1
  • 2014-05-27
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи
Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.
  • US9256685B2
  • 2016-02-09
  • Персонализация

  • Поведенческие сигналы

  • SERP

seohardcore