Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

RANKING DOCUMENTS BASED ON LARGE DATA SETS (Ранжирование документов на основе больших наборов данных)

US7231399B1
Google LLC
2003-11-14
2007-06-12

Поведенческие сигналы

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

Какую проблему решает

Патент решает проблему создания эффективной функции ранжирования, способной точно определять релевантность документа запросу. Вместо создания функции ранжирования вручную на основе эвристик, изобретение предлагает метод автоматического обучения (Machine Learning) функции ранжирования на основе огромных массивов данных о реальном поведении пользователей (information retrieval data). Это позволяет системе адаптироваться и улучшать качество ранжирования, выявляя сложные зависимости между признаками документа/запроса и вероятностью выбора этого документа пользователем.

Что запатентовано

Запатентована система и метод создания модели ранжирования (ranking model) с использованием крупномасштабного машинного обучения. Модель предназначена для предсказания вероятности того, что пользователь выберет (кликнет) определенный документ в ответ на запрос. Обучение происходит на очень больших наборах данных (упоминаются десятки миллионов instances и миллионы features). Ключевым элементом является использование Prior Probability of selection (априорной вероятности выбора) в сочетании с автоматически генерируемыми правилами для расчета итоговой оценки.

Как это работает

Система работает в двух режимах: обучение и ранжирование.

Обучение:

Собираются данные о прошлых поисках в формате троек (u, q, d): пользователь (u), запрос (q), документ (d), а также информация о том, был ли документ выбран.
Рассчитывается Prior Probability — базовая вероятность выбора документа, основанная на его позиции, старой оценке (old score) и количестве кликов по документам выше.
Система итеративно генерирует правила (rules). Каждое правило состоит из условия (condition — набор признаков) и веса (weight).
Веса подбираются так, чтобы максимизировать правдоподобие обучающих данных (т.е. чтобы модель лучше всего предсказывала реальные клики).

Ранжирование:

При получении нового запроса система извлекает признаки для каждого документа-кандидата.
Определяется Prior Probability.
Применяются выученные правила. Веса правил, условия которых выполняются, суммируются и комбинируются с Prior Probability для расчета итоговой вероятности выбора (Posterior Probability).
Документы ранжируются по этой итоговой вероятности.

Актуальность для SEO

Критически высокая. Хотя патент подан в 2003 году, он описывает фундаментальную архитектуру перехода Google от эвристических алгоритмов к машинно-обучаемому ранжированию (Machine-Learned Ranking, MLR). Описанные принципы — обучение на поведении пользователей, предсказание вероятности клика, использование огромного количества признаков и крупномасштабное обучение — лежат в основе современных систем ранжирования Google. Изобретатели (включая Noam Shazeer) являются ключевыми фигурами в развитии ИИ в Google.

Важность для SEO

Патент имеет фундаментальное значение для SEO (10/10). Он подтверждает, что основная функция ранжирования Google обучается предсказывать удовлетворенность пользователя (измеряемую через клики/выборы). Это означает, что сигналы, которые коррелируют с высокой вероятностью выбора (помимо простого совпадения ключевых слов), становятся факторами ранжирования. Стратегия SEO должна быть направлена на оптимизацию не только под алгоритмы, но и под поведение пользователей, так как именно это поведение обучает модель.

Термины и определения

Condition (Условие): Конъюнкция (логическое И) признаков (features) и, возможно, их дополнений (отрицаний). Пример: «слово 'дерево' есть в запросе И домен документа 'trees.com'».
Features (Признаки): Характеристики, извлекаемые из Instance (u, q, d). Могут включать данные о пользователе (страна, язык), запросе (слова, длина), документе (слова в тексте, URL, заголовке, входящих ссылках), а также контекстные данные (время суток, предыдущие запросы пользователя).
Instance (Экземпляр данных): Базовая единица данных для обучения. Представляет собой тройку (u, q, d), где u — информация о пользователе, q — данные запроса, d — информация о документе, показанном в ответ на запрос. Также включает метку — был ли документ выбран пользователем.
Old Score (Старая оценка): Оценка ранжирования, присвоенная документу d для запроса q существующей (предыдущей) поисковой системой. Используется как один из компонентов для расчета Prior Probability.
Prior Probability of Selection (Априорная вероятность выбора): Базовая вероятность того, что документ будет выбран, рассчитываемая до учета специфических признаков (features) документа или запроса. Основана на общих факторах: позиции документа в выдаче, его Old Score и количестве выбранных документов выше него в той же сессии.
Posterior Probability of Selection (Апостериорная вероятность выбора): Итоговая предсказанная вероятность выбора документа после применения модели ранжирования. Рассчитывается путем комбинации Prior Probability и весов применимых правил (Rules). Используется как итоговый Ranking Score.
Ranking Model (Модель ранжирования): Набор правил (Rules) и Prior Probability, используемый для предсказания вероятности выбора документа.
Rule (Правило): Состоит из условия (Condition, C) и веса (Weight, w). Если условие выполняется для данного Instance, вес правила применяется при расчете Posterior Probability.
Training Data (Обучающие данные): Набор Instances, используемый для генерации модели и оптимизации весов правил.
Log Likelihood (Логарифмическое правдоподобие): Метрика качества модели, используемая при обучении. Цель обучения — максимизировать эту метрику на обучающих данных (Log P(D|M)).
Cost(C) (Стоимость условия): Штраф, используемый при обучении, чтобы предотвратить переобучение на слишком сложных или редких условиях. Правило добавляется, если улучшение Log Likelihood превышает Cost(C).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

Создание модели ранжирования, предсказывающей вероятность выбора документа. Это включает:
- Хранение информации о прошлых поисках.
- Определение Prior Probability of selection на основе этой информации.
- Генерацию модели на основе Prior Probability.
Обучение модели на наборе данных, включающем «десятки миллионов экземпляров» (tens of millions of instances).
Идентификация документов по запросу.
Оценка (scoring) документов с использованием обученной модели.
Формирование результатов поиска.

Ядро изобретения — создание и обучение крупномасштабной ML-модели для ранжирования, которая явно использует Prior Probability как базовый компонент.

Claim 2 (Зависимый от 1): Уточняет, на чем основана информация о прошлых поисках (и, следовательно, Prior Probability): позиция документа в выдаче, присвоенная ему оценка (score) или количество выбранных документов выше него.

Claim 4 (Зависимый): Детализирует процесс обучения модели.

Выбор условия-кандидата (candidate condition).
Оценка веса для него.
Формирование нового правила.
Сравнение правдоподобия (likelihood) обучающих данных при использовании модели с новым правилом и без него.
Выборочное добавление нового правила в модель по результатам сравнения.

Это стандартный итеративный процесс обучения аддитивной модели (например, логистической регрессии или градиентного бустинга).

Claim 11 (Зависимый от 1): Детализирует процесс оценки (scoring) документа.

Формирование Instance (u, q, d) для запроса и документа.
Извлечение признаков (features).
Идентификация применимых правил в модели.
Комбинирование весов этих правил с Prior Probability of selection для генерации итоговой оценки.

Claim 23 (Независимый пункт): Метод ранжирования, фокусирующийся на априорной вероятности.

Получение запроса и идентификация документов.
Определение Prior Probabilities для каждого документа. Уточняется, что эта вероятность основана на данных о позиции документа, его предыдущей оценке (prior score) или количестве кликов выше.
Определение итоговой оценки на основе Prior Probability.
Генерация результатов поиска.

Где и как применяется

Это изобретение описывает механизм для основного процесса ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются и сохраняются статические признаки (features) документов (слова, ссылки, URL), которые позже будут использоваться моделью.

RANKING – Ранжирование
Основное место применения. Описанная система машинного обучения используется для оценки документов-кандидатов. Это может происходить на этапах L2 (Lightweight Ranking) или L3 (Deep Ranking), где требуется точная оценка релевантности.

Система получает набор кандидатов.
Для каждого кандидата и текущего запроса/пользователя формируется Instance (u, q, d).
Извлекаются все необходимые признаки (статические из индекса и динамические из контекста запроса).
Применяется Ranking Model: рассчитывается Prior Probability и применяются правила для расчета Posterior Probability.
Posterior Probability используется как Ranking Score или как часть его.

(Вне стандартных этапов) Обучение модели:
Система использует логи поведения пользователей (information retrieval data), собранные после показа результатов поиска. Эти данные обрабатываются офлайн (или в near real-time) в распределенной вычислительной среде для обучения и обновления Ranking Model.

Входные данные:

Набор документов-кандидатов.
Текущий запрос (q) и информация о пользователе (u).
Признаки (Features) для каждой тройки (u, q, d).
Текущая Ranking Model (набор правил и весов).

Выходные данные:

Оценка (Score / Posterior Probability) для каждого документа-кандидата.

На что влияет

Патент описывает универсальный механизм ранжирования, поэтому он влияет на:

Все типы контента и запросов: Модель обучается на всех данных поиска и применяется ко всем запросам для определения релевантности. Различные правила внутри модели могут активироваться для разных типов запросов или тематик, если система выявит, что определенные признаки более важны в этих сегментах.
Баланс факторов ранжирования: Система автоматически определяет вес различных факторов (ссылочных, контентных, поведенческих) на основе их корреляции с выбором пользователя.

Когда применяется

Временные рамки: Применяется в реальном времени при обработке каждого поискового запроса для ранжирования результатов.
Обучение: Процесс обучения происходит постоянно или периодически по мере накопления новых данных о поведении пользователей для обновления модели.

Пошаговый алгоритм

Процесс А: Генерация модели ранжирования (Обучение)

Подготовка данных: Сбор Training Data (миллионы Instances (u, q, d) с метками о выборе). Извлечение признаков (Features) для каждого Instance.
Расчет априорной вероятности: Определение функции Prior Probability: $P(select | position, old score, number of selections above)$ .
Инициализация модели: Начало с пустой модели, включающей только Prior Probability.
Выбор кандидата: Выбор условия-кандидата (Candidate Condition, C) — набора признаков.
Оценка веса: Расчет оптимального веса (w) для условия C, который максимизирует логарифмическое правдоподобие (log likelihood) обучающих данных при добавлении правила (C, w) в модель.
Валидация правила: Сравнение правдоподобия модели с новым правилом и без него.
Принятие решения: Если правдоподобие значительно увеличилось (возможно, с учетом штрафа за сложность условия — Cost(C)), правило добавляется в модель. В противном случае правило отбрасывается.
Итерация: Повторение шагов 4-7 до достижения условий остановки (например, определенное количество итераций или пока все кандидаты не будут рассмотрены).

Процесс Б: Ранжирование документов (Применение модели)

Получение запроса: Система получает поисковый запрос от пользователя.
Идентификация документов: Определяется набор документов, релевантных запросу.
Оценка документов (Scoring): Для каждого документа:
- Формируется Instance (u, q, d) и извлекаются его признаки.
- Рассчитывается Prior Probability для данного Instance.
- Определяются правила в модели, условия которых выполняются.
- Рассчитывается Posterior Probability путем комбинирования Prior Probability и весов применимых правил (согласно формуле логистической регрессии).
Сортировка: Документы сортируются на основе рассчитанных оценок (Posterior Probability).
Генерация выдачи: Формируются результаты поиска на основе отсортированных документов.

Какие данные и как использует

Данные на входе

Патент описывает систему, способную использовать огромное количество разнообразных признаков (Features). Примеры, явно упомянутые в тексте:

Пользовательские факторы (u):

Страна пользователя.
Язык страны пользователя.
IP-адрес, информация из cookie (упомянуты в общем описании information retrieval data).
История пользователя: предыдущие три запроса пользователя; количество раз, когда пользователь ранее получал доступ к документу d.

Факторы запроса (q):

Точная строка запроса.
Слова в запросе.
Количество слов в запросе.
Язык запроса.

Контентные и структурные факторы документа (d):

Слова в документе.
Слова в заголовке (Title) документа.

Технические факторы (d):

Слова в URL документа.
Домен верхнего уровня в URL.
Префиксы URL.

Ссылочные факторы (d):

Слова в ссылках (анкорах), указывающих на документ d.

Факторы релевантности (q и d):

Количество раз, когда слово в запросе q совпадает со словом в документе d.

Временные факторы:

Время суток, когда пользователь отправил запрос.

Поведенческие факторы (SERP Context):

Слова в заголовках документов, показанных выше и ниже документа d для запроса q.
Позиция документа d в результатах поиска.
Количество документов выше d, которые были выбраны пользователем для запроса q.
Метка выбора: был ли документ d выбран пользователем u для запроса q (используется как целевая переменная при обучении).

Системные факторы:

Old Score: оценка, присвоенная документу предыдущей системой ранжирования.

Какие метрики используются и как они считаются

Алгоритмы машинного обучения: Описание и формула указывают на использование Аддитивной Логистической Регрессии (Additive Logistic Regression).
Prior Probability of Selection: Рассчитывается как функция от позиции, Old Score и количества кликов выше. $P(select | position, old score, selections above)$ .
Posterior Probability of Selection: Рассчитывается путем комбинирования Prior Probability с суммой весов всех применимых правил. Формула для расчета отношения шансов (Log-Odds):
$Log(Odds_{posterior}) = -Sum_i (w_i * I(C_i)) + Log(Odds_{prior})$ .
Где $w_i$ — вес правила i, $I(C_i)$ — индикатор (1 если условие выполнено, 0 если нет). (Примечание: в патенте используется отношение P(false)/P(true), отсюда знак минус перед суммой).

Переход к машинно-обучаемому ранжированию (MLR): Патент описывает фундаментальную архитектуру для автоматического создания функции ранжирования на основе данных, вместо ручного подбора весов. Это позволяет учитывать гораздо большее количество сигналов и сложные взаимосвязи между ними.
Поведение пользователей как основа ранжирования: Модель явно обучается предсказывать вероятность выбора (клика) пользователем. Это означает, что агрегированные данные о поведении пользователей напрямую используются для обучения основного алгоритма ранжирования. Факторы ранжирования — это признаки, которые модель определила как коррелирующие с выбором пользователя.
Важность Prior Probability (Априорной вероятности): Система устанавливает базовый уровень ожидания клика, основанный на позиции (Position Bias), предыдущей оценке (Old Score) и контексте сессии (клики выше). Признаки (Features) используются для корректировки этой базовой вероятности. Модель учится тому, что отличает данный документ от среднего документа на этой позиции.
Масштаб и сложность: Подчеркивается необходимость работы с огромными объемами данных («десятки миллионов instances», миллионы features) и использование распределенных вычислений. Это указывает на то, что система полагается на статистически значимые закономерности в агрегированных данных.
Использование существующих оценок (Old Score): Новая модель не заменяет старую полностью, а скорее улучшает её, используя Old Score как один из входов для Prior Probability. Это обеспечивает преемственность и стабильность ранжирования при внедрении MLR.

Best practices (это мы делаем)

Оптимизация под намерение и удовлетворенность пользователя: Поскольку модель обучается на кликах, критически важно создавать контент, который не просто содержит ключевые слова, но и удовлетворяет интент пользователя, побуждая его выбрать ваш результат и взаимодействовать с ним. Необходимо стремиться к тому, чтобы реальный CTR соответствовал или превышал предсказанную моделью вероятность выбора (Posterior Probability).
Улучшение сниппетов (Title, Description): Эти элементы напрямую влияют на вероятность выбора. Оптимизация сниппетов для повышения кликабельности является прямой рекомендацией, следующей из логики работы модели, предсказывающей клики.
Комплексная работа над всеми группами факторов: Патент перечисляет множество типов признаков (контент, ссылки, URL, пользовательская история). Это подтверждает необходимость комплексного подхода к SEO, так как модель ищет корреляции во всех доступных данных. Изоляция отдельных факторов неэффективна.
Анализ поведенческих метрик: Мониторинг и улучшение поведенческих показателей на сайте (время на сайте, глубина просмотра, решение задачи пользователя). Хотя патент фокусируется на выборе (клике) в SERP, общая цель — предсказание успеха пользователя, что тесно связано с качеством взаимодействия на сайте.
Построение авторитетности и E-E-A-T: Сигналы авторитетности (например, качественные ссылки, упомянутые как features) будут получать высокий вес в модели, если они статистически коррелируют с более частым выбором пользователями.

Worst practices (это делать не надо)

Искусственная накрутка CTR (Кликфрод): Попытки манипулировать данными, на которых обучается модель, рискованны. Хотя система работает с агрегированными данными, Google имеет сложные системы для фильтрации аномального поведения и кликфрода, которые могут привести к санкциям или игнорированию манипулятивных сигналов.
Фокус только на ключевых словах (Keyword Stuffing): Создание контента, оптимизированного под ключевые слова, но не удовлетворяющего пользователя. Если такой контент получает показы, но не получает клики, модель научится ассоциировать признаки этого контента с низкой вероятностью выбора.
Использование кликбейтных заголовков, не соответствующих содержанию: Это может привести к краткосрочному увеличению кликов, но последующему быстрому возврату в выдачу (пого-стикинг). Хотя данный патент явно не описывает анализ поведения после клика, современные системы (развивающие эти идеи) учитывают удовлетворенность после клика.

Стратегическое значение

Этот патент является одним из foundational-документов, подтверждающих стратегию Google по использованию ИИ и данных о поведении пользователей в ядре ранжирования. Для SEO это означает, что релевантность определяется не только семантическим соответствием контента запросу, но и тем, насколько успешно документ решает задачу пользователя в сравнении с конкурентами. Долгосрочная стратегия должна фокусироваться на создании лучшего пользовательского опыта и повышении реальной ценности контента, так как именно эти параметры (через прокси-метрики кликов и взаимодействий) обучают алгоритмы ранжирования.

Практические примеры

Сценарий: Обучение модели на основе нового тренда в сниппетах

Ситуация: В нише e-commerce сайты начинают добавлять эмодзи и информацию о скидках в Title.
Сбор данных: Google собирает миллионы Instances. В них появляются новые признаки (Features): «наличие эмодзи в Title», «наличие % скидки в Title».
Обучение: Система машинного обучения анализирует эти Instances. Она замечает, что при прочих равных (одинаковая Prior Probability), документы с этими новыми признаками получают больше кликов.
Генерация правил: Система создает новые правила (Rules). Например: Условие C1 = («эмодзи в Title» И «запрос коммерческий»), Вес W1 = +0.5.
Применение: Когда пользователь вводит коммерческий запрос, модель применяет это правило. Документы с эмодзи в Title получают бустинг к своему Posterior Probability и ранжируются выше.
Результат для SEO: Специалисты, которые следят за трендами в оформлении сниппетов и тестируют их влияние на CTR, получают преимущество в ранжировании.

Подтверждает ли этот патент, что Google использует CTR как фактор ранжирования?

Да, но с важными уточнениями. Патент описывает систему, которая обучается предсказывать вероятность клика (likelihood that a document will be selected). Реальные данные о кликах используются как метки для обучения модели машинного обучения. Модель выявляет, какие признаки (факторы) коррелируют с кликами, и присваивает им соответствующие веса. Таким образом, не сам по себе «сырой» CTR является фактором, а предсказанная моделью вероятность клика, основанная на множестве признаков и контексте.

Что такое Prior Probability (Априорная вероятность) и почему она важна?

Prior Probability — это базовая ожидаемая вероятность клика до учета специфики документа или запроса. Она учитывает позицию документа (Position Bias), его предыдущую оценку (Old Score) и активность пользователя в сессии. Это важно, потому что позволяет модели отделить общие паттерны поведения (например, что на позицию 1 кликают чаще) от реального влияния признаков документа на выбор пользователя. Модель учится тому, насколько документ лучше или хуже среднего для данной позиции.

Что такое «Old Score» (Старая оценка), упоминаемая в патенте?

Old Score — это оценка релевантности, которую документу присвоила предыдущая версия системы ранжирования (например, эвристический алгоритм до внедрения MLR). Новая модель использует эту оценку как один из входов для расчета Prior Probability. Это позволяет плавно улучшать ранжирование, опираясь на уже существующие сигналы качества, а не начинать обучение с нуля.

Учитывает ли система поведение пользователя после клика (например, время на сайте)?

Данный конкретный патент фокусируется исключительно на предсказании самого факта выбора (клика) в результатах поиска. Поведение пользователя на сайте (время, глубина просмотра, возвраты в выдачу) в этом патенте явно не упоминается как часть обучающих данных или признаков. Однако современные системы Google, являющиеся развитием этой архитектуры, могут учитывать более сложные метрики удовлетворенности пользователя.

Насколько большим должен быть объем данных для работы этой системы?

Патент специально подчеркивает работу с «Large Data Sets». Упоминаются масштабы более 50 миллионов Instances (экземпляров показа) и более 5 миллионов различных Features (признаков). Это указывает на то, что система полагается на агрегированные данные и статистически значимые закономерности, а не на индивидуальные действия пользователей.

Может ли эта система привести к «пузырю фильтров» или усилению популярных результатов?

Потенциально да. Поскольку модель обучается на том, что пользователи выбирают, она склонна усиливать популярные результаты. Однако использование Prior Probability, учитывающей Old Score, и включение огромного разнообразия признаков (включая семантические и авторитетные) призвано сбалансировать этот эффект и обеспечить высокое качество и релевантность, а не только популярность.

Как быстро модель адаптируется к изменениям в поведении пользователей?

Патент описывает итеративный процесс обучения, который происходит офлайн с использованием собранных логов. Скорость адаптации зависит от частоты переобучения модели и объема новых данных. В распределенной системе, описанной в патенте, предусмотрены механизмы для быстрого обновления модели после добавления новых правил.

Что такое «Condition» (Условие) в контексте модели?

Condition — это комбинация признаков. Например: («слово X в запросе» И «слово Y в Title» И «пользователь из страны Z»). Модель машинного обучения автоматически находит такие комбинации, которые сильно коррелируют с вероятностью клика, и присваивает им вес. Это позволяет учитывать сложные нелинейные зависимости между факторами.

Как SEO-специалисту влиять на эту модель?

Влиять нужно через улучшение признаков (Features) сайта и оптимизацию пользовательского опыта. Если ваш сайт обладает признаками, которые модель ассоциирует с высокой вероятностью выбора (например, авторитетные ссылки, качественный контент, оптимизированные сниппеты), он будет ранжироваться выше. Необходимо добиваться того, чтобы пользователи действительно выбирали ваш сайт, подтверждая предсказания модели.

Является ли эта модель тем же самым, что и RankBrain?

Нет, это более ранняя система (патент 2003 года). Она описывает архитектуру MLR и использует более простые модели (аддитивные правила, похожие на логистическую регрессию). RankBrain (появившийся около 2015 года) использует более сложные методы, такие как глубокие нейронные сети (DNN), для лучшего понимания запросов и контента. Однако базовые принципы — обучение на больших данных и предсказание удовлетворенности пользователя — остаются общими.

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google ранжирует персональные документы (письма, файлы), используя обобщенные данные о взаимодействии на уровне признаков

Google решает проблему ранжирования личных документов (например, электронных писем), для которых нет истории кликов. Вместо анализа кликов по конкретному документу система анализирует взаимодействие на уровне признаков. Она агрегирует данные о том, как миллионы пользователей взаимодействуют с документами, имеющими схожие признаки (например, структуру темы письма или отправителя), и использует эти данные для ранжирования похожих документов в вашем личном поиске.

US10394832B2
2019-08-27

Поведенческие сигналы
Персонализация

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

US8688716B1
2014-04-01

SERP
Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

US8825646B1
2014-09-02

Ссылки

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы