
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
Патент решает проблему создания эффективной функции ранжирования, способной точно определять релевантность документа запросу. Вместо создания функции ранжирования вручную на основе эвристик, изобретение предлагает метод автоматического обучения (Machine Learning) функции ранжирования на основе огромных массивов данных о реальном поведении пользователей (information retrieval data). Это позволяет системе адаптироваться и улучшать качество ранжирования, выявляя сложные зависимости между признаками документа/запроса и вероятностью выбора этого документа пользователем.
Запатентована система и метод создания модели ранжирования (ranking model) с использованием крупномасштабного машинного обучения. Модель предназначена для предсказания вероятности того, что пользователь выберет (кликнет) определенный документ в ответ на запрос. Обучение происходит на очень больших наборах данных (упоминаются десятки миллионов instances и миллионы features). Ключевым элементом является использование Prior Probability of selection (априорной вероятности выбора) в сочетании с автоматически генерируемыми правилами для расчета итоговой оценки.
Система работает в двух режимах: обучение и ранжирование.
Обучение:
Prior Probability — базовая вероятность выбора документа, основанная на его позиции, старой оценке (old score) и количестве кликов по документам выше.rules). Каждое правило состоит из условия (condition — набор признаков) и веса (weight).Ранжирование:
Prior Probability.Prior Probability для расчета итоговой вероятности выбора (Posterior Probability).Критически высокая. Хотя патент подан в 2003 году, он описывает фундаментальную архитектуру перехода Google от эвристических алгоритмов к машинно-обучаемому ранжированию (Machine-Learned Ranking, MLR). Описанные принципы — обучение на поведении пользователей, предсказание вероятности клика, использование огромного количества признаков и крупномасштабное обучение — лежат в основе современных систем ранжирования Google. Изобретатели (включая Noam Shazeer) являются ключевыми фигурами в развитии ИИ в Google.
Патент имеет фундаментальное значение для SEO (10/10). Он подтверждает, что основная функция ранжирования Google обучается предсказывать удовлетворенность пользователя (измеряемую через клики/выборы). Это означает, что сигналы, которые коррелируют с высокой вероятностью выбора (помимо простого совпадения ключевых слов), становятся факторами ранжирования. Стратегия SEO должна быть направлена на оптимизацию не только под алгоритмы, но и под поведение пользователей, так как именно это поведение обучает модель.
features) и, возможно, их дополнений (отрицаний). Пример: «слово 'дерево' есть в запросе И домен документа 'trees.com'».Instance (u, q, d). Могут включать данные о пользователе (страна, язык), запросе (слова, длина), документе (слова в тексте, URL, заголовке, входящих ссылках), а также контекстные данные (время суток, предыдущие запросы пользователя).Prior Probability.features) документа или запроса. Основана на общих факторах: позиции документа в выдаче, его Old Score и количестве выбранных документов выше него в той же сессии.Prior Probability и весов применимых правил (Rules). Используется как итоговый Ranking Score.Rules) и Prior Probability, используемый для предсказания вероятности выбора документа.Condition, C) и веса (Weight, w). Если условие выполняется для данного Instance, вес правила применяется при расчете Posterior Probability.Instances, используемый для генерации модели и оптимизации весов правил.Claim 1 (Независимый пункт): Описывает основной метод ранжирования.
Prior Probability of selection на основе этой информации.Prior Probability.tens of millions of instances).scoring) документов с использованием обученной модели.Ядро изобретения — создание и обучение крупномасштабной ML-модели для ранжирования, которая явно использует Prior Probability как базовый компонент.
Claim 2 (Зависимый от 1): Уточняет, на чем основана информация о прошлых поисках (и, следовательно, Prior Probability): позиция документа в выдаче, присвоенная ему оценка (score) или количество выбранных документов выше него.
Claim 4 (Зависимый): Детализирует процесс обучения модели.
candidate condition).likelihood) обучающих данных при использовании модели с новым правилом и без него.Это стандартный итеративный процесс обучения аддитивной модели (например, логистической регрессии или градиентного бустинга).
Claim 11 (Зависимый от 1): Детализирует процесс оценки (scoring) документа.
Instance (u, q, d) для запроса и документа.features).Prior Probability of selection для генерации итоговой оценки.Claim 23 (Независимый пункт): Метод ранжирования, фокусирующийся на априорной вероятности.
Prior Probabilities для каждого документа. Уточняется, что эта вероятность основана на данных о позиции документа, его предыдущей оценке (prior score) или количестве кликов выше.Prior Probability.Это изобретение описывает механизм для основного процесса ранжирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются и сохраняются статические признаки (features) документов (слова, ссылки, URL), которые позже будут использоваться моделью.
RANKING – Ранжирование
Основное место применения. Описанная система машинного обучения используется для оценки документов-кандидатов. Это может происходить на этапах L2 (Lightweight Ranking) или L3 (Deep Ranking), где требуется точная оценка релевантности.
Instance (u, q, d).Ranking Model: рассчитывается Prior Probability и применяются правила для расчета Posterior Probability.Posterior Probability используется как Ranking Score или как часть его.(Вне стандартных этапов) Обучение модели:
Система использует логи поведения пользователей (information retrieval data), собранные после показа результатов поиска. Эти данные обрабатываются офлайн (или в near real-time) в распределенной вычислительной среде для обучения и обновления Ranking Model.
Входные данные:
Features) для каждой тройки (u, q, d).Ranking Model (набор правил и весов).Выходные данные:
Score / Posterior Probability) для каждого документа-кандидата.Патент описывает универсальный механизм ранжирования, поэтому он влияет на:
Процесс А: Генерация модели ранжирования (Обучение)
Training Data (миллионы Instances (u, q, d) с метками о выборе). Извлечение признаков (Features) для каждого Instance.Prior Probability: .Prior Probability.Candidate Condition, C) — набора признаков.log likelihood) обучающих данных при добавлении правила (C, w) в модель.Cost(C)), правило добавляется в модель. В противном случае правило отбрасывается.Процесс Б: Ранжирование документов (Применение модели)
Instance (u, q, d) и извлекаются его признаки.Prior Probability для данного Instance.Posterior Probability путем комбинирования Prior Probability и весов применимых правил (согласно формуле логистической регрессии).Posterior Probability).Патент описывает систему, способную использовать огромное количество разнообразных признаков (Features). Примеры, явно упомянутые в тексте:
Пользовательские факторы (u):
information retrieval data).Факторы запроса (q):
Контентные и структурные факторы документа (d):
Технические факторы (d):
Ссылочные факторы (d):
Факторы релевантности (q и d):
Временные факторы:
Поведенческие факторы (SERP Context):
Системные факторы:
Old Score: оценка, присвоенная документу предыдущей системой ранжирования.Old Score и количества кликов выше. .Prior Probability с суммой весов всех применимых правил. Формула для расчета отношения шансов (Log-Odds): Old Score) и контексте сессии (клики выше). Признаки (Features) используются для корректировки этой базовой вероятности. Модель учится тому, что отличает данный документ от среднего документа на этой позиции.Old Score как один из входов для Prior Probability. Это обеспечивает преемственность и стабильность ранжирования при внедрении MLR.Posterior Probability).features) будут получать высокий вес в модели, если они статистически коррелируют с более частым выбором пользователями.Этот патент является одним из foundational-документов, подтверждающих стратегию Google по использованию ИИ и данных о поведении пользователей в ядре ранжирования. Для SEO это означает, что релевантность определяется не только семантическим соответствием контента запросу, но и тем, насколько успешно документ решает задачу пользователя в сравнении с конкурентами. Долгосрочная стратегия должна фокусироваться на создании лучшего пользовательского опыта и повышении реальной ценности контента, так как именно эти параметры (через прокси-метрики кликов и взаимодействий) обучают алгоритмы ранжирования.
Сценарий: Обучение модели на основе нового тренда в сниппетах
Instances. В них появляются новые признаки (Features): «наличие эмодзи в Title», «наличие % скидки в Title».Instances. Она замечает, что при прочих равных (одинаковая Prior Probability), документы с этими новыми признаками получают больше кликов.Rules). Например: Условие C1 = («эмодзи в Title» И «запрос коммерческий»), Вес W1 = +0.5.Posterior Probability и ранжируются выше.Подтверждает ли этот патент, что Google использует CTR как фактор ранжирования?
Да, но с важными уточнениями. Патент описывает систему, которая обучается предсказывать вероятность клика (likelihood that a document will be selected). Реальные данные о кликах используются как метки для обучения модели машинного обучения. Модель выявляет, какие признаки (факторы) коррелируют с кликами, и присваивает им соответствующие веса. Таким образом, не сам по себе «сырой» CTR является фактором, а предсказанная моделью вероятность клика, основанная на множестве признаков и контексте.
Что такое Prior Probability (Априорная вероятность) и почему она важна?
Prior Probability — это базовая ожидаемая вероятность клика до учета специфики документа или запроса. Она учитывает позицию документа (Position Bias), его предыдущую оценку (Old Score) и активность пользователя в сессии. Это важно, потому что позволяет модели отделить общие паттерны поведения (например, что на позицию 1 кликают чаще) от реального влияния признаков документа на выбор пользователя. Модель учится тому, насколько документ лучше или хуже среднего для данной позиции.
Что такое «Old Score» (Старая оценка), упоминаемая в патенте?
Old Score — это оценка релевантности, которую документу присвоила предыдущая версия системы ранжирования (например, эвристический алгоритм до внедрения MLR). Новая модель использует эту оценку как один из входов для расчета Prior Probability. Это позволяет плавно улучшать ранжирование, опираясь на уже существующие сигналы качества, а не начинать обучение с нуля.
Учитывает ли система поведение пользователя после клика (например, время на сайте)?
Данный конкретный патент фокусируется исключительно на предсказании самого факта выбора (клика) в результатах поиска. Поведение пользователя на сайте (время, глубина просмотра, возвраты в выдачу) в этом патенте явно не упоминается как часть обучающих данных или признаков. Однако современные системы Google, являющиеся развитием этой архитектуры, могут учитывать более сложные метрики удовлетворенности пользователя.
Насколько большим должен быть объем данных для работы этой системы?
Патент специально подчеркивает работу с «Large Data Sets». Упоминаются масштабы более 50 миллионов Instances (экземпляров показа) и более 5 миллионов различных Features (признаков). Это указывает на то, что система полагается на агрегированные данные и статистически значимые закономерности, а не на индивидуальные действия пользователей.
Может ли эта система привести к «пузырю фильтров» или усилению популярных результатов?
Потенциально да. Поскольку модель обучается на том, что пользователи выбирают, она склонна усиливать популярные результаты. Однако использование Prior Probability, учитывающей Old Score, и включение огромного разнообразия признаков (включая семантические и авторитетные) призвано сбалансировать этот эффект и обеспечить высокое качество и релевантность, а не только популярность.
Как быстро модель адаптируется к изменениям в поведении пользователей?
Патент описывает итеративный процесс обучения, который происходит офлайн с использованием собранных логов. Скорость адаптации зависит от частоты переобучения модели и объема новых данных. В распределенной системе, описанной в патенте, предусмотрены механизмы для быстрого обновления модели после добавления новых правил.
Что такое «Condition» (Условие) в контексте модели?
Condition — это комбинация признаков. Например: («слово X в запросе» И «слово Y в Title» И «пользователь из страны Z»). Модель машинного обучения автоматически находит такие комбинации, которые сильно коррелируют с вероятностью клика, и присваивает им вес. Это позволяет учитывать сложные нелинейные зависимости между факторами.
Как SEO-специалисту влиять на эту модель?
Влиять нужно через улучшение признаков (Features) сайта и оптимизацию пользовательского опыта. Если ваш сайт обладает признаками, которые модель ассоциирует с высокой вероятностью выбора (например, авторитетные ссылки, качественный контент, оптимизированные сниппеты), он будет ранжироваться выше. Необходимо добиваться того, чтобы пользователи действительно выбирали ваш сайт, подтверждая предсказания модели.
Является ли эта модель тем же самым, что и RankBrain?
Нет, это более ранняя система (патент 2003 года). Она описывает архитектуру MLR и использует более простые модели (аддитивные правила, похожие на логистическую регрессию). RankBrain (появившийся около 2015 года) использует более сложные методы, такие как глубокие нейронные сети (DNN), для лучшего понимания запросов и контента. Однако базовые принципы — обучение на больших данных и предсказание удовлетворенности пользователя — остаются общими.

Индексация
Поведенческие сигналы

Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP

SERP
Поведенческие сигналы

Ссылки
Антиспам
SERP

Ссылки
Индексация
Поведенческие сигналы

Поведенческие сигналы
SERP
Мультимедиа

Семантика и интент
Поведенческие сигналы
Персонализация

Мультиязычность
Поведенческие сигналы

SERP
EEAT и качество
Персонализация

Ссылки

Ссылки
Мультимедиа
Поведенческие сигналы

SERP
EEAT и качество
Поведенческие сигналы

Knowledge Graph
Семантика и интент
Поведенческие сигналы
