Как Google использует Reinforcement Learning для оптимизации долгосрочной вовлеченности пользователя и подавления кликбейта

Google использует модель машинного обучения (Reinforcement Learning) для прогнозирования, как показ конкретного результата повлияет на будущую активность пользователя. Если контент (даже кликабельный) снижает долгосрочную вовлеченность, система может его не показать, предпочитая контент, который сохраняет лояльность пользователя к платформе.

Описание

Какую задачу решает

Патент решает проблему оптимизации выбора контента (результатов поиска, рекомендаций, рекламы), которая традиционно фокусируется на краткосрочных метриках (например, максимизации немедленного CTR). Такая оптимизация может способствовать продвижению кликбейта или контента, который привлекает клик, но разочаровывает пользователя, что в конечном итоге снижает его лояльность и частоту использования системы. Изобретение направлено на максимизацию long-term user engagement (долгосрочной вовлеченности пользователя).

Что запатентовано

Запатентована система выбора контента, использующая модель машинного обучения, обученную с подкреплением (Reinforcement Learning, RL). Эта модель (long-term engagement machine learning model) прогнозирует не вероятность клика на текущий элемент, а Engagement Score — ожидаемую сумму будущих взаимодействий пользователя с системой (скорректированную по времени), если этот элемент будет показан. Система стремится выбирать контент, который максимизирует долгосрочную ценность пользователя для платформы.

Как это работает

Система оценивает потенциальный элемент контента в текущем контексте (включая историю пользователя). Ключевой механизм — сравнение двух сценариев с помощью модели RL:

Сценарий 1: Рассчитывается Engagement Score — прогноз будущей вовлеченности, если элемент показать.
Сценарий 2: Рассчитывается Null Engagement Score — прогноз будущей вовлеченности, если элемент не показывать (используя null content item или действие «воздержаться от показа»).

Разница между этими оценками определяет влияние показа на долгосрочную вовлеченность. Если показ элемента приводит к значительному снижению ожидаемой будущей активности по сравнению с его отсутствием, система может принять решение не показывать этот элемент.

Актуальность для SEO

Высокая. Оптимизация пользовательского опыта, удовлетворенности (Satisfaction) и борьба с низкокачественным контентом (например, через Helpful Content System) являются приоритетами Google. Использование передовых методов ML, таких как Reinforcement Learning (изобретатели связаны с DeepMind/Google), для моделирования долгосрочного поведения пользователей крайне актуально и отражает современные тенденции в развитии поисковых и рекомендательных систем.

Важность для SEO

Патент имеет критическое значение для SEO (90/100). Он описывает механизм, который напрямую наказывает стратегии, ориентированные на привлечение кликов любой ценой (кликбейт, обманчивые заголовки). Система отдает предпочтение контенту, который полностью удовлетворяет интент и обеспечивает положительный пользовательский опыт после клика (Post-Click Satisfaction). Это подчеркивает, что анализ поведенческих факторов включает оценку долгосрочного влияния контента на лояльность пользователя к Google.

Детальный разбор

Термины и определения

Context (Контекст): Данные, характеризующие текущее состояние среды, в которой может быть представлен контент. Включает характеристики самого контента, время, позицию показа, а также историю недавних взаимодействий и запросов пользователя.
Engagement Score (Оценка вовлеченности): Выходные данные модели RL. Представляет собой прогноз будущей вовлеченности пользователя. Конкретно определяется как прогнозируемая, скорректированная по времени сумма вознаграждений (predicted, time-adjusted sum of rewards) или общее количество будущих выборов контента.
Long-term engagement machine learning model (Модель машинного обучения долгосрочной вовлеченности): Модель (например, нейронная сеть, LSTM, RNN), обученная с помощью Reinforcement Learning для прогнозирования Engagement Score. Также упоминается как Prediction Subsystem.
Null Content Item (Нулевой элемент контента): Данные-заполнители, которые подаются на вход модели, чтобы симулировать сценарий, при котором контент не показывается в текущем контексте (действие «воздержаться от показа»).
Null Engagement Score (Нулевая оценка вовлеченности): Прогноз будущей вовлеченности пользователя, если в текущем контексте контент не будет показан.
Presentation Environment (Среда представления): Интерфейс, в котором представляется контент. Примеры: страница результатов поиска (SERP), лента рекомендаций, страница просмотра видео.
Reinforcement Learning (RL, Обучение с подкреплением): Метод машинного обучения, при котором модель учится принимать решения путем взаимодействия со средой и получения вознаграждений (reward). Цель — максимизировать суммарное вознаграждение в долгосрочной перспективе.
Reward (Вознаграждение): Немедленная обратная связь. Например, 1, если пользователь выбрал (кликнул) элемент контента, и 0, если нет.
Temporal Difference (TD) Learning (Обучение на временных разностях): Метод в RL, используемый для обучения модели. Основан на разнице между текущей оценкой ценности состояния и обновленной оценкой (полученное вознаграждение плюс ценность следующего состояния).

Ключевые утверждения (Анализ Claims)

Патент является продолжением (continuation) более ранней заявки. В представленном документе Claim 1 отменен.

Claim 2 (Независимый пункт): Описывает основной процесс принятия решения.

Система получает данные, характеризующие первый элемент контента и первый контекст.
Эти данные подаются на вход long-term engagement machine learning model.
Модель генерирует first engagement score. Эта оценка представляет собой прогнозируемую, скорректированную по времени сумму вознаграждений (time-adjusted sum of rewards), которые будут получены в будущих временных окнах, при условии, что первый элемент контента представлен в текущем окне.
На основе как минимум этой оценки система определяет, представлять ли элемент контента пользователю.

Claim 3 (Зависимый от 2): Детализирует механизм сравнения.

Система генерирует оценку second engagement score (аналог Null Engagement Score). Эта оценка представляет прогноз будущих вознаграждений, если первый элемент контента НЕ представлен в текущем окне.
Решение о показе принимается на основе сравнения first engagement score и second engagement score.

Claim 4 (Зависимый от 3): Уточняет, как модель обрабатывает разные сценарии (действия).

Для получения первой оценки на вход модели подаются данные, указывающие на действие «показать элемент».
Для получения второй оценки на вход модели подаются данные, указывающие на действие «воздержаться от показа элемента» (refrain from presenting).

Claim 5 (Зависимый от 3): Определяет строгое правило принятия решения.

Система решает представить элемент контента ТОЛЬКО тогда, когда first engagement score больше, чем second engagement score. Это означает, что показ элемента должен улучшать (или как минимум не ухудшать) ожидаемую долгосрочную вовлеченность по сравнению с его отсутствием.

Claim 7 (Зависимый от 2): Подтверждает, что модель обучена с использованием Reinforcement Learning.

Где и как применяется

Изобретение применяется на финальных этапах формирования выдачи для пользователя, функционируя как система фильтрации (Gating) или переранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе рассчитываются статические характеристики контента, которые затем используются как входные данные для модели RL. К ним относятся quality of the content item (качество элемента) и quality of the resource linked to (качество связанного ресурса).

RANKING – Ранжирование
Основные системы ранжирования генерируют список кандидатов и рассчитывают краткосрочные метрики, такие как прогнозируемая вероятность клика (predicted likelihood that the user will select), которые также используются как входные данные для модели RL.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основная область применения патента. Prediction Subsystem (модель RL) оценивает каждого кандидата в текущем контексте пользователя.

Оценка кандидатов: Система использует модель RL для расчета Engagement Scores для сценариев показа и непоказа.
Принятие решения: Система сравнивает оценки. Элементы контента, которые прогнозируемо снижают долгосрочную вовлеченность, могут быть исключены из выдачи (фильтрация) или значительно понижены.

Входные данные:

Данные о контенте (Качество элемента, качество ресурса, pClick, навигационный скор).
Данные о контексте (Время/дата, позиция представления).
Данные о пользователе (История показанных элементов, статус их выбора, недавние запросы).

Выходные данные:

Решение о показе элемента контента (Да/Нет) или скорректированный набор результатов.

На что влияет

Среда представления: Применяется в поисковой выдаче (SERP) для органических результатов и рекламы, а также в рекомендательных системах (видео, изображения, новости, Discover).
Типы контента: Наибольшее влияние на контент с высокой краткосрочной привлекательностью, но низкой удовлетворенностью после взаимодействия (кликбейт, тонкий контент, вводящие в заблуждение заголовки).
Ниши и тематики: Актуально для всех ниш, особенно там, где высок риск разочарования пользователя (новости, развлечения, YMYL).

Когда применяется

Условия применения: Алгоритм применяется в момент принятия решения о включении элемента контента в Presentation Environment.
Механизм принятия решения: Решение зависит от сравнения прогнозируемой долгосрочной вовлеченности при показе элемента и без него. Если показ элемента снижает долгосрочную вовлеченность (согласно Claim 5), элемент не показывается.
Альтернативный механизм (из описания): В описании патента также упоминается возможность использования порога (Threshold T). Элемент не показывается, если негативное влияние превышает этот порог. Порог может рассчитываться с учетом баланса краткосрочной выгоды (STV) и долгосрочных потерь: T=(k-STV)/AV, где AV — средняя ценность будущего взаимодействия.

Пошаговый алгоритм

Процесс А: Принятие решения в реальном времени (Online)

Получение данных: Система получает данные, характеризующие текущий контекст и элемент контента (кандидат на показ).
Формирование Входа 1 (Показ элемента): Создается входной вектор, включающий контекст, характеристики кандидата и действие «показать».
Расчет Current Engagement Score: Вход 1 обрабатывается моделью RL для получения прогноза будущей вовлеченности, если элемент будет показан.
Формирование Входа 2 (Отсутствие элемента): Создается входной вектор, включающий контекст и действие «не показывать» (или используя Null Content Item).
Расчет Null Engagement Score: Вход 2 обрабатывается моделью RL для получения прогноза будущей вовлеченности, если элемент не будет показан.
Принятие решения: Система сравнивает оценки.
- Если Current Engagement Score > Null Engagement Score (или разница не превышает допустимый порог снижения T): Показать элемент.
- Иначе: Отказаться от показа элемента (фильтрация).

Процесс Б: Обучение модели (Offline Training via Reinforcement Learning)

Сбор данных (Tuple): Система получает кортеж данных о взаимодействии: (Контекст 1, Элемент 1, Статус выбора Элемента 1 [Reward R], Контекст 2). Контекст 2 следует сразу за Контекстом 1.
Расчет оценок: Модель обрабатывает Контекст 1 для получения Оценки 1 (V(st)) и Контекст 2 для получения Оценки 2 (V(st+1)).
Расчет ошибки: Вычисляется ошибка прогнозирования с использованием Temporal Difference learning error: E = V(st) — (R + γV(st+1)), где γ — коэффициент дисконтирования времени (time discount factor).
Обновление модели: Параметры модели корректируются (например, методом градиентного спуска с обратным распространением ошибки) для минимизации этой ошибки.

Какие данные и как использует

Данные на входе

Модель RL использует разнообразные данные для характеристики контекста и элемента контента:

Контентные и Качественные факторы:
- Score that represents the quality of the content item (Оценка качества элемента).
- Если элемент содержит ссылку: Score that represents a quality of the resource linked to (Оценка качества связанного ресурса).
Поведенческие и Прогнозные факторы:
- Predicted likelihood that the user will select the content item (Прогнозируемая вероятность выбора, pClick/CTR).
- История пользователя: Характеристики ранее показанных элементов и данные о том, были ли они выбраны пользователем.
Технические и Контекстуальные факторы:
- Presentation position (Позиция представления элемента).
- Текущее время и дата.
Факторы, связанные с запросом (если применимо):
- Текст текущего и недавних поисковых запросов пользователя.
- Navigational score (Оценка вероятности того, что элемент является навигационным ответом на запрос).

Какие метрики используются и как они считаются

Engagement Score (V(s)): Основная метрика, прогнозируемая моделью. Представляет собой ожидаемую суммарную будущую вовлеченность, скорректированную по времени (time-adjusted sum of rewards).
Reward (R): Немедленное вознаграждение за действие. Например, 1 если пользователь выбрал контент, 0 если нет.
Time discount factor (γ): Коэффициент дисконтирования, используемый в RL, чтобы придавать меньший вес будущим вознаграждениям по сравнению с немедленными.
Temporal Difference Learning Error (E): Сигнал ошибки, используемый для обучения модели RL. Рассчитывается по формуле: E = V(st) — (R + γV(st+1)).
Алгоритмы машинного обучения: Используется Reinforcement Learning. Сама модель может быть реализована как нейронная сеть, рекуррентная нейронная сеть (RNN) или LSTM, что позволяет обрабатывать последовательности взаимодействий.

Выводы

Приоритет долгосрочной ценности над краткосрочной выгодой: Патент демонстрирует фундаментальный сдвиг от оптимизации немедленного CTR к оптимизации долгосрочной лояльности пользователя (Lifetime Value). Google готов пожертвовать показом кликабельного контента сейчас, если это сохранит активность пользователя в будущем.
Наказание за негативный опыт и кликбейт: Система явно предназначена для выявления и подавления контента, который разочаровывает пользователя после клика (низкая Post-Click Satisfaction). Такой контент снижает Engagement Score, так как приводит к уменьшению будущих взаимодействий.
Сравнение с альтернативой (Null Score) как механизм фильтрации (Gating): Решение о показе принимается в сравнении со сценарием, когда контент не показывается. Элемент должен доказать свою ценность для долгосрочной вовлеченности, чтобы быть показанным.
История пользователя как критический контекст: Модель RL учитывает недавние действия пользователя (показанный контент, клики, запросы) как часть текущего состояния (Context). Это позволяет моделировать сложное поведение, удовлетворенность или усталость пользователя в рамках сессии.
Качество контента и ресурса как входные сигналы: Предварительно рассчитанные оценки качества (Quality Score) являются важными входными данными для модели RL, что подтверждает важность сигналов качества (E-E-A-T, Helpful Content) для прогнозирования удовлетворенности пользователя.

Практика

Best practices (это мы делаем)

Оптимизация под удовлетворенность (Post-Click Satisfaction), а не только под клики: Необходимо гарантировать, что контент полностью соответствует обещаниям, данным в заголовке и сниппете. Удовлетворенный пользователь с большей вероятностью продолжит взаимодействие с системой, что повышает Engagement Score вашего контента.
Анализ пост-клик поведения: Тщательно отслеживайте метрики, указывающие на разочарование пользователя (например, pogo-sticking — быстрый возврат в выдачу). Устранение причин негативного опыта критично для соответствия требованиям этого алгоритма.
Повышение качества контента и сайта (E-E-A-T): Поскольку Quality Score элемента и связанного ресурса являются входными данными для модели RL, работа над E-E-A-T и создание полезного контента (Helpful Content) напрямую влияет на вероятность показа.
Создание положительного пользовательского опыта (UX/CWV): Обеспечьте быструю загрузку, чистый дизайн и отсутствие агрессивной рекламы или навязчивых всплывающих окон. Плохой UX может привести к фрустрации пользователя и снижению долгосрочной вовлеченности, что будет зафиксировано моделью RL.

Worst practices (это делать не надо)

Использование кликбейта: Заголовки, которые привлекают клик, но не соответствуют содержанию, являются основной целью этого патента. Они могут давать высокий немедленный Reward (клик), но сильно снижают долгосрочный Engagement Score и приводят к фильтрации контента.
Введение пользователя в заблуждение: Использование обманчивых сниппетов или мета-тегов для привлечения нецелевого трафика приведет к разочарованию пользователя и пессимизации контента этой системой.
Создание тонкого или бесполезного контента (MFA-сайты): Страницы, не дающие исчерпывающего ответа на запрос или созданные только для показа рекламы, будут негативно влиять на будущую активность пользователя.
Агрессивная монетизация, мешающая потреблению контента: Перегрузка страниц рекламой и другими раздражающими элементами снижает удовлетворенность и долгосрочную вовлеченность.

Стратегическое значение

Этот патент подтверждает стратегический вектор Google на измерение и оптимизацию реальной удовлетворенности пользователей. Он предоставляет техническую базу для алгоритмов типа Helpful Content System. Долгосрочная SEO-стратегия должна быть сфокусирована на создании контента и пользовательского опыта, которые не просто привлекают трафик, но и полностью решают задачу пользователя. Модель Reinforcement Learning позволяет Google алгоритмически оценивать это влияние в динамике на основе поведения пользователя.

Практические примеры

Сценарий: Подавление кликбейтной статьи в результатах поиска

Запрос: «Сенсационное открытие в лечении диабета» (YMYL).
Кандидат 1 (Кликбейт): Статья с заголовком «Врачи скрывали это! Простое средство излечит диабет за ночь». Имеет высокий прогнозируемый CTR (pClick), но низкий Quality Score ресурса.
Кандидат 2 (Авторитетный источник): Статья из медицинского журнала с заголовком «Предварительные результаты исследования нового препарата X». Имеет средний pClick, но высокий Quality Score.
Анализ моделью RL:
- Модель прогнозирует, что пользователи, кликнувшие на Кандидата 1, будут разочарованы (Post-Click Dissatisfaction) и их будущая активность в поиске снизится (Низкий Current Engagement Score).
- Модель прогнозирует, что пользователи, кликнувшие на Кандидата 2, получат достоверную информацию и их лояльность сохранится (Высокий Current Engagement Score).
Принятие решения: Система определяет, что Current Engagement Score Кандидата 1 ниже, чем его Null Engagement Score (т.е. лучше его не показывать вообще) или значительно ниже, чем у Кандидата 2.
Результат: Кандидат 1 подавляется (фильтруется или сильно понижается), а Кандидат 2 получает более высокую позицию, несмотря на более низкий краткосрочный pClick.

Вопросы и ответы

Означает ли этот патент, что CTR больше не важен для ранжирования?

CTR остается важным сигналом (он даже используется как входной признак в этой модели), но его значение переосмысливается. Высокий CTR сам по себе не гарантирует хороших позиций, если он достигается за счет кликбейта или ведет к плохому пользовательскому опыту. Патент показывает, что Google оптимизирует долгосрочную вовлеченность. Контент с умеренным CTR, но высокой удовлетворенностью будет предпочтительнее контента с высоким CTR и низкой удовлетворенностью.

Как система определяет, что пользователь разочарован, если он кликнул на результат?

Система не измеряет разочарование напрямую. Вместо этого она использует Reinforcement Learning для моделирования последствий. Если после клика на определенный тип контента пользователь в будущем реже пользуется поиском, демонстрирует pogo-sticking или прекращает сессию (т.е. сумма будущих вознаграждений падает), модель научится ассоциировать этот контент с низким Engagement Score. Это косвенный способ измерения удовлетворенности в долгосрочной перспективе.

Что такое Reinforcement Learning (RL) и почему он используется здесь?

RL — это метод машинного обучения, ориентированный на принятие последовательных решений для максимизации долгосрочного вознаграждения. Он идеально подходит для этой задачи, потому что поведение пользователя — это последовательность действий (запросы, просмотры, клики). RL позволяет моделировать, как одно действие (показ контента сейчас) влияет на всю последующую цепочку взаимодействий, а не только на немедленную реакцию.

Какие данные о моем сайте использует эта система?

В патенте явно упоминаются предварительно рассчитанные оценки качества: Quality of the content item (качество элемента контента) и Quality of the resource linked to (качество ресурса, на который ведет ссылка). Это подчеркивает важность общих сигналов качества сайта и страниц (E-E-A-T, Helpful Content) как входных данных для этой модели.

Как работает сравнение с «Null Content Item» (Null Engagement Score)?

Это ключевой механизм для оценки «стоимости» показа. Система рассчитывает два прогноза: будущую активность, если результат показать (Current Engagement Score), и будущую активность, если его не показывать (Null Engagement Score). Если первый прогноз ниже второго, это означает, что показ этого результата вредит долгосрочной вовлеченности, и система может его отклонить.

Влияет ли история пользователя на работу алгоритма?

Да, очень сильно. История недавних взаимодействий пользователя (что ему показывали, на что он кликал, какие запросы вводил) является частью Context, который подается на вход модели RL. Это позволяет системе учитывать текущее состояние пользователя, например, его предыдущий негативный опыт или удовлетворенность в рамках сессии.

Как SEO-специалисту адаптироваться к этому механизму?

Необходимо сместить фокус с привлечения трафика на его качество и удовлетворенность. Анализируйте пост-клик поведение пользователей (Post-Click Satisfaction). Убедитесь, что ваш контент полностью решает задачу пользователя и соответствует обещаниям в заголовке. Оптимизация UX и повышение качества контента становятся первостепенными задачами.

Применяется ли этот механизм только в поиске или и в других сервисах?

Патент описывает общую систему (Presentation Environment). Хотя поиск (SERP) является одним из примеров (включая органику и рекламу), этот механизм также применяется в системах рекомендаций контента, например, в Google News, Discover или на платформах типа YouTube для выбора рекомендуемых видео.

Что такое «скорректированное по времени» (time-adjusted) вознаграждение?

Это означает, что система ценит ближайшие взаимодействия больше, чем отдаленные. При расчете Engagement Score используется коэффициент дисконтирования (γ). Взаимодействие, которое произойдет через минуту, имеет больший вес, чем взаимодействие, которое произойдет через неделю. Это позволяет модели находить баланс между ближайшими и долгосрочными целями.

Как этот патент связан с Helpful Content System (HCS)?

Этот патент предоставляет технический механизм для реализации целей HCS. HCS направлена на продвижение полезного контента и борьбу с контентом, который не удовлетворяет пользователя. Описанная модель RL является инструментом для измерения того, насколько контент «полезен» с точки зрения долгосрочной вовлеченности пользователя. Если контент бесполезен, он снижает вовлеченность и будет подавлен.