Как Google использует «токены интересов» на основе поведения пользователей для персонализации ранжирования на разных платформах

Патент описывает механизм обмена данными об интересах аудитории между разными платформами. Платформа-источник (например, YouTube) анализирует совместное потребление контента, группирует его в «бакеты» интересов и присваивает анонимные токены. Внешние сервисы (например, социальные сети или Поиск) используют эти токены для лучшего понимания тематики контента и глубокой персонализации своей выдачи.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» и неоптимального ранжирования контента, когда он публикуется за пределами исходной платформы. Внешние сервисы ранжирования (Ranking Service, например, социальные сети, агрегаторы, поисковые системы) часто не имеют достаточного контекста о новом контенте (например, видео), полагаясь на скудные метаданные. Это затрудняет определение целевой аудитории, приводит к показу контента незаинтересованным пользователям, снижает CTR и вовлеченность.

Что запатентовано

Запатентована система для передачи данных о классификации контента на основе интересов пользователей между двумя разными системами. Content Sharing Platform (источник, например, YouTube) анализирует поведение пользователей для выявления групп интересов (buckets) и присваивает контенту уникальные идентификаторы (bucketing tokens). Ranking Service (получатель, например, Google Search или социальная сеть) использует эти токены для улучшения персонализации своих алгоритмов ранжирования.

Как это работает

Система работает в несколько этапов:

Анализ и Группировка (Bucketing): Content Sharing Platform анализирует поведение пользователей, в первую очередь паттерны совместного просмотра (co-viewership), чтобы определить buckets связанного контента, интересного определенным сегментам аудитории.
Тokenization: Контенту в каждом бакете присваивается уникальный bucketing token.
Передача данных: Когда контент публикуется или индексируется Ranking Service, этот сервис получает токены (через сканирование метаданных страницы или API).
Персонализация Ранжирования: Ranking Service использует токены как сигнал в своем алгоритме, чтобы сопоставить контент с профилем интересов своих пользователей и скорректировать ranking score.

Актуальность для SEO

Высокая. Понимание контента на основе поведения пользователей (а не только ключевых слов) и кросс-платформенная персонализация являются центральными направлениями развития поиска и рекомендательных систем в 2025 году. Этот патент описывает технический механизм передачи данных о скрытых интересах аудитории, что критически важно для работы таких систем, как Google Discover и персонализированный Поиск.

Важность для SEO

Патент имеет высокое значение (75/100) для SEO, особенно в контексте дистрибуции контента, Video SEO и оптимизации под рекомендательные системы. Он демонстрирует, как Google может классифицировать контент на основе реальных интересов аудитории (через совместное потребление) и использовать эту классификацию для глубокой персонализации на разных платформах. Это смещает фокус SEO с оптимизации под ключевые слова на оптимизацию под интересы (Interests Optimization).

Детальный разбор

Термины и определения

Bucket (Бакет, Группа интересов): Группа связанных единиц контента, которые представляют интерес для общей группы пользователей (common group of users) с похожими интересами. Формируется преимущественно на основе анализа поведения.
Bucketing Token (Токен группировки, Токен интереса): Уникальный идентификатор (unique identifier), присвоенный бакету. Ассоциируется с каждой единицей контента в этом бакете. Может быть обфусцированным (например, ‘Xl_8Edi72i’). Служит для передачи информации о классификации контента между платформами.
Content Sharing Platform (CSP) (Платформа обмена контентом): Платформа-источник, которая хранит контент и имеет обширные данные о его потреблении (например, YouTube). Отвечает за создание бакетов и генерацию токенов.
Ranking Service (RS) (Сервис ранжирования): Платформа-получатель, которая ранжирует контент для своих пользователей (например, социальная сеть, агрегатор новостей, поисковая система, Google Discover). Использует bucketing tokens для улучшения ранжирования.
Co-visitation / Co-viewing (Совместный просмотр): Поведенческий паттерн, когда одни и те же пользователи потребляют несколько единиц контента. Используется как основной метод для определения Buckets (коллаборативная фильтрация).
User Bucketing Module: Компонент на стороне CSP, отвечающий за идентификацию бакетов, генерацию токенов и их предоставление.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс на стороне Content Sharing Platform (CSP).

Идентификация bucket, включающего контент, связанный с группой пользователей с похожими интересами.
Ассоциация bucketing token с каждой единицей контента в бакете. Токен уникально идентифицирует принадлежность к этой группе интересов.
Получение запроса на токен от Ranking Service (RS).
Предоставление токена RS.
Цель: RS использует токен для определения Ranking Score контента с учетом интересов конкретного пользователя на отдельной платформе (например, социальной сети).

Claim 2 (Зависимый от 1): Детализирует метод идентификации бакета на основе совместного просмотра (co-viewership). Это ключевой механизм коллаборативной фильтрации.

Идентификация первого пользователя и просмотренного им контента (Набор 1).
Идентификация второго пользователя, который также смотрел Набор 1, и определение дополнительного контента, который он смотрел (Набор 2).
Проверка, существует ли бакет, содержащий Набор 1 и Набор 2.
Если нет, создание нового бакета.

Интерпретация: Если пользователи, смотрящие А, также смотрят Б, то А и Б попадают в один бакет интересов.

Claims 4 и 5 (Зависимые от 1): Описывают способы ассоциации токена с контентом.

Claim 4: Встраивание (embedding) токена в метаданные (metadata) контента.
Claim 5: Поддержание отдельной структуры данных (например, базы данных) с соответствиями (mappings) между токенами и контентом.

Claims 6 и 7 (Зависимые от 1): Описывают механизм передачи токена.

RS запрашивает единицу контента (Claim 6).
CSP предоставляет контент, при этом bucketing token встроен в его метаданные (Claim 7).

Где и как применяется

Изобретение описывает взаимодействие между двумя различными системами (CSP и RS) и затрагивает несколько этапов обработки данных.

На стороне Content Sharing Platform (CSP, например, YouTube):

INDEXING – Индексирование и извлечение признаков
Система непрерывно собирает поведенческие данные. User Bucketing Module анализирует эти данные (преимущественно офлайн или периодически) для выявления паттернов совместного потребления. На основе этого анализа формируются buckets и генерируются bucketing tokens. Токены сохраняются и ассоциируются с контентом.

На стороне Ranking Service (RS, например, Google Discover или Социальная сеть):

CRAWLING – Сканирование и Сбор данных
Когда контент с CSP публикуется или индексируется на RS, Ranking Service сканирует URL для извлечения метаданных. В процессе извлекаются Bucketing Tokens (например, из мета-тегов) или запрашиваются через API.

RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение. При формировании персонализированной ленты или результатов поиска RS использует извлеченные токены как признаки (features) в Ranking Algorithm. Система сопоставляет токены контента с профилем интересов пользователя. Если интересы совпадают, ranking score контента повышается.

Входные данные:

Для CSP: История просмотров пользователей, данные о совместных просмотрах (Co-visitation data).
Для RS: URL контента, Bucketing Tokens, Профиль интересов пользователя RS.

Выходные данные:

От CSP к RS: Bucketing Tokens.
От RS: Персонализированный Ranking Score для контента.

На что влияет

Типы контента: В первую очередь влияет на медиаконтент, который активно распространяется между платформами (видео, статьи, изображения).
Сценарии: Критически влияет на видимость контента в персонализированных лентах (Google Discover, ленты социальных сетей, агрегаторы новостей) и персонализированном поиске.
Ниши: Особенно полезно для нишевого контента, который сложно классифицировать только по тексту (например, хобби, видеоигры, мода), но который имеет четко определенные сегменты аудитории по поведению.

Когда применяется

Триггеры активации: Механизм активируется, когда контент из одной системы (CSP) необходимо ранжировать в другой системе (RS).
Условия применения: Особенно важен для нового контента (проблема «холодного старта»), когда у RS еще нет собственных данных о взаимодействии с ним, или когда метаданные контента неоднозначны.

Пошаговый алгоритм

Фаза А: Группировка контента (На стороне CSP – Офлайн/Постоянно)

Сбор данных о поведении: Мониторинг истории просмотров пользователей.
Анализ совместных просмотров (Co-visitation Analysis):
- Идентификация Пользователя А и просмотренного им контента (Набор 1).
- Идентификация Пользователя Б, который также смотрел Набор 1, и определение дополнительного контента, который он смотрел (Набор 2).
Определение бакетов: Определение, существует ли Bucket, содержащий Наборы 1 и 2. Если нет, создается новый бакет.
Генерация токенов: Создание уникального Bucketing Token для этого бакета.
Ассоциация токенов: Привязка токена к единицам контента в бакете (например, путем встраивания в метаданные страницы контента).

Фаза Б: Использование токенов для ранжирования (На стороне RS – В реальном времени)

Получение идентификатора контента: Получение URL контента, который необходимо ранжировать.
Запрос данных: Запрос контента/метаданных у CSP.
Извлечение токенов: Извлечение Bucketing Tokens, связанных с этим контентом.
Ввод в алгоритм ранжирования: Передача токенов в качестве входных данных в Ranking Algorithm.
Анализ интересов: Алгоритм сравнивает токены контента с профилем интересов целевого пользователя (например, с какими токенами пользователь взаимодействовал ранее).
Корректировка ранжирования: Корректировка ranking score контента на основе совпадения интересов.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Являются основой изобретения. История просмотров (watch history) и данные о совместных просмотрах (co-visitation data) используются для создания бакетов (Claim 2). Это позволяет категоризировать контент на основе реальных интересов пользователей.
Контентные факторы (Второстепенные): В описании патента упоминается, что бакеты могут создаваться на основе категорий, извлеченных из метаданных (title, description) или анализа контента. Также метаданные служат контейнером для передачи Bucketing Tokens.
Технические факторы: URL или другой уникальный идентификатор контента используется для запроса и привязки токенов.

Какие метрики используются и как они считаются

Co-viewership (Совместный просмотр): Основная метрика для формирования бакетов. Рассчитывается путем анализа пересечения истории просмотров разных пользователей (коллаборативная фильтрация).
Bucketing Token: Основной признак (feature), который передается между системами. Представляет собой идентификатор категории интересов.
Ranking Score: Итоговая оценка в RS. Bucketing token используется как входной сигнал для корректировки этой оценки. Формулы ранжирования в патенте не приводятся.

Выводы

Приоритет поведенческой классификации над текстовой: Патент демонстрирует, что классификация контента на основе фактического поведения пользователей (совместные просмотры) является надежным сигналом, который может компенсировать отсутствие или неоднозначность метаданных.
«Токены интересов» как стандарт кросс-платформенной передачи данных: Bucketing Tokens позволяют экспортировать понимание контента и интересов аудитории с одной платформы (где данных много, например, YouTube) на другую (например, Google Search или социальные сети).
Решение проблемы «холодного старта»: Механизм помогает Ranking Service быстро оценить тематику и потенциальную аудиторию нового контента, минуя период сбора статистики взаимодействий.
Тематическая связанность через аудиторию: Два документа считаются связанными, если их потребляет одна и та же аудитория, даже если они не имеют общих ключевых слов. Это критически важно для понимания того, как Google определяет Topical Authority.
Глубокая персонализация: Цель механизма — повысить вовлеченность (CTR) за счет точного соответствия контента глубинным интересам пользователя, выявленным через его поведение.

Практика

Best practices (это мы делаем)

Оптимизация под интересы, а не только ключевые слова (Interests Optimization): Сместите фокус на создание контента, который сильно резонирует с конкретным сегментом аудитории. Четкие паттерны потребления приводят к четкой поведенческой группировке (bucketing).
Создание контента для серийного потребления: Разрабатывайте кластеры контента и используйте перелинковку/плейлисты. Это напрямую влияет на данные о совместном потреблении (co-viewership), которые система использует для формирования бакетов. Если пользователи смотрят ваш контент А и ваш контент Б, это укрепляет тематическую связь.
Анализ совместного потребления с конкурентами: Изучайте, какой еще контент потребляет ваша аудитория. Создание контента, который соответствует этим более широким интересам, поможет попасть в релевантные авторитетные buckets.
Оптимизация под персонализированные ленты (Discover, YouTube): Понимание этого механизма критично для Google Discover. Чтобы попасть туда, контент должен быть четко классифицирован по интересам (получить релевантный Bucketing Token).

Worst practices (это делать не надо)

Создание кликбейтного или слишком широкого контента: Контент, привлекающий разрозненную аудиторию с низкой вовлеченностью, затрудняет поведенческую группировку. Система не сможет присвоить четкий Bucketing Token.
Смешивание несвязанных тем на одном ресурсе: Если сайт или канал охватывает слишком много несвязанных тем, это «размывает» поведенческие сигналы и усложняет системе определение основных бакетов интересов для ресурса.
Манипуляции с поведенческими факторами: Попытки искусственно накрутить совместные просмотры могут привести к некорректной классификации контента и его показу нецелевой аудитории на внешних платформах.

Стратегическое значение

Патент подтверждает стратегический сдвиг в сторону поведенческих сигналов и глубокой персонализации. SEO становится оптимизацией под интересы аудитории. Видимость контента, особенно в рекомендательных системах, зависит от того, насколько точно Google может классифицировать контент на основе поведения пользователей. Этот механизм также демонстрирует техническую возможность использования данных, собранных за пределами Поиска (например, в YouTube), для персонализации поисковой выдачи.

Практические примеры

Сценарий 1: Категоризация видео на YouTube для показа в Google Discover

Поведение: Пользователь регулярно смотрит на YouTube (CSP) видео о «реставрации старинных инструментов».
Группировка: YouTube анализирует совместные просмотры и определяет четкую группу интересов. Создается бакет с токеном «Token_ToolRestore».
Новый контент: Загружается новое видео с неоднозначным названием «Проект дедушки». Первые зрители принадлежат к группе «Token_ToolRestore», и YouTube быстро присваивает этот токен новому видео.
Ранжирование: Google Discover (RS) знает, что пользователь заинтересован в «Token_ToolRestore». Discover получает токен нового видео и агрессивно повышает его в ленте пользователя, несмотря на неоднозначное название.

Сценарий 2: Персонализация Поиска на основе интересов в YouTube

Поведение: Пользователь часто смотрит на YouTube (CSP) обзоры инди-игр. Google классифицирует его интерес в bucket «Инди-гейминг» (Токен «G456»).
Поиск: Пользователь вводит общий запрос «лучшие игры 2025» в Google Search (RS).
Ранжирование: Google Search, зная ассоциацию пользователя с токеном «G456» (через общий аккаунт), корректирует выдачу.
Результат: В результатах поиска (особенно в видео-каруселях или рекомендациях) приоритет отдается контенту, который также ассоциирован с токеном «G456» (обзоры инди-игр), а не только ААА-блокбастерам.

Вопросы и ответы

Как формируются «бакеты» (buckets) интересов?

Основной механизм (Claim 2) — это анализ совместного потребления (co-viewership) или коллаборативная фильтрация. Система анализирует историю просмотров: если пользователи, которые смотрели контент А, также часто смотрят контент Б, то А и Б помещаются в один bucket. Контент группируется на основе реальных интересов аудитории.

Что важнее для категоризации согласно патенту: ключевые слова или поведение пользователей?

Патент явно отдает приоритет поведению пользователей. Он создан для решения проблемы, когда метаданные (включая ключевые слова) отсутствуют или неоднозначны. Анализ совместных просмотров позволяет системе понять реальную тематику контента и его целевую аудиторию надежнее, чем анализ текста.

Как этот патент связан с Google Discover?

Google Discover — это классический пример Ranking Service. Он формирует ленту на основе интересов пользователя. Механизм Bucketing Tokens позволяет Discover получать точную информацию о категории контента (например, с YouTube или веб-сайта), основанную на поведении миллионов пользователей, и использовать ее для ранжирования контента в ленте.

Может ли этот механизм использоваться для персонализации Google Search?

Да. Поисковая система может выступать в роли Ranking Service. Если Google Search получает Bucketing Tokens от YouTube или других платформ, он может использовать эту информацию для более точной персонализации результатов поиска, основываясь на интересах пользователя, а не только на тексте запроса.

Как SEO-специалист может повлиять на присвоение «Bucketing Tokens» своему контенту?

Напрямую повлиять нельзя, но можно косвенно: создавая высококачественный контент для четко определенной ЦА, способствуя его потреблению внутри этой группы и выстраивая логичные связи между единицами контента (перелинковка, плейлисты), чтобы стимулировать совместные просмотры и формировать четкие поведенческие сигналы.

Заменяет ли эта система необходимость оптимизации метаданных (Title, Description)?

Нет. Патент указывает, что одна из целей системы — помочь контенту со скудными метаданными лучше ранжироваться за счет поведенческих данных. Однако качественные метаданные по-прежнему критичны для базового ранжирования, CTR и могут также использоваться как альтернативный метод для формирования Buckets.

Где можно увидеть эти «Bucketing Tokens»?

В патенте упоминается, что они могут быть встроены в метаданные страницы, например, в тег <meta itemprop=»consumptionBuckets»…>. Однако на практике эти токены чаще передаются через внутренние API, особенно внутри экосистемы Google, и невидимы для пользователя.

Что делать, если мой контент привлекает слишком широкую аудиторию?

Если аудитория слишком разрозненная и паттерны потребления хаотичны, системе будет сложно присвоить контенту четкий токен интереса. Это может негативно сказаться на видимости в персонализированных лентах. Стоит рассмотреть фокусировку на более узких нишах для формирования четких поведенческих сигналов.

Может ли контент принадлежать нескольким бакетам одновременно?

Да. В патенте (FIG. 2) показано, что с единицей контента может быть ассоциировано несколько токенов (Токены 244, 246, 248). Это означает, что контент может быть релевантен нескольким различным группам интересов (например, «Электромобили» и «Экологичный образ жизни»).

Как Ranking Service понимает, что означает непрозрачный токен (например, ‘T123’)?

Ranking Service (RS) не обязательно знает семантическое значение токена. RS анализирует поведение своих пользователей. Например, RS может заметить, что кластер его пользователей, интересующихся «Органическим садоводством», часто кликает на контент, помеченный токеном ‘T123’. Таким образом, RS самостоятельно устанавливает связь между токеном и интересами своей аудитории.