Как Google классифицирует пользователей в анонимные группы на основе истории браузера для персонализации контента и рекламы

Патент описывает механизм замены индивидуального отслеживания (например, third-party cookies) на квазиперсонализацию. Google анализирует историю просмотров миллиардов пользователей, выделяет общие паттерны и создает модель классификации. Браузер локально определяет, к какой группе (кластеру) относится пользователь, и отправляет анонимный идентификатор группы при запросе контента (например, рекламы), обеспечивая релевантность без раскрытия личных данных.

Описание

Какую задачу решает

Патент решает проблему конфликта между необходимостью персонализации контента (в первую очередь, рекламы) и требованиями к конфиденциальности пользователей. Традиционная персонализация основана на индивидуальном отслеживании с помощью уникальных идентификаторов (например, third-party cookies), что создает риски для приватности. Изобретение предлагает метод квазиперсонализации (quasi-personalization), который позволяет предоставлять релевантный контент без раскрытия индивидуальной истории просмотров поставщикам контента.

Что запатентовано

Запатентована система анонимизированного получения контента, заменяющая индивидуальное отслеживание на групповую идентификацию. История просмотров обрабатывается локально на устройстве пользователя с помощью модели классификации, обученной на агрегированных данных. Устройству присваивается идентификатор кластера (Class Identifier или Cluster ID), общий для большой группы пользователей со схожими интересами. Этот низкоэнтропийный идентификатор используется при запросе контента вместо уникального ID пользователя.

Как это работает

Система работает в двух основных режимах: обучение и применение.

Обучение (Офлайн/Сервер): История просмотров (Profile Vectors) множества устройств агрегируется в разреженную матрицу. Применяются методы снижения размерности (например, Singular Value Decomposition — SVD) для выявления паттернов. Затем данные кластеризуются, и обучается модель классификации (например, нейронная сеть). Параметры модели и сингулярные векторы передаются клиентам.
Применение (Локально на устройстве): Браузер локально анализирует свою историю, используя полученные параметры и модель, чтобы определить свой Class Identifier.
Запрос контента: При посещении сайта браузер отправляет запрос на контент (например, рекламу), включая только Class Identifier. Поставщик контента выбирает релевантный контент для этой группы.

Актуальность для SEO

Высокая. Патент напрямую связан с инициативами Google по отказу от third-party cookies и переходу к новым стандартам конфиденциальности (Privacy Sandbox). Описанные механизмы лежат в основе технологий, таких как FLoC (Federated Learning of Cohorts) и его эволюции Topics API. Это фундаментальный сдвиг в работе цифровой рекламы и аналитики.

Важность для SEO

Влияние на органическое SEO минимальное (2/10). Патент не описывает механизмы ранжирования органических результатов поиска. Он сфокусирован исключительно на выборе дополнительного контента (такого как реклама) для вставки в content slots (рекламные блоки) на веб-страницах. Однако патент имеет критическое значение для понимания того, как Google обрабатывает поведенческие данные пользователей в эпоху приватности и как будет функционировать веб-аналитика и таргетированная реклама после отмены third-party cookies.

Детальный разбор

Термины и определения

Application Manager Service (Сервис управления приложением): Сервер (например, Google как вендор браузера), который обучает модель классификации и распространяет ее параметры на клиентские устройства.
Browsing History (История просмотров): Локально хранимая запись ресурсов (URL, доменов), посещенных пользователем через браузер.
Class Identifier / Cluster ID (Идентификатор класса/кластера): Идентификатор с низкой энтропией, присваиваемый группе пользователей со схожей историей просмотров. Используется для запроса контента вместо уникальных идентификаторов. Обеспечивает анонимность за счет того, что множество пользователей имеют одинаковый идентификатор.
Classification Model (Модель классификации): Модель (например, нейронная сеть, k-NN, SVM), обученная для категоризации пользователей. Применяется локально на устройстве.
Content Selection Service (Сервис выбора контента): Сервер (например, рекламный сервер), который получает Class Identifier и выбирает соответствующий контент для показа.
Dimensionality Reduction (Снижение размерности): Процесс преобразования высокоразмерных векторов истории просмотров в низкоразмерное пространство (например, с помощью SVD). Ключевой этап для выявления паттернов и снижения энтропии.
Low Entropy (Низкая энтропия): Характеристика Class Identifier. Означает, что существует ограниченное количество идентификаторов, и каждый из них используется большим количеством пользователей, что затрудняет деанонимизацию.
Profile Vector (Вектор профиля): N-мерный вектор, кодирующий историю просмотров пользователя (например, количество посещений домена N в определенный день недели). Обычно является разреженным (sparse).
Quasi-Personalization (Квазиперсонализация): Предоставление контента, релевантного группе (кластеру), к которой принадлежит пользователь, а не конкретно ему лично.
Singular Value Decomposition (SVD) (Сингулярное разложение): Метод линейного снижения размерности, используемый для аппроксимации матрицы агрегированных историй просмотров и генерации сингулярных векторов (Singular vectors).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод, выполняемый на стороне клиента (браузера).

Браузер генерирует профиль на основе локальной истории просмотров.
Кодирует профиль в N-мерный вектор (n-dimensional vector). Уточняется, что это генерация строки, представляющей доступы к адресам в течение заданного времени.
Вычисляет вектор пониженной размерности (reduced dimension vector).
Определяет первый кластер, соответствующий этому вектору.
Отправляет запрос на контент серверу, включая идентификатор этого кластера.
Получает контент, выбранный на основе этого идентификатора.

Claim 3, 4, 5 (Зависимые): Детализируют процесс снижения размерности и роль сервера.

Снижение размерности выполняется с помощью SVD (Claim 3).
Для этого браузер получает набор сингулярных векторов (set of singular vectors) от второго устройства (сервера) (Claim 4).
Сервер вычисляет эти векторы на основе агрегации N-мерных векторов от множества устройств (Claim 5).

Claim 8 (Независимый пункт): Детализирует метод определения кластера с помощью нейронной сети.

Процесс аналогичен Claim 1, но определение кластера происходит через применение модели машинного обучения:

Браузер получает веса нейросетевой модели (weights of a neural net model) от сервера.
Браузер применяет модель к своему вектору пониженной размерности для генерации ранжирования кластеров.
Выбирает кластер с наивысшим рангом (highest ranked cluster).

Claim 17 (Независимый пункт): Описывает метод кодирования идентификаторов с акцентом на приватность и эффективность.

Приложение генерирует набор редуцированных векторов признаков (set of reduced feature vectors) из истории. Они меньше по размеру, чем исходная история.
Применяет модель классификации для идентификации класса.
Присваивает Class Identifier. Ключевое утверждение: этот идентификатор идентичен идентификатору других приложений (т.е. он общий).
Приложение получает ресурс со слотом и генерирует запрос на контент, включая этот общий Class Identifier.
Сервис использует общий идентификатор для выбора контента.

Где и как применяется

Этот патент не имеет прямого отношения к стандартной архитектуре органического поиска Google (CRAWLING, INDEXING, RANKING веб-документов). Он описывает инфраструктуру для Профилирования Пользователей и Выбора Персонализированного Контента (AdTech и системы рекомендаций).

Система функционирует через взаимодействие трех компонентов:

Application Manager Service (Офлайн/Периодически):
- Функция: Агрегация данных, снижение размерности (SVD), обучение Classification Model.
- Выходные данные: Singular vectors и параметры Classification Model. Передаются на клиентские устройства.
Client Device (Браузер) (Локально):
- Функция: Хранение локальной истории, применение модели, определение Class Identifier.
- Выходные данные: Class Identifier (передается при запросе контента).
Content Selection Service (В реальном времени):
- Функция: Получение Class Identifier и выбор релевантного контента для этого кластера.
- Выходные данные: Персонализированный контент (например, реклама).

На что влияет

Конкретные типы контента: Влияет исключительно на дополнительный контент (supplementary content), вставляемый в content slots на веб-страницах. Это касается таргетированной рекламы и, возможно, блоков рекомендаций. Не влияет на ранжирование основного контента страницы в органическом поиске.
Влияние на пользователей: Повышает конфиденциальность за счет отказа от индивидуального межсайтового отслеживания.

Когда применяется

Триггеры активации (Обучение модели): Выполняется периодически на сервере (например, ежемесячно) для обновления модели на основе новых агрегированных данных.
Триггеры активации (Классификация пользователя): Происходит локально на устройстве. Обновление Class Identifier происходит периодически (например, ежедневно или еженедельно) или при накоплении новой истории просмотров, согласно identifier assignment policy.
Триггеры активации (Использование идентификатора): Активируется каждый раз, когда браузер загружает веб-страницу с content slot и запрашивает контент у Content Selection Service.

Пошаговый алгоритм

Процесс А: Обучение модели (Application Manager Service)

Сбор данных: Получение Profile Vectors от множества клиентских устройств (или использование федеративного обучения).
Агрегация: Объединение векторов в большую разреженную матрицу.
Снижение размерности: Применение SVD для разложения матрицы и генерации Singular vectors.
Идентификация кластеров: Определение границ кластеров в пространстве пониженной размерности. Цель — обеспечить примерно равный размер кластеров для анонимности.
Обучение классификатора: Обучение Classification Model (например, нейронной сети).
Распространение: Передача Singular vectors и параметров модели на клиентские устройства.

Процесс Б: Применение модели и запрос контента (Client Device)

Идентификация истории: Браузер анализирует локальную Browsing History.
Генерация вектора и снижение размерности: Кодирование истории в Profile Vector и применение полученных Singular vectors для снижения его размерности.
Применение модели классификации: Локальное применение Classification Model к редуцированному вектору.
Идентификация и хранение класса: Определение Class Identifier и его безопасное локальное хранение (например, secure cookie).
Получение ресурса: Загрузка веб-страницы с content slot.
Генерация запроса: Создание запроса к Content Selection Service. Удаление уникальных идентификаторов (third-party cookies) и включение Class Identifier.
Передача запроса и получение контента: Отправка запроса и отображение контента, выбранного сервисом на основе Class Identifier.
Обновление идентификатора: Периодический пересчет Class Identifier на основе новой истории (возврат к шагу 1).

Какие данные и как использует

Данные на входе

Поведенческие факторы (История просмотров): Это основной тип данных. Учитывается количество доступов (number of accesses) к определенным адресам (доменам, URL) в течение заданного периода времени (predetermined time period), включая день недели и время доступа.
Системные данные: Параметры модели (weights of a neural net model) и сингулярные векторы (Singular vectors), полученные от центрального сервера.

Какие метрики используются и как они считаются

Патент фокусируется на механизме классификации данных:

Singular Value Decomposition (SVD): Математический метод, используемый для расчета сингулярных значений и векторов из агрегированной матрицы с целью снижения размерности.
Классификация (Например, Neural Net): Модель машинного обучения применяется к вектору пониженной размерности для генерации ранжирования (ranking) предопределенного набора кластеров. Выбирается кластер с наивысшим рангом.
Энтропия (Entropy): Ключевая метрика для обеспечения приватности. Система стремится поддерживать низкую энтропию Class Identifiers (упоминается 18-22 бита по сравнению с >30 битами для уникальных ID), чтобы гарантировать, что каждый кластер содержит большое количество пользователей.
Федеративное обучение (Federated Learning): Упоминается как альтернативный метод обучения модели без централизованного сбора сырых данных.

Выводы

Фундаментальный сдвиг к приватности: Патент подтверждает стратегический отказ Google от индивидуального отслеживания (third-party cookies) в пользу анонимизированных групповых сигналов (quasi-personalization).
Обработка данных на стороне клиента (On-Device Processing): Ключевым элементом защиты конфиденциальности является перенос анализа чувствительных данных (истории просмотров) на устройство пользователя. Сервер предоставляет модель, но классификация происходит локально.
Масштабируемая кластеризация поведения: Google использует продвинутые методы (SVD, Neural Networks) для анализа поведенческих паттернов в масштабах интернета и сведения их к ограниченному набору кластеров.
Низкая энтропия как гарантия анонимности: Анонимность достигается за счет того, что Class Identifier имеет низкую энтропию и разделяется большим количеством пользователей, что затрудняет деанонимизацию.
Инфраструктура для AdTech, а не для поиска: Описанные механизмы предназначены для систем выбора контента (AdTech) и не влияют напрямую на алгоритмы ранжирования органической выдачи.

Практика

Best practices (это мы делаем)

Патент носит инфраструктурный характер и не дает прямых рекомендаций для SEO-оптимизации. Однако он определяет новый контекст для цифрового маркетинга и аналитики, к которому SEO-специалисты должны адаптироваться.

Приоритет First-Party Data: В условиях отказа от third-party cookies и перехода к групповой идентификации, стратегически важно собирать и анализировать собственные данные о пользователях (First-Party Data) через регистрации, подписки и CRM для точного понимания своей аудитории.
Адаптация к аналитике на основе когорт: Необходимо освоить инструменты аналитики, работающие в новой парадигме приватности (например, GA4), и научиться интерпретировать данные об аудитории, основанные на кластерах интересов (например, Topics API), а не на индивидуальном поведении.
Усиление контекстной релевантности: Поскольку поведенческий таргетинг становится менее точным (quasi-personalization), возрастает важность качества контента и его соответствия контексту. Фокус на создании контента, который четко сигнализирует о своей тематике, поможет как в SEO, так и в эффективности контекстной рекламы на сайте.

Worst practices (это делать не надо)

Игнорирование изменений в приватности: Продолжать полагаться на стратегии аналитики и ремаркетинга, основанные на third-party cookies и точном индивидуальном отслеживании. Эти методы теряют эффективность.
Использование «серых» методов идентификации (Fingerprinting): Попытки обойти механизмы приватности для уникальной идентификации пользователей противоречат направлению развития технологий, описанных в патенте, и могут привести к техническим ограничениям со стороны браузеров.

Стратегическое значение

Патент имеет высокое стратегическое значение для всей индустрии цифрового маркетинга. Он описывает техническую реализацию перехода к «приватному вебу». Для SEO-специалистов это означает, что измерение эффективности кампаний и детальный анализ аудитории будут усложняться. Возрастает ценность органического трафика, построенного на сильном контенте, и стратегий, направленных на построение прямых отношений с пользователями и сбор собственных данных.

Практические примеры

Практических примеров для SEO-оптимизации нет, так как патент не касается ранжирования. Примеры касаются работы аналитики и рекламы.

Сценарий: Анализ аудитории сайта в новой парадигме

Ситуация: SEO-специалист продвигает сайт по продаже велосипедов. Раньше он мог анализировать детальные интересы пользователей через third-party cookies.
Применение патента: Браузеры пользователей теперь используют описанную систему. Пользователь А и Пользователь Б посещают много сайтов о велоспорте и здоровом питании. Их браузеры локально классифицируют их и присваивают им одинаковый Class Identifier (например, ID 5678, соответствующий интересу «Спорт и ЗОЖ»).
Аналитика: Когда пользователи А и Б заходят на сайт, система аналитики не получает их уникальные ID, но может получить информацию об их принадлежности к кластеру интересов (ID 5678).
Действия SEO-специалиста: Специалист видит в отчетах, что значительная часть трафика приходится на кластер «Спорт и ЗОЖ». Он использует эту информацию для планирования контент-стратегии (например, больше статей о питании для велосипедистов), но не может узнать индивидуальные предпочтения Пользователя А или Б.

Вопросы и ответы

Влияет ли этот патент напрямую на ранжирование сайтов в органическом поиске?

Нет, прямого влияния нет. Патент описывает систему для выбора дополнительного контента (например, таргетированной рекламы) для показа на веб-страницах. Он не затрагивает алгоритмы, определяющие релевантность или качество основного контента сайта для ранжирования в Google Поиске.

Какое значение этот патент имеет для SEO-специалистов, если он не о ранжировании?

Он имеет важное контекстное значение. Патент описывает технические детали отказа от third-party cookies и переход к анонимизированному анализу поведения. Это напрямую влияет на то, как SEO-специалисты смогут анализировать свою аудиторию через инструменты Google (Analytics, Ads) и как будет работать цифровая реклама в целом.

Что такое квазиперсонализация (Quasi-Personalization)?

Это подход, при котором контент подбирается не для конкретного пользователя на основе его личной истории, а для группы (кластера) пользователей со схожими интересами. Пользователю присваивается идентификатор группы (Class Identifier), и система выбирает контент, релевантный этой группе, сохраняя анонимность индивида.

Где происходит обработка истории просмотров пользователя?

Ключевая особенность системы — обработка истории происходит локально, на устройстве пользователя (в браузере). Браузер использует модель классификации, полученную от Google, чтобы определить свой Class Identifier, но сама история просмотров, как правило, не покидает устройство в необработанном виде.

Как Google определяет, какие кластеры интересов существуют?

Google анализирует агрегированные данные об истории просмотров миллиардов пользователей. Используя методы снижения размерности (например, SVD) и машинное обучение, система выявляет общие поведенческие паттерны и формирует кластеры, стараясь, чтобы они были примерно одинакового размера для обеспечения анонимности.

Что такое снижение размерности (Dimensionality Reduction) и зачем оно нужно в этом патенте?

История просмотров — это огромный объем данных (миллионы сайтов за множество дней). Снижение размерности (например, через SVD) позволяет сжать эти данные, выделив наиболее значимые паттерны и отбросив шум. Это необходимо для эффективной кластеризации и создания идентификаторов с низкой энтропией.

Как обеспечивается анонимность пользователя?

Анонимность обеспечивается за счет низкой энтропии (Low Entropy) идентификаторов классов. Если существует ограниченное количество возможных идентификаторов для миллиардов пользователей, то каждый идентификатор присваивается миллионам людей. Поставщик контента видит только идентификатор группы, но не может связать его с конкретным человеком.

Связано ли это с Google Topics API или FLoC?

Да, патент описывает общие принципы и механизмы, которые лежат в основе инициатив Privacy Sandbox, таких как FLoC (Federated Learning of Cohorts) и его последующей итерации Topics API. Все они направлены на классификацию интересов пользователя на основе локальной истории браузера.

Как изменения, описанные в патенте, повлияют на веб-аналитику?

Веб-аналитика станет менее точной на индивидуальном уровне. Системы аналитики будут больше полагаться на агрегированные данные, моделирование и групповые сигналы интересов (Class Identifiers). Это усложняет детальный анализ поведения конкретных пользователей и требует адаптации методов анализа.

Что должны предпринять владельцы сайтов и SEO-специалисты в связи с этим патентом?

Необходимо сместить фокус со сбора данных через сторонние сервисы на сбор и активацию собственных данных (First-Party Data). Также важно улучшать качество и тематическую четкость контента, так как в отсутствие точных поведенческих сигналов возрастет роль контекстной релевантности контента и рекламы.