Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует машинное обучение и группы по интересам для расширения аудиторий в эпоху без third-party cookies

    PRIVACY PRESERVING MACHINE LEARNING EXPANSION MODELS (Модели расширения машинного обучения с сохранением конфиденциальности)
    • US20230177543A1
    • Google LLC
    • 2023-06-08
    • 2021-12-06
    2021 Патенты Google Персонализация

    Google разработал систему для создания и расширения списков аудитории без использования third-party cookies. Система анализирует, какие анонимные группы по интересам (User Interest Groups) посещают веб-ресурс. Затем она использует собственные данные о залогиненных пользователях из этих групп для обучения ML-модели. Эта модель находит похожих пользователей (Lookalike Audience) для таргетинга контента и рекламы, сохраняя конфиденциальность.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему сегментации аудитории и таргетинга контента (в частности, Lookalike Modeling) в условиях отказа от third-party cookies и усиления требований к конфиденциальности. Он устраняет зависимость от кросс-доменного отслеживания индивидуальных пользователей, предоставляя механизм для показа релевантных digital components (включая рекламу) большим группам пользователей со схожими интересами, не раскрывая их личную историю посещений сторонним платформам.

    Что запатентовано

    Запатентована система, которая использует анонимные User Interest Groups (группы пользователей по интересам, формируемые на устройстве) в сочетании с собственными данными (First-Party Data) Content Platform (например, Google) для обучения моделей машинного обучения. Система определяет, какие группы по интересам посещают веб-ресурс, создает исходный список (Seed User List) из известных платформе пользователей в этих группах, и затем использует Similar Audience Machine Learning Model для поиска похожих пользователей, формируя расширенный список аудитории (Expanded User List).

    Как это работает

    Механизм работает следующим образом:

    • Группировка на устройстве: Браузер пользователя (используя User Grouping Engine) локально относит его к анонимной User Interest Group на основе истории посещений.
    • Сбор данных о группах: Когда пользователь посещает веб-ресурс, ресурс узнает только идентификатор группы (User Group Identifier), а не личность пользователя.
    • Создание Seed List: Content Platform определяет, какие группы часто посещают ресурс. Затем она идентифицирует своих залогиненных пользователей, принадлежащих к этим группам, формируя Seed User List.
    • Обучение ML-модели: Платформа использует известные ей признаки (features) пользователей из Seed User List (например, их активность на сервисах Google) для обучения Similar Audience Machine Learning Model.
    • Расширение аудитории: Модель находит других пользователей платформы, похожих на пользователей из Seed User List.
    • Применение: Расширенный список используется для таргетинга digital components (контента/рекламы).

    Актуальность для SEO

    Высокая. Патент напрямую связан с инициативой Google Privacy Sandbox (например, Topics API) и глобальным отказом от third-party cookies. Описанные механизмы являются основой для работы рекламных и контентных платформ в новых условиях конфиденциальности, актуальных на 2025 год.

    Важность для SEO

    Влияние на органическое SEO минимальное (1/10). Патент описывает инфраструктуру AdTech и Audience Targeting, а не алгоритмы ранжирования органической выдачи. Он не дает прямых рекомендаций по оптимизации сайтов для лучшего ранжирования. Он важен для понимания того, как Google интерпретирует интересы пользователей в эпоху без cookies, что может косвенно влиять на персонализацию контента на платформах Google (например, Discover), но не на классический веб-поиск.

    Детальный разбор

    Термины и определения

    Audience Expansion Server (Сервер расширения аудитории)
    Компонент системы, отвечающий за создание Seed User List, обучение ML-модели и генерацию Expanded User List.
    Content Platform (Контентная платформа)
    Платформа (например, Google Ads, YouTube, Google Search), которая управляет распределением Digital Components и обладает собственными данными о залогиненных пользователях (first-party data).
    Digital Component (Цифровой компонент)
    Дискретная единица цифрового контента (видео, аудио, изображение, текст). В патенте уточняется, что реклама является типом цифрового компонента.
    Expanded User List (Расширенный список пользователей)
    Итоговый список аудитории, включающий пользователей из Seed User List и найденных похожих пользователей. Используется для таргетинга.
    Seed User List (Исходный список пользователей)
    Список пользователей, которые (1) принадлежат к User Interest Groups, посетившим веб-ресурс, и (2) известны Content Platform (залогинены). Является основой для обучения ML-модели.
    Similar Audience Machine Learning Model (ML-модель похожей аудитории)
    Модель машинного обучения, обученная на признаках пользователей из Seed User List для поиска похожих пользователей. Упоминаются neural network, centroid model, k-nearest neighbors model.
    User Grouping Engine (Механизм группировки пользователей)
    Компонент на клиентском устройстве (например, в браузере), который локально и конфиденциально относит пользователя к User Interest Group на основе его поведения.
    User Interest Group (Группа пользователей по интересам)
    Анонимная группа (когорта) пользователей со схожими интересами. Каждой группе присваивается User Group Identifier. Концептуально схоже с Topics API.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс расширения аудитории с сохранением конфиденциальности.

    1. Система получает набор User Group Identifiers для User Interest Groups, члены которых запрашивали контент с определенного веб-ресурса.
    2. Создается Seed User List, включающий идентификаторы части пользователей из этих групп (тех, кто известен системе).
    3. Генерируется Similar Audience Machine Learning Model на основе признаков (feature values) пользователей из Seed User List.
    4. С помощью модели идентифицируется набор похожих пользователей (Similar Users).
    5. Генерируется Expanded User List, объединяющий исходных и похожих пользователей.
    6. Цифровой контент, связанный с исходным веб-ресурсом, распространяется среди пользователей из Expanded User List.

    Ядро изобретения — это метод соединения анонимных данных об интересах (группы) с идентифицированными пользователями (first-party data) для обучения ML-модели расширения аудитории без использования кросс-доменного трекинга.

    Claim 4 (Зависимый): Детализирует процесс создания Seed User List.

    Для каждой User Interest Group определяется количество запросов к веб-ресурсу. Выбирается подмножество групп на основе этого количества (например, самые активные группы). В Seed User List включаются идентификаторы пользователей из этого выбранного подмножества.

    Claims 5, 6, 7 (Зависимые): Описывают альтернативные методы обучения ML-модели.

    • Claim 5 (Агрегированные признаки): Модель обучается на агрегированных признаках всей группы интересов (например, усредненное значение признака для всех членов группы).
    • Claim 6 (Индивидуальные признаки): Модель обучается на индивидуальных признаках всех пользователей в Seed User List.
    • Claim 7 (Кластеры): Внутри группы интересов формируются кластеры пользователей (подгруппы). Модель обучается на признаках этих кластеров.

    Где и как применяется

    Этот патент описывает инфраструктурные процессы, которые не вписываются напрямую в стандартную архитектуру органического поиска (Crawling, Indexing, Ranking). Они относятся к работе систем AdTech и персонализации контента.

    Обработка на стороне клиента (Client-Side Processing)
    User Grouping Engine работает в браузере пользователя. Он локально анализирует историю посещений и присваивает пользователю User Interest Group. При посещении сайта браузер может предоставить сайту или Content Platform идентификатор этой группы.

    Обработка на стороне платформы (Platform-Side Processing)
    Это основной этап применения патента. Content Platform и Audience Expansion Server выполняют:

    1. Агрегация данных: Сбор данных о том, какие User Interest Groups взаимодействовали с веб-ресурсом.
    2. Сопоставление данных (Data Join): Сопоставление анонимных групп с собственными данными о залогиненных пользователях для создания Seed User List.
    3. Машинное обучение (ML Training & Inference): Обучение Similar Audience Model и применение модели для создания Expanded User List.
    4. Таргетинг: Использование Expanded User List при выборе Digital Components для показа пользователю на платформе.

    Входные данные:

    • Набор User Group Identifiers, связанных с веб-ресурсом.
    • Внутренняя база данных платформы (First-Party Data), сопоставляющая залогиненных пользователей с их User Interest Groups.
    • Признаки (features) залогиненных пользователей (демография, активность на платформе).

    Выходные данные:

    • Expanded User List (список ID пользователей для таргетинга).

    На что влияет

    • Типы контента и форматы: В первую очередь влияет на распределение Digital Components (рекламы). Потенциально может влиять на персонализацию контента на платформах Google (например, Google Discover или YouTube), если эти системы используют схожие механизмы аудиторий.
    • Специфические запросы: Не влияет на ранжирование по конкретным запросам в органическом поиске.
    • Ниши и тематики: Влияет на все ниши, использующие таргетированную рекламу и ремаркетинг.

    Когда применяется

    • Триггеры активации (Офлайн): Процесс расширения аудитории активируется, когда рекламодатель хочет создать список аудитории (Lookalike), и система собрала достаточно данных о User Interest Groups, посещавших его ресурс.
    • Триггеры активации (Реал-тайм): Механизм таргетинга применяется, когда пользователь, включенный в Expanded User List, взаимодействует с Content Platform, и система принимает решение о показе ему соответствующего Digital Component.
    • Условие работы: Наличие достаточного количества залогиненных пользователей у Content Platform в релевантных группах для создания качественного Seed User List.

    Пошаговый алгоритм

    Этап А: Сбор данных и группировка (На клиенте и веб-ресурсе)

    1. Локальная группировка: User Grouping Engine на устройстве пользователя анализирует его активность и присваивает ему User Interest Group.
    2. Запрос контента: Пользователь посещает Веб-ресурс А.
    3. Передача идентификатора группы: Код на Веб-ресурсе А запрашивает у браузера User Group Identifier и передает его в Content Platform.

    Этап Б: Создание исходной аудитории (На Content Platform)

    1. Агрегация посещений: Content Platform подсчитывает количество посещений Веб-ресурса А для каждой User Interest Group.
    2. Выбор групп: Система выбирает подмножество наиболее активных групп (например, те, что превысили порог посещений).
    3. Сопоставление пользователей: Система идентифицирует своих залогиненных пользователей, которые принадлежат к выбранным группам.
    4. Формирование Seed User List: Эти идентифицированные пользователи формируют Seed User List.

    Этап В: Обучение модели и расширение (На Audience Expansion Server)

    1. Извлечение признаков: Система извлекает признаки (features) пользователей из Seed User List, используя свои внутренние данные (First-Party Data).
    2. Обучение модели: Similar Audience ML Model обучается на этих признаках. (Используя один из методов: агрегированные признаки групп, индивидуальные признаки или признаки кластеров).
    3. Поиск похожих пользователей: Модель применяется к другим пользователям платформы для идентификации похожих.
    4. Генерация Expanded User List: Формируется итоговый список аудитории.

    Этап Г: Применение (На Content Platform)

    1. Взаимодействие: Пользователь из Expanded User List взаимодействует с платформой (например, открывает YouTube или Discover).
    2. Распределение контента: Система выбирает и показывает пользователю Digital Component (например, рекламу), связанный с Веб-ресурсом А.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на инфраструктуре обработки данных и использует следующие типы входных данных:

    • Поведенческие факторы (Локальные): История посещений пользователя, обрабатываемая локально на устройстве для генерации User Interest Group. Эти данные не передаются платформе напрямую.
    • Поведенческие факторы (На платформе): Данные об активности залогиненных пользователей на Content Platform (история поиска, просмотры видео). Эти данные используются как признаки (features) для обучения ML-модели.
    • Географические и Демографические факторы: Упоминаются как возможные признаки пользователей (First-Party Data), используемые для обучения модели.
    • Системные данные: User Group Identifiers, передаваемые с веб-ресурсов; внутренние идентификаторы пользователей (User IDs) платформы.

    Какие метрики используются и как они считаются

    • Quantity of requests (Количество запросов): Метрика, подсчитывающая активность User Interest Group на веб-ресурсе за период времени. Используется для выбора наиболее важных групп для Seed User List (Claim 4).
    • Feature Values (Значения признаков): Конкретные или агрегированные значения признаков пользователей, используемые для обучения ML-модели.
    • Measure of Similarity / Likelihood Score (Мера схожести / Оценка вероятности): Выходные данные Similar Audience ML Model. Если оценка превышает порог, пользователь классифицируется как похожий.
    • Алгоритмы машинного обучения: Упоминаются Neural Network, Centroid Model, k-nearest neighbors (KNN).
    • Методы кластеризации: Упоминаются методы (например, k-means) для создания подгрупп внутри User Interest Groups (Claim 7). Также упоминается SimHash для кластеризации пользователей на этапе формирования групп на устройстве.

    Выводы

    1. Это патент про AdTech, а не про органический поиск: Основная цель изобретения — обеспечить работу систем таргетинга и расширения аудитории (Lookalike Audiences) после отмены third-party cookies. Он не описывает механизмы ранжирования органической выдачи.
    2. Зависимость от First-Party Data: Система критически зависит от собственных данных Content Platform (Google). Чтобы связать анонимные группы интересов с реальными профилями для обучения ML-модели, пользователи должны быть залогинены в сервисах Google. Это подчеркивает стратегическую важность собственных данных платформы.
    3. Механизм работы Privacy Sandbox: Патент детально описывает, как Google планирует использовать данные из инициатив типа Topics API (User Interest Groups). Группировка происходит конфиденциально на устройстве, но анализ и расширение аудитории — на серверах Google с использованием их данных.
    4. Сложное моделирование аудиторий: Google использует продвинутые методы ML (включая возможность кластеризации внутри групп интересов – Claim 7) для повышения точности моделей похожих аудиторий, пытаясь компенсировать потерю детализации, которую давали cookies.
    5. Косвенное значение для SEO: Понимание того, как формируются User Interest Groups (например, через Topics API), важно для SEO-специалистов, так как это дает представление о том, как Google категоризирует контент сайтов и интересы пользователей на высоком уровне.

    Практика

    Best practices (это мы делаем)

    Хотя патент имеет ограниченное прямое применение в SEO, он дает важные стратегические инсайты для цифрового маркетинга:

    • Обеспечение четкой тематичности контента (для Topics API): Поскольку User Interest Groups (концептуально схожие с Topics) формируются на основе посещенных сайтов, важно, чтобы системы могли четко определить тематику вашего сайта и его разделов. Это гарантирует, что ваш сайт будет участвовать в формировании релевантных групп интересов у пользователей.
    • Анализ аудитории через призму Google Topics: SEO-специалистам следует изучить таксономию Topics API. Понимание того, к каким темам Google относит вашу аудиторию, поможет в разработке контент-стратегии, даже если это в первую очередь используется для рекламы.
    • Стимулирование first-party data collection: Патент подчеркивает ценность собственных данных о пользователях. Развивайте стратегии сбора first-party data (подписки, регистрации), так как это становится ключевым активом для персонализации и таргетинга в эпоху конфиденциальности.
    • Сотрудничество с Paid Media: Понимать механизмы работы современных систем таргетинга. Если ваша Paid Media команда использует похожие аудитории на платформе Google, этот патент объясняет базовую механику их формирования в условиях конфиденциальности.

    Worst practices (это делать не надо)

    • Игнорирование изменений в конфиденциальности: Полагаться на старые методы анализа аудитории и таргетинга, основанные на third-party cookies, становится неэффективным.
    • Создание тематически размытого контента: Если контент сайта охватывает слишком много несвязанных тем, это может затруднить его категоризацию для формирования User Interest Groups, что снизит его ценность для понимания аудитории системами Google.
    • Трактовать этот патент как фактор ранжирования: Не следует считать, что принадлежность пользователя к определенной User Interest Group напрямую влияет на ранжирование вашего сайта в органической выдаче на основе этого патента.

    Стратегическое значение

    Стратегическое значение патента заключается в демонстрации адаптации Google к миру без third-party cookies. Он показывает, как Google использует свое положение (браузер Chrome и большой объем first-party data от залогиненных пользователей), чтобы сохранить функциональность своих рекламных платформ. Для SEO это сигнал о том, что понимание пользователя все больше смещается от отслеживания конкретных действий к моделированию на основе широких категорий интересов (Topics) и использованию собственных данных платформы.

    Практические примеры

    Практических примеров для прямого применения в SEO нет, так как патент описывает внутренние процессы рекламной платформы. Ниже приведен пример того, как этот механизм работает с точки зрения маркетинга.

    Сценарий: Расширение аудитории для интернет-магазина кроссовок

    1. Сбор данных: Пользователи, интересующиеся бегом, посещают сайт магазина. Их браузеры относят их к User Interest Group «Бег и фитнес». Сайт фиксирует, что эта группа часто совершает покупки.
    2. Создание Seed List: Google Ads (Content Platform) видит активность группы «Бег и фитнес». Он идентифицирует своих залогиненных пользователей (например, пользователей Gmail/YouTube), которые также принадлежат к этой группе. Они становятся Seed User List.
    3. Обучение модели: Google анализирует признаки этих пользователей (возраст, локация, другие интересы на платформах Google) и обучает Similar Audience Model.
    4. Расширение: Модель находит других пользователей Google, которые похожи на Seed User List, но еще не посещали магазин.
    5. Результат: Этим похожим пользователям (Expanded User List) показывается реклама магазина кроссовок при использовании сервисов Google.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование в органическом поиске?

    Нет, этот патент не описывает алгоритмы ранжирования органической выдачи. Он посвящен исключительно методам создания и расширения списков аудитории для таргетинга Digital Components (контента и рекламы) в условиях отказа от third-party cookies. Это инфраструктура для AdTech и систем персонализации контента.

    Что такое User Interest Groups и как они связаны с Topics API?

    User Interest Groups — это анонимные группы пользователей со схожими интересами, формируемые локально на устройстве (в браузере) на основе истории посещений. Этот концепт является основой инициатив Google Privacy Sandbox. Topics API — это одна из реализаций этого концепта, где интересы представлены в виде стандартизированной таксономии тем.

    Как SEO-специалист может использовать информацию из этого патента?

    Хотя прямых SEO-действий нет, патент подчеркивает важность четкой тематической структуры сайта. Если User Grouping Engine (например, через Topics API) не сможет определить релевантные темы вашего сайта, пользователи не будут попадать в соответствующие группы интересов. Это может ухудшить понимание вашей аудитории системами Google и снизить эффективность связанных рекламных кампаний.

    Что такое Seed User List и почему он важен?

    Seed User List — это исходный список пользователей, которые принадлежат к интересующей User Interest Group и одновременно известны Content Platform (залогинены). Он является мостом между анонимными данными об интересах и реальными профилями (First-Party Data). Качество этого списка критически важно для обучения ML-модели.

    Означает ли этот патент, что Google все равно отслеживает пользователей?

    Патент описывает систему, которая защищает от кросс-доменного отслеживания (что делали third-party cookies). Однако он также показывает, что Google активно использует свои собственные данные (first-party data) о пользователях, залогиненных в его сервисах. Активность внутри экосистемы Google используется для обучения моделей и таргетинга.

    Какие методы машинного обучения используются для поиска похожих аудиторий?

    В патенте упоминаются несколько возможных реализаций Similar Audience Model: нейронные сети (neural network), центроидные модели (centroid model, поиск среднего пользователя) и метод k-ближайших соседей (k-nearest neighbors model / KNN).

    Что такое кластеризация внутри групп интересов (Claim 7)?

    Это продвинутый метод обучения. Система предполагает, что User Interest Group может быть неоднородной. Например, в группе «Путешествия» могут быть подгруппы (кластеры) любителей пляжного отдыха и любителей горных походов. Система пытается выделить эти кластеры и обучать модель на их основе для более точного таргетинга.

    Как веб-сайт узнает User Group Identifier пользователя?

    Согласно патенту (Claim 2), веб-сайт содержит специальный код (например, JavaScript API, предоставляемый браузером, такой как Topics API), который запрашивает у браузера текущий User Group Identifier пользователя. Браузер возвращает этот идентификатор, не раскрывая личность пользователя.

    Может ли эта технология использоваться для персонализации выдачи в Google Discover?

    Хотя патент в основном сфокусирован на рекламе (как типе Digital Component), описанный механизм создания аудиторий на основе интересов может применяться и для персонализации контента. Если Discover выступает в роли Content Platform, он может использовать принадлежность пользователя к Expanded User List для рекомендации релевантных статей.

    Какова главная уязвимость этой системы?

    Главная уязвимость — это зависимость от качества и объема Seed User List. Если у Content Platform недостаточно данных о залогиненных пользователях в релевантных группах интересов, или если признаки этих пользователей не показательны, точность Similar Audience Model будет низкой, и расширение аудитории окажется неэффективным.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.