Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует опросы и анализ поведения для калибровки демографических данных пользователей (возраст, пол)

    DEMOGRAPHIC INFERENCE CALIBRATION (Калибровка демографических выводов)
    • US9466029B1
    • Google LLC
    • 2016-10-11
    • 2013-10-15
    2013 Патенты Google Персонализация Поведенческие сигналы

    Патент описывает метод, с помощью которого Google определяет демографические характеристики пользователей (возраст, пол), даже если они их не указали. Система анализирует поведение пользователя для вычисления вероятности принадлежности к демографической группе, а затем калибрует эту вероятность, используя эталонные данные о распределении демографии в интернете (например, опросы). Это обеспечивает точность данных для аналитики и таргетинга контента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточности и смещения (skewing) в моделях машинного обучения, которые предсказывают демографические характеристики пользователей (например, возраст или пол) исключительно на основе их поведения в интернете (known user behavior). Такие модели могут давать распределение, не соответствующее реальной демографической картине интернета. Изобретение улучшает точность, калибруя результаты модели по внешним, эталонным данным (бенчмаркам), таким как данные опросов населения.

    Что запатентовано

    Запатентована система калибровки для маркировки идентификаторов пользователей (например, cookies). Система не просто предсказывает демографию на основе поведения, но и принудительно корректирует эти предсказания. Она гарантирует, что общее распределение присвоенных демографических меток соответствует известному «эталонному» распределению в интернете (known internet distribution), полученному из внешних источников (например, Survey System).

    Как это работает

    Ключевой механизм — это калибровка вероятностей путем ранжирования и использования эталонов:

    • Сбор данных: Идентифицируется набор пользовательских идентификаторов без демографических меток (unlabeled identifiers).
    • Расчет вероятности: На основе поведения пользователя рассчитывается вероятность (Probability) или оценка (Score) его принадлежности к определенному классу (например, вероятность быть мужчиной).
    • Ранжирование: Все идентификаторы ранжируются по этой рассчитанной оценке.
    • Получение эталона: Система получает данные об эталонном интернет-распределении (например, «в интернете 55% мужчин»).
    • Калибровка и назначение меток: Система находит границу (boundary) в ранжированном списке, соответствующую эталонному проценту (55%). Идентификаторам выше этой границы присваивается соответствующая метка («Мужчина»).
    • Иерархический подход: Для характеристик с более чем двумя классами (например, возрастные группы) процесс применяется иерархически (дерево решений), разбивая классы на суперклассы и подклассы.

    Актуальность для SEO

    Средняя. Точное профилирование пользователей остается критически важным для таргетинга рекламы и аналитики. Однако конкретная реализация, основанная на Cookie Labeler, может устаревать в связи с изменениями в области приватности и отказом от third-party cookies. Тем не менее, сам математический принцип калибровки моделей машинного обучения по внешним бенчмаркам является стандартной и актуальной практикой в Data Science.

    Важность для SEO

    (1/10). Влияние на органическое SEO минимальное. Патент не описывает алгоритмы ранжирования поиска, методы индексации или факторы оценки качества сайтов. Он относится к Системе управления контентом (Content Management System), которая, судя по контексту, является частью инфраструктуры профилирования пользователей (AdTech/Analytics). Фокус патента — повышение точности демографических данных пользователей, а не SEO.

    Детальный разбор

    Термины и определения

    Boundary (Граница)
    Точка отсечения в ранжированном списке идентификаторов, которая разделяет один демографический класс от другого. Определяется на основе эталонного распределения (Internet distribution).
    Content Management System (Система управления контентом)
    Система, используемая для выбора и предоставления контента (в контексте патента — вероятно, рекламы или аналитики). Включает компоненты Content Selector и Cookie Labeler.
    Cookie Labeler (Маркировщик Cookie)
    Компонент системы, отвечающий за выполнение процесса калибровки и присвоение демографических меток идентификаторам пользователей.
    Internet distribution / Known Internet Distribution (Известное интернет-распределение)
    Эталонное (benchmark) распределение демографических классов среди пользователей интернета. Используется как «источник правды» для калибровки. Основано на данных опросов (current population survey).
    Known user behavior (Известное поведение пользователя)
    Данные о действиях пользователя (посещенные сайты, запросы, взаимодействия с контентом, конверсии), которые используются в качестве входных данных для модели, предсказывающей демографию.
    Multi-class demographic characteristic (Многоклассовая демографическая характеристика)
    Демографическая характеристика с двумя или более классами. Например, Пол (М/Ж) или Возраст (18-24, 25-34 и т.д.).
    Superclass / Subclass (Суперкласс / Подкласс)
    Термины, используемые в иерархической классификации. Superclass — это более широкая категория (например, «Возраст 18-34»), которая делится на Subclasses (например, «18-24» и «25-34»).
    Unlabeled Identifier / Cookie (Неразмеченный идентификатор / Cookie)
    Идентификатор пользователя, для которого искомая демографическая характеристика неизвестна.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс калибровки демографических выводов.

    1. Идентификация набора неразмеченных идентификаторов (unlabeled identifiers).
    2. Для каждого идентификатора: определение вероятности включения в демографический класс на основе известного поведения пользователя (known behavior).
    3. Ранжирование набора идентификаторов на основе этих вероятностей.
    4. Определение интернет-распределения пользователей (internet distribution) на основе характеристик текущего опроса населения (current population survey).
    5. Определение процентного соотношения пользователей в каждом классе на основе этого распределения.
    6. Определение границы (boundary) в ранжированном списке, которая разделяет классы в соответствии с этим процентным соотношением.
    7. Корректировка вероятности включения в класс для идентификатора на основе этой границы.
    8. Присвоение метки класса идентификатору в соответствии с корректировкой.

    Это классический метод калибровки вероятностей (Probability Calibration). Система не полагается на абсолютные значения вероятностей, предсказанные поведенческой моделью. Вместо этого она использует относительное ранжирование пользователей и внешний бенчмарк (например, «в интернете 60% мужчин»), чтобы найти точку отсечения (boundary). Это принудительно гарантирует, что итоговое распределение присвоенных меток будет соответствовать бенчмарку, исправляя любые смещения исходной модели.

    Claim 12 (Независимый пункт): Альтернативное описание метода с фокусом на оценках (score) и cookies.

    1. Идентификация немаркированных cookies.
    2. Определение оценки (score), представляющей вероятность принадлежности к классу.
    3. Ранжирование cookies по оценкам.
    4. Определение интернет-распределения и процентного распределения по классам.
    5. Определение границы (boundary) в ранжировании на основе процентов.
    6. Присвоение класса конкретному cookie на основе его ранга относительно границы.

    Этот пункт более прямолинеен: если эталон говорит, что 60% пользователей – Класс А, то топ 60% идентификаторов в ранжированном списке (наиболее похожих на Класс А по поведению) маркируются как Класс А.

    Claim 3, 4, 11 (Зависимые): Описывают обработку характеристик с тремя и более классами (например, возраст), используя иерархический подход.

    • Проблема многоклассовой классификации сводится к серии бинарных задач. Классы объединяются в суперклассы (superclasses) (например, 18-34 против 35+).
    • Система решает эту бинарную задачу, используя механизм калибровки из Claim 1 или 12.
    • Процесс повторяется рекурсивно: идентифицированный суперкласс разбивается на подклассы (subclasses), и калибровка применяется снова, пока не будет определен финальный класс.

    Где и как применяется

    Важно отметить, что этот патент не относится к архитектуре органического поиска (Crawling, Indexing, Ranking и т.д.). Он описывает работу Content Management System и связанной с ней инфраструктуры профилирования пользователей (User Modeling), которая используется для аналитики и таргетинга контента (преимущественно рекламы).

    Офлайн-обработка данных пользователей (User Modeling)

    Процесс применяется для периодической обработки и классификации пользователей.

    • Взаимодействие компонентов: Cookie Labeler анализирует данные о поведении из User Profiles, использует эталонные данные от Survey System для калибровки и присваивает демографические метки. Позже Content Selector использует эти метки для выбора релевантного контента (рекламы).
    • Входные данные: Набор Unlabeled Identifiers, данные о Known user behavior, эталонное Internet distribution (бенчмарк).
    • Выходные данные: Идентификаторы с присвоенными демографическими метками (например, Пол: М, Возраст: 25-34).

    На что влияет

    • Аналитические системы: Влияет на точность демографических отчетов, которые видят владельцы сайтов (например, в Google Analytics).
    • Таргетинг контента: Основное влияние — повышение точности таргетинга рекламы на пользователей с определенными демографическими характеристиками.
    • Органический поиск: Не влияет на ранжирование сайтов, оценку их качества (E-E-A-T) или базовую релевантность в органическом поиске.

    Когда применяется

    • Частота применения: Процесс применяется периодически (офлайн) для обработки новых или ранее неразмеченных пользовательских идентификаторов. Упоминается возможность запуска ежедневно или еженедельно.
    • Условия: Применяется, когда необходимо определить демографические характеристики для пользователей, которые их явно не указали.
    • Географические ограничения: Патент упоминает возможность разделения идентификаторов по стране происхождения (country of origin) и проведения калибровки независимо для каждой страны, используя локальные бенчмарки.

    Пошаговый алгоритм

    Процесс А: Базовая калибровка (для бинарной классификации, например, Пол)

    1. Идентификация данных: Выборка набора неразмеченных идентификаторов.
    2. Расчет оценок: Для каждого идентификатора на основе Known user behavior определяется оценка (Score) или вероятность принадлежности к Классу 1 (например, Мужчина).
    3. Ранжирование: Все идентификаторы сортируются на основе рассчитанных оценок, создавая ранжированный список (Ranking).
    4. Получение эталона: Определение эталонного Internet distribution для Класса 1 (например, из опросов известно, что Класс 1 составляет 55% аудитории).
    5. Определение границы: В ранжированном списке определяется граница (boundary) или порог, соответствующий проценту из эталонного распределения (например, 55-й процентиль).
    6. Присвоение меток: Идентификаторам выше границы присваивается метка Класса 1, ниже — Класса 2.

    Процесс Б: Иерархическая калибровка (для многоклассовой классификации, например, Возраст)

    1. Определение иерархии: Создание древовидной структуры, где классы группируются в Superclasses.
    2. Первичное разделение: Определение первого и второго Superclasses, охватывающих все классы (например, 18-34 и 35+).
    3. Бинарная калибровка: Применение Процесса А для разделения идентификаторов между этими двумя Superclasses, используя соответствующие эталонные распределения.
    4. Рекурсивное разделение: Для каждого присвоенного Superclass проверяется, содержит ли он подклассы.
    5. Углубление: Если да, Superclass делится на два новых подкласса (например, 18-34 делится на 18-24 и 25-34). Процесс А повторяется для разделения идентификаторов внутри этого Superclass.
    6. Завершение: Процесс повторяется до тех пор, пока идентификатору не будет присвоен финальный класс.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Known user behavior): Это основные данные для предсказания демографии. Включают посещенные сайты (websites visited), взаимодействие с контентом (content items interacted with), выполненные конверсии (conversion actions, например, покупки), поисковые запросы (search queries).
    • Пользовательские факторы: Неразмеченные идентификаторы (Unlabeled Identifiers/Cookies) и связанные данные профиля пользователя (User Profiles).
    • Географические факторы: Страна происхождения (country of origin) идентификатора.
    • Внешние данные (Эталоны): Критически важные данные для калибровки. Эталонное интернет-распределение (Internet distribution), данные опросов населения (current population survey).

    Какие метрики используются и как они считаются

    • Probability / Score: Метрика, вычисляемая моделью на основе поведения пользователя, отражающая вероятность принадлежности к демографическому классу.
    • Ranking: Ранжированный список всех обрабатываемых идентификаторов на основе их Score.
    • Boundary / Threshold (Граница / Порог): Точка отсечения в ранжированном списке. Она определяется принудительно на основе процентного соотношения из Internet distribution (процентиль).
    • Методы калибровки: Используются статистические методы для трансформации исходных вероятностей. Упоминается возможность использования линейной интерполяции или биннинга (binning technique) для корректировки распределения модели до соответствия эталонному.

    Выводы

    Патент описывает внутренние процессы Google, связанные с профилированием пользователей (User Modeling), и не дает прямых рекомендаций для SEO.

    1. Приоритет эталонных данных над моделью: Google не полагается исключительно на предсказания своих поведенческих моделей для определения демографии. Если модель смещена (skewed), ее результаты принудительно калибруются для соответствия внешним эталонным данным (опросам, бенчмаркам).
    2. Механизм калибровки: Ключевой механизм — это ранжирование пользователей по вероятности и использование внешнего бенчмарка для определения точки отсечения (boundary), а не использование абсолютных значений вероятностей.
    3. Иерархическая классификация: Для сложных многоклассовых характеристик (например, возраст) задача решается путем сведения к серии бинарных задач (дерево решений), что позволяет применять калибровку на каждом этапе.
    4. Цель — Таргетинг и Аналитика: Основная цель системы — повышение точности демографических данных для использования в Content Management System (таргетинг рекламы) и системах аналитики.
    5. Отсутствие связи с органическим SEO: Патент не содержит информации о факторах ранжирования органического поиска, оценке качества сайтов или релевантности контента запросам.

    Практика

    ВАЖНО: Патент является инфраструктурным, относится к области профилирования пользователей и не дает практических выводов для прямого влияния на SEO-ранжирование.

    Best practices (это мы делаем)

    Прямых рекомендаций по SEO-оптимизации на основе этого патента нет. Однако он полезен для понимания данных Google и разработки контент-стратегии:

    • Доверие к демографическим отчетам Google: Можно с большей уверенностью использовать демографические отчеты в инструментах Google (например, Google Analytics, Google Ads), понимая, что Google применяет сложные механизмы калибровки для устранения смещений и приведения данных в соответствие с реальным распределением населения.
    • Анализ аудитории и Контент-стратегия: Используйте эти калиброванные демографические данные для лучшего понимания реальной аудитории вашего сайта. Это позволяет адаптировать контент, язык и подачу материала под преобладающие демографические группы, что может косвенно улучшить поведенческие факторы и вовлеченность.
    • Учет географической специфики: При анализе международной аудитории учитывайте, что Google калибрует данные на уровне отдельных стран (как указано в патенте), что повышает точность локальных данных.

    Worst practices (это делать не надо)

    • Попытки манипулировать демографическим профилем для SEO: Не стоит пытаться искусственно привлекать трафик определенной демографии в надежде повлиять на органическое ранжирование. Механизм предназначен для таргетинга рекламы и аналитики, а не для оценки качества сайта для SEO.
    • Игнорирование реальной аудитории: Создание контента, ориентированного на «желаемую» демографию, игнорируя аналитические данные о том, кто на самом деле посещает сайт.

    Стратегическое значение

    Стратегическое значение для органического SEO минимально. Патент подчеркивает важность точных пользовательских данных для экосистемы Google (особенно рекламной). Для SEO-специалистов это подтверждает переход от анализа исключительно ключевых слов к глубокому анализу аудиторий и их поведения. Долгосрочная стратегия должна фокусироваться на создании ценности для четко определенных сегментов аудитории.

    Практические примеры

    Практических примеров применения для SEO нет. Ниже приведен пример работы системы для демонстрации механизма калибровки.

    Сценарий: Калибровка предсказания пола пользователя

    1. Исходные данные: Система обрабатывает 100,000 неразмеченных идентификаторов.
    2. Предсказание модели: Поведенческая модель анализирует активность пользователей и предсказывает вероятность P(Male) для каждого. Допустим, модель смещена и предсказывает слишком много мужчин (например, 75%, если брать порог 0.5).
    3. Получение эталона: Survey System предоставляет данные, что в интернете в данном регионе 55% мужчин (Internet Distribution).
    4. Ранжирование: Все 100,000 идентификаторов ранжируются по убыванию P(Male).
    5. Калибровка (Ключевой шаг): Система определяет границу (boundary) на 55-м процентиле в ранжированном списке.
    6. Результат: Верхние 55,000 пользователей получают метку «Мужчина», нижние 45,000 — «Женщина». Итоговое распределение точно соответствует эталону (55% М / 45% Ж), несмотря на смещение исходной модели.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в органическом поиске?

    Нет. Патент описывает технологию, с помощью которой Google определяет демографические характеристики (возраст, пол) пользователей, а не то, как он оценивает качество или релевантность сайтов. Он не имеет отношения к алгоритмам органического ранжирования.

    Для чего Google использует эту технологию?

    Она используется в Content Management System. Судя по описанию, это относится к рекламным системам Google (Google Ads) и системам аналитики (Google Analytics). Технология позволяет точнее таргетировать рекламу на нужные демографические сегменты и предоставлять точные отчеты об аудитории владельцам сайтов.

    Что такое «калибровка» в контексте этого патента и зачем она нужна?

    Калибровка — это принудительная корректировка предсказаний модели для исправления ее смещений (biases). Например, если модель считает, что 80% пользователей — мужчины, а внешние опросы (бенчмарк) показывают, что их только 55%, система скорректирует результаты так, чтобы итоговое распределение соответствовало 55%. Это гарантирует соответствие данных Google реальной демографии интернета.

    Как система определяет демографию пользователя, если он ее не указал?

    Система анализирует Known user behavior — известное поведение пользователя в интернете. Это включает историю посещенных сайтов, поисковые запросы, взаимодействие с контентом и совершенные конверсии (покупки). На основе этих данных модель вычисляет вероятность принадлежности пользователя к той или иной демографической группе.

    Могу ли я использовать понимание этого патента для улучшения SEO моего сайта?

    Напрямую для улучшения позиций — нет. Однако понимание того, как Google определяет демографию аудитории (что отражается в отчетах Google Analytics), позволяет вам лучше использовать эти отчеты для адаптации контент-стратегии под реальных посетителей. Это может улучшить вовлеченность и поведенческие факторы.

    Как обрабатываются сложные характеристики, например, несколько возрастных групп?

    Используется иерархический подход (древовидная структура). Сначала пользователи делятся на большие группы или Superclasses (например, 18-34 против 35+). Затем эти группы рекурсивно делятся на более мелкие подклассы (например, 18-34 делится на 18-24 и 25-34). На каждом этапе применяется калибровка.

    Откуда Google берет эталонные данные (Internet Distribution)?

    Патент упоминает Survey System (Система опросов) и current population survey (текущий опрос населения). Это могут быть данные переписей, независимые исследования интернет-аудитории или собственные опросы Google, которые используются как «источник правды» о демографической картине интернета.

    Учитывает ли система региональные демографические различия?

    Да, в патенте явно указана возможность разделения идентификаторов по стране происхождения (country of origin). Это позволяет проводить калибровку отдельно для каждой страны, используя соответствующие региональные бенчмарки и учитывая локальную специфику.

    Применяется ли эта калибровка в реальном времени?

    Нет. Патент описывает это как периодический процесс (например, ежедневный или еженедельный) для обработки накопленных немаркированных идентификаторов (cookies). Он не выполняется в реальном времени в момент загрузки страницы или выполнения поиска пользователем.

    Актуален ли этот патент в эпоху отказа от third-party cookies?

    Конкретная реализация, основанная на Cookie Labeler, может устаревать. Однако сам математический принцип калибровки моделей машинного обучения по внешним бенчмаркам остается фундаментальным и может применяться к другим типам идентификаторов или агрегированным когортам пользователей (например, в рамках Privacy Sandbox).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.