Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует машинное обучение для выявления и подавления неэффективных комбинаций контента и контекста

    CONTENT SELECTION (Выбор контента)
    • US10417286B1
    • Google LLC
    • 2019-09-17
    • 2013-11-20
    2013 Мультиязычность Патенты Google Персонализация

    Google использует систему оптимизации выбора контента (например, рекламы или рекомендаций), которая анализирует исторические данные показов с помощью логистической регрессии. Цель — выявить комбинации признаков (например, категория контента + категория веб-страницы + страна + язык), которые предсказывают низкий интерес пользователя. Такие неэффективные комбинации проактивно отключаются для повышения общей производительности.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неоптимального выбора контента (например, рекламы или персонализированных рекомендаций), когда контент демонстрируется в контекстах, где пользователи с низкой вероятностью будут с ним взаимодействовать. Это приводит к неэффективному расходованию показов (impressions), снижению показателей производительности (CTR, Conversion Rate) и потенциальному ухудшению пользовательского опыта. Система направлена на выявление таких low impact features (признаков низкого воздействия) для их последующего исключения.

    Что запатентовано

    Запатентована система, которая использует статистические модели, в частности Logistic Regression (логистическую регрессию), для анализа исторических данных о показах контента. Система выявляет Combination Features (комбинации признаков), которые коррелируют с низким уровнем пользовательского интереса. Если Weight (вес или коэффициент), присвоенный комбинации признаков, оказывается ниже определенного порога, система отключает показ определенной группы контента в данном контексте.

    Как это работает

    Система работает путем анализа журналов показов:

    • Сбор данных: Собираются Impression Records, включающие признаки (Features) показа (например, категория веб-страницы, категория контента, страна, язык, тип устройства) и метку (Label) о наличии или отсутствии взаимодействия (например, клик/нет клика).
    • Идентификация комбинаций: Определяются Combination Features (например, Реклама ресторана X Страница о принтерах X США X Английский язык).
    • Моделирование: Применяется модель Logistic Regression для предсказания вероятности взаимодействия на основе этих комбинаций.
    • Определение весов: Модель вычисляет Weight (коэффициент) для каждой комбинации, отражающий ее влияние на вероятность клика.
    • Принятие решения: Если вес ниже установленного порога (Threshold), комбинация признается low impact.
    • Действие: Система передает индикацию для отключения (disable) этой комбинации признаков при будущем выборе контента для данной группы.

    Актуальность для SEO

    Высокая. Оптимизация выбора контента с помощью машинного обучения является центральным элементом рекламных систем Google и систем персонализации (например, Google Discover, News). Использование логистической регрессии для предсказания вероятности клика (pCTR) на основе комбинаций признаков — это стандартная и широко применяемая практика в индустрии.

    Важность для SEO

    Влияние на органическое SEO минимальное (3/10). Патент описывает механизмы для Content Selection, что в контексте документа относится к системам показа рекламы или персонализированных рекомендаций, а не к ранжированию органических результатов поиска. Он не дает прямых рекомендаций по оптимизации сайтов для органического поиска. Однако он критически важен для понимания работы Google Ads (PPC) и может быть косвенно полезен для стратегий в Google Discover, показывая, как Google использует контекстуальные сигналы и машинное обучение для прогнозирования вовлеченности.

    Детальный разбор

    Термины и определения

    Combination Feature (Комбинация признаков)
    Признак, созданный путем объединения двух или более отдельных признаков (Features) из записи о показе (например, Категория контента X Категория веб-страницы). Используется как входная переменная для статистической модели.
    Content Group (Группа контента)
    Набор элементов контента (например, рекламных объявлений), которые имеют общие характеристики или относятся к одной кампании. Анализ и отключение признаков применяется на уровне группы контента.
    Features (Признаки)
    Атрибуты, связанные с показом контента. В патенте упоминаются: web page category, content category, geographic region (страна), language и device type.
    Impression Record (Запись о показе)
    Запись в журнале данных, соответствующая одному показу контента. Включает Features и Indication of user interest (Label).
    Indication of User Interest / Label (Индикация интереса пользователя / Метка)
    Зависимая переменная в статистической модели, указывающая на результат показа (например, клик или отсутствие клика, конверсия).
    Logistic Regression (Логистическая регрессия)
    Статистическая модель (Statistical model), используемая для прогнозирования вероятности бинарного исхода (например, клика) на основе одного или нескольких предикторов (признаков).
    Low Impact Feature (Признак низкого воздействия)
    Признак или комбинация признаков, при наличии которых показ контента с меньшей вероятностью приведет к клику или конверсии по сравнению с показами, не связанными с этим признаком.
    Threshold (Порог)
    Значение, с которым сравнивается Weight признака. Если вес ниже порога, признак может быть отключен.
    Weight (Вес)
    Коэффициент регрессии, определенный статистической моделью для признака или комбинации признаков. Указывает на влияние признака на вероятность пользовательского интереса.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод выбора контента на основе комбинации признаков.

    1. Система получает доступ к записям о показах (records) для элементов из content group.
    2. Каждая запись содержит признаки (минимум два из: категория веб-страницы, категория контента, гео, язык, тип устройства) и индикацию интереса.
    3. Идентифицируется combination feature (комбинация минимум двух признаков).
    4. Используя записи и комбинацию признаков, идентифицируется статистическая модель.
    5. С помощью модели определяется weight для комбинации признаков, указывающий на интерес.
    6. Если weight ниже порога (threshold), система предотвращает (prevent) выбор контента из этой content group при наличии данной комбинации признаков.

    Ядро изобретения — использование статистического анализа исторических данных для проактивного предотвращения показа контента в контекстах (определяемых комбинацией признаков), где он исторически неэффективен.

    Claim 9 (Зависимый от 1): Уточняет детали статистической модели и механизма отключения.

    1. Статистическая модель является моделью logistic regression.
    2. Система определяет вес для каждого из множества признаков (не только комбинаций).
    3. Идентифицируется наименьший вес (lowest weight).
    4. Передается индикация для отключения признака, соответствующего наименьшему весу.

    Это показывает, что система может отключать не только сложные комбинации, но и отдельные признаки, если они демонстрируют наихудшую производительность.

    Claim 10 (Зависимый от 1): Описывает применение системы в реальном времени.

    1. Система получает запрос на контент, соответствующий комбинации признаков.
    2. Определяется, что данная комбинация признаков отключена для первой группы контента (Content Group A).
    3. Определяется, что эта же комбинация признаков включена для второй группы контента (Content Group B).
    4. Контент из второй группы (Content Group B) выбирается в качестве кандидата для показа.

    Это подчеркивает, что отключение применяется специфично для каждой группы контента. Контекст, неэффективный для одной группы, может быть эффективным для другой.

    Где и как применяется

    Патент не описывает механизмы органического ранжирования. Он относится к системам Выбора Контента (Content Selection Systems), таким как Google Ads, AdSense, или системы персонализированных рекомендаций (Google Discover, News).

    Офлайн-анализ и обработка данных
    Основная часть работы алгоритма происходит офлайн:

    • Анализ логов: Система периодически обрабатывает исторические Impression Records, хранящиеся в базе данных.
    • Обучение модели: Logistic Regression Module использует эти данные для обучения моделей и вычисления весов (Weights) для различных Combination Features.
    • Обновление правил: Feature Analyzer сравнивает веса с порогами и обновляет правила выбора контента, отключая неэффективные комбинации.

    INDEXING – Индексирование (Косвенно)
    На этом этапе извлекаются признаки, которые позже будут использоваться в качестве Features в записях о показах, например, категоризация веб-страниц (web page category) и категоризация контента (content category).

    RANKING / Content Selection (В реальном времени)
    На этапе выбора контента (например, во время рекламного аукциона или формирования ленты рекомендаций) система применяет правила, сгенерированные офлайн:

    • При получении запроса система определяет контекст (признаки).
    • При оценке кандидатов система проверяет, не отключена ли текущая комбинация признаков для данного кандидата (Content Group). Если отключена, кандидат исключается из выбора.

    Входные данные (Офлайн):

    • Исторические Impression Records (Признаки + Метки интереса).
    • Определения Content Groups.

    Выходные данные (Офлайн):

    • Веса (Weights) для признаков и комбинаций признаков.
    • Индикации для включения/отключения комбинаций признаков для конкретных Content Groups.

    На что влияет

    • Типы контента: В первую очередь влияет на рекламные объявления (PPC) и персонализированные рекомендации (статьи в Discover, новости). В патенте (Claims 2, 6) также упоминается аудиоконтент.
    • Конкретные ниши: Влияет на все ниши. Однако эффект будет более заметен в нишах с большим разнообразием контекстов показа или там, где существует сильная зависимость интереса от контекста.
    • Устройства и интерфейсы: Система применима не только к веб-страницам. В Claims упоминаются device type, а также взаимодействие через digital assistant, voice command, акустический и речевой ввод. Это указывает на применение в умных колонках и ассистентах.

    Когда применяется

    • Условия применения (Офлайн): При наличии достаточного количества Impression Records для конкретной Content Group или типа провайдера, чтобы модель Logistic Regression могла сойтись (converge) и дать статистически значимые результаты.
    • Триггеры активации (Офлайн): Когда вычисленный Weight для Combination Feature падает ниже установленного Threshold.
    • Применение в реальном времени: Каждый раз, когда система выбора контента обрабатывает запрос и оценивает кандидатов.
    • Временные рамки: Анализ проводится на основе данных за определенный период (например, последняя неделя, месяц). Веса могут меняться со временем по мере поступления новых данных.

    Пошаговый алгоритм

    Процесс А: Офлайн-анализ и обучение модели

    1. Доступ к данным: Система получает доступ к хранилищу Impression Records.
    2. Выборка данных: Выбирается подмножество записей, например, по типу поставщика контента, Content Group или временному интервалу.
    3. Идентификация комбинаций признаков: Система идентифицирует Combination Features (например, путем перебора всех возможных комбинаций или используя предопределенные наборы).
    4. Выполнение логистической регрессии: Модель обучается на выбранных данных, используя комбинации признаков как предикторы и индикацию интереса как зависимую переменную.
    5. Определение весов: Для тех комбинаций, где модель сходится, определяются коэффициенты регрессии (Weights).
    6. Анализ признаков: Feature Analyzer сравнивает полученные веса с порогом (Threshold).
    7. Передача индикации: Если вес ниже порога, система генерирует и передает индикацию для отключения данной Combination Feature для соответствующей Content Group.
    8. Оптимизация порога (Опционально): Система может корректировать Threshold на основе обратной связи о производительности контента.

    Процесс Б: Выбор контента в реальном времени

    1. Получение запроса: Поступает запрос на контент (например, от веб-страницы или приложения).
    2. Идентификация контекста: Определяются признаки запроса (категория страницы, гео, язык, устройство и т.д.), формирующие текущую Combination Feature.
    3. Идентификация кандидатов: Система определяет потенциальные элементы контента (Content Groups) для показа.
    4. Проверка статуса комбинации: Для каждого кандидата система проверяет, включена или отключена текущая Combination Feature.
    5. Фильтрация кандидатов: Если комбинация отключена для Content Group A, этот кандидат исключается. Если комбинация включена для Content Group B, он остается.
    6. Выбор контента: Система выбирает контент из оставшихся кандидатов (например, через аукцион) и предоставляет его для показа.

    Какие данные и как использует

    Данные на входе

    Система полагается на исторические данные, зафиксированные в Impression Records. Ключевые факторы, упомянутые в патенте:

    • Контентные факторы (Content Category): Категория самого элемента контента (например, «Пицца», «Путешествия», «Автомобили»).
    • Контекстуальные факторы (Web Page Category): Категория веб-страницы или приложения, где происходит показ (например, «Принтеры», «Новости», «Путешествия»).
    • Географические факторы (Geographic Region/Country): Местоположение пользователя (например, «США»).
    • Языковые факторы (Language): Язык веб-страницы, контента или пользователя (например, «Английский»).
    • Пользовательские факторы (Device Type): Тип устройства пользователя (упомянут в Claims).
    • Поведенческие факторы (Indication of User Interest / Label): Исторические данные о взаимодействии с контентом (Клик, Нет клика, Конверсия).

    Какие метрики используются и как они считаются

    • Weight (Коэффициент регрессии): Основная метрика, вычисляемая моделью Logistic Regression. Положительный вес увеличивает вероятность интереса, отрицательный — уменьшает.
    • Threshold (Порог): Предопределенное или динамически оптимизируемое значение для классификации признака как low impact. Порог может быть равен 0 или любому другому числу.
    • Lowest Weight (Наименьший вес): Используется для идентификации наименее эффективного признака среди всех проанализированных.
    • pCTR (Predicted Click-Through Rate): Хотя термин явно не используется, целью логистической регрессии является моделирование вероятности клика, что функционально эквивалентно pCTR.

    Методы анализа:

    • Статистическая модель: Logistic Regression.
    • Метод оценки: Вероятно, используется Maximum Likelihood Estimation (оценка максимального правдоподобия) для нахождения коэффициентов, которые лучше всего соответствуют наблюдаемым данным.

    Выводы

    1. Фокус на оптимизации выбора контента, а не на органическом ранжировании: Патент описывает инфраструктуру для повышения эффективности систем показа рекламы и рекомендаций путем подавления неэффективных показов. Он не имеет прямого отношения к алгоритмам ранжирования органического поиска.
    2. Контекст определяется комбинацией признаков: Ключевым является понятие Combination Feature. Система не просто оценивает отдельные признаки (например, «Реклама ресторанов» эффективна, а «Страницы о принтерах» нет), а оценивает их взаимодействие (например, «Реклама ресторанов НА страницах о принтерах В США» неэффективна).
    3. Проактивное подавление (Suppression): Если комбинация признаков признана low impact (вес ниже порога), она не просто понижается в ранжировании, а полностью отключается (disabled/prevented) для данной группы контента.
    4. Специфичность для группы контента: Отключение применяется на уровне Content Group. Одна и та же комбинация признаков может быть отключена для одной рекламной кампании, но оставаться активной для другой, если исторические данные отличаются.
    5. Динамическая оптимизация: Система использует машинное обучение (Logistic Regression) на исторических данных, что подразумевает регулярное обновление весов. Также упоминается возможность оптимизации порогов (Threshold) на основе обратной связи.
    6. Широкая применимость: Механизм применяется к различным типам контента (включая аудио) и интерфейсам (включая голосовых ассистентов и умные устройства).

    Практика

    Best practices (это мы делаем)

    Хотя патент имеет минимальное отношение к органическому SEO, он дает важное понимание работы других систем Google (Ads, Discover).

    • Для специалистов по PPC (Google Ads): Это критически важный механизм. Необходимо тщательно анализировать отчеты по местам размещения (Placements) и контекстам. Если кампания (Content Group) внезапно перестает получать показы в определенном контексте, возможно, система идентифицировала эту комбинацию как low impact и отключила ее. Решение: улучшать качество объявлений для повышения CTR или пересматривать стратегию таргетинга.
    • Для издателей (AdSense/Ad Manager): Обеспечивайте четкую и точную категоризацию контента вашего сайта (Web Page Category). Это позволит системе Google более точно моделировать эффективность различных типов рекламы на вашем ресурсе и избегать показа нерелевантных объявлений (low impact).
    • Для стратегии в Google Discover/News: Понимайте, что вовлеченность (user interest) сильно зависит от контекста (время, местоположение, предыдущие интересы). Контент, который хорошо работает в одном контексте, может быть подавлен в другом, если модель предсказывает низкую вовлеченность для этой Combination Feature. Необходимо фокусироваться на создании контента, который вызывает высокий интерес в целевых контекстах.

    Worst practices (это делать не надо)

    • Игнорирование контекста в PPC: Запуск широких рекламных кампаний без учета того, как взаимодействуют категория рекламы и категория места размещения. Это приведет к большому количеству low impact показов и последующему отключению системой.
    • Манипуляции с категоризацией сайта: Попытки представить сайт в более «дорогой» категории, если контент ей не соответствует, могут привести к тому, что система определит несоответствие и классифицирует показы как low impact из-за низкого CTR.

    Стратегическое значение

    Патент подтверждает стратегию Google на использование машинного обучения для автоматической оптимизации производительности и вовлеченности в реальном времени. Он демонстрирует, как Google анализирует сложные взаимодействия между контентом и контекстом (Combination Features), а не полагается на простые правила. Для специалистов по цифровому маркетингу это подчеркивает необходимость перехода от ручного управления кампаниями к использованию данных и пониманию того, как алгоритмы интерпретируют производительность в различных контекстах.

    Практические примеры

    Сценарий 1: Оптимизация рекламной кампании (PPC)

    1. Ситуация: Запущена рекламная кампания (Content Group) по доставке пиццы.
    2. Анализ данных (Google): Система анализирует Impression Records. Общий CTR 2%. Однако для Combination Feature [Категория контента: Пицца] X [Категория страницы: Финансовые новости] X [Время: Рабочие часы] CTR составляет 0.1%.
    3. Моделирование: Logistic Regression присваивает этой комбинации низкий отрицательный Weight.
    4. Действие: Вес ниже порога. Система отключает эту комбинацию для данной кампании.
    5. Результат: Реклама пиццы перестает показываться на сайтах финансовых новостей в рабочее время, что повышает общий CTR кампании.

    Сценарий 2: Персонализация контента (Discover)

    1. Ситуация: Пользователь часто читает спортивные новости вечером.
    2. Анализ данных (Google): Система анализирует глобальные данные о вовлеченности. Выявлено, что для Combination Feature [Категория контента: Спорт] X [Контекст: Утренняя поездка на работу] X [Тип устройства: Мобильный] вовлеченность низкая (пользователи предпочитают короткие бизнес-новости).
    3. Моделирование: Этой комбинации присваивается низкий Weight.
    4. Действие: Вес ниже порога. Комбинация подавляется.
    5. Результат: Утром пользователь видит меньше спортивных новостей в ленте Discover, даже если он на них подписан, и больше бизнес-новостей.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование в органическом поиске Google?

    Нет, прямого влияния на органическое ранжирование нет. Патент описывает систему Content Selection, которая используется для выбора дополнительного контента, такого как рекламные объявления (Google Ads) или персонализированные рекомендации (Google Discover). Механизмы ранжирования органической выдачи отличаются от описанных здесь.

    Что такое «Combination Feature» (Комбинация признаков) в контексте этого патента?

    Это сочетание двух или более отдельных признаков, связанных с показом контента. Например, это не просто анализ эффективности рекламы «Обувь» или эффективности сайта «Новости», а анализ эффективности комбинации: [Реклама Обуви] НА [Сайте Новостей] В [Германии] НА [Английском языке]. Система оценивает эффективность именно этого конкретного сочетания.

    Что означает «Low Impact» (Низкое воздействие)?

    Low Impact означает, что при наличии определенного признака или комбинации признаков пользователи исторически проявляли низкий интерес к контенту (например, имели низкий CTR или коэффициент конверсии). Система стремится идентифицировать такие ситуации, чтобы не показывать контент в этих неэффективных контекстах.

    Какое значение этот патент имеет для специалистов по Google Ads (PPC)?

    Для PPC-специалистов этот патент имеет критическое значение. Он объясняет механизм, с помощью которого Google автоматически оптимизирует показы, отключая неэффективные комбинации таргетинга. Если ваша рекламная группа (Content Group) перестала получать показы в определенном контексте, возможно, система классифицировала эту комбинацию как low impact и отключила ее.

    Может ли этот механизм влиять на видимость контента в Google Discover?

    Да, весьма вероятно. Системы персонализированных рекомендаций, такие как Discover, используют аналогичные методы машинного обучения для прогнозирования вовлеченности. Если система определит, что комбинация [Тема статьи] X [Время суток] X [Местоположение пользователя] имеет низкий Weight (предсказывает низкий интерес), эта статья может быть подавлена в ленте пользователя.

    Зачем используется логистическая регрессия (Logistic Regression)?

    Logistic Regression используется как статистическая модель для прогнозирования вероятности бинарного исхода (кликнет пользователь или нет) на основе входных признаков. Она позволяет вычислить Weight (вес) для каждой Combination Feature, показывая, насколько сильно эта комбинация влияет на вероятность клика.

    Является ли отключение неэффективной комбинации постоянным?

    Нет, оно не обязательно постоянно. Система периодически анализирует новые данные о показах. Если пользовательские предпочтения изменятся и комбинация станет более эффективной, ее Weight увеличится. Если новый вес превысит порог (Threshold), система может снова включить эту комбинацию признаков.

    Какие признаки используются для анализа?

    В патенте явно упоминаются: категория веб-страницы (web page category), категория контента (content category), географический регион (geographic region), язык (language) и тип устройства (device type). Система может использовать и другие доступные ей признаки контекста.

    Применяется ли этот механизм к голосовому поиску и умным ассистентам?

    Да. В Claims патента специально упоминаются индикации интереса, полученные через digital assistant, voice command, а также акустический и речевой ввод. Это указывает на то, что система оптимизирует выбор контента (включая аудиоконтент) и на этих платформах.

    Могу ли я как SEO-специалист или рекламодатель увидеть эти веса (Weights)?

    Нет, эти внутренние коэффициенты (Weights) и пороги (Thresholds) не раскрываются публично. Специалисты могут только наблюдать результат работы системы — наличие или отсутствие показов в определенных контекстах и общие показатели производительности (CTR, Conversion Rate).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.