Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google классифицирует рекламодателей по бизнес-вертикалям, используя данные о ключевых словах и расходах на рекламу

    ASSOCIATING AN ENTITY WITH A CATEGORY (Ассоциация сущности с категорией)
    • US20100070339A1
    • Google LLC
    • 2010-03-18
    • 2009-02-26
    2009 Google Shopping Патенты Google

    Патент описывает двухэтапную систему классификации сущностей, например, рекламодателей. Система использует вероятностную модель, взвешенную по финансовым данным (расходам на рекламу), и дерево решений (CART), чтобы точно определить основную бизнес-вертикаль сущности. Модель обучается с приоритетом на крупных рекламодателей и используется для внутренней аналитики и CRM.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу точной автоматической классификации сущностей (entities), в частности Content Providers (поставщиков контента, т.е. рекламодателей), по бизнес-категориям (Verticals). Цель — повысить точность классификации путем комбинирования вероятностных методов с системами, основанными на правилах, для исправления систематических ошибок базовых классификаторов и повышения специфичности.

    Что запатентовано

    Запатентована двухэтапная система классификации сущностей. Первый этап (Probability Classifier или Base Classifier) вычисляет вероятности принадлежности к категориям на основе ключевых слов и финансовых данных (financial value). Второй этап (Rule-Based Classifier) использует эти вероятности и предварительно обученный набор правил (Rule Set), реализованный как Дерево Решений (Decision Tree, например, CART), для финального выбора одной категории.

    Как это работает

    Система функционирует в рамках рекламной экосистемы:

    • Сбор данных: Собираются ключевые слова (Keywords) рекламодателя, расходы на рекламу (Spend) и география.
    • Этап 1 (Вероятностная классификация): Base Classifier рассчитывает вероятности принадлежности к вертикалям. Эти вероятности взвешиваются по расходам (Spend-weighted) – ключевые слова с большими тратами имеют больший вес.
    • Этап 2 (Классификация на основе правил): Primary Vertical Classifier использует взвешенные вероятности и другие признаки (общие расходы, страна) как входные данные для Decision Tree.
    • Обучение модели: Дерево решений обучается офлайн, причем данные о высокодоходных рекламодателях приоритезируются (Oversampling).
    • Результат: Выбирается одна основная вертикаль для рекламодателя.

    Актуальность для SEO

    Средняя (для AdTech/CRM). Методы классификации (вероятностные модели, CART) остаются актуальными инструментами в Data Science, хотя могут быть дополнены нейросетями. Задача классификации клиентов по бизнес-вертикалям для аналитики и управления продажами остается стандартной практикой в рекламных системах. Для SEO актуальность низкая.

    Важность для SEO

    Патент имеет минимальное значение для органического SEO (1/10). Он описывает исключительно внутренние процессы рекламной системы Google (AdTech) и систем управления взаимоотношениями с клиентами (CRM). Механизмы классификации рекламодателей на основе их расходов и ставок на ключевые слова не связаны с алгоритмами индексирования или ранжирования веб-поиска.

    Детальный разбор

    Термины и определения

    CART (Classification and Regression Trees)
    Алгоритм машинного обучения для построения деревьев решений. Используется для генерации Rule Set.
    Category / Vertical (Категория / Вертикаль)
    Бизнес-классификация или отрасль (например, «ипотека», «бытовая электроника»).
    Content Provider (Поставщик контента)
    Сущность, предоставляющая контент для публикации. В контексте патента это рекламодатель.
    Decision Tree (Дерево решений)
    Модель машинного обучения, реализующая Rule Set. Состоит из последовательности решений, основанных на сравнении признаков с пороговыми значениями (threshold values).
    Entity (Сущность)
    Объект, подлежащий классификации (рекламодатель или издатель).
    Financial Value / Spend (Финансовая ценность / Расходы)
    Денежные данные, связанные с сущностью (например, расходы на рекламу по ключевому слову, общие или квартальные расходы).
    Oversampling (Оверсемплинг/Передискретизация)
    Техника при обучении модели, при которой данные от сущностей с высокими расходами дублируются или перевзвешиваются в обучающей выборке, чтобы модель уделяла им больше внимания.
    Probability Classifier / Base Classifier
    Первый этап классификации. Вычисляет значения вероятности (Probability Value) принадлежности к вертикалям на основе keywords и financial value.
    Rule-Based Classifier / Primary Vertical Classifier
    Второй этап классификации. Использует вероятности из Этапа 1 и Rule Set (Decision Tree) для принятия окончательного решения.
    Training Data (Обучающие данные)
    Набор данных, содержащий соответствия (mappings) сущностей и вертикалей, используемый для обучения Decision Tree.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод ассоциации сущности с категорией.

    1. Определение значения вероятности (probability value) для набора категорий, показывающее вероятность принадлежности сущности к категории.
    2. Идентификация и запись одной категории для сущности, используя как probability value, так и набор правил (rule set).

    Claim 2 (Зависимый от 1): Уточняет контекст применения.

    Сущность — это Content Provider (рекламодатель). Probability value определяется с использованием keywords и financial value, связанных с ним.

    Claim 5 и 6 (Зависимые): Детализируют набор правил.

    Rule set представляет собой Decision Tree, которое генерируется с использованием Training Data (предварительно размеченных соответствий сущностей и категорий).

    Claim 7 и 8 (Зависимые от 6): Описывают процесс взвешивания при обучении.

    При генерации Decision Tree обучающие данные взвешиваются с использованием финансовых данных (Claim 7). Это взвешивание включает Oversampling подмножества данных на основе соответствующих финансовых данных (Claim 8). Это означает, что модель оптимизируется для точности на рекламодателях с высокими расходами.

    Claim 20 (Независимый пункт): Описывает полный детальный метод ассоциации Content Provider с категорией.

    Он суммирует весь процесс: получение ключевых слов и финансовых значений; маппинг; расчет взвешенных по финансам вероятностей; использование rule set для обработки данных (включая вероятности, финансовые данные и географию); финальный выбор категории.

    Где и как применяется

    Важно: Патент НЕ относится к архитектуре веб-поиска (CRAWLING, INDEXING, RANKING и т.д.).

    Он описывает систему, функционирующую в рамках Рекламной платформы (AdTech) и систем управления взаимоотношениями с клиентами (CRM).

    Взаимодействие компонентов:

    • Система взаимодействует с базой данных рекламодателей, системой управления ставками и финансовой системой.
    • Rule Component работает офлайн для генерации Decision Tree.
    • Probability Classifier и Rule Based Classifier работают для классификации конкретных рекламодателей.
    • Результаты используются Front End компонентом для отображения в CRM.

    Входные данные:

    • Ключевые слова рекламодателя (Keywords).
    • Расходы на эти ключевые слова (Financial value).
    • Общие расходы (Total Spend, x3 в модели CART).
    • Квартальные расходы (Quarterly Spend, x4).
    • Количество ключевых слов (Keyword Count, x2).
    • Страна биллинга (Country, x1).

    Выходные данные:

    • Основная бизнес-вертикаль (Primary Vertical), назначенная рекламодателю.
    • Связанная информация (например, Seasonality).

    На что влияет

    • Патент влияет исключительно на внутреннюю классификацию рекламодателей (Content Providers) в рекламных системах Google. Он не влияет на органический поиск, типы контента, запросы или тематики сайтов в контексте SEO.

    Когда применяется

    • Условия применения: Применяется для классификации рекламодателей, зарегистрированных в программе дистрибуции контента.
    • Временные рамки: Обучение модели (генерация Decision Tree) происходит периодически офлайн. Классификация происходит по мере необходимости анализа клиентской базы или обновления данных.
    • Пороговые значения: Многочисленные пороги используются внутри Decision Tree для принятия решений (например, если x26 < 0.156561, перейти к узлу 2).

    Пошаговый алгоритм

    Процесс А: Обучение модели (Офлайн)

    1. Сбор обучающих данных: Получение Training Data – набора рекламодателей с известной правильной вертикалью.
    2. Сбор финансовых данных: Получение данных о расходах (Spend) для этих рекламодателей.
    3. Взвешивание данных (Oversampling): Модификация обучающей выборки. Дублирование записей рекламодателей с высокими расходами, чтобы сместить фокус модели на них.
    4. Генерация Decision Tree (CART): Построение модели классификации на взвешенных данных. Определение структуры дерева, выбор признаков и определение пороговых значений (threshold values) в узлах.
    5. Валидация и Оптимизация: Оценка точности модели (например, с помощью cross validation) и прунинг (pruning) дерева для предотвращения переобучения.

    Процесс Б: Классификация рекламодателя

    1. Получение данных о сущности: Идентификация рекламодателя и получение его данных (Keywords, Spend, Country и т.д.).
    2. Базовая классификация (Base Classifier): Сопоставление Keywords с вертикалями.
    3. Взвешивание вероятностей: Расчет весов для вертикалей, скорректированных с учетом расходов на соответствующие ключевые слова (Spend-weighted).
    4. Подготовка признаков: Формирование вектора признаков. В примере патента это 34 измерения (веса для 30 вертикалей + 4 дополнительных признака: Keyword Count, Total Spend, Quarterly Spend, Country).
    5. Применение Decision Tree (Primary Vertical Classifier): Обработка вектора признаков с помощью ранее обученного Decision Tree (из Процесса А).
    6. Вывод: Выбор одной основной вертикали для рекламодателя.

    Какие данные и как использует

    Данные на входе

    Патент сфокусирован исключительно на данных рекламной системы. Стандартные SEO-факторы (контентные, ссылочные, поведенческие в поиске) не упоминаются.

    • Финансовые факторы (Ключевые): Financial value (расходы на ключевые слова), Total Spend (общие расходы), Quarterly Spend (квартальные расходы).
    • Ключевые слова (Рекламные): Keywords, на которые рекламодатель делает ставки. Keyword Count (общее количество ключевых слов).
    • Географические факторы: Country (страна биллинга рекламодателя).

    Какие метрики используются и как они считаются

    • Probability value / Weights: Вероятность принадлежности к категории. Рассчитывается на основе маппинга ключевых слов и взвешивается по расходам на эти слова.
    • Пороговые значения (Threshold values): Конкретные числовые значения, используемые внутри Decision Tree для принятия решений. Определяются в процессе обучения CART.
    • Алгоритмы машинного обучения: Используется Decision Tree. Конкретно упоминается методология CART (Classification and Regression Trees).
    • Методы обучения и анализа:
      • Взвешивание данных (Weighting mappings) на основе финансовых данных.
      • Oversampling для смещения приоритета на высокодоходных клиентов.
      • Cross validation (перекрестная проверка) для оценки ошибок модели.

    Выводы

    1. Патент не имеет отношения к органическому SEO: Он описывает внутренние процессы рекламной системы Google (AdTech) и CRM, а не алгоритмы ранжирования веб-поиска. Практических выводов для SEO нет.
    2. Двухэтапная классификация для точности: Система использует комбинацию вероятностного подхода (Probability Classifier) и подхода, основанного на правилах (Rule-Based Classifier / Decision Tree), для определения бизнес-вертикали рекламодателя.
    3. Центральная роль финансовых данных: Расходы на рекламу (Spend) являются ключевым фактором. Они используются для взвешивания вероятностей на первом этапе классификации.
    4. Приоритет прибыльным клиентам (Oversampling): Система намеренно оптимизируется для точной классификации наиболее прибыльных рекламодателей (high-spending entities). Это достигается за счет Oversampling их данных во время обучения Decision Tree.
    5. Комплексная оценка рекламодателя: Финальная классификация учитывает не только тематику (через ключевые слова), но и масштаб деятельности (общие расходы, количество ключевых слов) и географию (страна биллинга).

    Практика

    ВАЖНО: Патент является инфраструктурным для рекламных технологий (AdTech) и не дает практических выводов для органического SEO.

    Best practices (это мы делаем)

    Практических рекомендаций для SEO, основанных на данном патенте, нет.

    Worst practices (это делать не надо)

    Практических рекомендаций для SEO, основанных на данном патенте, нет.

    Стратегическое значение

    Стратегическое значение для органического SEO отсутствует. Патент представляет интерес для специалистов по контекстной рекламе и аналитиков AdTech-платформ, так как он детально раскрывает, как Google может категоризировать аккаунты рекламодателей для внутренней аналитики, CRM и управления продажами, включая явную приоритизацию на основе финансовых показателей.

    Практические примеры

    Практических примеров для SEO нет. Ниже приведен пример применения в контексте рекламной системы/CRM.

    Сценарий (AdTech/CRM): Классификация рекламодателя

    1. Рекламодатель: Компания, продающая программное обеспечение.
    2. Данные: 80% бюджета тратится на ключевые слова, связанные с «CRM системами», 20% на «Бухгалтерский софт». Общие расходы высокие (Total Spend > $1M). Страна – США.
    3. Base Classifier: Выдает высокие взвешенные вероятности для вертикалей «Бизнес-софт: CRM» и «Бизнес-софт: Бухгалтерия».
    4. Decision Tree (CART): Модель анализирует эти веса. Правило может быть таким: ЕСЛИ (Вероятность CRM > 0.6) И (Total Spend > $500k) И (Страна = США), ТО классифицировать как «Бизнес-софт: CRM».
    5. Результат: Рекламодатель классифицирован как «Бизнес-софт: CRM». Менеджер аккаунта Google видит эту классификацию в CRM и связанную информацию о сезонности (Seasonality) для этой вертикали.

    Вопросы и ответы

    Влияет ли этот патент на органическое ранжирование сайтов?

    Нет, этот патент не влияет на органическое ранжирование. Он описывает систему классификации рекламодателей (Content Providers) внутри рекламной экосистемы Google (AdTech). Механизмы и данные, используемые в патенте (например, расходы на рекламу, ставки на ключевые слова), не пересекаются с факторами ранжирования органического поиска.

    Какие основные данные использует система для классификации сущностей?

    Система использует данные о рекламной активности: ключевые слова (Keywords), на которые делаются ставки; финансовые данные (Financial Value, Spend), включая расходы по ключевым словам, общие и квартальные расходы; объем активности (Keyword Count); и географические данные (Country).

    Что такое двухэтапная классификация, описанная в патенте?

    Это процесс, состоящий из двух шагов. Первый этап (Probability Classifier) определяет вероятности принадлежности к разным категориям, взвешивая их по расходам на рекламу. Второй этап (Rule-Based Classifier) берет эти вероятности и другие признаки и применяет к ним модель машинного обучения (Decision Tree), чтобы скорректировать возможные ошибки и выбрать одну финальную категорию.

    Зачем система использует финансовые данные (Spend) для классификации?

    Финансовые данные используются для взвешивания и приоритизации. На первом этапе больший вес получают вертикали, на которые тратится больше денег. На этапе обучения модели финансовые данные используются для Oversampling – система уделяет больше внимания и стремится точнее классифицировать наиболее прибыльных клиентов.

    Что такое Decision Tree (Дерево решений) и CART в контексте патента?

    Decision Tree – это модель, которая принимает решение путем последовательного сравнения входных данных с пороговыми значениями. CART (Classification and Regression Trees) – это конкретный алгоритм для построения таких деревьев. В патенте CART используется на втором этапе для финальной классификации рекламодателя на основе признаков, полученных на первом этапе.

    Что означает «Oversampling» и почему он применяется к высокодоходным рекламодателям?

    Oversampling – это техника, при которой записи в обучающих данных дублируются. Применение этой техники к высокодоходным рекламодателям означает, что их данные будут встречаться в обучающей выборке чаще. Это заставляет модель машинного обучения (CART) лучше настраиваться на паттерны, характерные для этих важных клиентов, повышая точность их классификации.

    Может ли эта система использоваться для определения тематики сайта в органическом поиске?

    Нет. Описанные механизмы зависят от данных, специфичных для рекламодателей (ставки на ключевые слова, расходы). Для классификации тематики сайта в органическом поиске Google использует другие системы, анализирующие контент страницы, ссылки и семантику, а не финансовые потоки рекламной системы.

    Какова основная цель этой классификации согласно патенту?

    Основная цель – точное определение бизнес-вертикали (Vertical) рекламодателя. Это используется для внутреннего управления взаимоотношениями с клиентами (CRM). Патент упоминает предоставление пользователю (например, менеджеру по продажам) информации о сезонности (Seasonality), связанной с этой вертикалью.

    В патенте описана 34-мерная модель признаков. Что в нее входит?

    В примере патента 34 измерения включают 30 признаков, соответствующих взвешенным вероятностям для 30 различных бизнес-вертикалей (выход Base Classifier). Оставшиеся 4 признака – это дополнительные данные: Страна (Country), Количество ключевых слов (Keyword Count), Общие расходы (Total Spend) и Квартальные расходы (Quarterly Spend).

    Есть ли связь между этой классификацией рекламодателя и сигналами E-E-A-T в органическом поиске?

    Нет, прямой связи нет. E-E-A-T оценивает экспертизу, авторитетность и надежность контента в контексте органического поиска. Описанная в патенте система классифицирует бизнес-модель рекламодателя на основе его расходов и рекламных предпочтений для целей AdTech и CRM. Это разные системы с разными целями.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.