Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google оптимизирует наборы критериев (например, ключевых слов), максимизируя инкрементальную ценность и устраняя избыточность

    SELECTION CRITERIA DIVERSIFICATION (Диверсификация критериев отбора)
    • US8918381B1
    • Google LLC
    • 2014-12-23
    • 2012-11-07
    2012 Google Shopping Патенты Google Семантика и интент

    Патент Google, описывающий алгоритмы для оптимизации наборов критериев отбора (преимущественно в рекламных системах). Система использует два ключевых механизма: итеративный выбор критериев с максимальным инкрементальным приростом эффективности (диверсификация) и каноникализацию связанных терминов (Expansion Reversion) для устранения дублирования.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему избыточности и неэффективности автоматически сгенерированных критериев отбора (Selection Criteria), например, ключевых слов для рекламных кампаний. Автоматическая генерация часто приводит к значительному перекрытию (Overlapping Coverage) между критериями, что увеличивает затраты на обслуживание системы (serving cost) и дает малый инкрементальный прирост эффективности (incremental value). Выбор критериев только по их индивидуальной эффективности субоптимален из-за дублирования.

    Что запатентовано

    Запатентована система диверсификации для выбора оптимального подмножества критериев из большого набора в рамках Content Item Management System (например, Google Ads). Изобретение использует два основных подхода. Первый — «жадный» алгоритм (Greedy Algorithm), который итеративно выбирает критерий, дающий наибольший прирост к коллективной мере эффективности (Collective Performance Measure). Второй — офлайн-процесс «Реверсии расширений» (Expansion Reversion) для группировки связанных критериев в непересекающиеся множества (Disjoint Sets) и их каноникализации к наиболее эффективному представителю (Representative Criterion).

    Как это работает

    Система использует два ключевых механизма:

    • Итеративный выбор (Greedy Selection): Система оценивает текущую эффективность выбранного набора. Затем для каждого невыбранного критерия рассчитывается его инкрементальный вклад (Performance Contribution), учитывая перекрытие с уже выбранными элементами. Выбирается критерий с максимальным вкладом. Процесс повторяется до достижения лимита.
    • Каноникализация (Expansion Reversion): Система офлайн анализирует логи расширения запросов (Expansion Logs/Records) для выявления связей между критериями. Связанные критерии группируются в Disjoint Sets. Внутри группы определяется самый эффективный критерий (Representative Criterion), и остальные критерии маппятся на него. Это устраняет избыточность.

    Актуальность для SEO

    Средняя/Высокая. Патент описывает решения в рамках рекламной системы. Однако лежащие в его основе принципы Information Retrieval — оптимизация наборов признаков, устранение избыточности (overlap minimization), максимизация инкрементальной ценности и каноникализация связанных сущностей — остаются фундаментальными и актуальными для всех систем Google, включая органический поиск.

    Важность для SEO

    (4/10). Патент имеет низкое прямое влияние на алгоритмы органического ранжирования, так как описывает рекламную систему. Однако он имеет высокое стратегическое значение для Senior SEO-специалистов. Он раскрывает фундаментальные принципы того, как Google подходит к диверсификации, кластеризации ключевых слов, оценке их инкрементальной ценности и каноникализации семантически близких терминов. Это важно для понимания этапа Query Understanding и разработки контент-стратегии.

    Детальный разбор

    Термины и определения

    Collective Performance Measure (Коллективная мера эффективности)
    Метрика, оценивающая общую эффективность выбранного набора критериев (например, общий охват запросов), с учетом пересечений между критериями.
    Content Item (Единица контента)
    Контент, предоставляемый пользователю. В контексте патента — рекламное объявление (advertisement).
    Disjoint Sets of Mapped Criteria (Непересекающиеся множества смапленных критериев)
    Группы взаимосвязанных или взаимозаменяемых критериев. Все элементы внутри группы связаны друг с другом и не пересекаются с другими группами.
    Expansion Reversion (Реверсия расширений)
    Офлайн-процесс анализа логов расширений (Expansion Records) для определения базовых связей и каноникализации группы расширенных критериев к одному представителю.
    Overlapping Coverage (Перекрывающееся покрытие/охват)
    Степень, в которой два или более критерия таргетируют одни и те же запросы или аудиторию (избыточность).
    Performance Contribution (Вклад в эффективность / Инкрементальный вклад)
    Маржинальный прирост к Collective Performance Measure, который дает добавление нового критерия в набор, с учетом Overlapping Coverage.
    Representative Criterion (Репрезентативный критерий)
    Наиболее эффективный критерий внутри Disjoint Set. Все остальные критерии этого множества маппятся (каноникализируются) на него.
    Selection Criteria (Критерии отбора)
    Атрибуты, используемые для таргетинга контента (например, ключевые слова, географические положения).

    Ключевые утверждения (Анализ Claims)

    Патент содержит три ключевых независимых пункта (Claims 1, 5, 14), описывающих разные аспекты системы.

    Claim 1 (Независимый пункт): Описывает итеративный («жадный») процесс выбора оптимального подмножества критериев.

    1. Получение доступа к первому набору критериев.
    2. Выбор второго набора (подмножества) путем итераций:
      1. Определение Collective Performance Measure уже выбранных критериев.
      2. Для каждого невыбранного критерия: определение его Performance Contribution к этой мере.
      3. Выбор критерия с наивысшим Performance Contribution.

    Это жадный алгоритм (greedy algorithm) для оптимизации набора признаков. Цель — максимизировать общую эффективность, минимизируя внутреннее перекрытие. На каждом шаге выбирается критерий, который дает максимальный инкрементальный прирост к текущему результату, а не критерий с наивысшей абсолютной эффективностью.

    Claim 14 (Независимый пункт): Описывает офлайн-процесс Expansion Reversion для генерации маппинга (создания Disjoint Sets) на основе логов расширений (Expansion Records).

    1. Генерация пар расширений.
    2. Для каждой пары: выбор Representative Criterion (A, более эффективный) и Represented Criterion (B, менее эффективный) на основе метрик эффективности.
    3. Построение таблицы маппинга:
      • Если B не смаплен: маппинг B на A (map[B]=A).
      • Если B уже смаплен, но не на A (конфликт): запуск итеративного процесса для разрешения конфликта и обработки цепочек расширений, гарантируя сопоставление с наилучшим возможным представителем.

    Это сложный алгоритм для построения транзитивных связей и разрешения конфликтов при каноникализации. Он гарантирует, что все связанные критерии (даже через цепочку A->B->C) будут в конечном итоге смаплены на единственный, наиболее эффективный представитель в группе.

    Claim 5 (Независимый пункт): Описывает использование результатов Expansion Reversion (т.е. Disjoint Sets) во время обслуживания запроса.

    1. Система использует предварительно определенные Disjoint Sets, где каждый набор имеет Representative Criterion и внутреннее ранжирование по эффективности.
    2. При получении запроса на контент система идентифицирует, к каким Disjoint Sets относятся критерии запроса.
    3. Система выбирает критерии из этих наборов в соответствии с их ранжированием (начиная с Representative Criterion).

    Это механизм каноникализации и диверсификации в реальном времени. Система использует предварительно рассчитанные кластеры для быстрого выбора наилучших представителей.

    Где и как применяется

    Патент описывает работу Content Item Management System (рекламной системы, например, Google Ads). Прямого описания применения в архитектуре органического поиска нет.

    Офлайн-обработка данных (Аналог INDEXING)

    • Процесс: Expansion Reversion (Claim 14) выполняется офлайн.
    • Взаимодействие: Система анализирует Performance Data и Expansion Records.
    • Цель: Сгенерировать Disjoint Sets и определить Representative Criterion для каждого набора связанных ключевых слов.
    • На входе: Логи расширений, метрики эффективности (CTR, охват).
    • На выходе: Таблица маппинга (Mapping Table).

    Выбор контента / Оптимизация (Аналог RANKING / Ad Selection)

    • Сценарий 1 (Оптимизация кампаний): Итеративный алгоритм (Claim 1) может применяться при создании или оптимизации рекламной группы для выбора диверсифицированного набора ключевых слов из сгенерированных вариантов.
    • Сценарий 2 (Реальное время): Механизм Disjoint Sets (Claim 5) применяется при обработке запроса на показ рекламы для быстрого выбора наиболее эффективных критериев из релевантных кластеров.

    Концептуальная связь с органическим поиском (Гипотеза):

    • QUNDERSTANDING: Принципы Expansion Reversion могут использоваться для кластеризации запросов пользователей и определения канонического интента (Representative Criterion) для группы семантически близких запросов.
    • RERANKING (Diversity): Принципы максимизации инкрементального вклада могут использоваться для диверсификации поисковой выдачи, предпочитая результаты, добавляющие новую информацию, избыточным результатам.

    На что влияет

    • Конкретные типы контента: Влияет исключительно на Content Items (рекламные объявления) и эффективность их таргетинга в рекламной сети.
    • Специфические запросы: Влияет на управление ключевыми словами (Keywords) и другими критериями таргетинга в рекламных системах.

    Когда применяется

    • Условия применения: Когда необходимо выбрать ограниченное подмножество критериев из большого пула кандидатов, и когда эти кандидаты имеют значительное перекрытие между собой (Overlapping Coverage).
    • Триггеры активации: Автоматическая генерация критериев для рекламной кампании или необходимость оптимизации существующего набора для максимизации охвата при заданных ограничениях.

    Пошаговый алгоритм

    Алгоритм 1: Жадный выбор диверсифицированного набора (Greedy Selection)

    1. Инициализация: Получить первый (исходный) набор критериев. Инициализировать второй (результирующий) набор (например, выбрав критерий с наивысшей индивидуальной производительностью).
    2. Расчет коллективной производительности: Определить текущую Collective Performance Measure (например, общий охват) второго набора.
    3. Оценка кандидатов: Для каждого невыбранного критерия рассчитать его Performance Contribution — инкрементальный прирост к коллективной мере при добавлении в набор (учитывая пересечения).
    4. Выбор лучшего: Выбрать критерий с максимальным Performance Contribution и добавить его во второй набор.
    5. Итерация: Проверить, можно ли выбрать еще критерии (например, не достигнут ли лимит). Если да, вернуться к шагу 2.
    6. Завершение: Использовать результирующий диверсифицированный набор.

    Алгоритм 2: Реверсия расширений (Expansion Reversion) и построение маппинга

    Этот сложный офлайн-алгоритм строит таблицу соответствий (map), каноникализируя критерии.

    1. Генерация пар: Из логов расширений сгенерировать все пары (A, B). В каждой паре A — критерий с лучшей производительностью (Репрезентативный), B — с худшей (Представляемый).
    2. Итеративная обработка пар: Для каждой пары (A, B):
    3. Проверка маппинга B: Проверить, связан ли B уже с каким-либо критерием (существует ли map[B]).
      • Если НЕТ: Создать связь map[B] = A. Перейти к следующей паре.
      • Если ДА: Перейти к разрешению конфликта (Шаг 4).
    4. Разрешение конфликта: B уже связан с map[B]. Сравнить производительность A и map[B].
    5. Сценарий A лучше (A > map[B]):
      • Текущий представитель A лучше предыдущего map[B].
      • Запомнить предыдущую связь: C = map[B].
      • Обновить связь: map[B] = A.
      • Создать новую пару для обработки: (A, C), чтобы сравнить A с предыдущим представителем C. Продолжить обработку с новой парой (итерация).
    6. Сценарий A хуже или равен (A <= map[B]):
      • Если A = map[B]: Маппинг корректен. Перейти к следующей паре.
      • Если A < map[B]: Предыдущий представитель map[B] лучше, чем A. Необходимо убедиться, что A также связан с map[B]. Создать новую пару (map[B], A) и продолжить обработку с этой парой (итерация).
    7. Устранение цепочек (Unchaining): После обработки всех пар устранить транзитивные связи. Если map[C]=B и map[B]=A, то обновить map[C]=A. Это гарантирует, что все критерии напрямую указывают на финального Representative Criterion.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется исключительно на данных о производительности рекламы и взаимосвязях критериев.

    • Системные данные (Логи): Записи о расширениях (Expansion records или expansion logs). Данные о том, как критерии расширяются друг в друга.
    • Метрики производительности (Performance Data/Metric): Данные об эффективности критериев. Патент упоминает:
      • Охват (coverage).
      • Частота кликов (click through rates).
      • Количество показов (number of impressions).

    Контентные, ссылочные или технические факторы, релевантные для SEO, в патенте не упоминаются.

    Какие метрики используются и как они считаются

    • Индивидуальная производительность (Performance Metric): Абсолютная метрика эффективности критерия. Используется для определения Representative Criterion в процессе Expansion Reversion.
    • Collective Performance Measure: Агрегированная метрика для набора. Должна учитывать пересечения (например, общий уникальный охват набора).
    • Performance Contribution (Инкрементальный вклад): Рассчитывается как разница: Contribution(X) = Performance(Set + X) — Performance(Set). Это ключевая метрика для жадного алгоритма диверсификации. Если критерий почти полностью дублирует уже имеющийся, его вклад будет минимальным.

    Выводы

    1. Фокус на инкрементальной ценности, а не абсолютной: Патент демонстрирует, что Google использует алгоритмы, которые оценивают не абсолютную эффективность признака (например, частотность ключевого слова), а его инкрементальный вклад (Performance Contribution) в общий результат. Избыточность активно устраняется.
    2. Минимизация перекрытия (Overlap Minimization) и Диверсификация: Система стремится максимизировать разнообразие. Два похожих критерия с высоким Overlapping Coverage считаются менее ценными, чем два разных критерия с меньшим индивидуальным охватом, но без перекрытия.
    3. Сложная Каноникализация (Expansion Reversion): Google использует сложные офлайн-процессы для кластеризации связанных терминов в непересекающиеся множества (Disjoint Sets). Эта каноникализация основана на данных об эффективности и способна обрабатывать сложные цепочечные связи.
    4. Иерархия внутри кластера (Representative Criterion): Внутри каждого кластера система определяет иерархию и выделяет каноническую, наиболее эффективную формулировку (Representative Criterion), к которой приводятся все остальные варианты.
    5. Контекст применения и стратегическая ценность: Хотя патент описывает рекламную систему, эти принципы Information Retrieval критически важны для понимания того, как Google может подходить к Пониманию Запросов (Query Understanding) и обеспечению разнообразия выдачи (SERP Diversity) в органическом поиске.

    Практика

    Практическое применение в SEO

    ВАЖНО: Патент напрямую относится к рекламным системам (Google Ads). Прямые рекомендации для органического SEO отсутствуют. Однако он дает критически важные концептуальные инсайты о принципах Information Retrieval в Google, которые можно стратегически применить к SEO.

    Best practices (это мы делаем)

    • Стратегия контента на основе инкрементальной ценности: При планировании контента и сборе семантики фокусируйтесь на темах и интентах, которые обеспечивают высокий Performance Contribution (инкрементальный охват), а не на тех, которые имеют высокий Overlap (пересечение) с уже существующим контентом.
    • Построение Topical Authority через диверсификацию: Создавайте контент, нацеленный на разные, непересекающиеся подтемы внутри вашей экспертизы. Это увеличивает общий тематический охват сайта, следуя логике максимизации Collective Performance Measure.
    • Идентификация канонических интентов (Representative Criterion): Анализируйте выдачу, чтобы понять, какой интент или запрос Google считает Representative Criterion (каноническим) в кластере. Оптимизируйте основные страницы (хабы) под эти канонические интенты.
    • Структурирование кластеров (Disjoint Sets): Организуйте контент в четкие, минимально пересекающиеся тематические кластеры. Каждый кластер должен таргетировать свой уникальный набор интентов.

    Worst practices (это делать не надо)

    • Каннибализация ключевых слов: Создание множества страниц, оптимизированных под очень близкие запросы с высоким Overlap. Это неэффективно, так как инкрементальная ценность каждой новой страницы минимальна. Логика патента подтверждает, что лучше иметь одну сильную страницу для кластера.
    • Искусственное раздувание семантического ядра: Добавление в ядро всех возможных синонимов и перестановок слов без оценки их уникальности. Это увеличивает сложность управления SEO без значительного прироста эффективности.
    • Фокус только на объеме запросов: Выбор тем только на основе высокой частотности без анализа пересечения интентов приводит к субоптимальным результатам и упущенным возможностям в смежных нишах.

    Стратегическое значение

    Патент подтверждает стратегический сдвиг от таргетинга на отдельные ключевые слова к таргетингу на темы и диверсифицированные интенты. Он демонстрирует алгоритмический подход Google к максимизации ценности через минимизацию избыточности. Для долгосрочной SEO-стратегии это означает, что построение широкого тематического покрытия, где каждая часть контента вносит уникальный вклад (высокий инкрементальный вклад), является приоритетом.

    Практические примеры

    Сценарий: Разработка контент-плана для сайта о кофе (Применение концепции инкрементального вклада)

    Задача: Выбрать 3 ключевые темы для новых статей из списка кандидатов.

    Кандидаты и предполагаемый охват (упрощенно):

    1. «Лучшая кофемашина» (Охват: 20%)
    2. «Топ автоматических кофемашин» (Охват: 18%, Перекрытие с 1: 17%)
    3. «Как чистить кофемашину» (Охват: 15%, Перекрытие с другими: 0%)
    4. «Виды кофейных зерен» (Охват: 12%, Перекрытие с другими: 0%)

    Стандартный подход (по абсолютному охвату): Выбираются темы 1, 2, 3.

    • Общий охват = 20% (Тема 1) + 1% (Инкрементальный вклад Темы 2) + 15% (Тема 3) = 36%.

    Подход на основе патента (по инкрементальному вкладу):

    1. Выбирается Тема 1 (20%).
    2. Рассчитывается инкрементальный вклад оставшихся: Тема 2 (1%), Тема 3 (15%), Тема 4 (12%).
    3. Выбирается Тема 3 (15%). Общий охват 35%.
    4. Рассчитывается инкрементальный вклад оставшихся: Тема 2 (1%), Тема 4 (12%).
    5. Выбирается Тема 4 (12%).
    • Общий охват = 20% + 15% + 12% = 47%.

    Вывод для SEO: Фокус на темах, которые максимально расширяют тематическое покрытие сайта (диверсификация), более эффективен, чем создание контента под близкие синонимы высокочастотных запросов (избыточность).

    Вопросы и ответы

    Относится ли этот патент к органическому поиску или только к рекламе?

    Патент напрямую описывает механизмы для Content Item Management System, что означает рекламную систему (Google Ads). Он не описывает алгоритмы органического ранжирования. Однако описанные принципы Information Retrieval (диверсификация, каноникализация) являются фундаментальными и дают представление о том, как Google может обрабатывать запросы и обеспечивать разнообразие выдачи в органическом поиске.

    Что такое «Инкрементальный вклад» (Performance Contribution) и как это применимо к SEO?

    Это показатель того, насколько увеличится общая эффективность (например, охват), если добавить новый элемент с учетом его пересечения с существующими. В SEO это означает оценку того, насколько новая страница покрывает уникальные интенты или темы по сравнению с уже существующим контентом. Страницы с высоким инкрементальным вкладом более ценны для стратегии Topical Authority.

    Как этот патент связан с каннибализацией ключевых слов в SEO?

    Он алгоритмически подтверждает неэффективность каннибализации. Создание нескольких страниц под близкие запросы создает высокий Overlap, и инкрементальная ценность каждой дополнительной страницы минимальна. Логика патента направлена на устранение такой избыточности, что в SEO соответствует созданию одной сильной страницы для кластера.

    Что такое «Representative Criterion» и как его определить для своей тематики?

    Representative Criterion — это наиболее эффективный запрос внутри семантического кластера (Disjoint Set), к которому Google каноникализирует остальные варианты. Для его определения нужно проанализировать, какой запрос лучше всего представляет основной интент темы и имеет наибольший охват. Это часто основной запрос для хаб-страницы кластера.

    Что такое «Реверсия расширений» (Expansion Reversion)?

    Это сложный офлайн-процесс анализа логов, чтобы понять, как разные ключевые слова связаны друг с другом через механизмы расширения (синонимы, близкие варианты). Цель — сгруппировать все связанные слова вместе (в Disjoint Sets) и определить для них единый канонический представитель (Representative Criterion), устраняя дублирование.

    Означает ли это, что не нужно использовать синонимы и близкие варианты ключевых слов?

    Нет, использовать синонимы в тексте необходимо для повышения релевантности (LSI/NLP). Патент говорит о неэффективности таргетинга на синонимы как на *отдельные* основные критерии отбора (например, создание отдельных страниц), если они имеют высокое перекрытие. В рамках одной страницы они полезны.

    Как использовать концепцию «Disjoint Sets» при построении структуры сайта?

    Disjoint Sets — это непересекающиеся множества. Применяя эту концепцию к структуре сайта, следует проектировать разделы и контентные кластеры так, чтобы они минимально пересекались по семантике и интенту. Каждый раздел должен быть посвящен своей уникальной теме, максимизируя общий тематический охват.

    Как часто происходит процесс построения маппинга (Expansion Reversion)?

    Патент описывает этот процесс как офлайн-операцию (Claim 14). Он выполняется не в реальном времени, а периодически, обрабатывая накопленные логи расширений и обновляя таблицу соответствий (mapping table). Однако использование этой таблицы (Claim 5) происходит уже в реальном времени.

    Может ли этот механизм объяснить разнообразие выдачи (SERP Diversity)?

    Концептуально, да. Если применить логику максимизации инкрементального вклада к ранжированию документов, система может предпочесть документ, который добавляет новые темы или сущности в SERP (высокий инкрементальный вклад), документу с чуть более высоким рейтингом, но который дублирует информацию из уже выбранных результатов (высокое перекрытие).

    Как изменится подход к сбору семантики на основе этого патента?

    Подход должен сместиться от сбора максимального количества формулировок к поиску семантического разнообразия. Приоритизировать нужно те запросы, которые открывают новые подтемы или отвечают на уникальные интенты (имеют высокую инкрементальную ценность), а не те, которые являются лишь переформулировкой уже имеющихся запросов.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.