Патент Google, описывающий алгоритмы для оптимизации наборов критериев отбора (преимущественно в рекламных системах). Система использует два ключевых механизма: итеративный выбор критериев с максимальным инкрементальным приростом эффективности (диверсификация) и каноникализацию связанных терминов (Expansion Reversion) для устранения дублирования.
Описание
Какую задачу решает
Патент решает проблему избыточности и неэффективности автоматически сгенерированных критериев отбора (Selection Criteria), например, ключевых слов для рекламных кампаний. Автоматическая генерация часто приводит к значительному перекрытию (Overlapping Coverage) между критериями, что увеличивает затраты на обслуживание системы (serving cost) и дает малый инкрементальный прирост эффективности (incremental value). Выбор критериев только по их индивидуальной эффективности субоптимален из-за дублирования.
Что запатентовано
Запатентована система диверсификации для выбора оптимального подмножества критериев из большого набора в рамках Content Item Management System (например, Google Ads). Изобретение использует два основных подхода. Первый — «жадный» алгоритм (Greedy Algorithm), который итеративно выбирает критерий, дающий наибольший прирост к коллективной мере эффективности (Collective Performance Measure). Второй — офлайн-процесс «Реверсии расширений» (Expansion Reversion) для группировки связанных критериев в непересекающиеся множества (Disjoint Sets) и их каноникализации к наиболее эффективному представителю (Representative Criterion).
Как это работает
Система использует два ключевых механизма:
- Итеративный выбор (Greedy Selection): Система оценивает текущую эффективность выбранного набора. Затем для каждого невыбранного критерия рассчитывается его инкрементальный вклад (Performance Contribution), учитывая перекрытие с уже выбранными элементами. Выбирается критерий с максимальным вкладом. Процесс повторяется до достижения лимита.
- Каноникализация (Expansion Reversion): Система офлайн анализирует логи расширения запросов (Expansion Logs/Records) для выявления связей между критериями. Связанные критерии группируются в Disjoint Sets. Внутри группы определяется самый эффективный критерий (Representative Criterion), и остальные критерии маппятся на него. Это устраняет избыточность.
Актуальность для SEO
Средняя/Высокая. Патент описывает решения в рамках рекламной системы. Однако лежащие в его основе принципы Information Retrieval — оптимизация наборов признаков, устранение избыточности (overlap minimization), максимизация инкрементальной ценности и каноникализация связанных сущностей — остаются фундаментальными и актуальными для всех систем Google, включая органический поиск.
Важность для SEO
(4/10). Патент имеет низкое прямое влияние на алгоритмы органического ранжирования, так как описывает рекламную систему. Однако он имеет высокое стратегическое значение для Senior SEO-специалистов. Он раскрывает фундаментальные принципы того, как Google подходит к диверсификации, кластеризации ключевых слов, оценке их инкрементальной ценности и каноникализации семантически близких терминов. Это важно для понимания этапа Query Understanding и разработки контент-стратегии.
Детальный разбор
Термины и определения
- Collective Performance Measure (Коллективная мера эффективности)
- Метрика, оценивающая общую эффективность выбранного набора критериев (например, общий охват запросов), с учетом пересечений между критериями.
- Content Item (Единица контента)
- Контент, предоставляемый пользователю. В контексте патента — рекламное объявление (advertisement).
- Disjoint Sets of Mapped Criteria (Непересекающиеся множества смапленных критериев)
- Группы взаимосвязанных или взаимозаменяемых критериев. Все элементы внутри группы связаны друг с другом и не пересекаются с другими группами.
- Expansion Reversion (Реверсия расширений)
- Офлайн-процесс анализа логов расширений (Expansion Records) для определения базовых связей и каноникализации группы расширенных критериев к одному представителю.
- Overlapping Coverage (Перекрывающееся покрытие/охват)
- Степень, в которой два или более критерия таргетируют одни и те же запросы или аудиторию (избыточность).
- Performance Contribution (Вклад в эффективность / Инкрементальный вклад)
- Маржинальный прирост к Collective Performance Measure, который дает добавление нового критерия в набор, с учетом Overlapping Coverage.
- Representative Criterion (Репрезентативный критерий)
- Наиболее эффективный критерий внутри Disjoint Set. Все остальные критерии этого множества маппятся (каноникализируются) на него.
- Selection Criteria (Критерии отбора)
- Атрибуты, используемые для таргетинга контента (например, ключевые слова, географические положения).
Ключевые утверждения (Анализ Claims)
Патент содержит три ключевых независимых пункта (Claims 1, 5, 14), описывающих разные аспекты системы.
Claim 1 (Независимый пункт): Описывает итеративный («жадный») процесс выбора оптимального подмножества критериев.
- Получение доступа к первому набору критериев.
- Выбор второго набора (подмножества) путем итераций:
- Определение Collective Performance Measure уже выбранных критериев.
- Для каждого невыбранного критерия: определение его Performance Contribution к этой мере.
- Выбор критерия с наивысшим Performance Contribution.
Это жадный алгоритм (greedy algorithm) для оптимизации набора признаков. Цель — максимизировать общую эффективность, минимизируя внутреннее перекрытие. На каждом шаге выбирается критерий, который дает максимальный инкрементальный прирост к текущему результату, а не критерий с наивысшей абсолютной эффективностью.
Claim 14 (Независимый пункт): Описывает офлайн-процесс Expansion Reversion для генерации маппинга (создания Disjoint Sets) на основе логов расширений (Expansion Records).
- Генерация пар расширений.
- Для каждой пары: выбор Representative Criterion (A, более эффективный) и Represented Criterion (B, менее эффективный) на основе метрик эффективности.
- Построение таблицы маппинга:
- Если B не смаплен: маппинг B на A (map[B]=A).
- Если B уже смаплен, но не на A (конфликт): запуск итеративного процесса для разрешения конфликта и обработки цепочек расширений, гарантируя сопоставление с наилучшим возможным представителем.
Это сложный алгоритм для построения транзитивных связей и разрешения конфликтов при каноникализации. Он гарантирует, что все связанные критерии (даже через цепочку A->B->C) будут в конечном итоге смаплены на единственный, наиболее эффективный представитель в группе.
Claim 5 (Независимый пункт): Описывает использование результатов Expansion Reversion (т.е. Disjoint Sets) во время обслуживания запроса.
- Система использует предварительно определенные Disjoint Sets, где каждый набор имеет Representative Criterion и внутреннее ранжирование по эффективности.
- При получении запроса на контент система идентифицирует, к каким Disjoint Sets относятся критерии запроса.
- Система выбирает критерии из этих наборов в соответствии с их ранжированием (начиная с Representative Criterion).
Это механизм каноникализации и диверсификации в реальном времени. Система использует предварительно рассчитанные кластеры для быстрого выбора наилучших представителей.
Где и как применяется
Патент описывает работу Content Item Management System (рекламной системы, например, Google Ads). Прямого описания применения в архитектуре органического поиска нет.
Офлайн-обработка данных (Аналог INDEXING)
- Процесс: Expansion Reversion (Claim 14) выполняется офлайн.
- Взаимодействие: Система анализирует Performance Data и Expansion Records.
- Цель: Сгенерировать Disjoint Sets и определить Representative Criterion для каждого набора связанных ключевых слов.
- На входе: Логи расширений, метрики эффективности (CTR, охват).
- На выходе: Таблица маппинга (Mapping Table).
Выбор контента / Оптимизация (Аналог RANKING / Ad Selection)
- Сценарий 1 (Оптимизация кампаний): Итеративный алгоритм (Claim 1) может применяться при создании или оптимизации рекламной группы для выбора диверсифицированного набора ключевых слов из сгенерированных вариантов.
- Сценарий 2 (Реальное время): Механизм Disjoint Sets (Claim 5) применяется при обработке запроса на показ рекламы для быстрого выбора наиболее эффективных критериев из релевантных кластеров.
Концептуальная связь с органическим поиском (Гипотеза):
- QUNDERSTANDING: Принципы Expansion Reversion могут использоваться для кластеризации запросов пользователей и определения канонического интента (Representative Criterion) для группы семантически близких запросов.
- RERANKING (Diversity): Принципы максимизации инкрементального вклада могут использоваться для диверсификации поисковой выдачи, предпочитая результаты, добавляющие новую информацию, избыточным результатам.
На что влияет
- Конкретные типы контента: Влияет исключительно на Content Items (рекламные объявления) и эффективность их таргетинга в рекламной сети.
- Специфические запросы: Влияет на управление ключевыми словами (Keywords) и другими критериями таргетинга в рекламных системах.
Когда применяется
- Условия применения: Когда необходимо выбрать ограниченное подмножество критериев из большого пула кандидатов, и когда эти кандидаты имеют значительное перекрытие между собой (Overlapping Coverage).
- Триггеры активации: Автоматическая генерация критериев для рекламной кампании или необходимость оптимизации существующего набора для максимизации охвата при заданных ограничениях.
Пошаговый алгоритм
Алгоритм 1: Жадный выбор диверсифицированного набора (Greedy Selection)
- Инициализация: Получить первый (исходный) набор критериев. Инициализировать второй (результирующий) набор (например, выбрав критерий с наивысшей индивидуальной производительностью).
- Расчет коллективной производительности: Определить текущую Collective Performance Measure (например, общий охват) второго набора.
- Оценка кандидатов: Для каждого невыбранного критерия рассчитать его Performance Contribution — инкрементальный прирост к коллективной мере при добавлении в набор (учитывая пересечения).
- Выбор лучшего: Выбрать критерий с максимальным Performance Contribution и добавить его во второй набор.
- Итерация: Проверить, можно ли выбрать еще критерии (например, не достигнут ли лимит). Если да, вернуться к шагу 2.
- Завершение: Использовать результирующий диверсифицированный набор.
Алгоритм 2: Реверсия расширений (Expansion Reversion) и построение маппинга
Этот сложный офлайн-алгоритм строит таблицу соответствий (map), каноникализируя критерии.
- Генерация пар: Из логов расширений сгенерировать все пары (A, B). В каждой паре A — критерий с лучшей производительностью (Репрезентативный), B — с худшей (Представляемый).
- Итеративная обработка пар: Для каждой пары (A, B):
- Проверка маппинга B: Проверить, связан ли B уже с каким-либо критерием (существует ли map[B]).
- Если НЕТ: Создать связь map[B] = A. Перейти к следующей паре.
- Если ДА: Перейти к разрешению конфликта (Шаг 4).
- Разрешение конфликта: B уже связан с map[B]. Сравнить производительность A и map[B].
- Сценарий A лучше (A > map[B]):
- Текущий представитель A лучше предыдущего map[B].
- Запомнить предыдущую связь: C = map[B].
- Обновить связь: map[B] = A.
- Создать новую пару для обработки: (A, C), чтобы сравнить A с предыдущим представителем C. Продолжить обработку с новой парой (итерация).
- Сценарий A хуже или равен (A <= map[B]):
- Если A = map[B]: Маппинг корректен. Перейти к следующей паре.
- Если A < map[B]: Предыдущий представитель map[B] лучше, чем A. Необходимо убедиться, что A также связан с map[B]. Создать новую пару (map[B], A) и продолжить обработку с этой парой (итерация).
- Устранение цепочек (Unchaining): После обработки всех пар устранить транзитивные связи. Если map[C]=B и map[B]=A, то обновить map[C]=A. Это гарантирует, что все критерии напрямую указывают на финального Representative Criterion.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на данных о производительности рекламы и взаимосвязях критериев.
- Системные данные (Логи): Записи о расширениях (Expansion records или expansion logs). Данные о том, как критерии расширяются друг в друга.
- Метрики производительности (Performance Data/Metric): Данные об эффективности критериев. Патент упоминает:
- Охват (coverage).
- Частота кликов (click through rates).
- Количество показов (number of impressions).
Контентные, ссылочные или технические факторы, релевантные для SEO, в патенте не упоминаются.
Какие метрики используются и как они считаются
- Индивидуальная производительность (Performance Metric): Абсолютная метрика эффективности критерия. Используется для определения Representative Criterion в процессе Expansion Reversion.
- Collective Performance Measure: Агрегированная метрика для набора. Должна учитывать пересечения (например, общий уникальный охват набора).
- Performance Contribution (Инкрементальный вклад): Рассчитывается как разница: Contribution(X) = Performance(Set + X) — Performance(Set). Это ключевая метрика для жадного алгоритма диверсификации. Если критерий почти полностью дублирует уже имеющийся, его вклад будет минимальным.
Выводы
- Фокус на инкрементальной ценности, а не абсолютной: Патент демонстрирует, что Google использует алгоритмы, которые оценивают не абсолютную эффективность признака (например, частотность ключевого слова), а его инкрементальный вклад (Performance Contribution) в общий результат. Избыточность активно устраняется.
- Минимизация перекрытия (Overlap Minimization) и Диверсификация: Система стремится максимизировать разнообразие. Два похожих критерия с высоким Overlapping Coverage считаются менее ценными, чем два разных критерия с меньшим индивидуальным охватом, но без перекрытия.
- Сложная Каноникализация (Expansion Reversion): Google использует сложные офлайн-процессы для кластеризации связанных терминов в непересекающиеся множества (Disjoint Sets). Эта каноникализация основана на данных об эффективности и способна обрабатывать сложные цепочечные связи.
- Иерархия внутри кластера (Representative Criterion): Внутри каждого кластера система определяет иерархию и выделяет каноническую, наиболее эффективную формулировку (Representative Criterion), к которой приводятся все остальные варианты.
- Контекст применения и стратегическая ценность: Хотя патент описывает рекламную систему, эти принципы Information Retrieval критически важны для понимания того, как Google может подходить к Пониманию Запросов (Query Understanding) и обеспечению разнообразия выдачи (SERP Diversity) в органическом поиске.
Практика
Практическое применение в SEO
ВАЖНО: Патент напрямую относится к рекламным системам (Google Ads). Прямые рекомендации для органического SEO отсутствуют. Однако он дает критически важные концептуальные инсайты о принципах Information Retrieval в Google, которые можно стратегически применить к SEO.
Best practices (это мы делаем)
- Стратегия контента на основе инкрементальной ценности: При планировании контента и сборе семантики фокусируйтесь на темах и интентах, которые обеспечивают высокий Performance Contribution (инкрементальный охват), а не на тех, которые имеют высокий Overlap (пересечение) с уже существующим контентом.
- Построение Topical Authority через диверсификацию: Создавайте контент, нацеленный на разные, непересекающиеся подтемы внутри вашей экспертизы. Это увеличивает общий тематический охват сайта, следуя логике максимизации Collective Performance Measure.
- Идентификация канонических интентов (Representative Criterion): Анализируйте выдачу, чтобы понять, какой интент или запрос Google считает Representative Criterion (каноническим) в кластере. Оптимизируйте основные страницы (хабы) под эти канонические интенты.
- Структурирование кластеров (Disjoint Sets): Организуйте контент в четкие, минимально пересекающиеся тематические кластеры. Каждый кластер должен таргетировать свой уникальный набор интентов.
Worst practices (это делать не надо)
- Каннибализация ключевых слов: Создание множества страниц, оптимизированных под очень близкие запросы с высоким Overlap. Это неэффективно, так как инкрементальная ценность каждой новой страницы минимальна. Логика патента подтверждает, что лучше иметь одну сильную страницу для кластера.
- Искусственное раздувание семантического ядра: Добавление в ядро всех возможных синонимов и перестановок слов без оценки их уникальности. Это увеличивает сложность управления SEO без значительного прироста эффективности.
- Фокус только на объеме запросов: Выбор тем только на основе высокой частотности без анализа пересечения интентов приводит к субоптимальным результатам и упущенным возможностям в смежных нишах.
Стратегическое значение
Патент подтверждает стратегический сдвиг от таргетинга на отдельные ключевые слова к таргетингу на темы и диверсифицированные интенты. Он демонстрирует алгоритмический подход Google к максимизации ценности через минимизацию избыточности. Для долгосрочной SEO-стратегии это означает, что построение широкого тематического покрытия, где каждая часть контента вносит уникальный вклад (высокий инкрементальный вклад), является приоритетом.
Практические примеры
Сценарий: Разработка контент-плана для сайта о кофе (Применение концепции инкрементального вклада)
Задача: Выбрать 3 ключевые темы для новых статей из списка кандидатов.
Кандидаты и предполагаемый охват (упрощенно):
- «Лучшая кофемашина» (Охват: 20%)
- «Топ автоматических кофемашин» (Охват: 18%, Перекрытие с 1: 17%)
- «Как чистить кофемашину» (Охват: 15%, Перекрытие с другими: 0%)
- «Виды кофейных зерен» (Охват: 12%, Перекрытие с другими: 0%)
Стандартный подход (по абсолютному охвату): Выбираются темы 1, 2, 3.
- Общий охват = 20% (Тема 1) + 1% (Инкрементальный вклад Темы 2) + 15% (Тема 3) = 36%.
Подход на основе патента (по инкрементальному вкладу):
- Выбирается Тема 1 (20%).
- Рассчитывается инкрементальный вклад оставшихся: Тема 2 (1%), Тема 3 (15%), Тема 4 (12%).
- Выбирается Тема 3 (15%). Общий охват 35%.
- Рассчитывается инкрементальный вклад оставшихся: Тема 2 (1%), Тема 4 (12%).
- Выбирается Тема 4 (12%).
- Общий охват = 20% + 15% + 12% = 47%.
Вывод для SEO: Фокус на темах, которые максимально расширяют тематическое покрытие сайта (диверсификация), более эффективен, чем создание контента под близкие синонимы высокочастотных запросов (избыточность).
Вопросы и ответы
Относится ли этот патент к органическому поиску или только к рекламе?
Патент напрямую описывает механизмы для Content Item Management System, что означает рекламную систему (Google Ads). Он не описывает алгоритмы органического ранжирования. Однако описанные принципы Information Retrieval (диверсификация, каноникализация) являются фундаментальными и дают представление о том, как Google может обрабатывать запросы и обеспечивать разнообразие выдачи в органическом поиске.
Что такое «Инкрементальный вклад» (Performance Contribution) и как это применимо к SEO?
Это показатель того, насколько увеличится общая эффективность (например, охват), если добавить новый элемент с учетом его пересечения с существующими. В SEO это означает оценку того, насколько новая страница покрывает уникальные интенты или темы по сравнению с уже существующим контентом. Страницы с высоким инкрементальным вкладом более ценны для стратегии Topical Authority.
Как этот патент связан с каннибализацией ключевых слов в SEO?
Он алгоритмически подтверждает неэффективность каннибализации. Создание нескольких страниц под близкие запросы создает высокий Overlap, и инкрементальная ценность каждой дополнительной страницы минимальна. Логика патента направлена на устранение такой избыточности, что в SEO соответствует созданию одной сильной страницы для кластера.
Что такое «Representative Criterion» и как его определить для своей тематики?
Representative Criterion — это наиболее эффективный запрос внутри семантического кластера (Disjoint Set), к которому Google каноникализирует остальные варианты. Для его определения нужно проанализировать, какой запрос лучше всего представляет основной интент темы и имеет наибольший охват. Это часто основной запрос для хаб-страницы кластера.
Что такое «Реверсия расширений» (Expansion Reversion)?
Это сложный офлайн-процесс анализа логов, чтобы понять, как разные ключевые слова связаны друг с другом через механизмы расширения (синонимы, близкие варианты). Цель — сгруппировать все связанные слова вместе (в Disjoint Sets) и определить для них единый канонический представитель (Representative Criterion), устраняя дублирование.
Означает ли это, что не нужно использовать синонимы и близкие варианты ключевых слов?
Нет, использовать синонимы в тексте необходимо для повышения релевантности (LSI/NLP). Патент говорит о неэффективности таргетинга на синонимы как на *отдельные* основные критерии отбора (например, создание отдельных страниц), если они имеют высокое перекрытие. В рамках одной страницы они полезны.
Как использовать концепцию «Disjoint Sets» при построении структуры сайта?
Disjoint Sets — это непересекающиеся множества. Применяя эту концепцию к структуре сайта, следует проектировать разделы и контентные кластеры так, чтобы они минимально пересекались по семантике и интенту. Каждый раздел должен быть посвящен своей уникальной теме, максимизируя общий тематический охват.
Как часто происходит процесс построения маппинга (Expansion Reversion)?
Патент описывает этот процесс как офлайн-операцию (Claim 14). Он выполняется не в реальном времени, а периодически, обрабатывая накопленные логи расширений и обновляя таблицу соответствий (mapping table). Однако использование этой таблицы (Claim 5) происходит уже в реальном времени.
Может ли этот механизм объяснить разнообразие выдачи (SERP Diversity)?
Концептуально, да. Если применить логику максимизации инкрементального вклада к ранжированию документов, система может предпочесть документ, который добавляет новые темы или сущности в SERP (высокий инкрементальный вклад), документу с чуть более высоким рейтингом, но который дублирует информацию из уже выбранных результатов (высокое перекрытие).
Как изменится подход к сбору семантики на основе этого патента?
Подход должен сместиться от сбора максимального количества формулировок к поиску семантического разнообразия. Приоритизировать нужно те запросы, которые открывают новые подтемы или отвечают на уникальные интенты (имеют высокую инкрементальную ценность), а не те, которые являются лишь переформулировкой уже имеющихся запросов.