Как Google использует переранжирование (Twiddlers) для обеспечения разнообразия в поисковой выдаче и лентах новостей

Google применяет алгоритмы диверсификации для предотвращения доминирования похожих результатов в выдаче или лентах, отсортированных по времени или местоположению. Система идентифицирует элементы с общими признаками (источник, автор, тип контента) и применяет «фактор понижения» (Demotion Factor), снижая их рейтинг. Это обеспечивает разнообразие контента при сохранении основной логики сортировки.

Описание

Какую задачу решает

Патент решает проблему недостаточного разнообразия (low diversity) в списках результатов (например, поисковой выдаче, лентах новостей или социальных сетей), которые отсортированы строго по одному критерию, особенно по критериям, основанным на расстоянии (distance-based criteria), таким как свежесть (recency) или географическая близость. Строгая сортировка часто приводит к тому, что в топе доминируют очень похожие элементы (например, много новостей от одного крупного агентства), что ухудшает пользовательский опыт.

Что запатентовано

Запатентована система и метод для повышения разнообразия в упорядоченном списке элементов. Система идентифицирует сходства между элементами на основе признаков вариативности (Variation Features) и применяет факторы понижения (Demotion Factors) к повторяющимся элементам. Это приводит к модификации их оценок ранжирования и переупорядочиванию списка для обеспечения большего разнообразия, при этом стараясь сохранить исходную логику сортировки.

Как это работает

Система работает путем корректировки оценок ранжирования на этапе переранжирования. Ключевые механизмы включают:

Идентификация признаков: Определяются Variation Features (автор, источник, тип контента), по которым будет происходить диверсификация.
Итеративная обработка: Элементы обрабатываются в порядке их исходного ранжирования.
Понижение (Demotion): Если текущий элемент слишком похож на вышестоящие или уже отобранные элементы, его оценка снижается с помощью Demotion Factor.
Интервальное ограничение: Один из ключевых методов позволяет отображать определенное количество (N) похожих элементов в пределах заданного интервала (I) (например, временного), но агрессивно понижает все последующие похожие элементы.
Сегментирование (Bucketing): Элементы могут быть предварительно сгруппированы в «корзины» (например, по времени), чтобы диверсификация не нарушала общую хронологическую непрерывность.

Актуальность для SEO

Высокая. Обеспечение разнообразия выдачи (SERP Diversity) является фундаментальной задачей для Google в основном поиске, Google News, Discover и локальном поиске. Механизмы, описанные в патенте, напрямую связаны с алгоритмами, предотвращающими доминирование одного сайта или темы (например, Site Diversity Updates) и улучшающими качество лент контента.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает конкретные алгоритмические методы (Twiddlers), которые могут понизить релевантные страницы, если другие похожие страницы (с того же сайта или на ту же тему) уже присутствуют в топе. Это критически важно для стратегий крупных сайтов, новостных порталов и агрегаторов, подчеркивая необходимость диверсификации контент-стратегии вместо массовой публикации однотипных материалов.

Детальный разбор

Термины и определения

Buckets (Корзины/Сегменты): Группы элементов, основанные на диапазонах distance-based criteria (например, временные периоды). Используются для локализации диверсификации и сохранения общей непрерывности (continuity) выдачи.
Demotion Criteria (Критерии понижения): Условия, при которых элемент подвергается понижению, в основном базирующиеся на общих Variation Features с более высокоранжированным элементом.
Demotion Factor (Фактор понижения, также Decay): Множитель, применяемый к оценке элемента для снижения его рейтинга. Может рассчитываться на основе схожести с ранее показанными элементами или на основе заданного интервала (I).
Distance-based criteria (Критерии, основанные на расстоянии): Метрики для сортировки, основанные на близости. Примеры: время (свежесть/recency) и географическое расстояние.
Immediacy (Непосредственность/Близость): Оценка, отражающая близость элемента к текущему моменту времени или местоположению пользователя. Является компонентом Initial Score.
Initial Score (Начальная оценка): Оценка ранжирования до диверсификации. Часто рассчитывается как комбинация качества/релевантности (Organic Score) и Immediacy.
Interval (I) (Интервал): Параметр диверсификации. Определяет интервал (временной или дистанционный), используемый для расчета Demotion Factor и ограничения плотности похожих элементов.
Number (N) (Количество/Квота): Параметр диверсификации. Определяет максимальное количество элементов с одинаковым Variation Feature, которое допускается в пределах интервала ‘I’ без понижения.
Threshold Score (Пороговая оценка): Расчетная оценка, которая присваивается понижаемым элементам в интервальном методе. Рассчитывается как оценка кандидата, умноженная на Demotion Factor (Decay).
Variation Feature (Признак вариативности/Разнообразия): Характеристика элемента, используемая для обеспечения разнообразия (например, автор, источник/домен, тип медиаконтента, тема).

Ключевые утверждения (Анализ Claims)

Патент описывает несколько вариантов реализации. Claim 1 (независимый пункт) описывает детальный метод диверсификации, основанный на интервалах и порогах (соответствует FIG. 8).

Claim 1 (Независимый пункт): Описывает метод диверсификации списка, отсортированного на основе distance-based ranking.

Система получает запрос и идентифицирует список элементов, отсортированный по distance-based ranking.
Идентифицируются Variation Features (включая тип медиаконтента).
Список диверсифицируется путем обработки элементов по порядку:
- Выбор элемента-кандидата.
- Определение временного интервала (time interval), связанного с кандидатом.
- Определение Demotion Criteria (совпадение значения признака с другим элементом).
- Расчет Threshold Score. Он основан на оценке кандидата и Demotion Factor, который, в свою очередь, зависит от временного интервала кандидата.
- Идентификация набора элементов, соответствующих критериям понижения.
- Выбор N элементов из этого набора (их оценка сохраняется). Установка оценки всех остальных элементов этого набора равной Threshold Score.
- Переупорядочивание списка на основе измененных оценок.
Предоставление переупорядоченного списка для отображения в веб-ленте контента.

Ядро изобретения — это метод селективного и рассчитанного понижения оценок для элементов, начиная с N+1, которые похожи на вышестоящий элемент, при этом степень понижения привязана к исходной логике сортировки (время/расстояние).

Claim 8 (Зависимый): Уточняет, что Demotion Factor определяется на основе местоположения кандидата, основанного на расстоянии (distance-based location). Это ключевой механизм, который связывает степень понижения с основной метрикой сортировки.

Claim 16 (Зависимый): Вводит механизм сегментирования (Bucketing). Элементы группируются в Buckets, представляющие разные диапазоны distance-based criteria (например, временные периоды), до начала процесса диверсификации, описанного в Claim 1.

Где и как применяется

Изобретение применяется на финальных этапах формирования выдачи для корректировки порядка элементов.

INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются данные, необходимые для работы алгоритма: временные метки или геолокация (для расчета Immediacy и Bucketing), а также Variation Features (автор, источник, тип контента, тематика).

RANKING – Ранжирование
Основная система ранжирования генерирует первичный список кандидатов, отсортированный по Initial Score. Эта оценка комбинирует релевантность/качество (Organic Score) и близость (Immediacy).

RERANKING – Переранжирование (Twiddlers)
Основное место применения патента. Алгоритм диверсификации выступает как Twiddler, который принимает на вход отсортированный список и применяет логику понижения (demotion) для похожих элементов. Происходит финальная пересортировка списка на основе модифицированных оценок.

Входные данные:

Список элементов, отсортированный по Initial Score.
Variation Features для каждого элемента.
Параметры диверсификации (например, Интервал I и Квота N).

Выходные данные:

Переупорядоченный список элементов с повышенным разнообразием.

На что влияет

Специфические запросы и ниши: Наибольшее влияние оказывается на области, где важна Immediacy: Новости, QDF-запросы (требующие свежести), Google Discover, социальные ленты и Локальный поиск.
Типы контента и Источники: Сильно влияет на крупные новостные сайты, агрегаторы и контент-проекты, которые генерируют большое количество контента за короткое время. Система предотвращает монополизацию выдачи одним источником или темой.
Форматы контента: Влияет на разнообразие форматов, так как Media Content Type явно указан как Variation Feature.

Когда применяется

Условия работы: Применяется при генерации финального списка результатов, когда требуется обеспечить разнообразие наряду с сохранением основной логики сортировки (время/местоположение).
Триггеры активации: Активируется, когда в высоко ранжированной части списка обнаруживается скопление элементов с одинаковыми значениями Variation Features (например, несколько статей подряд от одного автора или домена).

Пошаговый алгоритм

Патент описывает несколько алгоритмов. Два основных — это Итеративное понижение (FIG. 6) и Понижение по порогу с интервалами (FIG. 8, основа Claims 1).

Алгоритм А: Итеративное понижение (Агрессивная диверсификация топа)

Инициализация: Получение отсортированного списка (Приоритетная очередь).
Выбор Кандидата: Выбор верхнего элемента.
Расчет Понижения: Расчет Demotion Factor на основе сравнения Variation Features кандидата с элементами, которые *уже были отобраны* для показа.
Применение Понижения: Расчет Intermediate Score = Initial Score * Demotion Factor.
Пересортировка: Переупорядочивание очереди на основе Intermediate Score.
Проверка Позиции: Остался ли кандидат наверху?
- Если ДА: Отобразить элемент. Перейти к шагу 2 со следующим элементом.
- Если НЕТ: Вернуться к шагу 2 и обработать новый верхний элемент (предыдущий кандидат остается в очереди с пониженной оценкой).

Алгоритм Б: Понижение по порогу с интервалами (Баланс разнообразия и актуальности)

Инициализация: Получение списка. Определение Интервала (I) и Квоты (N). Установка Current Score = Initial Score.
Выбор Кандидата: Выбор следующего необработанного элемента.
Расчет Порога (Threshold Score): Расчет оценки, которую получил бы Кандидат, если бы он был смещен (например, «старше») на Интервал I. Используется функция Decay (спад/понижение).
Идентификация Похожих Элементов: Поиск элементов, которые (a) имеют общие Variation Features с Кандидатом И (b) их Current Score находится между оценкой Кандидата и Threshold Score.
Применение Квоты и Понижение: Первые N похожих элементов сохраняют свою оценку. Для всех остальных (сверх квоты N) их Current Score устанавливается равным Threshold Score.
Повторение: Повторять шаги 2-5, пока все элементы не будут обработаны.
Финальная Сортировка: Сортировка списка по итоговому Current Score.

Какие данные и как использует

Данные на входе

Факторы качества/релевантности (для Organic Score): Данные, определяющие релевантность, важность и качество элемента.
Временные факторы (для Immediacy/Bucketing): Временные метки (timestamps). Критически важны для расчета свежести (Freshness) и работы алгоритмов, основанных на времени.
Географические факторы (для Immediacy/Bucketing): Местоположение элемента и пользователя. Используются для расчета географической близости (GeoScore).
Признаки вариативности (Variation Features):
- Контентные/Структурные: Тип медиа (изображение, видео, аудио), теги, тема, оригинальность контента.
- Ссылочные: Общие ссылки (shared links), упомянутые в элементе.
- Источник/Авторство: Автор элемента, источник (домен), социальная группа.

Какие метрики используются и как они считаются

Initial Score (Начальная оценка): Рассчитывается на основе качества и непосредственности. Формула: InitialScore(D) = OrganicScore(D) * Immediacy(current location, D.location).
Immediacy (Непосредственность): Функция расстояния (времени или географического). Уменьшается по мере увеличения расстояния.
Demotion Factor (Decay) (Фактор понижения/Спад): Коэффициент снижения оценки Immediacy на интервале I. Формула (упрощенная): Decay(I) = Immediacy(D.location + I) / Immediacy(D.location). Это определяет, насколько «старее» или «дальше» будет выглядеть элемент после понижения.
Threshold Score (Пороговая оценка): Формула: ThresholdScore(D) = CurrentScore(D) * Decay(I).
Параметры N и I: Заданные пороги для контроля агрессивности диверсификации.

Выводы

Диверсификация как ключевой этап переранжирования (Twiddler): Патент подтверждает, что Google активно управляет композицией выдачи на финальном этапе. Это не просто фильтр, а сложный процесс пересчета оценок, балансирующий между исходной релевантностью/свежестью и разнообразием.
Баланс между разнообразием и актуальностью (Immediacy): Система не жертвует актуальностью ради разнообразия полностью. Механизмы Bucketing и расчет Demotion Factor на основе интервалов (I) гарантируют, что диверсификация происходит с учетом основной логики сортировки (время/местоположение).
Механизм «Мягкого понижения» через симуляцию: Понижение (demotion) рассчитывается так, чтобы имитировать ситуацию, как если бы результат был менее свежим или находился дальше (установка оценки на уровень Threshold Score), а не просто удаляется из выдачи.
Настраиваемая агрессивность (N и I): Параметры N (квота) и I (интервал) позволяют гибко настраивать уровень диверсификации для разных типов запросов, ниш или признаков (например, допускать 2 результата с одного домена, но только 1 пост на узкую тему).
Многофакторная диверсификация: Система может учитывать множество Variation Features одновременно (домен, автор, тип контента, тема). При конфликте может выбираться максимальный фактор понижения.

Практика

Best practices (это мы делаем)

Стратегия Site Diversity для крупных сайтов: Примите, что Google будет ограничивать количество ваших страниц в ТОПе (параметр N для Variation Feature = Домен). Фокусируйтесь на создании наилучшей страницы для основного интента и консолидации сигналов, а не на попытках занять весь ТОП множеством похожих страниц.
Диверсификация форматов контента: Активно используйте разные форматы (текст, видео, инфографика, аудио). Патент явно указывает Media Content Type как признак диверсификации. Разнообразие форматов увеличивает шансы занять больше позиций и снижает риск взаимного понижения.
Управление частотой публикаций (для News/Discover): Для новостных сайтов и лент критически важно управлять частотой и разнообразием тем. Вместо выпуска 5 коротких заметок на одну тему за час (что превысит квоту N), эффективнее создать одну обновляемую статью и 1-2 аналитических материала с уникальными углами зрения.
Оптимизация под свежесть (QDF) и роль Bucketing: Понимайте важность Immediacy. Для актуальных тематик критически важно публиковать свежий контент, так как старый контент может быть ограничен более старой «корзиной» (Bucket) и не конкурировать с новыми публикациями, даже если он релевантен.

Worst practices (это делать не надо)

Каннибализация и массовое производство похожего контента: Создание большого количества страниц под схожие запросы или публикация множества однотипных постов за короткое время. Этот патент описывает механизм, который активно борется с такой тактикой, понижая все страницы, кроме лучших N в интервале I.
Слишком близкое копирование топа («Небоскреб» без инноваций): Создание контента, который точно отражает структуру, тему и формат топовых результатов, увеличивает вероятность классификации как похожего (общие Variation Features) и последующего понижения.
Игнорирование разнообразия авторов (для медиа): Публикация большого объема контента от одного автора за короткий период может привести к понижению его материалов, если Автор используется как Variation Feature.

Стратегическое значение

Патент подтверждает, что композиция поисковой выдачи (SERP Composition) является управляемым процессом на этапе RERANKING. Google не просто сортирует результаты по релевантности, но и активно перестраивает их для улучшения пользовательского опыта через диверсификацию. Стратегически важно понимать, что достижение высокой релевантности (Organic Score) — это необходимое, но не достаточное условие. Необходимо также учитывать контекст всей выдачи и то, как алгоритмы диверсификации могут повлиять на видимость сайта.

Практические примеры

Сценарий 1: Диверсификация Новостной Выдачи по Источникам (Алгоритм Б)

Ситуация: Произошло важное событие. В исходном ранжировании (по актуальности и авторитетности) ТОП-5 занимают статьи от CNN.
Применение Алгоритма Б: Система использует «Источник» как Variation Feature. Установлено I=1 час, N=1.
Процесс:
- Обрабатывается статья CNN №1. Рассчитывается Threshold Score (оценка, если бы статья была на час старше).
- Статьи CNN №2, 3, 4, 5 идентифицируются как похожие.
- Лимит N=1 достигнут. Статьи №2-5 понижаются до Threshold Score.
Результат: В ТОП поднимаются статьи от BBC, Reuters и т.д. Выдача становится разнообразной по источникам.

Сценарий 2: Диверсификация по Типу Контента (Алгоритм А или Б)

Ситуация: Пользователь ищет «как завязать галстук». Исходное ранжирование выдает 5 текстовых инструкций.
Применение Алгоритма: Система использует «Тип Медиа» как Variation Feature.
Процесс: Система понижает 3-ю, 4-ю и 5-ю текстовые инструкции, применяя Demotion Factor.
Результат: Видеоинструкция и страница с инфографикой, которые изначально ранжировались ниже, поднимаются в ТОП, обеспечивая разнообразие форматов.

Вопросы и ответы

Является ли этот патент описанием алгоритма Google Site Diversity (Host Crowding)?

Да, этот патент описывает общую механику, которая может быть использована для реализации Site Diversity. Если система использует домен сайта в качестве Variation Feature и устанавливает параметр N (квоту) равным 1 или 2, то описанный алгоритм будет активно понижать дополнительные результаты с того же домена, чтобы освободить место для других сайтов в ТОПе.

Что такое «Twiddler» в контексте этого патента?

Twiddler — это компонент поисковой архитектуры Google на этапе RERANKING, который изменяет порядок предварительно отсортированного списка результатов на основе специфических критериев. Описанный механизм диверсификации является классическим примером работы Twiddler: он корректирует финальную выдачу для достижения разнообразия.

Как система определяет, какие именно признаки (Variation Features) использовать для диверсификации?

Патент перечисляет возможные признаки: автор, источник (домен), тип медиаконтента, общие ссылки, теги, темы. Конкретный выбор признаков, вероятно, зависит от типа запроса (новостной, общий, локальный), контекста и того, какие признаки приводят к монополизации выдачи в данном конкретном случае.

Как работает «Bucketing» и зачем он нужен?

Bucketing — это предварительное разделение контента на группы по времени или расстоянию (например, «Сегодня», «Вчера»). Диверсификация применяется внутри этих групп. Это гарантирует, что ради разнообразия система не поднимет очень старый или географически далекий контент выше свежего и близкого, сохраняя общую логику и непрерывность выдачи.

Насколько сильно понижаются результаты при диверсификации?

Понижение может быть значительным. В интервальном методе (Алгоритм Б) оно определяется Интервалом ‘I’. Если ‘I’ равен 24 часам, то пониженный результат получит оценку (Threshold Score), как если бы он был на 24 часа старше. Это может привести к падению на много позиций или даже на следующую страницу выдачи.

Может ли этот алгоритм повышать результаты?

Патент фокусируется на понижении (demotion) повторяющихся элементов. Однако, понижая одни результаты, он косвенно повышает другие, более разнообразные. Также в патенте упоминается (в контексте Bucketing), что особо важные элементы могут быть перемещены в более актуальные Buckets (promotion), что является формой повышения.

В чем разница между двумя основными алгоритмами диверсификации (FIG. 6 и FIG. 8)?

Алгоритм А (FIG. 6, Итеративный) сравнивает текущий элемент с уже *отобранными/показанными* элементами и агрессивно пересортировывает список на лету. Алгоритм Б (FIG. 8, Интервальный) обрабатывает весь список, используя предопределенные интервалы (I) и квоты (N) для контролируемого понижения групп похожих элементов. Алгоритм Б лучше сохраняет исходный порядок (например, хронологию).

Влияет ли этот механизм на локальный поиск?

Да. Патент явно указывает, что distance-based criteria могут включать географическое расстояние. Система может диверсифицировать локальные результаты, например, ограничивая количество филиалов одной сети (N) в пределах определенного радиуса (I) или обеспечивая разнообразие типов бизнеса в выдаче.

Как этот патент влияет на стратегию создания контент-кластеров (Topical Authority)?

Он подчеркивает важность разнообразия внутри кластера. Недостаточно покрыть тему множеством похожих статей. Кластер должен включать разные форматы контента и освещать различные субтопики и интенты. Это минимизирует риск того, что страницы вашего кластера будут понижены из-за схожести друг с другом (каннибализации) при ранжировании по близким запросам.

Применяется ли этот механизм в Google Discover?

Да, он крайне релевантен для Discover. Патент явно упоминает применение в веб-лентах (web-based content feed). В Discover, где контент часто ранжируется по новизне и интересам, эти механизмы необходимы, чтобы лента не заполнялась обновлениями только от нескольких источников или только на одну тему.