Как Google алгоритмически обеспечивает разнообразие выдачи, пессимизируя похожие результаты

Google использует итеративный алгоритм для обеспечения разнообразия в результатах поиска и рекомендациях. Система выбирает первый результат с наивысшей релевантностью, а затем штрафует оставшиеся результаты, если они слишком похожи на уже выбранные. Схожесть может определяться через контент или поведенческие данные (Covisitation). Цель — максимизировать вероятность того, что хотя бы один результат в выдаче заинтересует пользователя.

Описание

Какую задачу решает

Патент решает проблему избыточности (redundancy) и отсутствия разнообразия в результатах поиска или системах рекомендаций. Традиционные алгоритмы, фокусирующиеся на максимизации индивидуальной релевантности (Marginal Probabilities), часто возвращают набор очень похожих документов. Если пользователь не заинтересован в первом результате, он, скорее всего, не заинтересуется и похожими на него результатами ниже, что снижает качество пользовательского опыта.

Что запатентовано

Запатентован метод обеспечения разнообразия путем изменения целевой функции ранжирования. Вместо максимизации суммы индивидуальных оценок релевантности, система стремится максимизировать вероятность того, что пользователь заинтересуется хотя бы одним результатом из набора. Это достигается через итеративный процесс, использующий условные вероятности (Conditional Probabilities): каждый последующий результат выбирается при условии, что предыдущие результаты не заинтересовали пользователя.

Как это работает

Система работает по «жадному» (greedy) итеративному алгоритму для выбора K результатов:

Выбор первого результата (R1): Идентифицируется результат с максимальной маржинальной вероятностью (наиболее релевантный сам по себе).
Расчет условной вероятности: Для оставшихся кандидатов рассчитывается вероятность их выбора при условии, что R1 (и последующие выбранные результаты) не был выбран.
Применение штрафа за схожесть: Эта условная вероятность снижается, если кандидат похож на уже выбранные результаты. Схожесть (Relatedness или Similarity) может определяться на основе контента, ссылок или поведенческих данных (Covisitation). Чем выше схожесть, тем ниже итоговая оценка.
Выбор следующего результата: Выбирается результат с максимальной условной вероятностью после применения штрафов.
Итерация: Процесс повторяется, пока не будет набрано K результатов.

Актуальность для SEO

Высокая. Обеспечение разнообразия выдачи (SERP Diversity) остается критически важной задачей для Google в 2025 году, особенно для запросов с неоднозначным интентом или в тематиках с большим количеством похожего контента. Описанный механизм является фундаментальным подходом к диверсификации и, вероятно, лежит в основе современных систем переранжирования (Twiddlers), направленных на повышение качества SERP.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8.5/10). Он описывает конкретный механизм, который активно штрафует контент, если он слишком похож на уже выбранный для показа результат. Это подчеркивает критическую важность дифференциации контента и предоставления уникальной ценности. Стратегии, основанные на массовом создании слегка переписанного контента для занятия нескольких позиций в ТОПе по одному интенту, напрямую подавляются этим алгоритмом.

Детальный разбор

Термины и определения

Interest-likelihood score (I или P) (Оценка вероятности интереса): Метрика, указывающая на вероятность того, что пользователь проявит интерес к объекту данных (например, кликнет по нему). Может быть маржинальной или условной.
Marginal Probability (γ(RK)) (Маржинальная вероятность): Вероятность того, что результат RK будет выбран пользователем сам по себе, без учета других результатов. Соответствует базовому Ranking Score.
Inverse Likelihood (δ(RK)) (Обратная вероятность): Величина, обратная маржинальной вероятности (1/γ(RK)). Используется в формуле расчета условной вероятности.
Conditional Probability (P(RK | Not(R1…RK-1))) (Условная вероятность): Вероятность того, что результат RK будет выбран пользователем при условии, что предыдущие результаты (R1…RK-1) не были выбраны.
Relatedness (Связанность): Общая мера того, насколько один объект данных связан с другим. Включает схожесть контента, прямые и косвенные ссылки.
Similarity (S) (Схожесть): Специфическая форма связанности, часто относящаяся к схожести контента.
Covisitation (Cv) (Совместное посещение): Метрика схожести, основанная на поведении пользователей. Определяется как частота, с которой пользователи посещают (кликают) два объекта данных в пределах определенного контекста (например, в течение одного сеанса или временного окна). Используется как ориентированный на пользователя показатель схожести.
Alpha (α) и Beta (β0, β1, β2…): Параметры и значения смещения (Bias Values), которые настраиваются с помощью машинного обучения на основе логов кликов пользователей. Они регулируют влияние факторов релевантности и схожести на итоговую оценку.
K results (K результатов): Целевое количество результатов, которое необходимо отобрать для представления пользователю.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации K разнообразных результатов (K > 2).

Система идентифицирует первый результат (R1) из набора данных.
Система идентифицирует второй результат (R2) из оставшихся данных.
R2 выбирается на основе максимальной условной оценки вероятности интереса (conditional interest-likelihood score).
Ключевое условие: эта оценка основана на мере схожести (measure of similarity) между R1 и R2.
Механизм штрафа: оценка R2 уменьшается по мере увеличения схожести с R1.

Ядро изобретения — это итеративный выбор результатов, при котором схожесть с уже выбранными результатами активно пессимизируется для обеспечения разнообразия.

Claim 2 (Зависимый): Уточняет, что условная оценка вероятности интереса предполагает, что пользователь не выбрал первый результат.

Claim 4, 5, 6 (Зависимые): Указывают, что мера схожести основана на истории прошлого поведения пользователей (кликов), в том числе в рамках одного временного периода или сессии. Это легитимизирует использование Covisitation.

Claim 8 (Зависимый): Определяет конкретную формулу для расчета условной оценки:

I(RK | Not(R1…RK-1)) = α * e^(-β0 — β1*δ(RK) — β2*S(R1…RK-1, RK))

Эта формула математически реализует штраф за схожесть. Использование схожести (S) в качестве отрицательного показателя экспоненты (e) гарантирует, что чем выше схожесть, тем ниже будет итоговая условная оценка (экспоненциальное затухание).

Claims 9 и 10 (Зависимые): Расширяют формулу из Claim 8, добавляя дополнительные факторы связанности: прямые ссылки (Link) и косвенные ссылки (Vector), которые также штрафуют итоговую оценку.

Где и как применяется

Изобретение применяется на финальных этапах обработки поискового запроса для обеспечения разнообразия итогового набора результатов.

RANKING – Ранжирование
На этом этапе генерируется предварительный набор кандидатов с высокими показателями релевантности (Marginal Probability или Interest-likelihood score). Эти оценки служат входными данными (δ(RK)) для алгоритма диверсификации.

RERANKING – Переранжирование (Twiddlers)
Основное применение патента. Алгоритм диверсификации действует как Twiddler (Diversity Twiddler), который принимает ранжированный список кандидатов и переупорядочивает его для максимизации разнообразия.

METASEARCH – Метапоиск и Смешивание
Механизм может применяться при формировании составных блоков выдачи (например, новостных каруселей, блоков рекомендаций), чтобы гарантировать разнообразие внутри этих блоков.

Входные данные:

Набор кандидатов (Data Objects).
Оценки релевантности (Object Ranking / Marginal Scores).
Данные о связанности/схожести (Relatedness/Similarity/Covisitation data).
Обученные параметры модели (α, β).

Выходные данные:

Диверсифицированный набор из K результатов (Diverse Result Set).

На что влияет

Специфические запросы: Наибольшее влияние на запросы с неоднозначным интентом (ambiguous queries), где пользователю нужно предложить разные интерпретации. Также влияет на широкие тематические запросы, где важно показать разные аспекты темы, а не 10 одинаковых статей.
Конкретные типы контента: Влияет на любые типы контента, где возможно измерение схожести (веб-страницы, новости, товары, видео). В патенте в качестве примера используются новостные статьи.
Ниши: Влияет на ниши с большим количеством очень похожего контента (например, агрегаторы, стандартные обзоры), предотвращая доминирование однотипных результатов.

Когда применяется

Условия работы: Алгоритм применяется при формировании любого набора рекомендаций или результатов поиска, где целью является разнообразие. Требует наличия предварительно рассчитанных оценок релевантности и метрик схожести (например, Covisitation данных) между кандидатами.
Триггеры активации: Необходимость сформировать финальный набор результатов (SERP) или блок рекомендаций.

Пошаговый алгоритм

Процесс выбора K разнообразных результатов из набора данных (Greedy Algorithm).

Инициализация: Система получает набор кандидатов и их маржинальные вероятности интереса (Marginal Probabilities).
Выбор первого результата (R1):
1. Рассчитывается вероятность выбора для всех кандидатов. На первом шаге условная вероятность равна маржинальной (штраф за схожесть равен нулю).
2. Выбирается кандидат с максимальной вероятностью. Он становится R1.
Итеративный выбор (R2…RK): Цикл повторяется, пока не будет выбрано K результатов.
- Расчет условных вероятностей: Для каждого оставшегося кандидата (Rx) рассчитывается условная вероятность выбора при условии, что ранее выбранные результаты (R1…Ri-1) не были выбраны.
- Расчет схожести и Применение штрафа: Определяется мера схожести (например, Covisitation Score) между Rx и набором уже выбранных результатов. Условная вероятность Rx снижается в зависимости от меры схожести. Используется формула экспоненциального затухания, например: P(Rx | …) = α * e^(-β0 — β1*δ(Rx) — β2*Cv(…)).
- Выбор следующего результата: Выбирается кандидат с максимальной скорректированной условной вероятностью. Он добавляется в набор выбранных результатов.
Завершение: Система предоставляет итоговый диверсифицированный набор из K результатов.

Какие данные и как использует

Данные на входе

Алгоритм использует три основных типа данных: Кандидаты, Оценки релевантности и Данные о схожести.

Поведенческие факторы (Ключевые): История кликов пользователей (Click Histories). Эти данные критически важны для расчета Covisitation, которая используется как основная метрика схожести. Патент подчеркивает, что такой подход является контент-агностическим и эффективным. Логи кликов также используются для обучения параметров α и β.
Ссылочные факторы: Патент упоминает возможность использования ссылочных данных для оценки связанности: прямые ссылки (Link) между документами и косвенные связи через другие документы (Vector).
Контентные факторы: Могут использоваться для расчета меры схожести (Similarity, S), хотя патент отмечает, что это может быть вычислительно дорого.

Какие метрики используются и как они считаются

Ключевой метрикой является Условная вероятность интереса, которая рассчитывается для максимизации разнообразия.

Целевая функция: Система стремится максимизировать общую вероятность выбора хотя бы одного результата:

P_TOTAL = P(R1) + P(R2 | no R1) + … + P(RK | no R1…RK-1)

Расчет условной вероятности (Основная формула из Claim 8):

P(RK | Not(R1…RK-1)) = α * e^(-β0 — β1*δ(RK) — β2*Related(…))

Механизм работы формулы:

δ(RK) (Inverse Likelihood): Представляет базовую релевантность. Чем выше релевантность (ниже δ), тем выше итоговая вероятность.
Related(…): Представляет схожесть с уже выбранными результатами (например, S или Cv). Чем выше схожесть, тем больше значение показателя степени.
Экспоненциальное затухание (e^…): Поскольку показатели степени отрицательные (β — положительные значения смещения), увеличение схожести приводит к экспоненциальному уменьшению итоговой вероятности. Это агрессивный штраф за схожесть.

Обучение параметров: Параметры α и β обучаются офлайн с использованием методов машинного обучения (например, алгоритмов регрессии или Expectation-Maximization) на основе логов кликов пользователей для наиболее точного предсказания поведения пользователей.

Выводы

Разнообразие как алгоритмическая цель оптимизации: Патент подтверждает, что разнообразие выдачи — это не побочный эффект, а явная цель. Система использует математическую модель (максимизация суммы условных вероятностей), чтобы максимизировать шанс того, что пользователь кликнет хотя бы на один результат.
Агрессивный штраф за схожесть: Система активно штрафует результаты, которые слишком похожи на те, что уже выбраны для показа. Используется механизм экспоненциального затухания, что делает штраф очень существенным при высокой степени схожести.
Итеративное условное ранжирование: Ранжирование происходит итеративно. Ценность документа зависит от того, какие документы были выбраны до него, исходя из предположения, что предыдущие результаты не заинтересовали пользователя.
Многофакторная оценка схожести: Схожесть (Relatedness) может определяться комплексно: через анализ контента (Similarity), прямые (Link) и косвенные (Vector) ссылки.
Критичность поведенческих данных (Covisitation): Патент выделяет Covisitation как эффективный и ориентированный на пользователя способ измерения схожести. Если пользователи часто посещают два документа вместе, система считает их взаимозаменяемыми, независимо от их контента.

Практика

Best practices (это мы делаем)

Дифференциация контента и уникальная ценность: Обеспечивайте явную уникальную ценность для каждой страницы. Даже при освещении одной и той же темы старайтесь предложить уникальный угол зрения, глубину анализа или данные, которые отличаются от конкурентов в ТОП-1. Это снижает меру схожести (Similarity) и уменьшает штраф за разнообразие.
Целевое покрытие разных интентов: Если запрос имеет несколько возможных интентов (широкий или неоднозначный запрос), создавайте контент, четко нацеленный на один из них. Это повышает шансы занять позицию в диверсифицированной выдаче, где Google стремится показать результаты для разных интерпретаций запроса.
Устранение каннибализации: Активно выявляйте и устраняйте ситуации, когда несколько страниц вашего сайта конкурируют за один и тот же интент. Этот алгоритм активно борется с показом похожих страниц в одном SERP.
Построение Topical Authority через разнообразие фасетов: При создании контент-кластеров убедитесь, что каждая страница кластера покрывает уникальный фасет темы. Это повышает шансы занять больше позиций по широкому спектру связанных запросов, так как страницы не будут считаться избыточными по отношению друг к другу.

Worst practices (это делать не надо)

Создание почти дублированного контента: Создание множества страниц с минимальными отличиями (например, меняя только город или синоним ключевого слова). Алгоритм диверсификации активно фильтрует такие страницы, считая их избыточными, если одна из них уже попала в топ.
Поверхностный рерайтинг контента конкурентов (Skyscraper без ценности): Если контент является простой переработкой топовых результатов, его мера схожести (Similarity) будет высокой. Если оригинал уже находится в выдаче, переписанная версия получит значительный штраф от алгоритма Diversity.
Игнорирование разнообразия форматов и интентов: Фокусировка только на одном формате контента или доминирующем интенте, когда запрос предполагает разнообразие. Алгоритм будет стремиться включить альтернативные варианты.

Стратегическое значение

Этот патент подчеркивает переход от оценки изолированной релевантности к оценке ценности страницы в контексте всей поисковой выдачи (SERP как портфолио). Для SEO-специалистов это означает, что недостаточно быть просто релевантным; необходимо быть уникально релевантным. Стратегия должна фокусироваться на создании контента, который предлагает дополнительную ценность, а не повторяет уже существующую информацию. Понимание механизма диверсификации помогает объяснить, почему иногда менее релевантные (по маржинальной оценке) результаты могут ранжироваться выше, если они добавляют разнообразие в SERP.

Практические примеры

Сценарий 1: Диверсификация выдачи по широкому запросу

Запрос: «Здоровое питание».
Кандидаты и их релевантность (Marginal Probability):
- A: «Основы здорового питания» (0.9)
- B: «10 правил здорового питания» (0.88) — очень похож на A.
- C: «Рецепты здоровых завтраков» (0.85)
Шаг 1: Выбирается A (максимальная релевантность).
Шаг 2: Пересчет оценок (условная вероятность).
- B: Получает большой штраф за высокую схожесть с A (высокий Covisitation или Similarity). Новая оценка сильно падает (например, до 0.2).
- C: Получает небольшой штраф за схожесть с A (общая тема), но он значительно меньше, чем у B. Новая оценка (например, 0.7).
Шаг 3: Выбирается C.
Результат: Итоговая выдача: A, C, … B. Результат B, несмотря на высокую изначальную релевантность, был понижен из-за схожести с лидером A, уступив место более разнообразному результату C.

Сценарий 2: Неоднозначный запрос («Python»)

Запрос: «Python».
Шаг 1: Доминирующий интент — язык программирования. Выбирается официальный сайт python.org (R1).
Шаг 2: Система ищет R2 при условии, что R1 не интересен. Другие сайты о программировании на Python пенализируются за схожесть с R1.
Диверсификация: Страница Википедии о змее (питон) имеет низкую схожесть с R1. Ее условная вероятность остается высокой.
Результат: R2 становится страница о змее. Выдача диверсифицирована по интентам.

Вопросы и ответы

Что такое Covisitation и почему это важно для SEO?

Covisitation (совместное посещение) — это метрика схожести, основанная на поведении пользователей. Если значительное число пользователей кликает на результат A и результат B в рамках одной сессии или короткого промежутка времени, Google считает эти документы похожими или взаимозаменяемыми. Для SEO это важно, потому что Google может определить схожесть между страницами не только по контенту, но и по тому, как пользователи с ними взаимодействуют, что напрямую влияет на диверсификацию выдачи.

Как этот патент влияет на каннибализацию контента?

Он напрямую противодействует каннибализации. Если у вас есть две страницы, которые система считает очень похожими (высокая Similarity или Covisitation), этот алгоритм гарантирует, что после выбора первой страницы вторая получит значительный штраф за схожесть. Это математически снижает вероятность того, что несколько ваших страниц займут высокие позиции в одной и той же выдаче.

Означает ли этот патент, что релевантность больше не важна?

Нет, релевантность (Marginal Probability) критически важна. Алгоритм всегда выбирает первый результат на основе максимальной релевантности. Кроме того, базовая релевантность является основным компонентом расчета условной вероятности на всех последующих шагах. Однако патент показывает, что одной релевантности недостаточно, если контент не добавляет разнообразия.

Как я могу уменьшить схожесть моего контента с конкурентами?

Фокусируйтесь на предоставлении уникальной ценности. Это может быть уникальное исследование, собственные данные, более глубокий анализ, другой угол зрения или решение смежной задачи, которую игнорируют конкуренты. Избегайте простого рерайтинга структуры и содержания топовых страниц, так как это приводит к высокой контентной схожести (Similarity) и потенциально высокой Covisitation.

Как работает штраф за схожесть?

Штраф реализован через механизм экспоненциального затухания, описанный в формулах патента (например, e^(-β2*S)). Это означает, что чем больше схожесть (S) с уже выбранными результатами, тем агрессивнее снижается итоговая оценка ранжирования (Conditional Interest-likelihood score). Высокая схожесть может полностью исключить результат из ТОПа.

Влияет ли этот алгоритм на все запросы?

Он потенциально может влиять на все запросы, но его воздействие наиболее заметно там, где топовые кандидаты очень похожи друг на друга (например, новости, e-commerce), или когда запрос имеет несколько возможных интерпретаций (неоднозначный интент). Для очень специфических или навигационных запросов влияние будет минимальным.

Учитывает ли система схожесть контента, ссылок или поведения?

Патент описывает все три варианта. Система может учитывать контентную схожесть (Similarity), наличие прямых и косвенных ссылок между документами (Link, Vector), а также поведенческие данные (Covisitation). Они могут использоваться в комбинации, но Covisitation выделяется как эффективный метод.

На каком этапе поиска работает этот алгоритм?

Он работает на этапе переранжирования (RERANKING) или как Twiddler. Он применяется после того, как основные системы ранжирования (RANKING) отобрали и оценили лучших кандидатов. Алгоритм берет этот список и переупорядочивает его для обеспечения разнообразия.

Может ли этот алгоритм привести к тому, что менее релевантный результат окажется выше более релевантного?

Да, если релевантность измеряется как маржинальная оценка. Если результат A более релевантен, но очень похож на уже выбранный Топ-1, а результат B менее релевантен, но уникален, система может выбрать B выше A. Это происходит потому, что система оптимизирует условную вероятность, а не маржинальную.

Как параметры Alpha (α) и Beta (β) влияют на ранжирование?

Эти параметры настраиваются с помощью машинного обучения на основе логов кликов. Параметры Beta (β) определяют вес факторов (например, насколько сильно штрафовать за схожесть). Если β для схожести высок, система будет очень агрессивно диверсифицировать выдачу. Если он низок, система будет больше склоняться к базовой релевантности.