Как Google использует "бакетизацию" для баланса релевантности и атрибутов (цена, дата) при сортировке результатов

Google применяет двухэтапный механизм ранжирования, когда пользователь сортирует выдачу по атрибуту (например, цене). Сначала система рассчитывает комбинированную оценку и делит результаты на «бакеты» (subsets) по уровню релевантности. Затем результаты сортируются по атрибуту только внутри своего бакета. Это не позволяет дешевым, но нерелевантным товарам опережать более дорогие и релевантные.

Описание

Какую задачу решает

Патент решает проблему ухудшения качества поиска, когда пользователь сортирует результаты по атрибуту, ортогональному релевантности (например, цена, дата, рейтинг). При строгой сортировке по атрибуту менее релевантные результаты часто опережают более релевантные. Например, при сортировке по возрастанию цены дешевый аксессуар может появиться выше основного продукта. Это также предотвращает манипуляции, когда продавцы незначительно изменяют атрибут (например, снижают цену на цент) для искусственного занятия первой позиции.

Что запатентовано

Запатентована система ранжирования, которая одновременно учитывает релевантность запросу (Relevance-score) и значение выбранного пользователем атрибута (Attribute-value). Ядром изобретения является двухэтапный процесс: расчет комбинированной оценки (Combined Score) для первичного ранжирования, последующее разделение результатов на подмножества или «бакеты» (Subsets) на основе порогов релевантности, и финальное переранжирование строго по атрибуту внутри этих бакетов.

Как это работает

При активации сортировки по атрибуту система работает следующим образом (основной механизм):

Расчет комбинированной оценки: Для каждого результата вычисляется Combined Score, являющийся функцией от Relevance-score и Attribute-value (часто с весовыми коэффициентами).
Первичное ранжирование: Результаты сортируются по Combined Score.
Бакетизация (Subsetting): Список делится на группы (бакеты) на основе пороговых значений релевантности. Высокорелевантные результаты попадают в верхний бакет.
Вторичное ранжирование: Внутри каждого бакета результаты переранжируются строго по Attribute-value (например, по цене).
Вывод: Пользователь видит список, где сначала идет верхний бакет (отсортированный по атрибуту), затем следующий и так далее.

Актуальность для SEO

Высокая. Описанный механизм критически важен для обеспечения качества поиска в E-commerce (Google Shopping), локальном поиске, поиске новостей, отелей, авиабилетов и любых вертикалях, где пользователи активно используют сортировку по цене, дате или рейтингу. Баланс между релевантностью и атрибутами остается фундаментальной задачей.

Важность для SEO

Патент имеет высокое значение, особенно для E-commerce и сайтов, конкурирующих в вертикальном поиске. Он демонстрирует, что оптимизации только атрибута (например, достижение самой низкой цены) недостаточно для занятия первой позиции при сортировке. Relevance-score определяет, в какой «бакет» попадет результат, а атрибут определяет позицию только внутри этого бакета. Это требует комплексной оптимизации как релевантности, так и атрибутов.

Детальный разбор

Термины и определения

Attribute-identifier (Идентификатор атрибута): Параметр, указывающий, какой атрибут использовать для ранжирования (например, цена, дата, рейтинг). Обычно задается пользователем.
Attribute-value (Значение атрибута): Конкретное значение идентифицированного атрибута для данного результата (например, цена $100).
Combined Score (Комбинированная оценка): Метрика, рассчитываемая на основе Attribute-value и Relevance-score. Используется для первичного ранжирования.
Relevance-score (Оценка релевантности): Метрика, указывающая, насколько результат соответствует запросу или каково его качество. Патент упоминает, что это может быть любая метрика качества, включая PageRank, или показатель надежности источника (reliability of a source).
Subsets (Подмножества / Бакеты): Группы результатов, сформированные после первичного ранжирования на основе порогов релевантности. Ранжирование по атрибуту происходит независимо внутри каждого бакета.
Threshold-value (Пороговое значение): Значение, используемое для определения границ бакетов. В альтернативном варианте реализации используется как минимальный порог Relevance-score для включения результата в финальный набор.

Ключевые утверждения (Анализ Claims)

Анализ сфокусирован на механизме бакетизации, который является ядром защищенного изобретения в Claims 1, 5, 7, 11, 14, 17.

Claim 1 (Независимый пункт): Описывает основной метод двухэтапного ранжирования.

Система получает запрос и результаты поиска.
Получается указанный пользователем Attribute-identifier (отличный от меры релевантности).
Для каждого результата рассчитывается Combined score на основе Attribute-value и Relevance-score.
Выполняется первичное ранжирование (First Ranking) на основе Combined score.
Этап Бакетизации: Первичный список делится на подмножества (Subsets) на основе Threshold-value, связанного с мерой релевантности.
Этап Переранжирования: Результаты внутри каждого подмножества ранжируются на основе Attribute-value (Second Ranking). Ранжирование происходит только относительно других результатов в том же подмножестве.
Предоставляется финальный (вторичный) список.

Claim 4 (Зависимый от 1): Уточняет расчет Combined score.

Расчет включает применение первого веса к Relevance-score и второго веса к Attribute-value, причем веса могут отличаться. Это позволяет системе настраивать баланс между важностью релевантности и атрибута.

Claim 5 (Независимый пункт): Альтернативное описание Claim 1.

Подтверждает процесс разделения первичного ранжирования на первый и второй бакеты на основе порога и последующее независимое ранжирование внутри этих бакетов по Attribute-value.

Где и как применяется

Изобретение применяется на финальных этапах обработки запроса, когда активирована сортировка по атрибуту.

INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются и индексируются Attribute-values (цены, даты, рейтинги) из структурированных данных или контента. Также рассчитываются статические сигналы качества (например, авторитетность источника), влияющие на Relevance-score.

RANKING – Ранжирование
Рассчитывается базовый Relevance-score для результатов относительно запроса.

RERANKING – Переранжирование
Основной этап применения патента. Система выполняет расчет Combined Score, первичное ранжирование, разделение на бакеты (Subsets) и финальное переранжирование внутри бакетов по Attribute-value. Это функционирует как специализированный Твидлер (Twiddler) для сортировки.

Входные данные:

Набор результатов поиска с Relevance-scores.
Attribute-identifier (выбранный пользователем критерий сортировки).
Attribute-values для каждого результата.
Весовые коэффициенты и пороговые значения для бакетизации.

Выходные данные:

Финальный список результатов, отсортированный с учетом баланса релевантности и атрибута.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние в E-commerce (Google Shopping), локальном поиске (рейтинг, расстояние), поиске новостей (дата), агрегаторах (недвижимость, вакансии, авиабилеты).
Специфические запросы: Влияет на транзакционные и исследовательские запросы, где пользователи применяют сортировку для принятия решения (например, «купить смартфон цена»).

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь явно запрашивает сортировку результатов по атрибуту, ортогональному релевантности (например, клик по кнопке «Сортировать по цене» или «Сортировать по дате»).
Условия применения: Применяется в поисковых вертикалях или интерфейсах, поддерживающих сортировку по извлекаемым атрибутам.

Пошаговый алгоритм

Патент описывает основной защищаемый метод (А) и альтернативный вариант реализации (Б), который описан в Detailed Description (FIG. 4).

Процесс А: Комбинированная оценка и бакетизация (Основной метод, Claims 1, 5)

Получение данных: Получение запроса и Attribute-identifier. Генерация результатов с Relevance-score (R) и Attribute-value (A).
Расчет комбинированной оценки: Вычисление Combined Score для каждого результата, например, по формуле: $f(R,A)=x_{1}R+x_{2}A$ .
Первичное ранжирование: Сортировка результатов на основе Combined Score.
Разделение на бакеты (Subsetting): Список делится на подмножества на основе пороговых значений релевантности. Относительный порядок сохраняется.
Вторичное ранжирование: Внутри каждого бакета результаты переранжируются строго на основе Attribute-value (A).
Представление результатов: Финальный список (объединенные последовательно бакеты) предоставляется пользователю.

Процесс Б: Фильтрация по релевантности (Альтернативный вариант)

Получение данных и поиск.
Определение порога: Система определяет Threshold-value для Relevance-score.
Фильтрация: Если Relevance-score результата ниже порога, результат отбрасывается.
Ранжирование: Оставшиеся релевантные результаты ранжируются строго на основе Attribute-value (A).
Представление результатов.

Какие данные и как использует

Данные на входе

Структурные / Контентные факторы (Атрибуты): Критически важные данные для сортировки (Attribute-values). Патент упоминает: цена, рейтинг, размер изображения, разрешение, длина видео/аудио/текста, размер файла, дата, время, срок действия, количество. Эти данные извлекаются из контента или структурированных данных.
Факторы релевантности и качества: Используется Relevance-score. Патент указывает, что он может быть основан на релевантности запросу, метриках качества (упоминается PageRank) или надежности источника (reliability of a source).
Пользовательские факторы: Выбор атрибута для сортировки (Attribute-identifier).
Исторические данные: Упоминаются для определения пороговых значений (Threshold-value) в альтернативном методе.

Какие метрики используются и как они считаются

Combined Score (f(R,A)): Основная вычисляемая метрика. Является функцией от Relevance-score (R) и Attribute-value (A).
Weights/Scaling factors (x1, x2): Весовые коэффициенты для настройки баланса между R и A.
Threshold-values: Пороги релевантности для бакетизации или фильтрации.

Патент приводит конкретные примеры формул для Combined Score (Table 1):

Линейная комбинация: $f(R,A)=x_{1}R+x_{2}A$
Нормализованная комбинация: $f(R,A)=(x_{1}R+x_{2}A)/(x_{1}+x_{2})$
Мультипликативная модель: $f(R,A)=x_{1}R*x_{2}A$
Нелинейные модели: Например, $f(R,A)=R^{x_{1}}+A^{x_{2}}$ .

Выводы

Бакетизация (Subsetting) как ключевой механизм ранжирования: Основной вывод патента — это использование механизма разделения результатов на «бакеты» (тиры) по уровню релевантности перед финальной сортировкой по атрибуту. Это фундаментально меняет подход к сортировке в поиске.
Релевантность определяет «лигу» конкуренции: Relevance-score определяет, в каком бакете будет конкурировать результат. Высокорелевантные результаты из верхнего бакета всегда будут выше менее релевантных из нижнего бакета, независимо от значения их атрибутов.
Атрибуты определяют ранг внутри «лиги»: Значение атрибута (например, цена или дата) определяет порядок сортировки строго внутри соответствующего бакета релевантности.
Защита от манипуляций и спама атрибутами: Система эффективно предотвращает выход в топ нерелевантных товаров за счет манипуляции атрибутами (например, аксессуары с низкой ценой не должны ранжироваться выше основного продукта).
Гибкость через весовые коэффициенты: Использование весов при расчете Combined Score позволяет Google настраивать баланс между релевантностью и атрибутом для разных вертикалей или типов запросов.
Relevance-score включает качество источника: Упоминание PageRank и надежности источника (reliability of a source) в качестве основы для Relevance-score связывает этот механизм с общими факторами качества и E-E-A-T.

Практика

Best practices (это мы делаем)

Максимизация релевантности для попадания в верхний бакет: Ключевая задача SEO — обеспечить максимальный Relevance-score. Это включает оптимизацию контента под интент запроса, улучшение качества страницы и повышение авторитетности сайта (E-E-A-T). Без попадания в верхний бакет даже лучшая цена или самая свежая дата не гарантируют высоких позиций при сортировке.
Точность и полнота структурированных данных: Критически важно корректно передавать Attribute-values (цены, рейтинги, даты, характеристики) через микроразметку (Schema.org) или фиды (Merchant Center). Система использует эти данные для финального ранжирования внутри бакетов.
Конкурентный анализ внутри кластера релевантности: Анализируйте атрибуты (например, цены) только среди прямых конкурентов, которых Google считает схожими по релевантности (т.е. находящихся в том же бакете). Ваша цель — иметь лучший атрибут среди релевантных аналогов.
Четкое позиционирование контента: Убедитесь, что страницы аксессуаров оптимизированы под запросы аксессуаров, а не основного продукта. Это позволит избежать низкого Relevance-score при поиске основного продукта и обеспечит высокую релевантность в своем сегменте.

Worst practices (это делать не надо)

Игнорирование релевантности в пользу атрибутов: Полагаться только на низкую цену или свежую дату, игнорируя качество и релевантность страницы. Система поместит такой результат в нижний бакет, независимо от значения атрибута.
Манипуляция атрибутами для нерелевантных товаров: Попытки ранжироваться по запросу основного продукта с помощью дешевого аксессуара (например, чехла по запросу телефона). Патент напрямую направлен на борьбу с этой тактикой.
Предоставление вводящих в заблуждение атрибутов: Указание неверных данных (например, цены без учета обязательных доплат) для получения преимущества при сортировке может привести к ухудшению пользовательского опыта и снижению доверия к сайту.

Стратегическое значение

Патент подтверждает, что в вертикальном поиске и E-commerce Google использует сложные алгоритмы ранжирования, которые не сводятся к простой сортировке базы данных. Релевантность интегрирована в процесс сортировки на глубоком уровне через механизм бакетизации. Долгосрочная SEO-стратегия должна фокусироваться на комплексном развитии: повышении релевантности и качества для попадания в верхний бакет, и оптимизации атрибутов для победы внутри этого бакета.

Практические примеры

Сценарий: Поиск товара с сортировкой по цене (E-commerce)

Запрос: «Кроссовки для бега Nike».
Действие: Сортировка «Цена: по возрастанию».

Обработка и Бакетизация: Система группирует результаты по релевантности.
- Бакет 1 (Высокая релевантность): Актуальные модели беговых кроссовок Nike.
- Бакет 2 (Средняя релевантность): Кроссовки Nike для ходьбы, устаревшие модели.
- Бакет 3 (Низкая релевантность): Носки и шнурки Nike.
Переранжирование внутри бакетов: Система сортирует товары по цене строго внутри каждой группы.
Результат: Пользователь видит сначала Бакет 1, затем Бакет 2, затем Бакет 3. На первой позиции будет самый дешевый товар из Бакета 1 (например, кроссовки за $80). Шнурки из Бакета 3 (за $5) будут показаны значительно ниже, несмотря на меньшую цену, так как они находятся в нижнем бакете релевантности.

Вопросы и ответы

Что такое «бакетизация» (Subsetting) в контексте этого патента?

Это процесс разделения результатов поиска на группы (бакеты или подмножества) на основе их уровня релевантности. Высокорелевантные результаты попадают в верхний бакет, среднерелевантные — в следующий. Это ключевой механизм, который гарантирует, что сортировка по атрибуту (например, цене) происходит только среди результатов с одинаковым уровнем релевантности.

Гарантирует ли самая низкая цена первое место при сортировке по возрастанию цены?

Нет. Первым будет самый дешевый товар в верхнем бакете релевантности. Если товар очень дешев, но мало релевантен запросу (например, аксессуар вместо основного продукта), он попадет в нижний бакет и будет показан после всех более релевантных товаров, даже если они дороже.

Как Google определяет границы этих бакетов?

Патент указывает, что разделение происходит на основе пороговых значений (Threshold-value), связанных с мерой релевантности (Relevance-score). Конкретные значения или методы их определения (статические или динамические) в патенте не раскрываются, но они служат для кластеризации результатов по качеству и соответствию запросу.

Что такое Combined Score и зачем он нужен, если финальная сортировка идет по атрибуту внутри бакета?

Combined Score используется для первичного ранжирования всех результатов до их разделения на бакеты. Он позволяет учесть и релевантность, и атрибут одновременно, используя весовые коэффициенты. Это помогает определить общее качество результата и влияет на то, как результаты будут распределены по бакетам, обеспечивая более тонкую настройку баланса.

Как SEO-специалисту повлиять на попадание в верхний бакет?

Необходимо максимизировать Relevance-score. Патент упоминает, что эта оценка может включать релевантность запросу, качество страницы (например, PageRank) и надежность источника. Следовательно, работа над текстовой релевантностью, ссылочным профилем и сигналами E-E-A-T является ключом к попаданию в верхний бакет.

Какую роль играют структурированные данные (Schema.org) в этом патенте?

Они играют критически важную роль. Система должна точно знать Attribute-value (цену, рейтинг, дату) для выполнения расчетов и сортировки. Структурированные данные и фиды (например, Merchant Center) — это наиболее надежный способ передачи этих атрибутов поисковой системе.

Применяется ли этот патент только в Google Shopping?

Нет. Хотя E-commerce является наиболее очевидным примером (сортировка по цене/рейтингу), патент описывает общий механизм. Он может применяться в Google News (сортировка по дате), Google Images (сортировка по размеру/разрешению), Поиске Видео (сортировка по длительности) и локальном поиске.

Что важнее для SEO в E-commerce: оптимизация карточки товара или низкая цена?

Оптимизация карточки товара (релевантность) первична. Она определяет бакет, в котором вы будете конкурировать. Низкая цена вторична — она определяет вашу позицию внутри этого бакета. Лучше быть самым дешевым среди релевантных товаров (верхний бакет), чем самым дешевым среди всех результатов (нижний бакет).

Может ли система использовать несколько атрибутов для сортировки одновременно?

Да. В патенте упоминается, что Attribute-value может быть значением, производным от одного или нескольких идентифицированных атрибутов. Система может рассчитывать Combined Score, используя релевантность и комбинацию нескольких атрибутов (например, цена и рейтинг одновременно).

В патенте описан альтернативный метод: фильтрация по релевантности (FIG. 4). Используется ли он?

Патент описывает его как один из вариантов реализации (Embodiment). Он проще: сначала отсекаются все результаты с релевантностью ниже порога, а оставшиеся сортируются строго по атрибуту. Однако основной защищаемый механизм (Claims 1, 5) — это система с бакетизацией. Вероятно, Google может использовать оба подхода в зависимости от контекста.

Как Google использует «бакетизацию» для баланса релевантности и атрибутов (цена, дата) при сортировке результатов