Как Google использует попарные сравнения (Side-by-Side тесты) для агрегации оценок качества и создания эталонного рейтинга

Патент описывает математический метод, который Google использует для оценки качества поиска на основе попарных сравнений результатов людьми (асессорами). Система собирает данные о предпочтениях (Side-by-Side тесты) и использует модель, аналогичную PageRank (основанную на Марковских процессах), для агрегации этих оценок в единый, устойчивый к шуму рейтинг качества (Preference Ranking). Эти данные служат эталоном для обучения и валидации алгоритмов ранжирования.

Описание

Какую задачу решает

Патент решает проблему надежной агрегации субъективных, часто противоречивых и зашумленных оценок качества, полученных от пользователей (асессоров), в единый глобальный рейтинг. Традиционные методы, такие как анализ ссылок (PageRank), уязвимы для спама и отражают мнение авторов, а не пользователей. Анализ кликов (click-tracking) слишком зашумлен, а прямые опросы сложно агрегировать. Изобретение предлагает устойчивый метод для определения «эталона качества» (Ground Truth) на основе человеческих предпочтений.

Что запатентовано

Запатентован метод генерации рейтинга предпочтений (Preference Ranking) на основе попарных сравнений (Pairwise Comparisons) элементов (например, результатов поиска). Суть заключается в использовании математического аппарата, аналогичного PageRank, – вычислении доминирующего собственного вектора (Dominant Eigenvector) матрицы смежности (Adjacency Matrix). Однако матрица смежности строится не на основе ссылок, а на основе агрегированных данных о предпочтениях пользователей.

Как это работает

Система работает следующим образом:

Сбор данных: Пользователям (асессорам) предъявляются пары элементов для сравнения (Side-by-Side). Фиксируется предпочтение (победа, проигрыш или ничья).
Матрица Рейтингов: Данные агрегируются в Rating Matrix, содержащую количество побед/проигрышей/ничьих (W/L/T) для каждой пары.
Матрица Смежности: Rating Matrix преобразуется в Adjacency Matrix с использованием формулы взвешенного соотношения проигрышей (weighted loss ratio).
Вычисление Рейтинга: Вычисляется Dominant Eigenvector этой матрицы (используя Markov process). Значения в векторе определяют итоговый Preference Ranking элементов.

Актуальность для SEO

Высокая. Хотя патент подан в 2006 году, описанная методология остается фундаментальной для оценки качества поиска. Попарное сравнение (Side-by-Side) является стандартным инструментом для асессоров Google (Quality Raters). Агрегация этих оценок для создания эталонных данных (Ground Truth), используемых для обучения и валидации алгоритмов машинного обучения (включая системы, связанные с E-E-A-T и Helpful Content), критически важна.

Важность для SEO

Влияние на SEO значительное, но косвенное (7.5/10). Патент не описывает алгоритм ранжирования в реальном времени. Он описывает, как Google *оценивает* качество результатов поиска, используя человеческие суждения. Полученный Preference Ranking служит эталоном качества, на который настраиваются основные алгоритмы ранжирования. Для SEO это подтверждает необходимость фокусироваться на качестве контента, которое удовлетворит асессора при прямом сравнении с конкурентами.

Детальный разбор

Термины и определения

Adjacency Matrix (Матрица смежности): Квадратная матрица, представляющая предпочтения между элементами. Элемент матрицы $a_{ij}$ определяется как взвешенное соотношение проигрышей (weighted loss ratio) между элементом i и элементом j.
Damping Factor (Коэффициент затухания): Параметр (d), используемый при итеративном вычислении собственного вектора (аналогично PageRank), который обеспечивает сходимость алгоритма. В патенте приведен пример d=0.85.
Dominant Eigenvector (Доминирующий собственный вектор): Вектор, вычисляемый из Adjacency Matrix. Значения этого вектора определяют итоговый Preference Ranking. Это дает более точное различие в качестве (числа с плавающей запятой), чем простая сортировка.
Pairwise Comparison (Попарное сравнение / Side-by-Side): Метод оценки качества, при котором пользователю (асессору) предъявляются два элемента одновременно для определения предпочтения.
Preference Ranking (Рейтинг предпочтений): Итоговый результат работы алгоритма; глобальное ранжирование набора элементов, основанное на агрегированных попарных предпочтениях пользователей.
Rating Matrix (Матрица рейтингов): Промежуточная матрица, хранящая исходные данные о предпочтениях для каждой пары элементов (W/L/T).
W/L/T (Wins/Losses/Ties): Количество побед (Wins), проигрышей (Losses) и ничьих (Ties) при сравнении двух элементов пользователями.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс создания рейтинга предпочтений для набора элементов (где каждый элемент является результатом поиска).

Система получает набор элементов (результатов поиска).
Система собирает предпочтения пользователей между парами элементов (выбор пар, представление пользователям, сбор оценок).
Используя предпочтения, система вычисляет Adjacency Matrix.
Используя Adjacency Matrix, система вычисляет Preference Ranking.
Система присваивает рейтинг и предоставляет ранжированные результаты пользователю.

Claim 4 (Зависимый от 3): Детализирует способ вычисления Adjacency Matrix (размером nxn для n элементов). Это ядро изобретения.

Элемент $a_{ij}$ вычисляется следующим образом:

Если предпочтения между i и j неизвестны: $a_{ij} = 0$ .
Если i ≠ j (не диагональные элементы, Weighted Loss Ratio): $a_{ij} = \frac{losses(i,j)}{(wins(i,j)+losses(i,j)+ties(i,j)) \cdot n}$ .
Если i = j (диагональные элементы, Нормализация): $a_{ii} = 1 — \sum_{k \neq i} a_{ik}$ . (Обеспечивает, что сумма элементов строки равна 1).

Claim 5 (Зависимый от 1): Уточняет, что вычисление Preference Ranking включает вычисление Dominant Eigenvector для Adjacency Matrix.

Claim 6 (Зависимый от 1): Уточняет, что вычисление Dominant Eigenvector использует итеративный процесс с применением Damping Factor.

Где и как применяется

Этот патент описывает инфраструктуру оценки качества, а не компонент системы ранжирования в реальном времени. Он не встраивается напрямую в стандартный конвейер обработки запросов (Crawling-Indexing-Ranking).

Оценка качества и генерация обучающих данных (Evaluation & Training Data Generation)

Основное применение патента — это офлайн-процессы, направленные на оценку эффективности работы поисковой системы и создание эталонных наборов данных (Ground Truth).

Оценка результатов RANKING: Система используется для анализа результатов, сгенерированных на этапе RANKING. Путем сбора человеческих предпочтений генерируется Preference Ranking. Этот рейтинг затем сравнивается с рейтингом, сгенерированным поисковой системой, для оценки ее качества (например, при A/B тестировании обновлений).
Обучение моделей RANKING: Preference Ranking служит в качестве «идеального» ранжирования (Ground Truth). Эти данные используются для обучения и тонкой настройки моделей машинного обучения (например, на этапе L2/L3 Ranking), чтобы они лучше соответствовали человеческим предпочтениям.

Входные данные:

Набор элементов для оценки (например, Топ-20 результатов поиска).
Сырые данные о предпочтениях асессоров (W/L/T) для выбранных пар элементов.

Выходные данные:

Dominant Eigenvector (Preference Ranking) — вектор числовых оценок качества для каждого элемента.

На что влияет

Типы контента и форматы: Патент универсален и может применяться для оценки любых сравниваемых элементов: веб-страниц, документов, изображений, продуктов, рекламы, видео. Он также позволяет сравнивать качество между разными типами контента (например, новость против изображения), что важно для оценки Универсального Поиска (METASEARCH).
Специфические ниши: Наиболее критичен в YMYL-тематиках, где точность оценки качества имеет решающее значение для валидации алгоритмов, отвечающих за E-E-A-T.

Когда применяется

Условия работы: Алгоритм применяется в офлайн-режиме в рамках инфраструктуры оценки качества (Quality Evaluation pipelines). Он не используется в реальном времени.
Триггеры активации: Необходимость оценить новый алгоритм ранжирования (A/B тестирование), провести мониторинг качества выдачи или сгенерировать свежие обучающие данные для ML-моделей.

Пошаговый алгоритм

Процесс генерации рейтинга предпочтений:

Получение набора элементов: Система получает набор из n элементов (например, результаты поиска).
Выборка пар для оценки: Из всех возможных пар выбирается подмножество. Выборка может быть случайной или использовать технику прогрессивного уточнения (progressive-refinement technique).
Представление пар пользователям (Pairwise Comparison): Выбранные пары представляются асессорам в формате Side-by-Side с исходным запросом.
Сбор предпочтений и заполнение Матрицы Рейтингов: Система получает оценки (Левый лучше, Правый лучше, Одинаково) и заполняет Rating Matrix данными W/L/T (Wins/Losses/Ties).
Вычисление Матрицы Смежности: Система вычисляет Adjacency Matrix из Rating Matrix, используя формулу Weighted Loss Ratio и нормализацию (см. Метрики).
Вычисление Доминирующего Собственного Вектора: Система итеративно вычисляет Dominant Eigenvector для Adjacency Matrix с использованием Damping Factor (например, 0.85).
Генерация Рейтинга Предпочтений: Полученный вектор определяет Preference Ranking.
Использование Рейтинга: Preference Ranking используется для оценки качества результатов поиска или как обучающие данные.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании данных о предпочтениях.

Поведенческие факторы (Human Judgment Data): Единственный тип входных данных для расчета — это прямые оценки предпочтений, полученные от асессоров в ходе попарных сравнений (W/L/T).
Контентные факторы (Неявно): Сами элементы (веб-страницы и т.д.), которые предъявляются асессорам. Алгоритм агрегации не анализирует контент, но контент влияет на предпочтения асессоров.

Какие метрики используются и как они считаются

Rating Matrix (W/L/T): Агрегация исходных данных о количестве побед, проигрышей и ничьих для каждой пары (i, j).
Adjacency Matrix (A): Рассчитывается из Rating Matrix. Для набора из n элементов, элемент $a_{ij}$ определяется по формулам:
- При i ≠ j (Weighted Loss Ratio): $a_{ij} = \frac{losses(i,j)}{(wins(i,j) + losses(i,j) + ties(i,j)) \cdot n}$
- При i = j (Нормализация): $a_{ii} = 1 — \sum_{k \ne i} a_{ik}$
Dominant Eigenvector (R): Итоговый рейтинг. Вычисляется путем итеративного решения уравнения, включающего Adjacency Matrix (A) и Damping Factor (d):
$R = (\begin{array}{c} (1 - d) \end{array}$

Выводы

Оценка качества, а не ранжирование в реальном времени: Патент описывает инфраструктурный механизм для офлайн-оценки качества поиска. Он критически важен для формирования эталона качества (Ground Truth), на который опираются основные алгоритмы ранжирования.
Предпочтение попарным сравнениям: Google считает попарное сравнение (Side-by-Side) более надежным методом сбора человеческих оценок, чем анализ кликов или прямые опросы. Это подтверждает методологию работы асессоров.
Устойчивость к шуму и противоречиям: Использование метода на основе собственного вектора (Markov process) позволяет агрегировать большое количество субъективных и противоречивых оценок (например, циклические предпочтения A>B, B>C, C>A) в единый стабильный рейтинг.
Математика PageRank для человеческих суждений: Патент демонстрирует применение математического аппарата PageRank к анализу графа предпочтений. Входные данные меняются (ссылки на предпочтения), но принцип агрегации остается тем же.
Рейтинг против Упорядочивания: Система генерирует именно рейтинг (числовые оценки с плавающей запятой), а не просто порядковый список. Это дает более точное представление о степени различия в качестве между элементами.

Практика

Best practices (это мы делаем)

Фокус на соответствии требованиям асессоров (Quality Rater Guidelines): Поскольку этот патент описывает метод агрегации оценок асессоров для создания Ground Truth, первостепенной задачей SEO является максимальное соответствие критериям качества, которыми руководствуются асессоры (E-E-A-T, Needs Met). Алгоритмы Google обучаются воспроизводить эти оценки.
Использование попарного сравнения для внутреннего аудита: Применяйте методологию Side-by-Side для оценки качества своего контента в сравнении с конкурентами. Задавайте вопрос: «Является ли наша страница явно лучше, чем страница конкурента X по запросу Y с точки зрения пользователя?».
Приоритет явного превосходства над конкурентами: Так как оценка качества основана на сравнениях (Wins/Losses), стратегически важно стремиться к тому, чтобы ваш контент был предпочтительнее контента конкурентов в большинстве случаев.
Улучшение UX/UI и дизайна: В попарных сравнениях визуальное представление, удобство использования и отсутствие отвлекающих факторов могут играть решающую роль в предпочтении одного результата другому.

Worst practices (это делать не надо)

Ориентация только на поведенческие метрики (клики, CTR): Патент явно указывает, что анализ кликов является зашумленным и ненадежным методом оценки качества. Не следует полагаться на эти метрики как на истинный показатель качества.
Оптимизация под алгоритмы в ущерб пользователю: Использование тактик, которые ухудшают восприятие контента человеком. Асессоры (и обученные на их данных алгоритмы) предпочтут более качественный и полезный контент конкурента.
Игнорирование инструкций для асессоров (QRG): Рассматривать QRG как второстепенный документ. Этот патент доказывает, что данные асессоров лежат в основе измерения качества Google.

Стратегическое значение

Патент подчеркивает фундаментальную роль человеческой оценки в экосистеме поиска Google. Несмотря на развитие ИИ, именно агрегированные предпочтения людей (асессоров) формируют эталон, к которому стремятся алгоритмы. Это подтверждает стратегическую необходимость инвестиций в качество контента, экспертность и пользовательский опыт (E-E-A-T и Helpful Content), так как именно эти параметры оцениваются в ходе попарных сравнений (Human-Centric SEO).

Практические примеры

Сценарий: Внутренний аудит качества контента с использованием методологии попарного сравнения

Цель: Оценить качество ключевой статьи в сравнении с Топ-3 конкурентами по целевому запросу.
Подготовка: Выбрать целевой запрос. Определить 4 страницы для оценки: Ваша страница (P1) и страницы конкурентов (P2, P3, P4).
Сбор данных (Pairwise Comparison): Привлечь несколько независимых экспертов или фокус-группу. Показать им исходный запрос и пары страниц в случайном порядке (P1 vs P2, P1 vs P3 и т.д.). Попросить выбрать предпочтительную страницу в каждой паре.
Агрегация: Для точной оценки использовать метод из патента: создать Rating Matrix (W/L/T), вычислить Adjacency Matrix по формуле взвешенного соотношения проигрышей и рассчитать Dominant Eigenvector (можно использовать специализированное ПО или библиотеки Python).
Результат: Получение объективного рейтинга качества 4 страниц (например, P1=0.45, P2=0.30, P3=0.15, P4=0.10). Это дает количественную оценку превосходства над конкурентами и указывает на направления для доработки.

Вопросы и ответы

Является ли это алгоритмом ранжирования, который Google использует в реальном времени?

Нет. Этот патент описывает метод для *оценки* качества результатов поиска и агрегации человеческих суждений. Он используется офлайн для генерации эталонных данных (Ground Truth), которые затем применяются для обучения и валидации основных алгоритмов ранжирования.

Использует ли этот алгоритм клики реальных пользователей из поиска (CTR)?

Патент не использует данные о кликах. Более того, в описании изобретения прямо говорится, что пассивные методы наблюдения, такие как анализ кликов (click-tracking), являются «зашумленными и сложными для интерпретации». Этот метод предложен как более надежная альтернатива.

Кто эти «пользователи», которые выражают предпочтения?

Хотя патент использует общий термин «users», в контексте оценки качества поиска Google это почти наверняка относится к асессорам (Quality Raters). Именно они выполняют задачи попарного сравнения (Side-by-Side) для оценки качества выдачи.

В чем ключевое отличие этого метода от PageRank?

Математический аппарат схож – оба метода используют Марковский процесс и вычисляют доминирующий собственный вектор матрицы смежности. Однако входные данные принципиально разные: PageRank анализирует ссылки (мнение авторов), а этот метод анализирует предпочтения пользователей/асессоров (мнение пользователей).

Почему Google предпочитает попарное сравнение (Side-by-Side) другим методам оценки?

Патент указывает, что прямые опросы удовлетворенности сложно агрегировать из-за различий в мнениях. Попарное сравнение проще для пользователя (нужно выбрать лучший из двух вариантов) и предоставляет данные, которые можно эффективно и устойчиво к шуму агрегировать с помощью описанного математического метода.

Что такое «Матрица смежности» (Adjacency Matrix) в этом патенте?

Это матрица, где каждый элемент рассчитывается по специальной формуле «взвешенного соотношения проигрышей» (weighted loss ratio). Эта формула учитывает количество побед, проигрышей и ничьих, а также общее количество элементов, обеспечивая нормализацию и равный вес для каждого сравнения.

Как система справляется с противоречивыми оценками (например, A>B, B>C, но C>A)?

Именно для решения этой проблемы используется вычисление собственного вектора. Этот математический метод (Markov process) позволяет найти глобальный оптимальный рейтинг, который наилучшим образом согласуется со всеми имеющимися данными, даже если они содержат локальные противоречия или шум.

Что означает, что система выдает «рейтинг», а не «упорядочивание»?

Традиционная сортировка выдает порядковые номера (1, 2, 3). Этот метод выдает числовые оценки (например, 0.52, 0.29, 0.18). Это позволяет не только понять, что А лучше B, но и насколько именно А лучше B в контексте данного набора данных, что дает более точное представление о качестве.

Какое практическое значение этот патент имеет для моей SEO-стратегии?

Стратегически он подтверждает, что вы должны стремиться к явному превосходству над конкурентами. Так как асессоры сравнивают ваш сайт с другими в формате Side-by-Side, ваша цель – быть предпочтительным выбором. Это подчеркивает важность глубокого понимания интента и предоставления максимально полезного контента (Helpful Content).

Актуален ли этот патент, учитывая развитие ИИ и машинного обучения?

Да, абсолютно актуален. Человеческие оценки, агрегированные с помощью этой методологии, служат «золотым стандартом» (ground truth) для обучения и валидации современных моделей машинного обучения и ИИ-систем ранжирования. ИИ учится предсказывать, какой результат предпочел бы человек.