
Google использует механизм статистической нормализации для смешивания результатов из разных корпусов (Веб, Новости, Видео). Поскольку каждый индекс использует свою шкалу оценок релевантности, система анализирует их распределения и применяет квантильную нормализацию, приводя все оценки к единой шкале (например, 0-1). Это позволяет справедливо сравнивать релевантность разных типов контента и формировать смешанную поисковую выдачу.
Патент решает фундаментальную проблему Универсального Поиска (Universal Search): как объективно сравнивать и ранжировать результаты, полученные из разных коллекций контента (корпусов или индексов), когда каждый корпус использует собственную, несовместимую с другими, шкалу оценок релевантности (Content Relevance Scores). Например, оценка 2000 может быть максимальной в Веб-индексе, а оценка 2 – максимальной в Новостном индексе. Изобретение позволяет привести эти разнородные оценки к единому стандарту для корректного смешивания (blending) результатов в финальной выдаче.
Запатентована система и метод нормализации оценок релевантности контента из различных корпусов (Claims 1-19). Суть заключается в анализе диапазонов (ranges) и статистических распределений (distributions, например, гистограмм) оценок для каждого корпуса. Система использует метод, основанный на квантильной нормализации: распределения разбиваются на части (квантили или процентили), и эти части сопоставляются с соответствующими частями в едином нормализованном диапазоне (normalized range), например, 0-1.
Система работает в два основных этапа: калибровка и применение.
Normalization Engine выполняет выборочные запросы к разным корпусам (Веб, Новости и т.д.). Для каждого корпуса анализируются полученные Content Relevance Scores, определяются их диапазоны и строится распределение (гистограмма). Это распределение делится на квантили.mapping) с соответствующими квантилями в едином нормализованном диапазоне (0-1).normalized scores с использованием созданного маппинга. Затем система ранжирует весь контент на основе этих универсальных оценок, позволяя смешивать результаты в единой выдаче.Высокая. Универсальный поиск и смешивание результатов из разных вертикалей (Новости, Видео, Картинки, Веб) являются основой современной выдачи Google. Механизм, позволяющий сравнивать релевантность между разными типами контента (Cross-Corpus Relevance), критически важен для функционирования поиска. Описанный метод статистической нормализации остается актуальным подходом для решения этой задачи.
Патент имеет высокое стратегическое значение (7/10) для понимания архитектуры поиска, но предлагает ограниченные возможности для прямого тактического применения. Он описывает инфраструктурный механизм, который позволяет Google формировать смешанную выдачу. Для SEO-специалистов это подчеркивает важность оптимизации не только в основном веб-индексе, но и в релевантных вертикалях, так как система способна сравнивать и предпочитать контент из разных источников на основе нормализованной релевантности (процентиля внутри корпуса).
News Feed (Новости), Web (Веб-контент), Blog (Блоги). Также могут включать контент по странам, языкам или демографии.Content Relevance Scores внутри одного корпуса.Content Relevance Scores, наблюдаемые для конкретного корпуса.Примечание: Формула изобретения (Claims 1-19) этого патента фокусируется исключительно на механизме нормализации. Хотя в основном описании (Description) патента подробно обсуждаются примеры применения, такие как смешивание социального контента и использование модели Затрат/Выгод (Cost/Gain Model), они не являются частью защищенного изобретения, описанного в Claims.
Claim 1 (Независимый пункт): Описывает полный процесс квантильной нормализации и ее использования для ранжирования смешанных результатов.
ranges) оценок релевантности для разных коллекций контента.normalized range) нормализованных значений.distribution) оценок для этой коллекции.first subsets – квантили/процентили).second subsets).mapping) первых подмножеств ко вторым.Ядро изобретения – это применение статистического метода (квантильной нормализации) для обеспечения возможности сравнения метрик релевантности между разными корпусами. Это означает, что результат, находящийся в 90-м процентиле релевантности для Корпуса А, получит нормализованную оценку, эквивалентную результату в 90-м процентиле Корпуса Б, независимо от их исходных числовых значений.
Claim 2 (Зависимый от 1): Уточняет метод получения исходных диапазонов (Шаг 1 Claim 1). Это делается офлайн путем выполнения выборочных поисковых запросов (sample search queries) и идентификации верхних и нижних границ полученных оценок релевантности для каждой коллекции.
Claims 3 и 4 (Зависимые от 1): Уточняют, что процесс динамический. Диапазоны оценок обновляются (либо через предопределенные интервалы времени (Claim 3), либо на основе изменений в коллекциях контента (Claim 4)), и маппинг пересчитывается.
Изобретение является ключевым компонентом, обеспечивающим работу Универсального Поиска.
Офлайн Анализ (Связано с INDEXING/RANKING)
Система требует периодической калибровки. Normalization Engine анализирует данные, полученные путем выполнения выборочных запросов, для построения распределений (distributions) и генерации маппингов (mappings) для каждого корпуса (Веб, Новости, Видео и т.д.).
RANKING – Ранжирование (Рантайм)
На этом этапе для пользовательского запроса генерируются результаты из различных корпусов. Каждый результат имеет исходную (нативную) оценку релевантности, специфичную для его корпуса.
METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
Это основной этап применения патента. Normalization Engine используется для конвертации нативных оценок релевантности в Normalized Scores с использованием предварительно рассчитанных маппингов. Затем система смешивания (Blending Algorithm) сравнивает эти нормализованные оценки, чтобы определить финальный порядок результатов из разных корпусов в единой выдаче.
Входные данные:
Content Relevance Scores результатов поиска из разных корпусов.Выходные данные:
Normalized Scores (например, в диапазоне 0-1) для всех результатов.Normalized Scores.Процесс состоит из двух основных фаз: Офлайн-калибровка и Рантайм-смешивание.
Фаза А: Офлайн-калибровка и Генерация Маппинга
sample search queries) к различным корпусам (например, Веб, Новости).Фаза Б: Рантайм-смешивание (Blending)
Content Relevance Scores.Normalized Scores. Для каждой оценки определяется, в какой квантиль корпуса она попадает, и ей присваивается соответствующее значение из нормализованного диапазона.Normalized Scores.Патент фокусируется исключительно на обработке уже существующих оценок релевантности и не описывает, какие конкретные факторы (контентные, ссылочные, поведенческие и т.д.) используются для их генерации.
Content Relevance Scores. Это основные входные данные для Normalization Engine. Эти оценки генерируются отдельными системами ранжирования для каждого корпуса.Sample search queries. Используются в офлайн-процессе для калибровки системы путем генерации выборки оценок релевантности.Система вычисляет и использует следующие метрики для нормализации:
Content Relevance Scores для корпуса.Методы вычислений: Применение статистического метода – Квантильной Нормализации (Quantile Normalization).
Хотя патент носит инфраструктурный характер, он имеет важные стратегические последствия для SEO:
Normalized Score (например, 0.99) и будет иметь высокие шансы конкурировать с лучшими результатами из Веб-индекса в смешанной выдаче.Normalized Scores из каких корпусов выигрывают в процессе смешивания, и позволяет скорректировать контент-стратегию в пользу наиболее выигрышных форматов.Normalized Scores могут оказаться выше.Патент подтверждает, что Google рассматривает поиск как экосистему, состоящую из множества специализированных индексов (корпусов). Стратегическое значение заключается в понимании механизма, который позволяет этим индексам конкурировать за место на SERP. Долгосрочная SEO-стратегия должна быть мультиформатной и направленной на достижение максимальной релевантности (высшего процентиля) в наиболее подходящем для конкретного интента корпусе контента.
Сценарий: Ранжирование в смешанной выдаче по запросу [обзор нового смартфона]
Система получает результаты из трех корпусов. Предположим, офлайн-калибровка определила следующие распределения:
Normalized Score = 0.98.Normalized Score = 0.99.Normalized Score = 0.90.Результат смешивания:
Система сравнивает Normalized Scores. Видео от MKBHD (0.99) будет ранжироваться выше, чем обзор TechRadar (0.98), несмотря на то, что абсолютное значение исходной оценки (50 против 1500) сильно различается. Это происходит потому, что видео является более сильным результатом в контексте своего корпуса, чем веб-страница в своем.
Что такое квантильная нормализация и почему Google ее использует вместо простого масштабирования?
Квантильная нормализация – это статистический метод приведения различных распределений данных к общему виду путем сопоставления их квантилей (процентилей). Google использует ее, потому что она учитывает реальное распределение оценок в корпусе, которое часто нелинейно. Простое масштабирование (Min-Max) предполагает линейное распределение, что менее точно. Квантильная нормализация гарантирует, что только топ-1% результатов корпуса получит нормализованную оценку выше 0.99.
Означает ли этот патент, что абсолютные значения оценок релевантности не важны?
Да, при сравнении результатов между разными корпусами (например, Веб против Новостей) абсолютные значения не имеют значения. Важно только относительное положение результата (процентиль) в распределении оценок своего корпуса. Однако эти оценки по-прежнему определяют ранжирование внутри одного корпуса до этапа смешивания.
Как SEO-специалист может повлиять на Normalized Score своего контента?
Напрямую повлиять на процесс нормализации нельзя. Единственный способ повысить Normalized Score – это улучшать релевантность и качество контента, чтобы максимизировать исходную оценку релевантности внутри целевого корпуса (Веб, Видео или Новости). Чем выше процентиль вашего контента в его корпусе, тем выше будет итоговая нормализованная оценка.
Как система определяет, какие корпуса использовать для смешивания?
Этот патент не описывает процесс выбора корпусов (Triggering). Он описывает только то, как смешивать результаты, если система уже решила использовать несколько корпусов. Выбор корпусов обычно происходит на этапе Понимания Запросов (Query Understanding), где определяется интент пользователя и активируются релевантные вертикали поиска.
Насколько часто происходит перекалибровка диапазонов релевантности?
Патент (Claims 3 и 4) указывает, что обновление может происходить через «предопределенные временные интервалы» или «на основе изменений в различных коллекциях контента». Это предполагает регулярный автоматический процесс, гарантирующий актуальность маппингов, особенно после значительных обновлений алгоритмов ранжирования в одном из корпусов.
Применяется ли этот механизм для сравнения веб-страниц внутри одного веб-индекса?
Нет. Этот механизм предназначен исключительно для сравнения и смешивания (blending) контента из разных коллекций (корпусов). Для ранжирования результатов внутри одного корпуса используются стандартные алгоритмы ранжирования этого корпуса и их исходные (нативные) оценки релевантности.
Патент подробно описывает смешивание социального контента и модель затрат/выгод (Cost/Gain Model). Является ли это частью изобретения?
Эти концепции подробно описаны в основном тексте патента (Description) как примеры реализации смешивания, но они не включены в Формулу изобретения (Claims 1-19). Ядром защищенного изобретения является именно процесс статистической нормализации оценок. Социальное смешивание и модель затрат показывают, как Google предполагал использовать эту технологию для персонализации и управления разнообразием выдачи.
Как описание социальной приоритизации в патенте связано с E-E-A-T?
В описании (Description) патента упоминается категоризация источников: (1) Социальные контакты, (2) Эксперты/Знаменитости (много связей), (3) Публичный контент, с приоритетом 1 > 2 > 3. Хотя это не часть Claims, это демонстрирует раннюю реализацию приоритизации авторитетных сущностей (Категория 2) над общим контентом (Категория 3), что напрямую коррелирует с современными концепциями оценки Экспертизы и Авторитетности (E-E-A-T).
Как этот патент влияет на стратегию создания контента?
Он подчеркивает необходимость мультиформатной контент-стратегии. Если по запросу доминирует определенная вертикаль (например, Видео), это означает, что Normalized Scores из этого корпуса систематически выше. В таком случае для конкуренции необходимо создавать контент именно в этом формате и оптимизировать его для соответствующего вертикального индекса, стремясь попасть в высший процентиль.
Если я вижу, что новость ранжируется выше моей детальной статьи, значит ли это, что ее Normalized Score выше?
Да, в контексте смешанной выдачи это именно так. Это означает, что система определила, что новостной результат находится в более высоком процентиле релевантности внутри Новостного индекса, чем ваша статья внутри Веб-индекса, по крайней мере, для данного конкретного запроса. Это может быть связано с факторами свежести (QDF) или специфическими сигналами авторитетности в новостном контексте.

SERP

SERP
Поведенческие сигналы
Мультимедиа

Семантика и интент
Персонализация
SERP

SERP
Семантика и интент

Семантика и интент
SERP

SERP
Семантика и интент
EEAT и качество

Поведенческие сигналы
SERP
Антиспам

Семантика и интент
Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
Антиспам
SERP

Семантика и интент
Ссылки
Knowledge Graph

Антиспам
Ссылки
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент

Ссылки
EEAT и качество
SERP

Мультимедиа
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
EEAT и качество
