Патент Google, описывающий механизм сравнения результатов из разных индексов (Веб, Новости, Видео), имеющих разные шкалы оценок. Для этого используется статистическая нормализация на основе квантилей, что позволяет формировать смешанную выдачу (Universal Search). В описании патента также детализированы методы приоритизации контента на основе социальных связей и модель «Cost/Gain» для контроля разнообразия выдачи.
Описание
Какую задачу решает
Патент решает фундаментальную проблему Метапоиска (Universal Search): как справедливо сравнивать и ранжировать контент из разных коллекций (корпусов), если они используют разные алгоритмы и генерируют Relevance Scores в несопоставимых диапазонах (например, 1-2 для Новостей и 2-2000 для Веба). Без нормализации невозможно определить, какой результат более релевантен в смешанной выдаче. Дополнительно, в описании патента рассматриваются задачи приоритизации контента на основе социальных связей пользователя и контроля разнообразия (Diversity) смешанной выдачи.
Что запатентовано
Запатентована система и метод нормализации оценок релевантности из разных корпусов для их последующего смешивания. Ключевым механизмом является использование статистического распределения оценок (Distribution, гистограммы) для каждого корпуса. Это распределение делится на части (квантили или процентили), которые затем соотносятся с нормализованным диапазоном (например, 0-1). Также в патенте детально описаны (в Description) методы ранжирования на основе социальных категорий источников (Social Affinity) и модель «затраты/выгоды» (Cost/Gain Model) для управления плотностью смешивания.
Как это работает
Система работает в трех основных направлениях, описанных в патенте:
- Нормализация оценок (Normalization) (Запатентовано в Claims): Система анализирует распределение Relevance Scores для каждого корпуса (Web, News, Video и т.д.). Оценка нормализуется путем определения, в какой квантиль (процентиль) распределения она попадает, и присвоения соответствующего значения из нормализованного диапазона (0-1).
- Социальная категоризация (Social Ranking) (Описано в Description): Контент категоризируется на основе связи источника с пользователем (например: 1. Прямой контакт, 2. Авторитет/Публичная персона, 3. Нет связи). Контент от социально близких или авторитетных источников может получать повышение (boosting) в ранжировании.
- Модель Затраты/Выгоды (Cost/Gain Model) (Описано в Description): Для контроля разнообразия и плотности смешивания используется модель затрат. Поддерживается текущий счет (Running Score). Добавление каждого элемента имеет «стоимость» (Cost). Если добавление элемента превысит пороговое значение (Threshold), элемент не добавляется или пессимизируется.
Актуальность для SEO
Высокая. Механизмы нормализации критически важны для работы Universal Search, который является стандартом современной поисковой выдачи, объединяющей результаты из разных вертикалей. Модель Cost/Gain актуальна для управления разнообразием выдачи (Diversity). Принципы учета авторитетности и связей источника (описанные как социальная категоризация) остаются актуальными в контексте E-E-A-T и персонализации.
Важность для SEO
Патент имеет значительное влияние (7/10). Он описывает инфраструктуру, лежащую в основе Universal Search, и объясняет механизм сравнения релевантности между разными вертикалями. Для SEO-специалистов это означает, что для попадания в смешанную выдачу необходимо достичь очень высокого процентиля релевантности внутри своей вертикали (например, быть в топ-1% в поиске по Видео), чтобы конкурировать с результатами из основного Веб-индекса. Модель Cost/Gain влияет на структуру SERP и разнообразие форматов.
Детальный разбор
Термины и определения
- Corpus / Collection of Content (Корпус / Коллекция контента)
- Отдельный набор данных или индекс, например, Веб-контент, Новости, Блоги, Видео.
- Relevance Score (Оценка релевантности)
- Метрика, указывающая на релевантность контента запросу. Разные корпуса генерируют эти оценки в разных диапазонах.
- Normalization (Нормализация)
- Процесс преобразования Relevance Scores из разных корпусов в единую шкалу (Normalized Range, например 0-1) для обеспечения сопоставимости.
- Distribution / Histogram (Распределение / Гистограмма)
- Статистическое представление распределения Relevance Scores внутри одного корпуса.
- Quantiles / Percentiles (Квантили / Процентили) (В Claims используется термин «Subsets»)
- Сегменты, на которые делится распределение оценок. Используются для маппинга исходных оценок в нормализованный диапазон.
- Social Affinity (Социальная близость) (из Description)
- Метрика, определяющая силу связи между пользователем и другим объектом в социальном графе (Social Graph).
- Cost/Gain Model (Модель Затраты/Выгоды) (из Description)
- Механизм для управления плотностью и разнообразием смешанного контента, основанный на присвоении «стоимости» (Cost) добавлению элементов.
- Running Score / Content Score (Текущий счет) (из Description)
- Накопительная сумма стоимостей (Cost) добавленных элементов в сегменте выдачи. Сравнивается с порогом (Threshold).
Ключевые утверждения (Анализ Claims)
Важное замечание о структуре патента: Патент US9286357B1 является продолжением (Continuation) более ранней заявки. Его описание (Description) содержит детальное обсуждение трех механизмов: Нормализация, Социальное Ранжирование и модель Cost/Gain. Однако защищенные пункты (Claims 1-18) этого конкретного патента (US9286357B1) сосредоточены исключительно на механизме Нормализации.
Claim 1 (Независимый пункт): Описывает метод использования нормализованных оценок для смешивания результатов из разных коллекций.
- Система выполняет поиск по разным коллекциям контента (например, Корпус А и Корпус Б), где диапазоны оценок различаются.
- Определяется, где нормализованные оценки релевантности идентифицированного контента располагаются в Normalized Range.
- Ключевой механизм нормализации: Процесс включает (i) разделение распределения исходных (ненормализованных) оценок на первые подмножества (first subsets, т.е. квантили), и (ii) разделение нормализованного диапазона на вторые подмножества (second subsets).
- Первые подмножества сопоставляются (маппятся) со вторыми. Нормализованное значение определяется на основе того, в какое подмножество попадает исходная оценка.
- Контент ранжируется на основе его положения в Normalized Range и выводится пользователю.
Ядро изобретения — это нормализация на основе статистического распределения (квантилей), а не простое линейное масштабирование. Это обеспечивает сравнение относительной релевантности: результат в 95-м процентиле Корпуса А считается эквивалентным результату в 95-м процентиле Корпуса Б, независимо от их сырых оценок.
Claims 2 и 3 (Зависимые): Уточняют, что система адаптивна. Данные нормализации обновляются либо периодически (Claim 2), либо в ответ на изменения в контенте (Claim 3).
Анализ механизмов из Description (Не защищены в Claims этого патента):
Для полноты анализа документа необходимо рассмотреть механизмы, описанные в тексте патента, которые тесно связаны с процессом смешивания:
Социальное Ранжирование (Social Ranking): Система категоризирует источники контента на основе Social Graph пользователя. Упоминаются три категории: (1) Прямые социальные связи (Social Affinity), (2) Авторитеты/Знаменитости (много связей в графе), (3) Нет связи. Система корректирует ранжирование, предпочитая Категорию 1 над 2, и 2 над 3.
Модель Cost/Gain: Система контролирует добавление контента (например, публичного контента в социальную ленту или разных вертикалей в SERP) с помощью модели затрат. Добавление контента имеет Cost, который накапливается в Running Score. Если Running Score превышает Threshold, добавление блокируется или пессимизируется. Это механизм обеспечения разнообразия (Diversity).
Где и как применяется
Изобретение применяется на финальных этапах обработки запроса для объединения результатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе вычисляются исходные Relevance Scores для документов внутри каждого корпуса. Также здесь рассчитываются и индексируются данные о Social Affinity и авторитетности сущностей. Офлайн происходит анализ распределения оценок для калибровки нормализации.
RANKING – Ранжирование
Генерируются предварительные списки лучших кандидатов отдельно для каждой вертикали (корпуса) на основе их исходных Relevance Scores.
METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
Основная область применения патента. Normalization Engine активируется здесь.
- Нормализация: Исходные Relevance Scores из разных корпусов преобразуются в Normalized Scores с использованием предварительно рассчитанных распределений и квантилей.
- Сравнение (Cross-Corpus Relevance): Алгоритмы смешивания используют Normalized Scores для сравнения релевантности контента из разных корпусов.
- Управление плотностью: Модель Cost/Gain может применяться для контроля количества и расположения результатов разных типов в смешанной выдаче.
RERANKING – Переранжирование
Механизмы социальной категоризации могут применяться на этом этапе как твидлеры (Twiddlers) для повышения (boosting) контента от источников, с которыми у пользователя есть Social Affinity или которые классифицированы как авторитетные.
Входные данные:
- Списки результатов из разных корпусов с исходными Relevance Scores.
- Данные о распределении оценок (Гистограммы/Квантили) для каждого корпуса.
- (Опционально) Данные Social Graph и Social Affinity пользователя.
- (Опционально) Параметры модели Cost/Gain (стоимости и пороги).
Выходные данные:
- Единый смешанный список результатов (Blended List), отсортированный для финальной выдачи.
На что влияет
- Формирование Универсальной Выдачи (Universal Search): Напрямую влияет на то, когда и на какой позиции будут показаны блоки из вертикальных поисков (Новости, Картинки, Видео) среди основных веб-результатов.
- Персонализированный поиск и Ленты (Content Streams): Влияет на ранжирование в персонализированных лентах, где контент от авторитетных или социально близких источников может получать приоритет.
- Разнообразие выдачи (Diversity): Модель Cost/Gain влияет на разнообразие форматов и источников в SERP.
Когда применяется
- Нормализация: Активируется всегда, когда необходимо сравнить результаты из двух или более разных корпусов для формирования смешанной выдачи.
- Социальная категоризация: Активируется при обработке запросов, когда доступна информация о Social Graph пользователя или когда система оценивает авторитетность источников (на основе количества связей).
- Модель Cost/Gain: Активируется при смешивании контента для контроля разнообразия или ограничения плотности определенных типов результатов.
Пошаговый алгоритм
Процесс А: Генерация данных для нормализации (Офлайн или периодически)
- Сбор данных об оценках: Система выполняет выборочные поисковые запросы по разным корпусам (Web, News, Video и т.д.).
- Определение диапазонов и Генерация распределений: Идентифицируются границы Relevance Scores и строится распределение (например, гистограмма) для каждого корпуса.
- Определение квантилей: Распределение делится на части (квантили/процентили).
- Создание маппинга: Создается соответствие между квантилями исходного распределения и квантилями в Normalized Range (например, 0-1). Эти данные сохраняются.
- Обновление: Процесс повторяется периодически или при изменениях в корпусах (Claims 2, 3).
Процесс Б: Ранжирование и Смешивание (В реальном времени)
- Получение первичных результатов: Система генерирует наборы результатов из разных корпусов с исходными Relevance Scores.
- Нормализация оценок: Используя сохраненный маппинг (из Процесса А), система определяет, в какой квантиль попадает каждая исходная оценка, и присваивает ей Normalized Score.
- (Опционально) Категоризация и Бустинг (из Description):
- Идентификация связей пользователя или авторитетности источников контента.
- Категоризация контента (например: 1. Контакты, 2. Авторитеты, 3. Нет связи).
- Корректировка Normalized Scores (бустинг) для контента из приоритетных категорий.
- Смешивание (Blending) и Применение модели Cost/Gain (из Description):
- Результаты объединяются и сортируются по скорректированным Normalized Scores.
- Итеративное построение выдачи: Инициализация Running Score (например, 0) для сегмента выдачи.
- При рассмотрении следующего кандидата определяется его стоимость (Cost). Стоимость может увеличиваться, если предыдущий результат был того же типа.
- Стоимость добавляется к Running Score.
- Если новый Running Score превышает Threshold, элемент исключается или понижается для обеспечения разнообразия.
- Финальный вывод: Смешанный список предоставляется пользователю.
Какие данные и как использует
Данные на входе
- Системные данные: Relevance Scores, сгенерированные для документов в разных корпусах. Данные о диапазонах и статистических распределениях этих оценок (полученные в офлайн-процессе).
- Пользовательские и Социальные факторы (из Description): Данные Social Graph, определяющие связи между пользователем и сущностями (авторами, источниками). Метрики Social Affinity. Данные об авторитетности сущностей (например, количество связей в графе).
Какие метрики используются и как они считаются
- Распределение оценок (Distribution/Histogram): Статистический анализ диапазонов Relevance Scores для каждого корпуса.
- Квантили (Quantiles/Percentiles): Ключевой механизм нормализации. Определяется, в какой процентиль попадает данная оценка внутри своего корпуса.
- Normalized Score: Итоговая оценка в диапазоне 0-1, соответствующая квантилю исходной оценки.
- Cost (Стоимость) (из Description): Предопределенное или динамическое значение в модели Cost/Gain. Стоимость может варьироваться в зависимости от позиции в выдаче (выше позиция — выше стоимость) или последовательности (добавление нескольких однотипных элементов подряд увеличивает стоимость).
- Running Score (из Description): Накопительная сумма стоимостей (Cost) добавленных элементов.
- Threshold (Порог) (из Description): Максимально допустимое значение Running Score («бюджет» разнообразия).
Выводы
- Нормализация критична для Universal Search: Патент подтверждает, что Google не сравнивает сырые оценки из разных индексов. Для сравнения (например, Веб против Видео) используется сложный механизм нормализации.
- Использование статистических распределений (Квантилей): Ключевой вывод — нормализация основана на квантилях/процентилях. Важно не абсолютное значение оценки, а то, насколько она высока относительно других оценок в том же корпусе (относительная релевантность).
- Приоритет связей и авторитета (из Description): Система может активно повышать контент на основе категоризации источника. Приоритет отдается источникам, с которыми у пользователя есть Social Affinity, а также авторитетным источникам (связь с E-E-A-T).
- Управление разнообразием через «Стоимость» (Cost/Gain Model) (из Description): Google использует модель «затрат» для контроля разнообразия выдачи (Diversity). Это предотвращает доминирование одного типа контента, даже если он высоко релевантен, путем введения динамической «стоимости» за его показ.
Практика
Best practices (это мы делаем)
- Максимизация релевантности внутри вертикали: Поскольку нормализация основана на квантилях, цель SEO — попасть в наивысший процентиль внутри своего корпуса. Чтобы конкурировать в Universal Search, нужно быть лучшим результатом в своей вертикали (например, лучшим видео, лучшей новостью по теме).
- Специализированная оптимизация (Vertical SEO): Усиливайте оптимизацию контента для соответствующих вертикалей (Image SEO, Video SEO, Local SEO, News SEO). Понимание того, что эти результаты конкурируют за место в основной выдаче через нормализацию, подчеркивает их важность.
- Построение авторитета источника (E-E-A-T): Работа над построением авторитета сайта и авторов повышает вероятность классификации источника как авторитетного (аналог категории «Authorities/Celebrities» в описании патента) и получения потенциального бустинга при ранжировании.
- Создание разноформатного контента: Поскольку модель Cost/Gain (описанная в патенте) стремится обеспечить разнообразие форматов в SERP, создание высококачественного контента в разных форматах (текст, видео, изображения) увеличивает общие шансы на видимость в смешанной выдаче.
Worst practices (это делать не надо)
- Игнорирование вертикальной оптимизации: Рассчитывать только на текстовую оптимизацию веб-страницы недостаточно. Если по запросу предполагается смешанная выдача, неоптимизированный медиаконтент упустит возможность ранжироваться через соответствующие вертикали.
- Фокус только на одном типе контента: Если вся стратегия строится только на одном формате (например, только статьи), а SERP в нише смешанная, модель Cost/Gain может ограничивать количество ваших результатов в топе, отдавая предпочтение разнообразию форматов от конкурентов.
Стратегическое значение
Патент раскрывает технические основы Universal Search и демонстрирует, как Google решает задачу сравнения разнородного контента. Стратегически это подтверждает необходимость комплексного подхода к SEO, включающего оптимизацию всех активов компании для максимизации присутствия в смешанной выдаче. Модель Cost/Gain подчеркивает стремление Google к разнообразию (Diversity), что требует от SEO-специалистов анализа структуры SERP и адаптации контент-стратегии под разные форматы.
Практические примеры
Сценарий 1: Конкуренция в Universal Search (Нормализация)
- Задача: Попасть в основную выдачу по запросу «как приготовить лазанью».
- Анализ ситуации: Ожидается смешивание Веб-результатов (рецепты) и Видео.
- Применение патента: Google берет лучшие результаты из Веб-индекса и Видео-индекса. Система нормализует их оценки, определяя, какой результат попадает в высший квантиль в своем индексе.
- Лучшее Видео (98-й квантиль) -> Normalized Score 0.98.
- Лучший Веб-рецепт (95-й квантиль) -> Normalized Score 0.95.
- Результат: Видео может ранжироваться выше веб-страницы, так как его относительная релевантность в своем корпусе выше.
- Действия SEO: Необходимо создать видео, которое будет ранжироваться №1 в Видео-поиске, И лучшую веб-страницу, которая будет ранжироваться №1 в Веб-поиске, чтобы максимизировать шансы занять топ смешанной выдачи.
Сценарий 2: Управление разнообразием (Cost/Gain Model из Description)
- Ситуация: Формирование выдачи по новостному запросу. В топе много релевантных новостей из Корпуса Новостей. Threshold (бюджет) для сегмента = 10. Cost за одну новость = 3.
- Построение SERP:
- Позиция 1: Новость 1. Running Score = 3.
- Позиция 2: Новость 2. Running Score = 6.
- Позиция 3: Новость 3. Running Score = 9.
- Позиция 4: Рассматривается Новость 4. Новый Score будет 9 + 3 = 12. Это больше Threshold (10).
- Результат: Новость 4 не добавляется на Позицию 4. Система предпочтет добавить результат другого типа (например, Веб-результат или Видео), даже если его Normalized Score немного ниже, чтобы обеспечить разнообразие и не превысить бюджет.
Вопросы и ответы
Как Google сравнивает релевантность видео и веб-страницы, если у них разные шкалы оценок?
Google не сравнивает их исходные (сырые) оценки напрямую. Он использует статистическую нормализацию. Система определяет, насколько высока оценка результата относительно других результатов в том же индексе (например, попадает ли видео в Топ-5% или 95-й процентиль всех видео по этому запросу). Это относительное качество (процентиль) затем переводится на единую шкалу (например, 0-1). Финальное сравнение происходит на этой единой шкале (Normalized Score).
Что такое квантили (Quantiles) или процентили и как они используются в нормализации?
Квантили – это статистические сегменты распределения. Google анализирует все оценки релевантности в корпусе (например, Веб-индексе) и делит их на эти сегменты. Если ваша страница попадает в 90-й процентиль, это означает, что она лучше, чем 90% других результатов в этом корпусе. Вместо абсолютного значения оценки, Google использует номер процентиля для маппинга на нормализованную шкалу.
В патенте описаны Социальное Ранжирование и Модель Cost/Gain, но вы говорите, что они не защищены в Claims. Почему вы их анализируете?
Мы анализируем весь предоставленный документ. Хотя Claims (Формула изобретения) определяют ядро защищенного изобретения (в данном случае это Нормализация), Description (Описание) содержит важный контекст и связанные механизмы. Социальное ранжирование и Cost/Gain детально описаны в документе как часть процесса смешивания контента, поэтому их анализ необходим для полного понимания работы системы, даже если они не защищены именно этим патентом (US9286357B1).
Что такое модель «Cost/Gain» и зачем она нужна (на основе Description)?
Это механизм для обеспечения разнообразия выдачи (Diversity) и контроля плотности контента. Он предотвращает доминирование одного типа контента в SERP. Каждое добавление результата имеет «стоимость» (Cost). Система накапливает эту стоимость (Running Score) и сравнивает с «бюджетом» (Threshold). Если бюджет исчерпан, система прекращает добавлять этот тип контента в данный сегмент выдачи.
Как модель «Cost/Gain» влияет на SEO?
Она влияет на структуру SERP и подчеркивает важность разнообразия форматов. Если в выдаче уже много результатов определенного типа (например, видео), модель Cost/Gain может помешать еще одному видео попасть в топ, даже если оно релевантно. Это дает возможность контенту другого формата занять позицию, чтобы удовлетворить стремление системы к разнообразию.
Может ли стоимость (Cost) в модели Cost/Gain меняться?
Да. В описании патента указано, что стоимость может быть динамической. Она может зависеть от позиции (показ на первом месте «дороже») и от последовательности (показ второго однотипного элемента подряд стоит дороже первого). Это сделано для более гибкого управления разнообразием.
Влияют ли социальные сети или авторитетность автора на ранжирование согласно этому патенту (на основе Description)?
Да, в описании патента детально рассматривается категоризация источников. Контент разделяется на категории: (1) Прямые контакты пользователя (Social Affinity), (2) Авторитеты/Знаменитости (много связей в графе), (3) Прочие. Патент предполагает бустинг контента из приоритетных категорий (1 > 2 > 3). Это имеет прямое отношение к концепциям персонализации и E-E-A-T.
Как часто обновляются данные о распределении оценок для нормализации?
Патент указывает (Claims 2, 3), что обновление данных нормализации может происходить периодически (через заданные интервалы времени) или в ответ на изменения в коллекциях контента (например, после апдейта алгоритма ранжирования одной из вертикалей). Это офлайн-процесс.
Какова основная польза этого патента для SEO-стратегии?
Основная польза — понимание того, что конкуренция в Universal Search происходит между лучшими представителями разных вертикалей. Это требует стратегии комплексной оптимизации: чтобы занять место в основной выдаче через вертикальный поиск (например, Видео), ваш контент должен быть в топе (высшем квантиле) этой вертикали.
Как система определяет диапазоны и распределения оценок для разных индексов?
Это офлайн-процесс. Система периодически выполняет множество тестовых запросов к каждому корпусу или анализирует логи реальных запросов. На основе полученных ответов она анализирует минимальные и максимальные значения Relevance Scores и строит их статистическое распределение (гистограмму).