Как Google использует каскадное ранжирование и автоматическое расширение запросов на основе анализа выдачи

Патент Google описывает архитектуру многоэтапного (каскадного) ранжирования. Система поэтапно применяет разные группы факторов (популярность, близость терминов, атрибуты текста, контекст) для повышения эффективности. Ключевой особенностью является двухпроходное выполнение запроса: система анализирует результаты первого прохода, автоматически расширяет запрос связанными терминами (Relevance Feedback) и выполняет его повторно для повышения релевантности.

Описание

Какую задачу решает

Патент решает фундаментальную проблему баланса между скоростью ответа и сложностью/качеством ранжирования в крупномасштабных поисковых системах. Применение сложных, ресурсоемких факторов ранжирования (например, анализ контекста, требующий частичной реконструкции документа) ко всему корпусу документов неэффективно. Изобретение предлагает архитектуру, позволяющую применять эти сложные факторы поэтапно и только к наиболее перспективным кандидатам. Также решается задача повышения релевантности за счет автоматического уточнения интента пользователя.

Что запатентовано

Запатентована система многоэтапной (каскадной) обработки запросов. Она использует последовательность процессоров (Query Processors), где каждый этап уточняет оценки релевантности (relevancy scores) предыдущего, добавляя новые, более сложные факторы. Ключевой особенностью является интеграция механизма обратной связи по релевантности (Relevance Feedback Module), который анализирует результаты первого прохода поиска, автоматически генерирует термины для расширения запроса (query expansion terms) и инициирует повторный проход (второй проход) для улучшения качества выдачи.

Как это работает

Система функционирует как конвейер ранжирования с обратной связью:

Первый проход (Pass 1): Исходный запрос проходит несколько стадий.
Стадия 1: Быстрый отбор по базовым факторам (например, частота термина, популярность документа). Оценка S1.
Стадии 2, 3, 4: Последовательное уточнение ранжирования с использованием более сложных сигналов: близость терминов (Proximity, S2), атрибуты текста (Attributes, например, заголовки, шрифт, S3) и контекст/сниппеты (Context, S4).
Обратная связь: Relevance Feedback Module анализирует топовые документы первого прохода.
Расширение запроса: Система автоматически генерирует новые термины и формирует расширенный запрос.
Второй проход (Pass 2): Расширенный запрос снова проходит через многоэтапную систему для получения финального, более релевантного набора результатов.

Актуальность для SEO

Высокая. Описанная архитектура каскадного ранжирования (L1, L2, L3) является фундаментальной для современных поисковых систем, позволяя балансировать скорость и качество. Изобретатели (Дин, Сингхал, Хаар) — ключевые архитекторы поиска Google. Автоматическое расширение и переписывание запросов для уточнения интента остаются центральными направлениями развития поиска.

Важность для SEO

Патент имеет высокое стратегическое значение. Он подтверждает, что разные группы факторов применяются на разных этапах отбора. Понимание этой последовательности критично для построения комплексной SEO-стратегии: необходимо обеспечить прохождение первичных фильтров (авторитетность/популярность), а затем максимизировать оценки на последующих этапах (структура, контекст). Механизм автоматического расширения запросов подчеркивает критическую важность создания семантически богатого контента, соответствующего тематическому консенсусу топовых документов.

Детальный разбор

Термины и определения

Attribute Table (Таблица атрибутов): Хранилище данных, содержащее закодированную информацию об атрибутах каждого токена в документе (например, шрифт, размер, позиция в документе – заголовок, основной текст, метаданные). Используется на Стадии 3.
Global Lexicon (Глобальный словарь): Словарь, который присваивает уникальный глобальный идентификатор (GTokenID) каждому уникальному токену во всем корпусе документов.
GTokenID (Global Token Identifier): Глобальный идентификатор токена.
LTokenID (Local Token Identifier): Локальный идентификатор токена, используемый для сжатого хранения в Tokenspace Repository. Имеет меньшую разрядность, чем GTokenID.
Mini-Lexicon (Мини-словарь): Локальный словарь, который обеспечивает соответствие между LTokenID и GTokenID для определенного диапазона позиций в корпусе документов. Используется для декодирования документов.
Multi-Stage Query Processing System (Многоэтапная система обработки запросов): Архитектура поиска (каскадное ранжирование), в которой ранжирование происходит в несколько последовательных стадий (например, L1, L2, L3), каждая из которых уточняет результаты предыдущей.
Proximity (Близость): Фактор ранжирования, учитывающий расстояние между терминами запроса в документе. Используется на Стадии 2.
Query Expander (Расширитель запросов): Компонент, который модифицирует исходный запрос, например, добавляя синонимы или термины, полученные от Relevance Feedback Module.
Relevance Feedback Module (Модуль обратной связи по релевантности): Компонент, который анализирует топовые результаты поиска первого прохода и генерирует новые термины для расширения запроса (query expansion terms) для второго прохода.
Relevancy Scores (S1, S2, S3, S4) (Оценки релевантности): Числовые оценки, генерируемые на каждой стадии ранжирования. Последующие оценки могут базироваться на предыдущих.
Tokenspace Inverse Index (Инвертированный индекс пространства токенов): Индекс, который сопоставляет GTokenID с их позициями в Tokenspace Repository.
Tokenspace Repository (Репозиторий пространства токенов): Сжатое хранилище корпуса документов, где документы представлены как последовательности токенов (обычно LTokenIDs).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод обработки запроса в многоэтапной системе с автоматическим расширением запроса.

Выполняется обработка запроса на первой стадии: извлечение идентификаторов документов (DocIDs) и генерация первого набора оценок релевантности (S1). Факторы для S1 (один или более): наличие терминов запроса, частота терминов (term frequency) и популярность документа (document popularity). S1 сохраняется.
Выполняется обработка запроса на второй стадии: генерация второго набора оценок релевантности (S2). Факторы для S2 (один или более): список позиций токенов, расстояния между терминами запроса в документах (distances between query terms), атрибуты токенов (attributes of tokens) и текст, окружающий термин запроса в документе. S2 сохраняется.
Генерируется упорядоченный список документов на основе S1 и S2.
Автоматическая генерация дополнительных терминов запроса (additional query terms) на основе документов из этого упорядоченного списка (Relevance Feedback).
Формулируется новый запрос (new query) с использованием этих дополнительных терминов.
Новый запрос обрабатывается для извлечения второго набора DocIDs и генерации третьего набора оценок релевантности (S3), основанного, по крайней мере частично, на дополнительных терминах.
Используя S3, выбирается набор топовых документов для представления пользователю.

Ядро изобретения — это комбинация многоэтапного ранжирования, где разные группы факторов применяются на разных этапах для эффективности, и автоматического цикла обратной связи, который использует результаты первичного ранжирования для расширения и повторного выполнения запроса.

Claim 3 (Зависимый от 1): Уточняет, что атрибуты токенов, используемые при расчете S2 (или на других стадиях, согласно общему описанию патента), могут включать атрибуты шрифта (font attributes).

Где и как применяется

Изобретение описывает фундаментальную архитектуру поисковой системы и затрагивает большинство этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе создается инфраструктура для многоэтапной системы:

Документы токенизируются и сжимаются в Tokenspace Repository с использованием Global Lexicon и Mini-Lexicons.
Создается Tokenspace Inverse Index.
Извлекаются и кодируются атрибуты токенов в Attribute Table.
Рассчитываются статические сигналы (например, document popularity).

QUNDERSTANDING – Понимание Запросов
Запрос парсится и преобразуется в GTokenIDs. Query Expander может расширять запрос. Ключевую роль играет взаимодействие с Relevance Feedback Module: система анализирует результаты первого прохода, чтобы лучше понять интент и сгенерировать расширенный запрос для второго прохода.

RANKING – Ранжирование
Это основная область применения патента, описывающая каскадное ранжирование (L1/L2/L3). Патент описывает 4 стадии (Stages), которые соответствуют этой модели:

Стадия 1 (L1/Retrieval): Быстрый отбор кандидатов. Оценка S1 (наличие терминов, частота, популярность).
Стадия 2 (L2/Lightweight Ranking): Уточнение ранжирования. Оценка S2 (близость терминов — Proximity).
Стадия 3 (L2/L3): Дальнейшее уточнение. Оценка S3 (атрибуты токенов — Attributes).

RERANKING – Переранжирование
Стадия 4 (L3/Deep Ranking): Финальная стадия. Оценка S4 (контекст — Context). Требует реконструкции частей документа для анализа окружающего текста и генерации сниппетов.

На что влияет

Патент описывает общую архитектуру ранжирования и применим ко всем типам документов и запросов в основном веб-поиске.

Когда применяется

Каскадное ранжирование (Стадии 1-4): Применяется при обработке практически каждого запроса, так как это основной конвейер ранжирования.
Механизм Relevance Feedback (Два прохода): Может применяться выборочно. Патент описывает этот модуль как опциональный. Он может активироваться для улучшения качества результатов. В одном из вариантов реализации первый проход может выполняться на образце (random sample) документов или на другом корпусе (например, логах запросов — set of query sessions), а второй — на основном индексе.

Пошаговый алгоритм

Процесс обработки запроса состоит из двух основных проходов.

Проход 1: Первичное ранжирование и сбор данных для расширения

Подготовка запроса: Запрос парсится, токены преобразуются в GTokenIDs. Query Expander может добавить базовые расширения.
Стадия 1 (Отбор и S1): Система использует Inverse Index. Генерируется оценка S1 на основе наличия терминов, частоты и популярности документа.
Стадия 2 (Близость и S2): Для лучших документов из Стадии 1 анализируются позиции терминов. Генерируется оценка S2 на основе близости (Proximity). Отбор Топ-X документов.
Стадия 3 (Атрибуты и S3): Для Топ-X документов система обращается к Attribute Table. Генерируется оценка S3 на основе атрибутов токенов (заголовки, шрифты). Отбор Топ-Y документов.
Стадия 4 (Контекст и S4): Для Топ-Y документов система реконструирует части документа из Tokenspace Repository. Генерируется оценка S4 на основе контекста. Могут генерироваться длинные сниппеты (long snippets). Отбор Топ-Z документов.
Анализ обратной связи: Relevance Feedback Module анализирует Топ-Z документов и их сниппеты для идентификации связанных терминов, отсутствующих в исходном запросе.
Генерация расширения: Модуль генерирует набор терминов для расширения запроса (query expansion terms) и, возможно, веса для них.

Проход 2: Ранжирование расширенного запроса

Переформулирование запроса: Query Expander формирует новый, расширенный запрос.
Многоэтапное ранжирование: Расширенный запрос снова проходит через Стадии 1-4. Оценки релевантности рассчитываются с учетом дополнительных терминов.
Финальная выдача: На Стадии 4 генерируются короткие сниппеты (short snippets) для отображения пользователю. Формируется финальный SERP.

Какие данные и как использует

Данные на входе

Патент явно указывает на использование следующих факторов в процессе ранжирования:

Контентные факторы: Наличие терминов запроса и частота терминов (term frequency) (Стадия 1). Текст, окружающий термин запроса (Context) (Стадия 4).
Структурные и Атрибутивные факторы (Attributes): Используются на Стадии 3. Данные хранятся в Attribute Table. Включают:
- Позиция в документе (например, title, heading, first paragraph).
- Визуальные атрибуты (например, bolded text, underlined text, font size, font attributes).
- Метаданные (metadata).
Сигналы авторитетности/популярности: Популярность документа (document popularity) используется на Стадии 1. Также упоминаются «importance» и «interconnectedness» как возможные факторы для Стадии 1.
Позиционные данные: Позиции токенов используются для расчета близости терминов (Proximity / distances between query terms) (Стадия 2).
Данные из корпуса/Логов: Relevance Feedback Module использует контент топовых документов. Также упоминается возможность использования корпуса предыдущих сессий запросов (set of query sessions) для поиска связанных терминов.

Какие метрики используются и как они считаются

Система использует каскад оценок релевантности (Relevancy Scores). Патент не приводит формул, но описывает факторы для каждого этапа.

S1: Базируется на наличии терминов, частоте и популярности.
S2: Базируется на близости терминов (Proximity).
S3: Базируется на атрибутах токенов (Attributes).
S4: Базируется на контексте (Context).

Агрегация данных: Указывается, что последующие оценки могут быть получены путем корректировки предыдущих оценок (например, S2 генерируется путем корректировки S1 на основе факторов Этапа 2).

Пороговые значения: Система использует пороги для отбора Top X, Y, Z документов на разных этапах.

Выводы

Подтверждение каскадного ранжирования (L1/L2/L3): Патент детально описывает архитектуру многоэтапного ранжирования. Это позволяет Google балансировать скорость и качество, применяя ресурсоемкие вычисления только к лучшим кандидатам.
Последовательность применения факторов: Патент четко определяет порядок: Базовая релевантность и Популярность (Стадия 1) -> Близость терминов (Стадия 2) -> Атрибуты и структура документа (Стадия 3) -> Контекст (Стадия 4).
Критичность начального этапа: Документ должен обладать достаточной авторитетностью (popularity) и базовой релевантностью, чтобы пройти Стадию 1. Если этого не происходит, качество контента и структуры (Стадии 2-4) оцениваться не будет.
Автоматическое расширение запросов через обратную связь (Relevance Feedback): Ключевой механизм улучшения качества — двухпроходное выполнение запроса. Google анализирует контент топовых результатов первого прохода, чтобы автоматически расширить запрос связанными терминами и выполнить его снова.
Явное использование атрибутов и структуры: Атрибуты (заголовки, выделение текста) и близость терминов явно используются как сигналы ранжирования на средних стадиях каскада (Стадии 2 и 3).

Практика

Best practices (это мы делаем)

Комплексная оптимизация под все стадии: Стратегия должна обеспечивать соответствие критериям на каждом этапе каскада:
1. Стадия 1: Высокая авторитетность/популярность сайта и базовая текстовая релевантность.
2. Стадия 2: Естественное использование ключевых фраз и близкое расположение связанных сущностей (Proximity).
3. Стадия 3: Четкая структура документа (H1-H6), логичное использование выделения текста (Attributes).
4. Стадия 4: Ясный контекст вокруг ключевых слов и контент, формирующий информативные сниппеты.
Семантическое обогащение контента (для Relevance Feedback): Создавайте контент, который полностью раскрывает тему и содержит релевантные связанные термины и сущности. Если ваш контент помогает Google идентифицировать качественные термины для расширения запроса во время первого прохода, это повышает вероятность высокого ранжирования по итогам второго прохода с расширенным запросом.
Оптимизация структуры и выделения (Attributes): Активно используйте заголовки (H1-H6) и выделяйте ключевые моменты (например, <strong>), так как эти атрибуты напрямую учитываются в ранжировании на Стадии 3.

Worst practices (это делать не надо)

Игнорирование авторитетности (Popularity): Фокусироваться только на контенте, игнорируя общую авторитетность сайта. Без достаточной популярности документ может быть отсеян на Стадии 1.
«Размывание» контента и хаотичная структура: Использование ключевых слов, разбросанных по тексту (плохо для Proximity, Стадия 2) или отсутствие логичной структуры заголовков (плохо для Attributes, Стадия 3).
Создание узкого контента без семантики: Контент, оптимизированный только под точное вхождение запроса и не содержащий связанных терминов. Он может потерять релевантность, если система через Relevance Feedback расширит запрос терминами, которых нет на странице.

Стратегическое значение

Патент подтверждает, что ранжирование — это конвейер. Стратегия SEO должна быть направлена на успешное прохождение всех этапов этого конвейера. Он также подчеркивает важность семантического SEO: система активно ищет связанные термины в топовых документах для улучшения своего понимания запроса. Стратегия должна быть направлена на создание контента, который становится источником знаний для системы Relevance Feedback.

Практические примеры

Сценарий 1: Оптимизация под автоматическое расширение запроса (Relevance Feedback)

Исходный запрос пользователя: «jaguar speed» (неоднозначный запрос).
Первый проход: Google выполняет поиск. Топовые результаты в основном посвящены животному ягуару.
Анализ (Relevance Feedback): Relevance Feedback Module анализирует эти результаты и обнаруживает часто встречающиеся термины: «animal», «running», «fastest», «mph», «prey».
Расширение запроса: Query Expander генерирует расширенный запрос, например: «(jaguar AND speed) AND (animal OR running OR mph)».
Второй проход: Google выполняет поиск по расширенному запросу.
Результат: Выдача становится более точной, фокусируясь на скорости животного и отфильтровывая результаты об автомобиле Jaguar.
Действие SEO: Если вы продвигаете страницу о скорости животного ягуара, убедитесь, что ваш контент содержит эти связанные термины (mph, running, animal), чтобы соответствовать расширенному запросу, который Google, вероятно, сгенерирует.

Сценарий 2: Оптимизация статьи для прохождения Stage 3 (Атрибуты)

Ситуация: Статья релевантна запросу и сайт авторитетен (проходит Stage 1 и 2), но уступает конкурентам в Топ-5.
Действия на основе патента: Анализируем использование атрибутов (Stage 3). Убеждаемся, что ключевые термины присутствуют в важных структурных элементах (H1, первые абзацы). Проверяем, что основные тезисы выделены с помощью списков или умеренного выделения (bold), что фиксируется в Attribute Table.
Ожидаемый результат: Улучшение оценки S3 за счет более сильных сигналов от атрибутов токенов, что приводит к повышению финального рейтинга.

Вопросы и ответы

Что такое каскадное ранжирование, описанное в патенте?

Это архитектура, разделяющая процесс ранжирования на последовательные этапы (L1, L2, L3). На первом этапе (L1) быстро отбирается большое число кандидатов с использованием простых сигналов. На последующих этапах (L2, L3) используются более сложные и дорогие вычисления, но они применяются к гораздо меньшему набору лучших кандидатов. Это обеспечивает баланс между скоростью и качеством.

Какие факторы используются на первой стадии ранжирования (Stage 1)?

Согласно патенту (Claim 1), на первой стадии используются базовые сигналы: присутствие терминов запроса в документе, частота терминов (term frequency) и популярность документа (document popularity). Это подчеркивает важность базовой текстовой релевантности и авторитетности для первичного отбора.

Что такое «Relevance Feedback Module» и как он работает?

Это компонент, который реализует автоматическое расширение запроса. Система выполняет поиск в два прохода. После первого прохода Relevance Feedback Module анализирует топовые результаты и идентифицирует связанные термины, часто встречающиеся в этих документах. Затем система автоматически расширяет исходный запрос этими терминами и выполняет поиск повторно (второй проход).

Какое значение имеет Relevance Feedback для SEO?

Это означает, что Google активно учится у контента, который уже ранжируется высоко, чтобы уточнить интент запроса. Для SEO крайне важно создавать тематически полный контент (Topical Authority), включающий связанные термины и концепции. Это повышает вероятность того, что ваш контент будет соответствовать автоматически расширенной версии запроса.

Подтверждает ли патент использование близости ключевых слов (Proximity) как фактора ранжирования?

Да, явно. Вторая стадия ранжирования (Stage 2) специально предназначена для расчета оценок на основе расстояния между терминами запроса в документе. Документы, где ключевые слова расположены ближе друг к другу, получают преимущество.

Как Google учитывает структуру документа (заголовки, выделение текста)?

Это происходит на третьей стадии (Stage 3) с использованием Attribute Table, где хранятся атрибуты каждого токена (расположение в Title/заголовке, форматирование, например, жирный шрифт). Наличие ключевых слов в важных структурных элементах повышает оценку релевантности на этом этапе. Это подтверждает важность семантической верстки.

На каком этапе происходит анализ контекста и генерация сниппетов?

Анализ контекста и генерация сниппетов происходят на последней стадии (Stage 4). Это ресурсоемкий процесс, так как он требует частичной реконструкции (декодирования) текста документа из сжатого хранилища (Tokenspace Repository). Поэтому он применяется только к лучшим кандидатам.

Что такое Tokenspace Repository?

Это инфраструктурный компонент. Это способ хранения всего корпуса документов в сильно сжатом формате, где текст заменен на идентификаторы токенов (LTokenIDs). Он позволяет Google быстро получать доступ к данным документа (позициям, атрибутам, тексту) на разных этапах ранжирования без необходимости хранить полный текст в оперативной памяти.

Может ли первый проход ранжирования выполняться не по основному веб-индексу?

Да. Патент упоминает, что в некоторых реализациях первый проход может использовать другой корпус данных, например, набор сессий запросов (set of query sessions) или случайную выборку документов (random sample). Это делается для быстрого определения связанных терминов для Relevance Feedback перед выполнением второго прохода по полному индексу.

Как этот патент связан с современными алгоритмами типа BERT или MUM?

BERT и MUM — это сложные модели для понимания языка. В контексте этой каскадной архитектуры, такие ресурсоемкие модели, скорее всего, будут применяться на поздних этапах ранжирования, например, на Этапе 4 (анализ контекста), где система анализирует реконструированный текст. Каскадная архитектура позволяет применять такие тяжелые модели выборочно и эффективно.