Как Google использует иерархическое извлекающее реферирование для переранжирования сложных запросов и генерации сниппетов

Google патентует метод улучшения ранжирования для сложных запросов. Вместо оценки одного лучшего пассажа система находит несколько релевантных предложений по всему документу, объединяет их в «извлекающую сводку» (Extractive Summary) и переранжирует документ на основе релевантности этой сводки. Это позволяет выше ранжировать страницы, где полный ответ распределен по тексту.

Описание

Какую задачу решает

Патент решает проблему неоптимального ранжирования при обработке сложных запросов (Complex Queries). Стандартные системы часто оценивают релевантность на основе одного наиболее подходящего фрагмента (top-scoring portion). Это неэффективно для запросов, ответ на которые распределен по разным разделам документа (имеет иерархическую структуру). В результате страницы с полным, но распределенным ответом могут ранжироваться ниже страниц с неполным ответом, сконцентрированным в одном абзаце. Кроме того, использование генеративных моделей (LLM) для суммаризации слишком медленно (сотни миллисекунд) для поиска в реальном времени.

Что запатентовано

Запатентована система иерархического извлекающего реферирования. Система генерирует извлекающую сводку (Extractive Summary), идентифицируя наиболее релевантные предложения из разных частей документа и объединяя их в порядке появления в тексте. Затем вычисляется новая оценка релевантности (Extractive Summary Relevance Score) для этой сводки, которая используется для переранжирования результатов поиска.

Как это работает

Система работает иерархически:

Идентификация разделов: Сначала определяются наиболее релевантные части документа (абзацы, пассажи).
Оценка предложений: Внутри этих разделов оценивается релевантность каждого предложения запросу.
Генерация сводки: Наиболее релевантные предложения объединяются (конкатенируются) в том порядке, в котором они встречаются в документе.
Оценка сводки и Переранжирование: Вычисляется релевантность полученной сводки запросу, и документы переупорядочиваются на основе этой новой оценки.

Для масштабирования и ускорения (до 3-5 мс) используется обученная модель машинного обучения (Extractive Summary Model), которая имитирует этот процесс.

Актуальность для SEO

Крайне высокая. Заявка подана в конце 2023 года и опубликована в 2025. Она решает актуальную задачу эффективной обработки сложных информационных запросов, занимая нишу между быстрым, но ограниченным ранжированием по пассажам и медленной, но глубокой генерацией ответов с помощью LLM. Это критически важно для улучшения качества поиска и формирования сниппетов.

Важность для SEO

Влияние на SEO высокое (8/10). Патент описывает конкретный механизм переранжирования для значительного сегмента запросов (Complex Queries). Он меняет подход к оценке контента: вместо фокуса на одном идеальном абзаце, система оценивает полноту ответа по всему документу. Это подчеркивает важность логичной структуры документа и комплексного раскрытия темы для ранжирования по информационным запросам.

Детальный разбор

Термины и определения

Complex Query (Сложный запрос): Запрос, ответ на который требует извлечения информации из ресурса и не может быть получен из репозитория фактов (например, Knowledge Graph). Пример: «Можно ли выращивать шафран дома?».
Distance Criterion (Критерий расстояния): Условие, используемое при конкатенации. Если два извлеченных предложения находятся далеко друг от друга в исходном тексте (в разных разделах или разделены большим количеством слов), система может вставить многоточие (…) между ними в сводке.
Extractive Summary (Извлекающая сводка): Сводка, созданная путем извлечения (копирования) предложений из исходного текста «как есть» и их конкатенации в порядке появления. Не является генеративной сводкой.
Extractive Summary Model (Модель извлекающего реферирования): Модель машинного обучения, обученная на данных, сгенерированных алгоритмическим методом. Используется для быстрого предсказания Extractive Summary Relevance Score и/или самой сводки в продакшене.
Extractive Summary Relevance Score (Оценка релевантности извлекающей сводки): Оценка, которая показывает, насколько сгенерированная сводка релевантна запросу. Используется для финального переранжирования. В Claims упоминается как second type of relevance score.
Hierarchical Structure (Иерархическая структура): Организация информации в документе. Система анализирует ее иерархически: Документ -> Фрагмент (Portion) -> Предложение (Sentence).
Top-scoring portion (Наиболее релевантный фрагмент): Отдельный фрагмент (например, абзац), который получил наивысшую оценку релевантности при стандартном ранжировании. Оценка этого фрагмента упоминается в Claims как first type of relevance score.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной алгоритмический процесс переранжирования.

Для каждого топового ресурса, отвечающего на сложный запрос:

Определяется оценка релевантности для предложений в релевантных частях ресурса.
Генерируется extractive summary путем конкатенации предложений с наивысшими оценками в порядке их появления в ресурсе.
Определяется extractive summary relevance score.

Ресурсы переранжируются на основе этих новых оценок.
Генерируется SERP.

Ключевой момент: переранжирование позволяет ресурсу с более низкой начальной оценкой (first relevance score) опередить ресурс с более высокой начальной оценкой, если его extractive summary relevance score оказался выше.

Claim 9 (Независимый пункт): Описывает реализацию с использованием обученной ML-модели (продакшн-вариант).

Система получает ресурсы, у которых уже есть первый тип оценки релевантности (основанный на лучшем фрагменте).
Для топовых ресурсов:

Запрос и контент ресурса подаются на вход extractive summary model.
Модель возвращает второй тип оценки релевантности. Эта модель обучена предсказывать оценку на основе извлекающей сводки (а не лучшего фрагмента) и отражает иерархическую структуру информации.

Ресурсы ранжируются на основе этого второго типа оценки.
Генерируется SERP.

Claims 7 и 8 (Зависимые): Детализируют генерацию сводки.

Если два предложения, выбранные для сводки, соответствуют критерию расстояния (Distance Criterion) — находятся в разных частях документа (Claim 8) или разделены большим количеством слов в одном фрагменте (Claim 7) — система добавляет многоточие (…) между ними.

Claim 13 (Независимый пункт): Описывает процесс обучения ML модели.

Алгоритмический процесс (из Claim 1) используется для генерации обучающих примеров (запрос, ресурс, сводка, оценка). Эти данные используются для обучения Extractive Summary Model (используемой в Claim 9).

Где и как применяется

Изобретение применяется на финальных этапах обработки запроса для улучшения качества выдачи по сложным запросам.

QUNDERSTANDING – Понимание Запросов
На этом этапе система должна классифицировать запрос как Complex Query. Это является триггером для активации механизма (Claim 11).

RANKING – Ранжирование (L2/L3)
На этом этапе генерируется начальный набор топовых ресурсов с использованием стандартных оценок (first type of relevance score), часто основанных на лучшем пассаже.

RERANKING – Переранжирование
Основное место применения патента. Система обрабатывает Топ-N результатов с этапа RANKING. Используется либо алгоритмический метод (Claim 1), либо быстрая ML-модель (Claim 9) для расчета second type of relevance score (Extractive Summary Relevance Score). Происходит пересортировка результатов.

METASEARCH – Метапоиск и Смешивание (SERP Features)
Сгенерированная Extractive Summary для наивысшего результата может быть использована непосредственно на странице выдачи (Claim 2), например, в качестве сниппета или Featured Snippet.

Входные данные:

Сложный запрос.
Набор Топ-N ресурсов с их контентом и начальными оценками.

Выходные данные:

Переранжированный список ресурсов на основе Extractive Summary Relevance Score.
Extractive Summary для топовых ресурсов.

На что влияет

Специфические запросы: В первую очередь влияет на сложные информационные запросы (Complex Queries), требующие синтеза информации: «как сделать X», «сравнение A и B». Меньше влияет на навигационные или простые фактографические запросы.
Типы контента: Наибольшее влияние на лонгриды, подробные руководства, аналитические статьи — контент, где ответ часто распределен по нескольким разделам.
Конкретные ниши: Влияет на все ниши, требующие глубокого раскрытия темы, включая YMYL, где полнота ответа критична.

Когда применяется

Триггеры активации: Система активируется, когда запрос идентифицирован как Complex Query.
Область применения: Применяется к предварительно отобранному набору топовых ресурсов (Топ-N).
Временные рамки: Процесс должен быть быстрым. Патент указывает цель в 3-5 мс для генерации сводки или менее 5 мс при использовании ML модели (Claim 10).

Пошаговый алгоритм

Патент описывает два основных пути работы: Путь А (Алгоритмический, используется для генерации обучающих данных) и Путь Б (На основе ML, используется в продакшене).

Путь А: Алгоритмический метод и генерация обучающих данных

Идентификация ресурсов: Получение списка топовых ресурсов.
Иерархический анализ (Цикл по ресурсам):

Идентификация фрагментов: Определение наиболее релевантных частей (portions) документа.
Оценка предложений: Расчет Sentence Relevance Score для каждого предложения в этих частях.
Выбор предложений: Отбор предложений с наивысшими оценками.
Генерация сводки (Конкатенация): Объединение выбранных предложений в Extractive Summary строго в порядке их появления в документе. Применение Distance Criterion (вставка многоточия, если предложения далеко друг от друга).
Оценка сводки: Расчет финальной Extractive Summary Relevance Score.

Генерация обучающих данных: Сохранение запроса, ресурса, сводки и оценки как обучающего примера.
Переранжирование: Сортировка ресурсов на основе новых оценок.
Обучение модели: Периодическое обучение Extractive Summary Model на собранных данных.

Путь Б: Использование ML-модели в продакшене (Inference)

Идентификация ресурсов: Получение списка топовых ресурсов.
Быстрая оценка (Цикл по ресурсам):

Вход модели: Подача запроса и контента ресурса в обученную Extractive Summary Model.
Выход модели: Модель быстро предсказывает Extractive Summary Relevance Score (и, опционально, саму сводку).

Переранжирование: Сортировка ресурсов на основе предсказанных оценок.
Формирование SERP: Использование предсказанной сводки для генерации сниппета.

Какие данные и как использует

Данные на входе

Контентные факторы: Полный текст документа используется для анализа.
Структурные факторы: Система должна понимать структуру документа: границы предложений и границы абзацев/фрагментов (для иерархического анализа и определения порядка появления). Патент указывает, что «предложением» может считаться также текст в строке таблицы или элемент списка.

Какие метрики используются и как они считаются

Система использует каскад метрик релевантности:

Portion Relevance Score (Оценка релевантности фрагмента): Метрика для предварительного отбора фрагментов для анализа.
Sentence Relevance Score (Оценка релевантности предложения): Метрика для оценки релевантности отдельного предложения внутри выбранного фрагмента.
Extractive Summary Relevance Score (Финальная оценка): Ключевая метрика для переранжирования, оценивающая релевантность всей сгенерированной сводки запросу.
Distance Criterion (Критерий расстояния): Порог (количество слов или нахождение в разных разделах), определяющий необходимость вставки многоточия.

Методы машинного обучения:

Используется контролируемое обучение. Extractive Summary Model обучается предсказывать результаты работы сложного алгоритмического процесса. Это позволяет заменить медленный алгоритм быстрой моделью в продакшене.

Выводы

Переход от однопассажной к многопассажной релевантности: Патент подтверждает, что для сложных запросов Google отходит от оценки релевантности по одному лучшему фрагменту. Система стремится оценить, насколько полно документ отвечает на запрос, анализируя информацию из разных его частей (Multi-Passage Understanding).
Приоритет скорости: Extractive vs. Generative: В контексте основного ранжирования скорость критична. Google считает генеративные модели (LLM) слишком медленными для этой задачи и предпочитает быстрые извлекающие (extractive) методы или оптимизированные ML-модели.
Важность структуры и логики повествования: Критически важно, что предложения объединяются в порядке их появления в документе для сохранения согласованности. Документы с четкой структурой и логичным изложением получают преимущество.
Гибридный подход к ML (Algorithm-to-Model): Описан эффективный конвейер: точный алгоритм используется для генерации высококачественных обучающих данных, которые затем используются для обучения быстрой и масштабируемой модели для продакшена.
Двойная роль суммаризации: Extractive Summary используется и как основа для расчета нового сигнала ранжирования, и как контент для сниппета (или Featured Snippet) в выдаче.

Практика

Best practices (это мы делаем)

Комплексное раскрытие темы (Comprehensiveness): При создании контента для сложных тем убедитесь, что вы полностью отвечаете на вопрос. Не бойтесь распределять ключевую информацию по разным разделам, если это логично. Система способна найти и объединить эти части.
Четкая структура и сегментация контента: Используйте логичную иерархию заголовков и ясные абзацы. Это помогает системе эффективно идентифицировать Relevant Portions и Sentences. Используйте списки и таблицы, так как они также анализируются.
Логическое течение информации (Information Flow): Убедитесь, что ваш документ логически последователен. Поскольку предложения извлекаются в порядке их появления, хорошо структурированный текст с большей вероятностью создаст согласованную и высококачественную Extractive Summary.
Формулирование четких и самодостаточных предложений: Каждое ключевое предложение должно быть информативным и понятным. Поскольку система извлекает отдельные предложения, они должны иметь высокий Sentence Relevance Score.

Worst practices (это делать не надо)

Создание «SEO-абзаца»: Попытка уместить все ответы в один переоптимизированный абзац для победы в Passage Ranking. Эта тактика становится менее эффективной для сложных запросов, так как система предпочтет более полный ответ, собранный со всей страницы.
Фрагментированный и несвязный контент: Создание контента, где мысли перескакивают, а ключевая информация разбросана хаотично. Нарушение порядка следования может привести к генерации бессмысленной сводки.
Поверхностный контент: Создание контента, который дает только частичный ответ на сложный запрос. Такие страницы будут проигрывать конкурентам, чьи экстрактивные сводки содержат более полную информацию.

Стратегическое значение

Этот патент является важным элементом эволюции поиска от ранжирования пассажей к глубокому пониманию иерархической структуры контента. Он демонстрирует, как Google масштабирует глубокий анализ контента для использования в реальном времени. Стратегически это означает, что качество информационной архитектуры и глубина проработки темы становятся ключевыми факторами успеха для информационного контента. Система стремится найти не просто релевантный текст, а полный и структурированный ответ.

Практические примеры

Сценарий: Оптимизация статьи о сложном заболевании (YMYL)

Запрос (Complex Query): «Ранние симптомы диабета 2 типа и методы диагностики».
Структура статьи (Хорошая реализация): Страница с четкой структурой. Раздел 1 посвящен симптомам, Раздел 2 – методам диагностики.
Работа системы:

Система идентифицирует оба раздела как Relevant Portions.
Из Раздела 1 извлекается предложение: «К ранним симптомам относятся постоянная жажда и частое мочеиспускание.» (Высокий Sentence Score).
Из Раздела 2 извлекается предложение: «Основным методом диагностики является анализ крови на гликированный гемоглобин (A1c).» (Высокий Sentence Score).
Генерация Extractive Summary: «К ранним симптомам относятся постоянная жажда и частое мочеиспускание. … Основным методом диагностики является анализ крови на гликированный гемоглобин (A1c).» (Многоточие добавлено, так как предложения из разных разделов).

Результат: Эта сводка получает высокую оценку Extractive Summary Relevance Score, так как отвечает на обе части запроса (симптомы и диагностика). Страница ранжируется выше, чем страница, подробно описывающая только симптомы.

Вопросы и ответы

Чем этот подход отличается от Passage Ranking (ранжирования по пассажам)?

Passage Ranking обычно оценивает релевантность одного лучшего фрагмента (top-scoring portion) и ранжирует документ на его основе. Описанный метод (Hierarchical Summarization) учитывает несколько релевантных предложений из разных фрагментов документа, объединяет их и ранжирует документ на основе этой совокупной информации (Extractive Summary).

Что такое «Сложный запрос» (Complex Query) в контексте этого патента?

Это запрос, на который нельзя ответить простым фактом из базы знаний (например, дата рождения или высота здания). Ответ требует извлечения и синтеза информации из веба. Примеры: «Как долго можно хранить мясо в морозилке?» или «Основные аргументы книги X».

Почему Google использует извлекающее (extractive) реферирование, а не генеративное (LLM)?

Патент явно указывает причину: скорость. Генеративные модели слишком медленные (сотни-тысячи миллисекунд на документ) для использования в реальном времени при обработке миллиардов запросов. Извлекающее реферирование, особенно при использовании ML-модели, нацелено на выполнение менее чем за 5 мс, что делает его масштабируемым.

Как требование объединять предложения «в порядке появления» влияет на SEO?

Это критически важно и означает, что документ должен иметь логичную структуру и естественное течение повествования. Если структура документа хаотична, итоговая сводка может оказаться бессвязной, что потенциально снизит ее оценку релевантности (Extractive Summary Relevance Score).

Что означает «иерархическое» в названии патента?

Это относится к методу анализа контента. Система работает иерархически: сначала она анализирует документ для поиска лучших фрагментов (первый уровень иерархии), а затем анализирует эти фрагменты для поиска лучших предложений (второй уровень иерархии). Это позволяет эффективно обрабатывать большие документы.

Влияет ли этот патент на генерацию Featured Snippets?

Да, напрямую. Сгенерированная Extractive Summary идеально подходит для использования в качестве контента для Featured Snippets, особенно для сложных вопросов. Она позволяет создать сниппет, который охватывает несколько аспектов запроса, извлекая информацию из разных частей страницы.

Что означает, что новая оценка релевантности имеет приоритет?

В патенте указано, что переранжирование на основе Extractive Summary Relevance Score может привести к тому, что документ с более низкой исходной оценкой займет более высокую позицию. Это значит, что если ваш документ дает полный ответ (высокая оценка сводки), он может обойти документ, у которого есть один сильный пассаж (высокая исходная оценка), но ответ неполный.

Как Google реализует этот механизм в реальном времени, если он такой сложный?

Для масштабирования используется машинное обучение. Google использует описанный сложный алгоритмический процесс для генерации обучающих данных, а затем тренирует быструю модель (Extractive Summary Model), которая выполняет ту же задачу за миллисекунды в продакшене.

Что такое «критерий расстояния» (Distance Criterion) и зачем он нужен?

Это правило, которое определяет, когда нужно вставлять эллипсис (…) между предложениями в сводке. Если два выбранных предложения в исходном тексте находятся далеко друг от друга (например, в разных параграфах или разделены большим количеством слов), эллипсис используется для индикации пропуска текста между ними.

Как SEO-специалисту оптимизировать контент под этот алгоритм?

Необходимо сосредоточиться на комплексном ответе на интент пользователя, обеспечивая логическую и последовательную структуру повествования. Важно формулировать четкие, информативные и самодостаточные предложения, содержащие ключевую информацию. Убедитесь, что ваш контент всесторонне отвечает на сложный запрос в разных разделах.