Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует контент сайтов для генерации AI-сводок (SGE) с помощью RAG и адаптирует их под контекст пользователя

    GENERATIVE SUMMARIES FOR SEARCH RESULTS (Генеративные сводки для результатов поиска)
    • US11886828B1
    • Google LLC
    • 2024-01-30
    • 2023-03-20
    2023 EEAT и качество SERP Индексация Патенты Google

    Этот патент описывает foundational-механизмы Search Generative Experience (SGE). Google генерирует AI-сводки, передавая контент из релевантных результатов поиска в Large Language Model (LLM) — техника, известная как Retrieval-Augmented Generation (RAG). Система также описывает, как эти сводки верифицируются, снабжаются ссылками на источники и адаптируются в реальном времени на основе контекста пользователя и его взаимодействия с выдачей.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает ключевые проблемы, связанные с использованием Large Language Models (LLM) в поиске. Во-первых, он устраняет риск генерации неточных или устаревших ответов («галлюцинаций»), обеспечивая привязку (grounding) ответа LLM к актуальному контенту из веба. Во-вторых, он решает проблему генерации универсальных ответов, которые не учитывают контекст пользователя или его уровень знаний (over-specified или under-specified ответы). Система направлена на создание точных, верифицируемых и персонализированных генеративных сводок.

    Что запатентовано

    Запатентована система генерации Natural Language (NL) based summaries (генеративных сводок, AI Overviews) в ответ на запрос путем обработки «дополнительного контента» с помощью LLM. Ключевым элементом является то, что этот дополнительный контент извлекается из релевантных документов результатов поиска (Search Result Documents, SRDs). Этот подход известен как Retrieval-Augmented Generation (RAG). Система также включает механизмы для верификации сводки, атрибуции источников (linkifying) и адаптации сводки на основе взаимодействия пользователя с результатами поиска.

    Как это работает

    Система работает по принципу RAG:

    • Отбор источников (Retrieval): В ответ на запрос система отбирает набор релевантных SRDs. Отбор учитывает не только прямую релевантность запросу, но и связанные запросы (related queries), недавние запросы (recent queries) и подразумеваемые запросы (implied queries).
    • Извлечение и Подготовка (Augmentation): Из отобранных SRDs извлекается контент (текст, данные изображений, видео). Этот контент объединяется в промпт для LLM. Промпт может также включать инструкции (например, «резюмируй») и контекст о пользователе (например, «предположим, пользователь уже знает X»).
    • Генерация (Generation): LLM обрабатывает промпт и генерирует сводку (NL based summary).
    • Верификация и Атрибуция: Система пытается подтвердить утверждения в сводке, сравнивая их с контентом источников, и добавляет ссылки (links) на подтверждающие SRDs.
    • Адаптация: Если пользователь взаимодействует с результатами поиска, система может сгенерировать пересмотренную сводку (revised NL based summary), учитывающую новую информацию, полученную пользователем.

    Актуальность для SEO

    Критически высокая. Патент описывает фундаментальные механизмы, лежащие в основе Google Search Generative Experience (SGE) / AI Overviews. Технологии RAG, верификации ответов LLM и итеративной адаптации генеративного контента являются центральными элементами современной стратегии Google по интеграции ИИ в поиск.

    Важность для SEO

    Патент имеет фундаментальное значение (10/10) для современной SEO-стратегии. Он описывает архитектуру SGE, которая радикально меняет вид поисковой выдачи и способы получения трафика. Понимание механизмов RAG, описанных в патенте, критично для оптимизации контента с целью его включения в качестве источника (grounding source) для AI-сводок, что становится ключевым фактором видимости в поиске.

    Детальный разбор

    Термины и определения

    Additional Content (Дополнительный контент)
    Контент, который обрабатывается LLM в дополнение к тексту самого запроса (или вместо него). Включает контент, извлеченный из SRDs, инструкции (например, «резюмируй»), а также контекстуальную информацию (например, указание на знакомство пользователя с определенной темой).
    Implied Query (Подразумеваемый запрос)
    Запрос, автоматически сгенерированный системой на основе контекста, данных профиля пользователя или его недавних действий, без прямого ввода пользователем.
    Linkifying (Снабжение ссылками)
    Процесс добавления гиперссылок к частям генеративной сводки, которые ведут на документы (SRDs), подтверждающие информацию в этой части сводки.
    LLM (Large Language Model, Большая языковая модель)
    Генеративная модель (например, PaLM, LaMDA), используемая для обработки входных данных (промпта) и генерации NL based summary.
    NL Based Summary (Сводка на естественном языке)
    Генеративный ответ (AI Overview, SGE), созданный LLM в ответ на запрос, основанный на обработке Additional Content.
    Query-dependent measures (Зависимые от запроса метрики)
    Метрики SRD, специфичные для текущего запроса (например, позиция в ранжировании по этому запросу, локальность, язык).
    Query-independent measures (Независимые от запроса метрики)
    Общие метрики качества и авторитетности SRD (например, trustworthiness measure, свежесть, общая популярность).
    RAG (Retrieval-Augmented Generation)
    Техника, при которой LLM генерирует ответ, используя информацию, предварительно извлеченную из базы данных или интернета (в данном случае из SRDs), для повышения точности и актуальности ответа.
    Revised NL Based Summary (Пересмотренная генеративная сводка)
    Обновленная версия сводки, сгенерированная после того, как пользователь взаимодействовал с результатами поиска. Генерируется на основе измененного ввода в LLM, отражающего это взаимодействие.
    SRD (Search Result Document, Документ результата поиска)
    Веб-страница или другой ресурс, идентифицированный поисковой системой как релевантный запросу (или связанному/недавнему/подразумеваемому запросу) и используемый как источник контента для LLM.
    User-dependent measures (Зависимые от пользователя метрики)
    Метрики SRD, основанные на профиле пользователя, его истории запросов или недавних взаимодействиях.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс генерации сводки (RAG в поиске).

    1. Система получает запрос.
    2. Отбирается набор документов результатов поиска (set of search result documents), которые релевантны запросу.
    3. Генерируется промпт (prompt), который включает: (i) контент, извлеченный из этих SRDs, И (ii) additional content (контент, который не является ни извлеченным контентом SRDs, ни самим запросом).
    4. Промпт обрабатывается с помощью LLM для генерации вывода (LLM output).
    5. На основе вывода LLM генерируется сводка на естественном языке (NL based summary).
    6. Сводка отображается пользователю.

    Ядро изобретения — это генерация ответа LLM на основе структурированного промпта, который включает как извлеченный веб-контент (RAG), так и дополнительные инструкции или контекст.

    Claim 2 (Зависимый от 1): Уточняет природу additional content.

    Additional content включает текст для резюмирования (summarization text), который запрашивает резюмирование контента, извлеченного из SRDs. Это подтверждает, что в промпт включаются инструкции для LLM.

    Claim 3 и 4 (Зависимые от 1): Описывают механизм персонализации на основе знаний пользователя.

    1. Система определяет, знаком ли пользователь с определенным контентом, релевантным запросу.
    2. Если ДА, то additional content в промпте включает текст, отражающий это знакомство (familiarity text).

    Это механизм для адаптации сложности и детализации сводки под конкретного пользователя.

    Claim 11 (Зависимый от 1): Уточняет типы контента, извлекаемого из SRDs.

    Контент, извлекаемый из SRD и включаемый в промпт, может включать текстовый контент, контент на основе изображений (image content) и/или контент на основе видео (video content).

    Claim 12 (Зависимый от 11): Уточняет image content.

    Image content может включать распознанный текст из изображения, автоматически сгенерированную подпись к изображению или описание объекта, обнаруженного на изображении. Это указывает на мультимодальную обработку источников.

    Claim 16 (Независимый пункт): Аналогичен Claim 1, описывает тот же процесс RAG с использованием веб-контента и дополнительного контента в промпте для генерации сводки.

    Где и как применяется

    Изобретение интегрировано на нескольких этапах поисковой архитектуры, формируя то, что известно как Search Generative Experience (SGE).

    INDEXING – Индексирование и извлечение признаков
    На этом этапе рассчитываются и сохраняются Query-independent measures для SRDs, такие как показатели достоверности (trustworthiness measure) и свежести, которые позже используются для отбора источников для RAG.

    RANKING – Ранжирование
    На этом этапе генерируется первичный набор релевантных SRDs для исходного запроса, а также для связанных, недавних и подразумеваемых запросов. Используются Query-dependent measures.

    METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
    Это основная фаза применения патента. Здесь происходит процесс Retrieval-Augmented Generation:

    1. Отбор финального набора SRDs: Из кандидатов, полученных на этапе RANKING, отбирается финальный набор для использования в качестве источников для LLM. При этом используются все типы метрик (Query-dependent, Query-independent, User-dependent).
    2. Генерация промпта: Извлечение контента (текст, данные изображений/видео) из SRDs и формирование промпта, включающего этот контент и Additional content (инструкции, контекст пользователя).
    3. LLM Обработка: Выполнение запроса к LLM.
    4. Постобработка: Верификация сгенерированной сводки, добавление ссылок (Linkifying) и расчет показателей уверенности (Confidence annotations).
    5. Смешивание: Интеграция сгенерированной сводки (SGE блока) в общую поисковую выдачу, потенциально вытесняя традиционные результаты.

    Входные данные:

    • Исходный запрос.
    • Наборы SRDs, релевантных исходному, связанным, недавним и подразумеваемым запросам.
    • Метрики SRDs (Query-dependent, Query-independent, User-dependent).
    • Данные профиля пользователя и контекст сессии (для определения знакомства с темой).

    Выходные данные:

    • Сгенерированная сводка (NL based summary) с атрибуцией источников (ссылками) и показателями уверенности.

    На что влияет

    • Типы контента и форматы: Влияет на все типы контента. Особое значение приобретает структурированный, легко извлекаемый и фактологический контент, который LLM может легко обработать и резюмировать. Патент явно упоминает использование текста, изображений и видео из источников.
    • Специфические запросы: Наибольшее влияние оказывается на информационные запросы, особенно сложные или многоаспектные запросы, требующие синтеза информации из нескольких источников.
    • Конкретные ниши: Влияет на все ниши, но критично в YMYL-тематиках, где точность и достоверность источников (trustworthiness) имеют первостепенное значение при отборе SRDs для RAG.

    Когда применяется

    Алгоритм применяется выборочно.

    • Триггеры активации: Патент (FIG. 5) описывает механизм выбора (LLM Selection Engine), который определяет, использовать ли генеративную модель (и какую именно) в ответ на запрос. Решение принимается на основе обработки запроса и/или релевантных SRDs с помощью классификаторов или правил.
    • Условия работы: Применяется, когда система может идентифицировать достаточный набор высококачественных и релевантных SRDs для формирования надежного промпта (RAG).
    • Исключения: Может не применяться, если система не уверена в качестве источников или если классификатор определяет, что генеративный ответ не требуется или нецелесообразен для данного запроса.

    Пошаговый алгоритм

    Основной процесс генерации сводки (RAG):

    1. Получение запроса.
    2. Выбор модели (Опционально): Определение, использовать ли LLM и какую модель (например, информационную или креативную).
    3. Отбор SRDs (Retrieval): Идентификация и выбор набора SRDs, релевантных запросу. Может включать отбор SRDs для связанных, недавних или подразумеваемых запросов. Отбор основан на Query-dependent, Query-independent и User-dependent метриках.
    4. Определение знакомства пользователя (Опционально): Анализ профиля пользователя для определения его знакомства с темой запроса.
    5. Генерация промпта (Augmentation):
      1. Извлечение контента (текст, данные изображений, видео) из отобранных SRDs. При необходимости контент может быть предварительно резюмирован.
      2. Формирование промпта, включающего извлеченный контент и Additional Content (например, инструкции по резюмированию и, если применимо, информацию о знакомстве пользователя с темой).
    6. Обработка LLM (Generation): Отправка промпта в LLM и получение вывода (LLM output).
    7. Формирование сводки: Создание NL based summary на основе вывода LLM.
    8. Верификация и Атрибуция (Linkifying):
      1. Выбор части сводки.
      2. Определение документа-кандидата для верификации.
      3. Сравнение части сводки с контентом документа (например, с помощью сравнения эмбеддингов).
      4. Если верификация успешна, добавление ссылки на документ к этой части сводки.
    9. Расчет уверенности (Опционально): Генерация confidence annotations для сводки или ее частей.
    10. Рендеринг: Отображение сводки пользователю, опционально вместе с традиционными результатами поиска.

    Процесс итеративного обновления:

    1. Мониторинг взаимодействия: Отслеживание взаимодействия пользователя (клики, dwell time) с отображенными SRDs.
    2. Генерация пересмотренного промпта: При обнаружении взаимодействия формирование нового промпта для LLM, который отражает это взаимодействие (например, «предположим, пользователь теперь знает [контент из просмотренного SRD]»).
    3. Генерация пересмотренной сводки: Обработка нового промпта LLM и генерация Revised NL Based Summary.
    4. Обновление интерфейса: Замена исходной сводки на пересмотренную.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст, извлеченный из SRDs. Это основной материал для RAG.
    • Мультимедиа факторы: Данные, основанные на изображениях (распознанный текст, автоподписи, описания объектов) и видео (транскрипции) из SRDs.
    • Факторы качества (Site Quality/E-E-A-T): Query-independent measures, в частности trustworthiness measure (мера достоверности) и freshness measure (мера свежести). Используются для отбора надежных источников для RAG.
    • Факторы релевантности: Query-dependent measures, такие как позиция в ранжировании, используются для отбора релевантных источников.
    • Пользовательские и Географические факторы: User-dependent measures (профиль пользователя, история взаимодействий) и locality measure (местоположение). Используются как для отбора SRDs, так и для адаптации промпта (определение знакомства пользователя с темой).
    • Технические факторы: URL источников используются для создания ссылок (linkifying).

    Какие метрики используются и как они считаются

    • Метрики отбора SRDs: Система использует комбинацию Query-dependent, Query-independent и User-dependent measures для выбора наилучшего набора источников для RAG. Конкретные формулы расчета этих метрик в патенте не приводятся, но указаны их типы (ранг, кликабельность, локальность, язык, достоверность, свежесть, популярность).
    • Метрики верификации (Distance Measure): Для подтверждения того, что SRD поддерживает утверждение в сводке, система сравнивает эмбеддинги. Рассчитывается мера расстояния (distance measure) между эмбеддингом части сводки и эмбеддингом контента документа. Если расстояние меньше порогового значения, верификация считается успешной.
    • Confidence Measure (Мера уверенности): Рассчитывается для частей сводки или для сводки в целом. Может основываться на показателях уверенности, возвращаемых самой LLM (LLM confidence measures), и/или на показателях достоверности документов-источников (document confidence measures).

    Выводы

    1. RAG — основа SGE: Патент подтверждает, что Google использует Retrieval-Augmented Generation для создания AI-сводок. Генерация ответов напрямую зависит от контента, который Google может найти и извлечь из веба. LLM не просто отвечает на запрос из своей базы знаний, а инструктируется резюмировать предоставленные веб-источники.
    2. Качество и Достоверность источников критичны: Для отбора источников (SRDs) используются Query-independent measures, включая trustworthiness. Чтобы контент сайта стал основой для SGE, он должен быть не только релевантным, но и происходить из источника, который Google считает надежным и авторитетным (E-E-A-T).
    3. Мультимодальность источников: Система извлекает и использует не только текст, но и контент, основанный на изображениях (подписи, распознанные объекты) и видео (транскрипции). Это подчеркивает важность оптимизации всех типов медиа.
    4. Верификация и Атрибуция (Linkifying): Google активно стремится подтверждать генеративный контент и предоставлять ссылки на источники. Механизм верификации основан на сравнении эмбеддингов, что требует семантического соответствия между контентом сайта и сгенерированной сводкой.
    5. Персонализация и Итеративность: SGE — это не статический блок. Система адаптирует сводки на основе предполагаемого уровня знаний пользователя (анализ профиля) и его действий во время текущей сессии (взаимодействие с результатами). Сводка может эволюционировать по мере того, как пользователь изучает тему.
    6. Извлекаемость контента: Контент должен быть структурирован так, чтобы система могла легко извлечь нужные фрагменты для включения в промпт LLM. Патент упоминает возможность предварительного резюмирования контента источника перед его включением в основной промпт.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под RAG (Стать источником): Сосредоточьтесь на создании контента, который может служить надежным источником для генеративных сводок. Это означает предоставление четких, фактических и полных ответов на запросы пользователей. Контент должен быть семантически богатым, чтобы обеспечить высокое сходство эмбеддингов при верификации.
    • Усиление E-E-A-T и Trustworthiness: Поскольку trustworthiness является критерием отбора источников для RAG, необходимо системно работать над повышением авторитетности и надежности сайта. Это включает экспертность контента, прозрачность источников и сильные сигналы бренда.
    • Структурирование для извлечения: Используйте четкую структуру документа, логичные заголовки, списки и таблицы. Предоставляйте краткие резюме или выделенные ответы в начале контента (Inverted Pyramid). Это облегчает системе извлечение нужных фрагментов для промпта LLM.
    • Мультимодальная оптимизация: Оптимизируйте изображения и видео. Убедитесь, что они сопровождаются релевантным текстовым контекстом (подписи, транскрипты, описания), так как система использует эти данные (image content, video content) в качестве входных данных для RAG.
    • Поддержка итеративного поиска: Понимайте путь пользователя. Поскольку сводки адаптируются по мере изучения темы пользователем, создавайте кластеры контента, которые поддерживают углубление в тему — от базовых обзоров до детальных руководств. Это повышает вероятность того, что ваш сайт будет использоваться на разных этапах генерации сводок.
    • Фокус на свежести контента: Поддерживайте актуальность контента, так как freshness также упоминается как критерий отбора SRDs.

    Worst practices (это делать не надо)

    • Создание «водянистого» или нечеткого контента: Контент, не содержащий конкретных фактов, данных или четких ответов, вряд ли будет использован в качестве источника для RAG или пройдет верификацию.
    • Игнорирование сигналов надежности (Trust Signals): Сайты с низким уровнем E-E-A-T будут отфильтрованы на этапе отбора источников для RAG, даже если их контент релевантен.
    • Сложная верстка и блокировка извлечения: Использование нестандартной структуры или скриптов, которые затрудняют парсинг и извлечение основного контента, снижает вероятность использования сайта в SGE.
    • Публикация непроверяемых утверждений: Утверждения, которые не могут быть легко верифицированы, не получат атрибуции (ссылки) в сводке, даже если они были использованы при генерации.

    Стратегическое значение

    Этот патент описывает архитектуру будущего поиска Google. SGE становится основным интерфейсом взаимодействия пользователя с поиском. Стратегический приоритет смещается от достижения ТОП-1 в «синих ссылках» к тому, чтобы стать цитируемым источником в генеративной сводке. Это требует переосмысления контент-стратегии в пользу глубины, точности, извлекаемости и абсолютной надежности контента. Технология RAG делает Google зависимым от качественного веб-контента, но также дает ему полный контроль над тем, как этот контент представляется пользователю.

    Практические примеры

    Сценарий: Оптимизация статьи для включения в SGE по запросу «Как выбрать треккинговые ботинки»

    1. Анализ Интента и Структура (RAG-ready): Вместо длинного вступления сразу предоставить ключевые факторы выбора (посадка, материал, подошва, водонепроницаемость). Использовать четкие заголовки H2 для каждого фактора.
    2. Контент (Извлекаемость): В разделе «Водонепроницаемость» четко описать разницу между Gore-Tex и собственными мембранами брендов, указав плюсы и минусы. LLM должен иметь возможность извлечь это сравнение.
    3. Мультимодальность: Добавить изображение с анатомией треккингового ботинка и обеспечить его четкое текстовое описание (подпись или окружающий текст), которое система сможет использовать как image content.
    4. E-E-A-T (Trustworthiness): Указать автора статьи — эксперта по походному снаряжению, добавить его биографию и ссылки на другие авторитетные публикации.
    5. Ожидаемый результат: При генерации SGE система отбирает статью как надежный источник (trustworthy SRD), извлекает сравнение мембран и включает его в сводку. При верификации система подтверждает соответствие и добавляет ссылку (linkifying) на статью рядом с этим утверждением.

    Вопросы и ответы

    Что такое RAG (Retrieval-Augmented Generation) в контексте этого патента и SGE?

    RAG — это процесс, при котором Google не просто просит LLM ответить на запрос пользователя. Вместо этого Google сначала находит релевантные веб-страницы (SRDs), извлекает из них контент, помещает этот контент в промпт и просит LLM сгенерировать ответ, основываясь на предоставленной информации. Это обеспечивает актуальность и точность ответа.

    Как Google выбирает сайты, которые будут использоваться в качестве источников для SGE?

    Патент указывает, что отбор SRDs основан на трех типах метрик: Query-dependent (релевантность, ранг), Query-independent (достоверность, свежесть, авторитетность сайта) и User-dependent (персонализация). Критически важно иметь высокие показатели trustworthiness (E-E-A-T), чтобы пройти отбор.

    Как работает механизм верификации и почему мой сайт может не получить ссылку в SGE?

    Система пытается подтвердить каждое утверждение в сгенерированной сводке, сравнивая его с контентом источников. Это сравнение часто происходит путем оценки семантической близости (расстояния между эмбеддингами) утверждения и контента источника. Если ваш контент сформулирован нечетко или семантически далек от того, как LLM сформулировала сводку, верификация может не пройти, и ссылка не будет добавлена.

    Использует ли Google только текст для генерации SGE?

    Нет. Патент явно указывает на извлечение и использование image content (подписи, распознанные объекты, текст на картинке) и video content (транскрипции). Это подчеркивает важность мультимодальной оптимизации контента для SGE.

    Является ли SGE персонализированным?

    Да, патент описывает два механизма персонализации. Во-первых, система может оценить знакомство пользователя с темой на основе его профиля и адаптировать промпт для LLM. Во-вторых, сводка может обновляться итеративно (Revised NL Based Summary) в течение сессии, если пользователь взаимодействует с результатами поиска.

    Что такое «Additional Content» в промпте LLM?

    Это ключевой термин патента. Additional Content — это все, что добавляется в промпт помимо контента, извлеченного из SRDs. Сюда входят инструкции для LLM (например, «Резюмируй это») и контекстуальная информация (например, «Предположим, пользователь уже знает основы SEO»).

    Может ли Google вообще не показать SGE по моему запросу?

    Да. Патент включает механизм (FIG. 5), который определяет, следует ли вообще использовать генеративную модель для ответа на запрос. Если система не уверена в качестве источников или считает генеративный ответ нецелесообразным, SGE может не отображаться.

    Как оптимизировать контент, чтобы он легче извлекался для RAG?

    Необходимо использовать четкую семантическую структуру, логичные заголовки и предоставлять фактическую информацию в легко обрабатываемом формате (списки, таблицы, краткие абзацы). Патент упоминает, что система может предварительно резюмировать контент источника, если он слишком большой, поэтому ясность и концентрация информации важны.

    Что означает итеративное обновление сводки (Revised NL Based Summary)?

    Это означает, что если пользователь кликнул на один из результатов поиска и изучил его, Google может обновить исходную сводку SGE. Новая сводка будет учитывать, что пользователь уже получил определенную информацию, и может предложить более глубокие или дополнительные сведения по теме.

    Какова главная стратегическая задача SEO в свете этого патента?

    Главная задача смещается от ранжирования в традиционной выдаче к тому, чтобы стать надежным, авторитетным и легко извлекаемым источником информации, который Google выберет для использования в RAG-процессе и на который сошлется в генеративной сводке SGE.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.