SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

VISUAL CITATIONS FOR INFORMATION PROVIDED IN RESPONSE TO MULTIMODAL QUERIES (Визуальные цитаты для информации, предоставляемой в ответ на мультимодальные запросы)
  • US20240378236A1
  • Google LLC
  • 2023-05-09
  • 2024-11-14
  • Мультимедиа
  • EEAT и качество
  • Ссылки
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

Описание

Какую проблему решает

Патент решает проблему верификации, точности и доверия к ответам, генерируемым поисковыми системами (в частности, с помощью LLM) в ответ на мультимодальные запросы (изображение + текст), например, в Google Lens или Circle to Search. Когда система предоставляет сгенерированный ответ, пользователю сложно оценить его достоверность. Изобретение внедряет Visual Citations (визуальные цитаты) — отображение исходных изображений, что позволяет пользователю быстро оценить релевантность источника. Также предлагается механизм итеративного уточнения ответа через обратную связь пользователя по этим цитатам.

Что запатентовано

Запатентована система обработки мультимодальных запросов, которая использует визуальное сходство для поиска информации и генерации обоснованных ответов. Система находит похожие изображения (Result Images), извлекает текст из их исходных документов (Source Documents) и использует Machine-Learned Language Model (LLM) для синтеза ответа. Ключевым элементом является представление ответа вместе с Result Images в виде кликабельных Attribution Elements (визуальных цитат). Пользователи могут исключать нерелевантные цитаты, что запускает повторную генерацию ответа LLM без использования контента из исключенных источников.

Как это работает

Система работает следующим образом:

  1. Мультимодальный ввод: Получение изображения (Query Image) и текстового запроса (Prompt).
  2. Визуальный поиск: Использование модели эмбеддингов (Embedding Model) для поиска визуально похожих Result Images.
  3. Извлечение контента: Извлечение текста (First Unit of Text) из Source Documents (веб-страниц), где размещены эти изображения.
  4. Генерация ответа (LLM): Обработка извлеченного текста и промпта с помощью LLM для создания сводного ответа (Derived Unit of Text).
  5. Визуальная атрибуция: Отображение ответа вместе с Result Images в качестве кликабельных визуальных цитат.
  6. Итеративное уточнение: Если пользователь отмечает изображение как нерелевантное, система удаляет текст его источника из входных данных и запускает повторную генерацию ответа LLM.

Актуальность для SEO

Крайне высокая. Патент подан в 2023 году и описывает технологии, лежащие в основе современных мультимодальных поисковых интерфейсов, таких как Google Lens и Circle to Search. Он напрямую связан с интеграцией генеративного ИИ в поиск и решением проблемы "заземления" (grounding) ответов LLM на конкретные источники с визуальным подтверждением.

Важность для SEO

Высокое влияние (8.5/10). Этот патент имеет стратегическое значение для SEO, поскольку он фундаментально меняет роль изображений в поиске. Изображения становятся не просто активом для Google Images, а точкой входа для информационного поиска и генерации ответов (RAG). Текстовый контекст, окружающий изображение на странице, становится критически важным для того, чтобы контент сайта использовался LLM в качестве источника для ответа в мультимодальной выдаче.

Детальный разбор

Термины и определения

Attribution Element / Selectable Attribution Element (Элемент атрибуции / Выбираемый элемент атрибуции)
Интерфейсный элемент, функционирующий как Visual Citation. Включает Result Image (или его миниатюру) и информацию, идентифицирующую Source Document (например, URL). Может быть выбран пользователем для исключения источника из процесса генерации.
Derived Unit of Text / Second Unit of Text (Производная / Вторая единица текста)
Сгенерированный ответ на запрос пользователя. Создается LLM на основе текста, извлеченного из одного или нескольких Source Documents. Может быть выдержкой, суммаризацией или синтезом информации.
Intermediate Representation (Промежуточное представление)
Результат обработки изображения моделью визуального поиска. В патенте это синоним эмбеддинга (Embedding). Используется для измерения визуального сходства.
Machine-Learned Language Model (LLM) (Машинно-обученная языковая модель)
Модель (например, большая языковая модель), используемая для обработки извлеченного текста и промпта с целью генерации ответа.
Machine-Learned Visual Search Model (Машинно-обученная модель визуального поиска)
Модель (часто Embedding Model), используемая для генерации Intermediate Representations изображений и поиска визуально похожих результатов.
Multimodal Query (Мультимодальный запрос)
Запрос, сформулированный с использованием нескольких типов данных. В контексте патента — это комбинация Query Image и Prompt.
Query Image (Изображение-запрос)
Изображение, предоставленное пользователем как часть мультимодального запроса.
Result Image (Результирующее изображение)
Изображение, найденное системой как визуально похожее на Query Image.
Source Document (Исходный документ)
Документ (веб-страница, статья, PDF и т.д.), который содержит Result Image и связанный с ним текст. Является источником информации для генерации ответа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод ответа на мультимодальный запрос с визуальной цитатой.

  1. Извлечение Result Image на основе сходства с Query Image.
  2. Получение первого блока текста (First Unit of Text) из Source Document, содержащего это изображение.
  3. Определение второго блока текста (ответ, Second Unit of Text) в ответ на Prompt. Ответ является либо частью первого блока, либо производным от него.
  4. Предоставление ответа и Result Image для отображения.

Claim 2 и 3 (Зависимые): Уточняют механизм поиска. Поиск осуществляется путем сравнения Intermediate Representations (эмбеддингов), сгенерированных с помощью Machine-Learned Visual Search Model.

Claim 8, 9, 10 (Зависимые): Уточняют механизм генерации. Ответ определяется с помощью Machine-Learned Language Model (LLM). Результатом может быть выдержка (subset) или суммаризация (summarization) исходного текста.

Claim 21 (Независимый пункт, Системный): Описывает систему, которая синтезирует ответ из нескольких источников.

  1. Извлекается множество Result Images на основе сходства эмбеддингов.
  2. Извлекаются соответствующие блоки текста из множества Source Documents.
  3. Набор текстовых входов (несколько блоков текста + промпт) обрабатывается LLM для получения единого ответа.
  4. Ответ и соответствующие Result Images предоставляются пользователю.

Claim 41 (Независимый пункт, Метод): Описывает механизм итеративного уточнения ответа (Feedback Loop).

  1. После генерации и отображения ответа (на основе нескольких источников) система получает информацию от пользователя о том, что первый Result Image визуально не похож на запрос.
  2. Система удаляет текст, связанный с источником этого изображения, из набора входных данных.
  3. Обновленный набор входов повторно обрабатывается LLM для получения уточненного ответа (Refined Language Output).
  4. Уточненный ответ предоставляется пользователю.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на интеграции визуального поиска и генерации ответов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует изображения, генерирует их эмбеддинги (Intermediate Representations) и сохраняет их в Image Search Space. Критически важно сохранение связи между изображением и его Source Document (включая текст документа) в Document Indexing Information.

QUNDERSTANDING – Понимание Запросов
Система получает и обрабатывает Multimodal Query, разделяя его на визуальный (Query Image) и текстовый (Prompt) компоненты.

RANKING – Ранжирование (Визуальный поиск)
На этапе отбора кандидатов (L1 Retrieval) Image Evaluation Module использует эмбеддинг Query Image для быстрого поиска визуально похожих Result Images.

METASEARCH / RERANKING (Генерация и Уточнение)
Основное применение патента происходит здесь. Это процесс генерации и смешивания ответа:

  1. Извлечение контента: Document Content Selection Module извлекает текст из источников, найденных на этапе Ranking.
  2. Генерация ответа: Text Determination Module (используя LLM) генерирует ответ.
  3. Смешивание (Blending): Система формирует интерфейс, объединяющий сгенерированный ответ и визуальные цитаты.
  4. Переранжирование (Refinement): Обработка обратной связи пользователя (Result Image Selection Information) и запуск регенерации ответа.

На что влияет

  • Конкретные типы контента и Ниши: Наибольшее влияние на контент, где визуальная составляющая является ключевой для идентификации: товары (e-commerce), природа, инструкции (how-to), искусство, путешествия, дизайн.
  • Специфические запросы: Влияет на информационные и коммерческие запросы, заданные через интерфейсы мультимодального поиска (Google Lens, Circle to Search).

Когда применяется

  • Триггеры активации (Основной процесс): Активируется при получении Multimodal Query (комбинации изображения и промпта).
  • Триггеры активации (Уточнение): Механизм уточнения активируется, когда пользователь взаимодействует с Selectable Attribution Element, чтобы указать на нерелевантность визуального источника.

Пошаговый алгоритм

Алгоритм разделен на две фазы: генерация первоначального ответа и итеративное уточнение.

Фаза 1: Генерация первоначального ответа (Время T1)

  1. Получение ввода: Система получает Query Image и Prompt.
  2. Генерация эмбеддинга: Query Image обрабатывается Machine-Learned Visual Search Model для создания эмбеддинга.
  3. Визуальный поиск: Эмбеддинг используется для поиска ближайших соседей в Image Search Space. Идентифицируется набор Result Images.
  4. Идентификация источников: Система определяет Source Documents для каждого Result Image.
  5. Извлечение текста: Document Content Selection Module извлекает релевантные блоки текста (Units of Text) из этих документов (например, текст, расположенный рядом с изображением).
  6. Генерация ответа (LLM): Text Determination Module обрабатывает набор текстовых входов (все извлеченные блоки текста + Prompt) с помощью LLM для создания ответа (Derived Unit of Text).
  7. Формирование интерфейса: Система генерирует Interface Data, включающие ответ и Selectable Attribution Elements (визуальные цитаты) для каждого источника.

Фаза 2: Итеративное уточнение (Время T2)

  1. Получение обратной связи: Система получает Result Image Selection Information, указывающее, что пользователь отклонил конкретный Selectable Attribution Element.
  2. Уточнение входов: Система удаляет блок текста, связанный с отклоненным источником, из набора текстовых входов.
  3. Регенерация ответа (LLM): Уточненный набор текстовых входов повторно обрабатывается LLM для генерации нового ответа (Second Derived Unit of Text).
  4. Обновление интерфейса: Новый ответ и оставшиеся визуальные цитаты предоставляются пользователю.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы (Изображения):
    • Query Image: Исходное изображение от пользователя.
    • Result Images: Индексированные изображения, найденные по визуальному сходству.
  • Контентные факторы (Текст):
    • Текстовый контент из Source Documents: Текст, извлеченный со страниц, где размещены Result Images. Система отдает приоритет тексту, релевантному изображению (например, расположенному рядом с ним).
  • Пользовательские факторы:
    • Prompt: Текстовый запрос пользователя.
    • Обратная связь: Взаимодействие пользователя с Selectable Attribution Elements для исключения источников.

Какие метрики используются и как они считаются

  • Визуальное сходство (Visual Similarity): Основная метрика для поиска изображений. Рассчитывается на основе сходства или расстояния между Intermediate Representations (эмбеддингами) в векторном пространстве.
  • Алгоритмы машинного обучения:
    • Machine-Learned Visual Search Model (Embedding Model): Используется для кодирования визуальной информации.
    • Machine-Learned Language Model (LLM): Используется для понимания промпта, анализа извлеченного текста и генерации/суммаризации ответа.
  • Методы анализа текста и Структурные факторы: Используются для определения того, какие части текста в Source Document релевантны изображению. Патент упоминает эвристики, основанные на структуре документа (например, выбор текста до и после изображения), или использование моделей для оценки релевантности.

Выводы

  1. Изображения как анкоря для поиска текстовой информации: Патент подтверждает сдвиг к мультимодальному поиску, где визуальное сходство используется как первичный механизм для поиска релевантной текстовой информации (RAG через визуальный поиск). Система полагается на предположение, что страница, содержащая визуально похожее изображение, содержит релевантный текст.
  2. Критичность текстового контекста изображения: Качество и релевантность сгенерированного ответа напрямую зависят от текста, который система извлекает из Source Document, особенно текста, расположенного вблизи изображения.
  3. LLM как механизм синтеза и суммаризации: LLM играют центральную роль в объединении информации из нескольких визуально подтвержденных источников для формирования ответа на промпт пользователя.
  4. Визуальные цитаты для "заземления" (Grounding) и доверия: Представление Result Images вместе с ответом служит для "заземления" ответа LLM и позволяет пользователям быстро верифицировать релевантность источников по визуальному сходству.
  5. Интерактивное уточнение ответа (Feedback Loop): Ключевая инновация — возможность пользователя напрямую влиять на корпус входных данных для LLM путем исключения нерелевантных визуальных источников, что запускает мгновенную регенерацию ответа.

Практика

Best practices (это мы делаем)

  • Оптимизация синергии Изображение-Текст: Это ключевая рекомендация. Убедитесь, что текст, физически окружающий изображение на странице (подписи, абзацы до и после), точно, подробно и ясно описывает то, что изображено. Этот текст является основным источником для LLM при генерации ответа в мультимодальном поиске.
  • Использование высококачественных и уникальных изображений: Используйте четкие, релевантные изображения, которые точно представляют объект или концепцию. Это повышает вероятность того, что изображение будет найдено через визуальный поиск и что пользователь подтвердит его релевантность как Visual Citation.
  • Стратегическое размещение изображений: Размещайте ключевые изображения в тех разделах документа, где содержится наиболее важная и авторитетная информация по теме. Например, размещайте изображение продукта рядом с его характеристиками и подробным описанием.
  • Повышение качества контента страницы (E-E-A-T): Поскольку LLM использует текст страницы для формирования ответа, общая авторитетность, точность и полнота контента на странице (Source Document) имеют решающее значение для качества сгенерированного ответа.

Worst practices (это делать не надо)

  • Использование стоковых фото без контекста: Размещение общих или декоративных стоковых фотографий, которые слабо связаны с основным содержанием страницы. Текст вокруг них не будет релевантен содержанию изображения, что снижает ценность страницы как источника для этой системы.
  • Несоответствие изображения и текста (Кликбейт): Использование привлекательных, но нерелевантных изображений. Если такое изображение появится как Visual Citation, пользователь, скорее всего, исключит его через механизм обратной связи, так как оно не соответствует его запросу или сгенерированному ответу.
  • Размещение важных изображений рядом с "тонким" контентом: Если качественное изображение окружено текстом низкого качества, спамом или неинформативным контентом, это ограничивает информацию, которую LLM может извлечь, или приводит к генерации низкокачественного ответа.
  • Размещение текста внутри изображения: Патент полагается на извлечение текста из документа (HTML), а не на распознавание текста на изображении (OCR) для генерации ответа.

Стратегическое значение

Этот патент сигнализирует о значительном сдвиге в сторону информационного поиска, основанного на визуальных данных. SEO-стратегии должны более тесно интегрировать оптимизацию изображений и контент-стратегию. Способность страницы отвечать на вопросы, связанные с ее изображениями, становится ключевым фактором ранжирования в ландшафте мультимодального поиска (Google Lens, Circle to Search). Это подчеркивает важность не только того, что вы показываете, но и того, что вы говорите об этом рядом с изображением.

Практические примеры

Сценарий: Оптимизация страницы товара E-commerce (Кроссовки)

  1. Действие: Вместо размещения всех фотографий кроссовок в верхней галерее, распределите детальные фотографии конкретных частей (например, подошвы, системы шнуровки) по тексту страницы.
  2. Реализация: Разместите фотографию подошвы непосредственно рядом с абзацем, подробно описывающим технологию амортизации (название пены, тип резины, рисунок протектора).
  3. Ожидаемый результат (по патенту): Пользователь делает фото подошвы кроссовка (Query Image) и спрашивает: "Какая технология амортизации здесь используется?" (Prompt).
  4. Работа системы: Google находит вашу фотографию подошвы как Result Image. Document Content Selection Module извлекает соседний абзац о технологии амортизации. LLM использует этот текст для генерации точного ответа. Ваша фотография отображается как Visual Citation со ссылкой на вашу страницу.

Вопросы и ответы

Что такое "Визуальная цитата" (Visual Citation) в контексте этого патента?

Это интерфейсный элемент (Attribution Element), который отображается рядом со сгенерированным ответом в мультимодальном поиске. Он включает миниатюру изображения (Result Image), которое было найдено как визуально похожее на запрос пользователя, и ссылку на исходную страницу (Source Document). Он служит для подтверждения того, откуда была взята информация для ответа.

Как работает механизм обратной связи (уточнения ответа)?

Визуальные цитаты являются кликабельными (Selectable Attribution Elements). Если пользователь видит, что одно из изображений-источников нерелевантно (например, показывает не тот объект), он может выбрать его для исключения. Система удаляет текст из этого источника из входных данных и мгновенно запускает повторную генерацию ответа LLM на основе оставшихся, более релевантных источников.

Какой текст со страницы Google извлекает для генерации ответа?

Патент не указывает точный метод, но упоминает, что извлекается текст из Source Document, связанный с изображением. Упоминаются эвристики, такие как выбор текста, расположенного до и после изображения на странице, или использование моделей для определения наиболее релевантных фрагментов текста.

Как это влияет на оптимизацию изображений (Image SEO)?

Это значительно повышает важность Image SEO. Теперь критически важно не только само изображение, но и его контекстуальное окружение на странице. Оптимизация должна фокусироваться на обеспечении максимального соответствия между тем, что показано на картинке, и тем, что написано в тексте рядом с ней.

Использует ли система традиционные факторы Image SEO (alt-text, filename)?

Патент не упоминает традиционные факторы, такие как alt-text. Основной акцент делается на визуальном сходстве, определяемом через эмбеддинги (Intermediate Representations), и на основном тексте Source Document. Однако традиционные факторы все еще могут влиять на базовое индексирование и ранжирование изображений.

Что важнее для SEO в контексте этого патента: качество страницы или качество сайта?

Качество сайта (Site Quality) является определяющим фактором в этом патенте. Именно классификация сайта как low-quality или high-quality запускает весь механизм или делает сайт бенефициаром этого механизма. Это подчеркивает важность работы над репутацией и авторитетностью всего домена.

Может ли система использовать несколько источников для одного ответа?

Да, патент (в частности, Claim 21) описывает процесс, при котором система находит несколько похожих изображений, извлекает текст из всех соответствующих источников и передает этот объединенный набор данных в LLM. Модель затем синтезирует или суммирует информацию из всех источников в единый ответ.

Влияет ли это на обычный текстовый поиск (SERP)?

Патент сфокусирован исключительно на мультимодальном поиске (например, Google Lens), где запрос инициируется изображением. Он не описывает применение этих механизмов в традиционной текстовой выдаче. Однако он отражает общую тенденцию Google использовать LLM для генерации ответов и важность их "заземления" на источники.

Что делать, если на моем сайте много стоковых фотографий?

Если стоковые фотографии используются как декоративные элементы и текст вокруг них не описывает их содержание, они вряд ли принесут пользу в этой системе. Рекомендуется заменить их уникальными, релевантными изображениями или убедиться, что текст рядом со стоковым фото точно описывает концепцию, которую оно иллюстрирует.

Как система определяет, что изображение визуально похожее?

Система использует Machine-Learned Visual Search Model для создания эмбеддингов (Intermediate Representations) для исходного изображения и индексированных изображений. Сходство определяется путем сравнения этих эмбеддингов в векторном пространстве (например, по расстоянию между ними).

Похожие патенты

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM
Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.
  • US20250061146A1
  • 2025-02-20
  • Мультимедиа

  • Семантика и интент

Как Google объединяет изображения и текст в мультимодальном поиске для уточнения визуальных запросов
Google использует модель уточнения запросов для мультимодального поиска (например, в Google Lens). Система принимает эмбеддинг исходного изображения и текстовое уточнение от пользователя. Модель генерирует новый, уточненный эмбеддинг изображения, который объединяет визуальные данные с текстовым интентом. Этот новый эмбеддинг используется для поиска релевантных изображений в общем пространстве эмбеддингов, позволяя пользователям итеративно уточнять визуальный поиск текстом.
  • US20240370487A1
  • 2024-11-07
  • Мультимедиа

  • Семантика и интент

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Популярные патенты

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)
Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.
  • US9165040B1
  • 2015-10-20
  • Ссылки

  • EEAT и качество

  • Антиспам

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)
Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.
  • US8898150B1
  • 2014-11-25
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей
Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.
  • US20250054045A1
  • 2025-02-13
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

seohardcore