SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM

IMAGE QUERY PROCESSING USING LARGE LANGUAGE MODELS (Обработка запросов с изображениями с использованием больших языковых моделей)
  • US20250061146A1
  • Google LLC
  • 2024-08-13
  • 2025-02-20
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.

Описание

Какую проблему решает

Патент решает фундаментальное ограничение стандартных Больших Языковых Моделей (LLM), которые традиционно могут принимать на вход только последовательность токенов (текст) и не способны напрямую обрабатывать визуальные данные. Это не позволяет пользователям эффективно задавать вопросы об изображениях в диалоговых приложениях или мультимодальном поиске. Изобретение создает механизм, позволяющий LLM отвечать на запросы, включающие изображения (multimodal queries), без необходимости изменения архитектуры самой LLM.

Что запатентовано

Запатентована система оркестрации, которая преобразует визуальный контент в структурированные текстовые сигналы для использования в качестве контекста LLM. Это достигается двумя основными способами: 1) использованием вспомогательных моделей анализа изображений (auxiliary image processing models) и 2) выполнением поиска по изображению (image search engines) с последующим извлечением текста из найденных веб-ресурсов. Эти сигналы внедряются в текстовый промт, позволяя LLM учитывать визуальный контекст.

Как это работает

Система работает как посредник, используя два основных сценария (или их комбинацию) для «текстуализации» изображения:

  1. Анализ на основе моделей: Текстовый запрос уточняется (Explication Model). Затем Unimodal Models (распознавание объектов/сущностей, OCR) и Multimodal Models (например, VQA - Visual Question Answering) анализируют изображение. Результаты анализа (текстовые дескрипторы) включаются в промт для LLM.
  2. Анализ на основе поиска: Система выполняет обратный поиск по изображению, находит веб-ресурсы с похожими картинками и извлекает текст (подписи, окружающий контент) из этих ресурсов. Этот текст используется в качестве контекста в промте для LLM.

Модуль Prompt Preparation объединяет все данные в финальный промт.

Актуальность для SEO

Критически высокая. Мультимодальный поиск (Google Lens, Circle to Search) и интеграция визуального контекста в генеративные ответы (SGE, Gemini) являются стратегическим направлением развития Google в 2025 году. Этот патент описывает базовую архитектуру, позволяющую текстовым LLM гибко и масштабируемо работать с изображениями.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он детально раскрывает, как Google интерпретирует визуальный контент, подчеркивая критическую роль веб-контекста. Метод 2 (использование обратного поиска и извлечение текста с веб-страниц) доказывает, что текст, окружающий изображение в интернете, напрямую используется для информирования LLM. Это делает оптимизацию контекста изображений на сайте критически важной для успеха в мультимодальном поиске.

Детальный разбор

Термины и определения

Explication Model (Модель Экспликации)
Модель (часто LLM), которая преобразует неявные (implicit) текстовые запросы в явные (explicit). Например, преобразует "Что это?" в "Что за объект на картинке?", используя контекст диалога. Необходима, так как мультимодальные модели лучше работают с прямыми вопросами.
LLM (Large Language Model / Большая Языковая Модель)
Генеративная модель (например, PaLM, LaMDA), используемая для обработки обогащенного промта и генерации финального ответа. Также может использоваться как Explication Model.
Multimodal Image Model (Мультимодальная Модель Изображений)
Модель, принимающая на вход изображение и текст. Используется для генерации NL descriptors, релевантных текстовому запросу. Основной пример — VQA.
NL Descriptors (Natural Language Descriptors)
Текстовые описания свойств изображения, сгенерированные мультимодальными моделями в ответ на явный запрос.
Prompt Preparation (Подготовка Промпта)
Модуль, который агрегирует все извлеченные текстовые сигналы (от моделей, из поиска, историю диалога) и формирует единый структурированный текстовый промт для LLM.
Text Extracts (Текстовые Выдержки)
Текст, извлеченный из веб-ресурсов, найденных через обратный поиск по изображению. Включает текст веб-страниц, подписи к изображениям, теги и метаданные.
Unimodal Image Model (Унимодальная Модель Изображений)
Модель, принимающая на вход только изображение. Используется для определения свойств, не зависящих от запроса (Query Independent Properties). Примеры: Object Detection, Captioning, Entity Recognition, OCR.
VQA (Visual Question Answering)
Тип Multimodal Image Model, который отвечает на целевые вопросы по входному изображению.

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых пункта (Claim 1 и Claim 17), описывающих два разных метода обработки запросов с изображениями, которые могут комбинироваться.

Claim 1 (Независимый пункт) – Метод 1: Использование моделей анализа изображений.

  1. Система получает мультимодальный запрос (Изображение + Текст с неявными вопросами).
  2. Explication Model генерирует явные (explicit) текстовые запросы.
  3. Multimodal Image Processing Model (например, VQA) обрабатывает Изображение и Явный запрос для генерации текстовых дескрипторов (natural language descriptors).
  4. Генерируется входной промт для LLM на основе этих дескрипторов.
  5. LLM генерирует ответ.

Ядро: Преобразование визуально-текстового запроса в чисто текстовый контекст с помощью специализированных моделей.

Claim 4 (Зависимый от 1): Уточняет, что система также использует Unimodal Image Processing Models для генерации свойств, не зависящих от запроса (например, распознанных сущностей), которые также добавляются в промт LLM.

Claim 17 (Независимый пункт) – Метод 2: Использование поиска по изображениям.

  1. Система получает запрос с изображением.
  2. Генерируется запрос на поиск изображения (image search request), например, обратный поиск.
  3. Система получает ответ от поисковой системы, содержащий веб-ресурсы с релевантными (похожими) изображениями.
  4. Из этих веб-ресурсов извлекаются текстовые фрагменты (text extracts).
  5. Генерируется входной промт для LLM на основе этих текстовых фрагментов.
  6. LLM генерирует ответ.

Ядро: Использование внешнего веб-контекста (текста, окружающего похожие изображения в интернете) для формирования контекста для LLM.

Claim 18 (Зависимый от 17): Уточняет, что text extracts могут включать текст веб-страниц, подписи (captions), теги и метаданные изображений.

Claim 9 (Зависимый от 1): Описывает комбинацию методов. Система может использовать результаты анализа моделей (из Claim 1) и результаты поиска (из Claim 17) для генерации промта LLM.

Где и как применяется

Изобретение является инфраструктурным и в первую очередь относится к этапу понимания запросов в контексте мультимодального поиска (Google Lens) или диалоговых систем (Gemini).

INDEXING – Индексирование и извлечение признаков
Система полагается на проиндексированные данные. Для Метода 2 необходим индекс изображений и связанных веб-страниц, позволяющий выполнять обратный поиск и извлекать текст.

QUNDERSTANDING – Понимание Запросов
Основной этап применения. Система анализирует мультимодальный ввод и преобразует его в чисто текстовое представление (обогащенный промт) для LLM. Это включает:

  • Экспликация запроса: Уточнение интента с помощью Explication Model.
  • Визуальный анализ (Метод 1): Извлечение семантики с помощью Unimodal и Multimodal Models.
  • Контекстуализация через веб (Метод 2): Использование Search Engine для поиска связанного веб-контекста и извлечения Text Extracts.

RANKING / METASEARCH (Генерация ответа)
Prompt Preparation действует как механизм агрегации различных сигналов. Финальная LLM использует этот агрегированный промт для генерации ответа пользователю (например, в SGE или чат-боте).

Входные данные:

  • Исходный мультимодальный запрос (Изображение и Текст).
  • История диалога (для контекста).

Выходные данные:

  • Финальный ответ LLM пользователю (текст).

На что влияет

  • Конкретные типы контента: Критически влияет на изображения (товары, фотографии, скриншоты, инфографика) и веб-страницы, где они размещены.
  • Специфические запросы: Влияет на информационные и коммерческие запросы, заданные через мультимодальные интерфейсы (поиск товара по фото, запрос информации об объекте/сущности на картинке).
  • Конкретные ниши или тематики: Наибольшее влияние в E-commerce, локальном поиске, моде, образовании и нишах, где визуальная информация является ключевой.

Когда применяется

  • Триггеры активации: Механизм активируется, когда пользовательский запрос содержит изображение (мультимодальный ввод) и направляется в систему, использующую LLM для генерации ответа.
  • Условия работы: Работает в реальном времени при обработке запроса.

Пошаговый алгоритм

Система может использовать Метод 1, Метод 2 или их комбинацию.

Общий процесс:

  1. Получение ввода: Система получает мультимодальный запрос (Изображение и Текстовый запрос).
  2. Экспликация запроса (Опционально): Если текстовый запрос неявный, Explication Model преобразует его в явный запрос, используя историю диалога.

Параллельная обработка (Метод 1 - Анализ моделями):

  1. Унимодальный анализ: Изображение обрабатывается Unimodal Image Models (Object Detection, Entity Recognition, OCR, Captioning) для извлечения базовых свойств.
  2. Мультимодальный анализ: Изображение и явный запрос обрабатываются Multimodal Image Models (VQA) для генерации NL descriptors.

Параллельная обработка (Метод 2 - Анализ через поиск):

  1. Генерация поискового запроса: Формируется запрос для Image Search Engine (обратный поиск).
  2. Выполнение поиска и Извлечение текста: Поисковая система возвращает веб-ресурсы. Text Extraction Engine извлекает релевантный текст (подписи, метаданные, окружающий контент).

Финальный этап:

  1. Подготовка промта: Prompt Preparation модуль собирает все данные: явный запрос, историю диалога, результаты анализа моделей (Метод 1) и извлеченный текст из веба (Метод 2). Данные структурируются в единый текстовый промт (например, "Context: [VQA] ответ", "Context: [Web Extract] текст").
  2. Генерация ответа: Промт подается на вход основной LLM, которая генерирует финальный ответ.

Какие данные и как использует

Данные на входе

Система использует комбинацию данных, предоставленных пользователем, и данных, извлеченных из интернета или сгенерированных моделями.

  • Мультимедиа факторы: Пиксельные данные входного изображения.
  • Пользовательские факторы: Текстовый запрос пользователя и история диалога (conversation history).
  • Контентные факторы (Веб-данные, Метод 2): Текст, извлеченный из сторонних веб-ресурсов, связанных с изображением:
    • Текст веб-страниц (окружающий контент).
    • Подписи к изображениям (captions).
    • Теги и метаданные изображений.
  • Сгенерированные данные (Метод 1):
    • Распознанные сущности и объекты (Entity Recognition, Object Detection).
    • Текст, извлеченный из самого изображения (OCR).
    • Сгенерированные подписи (Captioning).
    • Ответы на вопросы (VQA / NL Descriptors).

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования, но фокусируется на использовании различных моделей ML для извлечения признаков:

  • Модели машинного обучения: Используется набор предобученных моделей: LLM, VQA, Object Detection, Entity Recognition, OCR, Captioning.
  • Image Similarity: Используется поисковой системой для выполнения обратного поиска (Метод 2).
  • Методы структурирования данных: Используется статическая схема (static schema) для преобразования выходных данных моделей в структурированный текстовый промт (например, заполнение предопределенных строк или добавление префиксов типа "Context: [VQA]...").
  • Файн-тюнинг LLM: Упоминается возможность дообучения (fine-tuning) основной LLM, чтобы она лучше реагировала на структурированные сигналы изображений в промте.

Выводы

  1. Изображения интерпретируются через текст: Ключевой вывод — Google стремится преобразовать визуальную информацию в текстовый контекст, чтобы использовать мощь текстовых LLM. LLM не "видит" изображение, а "читает" его описание, сгенерированное вспомогательными системами.
  2. Два источника понимания: Внутренний анализ и Внешний контекст. Понимание строится на комбинации сигналов: (1) прямого анализа пикселей моделями (VQA, Entity Recognition) и (2) анализа того, как изображение описано в вебе (обратный поиск и извлечение текста).
  3. Критическая роль веб-контекста для SEO (Метод 2): Текст, окружающий изображение на веб-страницах (Text Extracts), напрямую используется для формирования промта LLM. Это подтверждает, что контекст размещения изображения в интернете критически важен для его интерпретации.
  4. Многоуровневый визуальный анализ (Метод 1): Система извлекает множество сигналов: объекты, сущности, текст (OCR) и ответы на специфические вопросы (VQA). Это подчеркивает важность четкости и качества изображений.
  5. Уточнение интента (Explication): Система активно уточняет неявные запросы пользователя, используя контекст диалога, чтобы точнее понять, что именно интересует пользователя на картинке.

Практика

Best practices (это мы делаем)

  • Обеспечение богатого текстового контекста для изображений: Критически важно, чтобы текст, окружающий изображение на вашем сайте (подписи, alt-текст, основной контент), точно и полно описывал его содержание. Этот текст может быть извлечен через обратный поиск (Метод 2) и использован для формирования промта LLM.
  • Создание уникального визуального контента: Уникальные изображения предпочтительнее стоковых. Если обратный поиск по уникальному изображению приводит преимущественно к вашему сайту, вы контролируете текстовый контекст, который получит LLM.
  • Оптимизация под распознавание сущностей (Entity Recognition): Используйте четкие изображения ключевых сущностей (продуктов, логотипов, людей). Убедитесь, что они связаны со структурированными данными (Schema.org). Это помогает Unimodal Models (Метод 1) корректно идентифицировать содержание.
  • Оптимизация текста на изображениях (OCR): Если изображение содержит текст (инфографика, упаковка), убедитесь, что он легко читаем. OCR (Метод 1) извлечет этот текст и добавит его в контекст для LLM.
  • Повышение авторитетности страниц с изображениями (E-E-A-T): Авторитетность страницы, вероятно, влияет на вес извлеченного текста (Метод 2). Работайте над качеством и авторитетностью контента, содержащего важные изображения.

Worst practices (это делать не надо)

  • Использование изображений без контекста: Размещение изображений без сопровождающего текста, подписей или alt-атрибутов затрудняет формирование Text Extracts и NL Descriptors.
  • Несоответствие изображения и текста (Visual Mismatch): Использование изображений, которые не соответствуют окружающему тексту. Это может привести к формированию некорректного контекста для LLM.
  • Игнорирование качества изображений: Использование размытых или неоднозначных изображений снижает эффективность работы Object Detection, Entity Recognition и VQA (Метод 1), что ухудшает понимание контента.
  • Злоупотребление стоковыми фото: Использование популярных стоковых фото может привести к размытому или противоречивому веб-контексту (Метод 2), так как система найдет это изображение на множестве разных сайтов.

Стратегическое значение

Этот патент подтверждает стратегический переход к мультимодальному поиску. Для SEO это означает, что оптимизация изображений больше не сводится к базовым тегам. Стратегия должна включать управление визуальной идентичностью в вебе, обеспечение сильного семантического соответствия между изображениями и текстом, а также оптимизацию контента для извлечения сущностей. Способность Google точно интерпретировать визуальный контент через веб-контекст станет решающим фактором видимости в генеративном поиске (SGE) и мультимодальных интерфейсах.

Практические примеры

Сценарий 1: Оптимизация карточки товара (Акцент на Метод 2 - Поиск)

  • Задача: Пользователь ищет товар по фото через Google Lens.
  • Действие: Размещение уникальной фотографии товара (кроссовки) на странице с подробным описанием (бренд, модель, цвет, материалы).
  • Как работает система: Google выполняет обратный поиск (Метод 2) и находит вашу страницу. Text Extraction Engine извлекает ваше детальное описание.
  • Результат: В промт для LLM попадает богатый контекст из вашего описания ("Веб-контекст: Кроссовки [Бренд] [Модель], цвет синий..."). LLM точно идентифицирует товар и отвечает на запрос пользователя, используя вашу информацию.

Сценарий 2: Анализ инфографики (Акцент на Метод 1 - Модели)

  • Задача: Пользователь загружает инфографику и спрашивает о конкретном элементе.
  • Действие: Создание четкой инфографики с читаемым текстом и понятными визуальными элементами.
  • Как работает система:
    • Unimodal Model (OCR) извлекает текст из инфографики.
    • Explication Model уточняет запрос, используя извлеченный текст.
    • Multimodal Model (VQA) анализирует визуальные связи и отвечает на уточненный вопрос.
  • Результат: В промт для LLM попадают извлеченный текст и ответ VQA. LLM генерирует подробное объяснение элемента инфографики.

Вопросы и ответы

Видит ли LLM (например, Gemini) изображение напрямую согласно этому патенту?

Нет, напрямую не видит. Патент описывает систему-посредник, которая преобразует изображение в текст. Она использует вспомогательные модели (VQA, Entity Recognition) и обратный поиск по картинкам для генерации текстовых описаний (NL Descriptors и Text Extracts). Именно этот текст затем добавляется в промт и обрабатывается LLM.

Какой из двух методов важнее для SEO: анализ моделями (Метод 1) или извлечение текста из поиска (Метод 2)?

Оба важны, но Метод 2 (Claim 17, использование обратного поиска) имеет более прямые последствия для SEO. Он доказывает, что Google использует текст, ассоциированный с изображениями в вебе, для понимания похожих изображений. Это означает, что оптимизация контекста изображений на вашем сайте напрямую влияет на то, как LLM будет интерпретировать ваш визуальный контент.

Какие именно текстовые элементы Google извлекает с веб-страниц для понимания изображения (Метод 2)?

Согласно патенту (Claim 18), извлекаемые Text Extracts могут включать: текст самой веб-страницы (окружающий контекст), подписи к изображению (captions), теги изображения и метаданные изображения. Важно оптимизировать все эти элементы комплексно.

Как работает модель экспликации (Explication Model) и зачем она нужна?

Explication Model преобразует неявные запросы пользователя (например, "что это?", "расскажи подробнее") в конкретные, явные вопросы (например, "идентифицируй объект на фото"). Это необходимо, потому что вспомогательные мультимодальные модели (VQA) требуют четко сформулированных инструкций для генерации точных ответов об изображении.

Влияет ли этот патент на использование стоковых фотографий?

Да, значительно. Стоковые фотографии используются на множестве сайтов в разных контекстах. При обратном поиске (Метод 2) система получит разнообразные Text Extracts, что может привести к размытому или противоречивому контексту для LLM. Уникальные изображения предпочтительнее, так как их веб-контекст более контролируем.

Что такое унимодальные модели и какую информацию они предоставляют?

Унимодальные модели анализируют только изображение, игнорируя текстовый запрос. Они предоставляют базовую информацию (Query Independent Properties): обнаружение объектов, распознавание сущностей (связь с Knowledge Graph), автоматическое создание подписей и извлечение текста (OCR). Эта информация добавляется в промт LLM как общий контекст.

Как этот патент связан с Google Lens или SGE?

Этот патент описывает инфраструктуру, которая лежит в основе таких продуктов. Google Lens и SGE (Search Generative Experience) обрабатывают мультимодальные запросы. Описанные механизмы позволяют этим системам использовать LLM для генерации ответов, учитывающих визуальный контент, путем его анализа и извлечения веб-контекста.

Влияет ли авторитетность сайта (E-E-A-T) на этот процесс?

Косвенно да. Поскольку Метод 2 полагается на результаты поиска по изображениям, сайты с более высоким рейтингом и авторитетностью с большей вероятностью будут выбраны в качестве источников для извлечения текста (Text Extracts). Таким образом, высокий E-E-A-T способствует тому, что именно ваш контент будет использован для интерпретации изображения.

Стоит ли оптимизировать текст на самих изображениях (инфографика)?

Да. Патент явно упоминает OCR (Optical Character Recognition) как один из типов Unimodal Models (Метод 1). Текст, извлеченный непосредственно из изображения, становится частью контекста для LLM. Текст должен быть четким и читаемым.

Что такое "статическая схема" (static schema) при подготовке промта?

Это означает, что система использует предопределенные шаблоны для включения информации об изображении в промт. Например, результат работы VQA может быть добавлен как "Context: [VQA] Объект красного цвета", а распознанная сущность как "Context: [Entity] Эйфелева башня". Это позволяет структурированно передать контекст в LLM.

Похожие патенты

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Как Google комбинирует визуальные признаки и распознанный текст (OCR) внутри изображения для улучшения визуального поиска
Google использует технологию мультимодального поиска, которая анализирует как визуальные характеристики захваченного изображения (например, с камеры телефона), так и текст, распознанный внутри него (OCR). Комбинация этих двух типов данных позволяет точнее идентифицировать электронный оригинал изображения, что критически важно для работы систем визуального поиска (например, Google Lens).
  • US9323784B2
  • 2016-04-26
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google использует мультимодальный поиск (изображение + голос) для более точного понимания запросов и ранжирования результатов
Google использует механизм мультимодального поиска, обрабатывая запросы, которые одновременно содержат изображение (например, фото) и аудио (например, голосовое описание или уточнение). Система анализирует визуальные признаки и конвертирует речь в текст, используя совместную модель релевантности для поиска ресурсов (таких как товары или веб-страницы), которые соответствуют обоим типам входных данных.
  • US8788434B2
  • 2014-07-22
  • Мультимедиа

  • Семантика и интент

  • SERP

Популярные патенты

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)
Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.
  • US20250005303A1
  • 2025-01-02
  • SERP

  • EEAT и качество

  • Персонализация

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR
Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.
  • US10922326B2
  • 2021-02-16
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций
Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.
  • US10180965B2
  • 2019-01-15
  • Персонализация

  • Семантика и интент

  • Local SEO

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.
  • US8825646B1
  • 2014-09-02
  • Ссылки

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.
  • US8682892B1
  • 2014-03-25
  • Ссылки

  • EEAT и качество

  • SERP

seohardcore