SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google объединяет изображения и текст в мультимодальном поиске для уточнения визуальных запросов

MACHINE-LEARNED MODELS FOR MULTIMODAL SEARCHING AND RETRIEVAL OF IMAGES (Машинно-обученные модели для мультимодального поиска и извлечения изображений)
  • US20240370487A1
  • Google LLC
  • 2022-11-04
  • 2024-11-07
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует модель уточнения запросов для мультимодального поиска (например, в Google Lens). Система принимает эмбеддинг исходного изображения и текстовое уточнение от пользователя. Модель генерирует новый, уточненный эмбеддинг изображения, который объединяет визуальные данные с текстовым интентом. Этот новый эмбеддинг используется для поиска релевантных изображений в общем пространстве эмбеддингов, позволяя пользователям итеративно уточнять визуальный поиск текстом.

Описание

Какую проблему решает

Патент решает проблему ограничений традиционного визуального поиска, который обрабатывает только данные изображения и не может учитывать текстовые уточнения пользователя. Это часто требует от пользователя повторного захвата изображения или переформулирования запроса, что приводит к неэффективному использованию ресурсов и ухудшению пользовательского опыта. Изобретение позволяет пользователям уточнять визуальный поиск с помощью текста, создавая мультимодальный запрос для более точного и эффективного извлечения изображений.

Что запатентовано

Запатентована система и метод использования машинно-обученной модели уточнения запросов (Machine-Learned Query Refinement Model) для мультимодального поиска. Эта модель принимает на вход эмбеддинг исходного изображения (Query Image Embedding) и текстовое уточнение (Textual Query Refinement). На выходе она генерирует уточненный эмбеддинг изображения (Refined Image Embedding), который инкорпорирует текстовое уточнение в визуальное представление. Этот новый эмбеддинг используется для поиска в пространстве эмбеддингов изображений.

Как это работает

Система работает в двух режимах: обучение и применение (inference).

  • Применение: Пользователь загружает изображение. Система генерирует его эмбеддинг и показывает начальные результаты. Пользователь вводит текстовое уточнение (например, "другого цвета"). Модель уточнения запросов обрабатывает исходный эмбеддинг и текст, создавая новый Refined Image Embedding. Система выполняет поиск ближайших соседей (nearest neighbors) в Image Embedding Space, используя этот новый эмбеддинг, и возвращает уточненные результаты.
  • Обучение: Модель обучается минимизировать расстояние (loss function) между сгенерированным Refined Image Embedding и эмбеддингом целевого изображения (Ground Truth Image Embedding). Тренировочные данные (исходное изображение, текст уточнения, целевое изображение) генерируются из корпусов данных поиска изображений, анализируя, как пользователи уточняют запросы и на какие результаты кликают.

Актуальность для SEO

Критически высокая. Патент описывает базовую технологию для мультимодального поиска, который является стратегическим направлением развития Google (например, применение MUM, Google Lens с функцией "добавить в поиск"). Поскольку визуальный поиск и e-commerce становятся все более интегрированными, способность системы понимать комбинацию изображения и текста имеет решающее значение.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO, особенно в области визуального поиска и e-commerce. Он описывает механизм, с помощью которого Google интерпретирует смешанные (визуальные+текстовые) интенты. Это напрямую влияет на то, как изображения товаров или контента будут обнаруживаться пользователями, уточняющими свой поиск. Понимание этого механизма требует оптимизации визуальных активов и их семантического контекста для лучшего представления в Image Embedding Space.

Детальный разбор

Термины и определения

Image Embedding Space (Пространство эмбеддингов изображений)
Многомерное векторное пространство, в котором изображения представлены в виде эмбеддингов (векторов). Близость между векторами в этом пространстве отражает визуальное или семантическое сходство изображений.
Ground Truth Image Embedding (Эмбеддинг целевого/эталонного изображения)
Эмбеддинг изображения, которое является идеальным результатом для комбинации исходного изображения и текстового уточнения. Используется в процессе обучения как цель, к которой должен стремиться уточненный эмбеддинг.
Machine-Learned Query Refinement Model (Машинно-обученная модель уточнения запросов)
Основная модель патента (например, Трансформер), обученная принимать эмбеддинг изображения и текстовое уточнение и генерировать новый, уточненный эмбеддинг изображения.
Machine-Learned Image Encoding Model (Модель кодирования изображений)
Модель, которая обрабатывает исходное изображение для генерации его эмбеддинга (Query Image Embedding).
Machine-Learned Text Encoding Model (Модель кодирования текста)
Модель, которая обрабатывает текстовое уточнение для генерации его латентного представления (например, Token Embeddings).
Query Image Embedding (Эмбеддинг изображения запроса)
Векторное представление (латентная репрезентация) исходного изображения, предоставленного пользователем.
Refined Image Embedding (Уточненный эмбеддинг изображения)
Выходные данные Query Refinement Model. Это новый эмбеддинг, который инкорпорирует текстовое уточнение в исходный эмбеддинг изображения. Используется для поиска финальных результатов.
Textual Query Refinement (Текстовое уточнение запроса)
Текст, предоставленный пользователем для модификации или уточнения результатов визуального поиска.
Token Embeddings (Токенные эмбеддинги)
Векторные представления слов или токенов в текстовом уточнении, используемые как вход для Query Refinement Model.

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых пункта, описывающих процесс применения (Inference) и процесс обучения (Training).

Claim 1 (Независимый пункт) – Процесс применения (Inference): Описывает метод использования системы для мультимодального поиска.

  1. Система получает эмбеддинг для изображения запроса (Query Image), предоставленного пользователем визуального поиска.
  2. Система получает от пользователя текстовое уточнение (Textual Query Refinement). Уточняется, что этот текст вводится в ответ на предоставление начальных результатов поиска по исходному изображению.
  3. Система обрабатывает эмбеддинг изображения и текстовое уточнение с помощью Machine-Learned Query Refinement Model.
  4. В результате получается уточненный эмбеддинг изображения (Refined Image Embedding), который инкорпорирует текстовое уточнение.
  5. Система определяет один или несколько уточненных результирующих изображений на основе этого Refined Image Embedding.

Claim 2 (Зависимый от 1): Уточняет механизм определения результатов (шаг 5 из Claim 1).

Определение уточненных результатов включает в себя поиск одного или нескольких эмбеддингов в пределах порогового расстояния (threshold distance) от Refined Image Embedding в пространстве эмбеддингов. Затем выбираются изображения, соответствующие этим найденным эмбеддингам. Это стандартный механизм поиска ближайших соседей (k-NN или ANN) в векторном пространстве.

Claim 4 (Зависимый от 1): Уточняет обработку текста.

Текстовое уточнение преобразуется в один или несколько токенных эмбеддингов (Token Embeddings). Query Refinement Model обрабатывает именно эти токенные эмбеддинги вместе с эмбеддингом изображения.

Claim 10 (Независимый пункт) – Процесс обучения (Training): Описывает метод обучения Query Refinement Model.

  1. Система получает тренировочную пару: Query Image Embedding и связанный с ним Textual Query Refinement.
  2. Модель обрабатывает эту пару для получения Refined Image Embedding.
  3. Система оценивает функцию потерь (loss function), которая измеряет расстояние между Refined Image Embedding и Ground Truth Image Embedding в пространстве эмбеддингов.
  4. Параметры модели модифицируются на основе этой функции потерь (для минимизации расстояния).

Claim 14 (Зависимый от 10): Определяет источник тренировочных данных.

Данные берутся из корпуса данных поиска изображений (corpus of image search data). Этот корпус включает: (i) результаты поиска, предоставленные пользователям в ответ на запрос, и (ii) уточненные результаты поиска, предоставленные после выбора элементов уточнения запроса (query refinement elements). Исходное изображение, текст уточнения и целевое изображение выбираются из этих данных.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, связанных с обработкой мультимодальных запросов и извлечением визуального контента.

INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает изображения для создания их векторных представлений. Machine-Learned Image Encoding Model используется для генерации эмбеддингов всех изображений в индексе. Эти эмбеддинги сохраняются в Image Embedding Space для быстрого поиска.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Когда пользователь предоставляет мультимодальный запрос (изображение + текст):

  1. Исходное изображение обрабатывается (если еще не обработано) Image Encoding Model для получения Query Image Embedding.
  2. Текстовое уточнение обрабатывается Text Encoding Model для получения Token Embeddings.
  3. Machine-Learned Query Refinement Model обрабатывает эти два типа эмбеддингов и модифицирует представление запроса, генерируя Refined Image Embedding.

RANKING – Ранжирование (Этап Retrieval)
На этапе отбора кандидатов (L1 Retrieval) система использует Refined Image Embedding для выполнения поиска в Image Embedding Space. Система ищет эмбеддинги, находящиеся в пределах порогового расстояния (Claim 2), чтобы быстро извлечь визуально и семантически релевантные изображения.

Входные данные (Inference):

  • Изображение запроса (Query Image).
  • Текстовое уточнение запроса (Textual Query Refinement).

Выходные данные (Inference):

  • Уточненные результирующие изображения (Refined Result Images).

На что влияет

  • Конкретные типы контента: В первую очередь влияет на изображения, особенно те, где важны визуальные атрибуты, которые пользователи могут захотеть изменить или уточнить (товары, одежда, дизайн, автомобили, рецепты).
  • Специфические запросы: Мультимодальные запросы (комбинация визуального и текстового ввода).
  • Конкретные ниши или тематики: Критически важно для E-commerce, моды, дизайна интерьера и любых ниш, где продукт ищут по внешнему виду и атрибутам.

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда пользователь инициирует визуальный поиск (например, через Google Lens) и затем предоставляет дополнительное текстовое уточнение (Claim 1).
  • Итеративность: Система поддерживает итеративное уточнение. Пользователь может предоставить второе текстовое уточнение после получения первых уточненных результатов (Claim 7). Это второе уточнение может применяться либо к исходному эмбеддингу (Claim 8), либо к уже уточненному эмбеддингу (Claim 9).

Пошаговый алгоритм

Процесс А: Обработка мультимодального запроса (Inference)

  1. Получение исходного запроса: Система получает изображение запроса от пользователя.
  2. Кодирование изображения: Machine-Learned Image Encoding Model обрабатывает изображение для получения Query Image Embedding.
  3. Первичный поиск (Опционально): Система может выполнить поиск по исходному эмбеддингу и предоставить начальные результаты пользователю.
  4. Получение уточнения: Пользователь просматривает начальные результаты и вводит Textual Query Refinement.
  5. Кодирование текста: Machine-Learned Text Encoding Model обрабатывает текст для получения Token Embeddings.
  6. Уточнение эмбеддинга (Multimodal Fusion): Machine-Learned Query Refinement Model обрабатывает Query Image Embedding и Token Embeddings.
  7. Генерация результата: Модель выводит Refined Image Embedding.
  8. Поиск в векторном пространстве: Система выполняет поиск ближайших соседей (в пределах порогового расстояния) для Refined Image Embedding в Image Embedding Space.
  9. Извлечение результатов: Система извлекает изображения, соответствующие найденным эмбеддингам (Refined Result Images), и предоставляет их пользователю.

Процесс Б: Обучение модели (Training)

  1. Сбор данных: Система анализирует корпус данных поиска изображений, включая логи запросов, предоставленные результаты, выбранные пользователями уточнения (например, фильтры или чипсы) и результаты после уточнения (Claim 14).
  2. Генерация тренировочных примеров: На основе анализа взаимодействий формируются тройки: [Исходное изображение (наиболее кликабельный результат до уточнения), Текст уточнения (выбранный фильтр), Целевое изображение (наиболее кликабельный результат после уточнения)].
  3. Кодирование примеров: Изображения и текст кодируются в соответствующие эмбеддинги.
  4. Прямой проход (Forward Pass): Модель уточнения обрабатывает исходный эмбеддинг и текст, генерируя Refined Image Embedding.
  5. Расчет потерь (Loss Calculation): Вычисляется функция потерь, измеряющая расстояние между Refined Image Embedding и Ground Truth Image Embedding.
  6. Обратное распространение (Backpropagation): Параметры модели обновляются для минимизации функции потерь.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке данных на уровне эмбеддингов.

  • Мультимедиа факторы (Изображения): Пиксельные данные изображений (Query Image, Ground Truth Image) используются для генерации эмбеддингов с помощью Image Encoding Model.
  • Контентные факторы (Текст): Текстовые данные (Textual Query Refinement) используются для генерации Token Embeddings с помощью Text Encoding Model.
  • Поведенческие факторы: Логи взаимодействий пользователей с поиском изображений (запросы, клики на результаты, использование уточнений/фильтров) используются для создания тренировочных данных (Claim 14).

Какие метрики используются и как они считаются

  • Loss Function (Функция потерь): Метрика, используемая при обучении. Она оценивает расстояние между сгенерированным Refined Image Embedding и Ground Truth Image Embedding в векторном пространстве (Claim 10). Конкретный тип расстояния (например, косинусное расстояние, L2 норма) в патенте не указан.
  • Threshold Distance (Пороговое расстояние): Метрика, используемая при поиске (Inference). Определяет максимальное расстояние в Image Embedding Space, в пределах которого эмбеддинги считаются релевантными результатами для Refined Image Embedding (Claim 2).

Выводы

  1. Мультимодальность как стандарт поиска: Патент подтверждает, что Google рассматривает поиск как мультимодальную задачу. Система спроектирована для интерпретации интента пользователя, выраженного через комбинацию различных типов данных (изображение и текст).
  2. Манипуляция в латентном пространстве: Ключевой механизм заключается не в традиционном ранжировании, а в модификации самого запроса в латентном пространстве. Текстовое уточнение используется для "перемещения" исходного эмбеддинга изображения в другую область Image Embedding Space.
  3. Зависимость от качества эмбеддингов: Эффективность системы напрямую зависит от качества базовых моделей кодирования (Image Encoding Model и Text Encoding Model). Если эти модели плохо понимают визуальные атрибуты или язык, модель уточнения также будет работать неточно.
  4. Обучение на поведении пользователей: Источник тренировочных данных критически важен. Система учится тому, как пользователи уточняют поиск и какие результаты они ожидают увидеть, анализируя массовые данные взаимодействий с результатами поиска и фильтрами (Claim 14).
  5. Итеративный поиск: Система явно поддерживает возможность последовательных уточнений (Claims 7-9), что позволяет пользователям вести диалог с поисковой системой для достижения цели.

Практика

Best practices (это мы делаем)

  • Оптимизация качества и четкости изображений: Убедитесь, что основные объекты на изображениях (особенно товарах) четкие, хорошо освещенные и находятся в фокусе. Это необходимо для того, чтобы Image Encoding Model могла создать точный и детальный эмбеддинг, который затем может быть эффективно уточнен.
  • Предоставление визуальных вариаций: Если продукт доступен в разных цветах, размерах или стилях, предоставьте высококачественные изображения для каждой вариации. Это увеличивает вероятность того, что ваш контент будет соответствовать Refined Image Embedding, когда пользователь ищет конкретную вариацию.
  • Согласованность визуальных и текстовых данных: Убедитесь, что текстовый контент, окружающий изображение (alt-текст, заголовки, описания товаров), точно описывает визуальные атрибуты. Хотя эта модель работает на уровне эмбеддингов, согласованность данных помогает базовым моделям Google лучше интерпретировать контент и строить связи между языком и визуальными образами.
  • Использование структурированных данных (Product Schema): Используйте разметку Schema.org для товаров, указывая атрибуты, такие как цвет, бренд, материал. Это помогает Google стандартизировать понимание атрибутов, которые пользователи часто используют в Textual Query Refinement.

Worst practices (это делать не надо)

  • Использование вводящих в заблуждение изображений (Clickbait): Использование изображений, которые не соответствуют содержанию страницы или характеристикам продукта. Система визуального поиска ищет соответствие на основе визуальных признаков в эмбеддинге.
  • Изображения низкого качества или с водяными знаками: Изображения, которые затрудняют распознавание объекта. Это может привести к созданию неточного эмбеддинга, из-за чего изображение не будет найдено ни по исходному визуальному запросу, ни по уточненному.
  • Игнорирование визуального поиска: Отношение к изображениям как к декоративному элементу, а не как к основному способу поиска контента. В контексте мультимодального поиска изображение является запросом.

Стратегическое значение

Этот патент подчеркивает переход Google от поиска по ключевым словам к поиску на основе сущностей и их представлений (эмбеддингов). Стратегическое значение для SEO заключается в необходимости оптимизации визуальных активов для машинного восприятия. В e-commerce это означает, что управление каталогом изображений становится критически важной частью SEO-стратегии. Способность вашего контента быть извлеченным через мультимодальный поиск (например, Google Lens) может стать значительным конкурентным преимуществом, поскольку пользователи все чаще используют камеру как инструмент поиска.

Практические примеры

Сценарий: Поиск товара с изменением атрибута (E-commerce)

  1. Действие пользователя: Пользователь видит синее платье на улице и фотографирует его с помощью Google Lens (Query Image).
  2. Начальный результат: Google показывает похожие синие платья.
  3. Уточнение пользователя: Пользователь добавляет текст "красное в горошек" (Textual Query Refinement).
  4. Работа системы: Query Refinement Model берет эмбеддинг синего платья и эмбеддинг текста "красное в горошек". Она генерирует новый Refined Image Embedding, соответствующий красному платью в горошек того же фасона.
  5. Ожидаемый результат для SEO: Если интернет-магазин продает такое красное платье в горошек и предоставил его качественное изображение, которое было проиндексировано и точно закодировано в Image Embedding Space, это изображение будет найдено и показано пользователю.

Вопросы и ответы

Является ли этот патент описанием работы MUM (Multitask Unified Model)?

Патент не упоминает MUM напрямую, но описывает технологию, которая является фундаментальной для мультимодальных систем, таких как MUM или Google Lens. Он описывает конкретный механизм объединения изображения и текста для уточнения поискового запроса в пространстве эмбеддингов. MUM, вероятно, использует этот или аналогичный механизм для обработки сложных запросов, включающих разные модальности.

Как этот патент влияет на традиционное SEO для веб-страниц?

Напрямую он влияет на визуальный поиск (Google Images, Lens), а не на ранжирование "синих ссылок". Однако он подчеркивает важность качественных изображений и их контекста на веб-страницах. Поскольку Google стремится к универсальному пониманию контента, оптимизация под мультимодальный поиск улучшает общее восприятие сайта системой и может косвенно влиять на трафик через смешанную выдачу (Universal Search).

Нужно ли мне оптимизировать alt-текст для работы этой системы?

Модель, описанная в патенте, работает на уровне эмбеддингов, сгенерированных из пикселей и текста запроса, а не напрямую использует alt-текст. Однако хороший alt-текст помогает базовым моделям Google (например, Image Encoding Model) лучше понимать содержимое изображения и формировать более точные эмбеддинги. Поэтому качественный alt-текст остается важной рекомендацией.

Как система определяет, какие изображения показывать в результатах?

Система использует механизм поиска ближайших соседей (Claim 2). После того как сгенерирован Refined Image Embedding, система ищет в своем индексе (Image Embedding Space) другие эмбеддинги, которые находятся наиболее близко (в пределах порогового расстояния) к этому уточненному эмбеддингу. Изображения, соответствующие этим ближайшим эмбеддингам, возвращаются как результаты.

Откуда берутся данные для обучения этой модели?

Патент явно указывает (Claim 14), что данные берутся из корпуса поиска изображений, анализируя поведение пользователей. Например, если многие пользователи ищут "платье", а затем кликают на фильтр "летнее", система формирует тренировочную пару: Исходное изображение (популярное платье) -> Текст ("летнее") -> Целевое изображение (популярное летнее платье). Это подчеркивает, что модель обучается на реальных пользовательских интентах.

Что такое Machine-Learned Query Refinement Model по своей архитектуре?

Патент не детализирует архитектуру, но в Claim 5 упоминается, что модель может быть Трансформером (Transformer model). Это логично, учитывая способность Трансформеров эффективно обрабатывать и объединять данные различных модальностей (в данном случае, эмбеддинги изображений и токенные эмбеддинги текста) с помощью механизмов внимания.

Может ли система обрабатывать несколько уточнений подряд?

Да, патент предусматривает итеративный процесс (Claims 7-9). После первого уточнения пользователь может ввести второе. Система может применить второе уточнение либо к исходному изображению, либо к уже уточненному результату первого шага, позволяя вести сложный визуальный диалог.

Влияет ли скорость загрузки изображений на работу этой системы?

Напрямую механизм уточнения эмбеддингов не зависит от скорости загрузки. Однако, если изображение загружается медленно или недоступно для краулера, оно не будет проиндексировано и его эмбеддинг не будет создан. Следовательно, оно не сможет участвовать в визуальном поиске.

Как лучше всего оптимизировать изображения товаров для этой системы?

Ключевая стратегия — обеспечить максимальную четкость и разнообразие. Предоставляйте высококачественные, четкие изображения основного продукта с разных ракурсов и для всех доступных вариаций (цвета, стили). Это гарантирует, что Image Encoding Model создаст точные эмбеддинги для каждой вариации, увеличивая шансы на совпадение с уточненным запросом пользователя.

Использует ли эта система метаданные EXIF или IPTC?

Патент не упоминает использование метаданных изображений. Основной фокус сделан на обработке пиксельных данных для генерации эмбеддингов и текстовых данных запроса. Хотя Google может использовать метаданные в других частях поисковой системы, в контексте данного патента они не фигурируют.

Похожие патенты

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google использует единый Image Embedding для параллельного поиска по разным вертикалям (Web, Shopping, Local) при визуальном запросе
Google патентует механизм для улучшения визуального поиска (например, Google Lens). Система генерирует единое векторное представление (Image Embedding) для изображения-запроса и использует его для одновременного поиска визуально похожих результатов в нескольких разных базах данных (например, в общем веб-индексе и специализированном индексе товаров или локаций). Контекст пользователя (местоположение, история) помогает системе выбрать, какие специализированные базы активировать для поиска.
  • US20240311421A1
  • 2024-09-19
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google объединяет изображение и текст для создания мультимодальных запросов (Google Multisearch)
Google патентует интерфейс для уточнения визуального поиска. Пользователь загружает изображение, видит результаты и специальное поле для ввода текстового уточнения. Система объединяет изображение и текст в единый мультимодальный запрос (Multimodal Search Query), чтобы точнее понять намерение пользователя и предоставить релевантные результаты разных форматов, включая товары, видео и статьи.
  • US20240028638A1
  • 2024-01-25
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Популярные патенты

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов
Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.
  • US9268820B2
  • 2016-02-23
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей
Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.
  • US20250054045A1
  • 2025-02-13
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

seohardcore