
Google использует механизм мультимодального поиска, позволяющий пользователям дополнять текстовые запросы визуальным вводом (например, фотографией). Система анализирует изображение с помощью моделей машинного обучения для распознавания объектов и генерации семантической информации. Эта информация используется либо для создания уточненного составного запроса (composite query), либо для фильтрации исходных результатов поиска путем сопоставления метаданных изображения с метаданными проиндексированного видеоконтента.
Патент решает проблему неточности или широты результатов текстового поиска, особенно когда пользователю сложно вербально описать специфические детали объекта (например, точную модель продукта) или когда текстовый запрос возвращает слишком много нерелевантных результатов. Изобретение улучшает релевантность поиска контента, в частности видео (например, инструкций "How-to"), позволяя пользователю использовать изображение объекта для уточнения запроса.
Запатентована система мультимодального поиска, которая комбинирует текстовый запрос (textual query) и визуальный ввод (visual input, например, изображение с камеры). Система использует обученные модели машинного обучения (trained machine learned models), такие как CNN, для распознавания объектов на изображении и генерации соответствующей семантической информации. Эта информация используется для уточнения поиска одним из двух основных способов: путем создания составного запроса (composite query) или путем фильтрации результатов поиска на основе визуального соответствия.
Система предлагает два основных механизма обработки запроса и один механизм индексации:
Video Visual Metadata Library). Результаты фильтруются для показа контента, визуально соответствующего изображению.Высокая. Патент напрямую связан с текущими тенденциями развития мультимодального поиска (например, Google MUM, Google Lens) и интеграцией технологий визуального распознавания в основные поисковые продукты. Описанные механизмы крайне актуальны в 2025 году, учитывая рост потребления видеоконтента и потребность в точном поиске информации о физических объектах.
Патент имеет высокое значение (85/100), особенно для Video SEO, E-commerce и сайтов с инструкциями. Он демонстрирует, как Google индексирует и использует визуальное содержимое контента для определения релевантности. Это подчеркивает необходимость оптимизации не только текста, но и визуальной ясности контента (Visual SEO), чтобы системы машинного зрения могли точно распознавать объекты и связывать их с запросами пользователей.
textual query) и текста, полученного в результате анализа визуального ввода.Патент содержит три независимых пункта (1, 9, 18), описывающих три разных механизма системы.
Механизм 1: Генерация составного запроса (Claim 1)
Claim 1 (Независимый пункт): Описывает метод расширения запроса.
Composite Query, комбинируя исходный текст и сгенерированный текст.Composite Query.Система использует ML-модель для Object Identification и Semantic Query Addition (Claim 2). Claims 5 и 6 вводят итеративное уточнение: система использует Confidence Levels для перехода от общей идентификации (например, "лампа") к специфической ("лампа [Бренд]") или контекстной ("сломанная лампа"), если уверенность превышает заданные пороги.
Механизм 2: Фильтрация результатов (Claim 9)
Claim 9 (Независимый пункт): Описывает метод фильтрации.
Textual Metadata из визуального ввода.Визуальный ввод действует как пост-фильтр. Фильтрация основана на сопоставлении метаданных изображения с данными в Video Visual Metadata Library (Claim 14).
Механизм 3: Индексация контента (Claim 18)
Claim 18 (Независимый пункт): Описывает генерацию метаданных при индексации.
Object Identification.Semantic Information и сохраняет ее как метаданные контента.Это процесс обогащения индекса, происходящий при загрузке или обработке контента.
Изобретение затрагивает несколько этапов поиска, связывая индексирование, понимание запросов и ранжирование.
INDEXING – Индексирование и извлечение признаков
(Связано с Механизмом 3 и подготовкой данных для Механизма 2). Система анализирует контент для создания Video Visual Metadata Library. Это включает анализ кадров видео или анализ связанных изображений, предоставленных при загрузке (Claim 18). Извлекается семантическая и визуальная информация об объектах, часто с временными метками (timestamps).
QUNDERSTANDING – Понимание Запросов
(Связано с Механизмом 1). Система обрабатывает мультимодальный ввод (текст + изображение). Визуальный ввод анализируется ML-моделью (CNN) для генерации текста. Этот текст используется для уточнения исходного запроса путем создания Composite Query в реальном времени.
RANKING / RERANKING – Ранжирование / Переранжирование
Composite Query.Video Visual Metadata Library.Confidence Level распознавания заданные пороги (First/Second Condition). Если уверенность низкая, используется только общая идентификация.Патент описывает три ключевых алгоритма.
Алгоритм А: Расширение запроса (Composite Query)
Classifiers и Confidence Levels.Confidence Level. Если выше порога 1, генерация специфического текста (Уровень 2: Специфический, например, «[брендовая] лампа»).Semantic Query Addition).Composite Query.Алгоритм Б: Фильтрация результатов (Visual Matching)
Textual Metadata.Video Visual Metadata Library).Алгоритм В: Индексация видео (Подготовка данных)
Video Visual Metadata Library.Visual Input (изображение пользователя) и кадры из индексируемых видео. Анализируются пиксельные данные для распознавания объектов и текста (например, номеров моделей).Confidence Level. Они определяют, насколько детальная информация будет использована для уточнения поиска.Video Visual Metadata Library. Это означает, что система «видит», какие объекты присутствуют в видео, и использует это для ранжирования.Composite Query), либо фильтровать результаты текстового поиска (Visual Matching).Confidence Level) напрямую влияет на релевантность результатов.Confidence Level.Патент подчеркивает стратегический переход к мультимодальному поиску и важность Computer Vision в SEO. Для долгосрочной стратегии необходимо учитывать, что Google "видит" содержание изображений и видео. Это меняет подход к созданию контента: визуальная презентация становится фактором ранжирования (Visual SEO), так как напрямую влияет на то, как контент будет проиндексирован и насколько он будет соответствовать уточненным мультимодальным запросам пользователей.
Сценарий: Оптимизация видеоинструкции по ремонту для мультимодального поиска
Confidence Level.Object + Context Identification).Object Identification). Она формирует Composite Query или применяет Filtering. Оптимизированное видео с высокой вероятностью займет топовую позицию, так как его визуальные метаданные точно соответствуют запросу.Патент описывает два способа обработки мультимодального запроса: Composite Query и Filtering. В чем ключевая разница?
При Composite Query (Механизм 1) система анализирует изображение, генерирует текст и добавляет его к исходному запросу. Затем выполняется новый поиск по этому составному запросу. При Filtering (Механизм 2) система сначала ищет по исходному текстовому запросу, а затем сужает полученные результаты, сопоставляя визуальные метаданные изображения пользователя с метаданными индексированного контента. Первый метод меняет запрос, второй – уточняет результаты.
Как Google определяет, что находится внутри видео? Означает ли это, что нужно оптимизировать каждый кадр?
Да, патент указывает, что при индексации система анализирует кадры видео (Video frames analyzed) для извлечения семантической и визуальной информации о сущностях, которая сохраняется в Video Visual Metadata Library. Для SEO это означает, что ключевые объекты должны быть визуально четкими и распознаваемыми в те моменты видео, когда они демонстрируются, чтобы системы Computer Vision могли их корректно классифицировать.
Что такое Confidence Level и как он влияет на поиск?
Confidence Level – это мера уверенности системы в том, что она правильно распознала объект на изображении. Если уверенность низкая, система использует общую классификацию (например, "лампа"). Если уверенность высокая (превышает порог), она использует специфическую идентификацию (например, бренд и модель). Это напрямую влияет на то, насколько сильно будет сужен и уточнен поиск пользователя.
Как этот патент связан с Google Lens?
Этот патент описывает базовые механизмы, которые лежат в основе функциональности, подобной Google Lens и Multisearch, интегрированной в процесс поиска. Патент предоставляет техническую основу для того, как именно объединяются визуальный и текстовый вводы для генерации или фильтрации результатов поиска в базе данных контента.
Влияет ли этот патент на SEO для обычных веб-страниц с изображениями, или только на видео?
Хотя в названии и примерах акцент сделан на поиске видео, описанные механизмы (Claims 1 и 9) применимы к генерации ссылок на любой контент (links to content). Если пользователь использует мультимодальный запрос для поиска веб-страниц, система также будет стремиться найти контент, который соответствует как тексту, так и визуальному вводу. Поэтому оптимизация изображений на веб-страницах также критична.
Что подразумевается под Механизмом 3 (Claim 18) об индексации контента с визуальным вводом?
Этот механизм описывает, как Google может улучшать индексацию контента на этапе его загрузки. Если создатель контента предоставляет изображение, связанное с видео (например, превью или фото объекта из видео), Google анализирует это изображение с помощью Object Identification и сохраняет полученную семантическую информацию как метаданные видео. Это повышает точность индексации.
Какие технологии машинного обучения упоминаются в патенте?
Патент упоминает использование обученных моделей машинного обучения (trained ML model) для Object Identification. В описании детально рассматривается архитектура Сверточной Нейронной Сети (CNN), которая используется для анализа изображений, извлечения признаков и классификации объектов.
Как SEO-специалисту проверить, распознает ли Google объекты в нашем контенте?
Можно использовать инструменты, основанные на Google Cloud Vision AI (или сам Google Lens), чтобы протестировать ключевые изображения и скриншоты из видео. Если эти инструменты корректно распознают объекты, бренды и модели, то с высокой вероятностью поисковые системы Google также смогут это сделать при индексации и обработке запросов.
Что означает использование временных меток (timestamps) при индексации?
Это означает, что Google знает не только, что объект присутствует в видео, но и когда именно он появляется. Это позволяет системе направлять пользователя непосредственно на тот фрагмент видео (Key Moment), который наиболее релевантен его визуальному вводу (например, сразу к моменту начала ремонта нужной детали).
Как влияет качество видео (разрешение, освещение) на работу этих механизмов?
Чем выше качество, разрешение и лучше освещение в видео, тем выше вероятность корректного распознавания объектов и, соответственно, выше Confidence Level. Низкое качество видео может привести к тому, что система либо не распознает объект вообще, либо классифицирует его только по общему типу, что снижает шансы ранжирования по специфическим мультимодальным запросам.

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент

Мультимедиа
Семантика и интент
SERP

Мультимедиа
Семантика и интент
Индексация

Мультимедиа
Индексация
Семантика и интент

Ссылки
Семантика и интент
Индексация

Персонализация
Поведенческие сигналы
Семантика и интент

Knowledge Graph
Поведенческие сигналы
Персонализация

SERP
Семантика и интент
EEAT и качество

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент

Local SEO
Поведенческие сигналы
Семантика и интент
