
Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.
Патент решает две основные проблемы мультимедийного поиска. Во-первых, сложность идентификации и ранжирования изображений и видео, у которых недостаточно ассоциированного текста или метаданных. Во-вторых, проблему дублирования в поисковой выдаче, когда множество визуально похожих ресурсов отвечают на один запрос. Изобретение улучшает поиск за счет кросс-модального анализа и повышает качество SERP за счет кластеризации и переноса метаданных.
Запатентована система, выполняющая две ключевые функции. Первая (описана в Description) — это определение визуального сходства между статичными изображениями и видео путем сравнения визуальных признаков (features) и сохранение этих связей. Вторая (описана в Claims) — это метод кластеризации результатов поиска в реальном времени: группировка визуально похожих медиафайлов и выбор канонического элемента (canonical digital image) для каждого кластера на основе его поискового ранга (search rank).
Система работает в двух основных режимах:
representative frames). Из изображений и кадров извлекаются визуальные признаки. Если сходство превышает порог, ресурсы ассоциируются в базе данных (Association Data Store). Метаданные могут передаваться между связанными ресурсами (Metadata Augmentation).search rank.Высокая. Понимание визуального контента с помощью компьютерного зрения и мультимодальных моделей (как MUM) является ключевым направлением развития Google. Механизмы кросс-модального поиска, визуальной кластеризации (для обеспечения разнообразия выдачи) и обогащения метаданных активно используются в Google Images, Google Videos и основном поиске.
Патент имеет высокое значение для SEO (8.5/10). Он раскрывает механизмы, влияющие как на ранжирование (через обогащение метаданных), так и на представление контента (через кластеризацию и каноникализацию). Понимание того, что search rank определяет видимость в кластере, а визуальные связи позволяют передавать метаданные, критически важно для оптимизации изображений и видео, подчеркивая важность уникальности и качества визуальных активов.
strength of relationship).search rank).face signatures).shot boundaries).Патент описывает как офлайн-процессы ассоциации (в Description), так и онлайн-процессы кластеризации (в Claims). Финальные Claims (B2) сосредоточены на онлайн-кластеризации.
Claim 1 (Независимый пункт): Описывает метод обработки поискового запроса путем кластеризации результатов в реальном времени.
features) из каждого релевантного изображения.canonical digital image) для каждого кластера на основе поискового ранга (search rank) этого изображения.Ядро изобретения — динамическая визуальная кластеризация результатов, где группировка основана на визуальном сравнении, но выбор представителя кластера (канонического элемента) основан на его стандартном поисковом ранге.
Claim 2 (Зависимый от 1): Уточняет, что каноническим элементом может быть выбрано видео, и в этом случае его представление — это эталонный кадр (reference frame) этого видео.
Claim 4 (Зависимый от 1): Детализирует процесс выбора видео в качестве канонического элемента, подтверждая использование методов суммирования видео (идентификация репрезентативных сцен и кадров) для эффективного сравнения видео с изображениями.
Claim 6 (Зависимый от 1): Уточняет, что выбор канонического изображения может быть основан на определении того, что оно является наиболее визуально похожим на другие изображения в кластере (визуальный центр кластера, концепция VisualRank). (Примечание: Это предлагает альтернативный или дополнительный метод к выбору на основе search rank из Claim 1).
Изобретение связывает офлайн-процессы анализа контента с онлайн-процессами формирования выдачи.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-анализ (по Description):
Representative Frames.Features из изображений и кадров.Strength of relationship и сохранение связей в Association Data Store.Metadata (геолокация, ключевые слова) между связанными ресурсами.RANKING – Ранжирование
Система определяет базовый search rank для ресурсов. Аугментированные метаданные могут использоваться для улучшения ранжирования контента, у которого изначально было мало собственных данных.
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основное применение патента на этапе формирования SERP (по Claims и Description):
Association Data Store для добавления связанных ресурсов в выдачу (например, добавление видео в результаты поиска по картинкам).Canonical digital image для представления кластера, преимущественно на основе search rank.Процесс А: Офлайн-ассоциация и обогащение (на основе Description)
Shot Boundaries) путем сравнения смежных кадров.Representative Frame) из каждой сцены.Features (SIFT, SURF и т.д.) из изображений и кадров. Может включать категоризацию контента для выбора оптимального метода.Strength of relationship. Если она превышает порог, ресурсы считаются связанными.Association Data Store.Metadata между связанными ресурсами.Процесс Б: Онлайн-обработка запроса и кластеризация (на основе Claims)
search rank.Features из релевантных результатов.Canonical digital image. Выбор основывается преимущественно на наивысшем search rank среди элементов кластера.Features), таких как края, углы, цвета, текстуры, дескрипторы (SIFT, SURF), сигнатуры лиц.query text) из логов, связанных с ресурсом. Используется для категоризации и аугментации.Search rank (поисковый ранг) результата. Критически важен для выбора канонического элемента в кластере.features) для понимания содержания и установления кросс-модальных связей между изображениями и видео.Representative Frames) через анализ сцен, планов, движения и аудио.canonical digital image (представитель кластера) выбирается на основе поискового ранга (search rank). Чтобы изображение представляло кластер, оно должно иметь высокий ранг.search rank, необходимо применять все стандартные методы SEO для изображений и видео (релевантность страницы хоста, авторитетность сайта, alt-текст, скорость загрузки). Цель — иметь наивысший рейтинг среди визуально похожих ресурсов.representative frames, убедитесь, что важные моменты видео и тамбнейл визуально информативны, четкие и качественные.search rank, его версия станет канонической, а ваша будет скрыта.Патент подтверждает стратегию Google на глубокое понимание контента за пределами текста и создание единого индекса, где тип контента вторичен. Для SEO это означает необходимость интегрированного подхода к созданию контента, где текст, изображения и видео работают вместе. Стратегия должна быть направлена на доминирование в визуальных кластерах (за счет высокого search rank и уникальности) и использование кросс-модальных связей для усиления ранжирования.
Сценарий 1: Доминирование в кластере E-commerce (на основе Claims)
search rank всех 50 результатов. Сайт Nike.com имеет наивысший рейтинг.Сценарий 2: Обогащение метаданных в локальном поиске (на основе Description)
Как Google определяет, похожи ли изображение и видео?
Система не сравнивает изображение со всем видео. Она разбивает видео на сцены и выбирает репрезентативные кадры (representative frames). Затем извлекаются визуальные признаки (features) из изображения и этих кадров. Сходство определяется путем сравнения этих признаков, например, с помощью методов хеширования и расчета расстояния (Hamming distance). Если сходство превышает порог, ресурсы считаются связанными.
Что такое "каноническое цифровое изображение" и как оно выбирается?
Это изображение или видео, которое система выбирает для представления целой группы (кластера) визуально похожих результатов. Согласно Claim 1 патента, выбор основывается на поисковом рейтинге (search rank). Среди всех визуально похожих ресурсов в кластере каноническим станет тот, у которого самый высокий базовый рейтинг в поиске.
Когда происходит кластеризация: во время индексирования или во время запроса?
Запатентованный метод (Claim 1) указывает, что процесс кластеризации, описанный в нем, происходит в реальном времени: после получения поискового запроса и до отображения результатов. Однако процессы ассоциации и обогащения метаданных, описанные в Description, происходят офлайн во время индексирования.
Что такое "аугментация метаданных" и как она влияет на SEO?
Это процесс обогащения данных одного ресурса за счет другого. Если система определяет, что изображение и видео визуально похожи, она может скопировать метаданные (ключевые слова, геотеги, ассоциированные запросы). Это напрямую влияет на SEO, позволяя контенту с недостаточным текстовым описанием ранжироваться лучше за счет данных, унаследованных от связанного ресурса.
Может ли видео представлять кластер изображений?
Да, патент (Claim 2) явно указывает, что видео может быть выбрано в качестве канонического ресурса для кластера. В этом случае оно будет представлено в выдаче своим эталонным кадром (reference frame), который обычно является миниатюрой (thumbnail) или ключевым кадром.
Что делать, если мои изображения постоянно "склеиваются" с изображениями конкурента, и он всегда в топе?
Это означает, что ваши изображения визуально слишком похожи, и у конкурента выше search rank. Вам нужно работать в двух направлениях: 1) Повышать базовый рейтинг ваших изображений и страниц, на которых они размещены; 2) Создавать уникальный визуальный контент, который не будет кластеризован вместе с конкурентом.
Как оптимизировать видео, чтобы система правильно поняла его содержание?
Необходимо обеспечить четкую визуальную структуру и высокое качество видео. Система анализирует границы планов и сцены для выбора representative frames, используя даже аудио и движение в кадре. Также критически важно оптимизировать миниатюру (thumbnail) видео, так как она часто используется для представления видео в кластерах и для установления визуальных связей.
Как этот патент влияет на использование стоковых фотографий?
Он значительно усложняет ранжирование для сайтов, использующих одинаковые стоковые фото. Все они попадут в один визуальный кластер. Видимость получит только сайт с наивысшим search rank (обычно самый авторитетный). Для успешного SEO в визуальном поиске критически важно создавать собственный уникальный контент.
Использует ли Google распознавание лиц для связывания фото и видео?
Да, патент упоминает это как один из возможных методов. Система может определить категорию контента. Если она обнаруживает лицо (используя face signatures) и в изображении, и в кадре видео, она может использовать специализированные алгоритмы распознавания лиц для более точного сравнения.
Влияет ли этот патент только на Google Image Search?
Нет. Технологии влияют и на обычный веб-поиск (Universal Search), и на Поиск по видео. Система может подмешивать видео в результаты поиска по картинкам (и наоборот), а также использовать аугментированные метаданные для ранжирования мультимедийного контента в любой вертикали поиска.

Семантика и интент
Мультимедиа
SERP

Мультимедиа
Семантика и интент
SERP

Мультимедиа
SERP

Мультимедиа
EEAT и качество
Ссылки

Семантика и интент
Мультимедиа
Индексация

Ссылки
SERP
Поведенческие сигналы

Ссылки
SERP

Поведенческие сигналы
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Knowledge Graph
Семантика и интент
Поведенческие сигналы

EEAT и качество
Поведенческие сигналы
SERP

Local SEO
Семантика и интент
Поведенческие сигналы

Ссылки
Семантика и интент
Техническое SEO

Ссылки
Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
Семантика и интент
SERP
