
Google использует модель глубокого обучения для анализа изображений, которая не только извлекает визуальные признаки (дескрипторы), но и оценивает их важность с помощью механизма внимания. Это позволяет системе фокусироваться на самых значимых элементах (например, объектах или ориентирах) и игнорировать визуальный шум, повышая точность и эффективность поиска похожих изображений.
Патент решает проблему точности и эффективности крупномасштабного поиска изображений (large-scale image retrieval). Традиционные методы часто извлекают все доступные локальные признаки из изображения, многие из которых нерелевантны для задачи распознавания (например, фон, визуальный шум, отвлекающие объекты). Обработка этих нерелевантных признаков добавляет "шум" в процесс поиска, снижает точность и увеличивает вычислительные затраты. Также патент устраняет необходимость в разработке сложных, созданных вручную (hand-crafted) алгоритмов для определения ключевых точек.
Запатентована система и метод использования обученной модели дескрипторов изображений (machine-learned image descriptor model), основанной на глубоком обучении (например, CNN). Ключевое нововведение — интеграция механизма внимания (attention mechanism) непосредственно в процесс извлечения признаков. Модель одновременно извлекает локальные дескрипторы и оценивает их значимость (attention score), позволяя системе выбрать только наиболее важные признаки (keypoint descriptors) для последующего индексирования и поиска.
Модель (обычно глубокая сверточная нейронная сеть) обрабатывает входное изображение. В процессе обработки система выполняет две задачи, часто используя общие слои сети (shared layers):
local feature descriptors).attention score) каждому дескриптору, определяя его релевантность для задачи поиска.Затем система выбирает подмножество дескрипторов с наивысшими оценками внимания. Это подмножество (set of keypoint descriptors) используется для представления изображения в индексе. При поиске дескрипторы запроса сравниваются с индексом (например, методом ближайших соседей), а результаты проходят геометрическую верификацию.
Высокая. Глубокое обучение и механизмы внимания являются фундаментальными компонентами современных систем компьютерного зрения. Описанный подход к эффективному извлечению и взвешиванию визуальных признаков крайне актуален для работы таких сервисов, как Google Images и Google Lens, особенно в контексте распознавания объектов, товаров и ориентиров.
Влияние на SEO оценивается как среднее-высокое, но специфичное для визуального поиска. Патент не описывает ранжирование веб-страниц, но критически важен для понимания того, как Google "видит" и индексирует визуальный контент. Он напрямую влияет на то, будет ли изображение найдено через поиск по картинкам или Google Lens. Понимание того, какие элементы изображения привлекают "внимание" модели, позволяет оптимизировать композицию изображений для лучшей обнаруживаемости.
local feature descriptor. Отражает значимость или релевантность данного признака для задачи поиска изображений. Используется для отбора keypoint descriptors.Local feature descriptor, извлеченный с помощью модели глубокого обучения (например, глубокой нейронной сети).keypoint descriptors с целью повышения эффективности поиска. Упоминаются методы PCA (метод главных компонент) и L2 normalization.local feature descriptors, которые получили наивысшие Attention Scores. Используются для финального представления изображения в индексе.Claim 1 (Независимый пункт): Описывает основной метод поиска изображений.
query image).local feature descriptors).attention score).set of keypoint descriptors). Это подмножество локальных дескрипторов, выбранное на основе оценок внимания.spatial dimensionality) набора дескрипторов ключевых точек.Ядро изобретения — использование Attention Score для фильтрации локальных дескрипторов перед этапом поиска.
Claim 8 (Независимый пункт): Описывает применение обученной модели.
machine-learned image descriptor model). Модель обучена определять локальные дескрипторы, вычислять для них attention score и выводить набор keypoint descriptors на основе этих оценок.keypoint descriptors, каждый из которых был выбран на основе соответствующей оценки внимания, сгенерированной моделью.Этот пункт защищает использование специализированной модели, которая интегрирует механизм внимания для выбора ключевых точек.
Claim 15 (Зависимый от 8): Уточняет архитектуру модели.
Модель включает множество общих слоев (plurality of shared layers), которые используются как минимум частично и для определения локальных дескрипторов, и для определения оценки внимания для каждого из них. Это указывает на высокую эффективность архитектуры, где обе задачи решаются совместно.
Claim 19 (Независимый пункт): Описывает архитектуру системы поиска изображений.
Система включает:
attention scores и вывод набора keypoint descriptors (выбранного подмножества на основе оценок).keypoint descriptors, полученный путем обработки множества изображений базы данных этой моделью.keypoint descriptors запроса, определение совпадающих признаков путем сравнения с индексом и поиск как минимум одного совпадающего изображения.Изобретение применяется в системах визуального поиска (Image Retrieval) и затрагивает этапы индексирования и ранжирования (поиска).
INDEXING – Индексирование и извлечение признаков
Это основная область применения для построения базы данных. Система обрабатывает большой корпус изображений (database images) в офлайн-режиме. Для каждого изображения применяется Machine-learned Image Descriptor Model для извлечения Deep Local Feature Descriptors, вычисления Attention Scores и выбора финального набора Keypoint Descriptors. Эти дескрипторы сохраняются в крупномасштабном индексе.
RANKING – Ранжирование (в контексте поиска изображений)
При получении изображения запроса (query image) система в реальном времени применяет ту же модель для извлечения его Keypoint Descriptors. Затем выполняется поиск этих дескрипторов в индексе (например, с помощью Nearest Neighbor Search) для нахождения совпадающих признаков (matching features).
RERANKING – Переранжирование (в контексте поиска изображений)
Найденные совпадения проходят этап Geometric Verification для подтверждения пространственного соответствия между запросом и изображениями-кандидатами, что позволяет отфильтровать ложные срабатывания и уточнить ранжирование.
Входные данные:
Выходные данные:
Keypoint Descriptors для корпуса изображений.Процесс А: Извлечение дескрипторов (Индексирование и Обработка запроса)
Image Pyramid — несколько версий изображения в разных масштабах для обеспечения устойчивости к изменению размера объектов. Каждая версия обрабатывается независимо.Machine-learned Image Descriptor Model (например, CNN). Модель генерирует плотную сетку Local Feature Descriptors.shared layers) модель вычисляет Attention Score для каждого локального дескриптора.Attention Scores. Например, выбирается фиксированное количество дескрипторов с наивысшими оценками. Они становятся Keypoint Descriptors.Keypoint Descriptors применяются методы Dimensionality Reduction (например, L2 normalization, затем PCA, затем снова L2 normalization) для сжатия представления.Процесс Б: Поиск изображений (Retrieval)
Keypoint Descriptors запроса (результат Процесса А).Nearest Neighbor Search для поиска похожих дескрипторов в индексе базы данных.matching descriptors) между запросом и изображениями из базы.Geometric Verification для проверки пространственного соответствия совпадений и отсеивания ложных результатов.Патент фокусируется исключительно на обработке визуальных данных.
Патент не упоминает использование контентных (текстовых), ссылочных, поведенческих или иных традиционных SEO-факторов в рамках этого конкретного механизма извлечения дескрипторов.
Convolutional Neural Networks, CNN).ground-truth data). В описании упоминается возможность использования cross-entropy loss function для первого этапа обучения (извлечение признаков) и второй функции потерь для обучения механизма внимания.Attention Mechanism) является ключевым инструментом для этой фильтрации.Attention Scores, и они исключаются из финального набора Keypoint Descriptors.shared layers). Это значительно повышает скорость обработки по сравнению с последовательными методами.image-level labels), без необходимости детальной разметки объектов внутри изображений.Хотя патент описывает внутренние механизмы компьютерного зрения Google, он дает важные ориентиры для оптимизации изображений (Image SEO и Visual Search Optimization).
Attention Mechanism присвоит высокие оценки признакам основного объекта.Deep Local Feature Descriptors.Keypoint Descriptors будут относиться именно к продукту, что критично для поиска через Google Lens или поиска похожих товаров.Патент подтверждает высокий уровень развития технологий компьютерного зрения Google. Система не просто классифицирует изображение целиком, а проводит детальный анализ локальных признаков и их значимости. Это подчеркивает стратегическую важность визуального поиска как самостоятельного канала трафика, особенно для e-commerce и контента, ориентированного на объекты. SEO-стратегия должна учитывать, что для успешного ранжирования в Google Images или обнаружения через Google Lens изображение должно быть понятным для механизма внимания.
Сценарий: Оптимизация карточки товара для поиска через Google Lens
Machine-learned Image Descriptor Model проанализирует это изображение. Благодаря отсутствию шума, Attention Mechanism присвоит максимальные Attention Scores признакам самого товара. Эти чистые Keypoint Descriptors попадут в индекс.Nearest Neighbor Search) с чистыми дескрипторами в индексе будет выше, что приведет пользователя на наш сайт.Что такое механизм внимания (Attention Mechanism) в контексте этого патента?
Это компонент нейронной сети, который оценивает важность различных локальных признаков (Local Feature Descriptors), извлеченных из изображения. Он присваивает каждому признаку оценку (Attention Score). Это позволяет системе сосредоточиться на наиболее значимых частях изображения (например, основном объекте) и игнорировать нерелевантные (например, фон или шум).
В чем разница между Local Feature Descriptor и Keypoint Descriptor?
Local Feature Descriptor — это векторное представление любого локального участка изображения; модель извлекает их в большом количестве (плотная сетка). Keypoint Descriptor — это отфильтрованное подмножество локальных дескрипторов, которые получили наивысшие оценки внимания (Attention Scores). Только они используются для финального представления изображения в индексе и для поиска.
Влияет ли этот патент на ранжирование обычных веб-страниц в поиске Google?
Нет, патент напрямую не описывает алгоритмы ранжирования веб-страниц или анализа текста. Он посвящен исключительно системам поиска изображений (Image Retrieval), таким как Google Images или Google Lens. Его влияние на веб-поиск может быть только косвенным, например, если качество и релевантность изображений на странице учитываются как один из факторов ранжирования всей страницы.
Как этот механизм помогает улучшить Image SEO?
Он определяет, как именно Google "видит" и интерпретирует содержание изображения. Понимая, что система ищет четкие, значимые объекты и игнорирует шум, SEO-специалисты должны оптимизировать композицию изображений. Четкое представление основного объекта без отвлекающих факторов повышает вероятность того, что его признаки получат высокие Attention Scores и будут эффективно использоваться в поиске.
Что такое "общие слои" (Shared Layers) и почему они важны?
Это слои нейронной сети, которые используются одновременно для выполнения двух задач: извлечения локальных дескрипторов и вычисления оценок внимания. Это значительно повышает эффективность системы, поскольку обе операции выполняются за один проход данных через модель, вместо того чтобы использовать два отдельных последовательных процесса.
Что такое Пирамида Изображений (Image Pyramid) и зачем она нужна?
Это набор копий одного и того же изображения в разных масштабах (разрешениях). Система обрабатывает каждую копию независимо. Это необходимо для того, чтобы система могла распознавать объекты независимо от их размера на фотографии (инвариантность к масштабу). Например, объект, снятый крупным планом, и тот же объект, снятый издалека, будут успешно распознаны.
Что происходит на этапе снижения размерности (Dimensionality Reduction)?
На этом этапе извлеченные Keypoint Descriptors (которые являются многомерными векторами) сжимаются для более эффективного хранения в индексе и ускорения поиска. В патенте упоминается использование методов нормализации (L2 Normalization) и метода главных компонент (PCA). Это позволяет уменьшить объем данных без существенной потери точности.
Как система определяет, какие части изображения важны, при обучении?
Модель обучается на больших наборах данных (например, фотографиях достопримечательностей) с метками на уровне изображения. В процессе обучения (например, с использованием двухэтапной процедуры с разными функциями потерь) модель учится присваивать более высокие Attention Scores тем признакам, которые наиболее полезны для различения и сопоставления изображений с одинаковыми метками.
Что такое Геометрическая Верификация (Geometric Verification)?
Это финальный этап проверки при поиске. После того как система нашла похожие дескрипторы, она проверяет, сохраняется ли их взаимное пространственное расположение на изображении запроса и на изображении из базы данных. Если дескрипторы совпадают, но их расположение хаотично, совпадение считается ложным и отклоняется.
Может ли текст или водяной знак на изображении помешать работе этого алгоритма?
Да, может. Если текст или водяной знак перекрывает важную часть объекта, это может помешать извлечению качественных дескрипторов этого объекта. Кроме того, если текст сам по себе является ярким и контрастным, механизм внимания может ошибочно присвоить ему высокие Attention Scores, отвлекаясь от основного содержания изображения.

Мультимедиа
SERP
Поведенческие сигналы

Семантика и интент
Мультимедиа
SERP

Мультимедиа
SERP

Семантика и интент
Мультимедиа
SERP

Мультимедиа

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Мультимедиа
Персонализация

Свежесть контента
Ссылки
Техническое SEO

EEAT и качество
SERP
Ссылки

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам

Поведенческие сигналы
SERP

EEAT и качество
Ссылки
