Яндекс патентует метод ускорения поиска по картинке (CBIR). Вместо индексации отдельных «визуальных слов» (Bag-of-Words), система использует «Составной параметр визуальных признаков» (VFCP). VFCP объединяет несколько визуальных слов и информацию об их взаимном расположении (геометрии, углах, масштабе). Это позволяет Яндексу анализировать композицию изображения и значительно ускоряет поиск похожих или почти идентичных картинок.
Описание
Какую задачу решает
Патент решает проблему низкой эффективности и скорости крупномасштабного поиска изображений по содержанию (Content-Based Image Retrieval, CBIR). Традиционный подход «мешка визуальных слов» (Bag-of-Visual-Words, BoW) индексирует отдельные признаки без учета их расположения. Это требует ресурсоемкого этапа постобработки (пространственной верификации, например, RANSAC) для проверки большого количества кандидатов. Изобретение направлено на снижение вычислительной нагрузки и ускорение поиска.
Что запатентовано
Запатентована система индексации и поиска изображений, основанная на «Составном параметре визуальных признаков» (Visual Features Composite Parameter, VFCP). Суть изобретения — включение информации о взаимном расположении (геометрических и/или визуальных отношениях) двух или более локальных признаков непосредственно в индексный ключ. VFCP — это кортеж (tuple), включающий как минимум два локальных дескриптора и параметры их взаимосвязи.
Как это работает
При индексации система не просто идентифицирует локальные признаки («визуальные слова»), но и формирует VFCP, объединяя пары признаков и информацию об их отношениях (например, расстояние, угол, соотношение масштабов). Этот составной параметр используется как ключ в индексе. Поскольку VFCP обладает более высокой различительной способностью (Discriminative Power), чем отдельное слово, списки соответствий в индексе становятся короче. Поиск выполняется в два этапа: быстрый отбор кандидатов по VFCP (Стадия 1), а затем точная геометрическая валидация на сокращенном списке (Стадия 2).
Актуальность для SEO
Высокая (для инфраструктуры). Идея раннего включения пространственной информации для повышения эффективности CBIR актуальна. Хотя конкретные методы, упомянутые в патенте (SIFT для дескрипторов), являются классическими и часто дополняются методами глубокого обучения, описанная архитектура индексации, учитывающая композицию, и многоэтапный поиск остаются стандартом.
Важность для SEO
Влияние на SEO среднее (5/10). Это инфраструктурный патент, который не влияет на ранжирование в веб-поиске или по текстовым запросам. Однако он имеет критическое значение для Image SEO и VSEO (Visual SEO), так как описывает механизм, который Яндекс использует для понимания композиции изображений и эффективной дедупликации. Понимание этого механизма необходимо для разработки стратегий по созданию уникального визуального контента.
Детальный разбор
Термины и определения
- Bag-of-Visual-Words (BoW) (Мешок визуальных слов)
- Стандартная модель, где изображение рассматривается как неупорядоченный набор локальных признаков («визуальных слов»). Пространственная информация игнорируется на начальном этапе поиска.
- Content-Based Image Retrieval (CBIR) (Поиск изображений по содержанию)
- Процесс поиска похожих изображений на основе визуального содержания исходного изображения (поиск «картинка-по-картинке» или Reverse Image Search).
- Discriminative Power (Различительная способность)
- Способность признака (например, VFCP) описать конкретное изображение и отличить его от других или связать с почти идентичными копиями.
- Geometric Co-location Information (Информация о геометрическом совместном расположении)
- Данные, описывающие взаимное расположение двух локальных областей. В патенте определяется как расположение ключевой точки первой области относительно ключевой точки второй области; может включать углы.
- Local Descriptor (Локальный дескриптор)
- Численное описание визуальных характеристик локальной области изображения. В патенте упоминается алгоритм SIFT как пример.
- Posting List (Список соответствий)
- Список идентификаторов изображений в индексе, которые содержат определенный ключ (VFCP).
- Visual Features Composite Parameter (VFCP) (Составной параметр визуальных признаков)
- Ключевое понятие патента. Кортеж (tuple), состоящий как минимум из двух визуальных слов и параметра отношения регионов (Region Relationship Parameter). Также называется «визуальной фразой».
- Visual Word (Визуальное слово)
- Квантованное представление локального дескриптора, полученное с использованием визуального словаря (например, через k-means кластеризацию).
Ключевые утверждения (Анализ Claims)
Ядром изобретения является создание и использование VFCP, который обязательно включает геометрическую информацию, для повышения эффективности индексирования и поиска.
Claim 1 (Независимый пункт): Описывает метод обработки изображения для индексации.
- Идентификация первой и второй локальных областей изображения.
- Определение первого и второго визуальных слов (локальных дескрипторов), связанных с этими областями.
- Определение VFCP, который включает эти два визуальных слова И информацию об отношениях (relationship information) между областями.
- Критически важно: Эта информация об отношениях должна включать информацию о геометрическом совместном расположении (geometric co-location information).
- Конкретизация: Геометрическая информация определяется как расположение ключевой точки первой области относительно ключевой точки второй области.
- Определение ключа для индекса, включающего как минимум часть этого VFCP.
- Сохранение индикатора изображения в списке соответствий (posting list), связанном с этим ключом.
Основная инновация заключается в том, что пространственная информация (геометрия) встраивается непосредственно в структуру индекса через VFCP, а не используется только на этапе пост-обработки.
Claim 11 (Независимый пункт): Описывает метод поиска соответствия изображению (CBIR).
- Получение изображения для поиска (запроса).
- Определение VFCP для этого изображения (включая ту же специфическую геометрическую информацию, что и в Claim 1).
- Проведение многоэтапного поиска:
- Выбор изображений-кандидатов путем доступа к индексу, основанному на VFCP.
- Валидация изображений-кандидатов относительно поискового изображения с использованием соответствующих локальных дескрипторов (т.е. геометрическая верификация).
Описан двухэтапный процесс поиска. Первый этап (поиск кандидатов) ускоряется за счет использования индекса на основе VFCP. Второй этап (валидация) выполняет точную проверку на сокращенном списке кандидатов.
Где и как применяется
Изобретение применяется в подсистеме поиска изображений (например, Яндекс.Картинки), конкретно в функциональности «Поиск по картинке» (CBIR) и системах дедупликации.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная обработка изображений. Система извлекает локальные дескрипторы (например, SIFT), квантует их в визуальные слова и формирует VFCP, включая расчет геометрических и визуальных отношений между парами регионов. Затем строится обратный индекс, где ключами служат VFCP.
RANKING – Ранжирование (Поиск по изображению)
Алгоритм применяется во время выполнения запроса CBIR и состоит из двух стадий:
- Стадия 1 (Retrieval/Candidate Selection): Эквивалент L1. Система использует VFCP поискового изображения для быстрого доступа к индексу и извлечения кандидатов. За счет высокой различительной способности VFCP количество кандидатов невелико.
- Стадия 2 (Verification/Ranking): Эквивалент L2/L3. Выполняется геометрическая валидация кандидатов (например, с помощью RANSAC или Clustering with Hough transform) для проверки пространственной согласованности локальных дескрипторов.
На что влияет
- Типы запросов: Влияет исключительно на запросы типа «изображение-в-изображение» (Image-to-Image search или CBIR). Не влияет на текстовые поисковые запросы по изображениям.
- Типы контента: Влияет на способность системы находить точные дубликаты и «почти дубликаты» (near identical images). Это включает изображения, которые были изменены: обрезаны, смазаны, сжаты, содержат шум, вставлены как часть другого изображения или сняты с другого ракурса.
- Ниши: Критически важно для e-commerce (поиск похожих товаров по фото, дедупликация предложений) и любых сервисов, работающих с большими объемами визуального контента.
Когда применяется
- При индексации (Офлайн): Каждый раз, когда новое изображение добавляется в репозиторий или обновляется индекс.
- При поиске (Онлайн): Каждый раз, когда пользователь использует функцию «Поиск по картинке».
- Офлайн-процессы: Патент упоминает возможность выполнения части процессов (например, группировка почти идентичных изображений и выбор репрезентативного изображения для хранения в индексе) офлайн для дальнейшего ускорения онлайн-поиска.
Пошаговый алгоритм
Процесс А: Индексирование изображения (Офлайн)
- Получение изображения.
- Идентификация локальных областей: Выделение значимых областей (salient regions). Выбор пар областей для анализа может быть случайным или основанным на алгоритме (например, выбор максимально удаленных или визуально различных областей).
- Определение визуальных слов: Для каждой области вычисляется локальный дескриптор (например, SIFT). Дескрипторы квантуются с использованием визуального словаря (например, через k-means).
- Формирование VFCP: Создание составного параметра для выбранной пары. VFCP включает: Визуальное слово 1, Визуальное слово 2 и Параметр отношения регионов.
- Расчет параметров отношений: Включает обязательную геометрическую информацию (взаимное расположение ключевых точек). Может также включать углы (угол φ между горизонталью и линией соединения центров; угол θ между доминирующими векторами областей) и визуальные отношения (соотношение масштабов, контраста, цвета).
- Генерация ключа индекса: Компоненты VFCP могут быть квантованы. Ключ определяется на основе всего VFCP или его части.
- Сохранение в индексе: Идентификатор изображения сохраняется в Posting List, связанном с ключом. Если для ключа использовалась только часть VFCP, остаток может быть сохранен в самом Posting List.
Процесс Б: Поиск по изображению (Онлайн)
- Получение запроса: Система получает изображение-запрос.
- Расчет VFCP запроса: Аналогично Процессу А.
- Стадия 1 (Выбор кандидатов): Система использует VFCP запроса как ключи для доступа к индексу. Извлекаются списки соответствий (Posting Lists). Кандидаты могут быть предварительно ранжированы по количеству совпавших VFCP.
- Стадия 2 (Валидация и Ранжирование): Выполняется геометрическая валидация кандидатов. Система проверяет согласованность расположения локальных дескрипторов (используя RANSAC или Clustering with Hough transform).
- (Опционально) Валидация по миниатюрам (Thumbnail validation): Попиксельное сравнение миниатюр запроса и кандидата.
- Формирование выдачи: Кандидаты ранжируются на основе результатов валидации (например, по количеству согласованно расположенных локальных признаков).
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Основной источник данных — пиксельные данные изображений.
- Визуальные факторы (извлеченные):
- Локальные дескрипторы (Visual Words), например, признаки SIFT.
- Визуальные отношения (Visual Relationship Information): соотношение масштабов, цветов, контраста между локальными областями.
- Геометрические/Пространственные факторы (извлеченные):
- Координаты ключевых точек локальных областей.
- Geometric Co-location Information: взаимное расположение ключевых точек (обязательный компонент по Claim 1).
- Углы (φ и θ), описывающие взаимную ориентацию областей (упомянуты в описании).
Какие метрики используются и как они считаются
- Вычисление локальных дескрипторов: Упоминается алгоритм SIFT.
- Квантование и Визуальный словарь: Упоминается техника k-means кластеризации для обучения векторного квантайзера и преобразования дескрипторов в визуальные слова.
- Расчет параметров отношений: Вычисление геометрических (расстояния, углы φ и θ) и визуальных (соотношения масштабов, контраста) метрик между парами локальных областей.
- Геометрическая валидация: Упоминаются алгоритмы RANSAC и Clustering with Hough transform для проверки пространственной согласованности на Стадии 2 поиска.
Выводы
- От слов к фразам (Учет композиции): Яндекс использует для индексации изображений не только изолированные визуальные слова (BoW), но и композитные признаки – «визуальные фразы» (VFCP). Это позволяет кодировать композицию изображения.
- Геометрия как обязательная часть индекса: Ключевым элементом VFCP является обязательное (согласно Claim 1) включение информации о геометрическом расположении (положение ключевых точек). Яндекс индексирует не только то, ЧТО изображено, но и то, КАК элементы расположены относительно друг друга.
- Фокус на эффективности CBIR: Основная цель внедрения VFCP – повышение скорости поиска похожих изображений. VFCP обладают высокой различительной способностью, что сокращает списки кандидатов и снижает нагрузку на этап валидации.
- Устойчивость к модификациям (Дедупликация): Система предназначена для эффективного обнаружения «почти дубликатов» (обрезанных, масштабированных, зашумленных изображений). Это основа системы дедупликации визуального контента.
- Инфраструктурный характер: Патент описывает внутреннюю архитектуру анализа изображений и имеет ограниченное влияние на стандартные SEO-стратегии (оптимизацию под текстовые запросы).
Практика
Best practices (это мы делаем)
Хотя патент инфраструктурный, понимание его механизмов критически важно для Image SEO и VSEO:
- Приоритет качества и четкости изображений: Используйте изображения высокого разрешения с хорошей четкостью. Это позволяет поисковой системе более точно извлекать локальные дескрипторы (как SIFT) и генерировать надежные VFCP, что важно для корректной обработки контента и его находимости через Визуальный Поиск.
- Создание уникальных визуальных композиций: Поскольку Яндекс индексирует взаимное расположение элементов (VFCP), уникальная композиция помогает дифференцировать ваш контент. Для ключевых активов (фото товаров, иллюстрации) стремитесь к оригинальной подаче и собственным фотографиям, а не использованию стандартных стоковых фото или фото производителя.
- Использование Reverse Image Search для Outreach: Понимая, что Яндекс обладает эффективным инструментом поиска похожих изображений (основанным на этой технологии), SEO-специалисты должны активно использовать его для отслеживания распространения своего визуального контента и выявления возможностей для линкбилдинга.
Worst practices (это делать не надо)
- Попытки «уникализации» изображений поверхностными изменениями: Использование методов, таких как легкое размытие, добавление шума, минимальный кроппинг, зеркалирование или изменение масштаба с целью скрыть дублированный контент, неэффективно. VFCP и последующая геометрическая валидация предназначены для обнаружения таких «почти дубликатов».
- Исключительное использование стоковых фото: Полная зависимость от неуникального визуального контента приведет к тому, что ваши изображения будут легко идентифицированы как дубликаты через VFCP-матчинг и могут быть пессимизированы или склеены в выдаче Яндекс Картинок.
- Агрессивные водяные знаки и перекрытия: Размещение крупных водяных знаков или текстовых оверлеев поверх ключевых визуальных элементов может исказить расчет локальных дескрипторов и нарушить формирование VFCP, ухудшая обнаруживаемость изображения через поиск по образцу.
Стратегическое значение
Патент подтверждает, что Яндекс обладает сложными технологиями компьютерного зрения для анализа визуального контента, выходящими за рамки простого распознавания объектов. Приоритет отдается пониманию структуры и композиции изображения. Для SEO это подчеркивает стратегическую важность инвестиций в создание оригинального, качественного визуального контента, а не попыток манипулирования путем псевдо-уникализации.
Практические примеры
Сценарий 1: Оптимизация фотографий товаров в E-commerce
- Ситуация: Несколько магазинов продают одну модель кроссовок, используя стандартное фото от производителя (вид сбоку).
- Как работает система: Яндекс индексирует это фото. Он выделяет ключевые VFCP, например, (Дескриптор Логотипа + Дескриптор Шнурка + Геометрическое отношение между ними). У всех магазинов эти VFCP идентичны. В поиске по картинкам Яндекс, скорее всего, покажет только один вариант.
- Действия SEO-специалиста: Создать уникальные фотографии товара с разных ракурсов и в уникальной композиции (например, фото на модели в движении).
- Результат: Новые фотографии генерируют новые VFCP. Эти изображения распознаются как уникальный контент, увеличивая шансы на появление в выдаче Яндекс Картинок и привлечение трафика через визуальный поиск.
Сценарий 2: Использование технологии для линкбилдинга (Outreach)
- Действие SEO-специалиста: Публикация уникальной инфографики или авторской фотографии на сайте.
- Применение технологии: Через некоторое время специалист использует Поиск по Картинке (Reverse Image Search), загружая свое изображение.
- Работа системы (на базе патента): Система генерирует VFCP и быстро находит в индексе все сайты, которые скопировали изображение, даже если они его обрезали или изменили размер. Система эффективно работает благодаря VFCP и геометрической валидации.
- Результат для SEO: Специалист получает список сайтов, использующих его контент. Он может связаться с владельцами этих сайтов и попросить поставить обратную ссылку на первоисточник.
Вопросы и ответы
Что такое VFCP и чем он отличается от обычных визуальных слов (BoW)?
VFCP (Visual Features Composite Parameter) — это составной признак, который можно назвать «визуальной фразой». В отличие от модели BoW, которая рассматривает визуальные слова как независимые элементы, VFCP объединяет два или более визуальных слова и информацию об их взаимном расположении (геометрия, углы, соотношение масштабов). Это позволяет учитывать пространственный контекст и композицию уже на этапе индексации.
Влияет ли этот патент на ранжирование сайта в основном веб-поиске или в Яндекс.Картинках по тексту?
Нет, не влияет. Патент описывает исключительно метод для поиска похожих изображений по образцу (Content-Based Image Retrieval, CBIR), то есть функциональность «Поиск по картинке». Он не затрагивает алгоритмы ранжирования веб-поиска или ранжирование изображений по текстовым запросам.
Зачем Яндекс использует VFCP?
Для ускорения поиска и снижения вычислительной нагрузки. VFCP обладает гораздо большей различительной способностью, чем отдельные визуальные слова. Это означает, что меньше изображений будут иметь одинаковый VFCP. В результате списки кандидатов для проверки становятся короче, что ускоряет весь процесс поиска похожих изображений.
Могу ли я как SEO-специалист оптимизировать свои изображения под этот алгоритм?
Напрямую оптимизировать под VFCP невозможно, так как это низкоуровневый визуальный признак. Однако вы можете повлиять косвенно: используя качественные, четкие изображения, вы помогаете системе стабильно выделять признаки. Создавая уникальные композиции, вы генерируете уникальные VFCP, что помогает в Image SEO.
Означает ли этот патент, что уникализировать картинки путем обрезки или изменения размера бесполезно?
Да, именно так. Алгоритмы, использующие локальные дескрипторы (как SIFT) и геометрическую валидацию (RANSAC), специально разработаны для устойчивости к изменениям масштаба, поворотам, обрезке и шуму. Система VFCP предназначена для обнаружения таких «почти дубликатов». Поверхностная уникализация не скроет исходное изображение от системы.
Какие конкретные технологии компьютерного зрения упоминаются в патенте?
В патенте упоминаются несколько ключевых технологий. Для извлечения локальных дескрипторов упоминается SIFT. Для создания визуального словаря и квантования упоминается кластеризация k-means. Для этапа геометрической валидации (Стадия 2) упоминаются RANSAC и «Clustering with Hough transform».
Использует ли Яндекс нейросети в этом алгоритме?
В тексте данного патента (подача 2014 год) нейросети или методы глубокого обучения не упоминаются. Алгоритм основан на классических методах компьютерного зрения (SIFT, k-means). Хотя современные системы Яндекса используют нейросети для анализа изображений, описанный здесь механизм опирается на традиционные подходы к формированию и индексации локальных признаков.
Что такое «параметр отношения регионов» в составе VFCP?
Это информация, описывающая взаимосвязь между двумя локальными областями. Согласно Claim 1, она включает обязательную геометрическую информацию (взаимное расположение ключевых точек). Дополнительно (согласно описанию) она может включать углы (φ и θ), а также визуальные отношения — например, соотношение масштаба областей, разницу в контрасте или цвете.
Что такое геометрическая валидация и зачем она нужна?
Это второй этап поиска. После того как были найдены изображения с похожими VFCP, система должна убедиться, что это не случайное совпадение. Геометрическая валидация (например, RANSAC) проверяет, согласуется ли пространственное расположение всех общих локальных признаков на изображении-запросе и изображении-кандидате. Это позволяет подтвердить, что объекты действительно расположены одинаково.
В чем основная ценность этого патента для SEO-команды?
Основная ценность заключается в понимании технологических возможностей Яндекса по дедупликации изображений. Это знание подтверждает необходимость создания действительно уникального визуального контента и позволяет эффективно использовать инструмент Reverse Image Search для аналитики и линкбилдинга, хотя и не предоставляет конкретных тактик для улучшения ранжирования.