Яндекс патентует метод повышения эффективности поиска по картинке (Image-to-Image/CBIR). Вместо индексации отдельных «визуальных слов», система создает «Visual Features Composite Parameters» (VFCP) — комбинацию как минимум двух визуальных элементов и их взаимосвязи (геометрической или визуальной). Это позволяет быстрее находить похожие или дублирующиеся изображения в больших базах данных.
Описание
Какую задачу решает
Патент решает задачу повышения эффективности и скорости крупномасштабного поиска изображений по содержанию (Content-Based Image Retrieval, CBIR). Традиционные подходы, основанные на модели Bag-of-Visual-Words (BoW), требуют значительных вычислительных ресурсов на этапе валидации локальных дескрипторов (например, пространственной верификации), что замедляет поиск похожих или почти идентичных (near-identical) изображений в больших репозиториях.
Что запатентовано
Запатентована система обработки, индексирования и поиска изображений, основанная на использовании «Visual Features Composite Parameter» (VFCP), или «визуальной фразы». Суть изобретения заключается в создании и использовании VFCP, который представляет собой кортеж (tuple) из как минимум двух локальных дескрипторов (визуальных слов), взятых из разных областей изображения. Опционально VFCP также включает параметр взаимосвязи областей (Region Relationship Parameter), характеризующий их пространственное расположение или визуальное соотношение.
Как это работает
Система формирует VFCP, комбинируя пары визуальных слов и данные об их отношениях (например, расстояние, угол, разницу в масштабе). Затем строится инвертированный индекс, где ключом выступает VFCP. Поскольку VFCP обладают большей различительной (дискриминативной) силой, чем отдельные слова, списки соответствий (Posting Lists) в индексе короче, что ускоряет поиск. Поиск выполняется в два этапа: (1) быстрый отбор кандидатов по индексу VFCP; (2) последующая валидация (например, геометрическая валидация) отобранных кандидатов.
Актуальность для SEO
Средняя/Высокая. Оптимизация скорости и точности CBIR остается актуальной задачей. Хотя конкретные дескрипторы, упомянутые в патенте (SIFT, k-means), сегодня часто заменяются признаками на основе глубокого обучения (CNN/Transformers), архитектурный подход использования составных признаков («визуальных фраз») для эффективного индексирования и двухэтапного поиска остается релевантным в крупномасштабных системах.
Важность для SEO
Влияние на SEO низкое (2.5/10). Патент описывает инфраструктуру для поиска по картинке (Image-to-Image search, CBIR), а не поиска по текстовым запросам (Text-to-Image) или ранжирования веб-страниц. Он не дает прямых рекомендаций по SEO-оптимизации. Однако он критически важен для понимания того, как именно Яндекс идентифицирует дубликаты, модифицированные копии и похожие изображения, что влияет на стратегии, связанные с уникальностью визуального контента.
Детальный разбор
Термины и определения
- Bag-of-Visual-Words (BoW) (Мешок визуальных слов)
- Модель представления изображения как неупорядоченного набора локальных признаков («визуальных слов»), при которой обычно игнорируется пространственная информация.
- Content-Based Image Retrieval (CBIR) (Поиск изображений по содержанию)
- Технология поиска изображений, основанная на анализе их визуального содержания. Также называется «поиск по картинке» (Image-to-Image search).
- Geometric Validation (Геометрическая валидация)
- Второй этап поиска. Процесс проверки согласованности геометрического расположения локальных дескрипторов между изображением-запросом и кандидатом. Упоминаются алгоритмы RANSAC и Clustering with Hough transform.
- Local Descriptor (Локальный дескриптор)
- Численное описание характеристик небольшой локальной области (local region) изображения. В патенте упоминается использование алгоритма SIFT (Scale-Invariant Feature Transform).
- Posting List (Список соответствий / Постинг-лист)
- Список идентификаторов изображений в инвертированном индексе, которые соответствуют определенному ключу (например, конкретному VFCP).
- Region Relationship Parameter (Параметр взаимосвязи областей)
- Параметр, характеризующий взаимосвязь между двумя локальными областями в VFCP. Может включать геометрическое расположение (Spatial Information) или визуальные соотношения (Visual Relationship), такие как соотношение контраста, цвета или масштаба.
- Visual Features Composite Parameter (VFCP) (Составной параметр визуальных признаков)
- Ключевое понятие патента, «визуальная фраза». Кортеж (tuple), включающий как минимум два локальных дескриптора (визуальных слова) из разных областей изображения. Может также включать Region Relationship Parameter. Обладает более высокой дискриминативной способностью, чем отдельные слова.
- Visual Word (Визуальное слово)
- Квантованное представление локального дескриптора. Получается с использованием визуального словаря (например, созданного через k-means кластеризацию).
Ключевые утверждения (Анализ Claims)
Патент защищает три основных аспекта: метод создания составных признаков (VFCP), их индексацию и использование в поиске.
Claim 1 (Независимый пункт): Описывает метод обработки изображения для создания VFCP.
- Идентификация первой и второй локальных областей изображения.
- Определение первого и второго визуальных слов, связанных с этими областями.
- Определение Visual Features Composite Parameter (VFCP), включающего эти два визуальных слова.
Это ядро изобретения — создание составного признака из как минимум двух отдельных визуальных элементов.
Claims 2-6 (Зависимые): Уточняют, что VFCP может дополнительно включать информацию о взаимосвязи (Relationship Information) — пространственную (Claim 3) и/или визуальную (Claims 4-6), такую как соотношение масштабов, цветов или контраста. Это кодирует контекст взаимосвязи слов.
Claim 12 (Независимый пункт): Описывает метод генерации индекса.
- Определение ключа для индекса. Ключ включает как минимум часть VFCP (созданного по Claim 1).
- Сохранение индикатора изображения в Posting List, связанном с этим ключом.
Это механизм индексации, использующий VFCP (а не отдельные слова) как основу для ключа инвертированного индекса.
Claims 13-19 (Зависимые): Уточняют состав ключа. Он может состоять из двух визуальных слов, включать квантованные параметры связи или представлять собой полностью квантованный VFCP. Остаток VFCP (если в ключе использовалась только часть) может храниться в Posting List (Claim 19). Это обеспечивает гибкость в проектировании индекса.
Claim 20 (Независимый пункт): Описывает метод поиска соответствия (CBIR).
- Получение изображения-запроса и определение его VFCP.
- Проведение многоэтапного поиска:
- Этап 1: Выборка кандидатов путем доступа к индексу (построенному по Claim 12).
- Этап 2: Валидация кандидатов относительно запроса с использованием соответствующих локальных дескрипторов (например, геометрическая валидация).
Это описание двухэтапного процесса поиска: быстрое извлечение по индексу VFCP и последующая точная проверка.
Где и как применяется
Изобретение применяется исключительно в инфраструктуре поиска изображений (CBIR) и не затрагивает механизмы Веб-поиска.
INDEXING – Индексирование и извлечение признаков
Применение происходит на этапе индексации изображений из репозитория (офлайн). Компонент, отвечающий за управление изображениями (Image Management Application), выполняет извлечение локальных дескрипторов (например, SIFT), квантует их в визуальные слова и формирует VFCP. Затем строится инвертированный индекс на основе этих VFCP.
RANKING – Ранжирование (в контексте поиска по картинке)
Применяется онлайн при выполнении запроса типа image-to-image.
- Stage 1 (Candidate Selection / Retrieval): Быстрое извлечение кандидатов из индекса по совпадению VFCP запроса с ключами индекса. Это заменяет традиционный поиск по отдельным визуальным словам.
- Stage 2 (Verification and Ranking / Re-ranking): Геометрическая валидация (упоминаются RANSAC или Clustering with Hough transform) отобранных кандидатов для подтверждения пространственной согласованности признаков и финального ранжирования.
На что влияет
- Специфические запросы: Влияет исключительно на запросы типа «Поиск по картинке» (CBIR). Не влияет на текстовые запросы.
- Типы контента: Влияет на способность системы находить похожие (near-identical) или дубликаты изображений. Это включает обрезанные, измененные в размере или качестве версии, зашумленные версии и даже изображения, снятые с другого ракурса (different 3D vantage point).
Когда применяется
- Офлайн: В процессе сканирования и индексирования изображений в базе Яндекса.
- Онлайн: Активируется, когда пользователь инициирует поиск по изображению (загружает картинку или указывает URL).
Пошаговый алгоритм
Процесс А: Индексирование (Офлайн)
- Получение изображения: Система получает изображение для индексации.
- Извлечение признаков: Определение локальных областей и вычисление локальных дескрипторов (например, SIFT).
- Квантование: Преобразование дескрипторов в Визуальные Слова с использованием визуального словаря (например, обученного через k-means).
- Формирование VFCP:
- Выбор как минимум двух локальных областей. Выбор может быть случайным или по алгоритму (например, максимизация расстояния или визуальных различий между областями).
- Вычисление параметров их взаимосвязи (геометрических и/или визуальных). Например, угол между доминантными векторами областей или угол между линией, соединяющей центры областей, и горизонталью.
- Формирование VFCP как кортежа (Слово 1, Слово 2, Параметр взаимосвязи).
- Построение индекса:
- Определение ключа индекса на основе VFCP (например, квантованная версия всего VFCP или его части).
- Добавление ID изображения в Posting List, соответствующий этому ключу. Если используется только часть VFCP как ключ, остаток может быть сохранен в Posting List.
Процесс Б: Поиск (Онлайн)
- Получение запроса: Получение изображения-запроса.
- Анализ запроса: Вычисление VFCP для запроса (аналогично Процессу А).
- Этап 1 (Отбор кандидатов): Поиск в индексе по ключам, соответствующим VFCP запроса. Извлечение кандидатов из Posting Lists. Опциональное ранжирование по количеству совпавших VFCP.
- Этап 2 (Верификация и Ранжирование): Выполнение геометрической валидации (например, RANSAC) для проверки согласованности пространственного расположения локальных дескрипторов. Финальное ранжирование на основе результатов валидации (например, по количеству согласованных признаков). Опционально может выполняться попиксельная валидация уменьшенных копий (thumbnail validation).
Какие данные и как использует
Данные на входе
Система, описанная в патенте, использует исключительно визуальные данные.
- Мультимедиа факторы (Визуальные): Основные входные данные — это пиксельные данные изображений. Из них извлекаются локальные характеристики областей (цвет, контраст, текстура).
- Структурные факторы (Пространственные/Геометрические):
- Координаты локальных областей (ключевых точек).
- Пространственные взаимосвязи между областями (расстояние, угол, доминантные векторы).
- Масштаб (Scale) локальных областей.
Другие типы факторов (текстовые, ссылочные, поведенческие и т.д.) в данном патенте не используются.
Какие метрики используются и как они считаются
- Локальные дескрипторы: Метрики, описывающие локальные регионы. Упоминается алгоритм SIFT.
- Визуальные слова: Получаются путем квантования дескрипторов (упомянута кластеризация k-means).
- Region Relationship Parameters (Параметры взаимосвязи областей): Метрики, описывающие связь между двумя регионами.
- Геометрические: Угол между горизонталью и линией, соединяющей центры областей; угол между доминантными векторами областей; расстояние.
- Визуальные: Соотношение масштабов, контрастов, цветов.
- VFCP: Составная метрика (кортеж), агрегирующая визуальные слова и параметры взаимосвязи. Компоненты могут быть квантованы (дискретизированы) для использования в индексе.
- Метрики ранжирования и валидации:
- На Этапе 1: Количество совпадающих VFCP.
- На Этапе 2: Метрики геометрической валидации (RANSAC, Clustering with Hough transform). Ранг определяется количеством геометрически согласованных локальных признаков.
Выводы
- Переход от «Слов» к «Фразам»: Ключевая инновация — использование «визуальных фраз» (VFCP) вместо отдельных «визуальных слов» (BoW). VFCP кодирует не только признаки, но и их взаимосвязь (геометрию или визуальные отношения).
- Фокус на эффективности CBIR: Патент описывает инфраструктурное решение для ускорения поиска по картинке. VFCP обладают большей различительной способностью, что приводит к более коротким спискам соответствий в индексе и ускоряет поиск кандидатов.
- Двухэтапная архитектура поиска: Поиск состоит из быстрого отбора кандидатов по индексу VFCP (Stage 1) и последующей точной геометрической валидации (Stage 2).
- Устойчивость к модификациям и эффективное обнаружение дубликатов: Система предназначена для надежного обнаружения не только полных дубликатов, но и модифицированных версий изображений (обрезанных, сжатых, зашумленных).
- Отсутствие прямого влияния на веб-SEO: Изобретение не влияет на ранжирование веб-страниц или ранжирование изображений по текстовым запросам. Оно важно для понимания механизмов обнаружения визуальных дубликатов в Яндексе.
Практика
Практическое применение в SEO
Этот патент является инфраструктурным и касается в первую очередь поиска по картинке (CBIR). Прямое влияние на ранжирование в веб-поиске минимально, но он дает важное понимание того, как Яндекс оценивает уникальность визуального контента.
Best practices (это мы делаем)
- Приоритет уникального визуального контента: Система Яндекса, использующая VFCP, эффективно идентифицирует дубликаты и незначительные модификации. Необходимо фокусироваться на создании оригинальных изображений. При использовании стоковых фото требуется их существенная переработка или интеграция в уникальную инфографику.
- Обеспечение высокого качества изображений: Анализ основан на выделении локальных дескрипторов (например, SIFT). Четкие, контрастные изображения с хорошо различимыми деталями позволяют системе точнее извлечь VFCP и корректно индексировать контент.
- Использование для мониторинга контента: Эта технология лежит в основе обратного поиска по картинке. SEO-специалисты должны использовать его для выявления несанкционированного копирования изображений, что может быть использовано для линкбилдинга или защиты авторских прав.
Worst practices (это делать не надо)
- Псевдо-уникализация изображений: Незначительное кадрирование, изменение яркости/контраста, наложение шума или водяных знаков не помешают системе определить, что это одно и то же изображение. Механизм VFCP и геометрическая валидация устойчивы к таким модификациям.
- Использование исключительно стоковых изображений: Контент, состоящий только из неуникальных изображений, не дает преимуществ в визуальном поиске и может негативно влиять на общую оценку качества ресурса.
- Использование изображений очень низкого качества: Сильно сжатые или размытые изображения могут не содержать достаточного количества деталей для извлечения надежных локальных признаков и VFCP.
Стратегическое значение
Патент подтверждает техническую сложность системы Яндекса по анализу визуального контента. Он показывает, что уникальность изображения определяется на основе его визуальной структуры и геометрии. Стратегия работы с визуальным контентом должна строиться на качестве и оригинальности; попытки манипулировать уникальностью путем незначительных правок неэффективны.
Практические примеры
Сценарий: Фотографии товаров в E-commerce
- Ситуация: Множество интернет-магазинов используют одну и ту же фотографию товара от производителя.
- Действие системы: Яндекс извлекает VFCP для этой фотографии. Все экземпляры на разных сайтах связываются в индексе через общие VFCP и идентифицируются как одно и то же изображение.
- Результат для SEO: При поиске по картинкам Яндекс, скорее всего, сгруппирует эти результаты или выберет наиболее авторитетный источник в качестве основного. Магазины с неуникальными фото не получают преимуществ в визуальном поиске.
- Рекомендация: Создавать собственные уникальные фотографии товаров (разные ракурсы, детализация, lifestyle-фото). Это позволит сгенерировать уникальные VFCP и повысит шансы на видимость в визуальном поиске.
Вопросы и ответы
Что такое Visual Features Composite Parameter (VFCP) простыми словами?
VFCP можно представить как «визуальную фразу». Если обычный подход рассматривает изображение как набор отдельных «визуальных слов» (мелких деталей), то VFCP объединяет как минимум два таких «слова» и их взаимосвязь (например, как далеко они друг от друга или как соотносятся их масштабы). Это делает описание изображения более точным и уникальным.
Влияет ли этот патент на ранжирование сайта в обычном текстовом поиске или поиске по картинкам по тексту?
Нет, напрямую не влияет. Этот патент описывает исключительно механизмы работы поиска по изображению (CBIR), когда пользователь загружает картинку в качестве запроса. Он не касается текстовых факторов, метаданных (Alt-текстов) или ссылок, используемых в других типах поиска.
Если я немного отредактирую картинку (например, обрежу или изменю яркость), Яндекс посчитает ее уникальной?
Скорее всего, нет. Описанная система использует локальные инвариантные признаки (упоминается SIFT) и геометрическую верификацию. Это позволяет ей обнаруживать сходство даже при значительном редактировании: обрезке, изменении масштаба, наложении шума и даже при изменении точки съемки. Незначительные правки не сделают изображение уникальным для этой системы.
Как использование VFCP ускоряет поиск?
VFCP более уникальны (дискриминативны), чем отдельные визуальные слова. В индексе меньше изображений будут соответствовать конкретному VFCP. Это приводит к более коротким спискам кандидатов (Posting Lists) на первом этапе поиска. В результате системе нужно проверять меньше изображений на втором, более медленном этапе (геометрической верификации).
Что такое геометрическая верификация (Stage 2)?
Это процесс проверки пространственного расположения совпадающих признаков. Недостаточно, чтобы два изображения содержали одинаковые детали; важно, чтобы эти детали располагались одинаково относительно друг друга. Например, проверка того, что нос находится под глазами на правильном расстоянии. Для этого используются алгоритмы вроде RANSAC.
Использует ли Яндекс нейросети (например, YATI) в этом патенте?
В тексте патента (подан в 2014 году) нейросети не упоминаются. Упоминаются традиционные методы компьютерного зрения, такие как SIFT и кластеризация k-means. Хотя сегодня Яндекс использует более современные подходы на основе глубокого обучения для извлечения признаков, общая двухэтапная архитектура поиска (индекс + верификация), описанная здесь, остается актуальной.
Как этот патент влияет на работу с изображениями в E-commerce?
Он подчеркивает критическую важность создания уникальных фотографий товаров. Если магазин использует стандартные фото от поставщика, система легко определит это как дубликат. Уникальные фотографии (с разных ракурсов, с деталями) позволят выделиться в поиске по картинкам и привлечь трафик от пользователей, ищущих товар визуально.
Влияет ли качество (разрешение, четкость) изображения на работу этого алгоритма?
Да, влияет. Для надежного извлечения локальных дескрипторов (SIFT) и формирования VFCP изображение должно быть достаточно четким и детализированным. Изображения очень низкого качества могут быть плохо обработаны системой, так как на них сложно выделить устойчивые ключевые точки.
Как система выбирает, какие именно регионы изображения использовать для создания VFCP?
В патенте описано несколько вариантов. Выбор может быть случайным. Альтернативно, может использоваться алгоритм, который целенаправленно старается выбрать регионы, максимально удаленные друг от друга, или регионы, которые максимально визуально отличаются друг от друга (например, по контрасту или масштабу), чтобы повысить различительную способность VFCP.
Какова основная польза этого патента для SEO-специалиста?
Основная польза заключается в понимании того, насколько продвинуты механизмы Яндекса по определению уникальности визуального контента. Это подтверждает, что стратегия должна фокусироваться на создании оригинальных изображений, а не на попытках технической уникализации существующих картинок путем незначительных правок.