Как Яндекс автоматически создает датасеты для обучения компьютерного зрения, используя логи и поведение пользователей в Поиске по картинкам

Яндекс патентует метод автоматического создания размеченных наборов данных для обучения моделей машинного зрения, минуя ручной труд. Система анализирует логи вертикального поиска по картинкам, кластеризует запросы (на основе текста или визуальных признаков кликнутых изображений) и использует ID кластера как метку для связанных изображений. Поведенческие метрики (CTR) используются для фильтрации качества и определения визуального интента.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в области машинного обучения, особенно для компьютерного зрения: необходимость в огромных объемах размеченных данных для обучения нейронных сетей и моделей глубинного обучения. Ручная разметка экспертами (асессорами) является дорогостоящей, медленной и подверженной субъективным оценкам. Существующие публичные датасеты не всегда соответствуют реальным запросам пользователей в вертикальном поиске. Патент предлагает способ автоматизации создания обучающих наборов данных, используя логи поисковой системы и данные о поведении пользователей.

Что запатентовано

Запатентована система и способ автоматического формирования обучающего набора (Training Set) для алгоритма машинного обучения (MLA), предназначенного для классификации изображений. Суть изобретения заключается в использовании логов вертикального поиска изображений (запросы, результаты и метрики взаимодействия, такие как CTR) для кластеризации запросов. Идентификатор кластера используется как автоматическая метка (Cluster Label) для связанных изображений, что позволяет генерировать обучающие данные без ручного труда.

Как это работает

Система анализирует логи поиска по картинкам. Ключевой процесс — генерация векторов запросов (Query Vectors) и их последующая кластеризация. Описаны два основных метода:

Текстовый метод (Вариант 1): Вектор запроса формируется из текста запроса с применением Word Embeddings (например, word2vec). Кластеризуются семантически похожие запросы.
Визуально-поведенческий метод (Вариант 2): Вектор запроса формируется на основе агрегации векторов визуальных признаков (Feature Vectors) изображений, по которым были клики. При этом векторы признаков взвешиваются по их метрикам (например, CTR). Кластеризуются запросы, ведущие к визуально похожим результатам.

Изображения, связанные с запросами внутри кластера (часто фильтруемые по высокому CTR), собираются и им присваивается метка кластера. Этот датасет используется для предварительного («грубого») обучения MLA.

Актуальность для SEO

Высокая. Автоматическое генерирование датасетов, предварительное обучение (Pre-training) и использование поведения пользователей как основного сигнала релевантности (Ground Truth) для сбора обучающих данных являются стандартной практикой в современных ML-пайплайнах крупных технологических компаний.

Важность для SEO

Низкое прямое влияние (3/10). Это инфраструктурный патент, описывающий, как Яндекс обучает свои внутренние модели компьютерного зрения, а не алгоритм ранжирования. Однако он имеет важное стратегическое значение для SEO в Яндекс Картинках: система в значительной степени полагается на взаимодействие пользователей (CTR и клики) для определения того, какие изображения релевантны запросу. Поведенческие факторы буквально обучают базовые AI-модели Яндекса.

Детальный разбор

Термины и определения

CTR (Click-Through Rate, Коэффициент переходов)

Метрика действий пользователя. Используется как ключевой сигнал для фильтрации релевантных изображений и для взвешивания векторов признаков.

Feature Vector (Вектор признаков)

Числовое представление признаков, извлеченных из изображения с помощью алгоритмов компьютерного зрения (например, SIFT, HOG или нейронной сети).

Грубое обучение (Coarse Training) / Предварительное обучение (Pre-training)

Первый этап обучения MLA на большом автоматически размеченном наборе данных с целью изучения общих признаков. Предшествует точному обучению (fine-tuning) для конкретной задачи.

MLA (Machine Learning Algorithm, Алгоритм машинного обучения)

Алгоритм (например, нейронная сеть или алгоритм глубинного обучения), который обучается на сформированном наборе данных для классификации изображений.

Query Vector (Вектор запроса)

Числовое представление поискового запроса. В патенте описаны два типа:

Текстовый: Формируется из текста запроса с помощью Word Embedding.
Визуально-поведенческий: Формируется как агрегация векторов признаков связанных изображений, взвешенных по метрикам (например, CTR).

Вертикальный поиск (Vertical Search)

Поиск в определенной предметной области. В контексте патента — вертикальный поиск изображений (Яндекс Картинки).

Word Embedding (Векторизация слов)

Преобразование текста запроса в числовое векторное представление, сохраняющее семантическое подобие. Упомянуты алгоритмы word2vec, GloVe и др..

Ключевые утверждения (Анализ Claims)

Патент описывает два основных варианта реализации (embodiments), которые различаются способом формирования Вектора Запроса и, следовательно, логикой кластеризации.

Claim 1 (Независимый пункт): Описывает общий фреймворк изобретения.

Получение данных из журнала вертикального поиска изображений (запросы и результаты — Первый набор).
Формирование Вектора Запроса для каждого запроса.
Распределение (кластеризация) этих векторов запросов.
Связывание с каждым кластером набора изображений (Второй набор), состоящего из изображений, найденных по запросам этого кластера.
Формирование Обучающих объектов путем присвоения каждому изображению из Второго набора Метки кластера (ID кластера).

Claims 2 и 3 (Зависимые): Детализируют Вариант 1 (Текстовая кластеризация).

(Claim 2) Вектор запроса формируется с использованием Word Embedding на основе текста запроса.
(Claim 3) Вводится механизм контроля качества: во Второй набор включаются только те изображения, чьи метрики действий пользователя (например, CTR) превышают заданный порог.

Техническая интерпретация: Запросы группируются по текстовой схожести, но в обучающий набор попадают только изображения, валидированные поведением пользователей.

Claims 7 и 8 (Зависимые): Детализируют Вариант 2 (Визуально-поведенческая кластеризация).

(Claim 7) Вектор запроса формируется путем извлечения Векторов признаков (визуальных) из изображений, их взвешивания с использованием метрики (CTR) и последующего объединения (агрегации).
(Claim 8) Изображения, используемые для извлечения признаков, предварительно фильтруются по порогу метрики (CTR).

Техническая интерпретация: Вектор запроса представляет собой усредненный визуальный облик того, на что пользователи кликают. Кластеризация происходит на основе схожести этих визуальных интентов.

Claim 12 (Независимый пункт): Описывает полный процесс обучения MLA с использованием Варианта 2.

Он включает все шаги Варианта 2: получение данных, фильтрацию по порогу метрики, формирование векторов признаков, формирование векторов запросов (взвешенное объединение), кластеризацию, формирование обучающего набора и, наконец, обучение MLA.

Где и как применяется

Важно понимать, что этот патент НЕ применяется напрямую в онлайн-процессах поиска (CRAWLING, INDEXING, QUERY PROCESSING или RANKING). Он описывает Офлайн-инфраструктуру для обучения ML-моделей.

Инфраструктура Обучения Моделей (Model Training Infrastructure)

Процесс выполняется на Обучающем сервере (230).
Входные данные: Система использует данные из Журнала Поиска (База 215), собранные Сервером Поисковой Системы (210) и Сервером Анализа (220). Это логи, содержащие кортежи <Запрос; Изображение; Метрика (CTR/Клики)> из вертикального поиска изображений.
Выходные данные: Размеченный набор обучающих объектов (Изображение + Метка кластера).
Применение результата: Полученный датасет используется для обучения MLA (модели компьютерного зрения). В патенте указано, что это может быть «грубое обучение» (pre-training), после которого может следовать точное обучение (fine-tuning) для конкретных задач (например, классификация контента, поиск похожих изображений).

Обученные с помощью этого метода модели (MLA) впоследствии интегрируются в продакшн-контур поиска (например, на этапах INDEXING или RANKING).

На что влияет

Типы контента и Вертикали: Патент явно фокусируется на Вертикальном поиске изображений. Хотя в описании упоминается возможность применения к другим типам документов (веб-поиск, видео), все Claims и примеры относятся только к изображениям.
Качество Моделей: Процесс напрямую влияет на качество и релевантность базовых моделей компьютерного зрения Яндекса.

Когда применяется

Алгоритм применяется периодически в офлайн-режиме по мере необходимости обучения новых или обновления существующих MLA.
Это не процесс реального времени, он не активируется пользовательскими запросами.
Требуется наличие достаточного объема накопленных логов поиска по картинкам.

Пошаговый алгоритм

Патент описывает два различных варианта реализации процесса.

Этап 1: Сбор и Агрегация Данных (Общий)

Получение логов: Агрегатор поисковых запросов получает из журнала поиска данные в формате кортежей <Запрос (Q), Изображение (D), Метрика (M)>.

Этап 2 (Вариант 1): Текстовая кластеризация (Способ 500)

Векторизация Текста: Применение алгоритма Word Embedding к тексту каждого запроса (Q) для формирования Вектора Запроса.
Кластеризация: Распределение Векторов Запросов на основе их семантической близости.
Фильтрация Изображений: Отбор изображений, связанных с кластером, чьи метрики (M, например, CTR) превышают заданный порог.

Этап 2 (Вариант 2): Визуально-поведенческая кластеризация (Способ 600)

Предварительная фильтрация: Отбор изображений (D), чьи метрики (M) превышают заданный порог.
Извлечение Признаков: Формирование Вектора Признаков (визуальных) для каждого отобранного изображения.
Генерация Вектора Запроса: Формирование Вектора Запроса для каждого запроса (Q) путем агрегации (например, взвешенного среднего) Векторов Признаков связанных изображений. Вес определяется Метрикой (M).
Кластеризация: Распределение этих Векторов Запросов на основе их визуально-поведенческой близости.

Этап 3: Формирование Обучающего Набора (Общий)

Назначение Меток: Генератор меток присваивает всем отобранным изображениям в кластере уникальный идентификатор этого кластера в качестве метки класса.
Сохранение: Изображения и их метки сохраняются как Обучающие Объекты.

Этап 4: Обучение MLA (Общий)

Обучение: Сформированный набор данных используется для обучения MLA (например, нейронной сети) для задачи классификации изображений.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются Переходы (clicks) и Коэффициент переходов (CTR). Они служат для валидации релевантности: фильтрации шума (изображений с низким CTR) и для взвешивания визуальных признаков (в Варианте 2).
Контентные факторы (Текст): Тексты поисковых запросов. Используются в Варианте 1 для генерации векторов запросов с помощью Word Embedding.
Мультимедиа факторы (Изображения): Сами изображения (результаты поиска). Используются в Варианте 2 для извлечения визуальных Векторов Признаков.

Какие метрики используются и как они считаются

Векторизация слов (Word Embedding): Упомянуты алгоритмы: word2vec, GloVe, LDA2Vec, sense2vec и wang2vec.
Извлечение визуальных признаков (Feature Extraction): Упомянуты методы: SIFT, HOG, SURF, LBP, вейвлеты Хаара, гистограммы цветов, а также использование предварительно обученной нейронной сети.
Расчет Вектора Запроса (Вариант 2): Рассчитывается как агрегация (упоминается линейная комбинация или взвешенное среднее) Векторов Признаков, взвешенных с использованием соответствующих метрик (CTR).
Алгоритмы Кластеризации: Упомянуты: метод к-средних (k-means), метод максимизации ожиданий, иерархическая кластеризация, кластеризация на основе плотности и другие. Кластеризация основана на функциях близости или подобия в N-мерном пространстве.
Пороговые значения: Используются для фильтрации результатов поиска на основе метрик (CTR > порог) для обеспечения качества обучающего набора.

Выводы

Инфраструктурный патент, не про ранжирование: Патент описывает внутренние процессы Яндекса по автоматизации обучения ML-моделей для классификации изображений, а не алгоритмы ранжирования, используемые в поиске.
Автоматизация разметки для масштабирования AI: Яндекс использует автоматизацию для создания масштабных датасетов для компьютерного зрения, устраняя необходимость в дорогостоящей ручной разметке на этапе предварительного обучения.
Поведение пользователей как эталон релевантности (Ground Truth): CTR и клики являются основным сигналом для определения релевантности изображений. Они используются для фильтрации шума и для определения веса визуальных признаков. Система доверяет коллективному мнению пользователей.
Два подхода к пониманию интента: Яндекс кластеризует запросы двумя способами: на основе текстовой семантики (Вариант 1) и на основе визуальной схожести изображений, по которым кликали пользователи (Вариант 2).
Цель — Предварительное обучение (Pre-training): Сформированные датасеты предназначены для «грубого обучения» базовых моделей MLA, которые затем могут быть дообучены (fine-tuned) для конкретных задач (подтверждение использования Transfer Learning).

Практика

Патент является инфраструктурным и сфокусирован на внутренних процессах обучения ML-моделей Яндекса. Он не дает практических выводов для SEO в веб-поиске. Все рекомендации ниже относятся строго к оптимизации под вертикальный поиск изображений (Яндекс Картинки).

Best practices (это мы делаем)

Оптимизация под высокий CTR в Поиске по Картинкам: Патент демонстрирует, что Яндекс рассматривает высокий CTR как основной сигнал качества и релевантности изображения для запроса. Только изображения с CTR выше порога используются для обучения AI. Необходимо использовать высококачественные, привлекательные и релевантные изображения, которые мотивируют клик в выдаче.
Обеспечение визуальной релевантности интенту: Во втором варианте реализации система анализирует визуальные признаки (Feature Vectors) кликабельных изображений. Это подтверждает необходимость строгого соответствия визуального содержания изображения тому, что ищет пользователь.
Использование четких изображений: Использование четких, высококачественных изображений с хорошо различимыми объектами позволяет системе корректно извлекать визуальные признаки (с помощью SIFT, HOG или нейросетей) и классифицировать контент.

Worst practices (это делать не надо)

Игнорирование качества изображений: Размещение низкокачественных или непривлекательных изображений приведет к низкому CTR. Такие изображения будут отфильтрованы системой и не будут участвовать в обучении моделей как релевантные примеры.
(Гипотеза) Злоупотребление кликбейтом: Использование изображений, которые генерируют клики, но не соответствуют содержанию страницы. Хотя данный патент фокусируется на CTR как на позитивном сигнале, в реальной системе поиска это может быть нивелировано другими поведенческими факторами (например, быстрыми возвратами в выдачу), которые в этом патенте не рассматриваются.

Стратегическое значение

Патент подтверждает стратегическую важность интеграции поведенческих данных во все аспекты работы поиска, включая обучение моделей компьютерного зрения. Для Яндекса «истина» (Ground Truth) формируется не столько асессорами, сколько массовым поведением пользователей. В контексте визуального поиска это означает, что CTR является определяющим фактором, который учит систему тому, как визуально выглядит ответ на запрос пользователя.

Практические примеры

Сценарий 1: Текстовая кластеризация (Вариант 1)

Сбор данных: Система анализирует запросы: «фото красного феррари», «изображение ferrari красный», «машина ла феррари».
Векторизация и Кластеризация: Word Embeddings этих запросов оказываются близки. Все три запроса попадают в Кластер А.
Фильтрация: Система отбирает изображения, показанные по этим запросам, у которых CTR превышает заданный порог.
Обучение: Все эти изображения получают метку «Кластер А». MLA обучается распознавать общие черты этих изображений (красные спортивные машины).

Сценарий 2: Визуально-поведенческая кластеризация (Вариант 2)

Сбор данных: Система анализирует запросы: «закат на море» и «красивый вечерний пляж» (текстуально разные).
Фильтрация и Признаки: Отбираются изображения с высоким CTR. Из них извлекаются визуальные признаки (цвета: оранжевый, синий; наличие горизонта).
Векторизация запросов: Векторы запросов формируются как средневзвешенное (по CTR) значение этих визуальных признаков. Векторы получаются похожими, так как пользователи кликали на визуально схожие картинки.
Кластеризация и Обучение: Оба запроса попадают в Кластер Б. Изображения получают метку «Кластер Б». MLA обучается распознавать визуальные паттерны закатов.

Вопросы и ответы

Описывает ли этот патент, как Яндекс ранжирует изображения в поиске?

Нет. Этот патент описывает исключительно оффлайн-процесс автоматического создания размеченных наборов данных (датасетов) для обучения алгоритмов машинного обучения (MLA), таких как модели компьютерного зрения. Он не описывает алгоритмы ранжирования, которые работают в реальном времени при ответе на запрос пользователя.

Какой главный вывод для SEO-специалистов, работающих с Поиском по Картинкам?

Главный вывод — критическая важность поведенческих факторов, в частности CTR. Патент явно указывает, что Яндекс использует CTR и клики для отбора наиболее релевантных изображений для включения в обучающие наборы. Это означает, что изображения, которые привлекают внимание пользователей и получают больше кликов в выдаче, считаются эталоном качества и используются для обучения базовых моделей Яндекса.

В чем разница между двумя вариантами генерации векторов запросов, описанными в патенте?

Вариант 1 генерирует Вектор Запроса на основе текста запроса, используя Word Embeddings. Кластеры объединяют текстуально похожие запросы. Вариант 2 генерирует Вектор Запроса на основе визуальных признаков изображений, по которым кликали пользователи, взвешенных по CTR. Кластеры объединяют запросы, которые ведут к визуально похожим результатам.

Означает ли это, что Яндекс анализирует визуальное содержание моих изображений?

Да, абсолютно. Вариант 2 патента напрямую зависит от извлечения Векторов Признаков (Feature Vectors) из изображений с использованием алгоритмов компьютерного зрения (SIFT, HOG или нейронных сетей). Это подтверждает, что Яндекс анализирует пиксели изображения для понимания его содержания.

Какие именно поведенческие метрики упоминаются в патенте?

В патенте явно упоминаются только две метрики: Переходы (Clicks) и Коэффициент переходов (CTR). Они используются как для фильтрации качественных изображений (по порогу), так и для взвешивания их важности при формировании векторов запросов во втором варианте.

Происходит ли этот процесс кластеризации в реальном времени при моем запросе?

Нет. Это оффлайн-процесс, который выполняется периодически на внутренних серверах Яндекса для подготовки данных и обучения моделей. Он не влияет на скорость или процесс обработки вашего конкретного запроса в реальном времени.

Как Яндекс определяет релевантность изображения согласно этому патенту?

Согласно этому патенту, релевантность определяется коллективным поведением пользователей. Если изображение часто показывается по определенному запросу и имеет высокий CTR (превышает заданный порог), оно считается достаточно релевантным для включения в обучающий набор данных.

Что такое «грубое обучение» (coarse training), упомянутое в патенте?

«Грубое обучение» соответствует концепции предварительного обучения (Pre-training). Это первый этап, на котором модель обучается на очень большом, автоматически размеченном датасете для изучения общих признаков. После этого модель может быть дообучена («точное обучение» или Fine-tuning) на меньшем датасете для решения конкретной задачи.

Актуальны ли упомянутые в патенте алгоритмы (word2vec, SIFT, HOG)?

Эти конкретные алгоритмы (патент подан в 2017 году) уже устарели. Word2vec часто заменяется трансформерами (например, YATI), а SIFT/HOG заменены признаками, извлекаемыми современными нейросетями (CNN). Однако принципы, заложенные в патенте (использование эмбеддингов и визуальных признаков), остаются актуальными.

Как я могу гарантировать, что мои изображения будут выбраны для этих обучающих датасетов?

Вы не можете это гарантировать напрямую, но можете увеличить вероятность. Для этого необходимо, чтобы ваши изображения высоко ранжировались по релевантным запросам и имели высокий CTR по сравнению с конкурентами. Это требует качественной SEO-оптимизации страницы и использования привлекательных, релевантных изображений.