Как Яндекс автоматически создает размеченные наборы данных для обучения ИИ распознаванию изображений, используя логи поиска и клики пользователей

Яндекс патентует метод автоматического создания обучающих выборок для систем компьютерного зрения без ручной разметки. Система анализирует логи поиска по картинкам и поведение пользователей (CTR). Запросы кластеризуются либо по текстовой близости, либо по визуальным признакам изображений, на которые кликают пользователи. Изображения с высоким CTR внутри кластера получают метку этого кластера и используются для обучения нейросетей.

Описание

Какую задачу решает

Патент решает проблему создания больших и качественных наборов размеченных данных (training sets) для обучения алгоритмов машинного обучения (MLA), в частности, нейронных сетей и систем глубокого обучения для категоризации изображений. Ручная разметка асессорами является медленной, дорогой и подвержена субъективным искажениям. Изобретение позволяет автоматизировать генерацию обучающих выборок, используя логи поисковой системы и поведенческие данные (клики, CTR) как индикатор релевантности и качества.

Что запатентовано

Запатентован метод генерации обучающих объектов для MLA на основе данных из логов поиска по картинкам (image vertical search). Суть изобретения заключается в кластеризации поисковых запросов и использовании идентификатора кластера в качестве метки (cluster label) для изображений, найденных по этим запросам. Включение изображения в обучающую выборку валидируется пользовательскими взаимодействиями (например, высоким CTR).

Как это работает

Система извлекает из логов тройки: запрос, результат (изображение), метрика взаимодействия (например, клики). Далее процесс может идти по двум основным вариантам:

Вариант 1 (Текстовая близость): Для каждого запроса генерируется вектор (Query Vector) с помощью алгоритмов Word Embedding (на основе текста запроса). Эти векторы кластеризуются. Изображения, связанные с запросами внутри кластера и имеющие высокие поведенческие метрики, получают метку этого кластера.
Вариант 2 (Визуальная близость): Сначала отбираются изображения с высокими поведенческими метриками. Для них извлекаются визуальные векторы признаков (Feature Vectors). Query Vector запроса генерируется как агрегация (например, взвешенное среднее) векторов признаков связанных с ним изображений, взвешенных по метрикам. Эти векторы запросов кластеризуются, и изображения в кластере получают его метку.

В обоих случаях формируется набор данных «Изображение – Метка Кластера», который используется для обучения ИИ.

Актуальность для SEO

Высокая. Автоматическая генерация и использование поведенческих сигналов для создания обучающих выборок (особенно для предварительного обучения или coarse training) являются стандартной практикой в крупных поисковых системах. Методы компьютерного зрения и Word Embedding постоянно развиваются, делая описанные подходы еще более эффективными.

Важность для SEO

Влияние на SEO среднее (6/10). Это не патент о ранжировании, а патент об инфраструктуре обучения ИИ. Он не описывает, как оптимизировать сайт для лучшего ранжирования. Однако он критически важен для понимания того, как Яндекс обучает свои системы компьютерного зрения и что он считает эталоном качества в поиске по картинкам. Патент подтверждает, что поведенческие сигналы (клики, CTR) в вертикали изображений являются основным источником истины о релевантности и качестве картинок.

Детальный разбор

Термины и определения

Cluster Label (Метка кластера)

Идентификатор, присвоенный кластеру запросов. Используется как метка (label) для изображений, связанных с этим кластером, при формировании обучающей выборки.

Feature Extractor (Экстрактор признаков)

Компонент (например, предварительно обученная нейросеть или алгоритм типа SIFT/HOG), который анализирует изображение и генерирует его векторное представление (Feature Vector).

Feature Vector (Вектор признаков)

Численное представление визуальных характеристик изображения.

Image Vertical Search (Вертикальный поиск по изображениям)

Специализированный поиск, ограниченный контентом определенного типа (в данном случае — изображениями), например, Яндекс.Картинки.

Metrics (Метрики)

Показатели взаимодействия пользователей с результатами поиска. В патенте упоминаются Click-Through Rate (CTR) и количество кликов (number of clicks).

MLA (Machine Learning Algorithm / Алгоритм машинного обучения)

Алгоритм (например, нейронная сеть, система глубокого обучения), который обучается на сгенерированном наборе данных для выполнения задачи категоризации изображений.

Query Vector (Вектор запроса)

Численное представление поискового запроса. Может быть сгенерирован двумя способами:

На основе текста запроса с использованием Word Embedding (Вариант 1).
На основе агрегации Feature Vectors изображений, связанных с запросом, взвешенных по их метрикам (Вариант 2).

Training Objects (Обучающие объекты)

Элементы обучающей выборки. В данном патенте это пара: изображение и ассоциированная с ним Cluster Label.

Word Embedding (Векторное представление слов)

Технология преобразования текста запроса в числовой вектор, сохраняющий семантические отношения. Упомянуты примеры: word2vec, GloVe, LDA2Vec и др.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных варианта реализации системы генерации обучающих выборок.

Claim 1 (Независимый пункт): Описывает общий метод генерации обучающих объектов.

Получение из поискового лога индикации запросов, выполненных в вертикальном поиске по картинкам. Каждый запрос ассоциирован с первым набором результатов (изображений).
Генерация Query Vector для каждого запроса. (Метод генерации раскрывается в зависимых пунктах 2 и 7).
Кластеризация этих Query Vectors.
Для каждого кластера ассоциация второго набора изображений. Этот набор включает как минимум часть изображений из первых наборов, связанных с векторами в этом кластере.
Генерация обучающих объектов путем сохранения каждого изображения из второго набора с меткой кластера (Cluster Label).

Claims 2 и 3 (Зависимые от 1): Уточняют Вариант 1 (Текстовая близость).

(Claim 2) Генерация Query Vector включает применение алгоритма Word Embedding к тексту каждого запроса.
(Claim 3) Процесс фильтрации: система получает метрики взаимодействия пользователей. Во второй набор включаются только изображения, чьи метрики превышают предопределенный порог. (Суть: кластеризация по тексту запроса, затем фильтрация изображений по поведению).

Claims 7 и 8 (Зависимые от 1): Уточняют Вариант 2 (Визуальная близость).

(Claim 7) Генерация Query Vector включает:
1. Генерацию Feature Vector (визуальных признаков) для изображений в выбранном подмножестве.
2. Взвешивание каждого Feature Vector по ассоциированной метрике взаимодействия.
3. Агрегацию взвешенных Feature Vectors.
(Claim 8) Процесс фильтрации: выбор подмножества изображений (упомянутый в Claim 7) происходит на основе того, что их метрики превышают предопределенный порог. (Суть: фильтрация изображений по поведению, затем кластеризация по агрегированным визуальным признакам).

Claim 12 (Независимый пункт): Описывает полный метод обучения MLA, используя Вариант 2 (визуальная близость) как основу. Он включает все шаги от получения логов, фильтрации по метрикам, генерации векторов (Feature и Query), кластеризации, создания обучающих объектов и завершается обучением MLA.

Где и как применяется

Этот патент описывает инфраструктурные офлайн-процессы, направленные на подготовку данных для обучения моделей машинного обучения (ML Training Pipeline). Он не применяется в реальном времени при обработке запроса пользователя.

CRAWLING – Сбор данных (Data Acquisition)
Система использует данные, собранные на этом слое. Входными данными являются логи поисковой системы (search log database) и логи аналитики (analytics log database). Извлекаются данные о запросах в вертикали изображений, показанных результатах и взаимодействиях пользователей с ними (метрики).

INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Процессы тесно связаны с этим слоем. Компонент Feature Extractor используется для извлечения визуальных признаков (Feature Vectors) из изображений. Также используются модели Word Embedding для генерации текстовых векторов запросов.

RANKING – Ранжирование (Косвенное влияние)
Результатом работы системы является обученный MLA (например, нейросеть для классификации изображений). Эта обученная модель затем может использоваться на различных этапах ранжирования (в поиске по картинкам или основном поиске) для понимания содержания изображений, их категоризации и оценки релевантности.

На что влияет

Конкретные типы контента: Патент напрямую сфокусирован на изображениях и поиске по картинкам (Image Vertical Search).
Область применения: Влияет на способность Яндекса понимать и классифицировать визуальный контент. Это затрагивает любые задачи, где требуется компьютерное зрение: ранжирование в Яндекс.Картинках, анализ изображений на веб-страницах, фильтрация контента.

Когда применяется

Временные рамки: Алгоритм применяется офлайн для генерации обучающих выборок и тренировки/перетренировки моделей MLA. Это происходит периодически по мере накопления новых логов поиска.
Условия применения: Наличие достаточного объема логов поисковых сессий в вертикали изображений с данными о взаимодействиях пользователей.

Пошаговый алгоритм

Патент описывает два основных варианта процесса.

Вариант 1: Кластеризация по тексту запроса (Word Embedding)

Сбор данных: Извлечение из поисковых логов набора кортежей <запрос (q); изображение (d); метрика (m)>.
Генерация векторов запросов (Текстовых): Применение алгоритма Word Embedding (например, word2vec, GloVe) к тексту каждого запроса для получения Query Vector.
Кластеризация: Применение алгоритма кластеризации (например, k-means) к полученным Query Vectors для группировки семантически похожих запросов.
Фильтрация изображений: Для каждого кластера отбор изображений, связанных с запросами этого кластера, чьи метрики (m) превышают предопределенный порог (например, высокий CTR).
Генерация обучающей выборки: Присвоение каждому отобранному изображению метки (Cluster Label), соответствующей идентификатору кластера. Сохранение пары <Изображение; Метка Кластера> как обучающего объекта.

Вариант 2: Кластеризация по визуальным признакам (Feature Vectors)

Сбор данных: Извлечение из поисковых логов набора кортежей <запрос (q); изображение (d); метрика (m)>.
Предварительная фильтрация изображений: Отбор только тех изображений, чьи метрики (m) превышают предопределенный порог.
Извлечение признаков: Применение Feature Extractor (например, пре-тренированной нейросети) к отобранным изображениям для получения их визуальных Feature Vectors (f).
Генерация векторов запросов (Визуальных): Для каждого запроса (q) генерация Query Vector путем агрегации Feature Vectors связанных с ним изображений. Агрегация происходит с учетом веса метрик. Например, как взвешенное среднее: \( q^* = (f_1m_1 + f_2m_2 + … + f_nm_n) \).
Кластеризация: Применение алгоритма кластеризации к полученным Query Vectors. (Группируются запросы, которые ведут к визуально похожим изображениям).
Генерация обучающей выборки: Присвоение каждому отобранному изображению, связанному с запросами кластера, метки (Cluster Label). Сохранение пары <Изображение; Метка Кластера> как обучающего объекта.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются логи взаимодействий пользователей с результатами поиска по картинкам. Конкретно упоминаются метрики: CTR (Click-Through Rate) и количество кликов (number of clicks). Эти данные используются для фильтрации нерелевантных изображений и для взвешивания признаков при генерации векторов запросов (Вариант 2).
Контентные факторы (Текстовые): Тексты поисковых запросов. Используются в Варианте 1 для генерации Query Vectors с помощью Word Embedding.
Мультимедиа факторы (Визуальные): Содержимое самих изображений. Используются в Варианте 2, где из них извлекаются Feature Vectors с помощью систем компьютерного зрения.
Системные данные: Поисковые логи (Search Logs).

Какие метрики используются и как они считаются

Query Vector (Вариант 1): Рассчитывается применением моделей Word Embedding (упомянуты word2vec, GloVe, LDA2Vec) к тексту запроса.
Feature Vector: Рассчитывается применением алгоритмов извлечения визуальных признаков (упомянуты SIFT, HOG, SURF, LBP, Haar wavelets, Color histograms или предварительно обученные нейронные сети) к изображению.
Query Vector (Вариант 2): Рассчитывается как агрегация Feature Vectors изображений, связанных с запросом. В патенте описана линейная комбинация (linear combination) или взвешенное среднее (weighted average), где весами выступают метрики взаимодействия (например, CTR): \( q^* = \sum (f_i \cdot m_i) \).
Алгоритмы кластеризации: Используются для группировки Query Vectors. Упомянуты k-means, expectation maximization, hierarchical clustering и др. Кластеризация основана на функции близости (proximity or similarity function) векторов в N-мерном пространстве.
Пороговые значения (Thresholds): Используются для фильтрации изображений на основе их поведенческих метрик. Конкретные значения порогов в патенте не указаны.

Выводы

Поведенческие сигналы как источник истины: Патент явно демонстрирует, что Яндекс использует пользовательские взаимодействия (клики, CTR) в качестве основного механизма валидации релевантности изображений. Если изображение не получает кликов в поиске по картинкам, оно фильтруется и не попадает в обучающую выборку.
Автоматизация разметки данных: Основная цель патента — устранить необходимость в ручной разметке для обучения систем компьютерного зрения. Яндекс автоматизирует этот процесс, используя кластеризацию запросов для создания псевдо-меток (Cluster Labels).
Два подхода к пониманию интента запроса: Яндекс использует два дополняющих друг друга метода для определения схожести запросов:
- Текстовая схожесть (Word Embeddings): запросы похожи, если они семантически близки по тексту.
- Визуальная схожесть (Feature Vectors): запросы похожи, если они ведут к визуально похожим изображениям, на которые кликают пользователи.
Запрос как агрегация визуальных признаков: В Варианте 2 вектор запроса определяется не его текстом, а взвешенной суммой визуальных признаков изображений, которые пользователи выбирают в ответ на этот запрос. Это подчеркивает важность визуального соответствия интенту.
Инфраструктурное значение: Описанная система позволяет Яндексу непрерывно генерировать актуальные датасеты, отражающие текущее поведение пользователей, что необходимо для поддержания качества работы моделей компьютерного зрения.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние процессы обучения ИИ Яндекса, он дает важные инсайты для стратегии продвижения в поиске по картинкам (Image SEO).

Максимизация CTR в поиске по картинкам: Поведенческие метрики (CTR, клики) являются фильтром для включения изображений в обучающие выборки. Необходимо работать над привлекательностью изображений в выдаче Яндекс.Картинок. Используйте четкие, высококачественные, контрастные и релевантные запросу изображения.
Обеспечение визуальной релевантности: В Варианте 2 запросы кластеризуются по визуальному сходству кликабельных изображений. Убедитесь, что ваши изображения визуально соответствуют интенту пользователя и визуальному ряду, который уже сформировался в топе выдачи по целевым запросам.
Оптимизация изображений под семантические кластеры запросов: В Варианте 1 запросы кластеризуются по текстовой близости. Одно и то же изображение должно быть оптимизировано (через alt-текст, окружающий текст на странице) так, чтобы оно могло быть найдено по всему кластеру семантически связанных запросов. Это увеличивает шансы на попадание в соответствующий кластер в модели Яндекса.
Использование уникальных и качественных изображений: Чтобы система компьютерного зрения могла извлечь четкие Feature Vectors, изображения должны быть качественными. Уникальные изображения с четко выраженными признаками имеют больше шансов стать эталоном в обучающей выборке.

Worst practices (это делать не надо)

Использование кликбейтных изображений, нерелевантных контенту: Если изображение привлекает клик, но пользователь быстро уходит (короткий клик), это может негативно сказаться на общих метриках удовлетворенности. Хотя в патенте явно упоминаются CTR и клики, а не Dwell Time, системы ранжирования обычно используют более сложные сигналы.
Игнорирование Image SEO: Рассматривать трафик из поиска по картинкам как второстепенный. Данные из этой вертикали напрямую используются для обучения базовых моделей ИИ Яндекса.
Использование низкокачественных или шаблонных стоковых изображений: Такие изображения могут иметь слабые Feature Vectors и низкий CTR, что снижает вероятность их использования в обучении и, как следствие, их эффективность в ранжировании.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на развитие компьютерного зрения и глубокую интеграцию поведенческих данных в обучение ИИ. Он показывает, что для Яндекса релевантность изображения — это не только его содержание, но и то, как на него реагируют пользователи. Для SEO это означает, что работа над качеством и привлекательностью визуального контента должна быть неотъемлемой частью долгосрочной стратегии продвижения, особенно для e-commerce и контентных проектов.

Практические примеры

Сценарий 1: Оптимизация карточки товара (E-commerce)

Задача: Улучшить ранжирование изображений товара «Красное вечернее платье» в Яндекс.Картинках.
Анализ (на основе патента): Яндекс может кластеризовать запрос «Красное вечернее платье» с запросами «платье на выпускной бордовое» (текстовая близость, Вариант 1) или с запросами, которые ведут к визуально похожим фасонам платьев (визуальная близость, Вариант 2). Чтобы попасть в обучающую выборку, изображение должно иметь высокий CTR.
Действия:
- Создать высококачественные фотографии платья.
- Убедиться, что главное фото максимально привлекательно в выдаче (хорошее освещение, модель) для максимизации CTR.
- Оптимизировать alt-теги и текст на странице, включив синонимы и связанные термины (бордовое, на выпускной), чтобы соответствовать потенциальному текстовому кластеру.
Ожидаемый результат: Высокий CTR приводит к тому, что изображение используется Яндексом как эталонный пример для данного кластера запросов. Это улучшает понимание Яндексом контента и способствует лучшему ранжированию.

Сценарий 2: Продвижение информационного контента с инфографикой

Задача: Получить трафик на статью «Как работает блокчейн» через инфографику.
Анализ (на основе патента): Чтобы инфографика стала эталоном, она должна быть визуально информативной (четкие Feature Vectors) и привлекать клики по связанным запросам («блокчейн схема», «принцип работы криптовалюты»).
Действия:
- Разработать четкую, понятную и визуально уникальную инфографику.
- В сниппете поиска по картинкам должна отображаться самая информативная часть схемы, провоцирующая клик для детального изучения.
Ожидаемый результат: Пользователи кликают на схему в поиске по картинкам. Яндекс фиксирует высокие метрики и использует эту инфографику для обучения своих моделей распознавания схем и концепций, связанных с блокчейном.

Вопросы и ответы

Что является главным нововведением этого патента?

Главное нововведение — это метод автоматической генерации размеченных наборов данных для обучения ИИ распознаванию изображений без участия асессоров. Вместо ручной разметки система использует кластеризацию поисковых запросов и поведенческие сигналы (клики, CTR) из логов поиска по картинкам. Идентификатор кластера становится меткой для изображений с высоким CTR внутри этого кластера.

Патент описывает два способа генерации векторов запросов (Query Vectors). В чем разница?

В первом варианте вектор запроса генерируется на основе текста запроса с помощью Word Embedding (текстовая близость). Во втором варианте вектор запроса генерируется как агрегация визуальных векторов признаков (Feature Vectors) изображений, на которые кликали пользователи по этому запросу, взвешенных по их CTR (визуальная близость). Первый метод фокусируется на семантике текста, второй — на визуальном контенте, который пользователи считают релевантным запросу.

Как этот патент влияет на мою стратегию SEO для основного поиска (Web Search)?

Прямого влияния нет, так как патент описывает генерацию данных для Image Search. Однако косвенное влияние значительно. Описанный метод позволяет Яндексу обучать более совершенные модели компьютерного зрения. Эти модели затем используются в основном поиске для анализа изображений на ваших страницах, что влияет на общую оценку релевантности и качества контента сайта.

Насколько важен CTR изображений согласно этому патенту?

Критически важен. В обоих описанных вариантах поведенческие метрики (CTR и клики) используются как фильтр качества. Изображения с низким CTR отсеиваются и не попадают в финальную обучающую выборку. Это означает, что Яндекс считает эталоном релевантности только те изображения, которые привлекают внимание пользователей.

Означает ли это, что я должен использовать только уникальные изображения?

Патент не говорит об уникальности напрямую. Однако для того, чтобы выделиться и получить высокий CTR, изображение должно быть качественным и привлекательным. Если вы используете те же стоковые фото, что и сотни других сайтов, ваши шансы на высокий CTR снижаются. Уникальные, качественные изображения с четкими визуальными признаками лучше подходят для генерации сильных Feature Vectors.

Какие алгоритмы Word Embedding упоминаются в патенте?

В патенте упоминаются word2vec, GloVe (Global Vectors for Word Representation), LDA2Vec, sense2vec и wang2vec. Это стандартные примеры на момент подачи патента. На практике Яндекс, вероятно, использует более современные трансформерные архитектуры (BERT-like модели, такие как YATI) для генерации текстовых эмбеддингов.

Что такое «coarse training» (предварительное обучение), упомянутое в патенте?

Это первый этап обучения нейросети на очень большом, возможно, не идеально размеченном наборе данных (как тот, что генерируется этим методом). Цель — научить модель общим принципам распознавания признаков. После этого модель проходит «fine-tuning» (тонкую настройку) на меньшем, но более точно размеченном датасете для решения конкретной узкой задачи (например, отличать одну породу собаки от другой).

Влияет ли текст на странице или alt-атрибуты на работу этого алгоритма?

Прямо — нет. Алгоритм использует текст самого поискового запроса (в Варианте 1) и визуальные признаки изображения (в Варианте 2), а также CTR. Однако текст на странице и alt-атрибуты влияют на то, попадет ли ваше изображение в выдачу по определенному запросу на том этапе, когда пользователи смогут с ним взаимодействовать. Без хорошей базовой оптимизации изображение не получит показов и кликов.

Может ли система создать категории, которые непонятны человеку?

Да. В патенте указано, что сгенерированные кластеры могут быть не понятны человеку (human comprehensible). Поскольку кластеризация происходит автоматически на основе близости векторов, система может сгруппировать изображения по признакам, которые не очевидны для людей, но полезны для машинного обучения.

Какой из двух вариантов (текстовый или визуальный) важнее для SEO?

Оба важны, так как они отражают разные аспекты релевантности. Вариант 1 подчеркивает важность соответствия широкому семантическому кластеру запросов. Вариант 2 подчеркивает важность визуального соответствия интенту пользователя. Для комплексной стратегии Image SEO необходимо учитывать и семантическую оптимизацию, и визуальную привлекательность контента.