Обучение моделей

Яндекс патентует метод автоматического создания обучающих выборок для систем компьютерного зрения без ручной разметки. Система анализирует логи поиска по картинкам и поведение пользователей (CTR). Запросы кластеризуются либо по текстовой близости, …
Яндекс патентует систему для автоматической проверки фактов в контенте, созданном генеративными моделями (например, YandexGPT) для поисковой выдачи. Система использует специальную NLP-модель для перекрестной проверки сгенерированных фрагментов текста (сниппетов). Она оценивает, …
Яндекс патентует метод генерации обучающих данных для ML-алгоритмов (например, ранжирования или Proxima). Система отказывается от поиска единой «истинной метки» релевантности, признавая субъективность оценок. Вместо этого рассчитывается «Консенсусное распределение меток», учитывающее …
Яндекс использует трехуровневую систему машинного обучения для оптимизации смешивания (блендинга) вертикальных результатов (Колдунщиков) и органической выдачи. Система независимо прогнозирует CTR Колдунщика («Win») и CTR следующего за ним результата («Loss»). Третья …
Яндекс патентует метод автоматического создания тезауруса (базы синонимов, антонимов, гиперонимов и ассоциаций) путем анализа больших массивов текста. Система определяет семантическую связь между словами или фразами, сравнивая контекст, в котором они …
Яндекс патентует метод проверки фактической точности контента, созданного генеративными моделями (например, для объектных карточек). Система не сверяет факты с внешними источниками, а ищет внутренние противоречия в сгенерированном тексте. Специально обученная …
Яндекс патентует метод повышения качества обучающих данных (Training Data) для алгоритмов машинного обучения (MLA), генерируемых через краудсорсинг. Система решает проблему «холодного старта», прогнозируя эффективность асессора для нового типа задач на …
Яндекс патентует метод для точной настройки порогов срабатывания в системах бинарной классификации (например, Спам/Не спам, Качественный/Некачественный), которые используют «вложенные метрики». Вложенные метрики основаны на взаимосвязанных событиях, таких как «Клики» и …
Яндекс патентует метод обучения нейросетей (ANN) для генерации кратких сводных ответов, используемых голосовыми помощниками. Система объединяет несколько сниппетов из выдачи. Ключевая особенность — использование «маски ограничения внимания» (Attention-Limiting Mask), которая …
Яндекс патентует метод обучения нейросетей (ANN) для генерации сводного ответа на основе нескольких сниппетов из поисковой выдачи. Ключевая особенность — применение «маски ограничения внимания», которая заставляет модель анализировать контекст каждого …
Яндекс патентует метод повышения качества данных, получаемых от краудсорсинговых платформ (например, Толока). Система анализирует историю поведения асессора (время выполнения, характер взаимодействий) и использует ML-модель для предсказания вероятности ошибки в конкретном …
Яндекс патентует метод улучшения качества данных, используемых для обучения ключевых ML-алгоритмов (включая ранжирование и метрики качества). Система анализирует согласованность ответов асессоров и их индивидуальные оценки качества. На основе этого вычисляется …
Яндекс патентует метод повышения достоверности автоматически сгенерированных сводок (Карточек Объектов). Система проверяет фактическую точность отдельного сниппета, анализируя, подтверждается ли он другими сниппетами в той же сводке (внутренняя согласованность). Для этого …
Яндекс патентует метод обучения нейросети (ANN) для создания единого краткого ответа (например, для Алисы) путем суммаризации нескольких сниппетов из поисковой выдачи. Ключевая технология — «маска ограничения внимания» (attention-limiting mask). Она …
Яндекс патентует метод повышения качества данных, используемых для обучения алгоритмов ранжирования (включая Proxima). Система анализирует оценки, полученные от краудсорсинговых асессоров (например, в Толоке), и выявляет когнитивные искажения, вызванные нерелевантными факторами …
Яндекс патентует метод обучения ранжирующих моделей (например, CatBoost), позволяющий напрямую оптимизировать сложные метрики качества (NDCG, ERR), которые обычно не поддаются стандартным методам градиентного бустинга. Для этого в процессе обучения в …
Яндекс патентует способ эффективной обработки разнотипных данных (числовых и категориальных) для использования в древовидных моделях машинного обучения (вероятно, CatBoost). Система преобразует эти данные в единый хэшированный комплексный вектор. Это позволяет …
Яндекс патентует метод обучения нейронных сетей (типа Трансформер) для генерации кратких ответов (например, для Алисы или быстрых ответов) на основе нескольких сниппетов из выдачи. Ключевая технология — «маска ограничения внимания». …
Яндекс патентует гибридный метод оценки контента, объединяющий мнения людей-экспертов (асессоров) и алгоритмов машинного обучения (MLA). Система использует Байесовский подход для расчета уровня достоверности результата, учитывая историческую надежность каждого источника. Это …
Яндекс патентует метод улучшения поисковых подсказок (Autocomplete) с помощью машинного обучения (MLA). Система учится отличать термины, которые просто часто встречаются вместе (парная сочетаемость), от терминов, которые формируют осмысленный запрос в …