Обучение моделей

Яндекс патентует метод обучения ML-моделей для рекомендательных систем (например, Дзен), решающий проблемы переобучения и вычислительной нагрузки. Система разделяет признаки на общие (User-nonspecific), которые рассчитываются офлайн и хранятся в «Снапшотах», и …
Яндекс патентует метод повышения качества и согласованности данных, получаемых от краудсорсинговых работников (асессоров). Система автоматически подбирает минимальный набор эталонных примеров из прошлых задач (например, оценки SERP). Эти примеры служат "анкорями" …
Яндекс патентует метод предобработки текста перед подачей в алгоритмы машинного обучения (например, YATI). Вместо стандартного разделения слов на фиксированные части (токены), система вносит элемент случайности, исключая некоторые возможные слияния токенов. …
Яндекс патентует метод для автоматического контроля качества ML-моделей ранжирования. Система ищет рассогласования, сравнивая входные данные модели (Векторы Свойств) и выходные данные (Оценки Релевантности) для пар документов. Если наблюдается аномалия (например, …
Яндекс патентует специфический математический метод для обучения моделей на основе Деревьев Принятия Решений (например, CatBoost/MatrixNet). Изобретение описывает функцию потерь (метрику точности), которая использует нелинейное логарифмическое взвешивание (log(N+1)) размера листа дерева. …
Патент Яндекса (от авторов CatBoost) описывает инфраструктурный метод обучения ML-моделей. Чтобы предотвратить переобучение (overfitting) и утечку целевой переменной (target leakage), обучающие примеры упорядочиваются. Признаки (текстовые или векторные) для каждого примера …
Яндекс патентует метод оптимизации обучения систем рекомендаций (например, Дзен). Вместо случайной инициализации при матричном разложении (ALS), система использует заранее рассчитанные векторы (эмбеддинги) контента. Это обеспечивает «теплый старт», ускоряет сходимость алгоритма …
Яндекс патентует метод повышения чувствительности и скорости A/B тестов. Вместо длительного сбора данных система использует машинное обучение (например, градиентный бустинг) для прогнозирования будущих метрик пользователей (клики, сессии) на основе краткосрочных …
Яндекс патентует метод обучения алгоритмов на основе деревьев решений (например, CatBoost). Вместо стандартного начала обучения, система создает начальные «шумовые деревья» со случайными значениями, в том числе в пустых узлах. Это …
Яндекс патентует архитектуру для рекомендательных систем (например, Музыка, Дзен). Вместо одной большой модели используется множество Item-Specific Decision Trees (ISDT) — по одной модели CatBoost для каждого трека или статьи. Каждая …
Яндекс патентует метод для эффективной и статистически надежной оценки новых факторов ранжирования (features) или новых обучающих данных (training samples). Вместо полной перетренировки модели, система оценивает влияние нового фактора на ошибку …
Яндекс патентует математический метод обучения алгоритмов ранжирования (например, CatBoost). Метод решает проблему оптимизации сложных метрик качества (NDCG, ERR), которые обычно не поддаются стандартным методам. Это достигается путем добавления искусственного шума …
Яндекс патентует метод для эффективной и надежной оценки новых признаков (факторов ранжирования) или обучающих данных. Вместо полного переобучения модели с нуля, система начинает тестирование нового фактора с промежуточного этапа обучения …
Патент описывает инфраструктурное решение Яндекса для рекомендательных систем (таких как Дзен). Система решает проблему согласованности версий пользовательских и контентных эмбеддингов во время обновления моделей. Для этого используется гибридное хранилище: эмбеддинги …
Яндекс патентует метод обучения моделей для систем рекомендаций (например, Дзен), решающий проблемы переобучения и вычислительной эффективности. Признаки разделяются: специфичные для пользователя рассчитываются в реальном времени, а общие (глобальные) рассчитываются периодически …
Яндекс патентует метод ранжирования задач для исполнителей (асессоров) на своей краудсорсинговой платформе (например, Яндекс.Задания). Система использует ML для балансировки между предпочтениями асессора (вероятность выбора задачи) и его навыками (вероятность точного …
Яндекс патентует метод обучения ML-модели для предсказания вероятности того, что пользователь увидит рекламное объявление (Visibility Score). Поскольку факт просмотра сложно зафиксировать, система использует данные о взаимодействиях (кликах или наведении курсора) …
Яндекс патентует метод для умных помощников и чат-ботов по выбору следующего ответа в диалоге. Система использует нейронную сеть для создания векторов контекста беседы и потенциальных ответов. Ответ выбирается на основе …
Яндекс патентует метод для улучшения работы интеллектуальных персональных ассистентов (IPA) или чат-ботов. Система использует нейронную сеть для оценки потенциальных ответов, учитывая два ключевых фактора: логическую связь с текущим диалогом и …
Яндекс патентует систему внутреннего контроля качества для автоматического выявления ошибок ранжирования. Система сравнивает входные данные (векторы признаков) и выходные результаты (оценки релевантности) для пар документов. Если документы похожи по признакам, …