Яндекс патентует метод обучения чат-ботов, основанный на подходе Retrieval-Augmented Generation (RAG). Система использует модель семантического подобия для поиска факта, релевантного диалогу. Затем генеративная модель (LLM) обучается формировать ответ на основе …
Обучение моделей
Яндекс использует систему динамической оценки и фильтрации асессоров для повышения качества обучающих данных. Система не полагается на простое большинство голосов, а взвешивает ответы по текущему показателю качества (скиллу) асессора. Определив …
Яндекс патентует метод повышения качества краудсорсинговой разметки данных (например, оценки релевантности SERP). Система автоматически выбирает минимальный набор прошлых задач, которые максимально покрывают весь спектр возможных оценок. Эти эталонные примеры показывают …
Яндекс патентует метод повышения эффективности обучения алгоритмов коллаборативной фильтрации (например, в Яндекс.Дзен). Вместо случайной инициализации матриц при факторизации (ALS), система использует предварительно рассчитанные векторы контента (эмбеддинги, такие как word2vec или …
Патент описывает систему Яндекса для повышения качества данных, собираемых через краудсорсинг (например, Толока). Система использует два ML-алгоритма: первый устраняет субъективные искажения в оценках асессоров, а второй автоматически выбирает оптимальный набор …
Яндекс использует гибридную систему для выполнения задач оценки (например, классификации контента или оценки релевантности). Система одновременно запрашивает результат у человека-асессора и у алгоритма машинного обучения (MLA). На основе совпадения ответов …
Яндекс патентует метод создания обучающих данных (Ground Truth) для ML-алгоритмов ранжирования. Вместо поиска «единственно верной» оценки релевантности система вычисляет распределение вероятных оценок, учитывая уровень экспертизы асессоров, их личные тенденции (Bias) …
Яндекс патентует метод повышения качества обучения ранжирующих моделей за счет обработки «зашумленных» (неточных или предвзятых) оценок релевантности. Система анализирует надежность и строгость каждого асессора или краудсорсера (например, из Толоки). Затем …
Яндекс патентует систему адаптивной фильтрации «таргетированного контента» (рекламы, рекомендаций). Система собирает данные, когда пользователи вручную блокируют нежелательный контент (негативные примеры), и сравнивает их с контентом, который не блокируется (позитивные примеры). …
Яндекс использует метод для повышения точности A/B тестирования путем создания обобщенной метрики. Система объединяет одну метрику, показывающую направление изменений (хорошо или плохо), с другой метрикой, показывающей величину изменений (чувствительность). Это …
Яндекс патентует метод ускорения A/B тестов (контролируемых экспериментов). Вместо длительного сбора данных система анализирует поведение пользователей за короткий период и использует машинное обучение (например, GBDT) для прогнозирования их будущих взаимодействий …
Яндекс использует предиктивные модели машинного обучения для ускорения A/B тестирования изменений в поисковых алгоритмах и интерфейсах. Анализируя начальное поведение пользователей, система прогнозирует долгосрочное влияние изменений на ключевые метрики (клики, сессии, …
Яндекс патентует метод для рекомендательных систем, который моделирует последовательность действий пользователя как траекторию в многомерном пространстве интересов. Система обучается предсказывать следующий шаг пользователя, анализируя направление и скорость этой траектории во …
Яндекс патентует метод повышения качества моделей машинного обучения (в частности, деревьев принятия решений, используемых в ранжировании) путем введения случайного шума во время их обучения. Этот механизм регуляризации предотвращает переобучение модели …
Патент описывает внутренний механизм машинного обучения Яндекса (вероятно, часть CatBoost) для борьбы с переобучением (Overfitting). При обучении система намеренно добавляет случайный шум (Random Parameters of Interest) в данные для оценки …
Яндекс патентует метод повышения надежности и качества машинного обучения (в частности, CatBoost). Для борьбы с переобучением (overfitting) система намеренно вводит случайный шум в данные во время тренировки модели при оценке …
Яндекс патентует метод повышения качества данных для обучения ML-алгоритмов (например, ранжирования или Proxima). Система анализирует историческую эффективность асессоров и динамически формирует оптимальные группы для задач. Цель — максимизировать «метрику согласованности» …
Яндекс патентует метод эффективного использования памяти в древовидных моделях ранжирования (например, CatBoost). Вместо выделения огромных массивов памяти для категориальных признаков с большим числом значений (URL, запросы, ключевые слова), система хеширует …
Яндекс патентует механизм для повышения точности распознавания интента в голосовых ассистентах (например, Алиса). Система использует несколько специализированных моделей (Сценариев), обученных на разных данных (например, такси, музыка, умный дом). При получении …
Яндекс патентует метод повышения эффективности обучения алгоритмов рекомендаций контента (Collaborative Filtering). Вместо случайной инициализации система использует предварительно рассчитанные векторы контента (эмбеддинги). Это обеспечивает "теплый старт" для алгоритма факторизации (ALS), ускоряя …