Обучение моделей

Яндекс патентует метод исправления опечаток для запросов, которые система видит впервые («холодный старт»). Поскольку истории по новому запросу нет, система находит известный редкий запрос, максимально похожий по написанию, и использует …
Яндекс патентует метод автоматического улучшения своих классификаторов (например, SafeSearch). Система отслеживает аномальные всплески поискового трафика, исходящие из социальных сетей. Если пользователи массово делятся результатом поиска как примером ошибки (например, шок-контент …
Яндекс патентует систему автоматического контроля качества поиска. Система отслеживает аномальные всплески поискового трафика, исходящие из социальных сетей, и анализирует посты пользователей (например, скриншоты выдачи с комментариями об ошибках). Обнаруженные ошибки …
Яндекс патентует метод автоматического улучшения классификаторов контента (например, фильтров SafeSearch). Если пользователи массово делятся примерами ошибок поиска (например, шокирующий контент в безопасном режиме), система обнаруживает связанный с этим всплеск трафика …
Патент описывает два метода генерации отрицательных обучающих примеров для моделей ранжирования. Яндекс строит граф связей между запросами и документами на основе поведения пользователей. Документы, находящиеся далеко в графе от исходного …
Яндекс патентует метод для рекомендательных систем, позволяющий прогнозировать векторное представление (эмбеддинг) нового контента до того, как пользователи начали с ним взаимодействовать. Система обучается предсказывать, каким будет поведенческий эмбеддинг (основанный на …
Яндекс патентует метод эффективного обучения системы исправления опечаток без ручной разметки данных. Система автоматически генерирует «реалистичные» и «нереалистичные» опечатки, анализируя частотность символов в логах запросов и физическое расположение клавиш. Затем …
Яндекс патентует метод повышения точности данных, получаемых от асессоров (например, в Толоке). Система идентифицирует «скрытые смещающие признаки» в задачах (например, позиция документа на экране, шрифт, дизайн), которые влияют на выбор …
Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего разнородные данные: тексты, изображения и историю активности пользователей. Это позволяет системе находить связи между разными типами контента на основе поведения (например, …
Яндекс патентует метод ранжирования задач на краудсорсинговых платформах (например, Толока). Система использует ограниченную оптимизацию: она максимизирует вероятность корректного выполнения задачи (удовлетворенность заказчика), сохраняя при этом удовлетворенность асессора на приемлемом уровне. …
Яндекс патентует инфраструктурный метод оптимизации хранения и поиска документов. Система обучает нейросеть генерировать семантические векторы (эмбеддинги) так, чтобы их близость отражала релевантность. Документы с похожими векторами группируются в кластеры (шарды). …
Яндекс патентует метод предобработки текста BPE-Dropout для обучения NLP-моделей. Вместо стандартной детерминированной токенизации (BPE), система случайным образом пропускает некоторые шаги объединения символов в токены во время обучения. Это создает разные …
Патент описывает метод обучения моделей машинного обучения (Ordered Boosting), лежащий в основе алгоритма CatBoost. Для предотвращения «утечки данных» и переобучения, система упорядочивает обучающие данные и при расчете качества прогноза использует …
Яндекс патентует метод повышения точности и эффективности сбора размеченных данных из краудсорсинговых сред, где качество и личность асессоров неизвестны (например, CAPTCHA). Система использует инкрементальную разметку: она запрашивает ответы до тех …
Яндекс патентует систему для контроля качества работы исполнителей на краудсорсинговых платформах (например, асессоров). Вместо использования только статических оценок качества, система обучает модель машинного обучения (MLA) предсказывать вероятность ошибки для конкретного …
Яндекс патентует метод повышения качества данных, собираемых через краудсорсинг (например, Толока). Для задач с текстовыми ответами система конвертирует ответы в векторы, кластеризует их и использует оценки надежности (Quality Scores) асессоров …
Яндекс патентует метод для оптимизации порогов срабатывания в системах бинарной классификации (например, спам/не спам, релевантный/нерелевантный), которые используют несколько «вложенных» метрик одновременно. Метод позволяет итеративно подобрать оптимальную комбинацию порогов для всех …
Патент описывает ключевые механизмы алгоритма CatBoost, используемого Яндексом для ранжирования. Он раскрывает, как система преобразует категориальные признаки (например, регион, тип сайта, URL) в числовые значения. Для предотвращения переобучения используется метод …
Яндекс патентует метод оптимизации выбора признаков (факторов) для обучения ML-моделей (например, формулы ранжирования). Система использует Условную Взаимную Информацию (CMI) для оценки взаимодействия факторов. Цель — выбрать набор, который совместно дает …
Яндекс патентует метод повышения эффективности рекомендательных систем с помощью Item-Specific Decision Trees (ISDT). Вместо одной общей модели система создает отдельную модель деревьев решений (GBDT) для каждого элемента контента. Эта модель …