Обучение моделей

Яндекс патентует метод обучения ML-моделей для систем рекомендаций (например, Дзен, Музыка). Для повышения точности и эффективности признаки разделяются: связанные с пользователем вычисляются в реальном времени, а глобальные признаки контента — …
Патент Яндекса описывает метод эффективного обучения систем обработки естественного языка (NLP), таких как голосовые помощники или приложения для диктовки. Вместо анализа огромных текстовых корпусов система изучает конкретные примеры команд, извлекает …
Патент Яндекса описывает технический метод обучения моделей машинного обучения (в частности, градиентного бустинга над деревьями решений, лежащего в основе CatBoost), направленный на уменьшение переобучения и смещения модели. Метод "Не заглядывать …
Патент Яндекс Музыки описывает архитектуру рекомендательной системы. Вместо единой модели, система обучает отдельную подмодель (ISDT) для каждого элемента (трека, видео). Эта подмодель предсказывает вероятность взаимодействия пользователя с элементом, используя историю …
Это инфраструктурный патент Яндекса, описывающий метод оптимизации вычислительных ресурсов (CPU/GPU) при обработке нейросетями (включая Трансформеры и BERT) пакетов данных разной длины. Система минимизирует «пустые» вычисления (padding), интеллектуально группируя запросы схожей …
Яндекс патентует метод снижения нагрузки на серверы рекламного аукциона (например, Яндекс.Директ). Вместо расчета оптимальных параметров (таких как минимальная цена) в реальном времени, система использует машинное обучение для предварительного расчета этих …
Патент описывает технический метод подготовки данных для обучения алгоритмов машинного обучения (например, CatBoost). Система упорядочивает обучающие примеры и генерирует признаки для каждого примера, используя информацию только из предшествующих данных. Это …
Патент описывает инфраструктурное решение для рекомендательных систем Яндекса. Он решает проблему рассинхронизации данных при обновлении векторных представлений (эмбеддингов) пользователей и контента. Система использует комбинацию распределенных и нераспределенных хранилищ с механизмом …
Яндекс патентует инфраструктурный механизм для эффективного обновления больших массивов данных (например, хеш-таблиц с факторами ранжирования или параметрами MLR-моделей). Система создает новую версию данных в фоновом режиме, пока поиск использует текущую …
Яндекс патентует инфраструктурный алгоритм для повышения эффективности работы нейросетей (например, BERT, YATI). При обработке данных разной длины (например, текстов) система группирует их в пакеты (батчи). Изобретение минимизирует количество «пустых» токенов …
Яндекс патентует алгоритм для повышения эффективности работы своих нейросетей (таких как BERT, Трансформеры и т.д.) на аппаратном уровне (CPU/GPU). Поскольку нейросети обрабатывают запросы разной длины, а аппаратное обеспечение требует группировки …
Яндекс патентует метод для автоматического сопоставления лексических единиц (слов и фраз) между оригинальным текстом и его переводом. Система анализирует статистику совместной встречаемости (контекстные параметры) в обоих языках и находит переводы …
Яндекс патентует метод для автоматического сопоставления слов и фраз (лексических элементов) между исходным текстом и его переводом (параллельные тексты). Система анализирует, как часто элементы совместно встречаются в предложениях (контекст) на …
Патент описывает механизм управления аукционами для размещения цифровых сообщений (рекламы). Система ограничивает количество участников в каждом аукционе, ротирует комбинации участников между аукционами и использует индивидуальные динамические резервные цены для определения …
Яндекс оптимизирует выполнение моделей глубокого обучения (используемых в поиске, переводе и т.д.) путем эффективного пакетирования входных данных (например, запросов или текстов документов). Поскольку входные данные имеют переменную длину и должны …
Яндекс патентует метод для определения языка текста. Система разбивает слова на чередующиеся сегменты гласных и согласных. Затем она анализирует частоту встречаемости этих сегментов в определенном контексте (соседние сегменты или границы …
Патент описывает внутреннюю механику рекламных аукционов Яндекса (например, Яндекс.Директ). Для предотвращения манипуляций ставками и снижения нагрузки на серверы, Яндекс использует офлайн машинное обучение для расчета оптимальных параметров аукциона (например, резервной …