Обучение моделей

Яндекс патентует метод автоматизации и повышения качества разметки данных, используемых для обучения поисковых алгоритмов. Система анализирует историю работы асессоров (например, в Толоке), выявляет их экспертизу и предвзятость, и строит векторные …
Яндекс патентует метод автоматического создания размеченных наборов данных для обучения моделей машинного зрения, минуя ручной труд. Система анализирует логи вертикального поиска по картинкам, кластеризует запросы (на основе текста или визуальных …
Яндекс патентует метод математической очистки данных, собранных через краудсорсинг (например, Толоку). Система использует алгоритм машинного обучения для выявления и нейтрализации систематических искажений в оценках асессоров (например, позиционной предвзятости или влияния …
Яндекс патентует метод повышения точности разметки данных для обучения ИИ (например, ранжирующих моделей). Система обучает алгоритм машинного обучения предсказывать, какую метку поставит конкретный асессор, учитывая векторное представление самой задачи и …
Яндекс патентует метод для улучшения понимания запросов в диалоговых системах (например, Алиса). Система определяет текущий интент, комбинируя вероятность связи запроса с интентом и вероятность перехода от предыдущего интента к текущему. …
Яндекс патентует метод Kernel Gradient Boosting (KGB) для обучения моделей на основе деревьев решений (например, CatBoost). Он сочетает случайные деревья (для оценки неопределенности) и стандартный градиентный бустинг (для точности). Это …
Яндекс патентует метод улучшения поисковых подсказок (автодополнения). Вместо того чтобы просто предлагать слова, которые часто встречаются с введенным термином (парная сочетаемость), система использует машинное обучение для предсказания того, какие группы …
Яндекс патентует метод предобработки текста (BPE-Dropout), который вносит случайность в процесс разбиения слов на токены (subwords). Вместо одного фиксированного варианта система генерирует множество альтернатив во время обучения моделей. Это делает …
Яндекс патентует метод улучшения качества поисковых подсказок (автодополнения). Система обучается на истории запросов, разбивая их на части (n-граммы). Вместо того чтобы просто смотреть, как часто одно слово следует за другим …
Яндекс патентует унифицированную систему для исправления ошибок ввода (опечаток и неправильной раскладки). Ключевая особенность — метод автоматического создания «реалистичных» ошибок на основе частотности слов и физического расположения клавиш. Эти данные …
Яндекс патентует метод точной транскрипции текста между алфавитами (например, из кириллицы в латиницу, из латиницы в кириллицу или в фонетическое представление). Система делит слова и фразы на блоки гласных и …
Патент Яндекса, описывающий фундаментальную технику для обучения надежных моделей машинного обучения (в частности, CatBoost) путем предотвращения переобучения. Метод включает последовательную обработку обучающих данных и вычисление признаков (текстовых или векторных) с …
Яндекс патентует метод машинного обучения для автоматической трансформации текста. Система анализирует пары «исходная фраза» и «целевая фраза», сравнивая грамматические и семантические признаки слов. На основе этого анализа она генерирует правила …
Яндекс патентует метод для диалоговых систем (например, Алисы), позволяющий выбирать ответы, которые не только логически подходят к запросу, но и соответствуют стилю разговора. Система использует нейросеть (Dual Encoder) для создания …
Яндекс патентует метод повышения качества обучения моделей ранжирования при использовании данных от краудсорсинговых асессоров (например, Toloka). Вместо усреднения оценок, система анализирует надежность и строгость каждого асессора. Она корректирует (нормализует) значение …
Яндекс подал заявку на патент нового метода обучения моделей на основе деревьев решений (таких как CatBoost) под названием Stochastic Gradient Langevin Boosting (SGLB). Этот метод позволяет эффективнее оптимизировать сложные (невыпуклые) …
Яндекс патентует метод улучшения обучения NLP-моделей (включая те, что используются в поиске). Метод модифицирует стандартный алгоритм токенизации (BPE), вводя элемент случайности (Dropout). Вместо одного фиксированного способа разделения слова на части …
Яндекс патентует метод для автоматического отбора наиболее ценных признаков (Feature Selection) при обучении моделей машинного обучения. Система итеративно оценивает каждый фактор не только по его индивидуальной силе, но и по …
Яндекс патентует метод обучения ML-моделей для рекомендательных систем, направленный на повышение эффективности и предотвращение переобучения. Система разделяет признаки на пользовательские (User-specific), вычисляемые в реальном времени, и общие (User-nonspecific), которые рассчитываются …
Яндекс патентует метод уточнения намерения пользователя в диалоговых системах (например, Алиса). Система учитывает не только текущий запрос, но и предыдущий, анализируя вероятность связи запроса с конкретным намерением и вероятность смены …