Яндекс патентует метод автоматизации и повышения качества разметки данных, используемых для обучения поисковых алгоритмов. Система анализирует историю работы асессоров (например, в Толоке), выявляет их экспертизу и предвзятость, и строит векторные …
Обучение моделей
Яндекс патентует метод автоматического создания размеченных наборов данных для обучения моделей машинного зрения, минуя ручной труд. Система анализирует логи вертикального поиска по картинкам, кластеризует запросы (на основе текста или визуальных …
Яндекс патентует метод математической очистки данных, собранных через краудсорсинг (например, Толоку). Система использует алгоритм машинного обучения для выявления и нейтрализации систематических искажений в оценках асессоров (например, позиционной предвзятости или влияния …
Яндекс патентует метод повышения точности разметки данных для обучения ИИ (например, ранжирующих моделей). Система обучает алгоритм машинного обучения предсказывать, какую метку поставит конкретный асессор, учитывая векторное представление самой задачи и …
Яндекс патентует метод для улучшения понимания запросов в диалоговых системах (например, Алиса). Система определяет текущий интент, комбинируя вероятность связи запроса с интентом и вероятность перехода от предыдущего интента к текущему. …
Яндекс патентует метод Kernel Gradient Boosting (KGB) для обучения моделей на основе деревьев решений (например, CatBoost). Он сочетает случайные деревья (для оценки неопределенности) и стандартный градиентный бустинг (для точности). Это …
Яндекс патентует метод улучшения поисковых подсказок (автодополнения). Вместо того чтобы просто предлагать слова, которые часто встречаются с введенным термином (парная сочетаемость), система использует машинное обучение для предсказания того, какие группы …
Яндекс патентует метод предобработки текста (BPE-Dropout), который вносит случайность в процесс разбиения слов на токены (subwords). Вместо одного фиксированного варианта система генерирует множество альтернатив во время обучения моделей. Это делает …
Яндекс патентует метод улучшения качества поисковых подсказок (автодополнения). Система обучается на истории запросов, разбивая их на части (n-граммы). Вместо того чтобы просто смотреть, как часто одно слово следует за другим …
Яндекс патентует унифицированную систему для исправления ошибок ввода (опечаток и неправильной раскладки). Ключевая особенность — метод автоматического создания «реалистичных» ошибок на основе частотности слов и физического расположения клавиш. Эти данные …
Яндекс патентует метод точной транскрипции текста между алфавитами (например, из кириллицы в латиницу, из латиницы в кириллицу или в фонетическое представление). Система делит слова и фразы на блоки гласных и …
Патент Яндекса, описывающий фундаментальную технику для обучения надежных моделей машинного обучения (в частности, CatBoost) путем предотвращения переобучения. Метод включает последовательную обработку обучающих данных и вычисление признаков (текстовых или векторных) с …
Яндекс патентует метод машинного обучения для автоматической трансформации текста. Система анализирует пары «исходная фраза» и «целевая фраза», сравнивая грамматические и семантические признаки слов. На основе этого анализа она генерирует правила …
Яндекс патентует метод для диалоговых систем (например, Алисы), позволяющий выбирать ответы, которые не только логически подходят к запросу, но и соответствуют стилю разговора. Система использует нейросеть (Dual Encoder) для создания …
Яндекс патентует метод повышения качества обучения моделей ранжирования при использовании данных от краудсорсинговых асессоров (например, Toloka). Вместо усреднения оценок, система анализирует надежность и строгость каждого асессора. Она корректирует (нормализует) значение …
Яндекс подал заявку на патент нового метода обучения моделей на основе деревьев решений (таких как CatBoost) под названием Stochastic Gradient Langevin Boosting (SGLB). Этот метод позволяет эффективнее оптимизировать сложные (невыпуклые) …
Яндекс патентует метод улучшения обучения NLP-моделей (включая те, что используются в поиске). Метод модифицирует стандартный алгоритм токенизации (BPE), вводя элемент случайности (Dropout). Вместо одного фиксированного способа разделения слова на части …
Яндекс патентует метод для автоматического отбора наиболее ценных признаков (Feature Selection) при обучении моделей машинного обучения. Система итеративно оценивает каждый фактор не только по его индивидуальной силе, но и по …
Яндекс патентует метод обучения ML-моделей для рекомендательных систем, направленный на повышение эффективности и предотвращение переобучения. Система разделяет признаки на пользовательские (User-specific), вычисляемые в реальном времени, и общие (User-nonspecific), которые рассчитываются …
Яндекс патентует метод уточнения намерения пользователя в диалоговых системах (например, Алиса). Система учитывает не только текущий запрос, но и предыдущий, анализируя вероятность связи запроса с конкретным намерением и вероятность смены …