Яндекс патентует метод исправления опечаток для запросов, которые система видит впервые («холодный старт»). Поскольку истории по новому запросу нет, система находит известный редкий запрос, максимально похожий по написанию, и использует …
Обучение моделей
Яндекс патентует метод автоматического улучшения своих классификаторов (например, SafeSearch). Система отслеживает аномальные всплески поискового трафика, исходящие из социальных сетей. Если пользователи массово делятся результатом поиска как примером ошибки (например, шок-контент …
Яндекс патентует систему автоматического контроля качества поиска. Система отслеживает аномальные всплески поискового трафика, исходящие из социальных сетей, и анализирует посты пользователей (например, скриншоты выдачи с комментариями об ошибках). Обнаруженные ошибки …
Яндекс патентует метод автоматического улучшения классификаторов контента (например, фильтров SafeSearch). Если пользователи массово делятся примерами ошибок поиска (например, шокирующий контент в безопасном режиме), система обнаруживает связанный с этим всплеск трафика …
Патент описывает два метода генерации отрицательных обучающих примеров для моделей ранжирования. Яндекс строит граф связей между запросами и документами на основе поведения пользователей. Документы, находящиеся далеко в графе от исходного …
Яндекс патентует метод для рекомендательных систем, позволяющий прогнозировать векторное представление (эмбеддинг) нового контента до того, как пользователи начали с ним взаимодействовать. Система обучается предсказывать, каким будет поведенческий эмбеддинг (основанный на …
Яндекс патентует метод эффективного обучения системы исправления опечаток без ручной разметки данных. Система автоматически генерирует «реалистичные» и «нереалистичные» опечатки, анализируя частотность символов в логах запросов и физическое расположение клавиш. Затем …
Яндекс патентует метод повышения точности данных, получаемых от асессоров (например, в Толоке). Система идентифицирует «скрытые смещающие признаки» в задачах (например, позиция документа на экране, шрифт, дизайн), которые влияют на выбор …
Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего разнородные данные: тексты, изображения и историю активности пользователей. Это позволяет системе находить связи между разными типами контента на основе поведения (например, …
Яндекс патентует метод ранжирования задач на краудсорсинговых платформах (например, Толока). Система использует ограниченную оптимизацию: она максимизирует вероятность корректного выполнения задачи (удовлетворенность заказчика), сохраняя при этом удовлетворенность асессора на приемлемом уровне. …
Яндекс патентует инфраструктурный метод оптимизации хранения и поиска документов. Система обучает нейросеть генерировать семантические векторы (эмбеддинги) так, чтобы их близость отражала релевантность. Документы с похожими векторами группируются в кластеры (шарды). …
Яндекс патентует метод предобработки текста BPE-Dropout для обучения NLP-моделей. Вместо стандартной детерминированной токенизации (BPE), система случайным образом пропускает некоторые шаги объединения символов в токены во время обучения. Это создает разные …
Патент описывает метод обучения моделей машинного обучения (Ordered Boosting), лежащий в основе алгоритма CatBoost. Для предотвращения «утечки данных» и переобучения, система упорядочивает обучающие данные и при расчете качества прогноза использует …
Яндекс патентует метод повышения точности и эффективности сбора размеченных данных из краудсорсинговых сред, где качество и личность асессоров неизвестны (например, CAPTCHA). Система использует инкрементальную разметку: она запрашивает ответы до тех …
Яндекс патентует систему для контроля качества работы исполнителей на краудсорсинговых платформах (например, асессоров). Вместо использования только статических оценок качества, система обучает модель машинного обучения (MLA) предсказывать вероятность ошибки для конкретного …
Яндекс патентует метод повышения качества данных, собираемых через краудсорсинг (например, Толока). Для задач с текстовыми ответами система конвертирует ответы в векторы, кластеризует их и использует оценки надежности (Quality Scores) асессоров …
Яндекс патентует метод для оптимизации порогов срабатывания в системах бинарной классификации (например, спам/не спам, релевантный/нерелевантный), которые используют несколько «вложенных» метрик одновременно. Метод позволяет итеративно подобрать оптимальную комбинацию порогов для всех …
Патент описывает ключевые механизмы алгоритма CatBoost, используемого Яндексом для ранжирования. Он раскрывает, как система преобразует категориальные признаки (например, регион, тип сайта, URL) в числовые значения. Для предотвращения переобучения используется метод …
Яндекс патентует метод оптимизации выбора признаков (факторов) для обучения ML-моделей (например, формулы ранжирования). Система использует Условную Взаимную Информацию (CMI) для оценки взаимодействия факторов. Цель — выбрать набор, который совместно дает …
Яндекс патентует метод повышения эффективности рекомендательных систем с помощью Item-Specific Decision Trees (ISDT). Вместо одной общей модели система создает отдельную модель деревьев решений (GBDT) для каждого элемента контента. Эта модель …