Обучение моделей

Яндекс патентует метод использования «Фактора Привлекательности» (Appeal Factor) в ранжировании. Система использует модель машинного обучения (например, нейросеть), обученную на скриншотах страниц, чтобы предсказать, насколько визуально привлекательной или удобной найдет страницу …
Яндекс патентует метод генерации обучающих данных для систем ранжирования (например, лент рекомендаций). Система определяет последний элемент, с которым взаимодействовал пользователь перед закрытием или обновлением ленты. Элементам, получившим взаимодействие, присваивается «Оценка …
Яндекс использует сессии, в которых пользователь переформулирует свой запрос, для автоматического создания негативных обучающих примеров. Если пользователь вводит новый запрос (Q2) сразу после предыдущего (Q1), система помечает результаты из первой …
Яндекс патентует метод автоматического создания высококачественных «негативных примеров» для обучения своих алгоритмов ранжирования. Система анализирует сессии, где пользователь уточняет свой запрос. Если пользователь переформулировал Запрос 1 в Запрос 2, система …
Яндекс патентует метод для глубокого понимания интересов пользователя. Система преобразует разнородные действия (поисковые запросы, посещенные сайты, геолокацию) в векторы и размещает их в многомерном пространстве так, чтобы близость векторов отражала …
Яндекс патентует метод оптимизации поискового индекса в условиях ограниченных ресурсов. Система оценивает прогнозируемую или фактическую полезность документа (на основе поведения пользователей) и его размер. Используя модифицированный алгоритм LambdaMART, Яндекс ранжирует …
Яндекс патентует метод для построения комплексных профилей пользователей путем преобразования разнородных событий (запросы, посещенные места, просмотры страниц) в векторы в общем многомерном пространстве. Система использует иерархический подход с нейросетями (включая …
Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, …
Яндекс патентует метод генерации высококачественных обучающих данных для алгоритмов машинного обучения (MLA), определяющих схожесть запросов по тексту. Система находит пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но …
Яндекс патентует метод "Виртуального Ансамбля" для оценки уверенности моделей градиентного бустинга (например, CatBoost) в своих прогнозах. Вместо обучения нескольких моделей, система использует разные срезы (подпоследовательности деревьев) одной обученной модели и …
Яндекс патентует метод обучения системы исправления опечаток (Spell Correction). Система автоматически генерирует "реалистичные опечатки" для обучения, учитывая как частоту буквосочетаний в языке, так и физическое расстояние между клавишами на клавиатуре. …
Яндекс патентует метод создания единого векторного пространства (User Item Space), объединяющего данные о поведении пользователей, текстовый контент и изображения. Система обучается понимать связь между разными типами контента (кросс-модальное отображение) на …
Яндекс патентует метод улучшения качества обучения алгоритмов ранжирования (MLA) путем автоматической генерации «сложных» отрицательных примеров (Hard Negatives). Если пользователь в рамках одной сессии уточняет запрос (с Q1 на Q2), система …
Яндекс автоматически создает тезаурус, анализируя большие объемы текста на основе дистрибутивной семантики. Система изучает контекст (соседние слова), в котором употребляются слова и фразы, и частоту их совместного появления в одном …
Яндекс использует модель машинного обучения для определения приоритета индексации новых или обновленных страниц. Система оценивает потенциальную «полезность» страницы сразу после сканирования (T1), используя только доступные на этот момент данные. Страницы …
Яндекс патентует механизм Активного Обучения (Active Learning) для сбора поведенческих данных о документах, по которым мало статистики. Система определяет вероятность принадлежности документа к определенному классу качества (например, "Хороший") и искусственно …
Патент раскрывает ключевые механизмы библиотеки CatBoost, основного алгоритма ранжирования Яндекса. Он описывает метод преобразования категориальных факторов (например, URL, доменов, текста запроса) в числовые значения для машинного обучения. Для борьбы с …
Яндекс патентует метод ранжирования, основанный на анализе визуального представления («Снимка») веб-страницы. Система использует модель машинного обучения (в частности, нейронные сети), обученную на оценках асессоров или поведении пользователей, для расчета «Коэффициента …
Яндекс патентует метод для рекомендательных систем (например, Дзен), который обрабатывает разные типы взаимодействий пользователя (например, клики и время просмотра) независимо друг от друга с помощью отдельных моделей (SVD, нейросети). Это …
Яндекс патентует систему автоматического создания и валидации новых факторов ранжирования (мета-признаков). Эти факторы вычисляются не изолированно для документа, а в контексте всей поисковой выдачи. Значение мета-признака зависит от значения базового …