Обучение моделей

Яндекс патентует многоэтапный процесс обучения трансформерных моделей (типа BERT/YATI) для ранжирования. Система сначала обучается на огромном массиве данных о кликах и метаданных, а затем дообучается на оценках асессоров. Ключевой шаг …
Яндекс патентует метод двухфазного обучения Трансформерных моделей (таких как BERT или YATI) для персонализации поиска. Модель сначала обучается предсказывать прошлые клики пользователя на широком наборе данных (Фаза 1), а затем …
Яндекс патентует метод ускорения A/B тестов. Система использует машинное обучение (Gradient Boosting) для прогнозирования будущего поведения пользователей на основе данных, собранных в начале эксперимента. Это позволяет быстрее оценить долгосрочный эффект …
Яндекс патентует метод для систем рекомендаций (например, Дзен), позволяющий прогнозировать, как пользователи будут взаимодействовать с новым контентом, анализируя только его текст. Система обучает модель (Transfer Learning MLA) находить связь между …
Яндекс патентует метод для повышения точности оценки изменений в поиске (например, новых алгоритмов ранжирования). Система объединяет два типа метрик: интерпретируемые (показывающие направление изменения – лучше/хуже, например DAU) и чувствительные (показывающие …
Яндекс патентует метод использования визуальной привлекательности страницы ("Appeal Factor") как фактора ранжирования. Система анализирует скриншот страницы с помощью модели машинного обучения (например, нейросети), обученной на оценках асессоров или поведении пользователей …
Яндекс патентует методы генерации высококачественных негативных примеров для обучения алгоритмов ранжирования. Вместо случайных нерелевантных документов система использует графы поведения пользователей и анализ позиций в выдаче для поиска «сложных негативов» — …
Яндекс патентует метод автоматической генерации «сложных негативных примеров» для обучения алгоритмов машинного обучения (MLA), определяющих схожесть запросов. Система ищет пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но …
Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего данные о поведении пользователей с характеристиками разнородного контента (текста и изображений). Система анализирует прошлую активность пользователя, векторизует ее, а затем совмещает …
Яндекс использует трехуровневую систему машинного обучения для оптимизации позиций вертикальных результатов (колдунщиков) в SERP. Отдельные модели независимо предсказывают вероятность клика по колдунщику ("Win") и по следующему за ним результату ("Loss"). …
Яндекс патентует метод борьбы с мошенничеством путем манипулирования ранжированием подозрительных коммерческих сайтов. Система периодически повышает и понижает эти сайты в выдаче, используя случайные значения. Цель — создать сильные колебания трафика …
Этот патент описывает ключевые механизмы алгоритма CatBoost, ядра машинного обучения Яндекса. Он раскрывает, как система эффективно преобразует категориальные (нечисловые) факторы ранжирования, такие как регион, тип сайта или URL, в числовые …
Яндекс патентует метод автоматического создания тезауруса путем анализа контекста, в котором встречаются слова и фразы в больших массивах текста. Система определяет семантические связи (синонимы, антонимы, гиперонимы) на основе схожести их …
Яндекс патентует методы генерации сложных (hard negatives) обучающих примеров для улучшения точности ранжирования. Система использует граф связей между запросами и документами, а также анализ позиций общих документов в выдаче, чтобы …
Яндекс патентует метод оптимизации поисковой выдачи (SERP), учитывающий физический размер (высоту) и позицию элементов. Система рассчитывает «оценку полезности» для обучения ML-моделей. Если пользователь пропускает большой элемент (например, виджет или расширенный …
Яндекс патентует метод автоматической генерации высококачественных негативных обучающих примеров для моделей ранжирования. Система анализирует сессии, где пользователь уточняет запрос (например, с А на Б). Результаты из выдачи А используются как …
Яндекс патентует метод повышения точности обучающих данных, получаемых через краудсорсинг (например, Толока). Система рассчитывает «Метрику Согласованности» — вероятность того, что большинство асессоров дали правильный ответ, учитывая их персональные показатели качества. …
Яндекс использует Transfer Learning для решения проблемы «холодного старта» в рекомендательных системах (например, Дзен). Когда у нового контента мало взаимодействий, система не может применить коллаборативную фильтрацию. Патент описывает, как Яндекс …
Яндекс патентует метод оценки изменений в поиске через A/B тесты. Система объединяет метрики, показывающие направление изменений (хорошо/плохо, например, DAU), с метриками, чувствительными к малым изменениям (например, CTR). Это позволяет Яндексу …
Яндекс патентует метод обучения чат-ботов, использующий подход Retrieval-Augmented Generation (RAG). Система находит релевантный факт во внешней базе знаний с помощью модели семантической близости. Затем этот факт объединяется (конкатенируется) с запросом …