Патент Яндекса описывает механизм ранжирования для рекомендательных систем (например, Дзен). Система учитывает не только релевантность контента пользователю (Relevancy Parameter), но и обязательства платформы по минимальному количеству показов для авторов (Completion …
Ранжирование
Яндекс патентует метод повышения качества моделей машинного обучения (в частности, деревьев принятия решений, используемых в ранжировании) путем введения случайного шума во время их обучения. Этот механизм регуляризации предотвращает переобучение модели …
Патент описывает внутренний механизм машинного обучения Яндекса (вероятно, часть CatBoost) для борьбы с переобучением (Overfitting). При обучении система намеренно добавляет случайный шум (Random Parameters of Interest) в данные для оценки …
Яндекс патентует метод повышения надежности и качества машинного обучения (в частности, CatBoost). Для борьбы с переобучением (overfitting) система намеренно вводит случайный шум в данные во время тренировки модели при оценке …
Яндекс патентует метод эффективного использования памяти в древовидных моделях ранжирования (например, CatBoost). Вместо выделения огромных массивов памяти для категориальных признаков с большим числом значений (URL, запросы, ключевые слова), система хеширует …
Патент Яндекса (от авторов CatBoost) описывает инфраструктурный метод обучения ML-моделей. Чтобы предотвратить переобучение (overfitting) и утечку целевой переменной (target leakage), обучающие примеры упорядочиваются. Признаки (текстовые или векторные) для каждого примера …
Яндекс патентует метод обучения алгоритмов на основе деревьев решений (например, CatBoost). Вместо стандартного начала обучения, система создает начальные «шумовые деревья» со случайными значениями, в том числе в пустых узлах. Это …
Яндекс патентует метод для эффективной и статистически надежной оценки новых факторов ранжирования (features) или новых обучающих данных (training samples). Вместо полной перетренировки модели, система оценивает влияние нового фактора на ошибку …
Яндекс патентует математический метод обучения алгоритмов ранжирования (например, CatBoost). Метод решает проблему оптимизации сложных метрик качества (NDCG, ERR), которые обычно не поддаются стандартным методам. Это достигается путем добавления искусственного шума …
Яндекс патентует метод для эффективной и надежной оценки новых признаков (факторов ранжирования) или обучающих данных. Вместо полного переобучения модели с нуля, система начинает тестирование нового фактора с промежуточного этапа обучения …
Патент Яндекса описывает технический метод обучения моделей машинного обучения (в частности, градиентного бустинга над деревьями решений, лежащего в основе CatBoost), направленный на уменьшение переобучения и смещения модели. Метод "Не заглядывать …
Яндекс патентует метод оптимизации производительности поиска за счет использования многопоточности внутри одного сервера (шарда). Система оценивает сложность входящего запроса («вес») и, если она высока, делит инвертированный индекс на чередующиеся сегменты. …
Яндекс патентует метод оптимизации инфраструктуры для ускорения сложных («тяжелых») запросов. Система оценивает сложность запроса и, если она высока, динамически делит инвертированный индекс на сегменты. Поиск выполняется несколькими потоками параллельно на …
Яндекс патентует инфраструктурный метод для повышения плотности сжатия и скорости распаковки инвертированного индекса. Вместо хранения параметров сжатия в каждом блоке данных система использует короткий указатель на предопределенный шаблон. Это экономит …
Патент описывает технический метод подготовки данных для обучения алгоритмов машинного обучения (например, CatBoost). Система упорядочивает обучающие примеры и генерирует признаки для каждого примера, используя информацию только из предшествующих данных. Это …
Яндекс патентует инфраструктурный механизм для эффективного обновления больших массивов данных (например, хеш-таблиц с факторами ранжирования или параметрами MLR-моделей). Система создает новую версию данных в фоновом режиме, пока поиск использует текущую …
Яндекс патентует инфраструктурный метод для высокоэффективного сжатия инвертированного индекса. Система использует блочное кодирование с предопределенными шаблонами (Encoding Patterns). Это позволяет уменьшить размер индекса в оперативной памяти и значительно ускорить декодирование …
Яндекс патентует инфраструктурный метод сжатия инвертированного индекса для повышения скорости поиска и экономии памяти. Вместо хранения параметров сжатия в каждом блоке индекса, система использует короткий указатель на предопределенную таблицу шаблонов …