2017

Яндекс патентует метод для рекомендации интересных мест (POI) на основе анализа плотности геолокационных фотографий. Система автоматически определяет границы и популярность достопримечательностей или других геообъектов, основываясь на том, где люди чаще …
Яндекс патентует систему для фильтрации поисковых подсказок (Автокомплит) с целью блокировки оскорбительного или нелегального контента. Система использует контекстную логику с двумя режимами: для одних слов подсказки разрешены по умолчанию и …
Яндекс патентует двухэтапную систему для эффективного обнаружения дубликатов аудиофайлов (например, музыки или аудиодорожек видео). Система создает короткие и длинные аудиосигнатуры (отпечатки) на основе "хромаслов". Сначала она быстро находит кандидатов по …
Яндекс патентует метод повышения качества обучения моделей ранжирования при использовании данных от краудсорсинговых асессоров (например, Toloka). Вместо усреднения оценок, система анализирует надежность и строгость каждого асессора. Она корректирует (нормализует) значение …
Яндекс патентует метод генерации поисковых подсказок (саджеста), который учитывает точное положение курсора в строке ввода. В зависимости от того, где находится курсор (в начале, конце запроса или внутри слова), система …
Яндекс патентует метод для автоматического отбора наиболее ценных признаков (Feature Selection) при обучении моделей машинного обучения. Система итеративно оценивает каждый фактор не только по его индивидуальной силе, но и по …
Яндекс патентует метод создания обучающих данных (Ground Truth) для ML-алгоритмов ранжирования. Вместо поиска «единственно верной» оценки релевантности система вычисляет распределение вероятных оценок, учитывая уровень экспертизы асессоров, их личные тенденции (Bias) …
Яндекс патентует метод повышения качества обучения ранжирующих моделей за счет обработки «зашумленных» (неточных или предвзятых) оценок релевантности. Система анализирует надежность и строгость каждого асессора или краудсорсера (например, из Толоки). Затем …
Яндекс использует предиктивные модели машинного обучения для ускорения A/B тестирования изменений в поисковых алгоритмах и интерфейсах. Анализируя начальное поведение пользователей, система прогнозирует долгосрочное влияние изменений на ключевые метрики (клики, сессии, …
Яндекс патентует метод для рекомендательных систем, который моделирует последовательность действий пользователя как траекторию в многомерном пространстве интересов. Система обучается предсказывать следующий шаг пользователя, анализируя направление и скорость этой траектории во …
Яндекс патентует метод повышения качества моделей машинного обучения (в частности, деревьев принятия решений, используемых в ранжировании) путем введения случайного шума во время их обучения. Этот механизм регуляризации предотвращает переобучение модели …
Яндекс патентует метод персонализации поисковых подсказок для сериализованного контента. Система не просто фиксирует клик, а использует статистический алгоритм «Heart Beat», чтобы определить, действительно ли пользователь завершил просмотр эпизода (досмотрел до …
Яндекс использует систему для ускорения идентификации почти дубликатов (near-duplicates) видео во время индексации. Вместо медленного сравнения содержания каждого видеофайла система сначала проверяет схожесть их продолжительности. Допустимая разница (variance parameter) динамически …
Яндекс патентует метод обучения ML-моделей для рекомендательных систем (например, Дзен), решающий проблемы переобучения и вычислительной нагрузки. Система разделяет признаки на общие (User-nonspecific), которые рассчитываются офлайн и хранятся в «Снапшотах», и …
Яндекс патентует специфический математический метод для обучения моделей на основе Деревьев Принятия Решений (например, CatBoost/MatrixNet). Изобретение описывает функцию потерь (метрику точности), которая использует нелинейное логарифмическое взвешивание (log(N+1)) размера листа дерева. …
Яндекс патентует метод повышения чувствительности и скорости A/B тестов. Вместо длительного сбора данных система использует машинное обучение (например, градиентный бустинг) для прогнозирования будущих метрик пользователей (клики, сессии) на основе краткосрочных …
Яндекс патентует метод оптимизации поиска почти дублирующихся видеофайлов. Чтобы избежать дорогостоящего сравнения всех видео, система сначала фильтрует кандидатов по длительности. Допустимое отклонение длительности рассчитывается динамически (например, как процент от оригинала) …
Яндекс патентует метод обучения моделей для систем рекомендаций (например, Дзен), решающий проблемы переобучения и вычислительной эффективности. Признаки разделяются: специфичные для пользователя рассчитываются в реальном времени, а общие (глобальные) рассчитываются периодически …
Яндекс использует инфраструктурный механизм для эффективной индексации партнерских данных (например, товаров или рекламы из XML-фидов). Вместо полной переиндексации базы система группирует объявления в логические «Разделы». При обновлении данных переиндексируется только …
Яндекс патентует метод обучения ML-моделей для систем рекомендаций (например, Дзен, Музыка). Для повышения точности и эффективности признаки разделяются: связанные с пользователем вычисляются в реальном времени, а глобальные признаки контента — …