Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации …
2020
Яндекс патентует метод обогащения инвертированного индекса поведенческими данными. Если пользователи кликают на документ, в котором отсутствует один из терминов запроса (найденный благодаря «Правилу Кворума»), система добавляет в индекс «неявную словопозицию» …
Яндекс патентует метод генерации факторов ранжирования, называемых «векторами аннотации». Система анализирует все прошлые запросы, по которым пользователи находили конкретный документ, изучает лингвистические характеристики этих запросов и фиксирует поведение пользователей (клики, …
Яндекс использует механизм переранжирования, основанный на исторических данных (логи поведения или оценки асессоров). Система находит прошлые пары «запрос-документ», похожие на текущую ситуацию. Если прошлая пара была высоко оценена (например, имела …
Яндекс патентует метод улучшения ранжирования для новых или редких запросов (проблема «холодного старта»). Система обучается предсказывать поведенческую схожесть запросов на основе их текста. Для нового запроса система находит похожие прошлые …
Яндекс патентует метод повторного ранжирования, который корректирует оценки основного алгоритма (MLA) с помощью механизма, основанного на памяти (Instance-Based Learning/KNN). Система хранит исторические данные о полезности конкретных пар «запрос-документ» (на основе …
Яндекс патентует метод генерации отсутствующих значений признаков ранжирования (например, поведенческих) для решения проблемы «холодного старта». Если данных по текущему запросу нет, система находит похожие прошлые запросы, по которым документ уже …
Яндекс патентует двухэтапный механизм для системы рекомендаций контента (например, Дзен). Первый этап – офлайн-квалификация источников: система использует машинное обучение для анализа поведенческих и трафиковых метрик сайта (источники трафика, глубина просмотра, …
Яндекс патентует метод для оценки и продвижения специализированного (нишевого) контента в рекомендательных системах (например, Дзен). Система идентифицирует «ядро аудитории» (подписчиков канала) и принудительно показывает им новый контент. Реакция этой лояльной …
Яндекс патентует метод для систем рекомендаций (например, Видео или Дзен). Система рассчитывает финальный скор схожести (Correspondence Parameter), перемножая количество общих тегов (тематическая близость) на сумму показателей вовлеченности (например, время просмотра) …
Яндекс патентует систему автоматического создания «мета-признаков» для улучшения ранжирования. Мета-признак — это относительный фактор, значение которого зависит не только от самого документа, но и от других документов в выдаче по …
Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, …
Яндекс патентует метод обучения системы исправления опечаток (Spell Correction). Система автоматически генерирует "реалистичные опечатки" для обучения, учитывая как частоту буквосочетаний в языке, так и физическое расстояние между клавишами на клавиатуре. …
Яндекс использует модель машинного обучения для определения приоритета индексации новых или обновленных страниц. Система оценивает потенциальную «полезность» страницы сразу после сканирования (T1), используя только доступные на этот момент данные. Страницы …
Яндекс патентует механизм Активного Обучения (Active Learning) для сбора поведенческих данных о документах, по которым мало статистики. Система определяет вероятность принадлежности документа к определенному классу качества (например, "Хороший") и искусственно …
Яндекс патентует метод для рекомендательных систем (например, Дзен), который обрабатывает разные типы взаимодействий пользователя (например, клики и время просмотра) независимо друг от друга с помощью отдельных моделей (SVD, нейросети). Это …
Яндекс патентует систему автоматического создания и валидации новых факторов ранжирования (мета-признаков). Эти факторы вычисляются не изолированно для документа, а в контексте всей поисковой выдачи. Значение мета-признака зависит от значения базового …
Яндекс патентует метод обогащения ранжирования за счет использования похожих прошлых запросов. Система определяет схожесть запросов двумя способами: на основе пересечения результатов и поведенческих данных (для известных запросов) или на основе …
Яндекс патентует метод генерации (импутации) значений факторов ранжирования для пары запрос-документ, когда данные отсутствуют (проблема «холодного старта»). Если для текущего запроса у документа нет значения признака (например, поведенческих данных), система …
Яндекс патентует метод для решения проблемы нехватки данных при ранжировании (проблема «холодного старта»). Если у документа отсутствует значение для важного признака (например, поведенческих данных) по текущему запросу, система находит похожие …