Topical Authority

Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации …
Яндекс патентует метод улучшения ранжирования в условиях нехватки данных. Если для пары «запрос-документ» отсутствует значение важного признака (например, CTR), система находит прошлые похожие запросы, по которым этот документ уже показывался …
Яндекс автоматически создает тезаурус, анализируя большие объемы текста на основе дистрибутивной семантики. Система изучает контекст (соседние слова), в котором употребляются слова и фразы, и частоту их совместного появления в одном …
Яндекс патентует метод обогащения ранжирования за счет использования похожих прошлых запросов. Система определяет схожесть запросов двумя способами: на основе пересечения результатов и поведенческих данных (для известных запросов) или на основе …
Яндекс автоматически создает тезаурус, анализируя контекст использования слов и фраз в большом корпусе текстов. Система определяет семантические связи (синонимы, антонимы, гиперонимы, ассоциации), сравнивая, насколько похожи контексты разных слов и как …
Яндекс патентует метод автоматического создания тезауруса (базы синонимов, антонимов, гиперонимов и ассоциаций) путем анализа больших массивов текста. Система определяет семантическую связь между словами или фразами, сравнивая контекст, в котором они …
Яндекс патентует метод оптимизации хранения и поиска документов (Semantic Sharding). Система использует машинное обучение (нейросеть) для генерации векторов документов и запросов так, чтобы их близость отражала релевантность. Документы с похожими …
Яндекс патентует технологию для автоматического обогащения документов контекстной информацией. Система анализирует текст, идентифицирует объекты (сущности), определяет их точное значение в контексте (Дисамбигуация) и выделяет наиболее значимые из них (Salience). Для …
Яндекс использует алгоритм для группировки похожих документов (например, в Яндекс.Новостях), который оценивает качество кластера по двум метрикам: Когезия (насколько документы внутри похожи друг на друга) и Фокус (насколько тема сконцентрирована …