Topical Authority

Как Яндекс определяет первоисточник контента путем анализа тематических кластеров, репутации и паттернов цитирования

2020 • Topical Authority • Качество контента • Яндекс Новости

US10868872B2 2020-12-15 2017-03-16

Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации …

Как Яндекс переносит значения признаков ранжирования с похожих запросов, если для текущего запроса данных недостаточно

2021 • Topical Authority • Поведенческие факторы • Ранжирование • Холодный старт

US11194878B2 2021-12-07 2019-09-16

Яндекс патентует метод улучшения ранжирования в условиях нехватки данных. Если для пары «запрос-документ» отсутствует значение важного признака (например, CTR), система находит прошлые похожие запросы, по которым этот документ уже показывался …

Как Яндекс автоматически строит тезаурус для понимания семантических связей между словами (синонимы, антонимы, гиперонимы)

2018 • Topical Authority • Обучение моделей • Семантический поиск

RU2016137530A 2018-03-23 2016-09-20

Яндекс автоматически создает тезаурус, анализируя большие объемы текста на основе дистрибутивной семантики. Система изучает контекст (соседние слова), в котором употребляются слова и фразы, и частоту их совместного появления в одном …

Как Яндекс использует похожие запросы из истории поиска для улучшения ранжирования текущей выдачи

2020 • Topical Authority • Ранжирование • Холодный старт

RU2720905C2 2020-05-14 2018-09-17

Яндекс патентует метод обогащения ранжирования за счет использования похожих прошлых запросов. Система определяет схожесть запросов двумя способами: на основе пересечения результатов и поведенческих данных (для известных запросов) или на основе …

Как Яндекс автоматически строит тезаурус, анализируя контекст и совместную встречаемость слов для расширения запросов

2018 • Topical Authority • Интент пользователя • Семантический поиск

RU2672393C2 2018-11-14 2016-09-20

Яндекс автоматически создает тезаурус, анализируя контекст использования слов и фраз в большом корпусе текстов. Система определяет семантические связи (синонимы, антонимы, гиперонимы, ассоциации), сравнивая, насколько похожи контексты разных слов и как …

Как Яндекс автоматически строит тезаурус, анализируя контекст и совместную встречаемость слов и фраз

2018 • Topical Authority • Обучение моделей • Семантический поиск

US20180081874A1 2018-03-22 2017-05-26

Яндекс патентует метод автоматического создания тезауруса (базы синонимов, антонимов, гиперонимов и ассоциаций) путем анализа больших массивов текста. Система определяет семантическую связь между словами или фразами, сравнивая контекст, в котором они …

Как Яндекс использует векторную кластеризацию документов (Semantic Sharding) для ускорения поиска и организации индекса

2020 • Topical Authority • Индексация • Семантический поиск

US20200210484A1 2020-07-02 2019-09-18

Яндекс патентует метод оптимизации хранения и поиска документов (Semantic Sharding). Система использует машинное обучение (нейросеть) для генерации векторов документов и запросов так, чтобы их близость отражала релевантность. Документы с похожими …

Как Яндекс автоматически определяет ключевые сущности в тексте, разрешает их неоднозначность и оценивает их значимость

2017 • Topical Authority • Качество контента • Семантический поиск

RU2632126C1 2017-10-02 2016-04-07

Яндекс патентует технологию для автоматического обогащения документов контекстной информацией. Система анализирует текст, идентифицирует объекты (сущности), определяет их точное значение в контексте (Дисамбигуация) и выделяет наиболее значимые из них (Salience). Для …

Как Яндекс кластеризует новости, балансируя тематическую схожесть и концентрацию контента

2021 • Topical Authority • Семантический поиск • Яндекс Новости

US11144599B2 2021-10-12 2019-08-29

Яндекс использует алгоритм для группировки похожих документов (например, в Яндекс.Новостях), который оценивает качество кластера по двум метрикам: Когезия (насколько документы внутри похожи друг на друга) и Фокус (насколько тема сконцентрирована …