Семантический поиск

Яндекс патентует метод генерации «Аннотационных векторов» для документов. Эти векторы агрегируют лингвистические характеристики всех запросов, по которым пользователи находили документ, и связанные с ними поведенческие метрики (CTR, Dwell Time). Система …
Яндекс патентует метод создания «Аннотированного Поискового Индекса». Если пользователи в рамках одной поисковой сессии переходят с релевантной страницы на другую и проводят там значительное время (например, более 30 секунд), вторая …
Яндекс патентует метод улучшения ранжирования для новых или редких запросов. Система использует модель (Second MLA), обученную предсказывать поведенческую схожесть запросов на основе их текста. Для нового запроса находятся похожие прошлые …
Яндекс патентует метод обогащения ранжирования за счет использования похожих прошлых запросов. Система определяет схожесть запросов на основе пересечения результатов и поведенческих данных (для известных запросов) или на основе текстовой близости …
Яндекс патентует метод повышения скорости и качества ранжирования за счет динамического анализа взаимодействия слов запроса. Система в реальном времени извлекает из инвертированного индекса данные о позициях отдельных слов (query-independent data) …
Яндекс патентует метод ранжирования, который учитывает как общий смысл документа, так и точное вхождение ключевых слов. Система использует три вектора: запроса, документа (для семантики) и специально отобранных фраз из документа …
Яндекс патентует метод эффективного расчета сложных факторов ранжирования, зависящих от взаимодействия нескольких слов в запросе (например, их близость друг к другу или совместное вхождение в Title/URL). Система использует данные из …
Яндекс патентует метод генерации высококачественных обучающих данных для алгоритмов машинного обучения (MLA), определяющих схожесть запросов по тексту. Система находит пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но …
Яндекс патентует многоэтапную систему для генерации прямых ответов (Quick Answers) на запросы. Система использует каскад из трех моделей машинного обучения (включая Трансформеры/BERT) для генерации семантических векторов, расчета релевантности источников и …
Яндекс автоматически создает тезаурус, анализируя большие объемы текста на основе дистрибутивной семантики. Система изучает контекст (соседние слова), в котором употребляются слова и фразы, и частоту их совместного появления в одном …
Яндекс патентует метод ранжирования, учитывающий схожесть между самими документами-кандидатами (D2D proximity). Система генерирует векторы документов и рассчитывает, насколько каждый документ близок к «среднему» результату в выдаче (Reference Vector) или к …
Яндекс патентует метод для быстрого расчета признаков релевантности, основанных на совместном вхождении и близости (proximity) слов запроса в документе. Система заранее сохраняет в индексе данные о позициях отдельных слов (запросо-независимые …
Яндекс патентует многоэтапный процесс обучения трансформерных моделей (типа BERT/YATI) для ранжирования. Система сначала обучается на огромном массиве данных о кликах и метаданных, а затем дообучается на оценках асессоров. Ключевой шаг …
Яндекс патентует метод ранжирования, который учитывает не только семантику (смысл), но и точное лексическое (словесное) соответствие запросу. Система использует три векторных эмбеддинга: один для запроса, один для всего документа (семантика) …
Яндекс использует разделенную (двухфазную) нейросетевую архитектуру на базе Трансформеров (BERT/YATI) для ускорения персонализации. Первая фаза анализирует историю поиска пользователя и текущий запрос, создавая компактное представление интересов. Вторая фаза использует это …
Яндекс патентует эффективный метод расчета сложных текстовых факторов (близость слов запроса друг к другу, их совместное наличие в URL/заголовке) в момент выполнения поиска. Система использует предварительно сохраненные в индексе данные …
Яндекс патентует метод повышения качества ранжирования за счет расчета сложных текстовых факторов в реальном времени. Система использует предварительно сохраненные данные о позициях отдельных слов (query-independent) для динамического вычисления факторов совместной …
Яндекс патентует метод автоматической генерации «сложных негативных примеров» для обучения алгоритмов машинного обучения (MLA), определяющих схожесть запросов. Система ищет пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но …
Яндекс патентует метод автоматического создания тезауруса путем анализа контекста, в котором встречаются слова и фразы в больших массивах текста. Система определяет семантические связи (синонимы, антонимы, гиперонимы) на основе схожести их …
Яндекс патентует метод, который вводит контекст самой поисковой выдачи как фактор ранжирования. Система рассчитывает векторную близость (D2D proximity) между документами, попавшими в топ. Измеряется, насколько документ похож на "средний" документ …