2024

Яндекс использует многоэтапный процесс для обучения трансформерных моделей (типа BERT/YATI). Модель сначала обучается на миллиардах кликов (прогнозируя поведение), затем дообучается на миллионах оценок асессоров (понимая качество). Ключевой этап — перенос …
Яндекс применяет двухкомпонентную систему машинного обучения для персонализации выдачи. Первая модель агрегирует долгосрочную историю поиска пользователя в компактное векторное представление (профиль интересов). Вторая модель в реальном времени использует этот вектор …
Яндекс патентует двухэтапный метод обучения трансформерных моделей (типа BERT/YATI) для предсказания вероятности клика конкретного пользователя на документ. Сначала модель предварительно обучается на широком наборе данных (все показанные результаты), а затем …
Яндекс патентует архитектуру ранжирования, использующую две ML-модели для глубокой персонализации. Первая модель офлайн обрабатывает долгосрочную историю поиска пользователя, создавая векторный профиль его интересов. Вторая модель в реальном времени использует этот …
Яндекс патентует двухкомпонентную ML-архитектуру для глубокой персонализации. Первая модель офлайн обрабатывает долгосрочную историю поиска пользователя (недели/месяцы) и создает сжатый вектор его интересов. Вторая модель в реальном времени использует этот вектор …
Яндекс патентует метод повышения скорости и качества ранжирования за счет динамического анализа взаимодействия слов запроса. Система в реальном времени извлекает из инвертированного индекса данные о позициях отдельных слов (query-independent data) …
Яндекс патентует метод ранжирования, который учитывает как общий смысл документа, так и точное вхождение ключевых слов. Система использует три вектора: запроса, документа (для семантики) и специально отобранных фраз из документа …
Яндекс патентует эффективный способ персонализации выдачи с помощью тяжелых нейросетевых моделей (типа BERT/YATI). Система сначала анализирует историю поиска пользователя и текущий запрос (Ступень 1), создавая компактное представление контекста пользователя. Затем …
Яндекс патентует метод эффективного расчета сложных факторов ранжирования, зависящих от взаимодействия нескольких слов в запросе (например, их близость друг к другу или совместное вхождение в Title/URL). Система использует данные из …
Яндекс патентует метод генерации обучающих данных для систем ранжирования (например, лент рекомендаций). Система определяет последний элемент, с которым взаимодействовал пользователь перед закрытием или обновлением ленты. Элементам, получившим взаимодействие, присваивается «Оценка …
Яндекс патентует многоэтапную систему для генерации прямых ответов (Quick Answers) на запросы. Система использует каскад из трех моделей машинного обучения (включая Трансформеры/BERT) для генерации семантических векторов, расчета релевантности источников и …
Яндекс патентует анти-фрод механизм, направленный на подозрительные коммерческие сайты (низкое качество, низкий трафик). Система искусственно манипулирует их ранжированием, чередуя периоды повышения и понижения позиций с помощью случайных значений. Цель — …
Яндекс патентует метод для эффективной приоритизации сканирования веб-ресурсов на наличие вредоносных данных, особенно при публикации нового контента со ссылками. Система строит граф связей и назначает ресурсам «Оценки надежности» на основе …
Яндекс патентует метод оптимизации поисковой выдачи (SERP), учитывающий физический размер (высоту) и позицию элементов. Система рассчитывает «оценку полезности» для обучения ML-моделей. Если пользователь пропускает большой элемент (например, виджет или расширенный …
Яндекс патентует метод повышения точности обучающих данных, получаемых через краудсорсинг (например, Толока). Система рассчитывает «Метрику Согласованности» — вероятность того, что большинство асессоров дали правильный ответ, учитывая их персональные показатели качества. …
Яндекс патентует метод обучения чат-ботов, использующий подход Retrieval-Augmented Generation (RAG). Система находит релевантный факт во внешней базе знаний с помощью модели семантической близости. Затем этот факт объединяется (конкатенируется) с запросом …
Яндекс патентует систему для автоматической проверки фактов в контенте, созданном генеративными моделями (например, YandexGPT) для поисковой выдачи. Система использует специальную NLP-модель для перекрестной проверки сгенерированных фрагментов текста (сниппетов). Она оценивает, …
Яндекс патентует метод диверсификации обогащенных запросов (поисковых подсказок, связанных запросов). Чтобы не показывать пользователю схожие варианты, система определяет их семантическую близость на основе того, насколько пересекаются результаты поиска (SERP) по …
Яндекс патентует метод проверки фактической точности контента, созданного генеративными моделями (например, для объектных карточек). Система не сверяет факты с внешними источниками, а ищет внутренние противоречия в сгенерированном тексте. Специально обученная …
Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов (Enriched Queries). Система определяет, являются ли два предложенных запроса слишком похожими, основываясь на том, насколько сильно пересекаются их результаты поиска …