Яндекс патентует метод обучения ранжирования (Learning to Rank) через анализ поведения пользователей в выдаче или ленте. Система определяет «Последний просмотренный элемент», с которым пользователь взаимодействовал перед уходом. Выбранные элементы получают положительную оценку. Элементы, показанные ниже последнего просмотренного, получают отрицательную оценку. Ключевая особенность: чем ближе проигнорированный элемент к последнему просмотренному, тем выше его штраф, так как предполагается, что именно он стал причиной прекращения сессии.
Автор: Виктор Репин
Яндекс патентует метод улучшения ранжирования в условиях нехватки данных. Если для пары «запрос-документ» отсутствует значение важного признака (например, CTR), система находит прошлые похожие запросы, по которым этот документ уже показывался и имеет рассчитанное значение признака. Затем система переносит это значение на текущий запрос, учитывая степень схожести запросов. Это позволяет точнее ранжировать документы даже по новым или редким запросам.
Яндекс патентует двухкомпонентную ML-архитектуру для глубокой персонализации. Первая модель офлайн обрабатывает долгосрочную историю поиска пользователя (недели/месяцы) и создает сжатый вектор его интересов. Вторая модель в реальном времени использует этот вектор вместе с данными текущей сессии для точного ранжирования результатов, повышая точность без увеличения задержек.
Яндекс патентует метод персонализации отображения организаций (POI) на Картах. Система агрегирует данные о действиях пользователя в разных сервисах Яндекса (Почта, Такси, Навигатор, Браузер) для понимания его интересов. Используя машинное обучение (в частности, DSSM), создаются векторные профили пользователя и POI. Ранжирование основано на близости этих векторов, что позволяет показывать наиболее релевантные организации при просмотре карты.
Яндекс патентует метод повторного ранжирования, который корректирует оценки основного алгоритма (MLA) с помощью механизма, основанного на памяти (Instance-Based Learning/KNN). Система хранит исторические данные о полезности конкретных пар «запрос-документ» (на основе CTR или оценок асессоров). Если текущая пара похожа на историческую пару с высокой полезностью, документ получает дополнительный буст в ранжировании.
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
Яндекс патентует метод генерации отсутствующих значений признаков ранжирования (например, поведенческих) для решения проблемы «холодного старта». Если данных по текущему запросу нет, система находит похожие прошлые запросы, по которым документ уже ранжировался. Значения признаков из прошлого переносятся на текущий запрос с учетом степени схожести запросов, обеспечивая более точное ранжирование.
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
Яндекс патентует систему персонализации агрегированного поиска (блендинга). Система анализирует историю кликов пользователя, чтобы определить его предпочтения к различным типам контента (веб, видео, изображения и т.д.). На основе этих данных вычисляется «Параметр предпочтительной агрегации», который определяет, как высоко и в каком порядке смешивать результаты из вертикальных поисков с основными веб-результатами для конкретного пользователя.
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
Яндекс патентует систему, которая ранжирует элементы на любом сайте (новости, товары, стили оформления) для конкретного пользователя. Для этого система анализирует историю взаимодействия этого (или похожего) пользователя с другими, совершенно не связанными сайтами или Поиском Яндекса. Это позволяет персонализировать контент даже при первом посещении сайта.
Яндекс патентует двухэтапный механизм для системы рекомендаций контента (например, Дзен). Первый этап – офлайн-квалификация источников: система использует машинное обучение для анализа поведенческих и трафиковых метрик сайта (источники трафика, глубина просмотра, наличие дат в URL), чтобы определить его пригодность. Второй этап – персонализация: система смешивает контент из известных пользователю источников с новым контентом, используя алгоритмы коллаборативной фильтрации (SVD, PMI).
Яндекс патентует механизм балансировки между показом проверенных результатов (Эксплуатация) и тестированием новых документов (Экспериментирование), используя подход «Многорукий бандит». Система предсказывает релевантность документов без истории поведения, вычисляет «Оценку эксперимента» и принудительно добавляет перспективных кандидатов на высокие позиции SERP. Это позволяет быстро собрать поведенческие данные для новых страниц, принимая краткосрочный риск ради долгосрочного улучшения качества поиска.
Google использует этот механизм для определения того, какие группы связанных сущностей (например, «Фильмы», «Члены семьи», «Коллеги») показать в Панели Знаний. Система анализирует пути в Графе Знаний, группирует сущности по типу их связи (Path Type) и ранжирует эти группы по популярности и силе связи (Relationship Strength), основанной на совместном упоминании в вебе и запросах.
Google использует двухэтапный механизм для анализа внешних комментариев (например, блог-постов). Сначала система определяет истинный объект обсуждения, если в комментарии несколько ссылок, анализируя CTR, длину URL и тематику. Затем она оценивает качество комментария, используя рейтинг автора, авторитетность источника, свежесть и обратную связь пользователей, чтобы отобрать наиболее релевантный контент.
Google использует двухэтапный метод доставки результатов поиска через API и виджеты (например, Google Maps) на сторонних сайтах. Сначала отображается только базовое описание результата и присваивается уникальный защищенный токен. Полный контент загружается только после клика пользователя и валидации токена. Это защищает данные Google от парсинга третьими сторонами и позволяет точно измерять CTR, который используется как сигнал ранжирования для географических запросов.
Патент описывает систему (User Distributed Search), интегрированную в инструменты создания контента (например, Gmail, блоги). Google отслеживает, какие ссылки пользователи встраивают в свой контент, используя это как сигнал для ранжирования. Также система анализирует клики получателей по этим ссылкам для расчета тематической оценки репутации (Reputation Score) автора.
Яндекс патентует систему для защиты от «флешмобов» и накрутки оценок (review bombing). Система анализирует аномальные всплески оценок и сравнивает историю браузера пользователей, оставивших эти оценки. Это позволяет выявить внешний веб-ресурс (например, вирусный пост или обзор), спровоцировавший аномалию. Оценки от пользователей, посетивших этот ресурс, понижаются в весе или удаляются.
Google патентует архитектуру диалогового поиска («Generative Companion»), которая поддерживает состояние пользователя (контекст, историю запросов и взаимодействий) на протяжении всей сессии. Система использует начальную LLM для генерации «синтетических запросов», классифицирует намерение пользователя на основе текущего состояния и динамически выбирает специализированные «Downstream LLM» (для суммаризации, креатива или уточнения) для формирования финального генеративного ответа.
Яндекс патентует систему борьбы с фейковыми отзывами, основанную на анализе истории браузера пользователя со всех его устройств. Система ищет URL страниц подтверждения транзакций («Спасибо за покупку»), используя многоуровневые эмбеддинги (общие, на основе статической и динамической частей URL). Если подтверждение найдено, все отзывы пользователя верифицируются. Если нет — все отзывы удаляются, а User ID попадает в черный список.