Автор: Виктор Репин

Яндекс патентует систему для автоматической проверки фактов в контенте, созданном генеративными моделями (например, YandexGPT) для поисковой выдачи. Система использует специальную NLP-модель для перекрестной проверки сгенерированных фрагментов текста (сниппетов). Она оценивает, подтверждают ли одни фрагменты точность фактов в других, чтобы гарантировать внутреннюю согласованность ответа и минимизировать «галлюцинации» ИИ перед показом пользователю.

Яндекс патентует механизм для предотвращения появления нерелевантных результатов в топе выдачи, когда пользователь применяет сортировку (например, по цене в E-commerce). Система использует машинное обучение для предсказания, ухудшит ли конкретный объект качество отсортированной выдачи. Если объект признается нерелевантным интенту (например, дешевый аксессуар к дорогому товару), он исключается из списка до сортировки.

Яндекс патентует метод «Learning to Select with Order» (LSO) для решения проблемы потери релевантности, когда пользователи сортируют результаты поиска по вторичному признаку (например, цене или дате). Вместо простого переупорядочивания система использует машинное обучение, чтобы решить, какие объекты исключить из отсортированного списка, а какие оставить, максимизируя общую метрику качества (например, DCG) этого списка.

Патент Google, описывающий механизм рекламного аукциона (Paid Search). Рекламодатели могут заплатить дополнительный сбор (Highest-Bidder Fee), чтобы их объявление ранжировалось так, как если бы у него была самая высокая цена за клик (PPC), даже если фактическая ставка ниже. Это повышает рейтинг объявления в аукционе, но не гарантирует показ, так как учитывается и качество.

Яндекс патентует метод оценки результатов A/B тестирования, который фокусируется на тренде вовлеченности пользователя, а не только на средних значениях. Используя Дискретное Преобразование Фурье, система вычисляет метрики «Амплитуда» (величина изменения) и «Фаза» (направление изменения) поведенческих сигналов. Это позволяет определить, вызывает ли изменение в сервисе (включая алгоритмы ранжирования) устойчивый рост или падение интереса пользователей.

Яндекс патентует метод диверсификации обогащенных запросов (поисковых подсказок, связанных запросов). Чтобы не показывать пользователю схожие варианты, система определяет их семантическую близость на основе того, насколько пересекаются результаты поиска (SERP) по этим запросам. Если выдача схожа, запросы считаются дубликатами, и показывается только один из них. Для ускорения используется ML-модель, обученная предсказывать схожесть выдачи по тексту запросов.

Патент описывает технологию, с помощью которой Google анализирует «снимки» (snapshots) контента, отображаемого на устройстве пользователя (включая веб-страницы, email и приложения). Система извлекает сущности и события, чтобы позже проактивно предоставить релевантные информационные карточки (Information Cards) с контекстом и действиями, например, напоминания о встречах или маршруты.

Яндекс патентует метод генерации обучающих данных для ML-алгоритмов (например, ранжирования или Proxima). Система отказывается от поиска единой «истинной метки» релевантности, признавая субъективность оценок. Вместо этого рассчитывается «Консенсусное распределение меток», учитывающее экспертизу асессоров, их личные склонности и сложность документа. ML-модели обучаются на этом распределении вероятностей («мягких метках»).

Google использует клавиатурное приложение (например, Gboard) для анализа текста, вводимого пользователем в реальном времени (например, в чате). Система идентифицирует поисковые сущности или триггерные фразы, автоматически генерирует релевантные поисковые запросы и предлагает их прямо в интерфейсе клавиатуры. Это позволяет пользователю мгновенно выполнить поиск и получить результаты, не покидая текущее приложение.

Яндекс использует трехуровневую систему машинного обучения для оптимизации смешивания (блендинга) вертикальных результатов (Колдунщиков) и органической выдачи. Система независимо прогнозирует CTR Колдунщика («Win») и CTR следующего за ним результата («Loss»). Третья модель объединяет эти прогнозы для расчета общей «Полезности» и выбирает позицию на SERP, которая максимизирует эту метрику, учитывая штрафы за пропуск Колдунщика.

Google использует систему для эффективной проверки орфографии в длинных запросах, чтобы избежать задержек (latency). Вместо детальной проверки каждого слова система быстро оценивает вероятность ошибки для всех терминов, используя языковые и N-граммные модели. Затем она выбирает только ограниченное подмножество наиболее подозрительных терминов для ресурсоемкой коррекции, обеспечивая баланс скорости и точности.

Яндекс патентует систему генерации интерактивных карточек объектов (Object Cards) в поисковой выдаче. Система определяет сущность в запросе, идентифицирует различные домены, к которым она относится (например, актриса и филантроп), и связанных с ней людей. Карточка динамически адаптируется под интент пользователя и позволяет интерактивно менять фокус (например, с биографии на фильмографию), обновляя контент без перезагрузки страницы.

Google использует систему для обработки сложных или неточных запросов на естественном языке. Система преобразует речь пользователя в структурированный запрос (категории и переменные) и позволяет пользователю итеративно редактировать отдельные элементы этого запроса с помощью последующих голосовых команд, не повторяя весь запрос заново. Это улучшает понимание намерений пользователя в диалоговых интерфейсах.

Патент описывает, как Google автоматически анализирует контент (на примере email), используя правила на основе синтаксиса и содержания. Система распознает сущности (номера телефонов, адреса), объекты на изображениях (Object Recognition) и текст в аудио (Speech Recognition), а затем добавляет скрытые аннотации (поисковые термины). Это позволяет находить контент по его характеристикам, даже если ключевые слова в нем отсутствуют.

Анализ патента Google, описывающего систему, позволяющую пользователям вручную добавлять «альтернативные результаты поиска». Система использует механизм прогрессивного распространения: добавленный результат сначала показывается ограниченной группе (например, в социальной сети). Если результат популярен (высокий CTR) в этой группе, его показ расширяется на более широкую аудиторию.

Яндекс использует этот метод для формирования лент рекомендаций (например, в Дзене). Система анализирует, как часто и насколько высоко конкретная единица контента ранжируется моделью машинного обучения в ответ на тысячи различных исторических запросов пользователей. Контент, который часто попадает в топ предсказаний по разным запросам и контекстам, получает высокий «Item Score» и формирует основу рекомендательной выдачи.

Патент описывает интерфейс браузера, который при взаимодействии пользователя уменьшает текущую веб-страницу и отображает дополнительные панели. Эти панели могут содержать предлагаемые ссылки, сформированные Яндексом на основе анализа истории поиска или информации, предоставленной самим веб-ресурсом. Поисковая система может применять логику ранжирования для выбора этих ссылок.

Google использует систему транскодирования для адаптации веб-страниц под мобильные устройства. Система анализирует документ, находит фрагмент, наиболее релевантный исходному поисковому запросу, и форматирует страницу так, чтобы этот фрагмент отображался вверху экрана. Это минимизирует необходимость прокрутки на маленьких дисплеях.

Яндекс использует механизм для ускорения навигационных запросов. Когда пользователь вводит часть запроса в поисковую строку (или Омнибокс), система анализирует исторические данные о кликах и предлагает URL наиболее вероятного целевого сайта в подсказках. Если пользователь выбирает этот URL, он переходит на сайт напрямую, не видя страницу результатов поиска (SERP).

Google использует механизм для кластеризации контента (например, рекламы или рекомендаций), основанный на профилях интересов пользователей, которые с ним взаимодействуют. Система создает векторы интересов аудитории для каждого элемента контента, затем формирует Списки Ближайших Соседей (Nearest Neighbor Lists). Контент объединяется в кластеры, если их списки соседей схожи. Это позволяет группировать контент по аудитории, а не только по тематике, улучшая таргетинг.