Автор: Виктор Репин

Яндекс патентует механизм выбора обогащенного ответа (Rich Suggest) в поисковых подсказках. Система агрегирует вероятность перехода на конкретный ресурс по всем подсказкам, соответствующим введенному префиксу. Обогащенный ответ показывается, только если ресурс, связанный с самой популярной подсказкой, имеет наибольший совокупный вес (Cumulative Resource Weight) среди всех ресурсов.

Google использует этот механизм для интеграции контента из нативных приложений в веб-поиск. Если приложение установлено у пользователя и система определяет высокую релевантность его контента запросу, в выдачу добавляется специальный элемент (например, «Больше результатов из приложения X»). Клик по этому элементу запускает новый поиск, показывая множество deep links только из этого приложения, не покидая интерфейс поиска.

Google использует систему для понимания локальных запросов, которые явно не указывают категорию места (например, «где поесть рис с бобами?»). Система анализирует тексты веб-страниц и отзывы, чтобы связать фразы (N-граммы) с конкретными категориями бизнеса (например, «рис с бобами» = «Мексиканский ресторан»). Это позволяет точно интерпретировать интент пользователя и предоставлять релевантные локальные результаты.

Google анализирует историю поиска пользователя, клики по ссылкам и взаимодействие с контентом (время просмотра, скроллинг) для создания многофакторного профиля интересов. Этот профиль (включающий термины, категории и предпочитаемые сайты) используется для переранжирования стандартной выдачи. Степень персонализации регулируется «оценкой уверенности» системы в профиле, а финальная выдача смешивает общие и персонализированные результаты.

Google патентует систему проактивного поиска для «второго экрана». Анализируя исторические данные, система определяет, что пользователи ищут во время просмотра контента (фильма, матча). Когда новый пользователь смотрит этот контент, система распознает его (например, по звуку) и автоматически выполняет релевантные запросы в нужный момент, показывая свежие результаты без ручного ввода.

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.

Google использует систему для идентификации оригинального контента путем фиксации времени первого появления фрагментов текста (Content Pieces) в индексе. Система отслеживает, как быстро и широко этот контент копируется другими авторами (Copy History). Анализируя паттерны распространения, Google классифицирует контент (например, как Новость, Блог или Рекламу) и определяет репутацию автора или сайта-источника.

Google анализирует активность пользователя (поиск, email, карты, календарь) для построения персонального графа интересов (User Attribute Graph). Система классифицирует эти интересы как краткосрочные (например, планирование отпуска) или долгосрочные (например, хобби). При ранжировании Google отдает приоритет результатам, соответствующим текущим краткосрочным намерениям пользователя.

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

Фундаментальный патент Google (с приоритетом от 2001 года), описывающий интеграцию статистики использования в ранжирование. Система рассчитывает Usage Score на основе частоты посещений (Visit Frequency), количества уникальных пользователей (Unique Users) и длины URL (Path Length). Эта оценка комбинируется с традиционными факторами релевантности для определения финального рейтинга.

Google использует этот механизм для динамической адаптации алгоритма ранжирования к специфике конкретного запроса. Система анализирует, какие факторы оказали наибольшее влияние на формирование первичной выдачи по сравнению с историческими данными. Если влияние факторов отличается от нормы, система корректирует их веса и проводит повторное ранжирование (Re-scoring) для обеспечения оптимального результата.

Google применяет медицинский подход «дифференциальной диагностики» к поисковым подсказкам. Когда пользователь вводит симптом, система предлагает уточняющие запросы (например, «кашель с мокротой»), чтобы исключить возможные заболевания. Если пользователь игнорирует подсказку, система интерпретирует это как отсутствие симптома и адаптирует следующие предложения.

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить связь между изображениями. Если пользователи часто кликают на изображение А и изображение Б в рамках одной сессии поиска и в течение короткого времени, система считает их связанными. Этот механизм используется для показа блока «Связанные изображения» и генерации связанных запросов.

Яндекс патентует метод «Виртуального Ансамбля» для оценки уверенности моделей градиентного бустинга (например, CatBoost) в своих прогнозах. Вместо обучения нескольких моделей, система использует разные срезы (подпоследовательности деревьев) одной обученной модели и измеряет разброс их прогнозов. Это позволяет эффективно рассчитывать «Оценку Неопределенности», которая может использоваться как дополнительный фактор в ранжировании.

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует ее с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

Google анализирует коммуникации пользователя (email, сообщения) для выявления планируемых событий (встречи, поездки). Система присваивает событию динамический уровень достоверности, который обновляется по мере поступления новых данных (ответы в переписке, поисковые запросы пользователя). В зависимости от уровня достоверности, Google использует эти данные для многоуровневой персонализации поисковой выдачи, подсказок и уведомлений.

Google использует интерактивные уточнения (метки или фильтры) на странице результатов поиска для определения намерения пользователя. Когда пользователь взаимодействует с уточнением, Google объединяет исходный запрос с новым тематическим контекстом метки. Это ограничивает интерпретацию исходных ключевых слов и генерирует новый, более релевантный набор результатов.

Google использует «гибридные запросы» (например, «тема + бренд» или «тема + автор») для выявления авторитетных источников и экспертов. Анализируя логи запросов и клики пользователей, система создает ассоциации между темами и этими источниками. Эти ассоциации используются для повышения ранжирования соответствующих сайтов или контента авторов при будущих информационных запросах по этой теме.

Анализ патента Google, описывающего систему автоматического дополнения метаданных для видео. Система строит граф сходства, используя как анализ аудиовизуального контента, так и поведенческие сигналы (co-play counts – совместные просмотры). Этот граф используется для обучения классификаторов, которые затем переносят семантические метки (Cluster Weights) от хорошо описанных видео к похожим видео с недостаточными или спамными метаданными.