Патент Google описывает систему контекстного поиска, которая предлагает результаты на основе текущих действий пользователя (например, просмотра веб-страницы или звонка). Пользователь может выбрать один из исходных критериев поиска (например, сущность на экране), чтобы уточнить выдачу. Система использует этот выбор и реакцию пользователя на новые результаты для обучения ML-модели и улучшения понимания намерений.
Автор: Виктор Репин
Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.
Анализ патента Google, описывающего систему генерации персонализированных потоков контента. Система моделирует интересы пользователя на основе его активности в разных сервисах (поиск, видео, социальные сети), индексирует свежий контент в реальном времени и ранжирует его, используя комбинацию глобальной популярности (Global Score) и персональной релевантности (User Score), применяя динамические пороги качества.
Google использует ML-систему для прогнозирования эффективности (например, коэффициента конверсии) ключевых слов в Google Ads, особенно для рекламодателей с недостаточными данными. Система анализирует контент сайта, определяет ключевые слова и соотносит их с кластерами запросов (интентами). Эффективность прогнозируется на основе агрегированных исторических данных о конверсиях для всего кластера интентов, а не только данных конкретного рекламодателя.
Google анализирует поведение пользователей в локальном поиске, чтобы отличить реальные филиалы брендов (мультисайтовые сущности) от нерелевантных результатов. Если пользователи часто кликают на результат на карте (Information Window Invocation) и запрашивают маршрут (Direction Request) при поиске бренда, система подтверждает, что это его филиал. Низкая активность ведет к исключению результата из выдачи по брендовым запросам.
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
Патент Google, описывающий систему агрегации новостного контента из разных жанров (СМИ, блоги, форумы) в единые «Кластеры историй». Система ранжирует эти кластеры, учитывая жанр источника, и применяет сложный алгоритм для ранжирования комментариев, отдавая приоритет «аккредитованным» экспертам и лицам, непосредственно упомянутым в новостях.
Патент Google описывает систему ранжирования, учитывающую уровень доверия к сущностям (экспертам, организациям), которые аннотируют или классифицируют контент с помощью «меток» (labels). Система вычисляет «Рейтинг Доверия» (Trust Rank) для этих сущностей (глобально или персонально по темам) и использует его для повышения в выдаче контента, отмеченного авторитетными источниками.
Google использует механизм для определения людей, наиболее релевантных поисковому запросу. Система анализирует контекст вокруг имен в документах, используя «термины классификации» (например, должности, локации, email), чтобы сгруппировать упоминания и различить людей с одинаковыми именами (дисамбигуация). Это позволяет точно идентифицировать сущности и организовать выдачу вокруг них.
Патент описывает инфраструктуру Google для создания высокоточных классификаторов. Он включает метод отбора разнообразных обучающих данных (Bootstrapping/Bucketing) и математическую модель (Monotonic Regression) для объединения оценок от разных классификаторов (например, текста, изображений, ссылок) в единую вероятностную оценку.
Google использует детальный профиль пользователя, основанный на его истории поиска, поведении, предпочтениях и контексте. Этот профиль применяется для автоматической модификации исходного запроса (добавления или замены терминов) и последующего переранжирования результатов, чтобы повысить релевантность выдачи для конкретного пользователя.
Google ранжирует географические подсказки (Autocomplete) в Картах, анализируя, как часто пользователи ищут определенные названия (логи запросов) и насколько популярен сам объект (Prominence Score). Система вычисляет вероятность того, что пользователь, вводящий первые буквы запроса, ищет конкретное место, разрешая неоднозначность названий.
Google рассчитывает метрику «Webscore» для локальных компаний, основанную на количестве упоминаний их названия в интернете. Эта оценка используется для определения «Популярности» (Prominence) бизнеса и влияет на ранжирование в локальном поиске, часто отдавая предпочтение известным компаниям перед теми, что просто находятся ближе. Алгоритм учитывает длину названия и корректирует оценки для сетевых бизнесов.
Google анализирует логи запросов в реальном времени для выявления всплесков популярности (Query Deserves Freshness). Система определяет эти «свежие запросы» на основе скорости изменения частоты или отклонения от ожидаемого объема. Затем эти трендовые запросы фильтруются по качеству (например, CTR результатов, наличие новостного контента) и предлагаются пользователям как актуальные связанные подсказки к их исходному поиску.
Google использует систему канонизации запросов для преобразования неструктурированных или неграмотных поисковых фраз в «хорошо сформированные» (well-formed) вопросы. Система использует модель классификации для определения необходимости перезаписи и модель Sequence-to-Sequence для генерации канонической формы. Это применяется как к основному запросу пользователя, так и для очистки блоков «Похожие запросы».
Google использует механизм для изменения порядка результатов поиска на медиа-платформах. Если в выдаче присутствует несколько элементов контента (например, видео) из одного источника («Канала»), система может сгруппировать их в визуальный кластер, даже если это нарушает исходный порядок релевантности. Это улучшает восприятие выдачи и повышает видимость авторитетных источников.
Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.
Google использует механизм для оценки качества контента (например, видео), учитывая не только его собственные характеристики, но и качество связанных с ним родительских сущностей (например, плейлиста или канала). Система комбинирует оценки качества (Classifier Scores) и оценки защиты (Protection Scores) всех уровней иерархии для расчета агрегированной оценки (Aggregate Score). Это позволяет точнее выявлять и понижать в поиске нежелательный контент, даже если он размещен на в целом качественном ресурсе, и наоборот.
Патент Google описывает систему автоматического определения наиболее интересных сегментов в видео или аудио на основе агрегированных данных от пользователей (краудсорсинг). Система анализирует, какие моменты зрители активно отмечают, кластеризует эти данные и создает автоматические закладки (Ключевые моменты/Главы). Ключевая особенность — возможность генерации разных наборов закладок для разных сегментов аудитории на основе их общих характеристик.