Google использует механизм для улучшения поисковых подсказок (Autocomplete). Система определяет запросы, которые имеют идентичную каноническую форму (тот же базовый интент после нормализации), но структурно отличаются от вводимого текста. Среди этих альтернатив выбираются те, которые исторически приводили к более высокой удовлетворенности пользователей (Query Utility Score), и предлагаются для повышения качества поиска.
Автор: Виктор Репин
Яндекс патентует механизм кросс-ресурсного ранжирования. Система анализирует, как пользователь (или похожие на него пользователи) взаимодействовал с другими ресурсами (например, поисковой выдачей), чтобы определить его предпочтения. Затем эти данные используются для персонализированного ранжирования элементов (новостей, товаров, стилей оформления) на текущем сайте, даже если пользователь посещает его впервые.
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
Google использует поведенческие данные для определения семантической связи между запросами и изображениями. Если пользователи часто кликают на одни и те же изображения в ответ на два разных запроса (даже на разных языках), эти запросы считаются схожими. Аналогично, если два изображения часто получают клики по одним и тем же запросам, они считаются схожими, независимо от их визуального содержания.
Патент Google описывает, как система определяет лучший способ отображения результатов поиска (карта, таймлайн, галерея) на основе свойств сущностей в Knowledge Graph. Также раскрывается механизм ранжирования результатов по «модифицирующим концепциям» — как явным (например, «самый высокий»), так и неявным (например, автоматическое ранжирование фильмов по дате выхода или популярности).
Google использует метод Latent Collaborative Retrieval (LCR) для персонализации поиска. Система создает векторные представления (эмбеддинги) для текущего запроса пользователя и его долгосрочного профиля (история, предпочтения). Эти векторы приводятся к единой размерности в общем латентном пространстве, что позволяет напрямую сравнивать и комбинировать релевантность запросу и соответствие профилю пользователя для формирования финальной выдачи.
Google использует анализ «избыточных запросов» (тем, которые ищут в регионе значительно чаще, чем в среднем по стране) для определения поведенческой схожести географических локаций, независимо от расстояния. Это позволяет Google переносить метки интересов из регионов с богатыми данными в похожие регионы с недостаточной статистикой, улучшая таргетинг контента и рекламы.
Google использует систему для автоматического извлечения пар Вопрос-Ответ из веб-документов, форумов и логов чатов. Система создает два репозитория: один для точных совпадений вопросов, другой для ключевых слов. Это позволяет предоставлять прямые ответы (например, Featured Snippets), ранжируя их по популярности (консенсусу) и применяя строгие фильтры по длине и близости текста.
Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.
Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.
Google использует статистическую модель, обученную на исторических данных (например, CTR/CVR), для переоценки релевантности параметров контента (ключевых слов, тем). Система не оценивает параметры изолированно, а анализирует их взаимодействие и совместную встречаемость (co-occurrence). Это позволяет определить истинную релевантность, основываясь на полном контексте и комбинации сигналов.
Google использует анализ уточнений запросов (refinements) для определения тематической категории и интента. Система анализирует дополнительные слова (мета-термины), которые пользователи добавляют к исходному запросу. Если разные запросы уточняются схожим образом, система считает их похожими и присваивает им общую категорию, что влияет на ранжирование и показ рекламы.
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, «Pool»). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
Google использует распределенную сеть агентов (браузеры, тулбары, скрипты на сайтах) для сбора детальной навигационной статистики и данных о поведении пользователей после перехода из поиска. Ключевым показателем является частота «завершения поисковой сессии» на странице, что указывает на удовлетворенность пользователя. Эта система позволяет Google оценивать качество страниц на основе реальных пользовательских взаимодействий.
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
Google использует систему для индексации контента внутри нативных мобильных приложений (App Indexing). Для этого приложение запускается в виртуальной машине, которая эмулирует операционную систему устройства. Система перехватывает данные, отправляемые в процесс рендеринга, включая специальный «невидимый текст», предоставленный разработчиком для описания экрана. Эти данные индексируются и используются для ранжирования контента приложения в поиске и обеспечения Deep Linking.
Анализ патента Google, описывающего систему ранжирования видеоконтента. Система вычисляет оценку релевантности, используя не только стандартные метаданные (название, описание), но и специфические «видео-ориентированные характеристики». К ним относятся данные о трансляциях (источник, время эфира, частота), сторонние рейтинги (например, Nielsen), финансовые данные (бюджет) и поведенческие факторы (клики, просмотры, лайки, перемотка).
Google классифицирует синонимы по степени надежности. Если синоним считается ненадежным или зависящим от контекста (Restricted-Locality Synonym), он вносит вклад в ранжирование, только если находится в документе в непосредственной близости к другим словам из запроса. Изолированные вхождения таких синонимов игнорируются или пессимизируются, чтобы избежать показа нерелевантных результатов.
Google анализирует, какие изображения пользователи выбирают совместно в ответ на один и тот же запрос (co-click data) и что они ищут сразу после просмотра изображения (subsequent queries). На основе этих поведенческих данных, а также контекста страницы и меток, система группирует изображения в тематические кластеры. Это позволяет уточнять неоднозначные запросы и структурировать выдачу по темам в Google Images.
Яндекс патентует метод ранжирования, основанный на анализе визуального представления («Снимка») веб-страницы. Система использует модель машинного обучения (в частности, нейронные сети), обученную на оценках асессоров или поведении пользователей, для расчета «Коэффициента привлекательности». Этот коэффициент предсказывает вероятность того, что страница понравится пользователю (визуально или по качеству контента), и напрямую используется как фактор ранжирования.