Автор: Виктор Репин

Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

Яндекс патентует метод для быстрого расчета признаков релевантности, основанных на совместном вхождении и близости (proximity) слов запроса в документе. Система заранее сохраняет в индексе данные о позициях отдельных слов (запросо-независимые данные), а во время поиска использует их для расчета совместного вхождения (запросо-зависимый признак) в реальном времени. Это позволяет моделям ранжирования (Нейронным сетям и MLA) учитывать близость слов в Title, URL и Body без замедления поиска.

Анализ патента Google (на основе Search Report A3), описывающего использование исторических данных и данных о трафике для оценки документов. Система анализирует характеристики рекламы на странице: частоту ее обновления, качество рекламодателей и объем трафика, который генерирует эта реклама или получает рекламируемый сайт.

Google использует автоматизированную систему для обнаружения социальных профилей (Facebook, Twitter и т.д.), связанных с бизнес-сущностями. Система сканирует официальные сайты компаний на наличие ссылок, используя списки ключевых слов и форматов URL. Также система может «угадывать» адреса профилей на основе названия компании. Найденные профили и свежий контент из них (например, купоны) добавляются на «Place Page» (Google Business Profile) компании.

Google использует масштабную инфраструктуру машинного обучения для понимания семантики. Система анализирует огромные объемы текста (например, поисковые сессии), чтобы автоматически выявить скрытые «концепции» (кластеры связанных слов) и вероятности их взаимодействия. Эта генеративная модель позволяет системе понимать тематику документов и запросов на концептуальном уровне, выходя за рамки простого сопоставления ключевых слов.

Google использует механизм для помощи пользователям в уточнении их поисковых запросов. Когда пользователь взаимодействует с определенной частью запроса в поисковой строке (например, наводит курсор или выделяет слово), система определяет контекст этого действия. Затем она предлагает замены или уточнения конкретно для этой части запроса, используя заранее рассчитанные связи и алгоритм оценки совпадений между исходным запросом и потенциальными уточнениями.

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может ее отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

Google идентифицирует частых посетителей или находящихся поблизости пользователей («Амбассадоров») локального бизнеса на основе их истории местоположений. Создается канал связи, позволяющий пользователям задавать этим Амбассадорам вопросы о бизнесе (например, наличие товара, время ожидания). Эта система использует краудсорсинг для получения гиперлокальной информации, которая может быть недоступна онлайн.

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

Google использует системы на основе ИИ (Трансформеры) для анализа видеоконтента, объединяя визуальные, звуковые и текстовые сигналы в единые мультимодальные эмбеддинги. Этот механизм позволяет поисковой системе глубоко понимать содержание видео, оценивать его качество, прогнозировать интерес пользователей и алгоритмически выявлять участие контента в медиа-трендах (например, челленджах) путем сравнения действий и поз.

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

Google собирает и анализирует историю исправлений, которые пользователи вносят в фактические данные (например, характеристики продуктов или биографические данные). Система классифицирует эти исправления по типу (например, было ли исправление подтверждено ссылкой на источник) и использует их для корректировки «оценки уверенности» (Confidence Score) в конкретных фактах. Это напрямую влияет на то, какие данные будут показаны в структурированных результатах поиска, таких как блоки знаний.

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи.

Google использует механизм для динамического определения дубликатов в поисковой выдаче. Вместо сравнения документов целиком, система извлекает из них части, наиболее релевантные запросу (сниппеты). Если эти сниппеты у разных документов совпадают или очень похожи, документы считаются дубликатами для данного конкретного запроса, и менее релевантные удаляются из выдачи.

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

Google анализирует, что пользователи искали в прошлом, находясь рядом с определенными типами мест (например, в магазинах электроники или кафе). Когда новый пользователь начинает вводить запрос рядом с похожим местом, система повышает в подсказках те запросы, которые были популярны именно в этом контексте, сравнивая локальную частоту запроса с глобальной.

Google использует систему для определения схожести между запросами путем объединения нескольких различных сигналов корреляции. Система комбинирует показатели, основанные на временных трендах (как часто запросы ищут одновременно в разных источниках) и показатели, основанные на контекстной близости (какие слова окружают термины запроса в веб-документах). Обученная модель объединяет эти сигналы для более точного понимания взаимосвязи запросов, что используется для автодополнения, расширения запросов и рекламы.

Google использует механизм для улучшения результатов видеопоиска и рекомендаций путем анализа того, как долго различные группы пользователей (сегментированные по демографии или поведению) смотрят определенные видео. Система повышает в ранжировании те видео, которые демонстрируют высокое время просмотра (Watch Time) среди пользователей, похожих на того, кто в данный момент выполняет поиск.