Google использует эффективный математический метод для распространения характеристик (например, тематик сайтов) по большим графам. Патент описывает, как Google может строить графы сайтов, где связи основаны на поведении пользователей (совместное посещение в одной сессии), и быстро рассчитывать, как тематика одного сайта передается его соседям по этому поведенческому графу, используя технику «предварительной нормализации».
Автор: Виктор Репин
Google использует архитектуру для генерации множества вариантов пересмотренных запросов (Related Searches). Патент описывает, как система оценивает качество этих вариантов с помощью предиктивных моделей, обученных на поведении пользователей (например, «длинные клики»), и данных сессий (частота переходов между запросами и улучшение качества), чтобы выбрать наиболее релевантные и полезные предложения.
Google использует архитектуру глубокого обучения (Deep Network) для классификации веб-ресурсов. Система преобразует разнородные признаки страницы (текст, URL, возраст) в числовые векторы (эмбеддинги), обрабатывает их через нейронную сеть для глубокого анализа и определяет категорию ресурса. Это позволяет точно идентифицировать тип контента (новости, блог, товар) и выявлять различные виды спама, что напрямую влияет на индексирование и ранжирование.
Google отслеживает, посещают ли пользователи географические места после того, как система им их порекомендовала, используя геолокационные данные. Если пользователи определенной группы часто посещают место после рекомендации, Google повышает ранжирование этого места в результатах поиска для других пользователей из этой же группы. Это связывает офлайн-поведение с онлайн-ранжированием.
Google анализирует агрегированные данные о взаимодействии пользователей с видео (перемотки, паузы, комментарии, повторные просмотры). На основе этих данных система вычисляет оценки вовлеченности для каждого сегмента. Это позволяет автоматически определять самые интересные моменты, которые затем используются для генерации тамбнейлов, создания превью (трейлеров), выделения ключевых моментов (Key Moments) и влияния на ранжирование видеоконтента.
Анализ основополагающего патента Google, описывающего создание детальных профилей пользователей (Term-based, Category-based, Link-based) на основе их интересов, истории поиска, поведения на сайте и демографии. Эти профили используются для переранжирования органических результатов поиска. Затем персонализированная органическая выдача анализируется для подбора релевантной рекламы.
Google анализирует исторические данные о том, как пользователи переформулируют запросы (цепочки запросов), пока не найдут нужный контент. Если многие пользователи начинают с запроса А, переходят к запросу Б и кликают на результат Х, система может добавить результат Х напрямую в выдачу по запросу А и повысить его в ранжировании, основываясь на частоте такого поведения.
Google использует механизм для гарантированного включения результатов с авторитетных сайтов в поисковую выдачу. Если исходный запрос содержит ключевое слово, связанное с авторитетным источником, или если качество стандартной выдачи низкое, система выполняет дополнительный поиск. Этот поиск строго ограничен рамками авторитетного сайта и использует модифицированную (часто агрессивно расширенную) версию исходного запроса. Полученный результат затем внедряется в топ выдачи.
Яндекс патентует метод ранжирования, учитывающий схожесть между самими документами-кандидатами (D2D proximity). Система генерирует векторы документов и рассчитывает, насколько каждый документ близок к «среднему» результату в выдаче (Reference Vector) или к самому релевантному результату. Эта метрика D2D используется как дополнительный признак в финальной формуле ранжирования для обеспечения тематической целостности и выявления «выбросов».
Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
Механизм защиты пользователей, который перехватывает запрос на загрузку веб-страницы. Если страница идентифицирована как низкокачественная (паркинг домена, ферма контента или ссылочная ферма), система показывает предупреждение и предлагает перейти на альтернативный релевантный сайт вместо запрошенного.
Google использует механизм для автоматического определения географической релевантности веб-ресурсов путем анализа местоположения их посетителей (через IP-адреса). Система применяет кластерный анализ к этим данным: если аудитория сконцентрирована в определенных регионах, сайт признается локально релевантным этим регионам. Эти данные используются для повышения ранжирования сайта для пользователей из этих же регионов.
Яндекс патентует анти-фрод механизм, направленный на подозрительные коммерческие сайты (низкое качество, низкий трафик). Система искусственно манипулирует их ранжированием, чередуя периоды повышения и понижения позиций с помощью случайных значений. Цель — создать резкие перепады трафика, чтобы демотивировать владельцев ресурса продолжать потенциально мошенническую деятельность.
Анализ патента Google (связанного с Google Knol), который детализирует расчет метрик авторитетности автора: Reputation Score (репутация) и Credibility Factor (достоверность). Патент описывает использование этих метрик для ранжирования и монетизации, а также механизмы персонализации поиска на основе общих поведенческих интересов пользователей.
Google использует данные датчиков (GPS, акселерометр) для определения текущей физической активности пользователя (ходьба, езда на велосипеде, в машине или автобусе). Эта информация используется в реальном времени для изменения поисковой выдачи: система меняет ранжирование вариантов автозаполнения (Query Suggestions) и может автоматически переписывать введенный запрос (Query Modification), чтобы предоставить результаты, максимально релевантные контексту текущей активности.
Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно «Search Features»), которая наиболее соответствует прогнозируемому намерению.
Google рассчитывает оценки авторитетности для контент-каналов (например, YouTube-каналов), специфичные для разных типов запросов (таких как свежесть или качество). Эти оценки на уровне канала затем присваиваются отдельным видео и используются для корректировки их ранжирования в зависимости от намерения пользователя.
Google применяет систему для обнаружения фейковых отзывов и рейтингов не только в магазинах приложений, но и на веб-сайтах (включая локальный поиск и e-commerce). Система агрегирует сигналы, основанные на скорости получения отзывов, схожести метаданных (IP, геолокация, возраст аккаунта), соотношении отзывов к взаимодействиям и паттернах времени. При обнаружении мошенничества система автоматически накладывает санкции, включая понижение в ранжировании или удаление объекта.
Патент Google описывает механизм сопоставления мобильных и десктопных (немобильных) версий документа. Если система устанавливает корреляцию и подтверждает схожесть основного контента, мобильная версия наследует сигналы релевантности (например, обратные ссылки и PageRank) десктопной версии. Это позволяет точно ранжировать мобильный контент, даже если у него недостаточно собственных ссылок или популярности.