Google стабилизирует обнаружение дубликатов, игнорируя новый или часто меняющийся контент (например, рекламу, комментарии). Система сравнивает текущую версию документа с предыдущей, определяет возраст различных частей и вычисляет контрольную сумму (checksum) только на основе стабильного («состарившегося») контента. Это позволяет корректно группировать дубликаты, даже если они были просканированы в разное время.
Автор: Виктор Репин
Патент Google раскрывает продвинутую систему поиска похожих изображений. Используя гибкую архитектуру (Fetchers, Scorers, Poolers), система оценивает подобие по множеству признаков, а не только по визуальному совпадению. Она интегрирует мультимодальные данные (изображения, текст, метаданные) для определения семантической и контекстуальной близости, применяя такие методы как Triplet Loss и мультимодальные эмбеддинги.
Google разработал систему для улучшения навигации по VOD-контенту (Video-on-Demand). Вместо просмотра видео с начала, пользователи могут искать конкретные типы сцен («хуки»). Система идентифицирует эти моменты, используя анализ видео (Video Image Recognition) и внешние сигналы (например, популярность клипов в соцсетях), и позволяет переключаться между разными видео, начиная просмотр сразу с этих ключевых сцен (time-shifting).
Google патентует архитектуру нейронного поиска (Contextualized Token Retriever или XTR), которая обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных токенов (как в моделях типа ColBERT), но радикально снижает вычислительные затраты. Система рассчитывает релевантность, используя только предварительно отобранные (Top-K) векторы документа, а не все его векторы, применяя механизм импутации (Imputed Value) для отсутствующих взаимодействий.
Google использует систему предиктивного поиска для повышения скорости и эффективности. Система прогнозирует, какие запросы пользователи введут в будущем, и заранее вычисляет для них результаты поиска, сохраняя их в специальном «предиктивном кэше». Это позволяет мгновенно обслуживать популярные и трендовые запросы, а также использовать более сложные алгоритмы ранжирования, поскольку вычисления происходят до получения запроса.
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
Яндекс патентует метод для оптимизации порогов срабатывания в системах бинарной классификации (например, спам/не спам, релевантный/нерелевантный), которые используют несколько «вложенных» метрик одновременно. Метод позволяет итеративно подобрать оптимальную комбинацию порогов для всех метрик сразу, чтобы достичь требуемого баланса между точностью (Precision) и полнотой (Recall).
Яндекс патентует метод идентификации объектов на веб-странице (таких как реклама, логотипы, карты) путем анализа их характеристик после рендеринга (размер, положение, стиль) и особенностей исходного кода. Система использует машинное обучение для оценки вероятности того, что элемент является целевым объектом, комбинируя визуальные признаки и анализ кода.
Google использует систему для аппроксимации текущего местоположения пользователя, когда точные данные (например, GPS) недоступны. Система анализирует исторические данные о локациях (из поиска, карт, IP) и текущий IP-адрес. Найденные локации оцениваются с помощью машинного обучения (регрессионный анализ), и если они формируют кластер, их достоверность повышается. Это позволяет предоставлять локализованные результаты поиска.
Анализ патента Xerox (1999 г.), описывающего метод персонализации поиска. Система создает профили пользователей и групп (сообществ) на основе анализа документов, которые они ранее оценили. Эти профили (векторы весов терминов) используются для переранжирования стандартной выдачи с помощью сложных формул векторного сходства, чтобы лучше соответствовать контексту и интересам пользователя.
Google применяет многоуровневую систему аннотирования изображений. Она объединяет метаданные (EXIF), первичное распознавание объектов и контекста (Primary Annotation), а также семантическое расширение меток (Label Expansion). Это позволяет системе понимать сложные запросы на естественном языке, идентифицировать сущности и создавать структурированный индекс для точного поиска.
Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем прямого анализа данных из блокчейнов и с веб-страниц (маркетплейсов). Система использует ML-модели для анализа содержания самих цифровых активов, создавая специализированный индекс NFT. Это позволяет поисковой системе верифицировать и отображать NFT в результатах поиска.
Патент описывает, как Google может анализировать медиаконтент (фильмы, ТВ-шоу, видео) для автоматической идентификации показанных в нем товаров или услуг, используя распознавание изображений, речи и текста (субтитров). Система создает динамический каталог, который отображается синхронно с просмотром, предоставляя контекст и ссылки для покупки.
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает «карту синонимов». При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
Google анализирует существующие плейлисты, созданные пользователями, которые релевантны широкому поисковому запросу (например, жанру или теме). Система оценивает качество этих плейлистов на основе их популярности и свежести, а затем агрегирует эти оценки для ранжирования отдельных треков или видео. Лучший контент объединяется в новый автоматический плейлист («Algorithmic Radio» или «Микс»), который отображается в результатах поиска.
Google может определять интересы пользователя не только по его прямым действиям, но и анализируя интересы его социальных связей (друзей, коллег). Если окружение пользователя активно интересуется определенной темой, система повышает оценку интереса (Interest Score) самого пользователя к этой теме. Эта оценка затем используется для переранжирования поисковой выдачи, лент социальных сетей и рекламы.
Google использует механизм для определения языка, на котором пользователь хочет видеть результаты поиска, особенно когда язык запроса отличается от языка региона. Система сравнивает текст запроса с его переводом на местный язык. Чем больше лингвистических различий, тем сильнее сигнал о том, что пользователь предпочитает язык запроса, и выдача переключается на него.
Google использует механизм для получения метаданных о файлах, не являющихся веб-страницами (например, PDF, документы Office). Во время сканирования эти метаданные передаются поисковой системе через специальные HTTP-заголовки. Затем Google преобразует их в эквивалент стандартных META-тегов для индексации, позволяя оптимизировать не-HTML контент так же, как обычные веб-страницы.
Google использует машинное обучение для оценки надежности пользователей, предлагающих правки для Графа Знаний. Система анализирует профиль пользователя, историю его предыдущих правок, его интересы, уровень экспертизы и активность в других сервисах Google (subsystems), чтобы решить, принимать ли предложенное обновление автоматически.
Патент Google, описывающий систему для рекламных платформ (например, Google Ads). Система анализирует логи органического поиска, чтобы определить, какие запросы привели к кликам на конкретные сайты. На основе этой «народной популярности» (folksonomy) система рекомендует рекламодателям релевантные сайты для размещения их объявлений, улучшая контекстный таргетинг.