Google использует систему для сбора неструктурированных данных о компаниях (часы работы, парковка, услуги) с веб-сайтов и каталогов. Система извлекает факты, преобразует их в машиночитаемый формат (нормализация), сопоставляет с нужной компанией (кластеризация) и определяет достоверность путем сравнения данных из разных источников для показа в Поиске и на Картах.
Автор: Виктор Репин
Google патентует механизмы интерфейса для мобильных платформ (например, YouTube), направленные на улучшение обнаружения контента. Система активно показывает превью скрытых видео в виде анимированных плавающих элементов (Floatables) или компактных плиток (Chips) до того, как пользователь до них доскроллит. Взаимодействие с этими элементами обеспечивает мгновенную обратную связь для адаптации рекомендаций в реальном времени.
Google использует механизм для понимания содержания изображения, когда оно используется в качестве запроса (например, в Google Lens). Система находит визуально похожие изображения в индексе и анализирует связанные с ними текстовые данные (n-граммы): запросы, по которым на них кликали, и текст на ссылающихся страницах. Агрегируя эти данные, Google выводит наиболее релевантный текстовый запрос, описывающий исходное изображение, и использует его для поиска результатов.
Google анализирует документы (включая книги и веб-страницы), чтобы рассчитать независимую от запроса оценку значимости (Importance Score) для упомянутых сущностей (люди, места, даты). Эта оценка учитывает контекст упоминания, точность, TF-IDF, внешние ссылки и поведение пользователей. Затем эта оценка значимости используется как сигнал для ранжирования самого документа в поиске.
Анализ патента Google, описывающего интеграцию интерактивных мини-приложений (Mini-Apps) от разных поставщиков прямо в поисковую выдачу. Система определяет намерение пользователя и предлагает функциональные виджеты для выполнения задач (бронирование, расчеты). Ключевая особенность — автоматический перенос введенных данных при переключении между приложениями разных компаний.
Google разрабатывает систему автоматического создания «Бейджей» для продуктов на основе анализа веб-данных (отзывов, описаний, FAQ) с помощью машинного обучения. Эти бейджи выделяют конкретные сценарии использования, преимущества или недостатки продукта (например, «Подходит для новичков» или «Хорош для путешествий»). Бейджи используются для ранжирования и аннотирования результатов поиска, помогая пользователям быстрее сравнивать товары.
Google использует систему для динамической генерации фильтров (уточнений запроса) в результатах поиска. Система анализирует текст и структуру топовых страниц, а также связанные запросы из логов. Затем она выбирает наиболее информативные ключевые слова, оценивает их качество на основе заметности на странице (Term Prominence) и обеспечивает разнообразие фильтров (Diversity), чтобы предложить пользователю релевантные опции для сужения поиска.
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
Google использует систему для автоматического анализа фотографий, сделанных пользователями на мобильных устройствах. Система сопоставляет место съемки с базой данных POI, анализирует содержание изображения и сравнивает его с семантическими дескрипторами местоположения. Если изображение признано релевантным и описательным (например, фото блюда в ресторане, а не селфи), пользователю предлагается загрузить его в Google Maps.
Google разработал систему для глубокого анализа видео, особенно коротких форматов. Система генерирует мультимодальные эмбеддинги, объединяя визуальные, аудио и текстовые сигналы с помощью трансформеров. Это позволяет Google точно характеризовать контент, оценивать его качество и определять принадлежность к трендам (например, танцевальным челленджам), анализируя само исполнение и движение в кадре, а не только метаданные или звук.
Google использует механизм для персонализации поисковой выдачи путем добавления аннотаций к результатам, которые связаны с социальными группами пользователя (друзья, коллеги, жители города). Система определяет, как участники этих групп взаимодействовали с контентом (создали, поделились, одобрили), приоритизирует эти действия и добавляет пояснения к сниппетам. Также описаны механизмы агрегации действий и защиты конфиденциальности при показе аннотаций.
Google идентифицирует «каналы» (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.
Google использует статистические методы для обновления языковых моделей. Система обнаруживает новые слова и фразы, анализируя снижение энтропии (неопределенности) в текстах. Затем она определяет тематику этих слов, сравнивая частоту их употребления в конкретной теме с частотой в общем корпусе (анализ дивергенции). Это позволяет автоматически создавать специализированные «доменные словари» для лучшего понимания контента.
Google использует систему постобработки для результатов классификации изображений, полученных от нейронных сетей. Патент описывает, как исходные оценки (raw scores) корректируются с учетом иерархических (subsumption) и исключающих (exclusion) отношений между объектами (например, «Щенок» всегда «Собака»), гарантируя логическую точность финальных меток.
Патент описывает архитектуру социальной поисковой системы (Q&A платформы), где пользователи отвечают на вопросы. Система включает два ключевых механизма: 1) Платное участие «Спонсоров» (экспертов/бизнесов), которые делают ставки за возможность ответить на релевантные вопросы (лидогенерация). 2) Автоматический анализ ответов для поиска релевантных веб-ссылок, которые затем предлагаются отвечающему для включения в финальный ответ.
Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.
Google использует механизм показа поисковых подсказок до того, как пользователь начал вводить запрос. Если пользователь бездействует у строки поиска, система предлагает либо примеры использования расширенного синтаксиса (например, булевых операторов) для обучения, либо запросы, связанные с недавно просмотренным медиаконтентом (например, имена актеров из фильма, который пользователь смотрит на Smart TV).
Google отслеживает внезапные всплески частоты поисковых запросов и сопоставляет их с субтитрами (или аудиодорожкой) транслируемых в этот момент телепрограмм. Это позволяет системе понять, какой именно момент в эфире вызвал интерес пользователей, и проактивно предоставить связанную информацию зрителям через «вторые экраны» (например, смартфоны).
Google использует персонализированный алгоритм для ранжирования поставщиков медиаконтента (фильмов, сериалов). Система учитывает наличие у пользователя подписок, установленных приложений, историю взаимодействий, стоимость контента, поддержку глубоких ссылок и популярность сервиса, чтобы определить, какие ссылки на просмотр показать первыми в выдаче.
Google использует систему обнаружения дубликатов видео в реальном времени при загрузке контента. С помощью аудио и видео отпечатков система определяет, является ли новое видео копией существующего, учитывая временную синхронизацию и процент совпадения. Дубликаты объединяются в кластеры на основе времени самой ранней загрузки, что позволяет Google фильтровать поисковую выдачу и показывать только одну версию контента.