Индексация

Google анализирует документы (включая книги и веб-страницы), чтобы рассчитать независимую от запроса оценку значимости (Importance Score) для упомянутых сущностей (люди, места, даты). Эта оценка учитывает контекст упоминания, точность, TF-IDF, внешние …
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения …
Google разработал систему для глубокого анализа видео, особенно коротких форматов. Система генерирует мультимодальные эмбеддинги, объединяя визуальные, аудио и текстовые сигналы с помощью трансформеров. Это позволяет Google точно характеризовать контент, оценивать …
Google использует статистические методы для обновления языковых моделей. Система обнаруживает новые слова и фразы, анализируя снижение энтропии (неопределенности) в текстах. Затем она определяет тематику этих слов, сравнивая частоту их употребления …
Google использует систему обнаружения дубликатов видео в реальном времени при загрузке контента. С помощью аудио и видео отпечатков система определяет, является ли новое видео копией существующего, учитывая временную синхронизацию и …
Google анализирует тональность (Sentiment) в текстовых отзывах (структурированных и неструктурированных, например, в блогах) и объединяет эти данные со структурированными рейтингами (звездами) и данными о взаимодействии с пользователем (например, кликами). Система …
Google использует автоматизированную систему для масштабного расширения своей онтологии (Knowledge Graph). Система анализирует поток поисковых запросов и веб-тексты, используя метод Distant Supervision для изучения шаблонов описания атрибутов. Это позволяет Google …
Google использует архитектуру, которая объединяет этапы поиска (Retrieval) и ранжирования (Ranking). Сложные модели машинного обучения преобразуются непосредственно в структуру поискового индекса. Это позволяет мгновенно находить и ранжировать контент, используя всю …
Патент описывает, как Google обрабатывает вопросы о сущностях (людях, местах, компаниях). Система распознает сущность в запросе, определяет запрашиваемый атрибут (например, адрес), извлекает значение этого атрибута из результатов поиска и визуально …
Патент Google, описывающий инфраструктуру и многоэтапный процесс для сбора ground-truth данных о точках интереса (POI). Система использует полевых сборщиков данных, верификаторов для контроля качества и транскрибаторов. Этот процесс обеспечивает высокую …
Google применяет сложную модель машинного обучения для извлечения фактов из текста. Система анализирует не только контекст, в котором сущность и атрибут упоминаются вместе, но и использует уже известные атрибуты этой …
Google определяет семантическую связь между сущностями, строя двудольный граф, который соединяет сущности (например, события, места) с их признаками (например, текстом, анкорами, запросами). Используя алгоритм машинного обучения Label Propagation, система распространяет …
Патент Google описывает систему повышения эффективности оценки контента, особенно важную в эпоху генеративного ИИ. Google обучает офлайн-модель имитировать результаты сложной онлайн-модели, но с использованием только внутренних характеристик контента, игнорируя ID …
Google анализирует визуальные характеристики изображений и строит граф сходства. Релевантные ключевые слова распространяются от размеченных изображений к похожим, но неразмеченным или плохо размеченным изображениям. Это позволяет поисковой системе понять реальное …
Анализ патента Google, описывающего систему генерации ответов на предиктивные запросы. Если стандартный поиск неэффективен, Google может обучить модель машинного обучения «на лету» на основе исторических структурированных данных или использовать предобученную …
Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она …
Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ …
Google использует механизм (VisualRank) для улучшения качества поиска по картинкам, анализируя визуальное содержимое изображений. Система не полагается исключительно на окружающий текст. Она сравнивает визуальные характеристики изображения с другими в индексе …
Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая …
Google использует комплексный подход для улучшения понимания запросов. Система анализирует поведение пользователей для выявления контекстных синонимов, в реальном времени разделяет составные слова (например, «vlcmediaplayer» на «vlc media player») и применяет …