Индексация

Google использует механизм для улучшения поисковой выдачи в E-commerce, анализируя распределение цен для различения основных продуктов и их аксессуаров. Если система определяет, что пользователь ищет основной продукт, результаты, классифицированные как …
Анализ заявки на патент (Google является одним из заявителей), описывающей гибридную систему машинного обучения (SSRL) для улучшения рассуждений в Графе Знаний (KGR). Система сочетает Supervised Learning (SL) для обеспечения широкого …
Google использует технологию для автоматического определения и маркировки специфических объектов или действий (называемых "объемами") внутри видео. Система анализирует визуальные характеристики, сегментирует видео на пространственно-временные части и использует существующие метаданные всего …
Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в …
Google использует глобальный граф сущностей для определения главных тем (Центральных Сущностей) веб-страницы. Система анализирует, как сущности на странице связаны друг с другом на основе статистики их совместного упоминания в вебе …
Патент Google описывает фундаментальные методы улучшения поиска путем учета лингвистических вариаций. Система автоматически расширяет запросы или индекс, добавляя словоформы (склонения, спряжения), альтернативные написания (орфографические варианты) и различные формы составных слов …
Патент описывает, как Google улучшает понимание коротких, неоднозначных или грамматически некорректных текстов, таких как поисковые запросы. Для этого модели обработки языка (NLP) обучаются с использованием аннотаций от системы информационного поиска …
Google использует статистический анализ для интерпретации строк без пробелов (например, URL, доменных имен или слипшихся слов в запросах). Система генерирует различные варианты разделения строки на слова и проверяет, какой из …
Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем …
Google использует метод для определения, является ли последовательность слов значимой фразой. Система анализирует, насколько часто и последовательно слова появляются в определенных позициях относительно друг друга (позиционная согласованность). На основе этого …
Google использует многоступенчатую систему для определения, ищет ли пользователь медиа-контент. Система анализирует результаты из товарного индекса, поисковые подсказки (Candidate Queries) и списки ключевых слов. Если эти сигналы указывают на медиа-интент, …
Google анализирует структуру веб-страницы, включая списки и заголовки, чтобы определить семантическое расстояние между ключевыми словами. Система выявляет семантические блоки, даже если они не размечены явными HTML-тегами, путем анализа повторяющихся паттернов …
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) …
Google анализирует списки на веб-страницах (например, списки моделей авто, городов, ингредиентов), чтобы выявить термины, которые часто встречаются вместе, но не являются синонимами (например, «кошка» и «собака», «январь» и «февраль»). Эти …
Google использует систему для обработки конфликтующих или неполных адресных данных о местах на карте, полученных от разных поставщиков (пользователей, владельцев бизнеса, сервисов). Система стандартизирует форматы, определяет, какие записи относятся к …
Google использует метод построения текстовых классификаторов, который учитывает структуру HTML для разделения текста на логические блоки (сегментация). Внутри этих блоков система извлекает n+k-граммы (фразы с пропуском стоп-слов) для лучшего понимания …
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), …
Google анализирует, как часто и в каких новостных источниках цитируются научные работы. На основе этого рассчитывается «Оценка Популярности» (Popularity Score), учитывающая авторитетность СМИ и Импакт-фактор журнала. Это позволяет высоко ранжировать …
Патент Google, описывающий алгоритм ранжирования контента нативных мобильных приложений (диплинков). Система использует адаптированную модель TF-IDF, включающую частоту термина на экране (Term Score), его редкость внутри приложения (Intra-inverse popularity) и редкость …
Google использует сверточные нейронные сети (CNN) для анализа пикселей видео и автоматического создания аннотаций. Система применяет двухканальный подход, анализируя как общий контекст (в низком разрешении), так и центральную область фокуса …