Индексация

Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early …
Google использует систему компьютерного зрения для определения основного предмета на изображении, содержащем несколько объектов. Система ранжирует распознанные объекты, отдавая предпочтение тем, которые крупнее по размеру, расположены ближе к центру кадра …
Google идентифицирует известные сущности (например, знаменитостей) из поисковых логов и веб-документов. Система извлекает изображения, уже связанные с ними (например, через метаданные), и использует распознавание лиц для поиска наиболее репрезентативного лица. …
Google использует систему машинного обучения для автоматического определения ключевых моментов (Highlights) в видео. Система анализирует низкоуровневые признаки (цвет, движение, звук) для выявления повторяющихся паттернов (событий). На основе частоты и последовательности …
Патент описывает метод автоматической классификации веб-страниц по заранее определенным категориям (например, «Покупки» или «Информация»). Эта классификация сохраняется в отдельном Индексе Категорий и используется для фильтрации, сортировки или маркировки результатов поиска, …
Google использует гибридную систему, сочетающую правила и модели машинного обучения, для автоматизации обработки запросов на удаление контента (например, PII). Система оценивает легитимность запроса, анализируя тип сайта, данные аккаунта пользователя и …
Google использует механизм для изменения стандартного ранжирования, чтобы сгруппировать несколько результатов с одного домена вместе (Domain Clustering). Это достигается за счет повышения (promoting) страниц этого домена, которые изначально ранжировались ниже. …
Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, …
Google может измерять объем данных, необходимый для полной загрузки веб-страницы (включая HTML, изображения, скрипты). Этот показатель используется как условный сигнал ранжирования: более "легкие" страницы могут получать преимущество, особенно если система …
Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между …
Google использует структуру документа (например, иерархию сайта или главы книги) для определения наилучшей точки входа для пользователя. Система анализирует, где именно в структуре сконцентрированы (кластеризованы) ключевые слова из запроса. Вместо …
Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте …
Патент Google, описывающий итеративный алгоритм для определения того, какие последовательности слов являются значимыми фразами (коллокациями), а какие — случайным совпадением. Система анализирует текст, начиная с длинных фраз и двигаясь к …
Google предоставляет владельцам сайтов механизм для контроля максимальной частоты запросов краулера (Crawl Rate Limit). Система анализирует статистику сканирования и сравнивает ее с текущим лимитом. Если фактическая частота сканирования не достигает …
Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение …
Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от …
Google использует систему для управления ранжированием медиаконтента, защищенного авторским правом. Система идентифицирует оригинальную (авторитетную) версию контента и активно продвигает ее в результатах поиска выше, чем пользовательские копии, даже если эти …
Google использует систему для эффективного обнаружения изображений-почти дубликатов (измененный размер, обрезка, сжатие). Система анализирует локальные особенности контента ("визуальные слова") и их точное пространственное расположение ("тайлы"), чтобы создать компактные дескрипторы. Сравнивая …
Google использует низкоуровневые технические параметры кодирования видео для эффективного анализа контента. Система автоматически определяет смену сцен, анализируя расположение ключевых кадров (I-frames), которые вставляются при значительном изменении изображения, и отфильтровывает технические …
Google использует двухэтапный процесс машинного обучения для создания моделей визуального сходства. Сначала модель обучается на неразмеченных данных, анализируя расстояния между векторами признаков, извлеченных нейронными сетями (автоэнкодерами). Затем модель уточняется с …