Краулинг

Патент Google, описывающий систему извлечения информации о бизнесе (название, телефон) из неструктурированного текста веб-страниц. Система находит адрес в документе, определяет кандидатов на роль названия и телефона поблизости и использует статистическую …
Google использует алгоритм для определения наиболее авторитетной (официальной) страницы для конкретного бизнеса или адреса. Система анализирует кластер связанных страниц, изучая, как они ссылаются друг на друга, а также совпадение названия …
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и …
Google использует систему для индексации содержимого структурированных файлов, таких как KML (географические данные). Система извлекает отдельные элементы данных (например, метки мест) из файла-контейнера и превращает их в самостоятельные поисковые записи. …
Google индексирует контент, просмотренный в нативных мобильных приложениях. Система получает от приложения идентификатор контента, его описание и deep link. Это позволяет Google показывать в результатах поиска прямые ссылки на конкретный …
Google использует виртуальные машины для эмуляции мобильных операционных систем. В этой среде запускаются нативные приложения, и система применяет специализированные экстракторы для извлечения контента (текст, изображения, списки) непосредственно перед его рендерингом. …
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон …
Google использует технологию для автоматического извлечения структурированных данных (Заголовков и Элементов) со страниц сайта. Система находит примеры категорий и фильтров (например, "Бренды", "Цвета"), определяет их структурное расположение в коде (Path/XPath), …
Google использует систему для выбора одной «основной версии» документа из множества дубликатов. Выбор основан на авторитетности источника, полноте контента и PageRank. Система агрегирует сигналы (например, цитирования и ссылки) всех версий …
Google использует систему для индексации контента внутри нативных мобильных приложений (App Indexing). Для этого приложение запускается в виртуальной машине, которая эмулирует операционную систему устройства. Система перехватывает данные, отправляемые в процесс …
Google использует автоматизированную систему для обнаружения социальных профилей (Facebook, Twitter и т.д.), связанных с бизнес-сущностями. Система сканирует официальные сайты компаний на наличие ссылок, используя списки ключевых слов и форматов URL. …
Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными …
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если …
Анализ патента Google, описывающего фундаментальные механизмы Google Search Console. Патент раскрывает, как Google позволяет верифицированным владельцам сайтов выбирать предпочтительный домен (например, с www или без), консолидируя сигналы ранжирования на канонической …
Google оптимизирует ресурсы сканирования, используя метрику Важности Страницы (Page Importance Score, например, PageRank). Высоковажные страницы всегда скачиваются заново для обеспечения свежести. Менее важные и стабильные страницы могут быть «переиспользованы» из …
Google использует систему для автоматического определения, какие URL-параметры влияют на контент страницы (content-relevant), а какие нет (content-irrelevant). URL группируются в кластеры по хосту и пути. Система анализирует статистику прошлых сканирований …
Патент Google описывает систему для проактивной обработки контента, связанного с будущими событиями. Система определяет потенциальные тренды, анализируя устойчивость интереса пользователей к теме задолго до события. Затем она заранее классифицирует и …
Google использует механизм для индексации общедоступного (generic) контента внутри нативных мобильных приложений, даже если приложение требует обязательного входа в систему (login wall). Система автоматически создает и использует специальные «робот-аккаунты» для …
Патент Google описывает систему управления сканированием и индексированием в условиях ограниченной емкости индекса. Система приоритизирует URL-адреса на основе их показателя «Важности» (Importance Rank, например, PageRank). Когда индекс заполняется, система сканирует …
Google использует систему для индексации контента внутри нативных мобильных приложений. Приложение запускается в виртуальной машине, эмулирующей ОС устройства, где экстракторы извлекают текст и заголовки непосредственно из процесса рендеринга. Эта информация …