Свежесть контента

Патент описывает, как Google Maps агрегирует и отображает ленту свежих новостей и социального контента, релевантную просматриваемой области карты или искомой теме. Система ранжирует этот контент по свежести и может визуализировать …
Анализ патента Google, описывающего систему поиска событий. Чтобы избежать доминирования популярных событий в выдаче, система разделяет запрашиваемый временной интервал на более мелкие части (например, неделю на дни). Затем она находит …
Патент Google описывает систему автоматического анализа мультимедийного контента (видео и аудио) для идентификации срочных новостей. Система использует распознавание образов, аудио и текста для извлечения сущностей и событий. Определив новостной характер …
Google использует механизм для определения значимости изменений контента на веб-странице. Система анализирует визуальную структуру (рендеринг) старой версии страницы и присваивает «оценки важности» разным блокам. Затем эти оценки переносятся на новую …
Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, …
Google использует анализ временных меток документов для определения "запросов, ищущих свежесть" (QDF). Система строит временную шкалу публикаций по теме и ищет резкие всплески (события). Если обнаружен значительный недавний всплеск, система …
Google использует систему для анализа паттернов активности (например, в социальных сетях), связанных с веб-страницей, чтобы классифицировать ее как «Динамическую» или «Статическую». Эта классификация определяет приоритеты ранжирования: для динамических страниц важна …
Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота …
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), …
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на …
Google идентифицирует, когда результат поиска является частью дискуссионного треда (форума, блога). Система реконструирует весь тред, находя другие его страницы, даже если они не попали в выдачу. Затем извлекается агрегированная статистика …
Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между …
Google предоставляет владельцам сайтов механизм для контроля максимальной частоты запросов краулера (Crawl Rate Limit). Система анализирует статистику сканирования и сравнивает ее с текущим лимитом. Если фактическая частота сканирования не достигает …
Google использует механизм для идентификации трендовых запросов ("active keywords"), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, …
Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение …
Google стабилизирует обнаружение дубликатов, игнорируя новый или часто меняющийся контент (например, рекламу, комментарии). Система сравнивает текущую версию документа с предыдущей, определяет возраст различных частей и вычисляет контрольную сумму (checksum) только …
Google использует систему предиктивного поиска для повышения скорости и эффективности. Система прогнозирует, какие запросы пользователи введут в будущем, и заранее вычисляет для них результаты поиска, сохраняя их в специальном «предиктивном …
Google разработал систему для идентификации контент-провайдеров, которые поддерживают стандартизированный процесс удаления контента (например, по DMCA или законам о приватности). Поисковая система обнаруживает эту возможность через Sitemap или проверку URL, помечает …
Google анализирует аномальные всплески поисковых запросов в реальном времени для автоматического определения "популярных моментов" в транслируемом контенте (ТВ, спорт). Система сопоставляет время и ключевые слова всплеска с метаданными или аудиодорожкой …
Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических …