Краулинг

Как Google использует прямые фиды данных от издателей для создания обогащенных результатов поиска (Rich Results) в реальном времени

2011 • Индексация • Краулинг • Свежесть контента

US9208230B2 2015-12-08 2011-05-27

Google использует систему, позволяющую «зарегистрированным издателям» предоставлять структурированные данные (например, цены, расписания, статус рейсов) отдельно от основного контента. Эта информация обновляется значительно чаще, чем стандартный веб-индекс, и используется для создания …

Как Google использует структурные шаблоны и анализ «Edit Distance» для извлечения структурированных данных из веб-страниц

2007 • Knowledge Graph • Индексация • Краулинг

US9323731B1 2016-04-26 2007-11-01

Google использует систему для преобразования неструктурированного контента веб-страниц в структурированные данные. Система обучается на примерах, размеченных вручную, для создания обобщенных структурных шаблонов (Template Trees), учитывающих повторяющиеся или опциональные элементы. Затем …

Как Google использует прямую отправку контента для ускоренного индексирования, вычисления оценки оригинальности автора и переранжирования дубликатов

2013 • Индексация • Краулинг • Свежесть контента

US11347760B2 2022-05-31 2013-05-17

Патент Google описывает систему, позволяющую авторам напрямую отправлять контент поисковой системе до или сразу после публикации. Система проверяет новизну контента и может проиндексировать его немедленно, без сканирования URL. Также она …

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

2011 • Google Shopping • Индексация • Краулинг

US9171088B2 2015-10-27 2011-04-06

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого …

Как Google разработал протокол XML Sitemaps для управления сканированием сайтов

2005 • Индексация • Краулинг • Техническое SEO

US8037055B2 2011-10-11 2005-06-30

Этот основополагающий патент описывает технологию XML Sitemap. Он определяет, как веб-серверы могут автоматически генерировать списки URL с метаданными (дата изменения, приоритет, частота обновления) путем анализа файловой системы или логов доступа, …

Как Google ускоряет обновление поискового индекса, резервируя пустые слоты в списках документов (Posting Lists)

2013 • Антиспам • Краулинг • Свежесть контента

US10474650B1 2019-11-12 2013-11-21

Google использует инфраструктурный метод обновления инвертированного индекса "на месте" (in-place updates). Система заранее резервирует пустые позиции в отсортированных списках документов (posting lists). Это позволяет почти мгновенно добавлять или удалять документы, …

Как Google использует машинное обучение (K-armed Bandits) и поведенческие факторы для оптимизации частоты сканирования динамического контента

2020 • Google Shopping • Краулинг • Свежесть контента

US20250068679A1 2025-02-27 2020-03-30

Google оптимизирует ресурсы сканирования для динамического контента (например, цен товаров). Система использует алгоритм обучения с подкреплением (K-armed adversarial bandits) для адаптивного выбора наилучшей стратегии переобхода. Частота сканирования определяется прогнозируемой вероятностью …

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов

2010 • Индексация • Краулинг • Свежесть контента

US8458584B1 2013-06-04 2010-11-18

Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов …

Как Google автоматически извлекает данные о филиалах сетевых компаний с их сайтов для локального поиска и карт

2013 • Индексация • Краулинг

US20150287047A1 2015-10-08 2013-06-19

Патент описывает систему Google для автоматического сбора данных о физических локациях сетевых магазинов. Система находит страницу «Поиск магазина» на сайте, имитирует ввод географических данных (например, почтовых индексов) и извлекает адреса, …

Как Google использует структуру URL для прогнозирования качества, популярности и поведения пользователей для новых страниц

2010 • Индексация • Краулинг • Техническое SEO

US8645367B1 2014-02-04 2010-03-08

Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее …

Как Google использует кэширование для ускорения поиска, гарантируя при этом свежесть сниппетов в выдаче

2004 • Антиспам • Краулинг • Свежесть контента

US8209325B2 2012-06-26 2004-05-12

Патент раскрывает инфраструктуру Google для кэширования результатов поиска и сниппетов. Описан механизм, использующий «метки времени» (datestamps) для проверки актуальности кэшированной информации на основе даты последнего индексирования документа. Если кэшированный сниппет …

Как Google использует кластеры совместной встречаемости терминов и иерархические оценки для классификации сайтов по тематическим вертикалям

2005 • Knowledge Graph • Индексация • Краулинг

US9971813B2 2018-05-15 2005-04-22

Google использует автоматизированный процесс для категоризации веб-сайтов в иерархическую таксономию. Система анализирует контент для выявления семантических кластеров (групп совместно встречающихся терминов), сопоставляет их с концепциями и определяет наиболее подходящую категорию. …

Как Google создает поисковый индекс для NFT и интегрирует блокчейн (Web3) в результаты поиска

2022 • Индексация • Краулинг • Мультимедиа

US20240305482A1 2024-09-12 2022-07-18

Google разрабатывает инфраструктуру для индексации данных напрямую из блокчейнов, фокусируясь на NFT. Система извлекает описания, историю транзакций и сами цифровые активы, следуя по ссылкам в блокчейне. Она оценивает качество и …

Как Google использует машинное обучение для определения значимости обновлений контента на веб-страницах

2010 • Индексация • Краулинг • Свежесть контента

US8607140B1 2013-12-10 2010-12-21

Google использует модель машинного обучения (например, Support Vector Machine) для анализа изменений между двумя версиями веб-страницы. Система оценивает контентные, структурные (ссылки) и поведенческие (трафик) признаки, чтобы классифицировать обновление как «значимое» …

Как Google использует данные из Sitemaps для планирования, приоритизации и оптимизации сканирования

2005 • Индексация • Краулинг • Свежесть контента

US9355177B2 2016-05-31 2005-06-30

Google использует файлы Sitemap как ключевой источник данных для управления сканированием. Патент описывает, как система обрабатывает метаданные (lastmod, changefreq, priority) и интегрирует их с внутренними сигналами (PageRank) в планировщик краулера. …

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

2011 • Краулинг

US8868541B2 2014-10-21 2011-01-21

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных …

Как Google позволяет вебмастерам обновлять структурированные данные в индексе по требованию, минуя стандартное сканирование

2012 • Индексация • Краулинг • Свежесть контента

US20150112961A1 2015-04-23 2012-09-18

Google использует механизм, позволяющий авторизованным владельцам сайтов напрямую отправлять структурированные данные (например, цены, наличие товара) в поисковый индекс. Этот процесс происходит по требованию ("unscheduled update sequence"), значительно быстрее стандартного сканирования, …

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

2003 • Google Shopping • Краулинг • Техническое SEO

US7836038B2 2010-11-16 2003-12-10

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру …

Как Google сканирует блокчейн для идентификации, проверки качества и индексации NFT

2022 • Индексация • Краулинг

US12353483B2 2025-07-08 2022-06-30

Google разрабатывает систему для обнаружения и индексации NFT непосредственно из данных блокчейна. Система анализирует байт-код, чтобы идентифицировать потенциальные NFT, проверяя события-триггеры смарт-контрактов, соответствие стандартам (например, EIP-721) и намерения создателей. Перед …

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента

2010 • SERP • Индексация • Краулинг

US8898296B2 2014-11-25 2010-04-07

Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, …