Краулинг

Как Google автоматически изучает структуру веб-страниц для извлечения фактов в Knowledge Graph

2005 • Knowledge Graph • Индексация • Краулинг

US9558186B2 2017-01-31 2005-05-31

Google использует механизм неконтролируемого (автоматического) извлечения фактов для пополнения Knowledge Graph. Система находит уже известный факт на странице и анализирует окружающую его HTML-структуру («контекстуальный шаблон»). Затем этот изученный шаблон используется …

Как Google разделяет оценку релевантности на два этапа (индексирование и ранжирование) и интерпретирует запросы через фразы

2007 • Индексация • Краулинг

US8086594B1 2011-12-27 2007-03-30

Google использует двухэтапную модель оценки релевантности (Bifurcated Scoring) и фразовое индексирование. На этапе индексирования система определяет значимость фраз внутри документа (Phrase Relevance Score). На этапе поиска запрос интерпретируется через наиболее …

Как Google автоматически извлекает структурированные данные (цены, наличие) с меняющихся веб-страниц, используя историю атрибутов

2015 • Google Shopping • Краулинг • Техническое SEO

US20180329873A1 2018-11-15 2015-04-08

Google использует систему для автоматического извлечения точных атрибутов (например, цен товаров) из веб-страниц, даже если их дизайн меняется. Система находит известные исторические значения на странице, определяет структурные шаблоны («анкоря») вокруг …

Как Google комбинирует разные алгоритмы (Shingling и SimHash) для точного определения дубликатов контента

2006 • Индексация • Краулинг

US20120290597A1 2012-11-15 2006-08-04

Патент Google описывает методы повышения точности обнаружения почти дубликатов контента. Система может использовать двухэтапный подход, комбинируя алгоритмы: один чувствителен к порядку слов (например, Shingling/Broder), а другой учитывает частоту слов, но …

Как Google позволяет разработчикам и SEO-специалистам мгновенно увидеть превью сниппета в выдаче до индексации

2016 • SERP • Индексация • Краулинг

US11170014B2 2021-11-09 2016-12-29

Google предоставляет инструмент, который использует актуальную логику обработки контента поисковой системы для генерации «предсказанного результата поиска» (сниппета) в изолированной среде. Это позволяет мгновенно увидеть, как страница будет выглядеть в выдаче …

Как Google автоматически сопоставляет десктопные и мобильные URL с помощью распознавания паттернов и анализа контента

2012 • Индексация • Краулинг • Техническое SEO

US8631097B1 2014-01-14 2012-10-11

Google использует систему для автоматического обнаружения взаимосвязи между десктопными (non-mobile) и мобильными (mobile) версиями страниц, когда используются разные URL. Система анализирует структуру URL, находит общие токены и проверяет схожесть контента. …

Как Google индексирует динамический JavaScript-контент (AJAX/SPA), используя рендеринг и анализ URL-фрагментов

2011 • Индексация • Краулинг • Техническое SEO

US8468145B2 2013-06-18 2011-11-10

Патент Google, описывающий фундаментальный механизм индексирования динамического контента, генерируемого на стороне клиента (JavaScript/AJAX). Система идентифицирует «индексируемые фрагменты» в URL (часть после '#'), выполняет клиентский код для генерации финального состояния страницы …

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика

2005 • Индексация • Краулинг • Техническое SEO

US8666964B1 2014-03-04 2005-04-25

Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на …

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

2011 • Индексация • Краулинг • Свежесть контента

US8386459B1 2013-02-26 2011-02-22

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота …

Как Google оптимизирует индекс, сохраняя только те части документов, которые отвечают на запросы пользователей

2011 • Индексация • Краулинг

US8655886B1 2014-02-18 2011-03-25

Google может оптимизировать размер и скорость своего индекса, анализируя, какие части документа использовались для ответа на запросы пользователей. Части, которые редко используются, удаляются из индекса, а сохраняются только наиболее востребованные …

Как Google распределяет запросы между серверами для оптимизации кэширования и повышения безопасности

2009 • Краулинг • Ссылки • Техническое SEO

US8166203B1 2012-04-24 2009-05-29

Google использует механизм временно-зависимого хеширования для маршрутизации запросов от фронтенд-серверов к бэкенд-серверам. Запрос направляется на один и тот же сервер в течение определенного временного интервала, что позволяет эффективно использовать кэш. …

Как Google собирает, кластеризует и агрегирует отзывы о товарах из разных источников

2004 • Google Shopping • Knowledge Graph • Краулинг

US20130144862A1 2013-06-06 2004-12-14

Google использует систему для автоматического сбора отзывов с сайтов электронной коммерции и обзорных площадок. Ключевая технология — кластеризация отзывов, относящихся к одному и тому же товару, путем извлечения и анализа …

Как Google планирует индексировать NFT и встраивать кнопки покупки напрямую в Поиск и на веб-страницы

2022 • Google Shopping • Индексация • Краулинг

US20230385791A1 2023-11-30 2022-12-08

Google патентует систему для создания "опытно-ориентированного" рынка NFT. Она позволяет встраивать кнопку покупки NFT на любую веб-страницу с помощью специального SDK. Этот SDK содержит "данные-выноски" (Callout Data), которые распознаются поисковой …

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

2012 • Индексация • Краулинг • Свежесть контента

US20130212100A1 2013-08-15 2012-12-26

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на …

Как Google динамически управляет очередью сканирования и отклоняет низкоприоритетные URL при ограниченной пропускной способности сервера

2011 • Индексация • Краулинг • Техническое SEO

US8676783B1 2014-03-18 2011-06-28

Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early …

Как Google реконструирует дискуссионные треды для обогащения поисковой выдачи

2009 • Knowledge Graph • Краулинг • Свежесть контента

US8402021B2 2013-03-19 2009-07-31

Google идентифицирует, когда результат поиска является частью дискуссионного треда (форума, блога). Система реконструирует весь тред, находя другие его страницы, даже если они не попали в выдачу. Затем извлекается агрегированная статистика …

Как Google объединяет данные о странице, если она находится в разных индексах под разными URL (например, Web и Shopping)

2011 • Google Shopping • Индексация • Краулинг

US8645355B2 2014-02-04 2011-10-21

Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, …

Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

2012 • Индексация • Краулинг • Свежесть контента

US8862569B2 2014-10-14 2012-01-11

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между …

Как Google позволяет владельцам сайтов управлять частотой сканирования (Crawl Rate) и определяет, когда ее увеличение целесообразно

2006 • Индексация • Краулинг • Свежесть контента

US8458163B2 2013-06-04 2006-10-12

Google предоставляет владельцам сайтов механизм для контроля максимальной частоты запросов краулера (Crawl Rate Limit). Система анализирует статистику сканирования и сравнивает ее с текущим лимитом. Если фактическая частота сканирования не достигает …

Как Google отслеживает возраст отдельных фрагментов контента на странице и отличает существенные обновления от незначительных правок

2010 • Индексация • Краулинг • Свежесть контента

US8332408B1 2012-12-11 2010-08-23

Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение …