Краулинг в Google: разборы патентов

Детальные разборы патентов Google, связанные с краулингом

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2005-06-30

Ссылки
Краулинг
Техническое SEO

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2015-06-25

Индексация
Краулинг
Ссылки

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2016-01-26 (Приоритет от 2004-12-31)

Ссылки
Антиспам
Краулинг

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2011-05-26

Поведенческие сигналы
Индексация
Техническое SEO

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами

Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.

US8032820B1
2007-04-12

Ссылки
Индексация
Краулинг

Как Google вычисляет Оценку Оригинальности Сайта (Site Originality Score) для борьбы со скопированным контентом

Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl Time Stamp). На основе этого соотношения вычисляется Оценка Оригинальности Сайта (Site Originality Score), которая затем используется как фактор ранжирования для продвижения первоисточников и понижения сайтов-копипастеров.

US8909628B1
2012-11-02

Краулинг
EEAT и качество
SERP

Как Google создает поисковый индекс для NFT и интегрирует блокчейн (Web3) в результаты поиска

Google разрабатывает инфраструктуру для индексации данных напрямую из блокчейнов, фокусируясь на NFT. Система извлекает описания, историю транзакций и сами цифровые активы, следуя по ссылкам в блокчейне. Она оценивает качество и подлинность NFT, дедуплицирует контент и интегрирует проверенные NFT в поисковую выдачу как специализированные результаты.

US20240305482A1
2022-07-18

Индексация
Краулинг
Техническое SEO

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2011-04-06

Индексация
Краулинг
Семантика и интент

Как Google находит, классифицирует и ранжирует контент «Глубокой паутины» (Deep Web), скрытый за веб-формами

Google использует систему для доступа к контенту, скрытому за веб-формами («Глубокая паутина»). Система сканирует веб, идентифицирует формы, классифицирует их по тематикам (используя «Поисковую онтологию») и понимает, какие поля заполнять. При поиске Google анализирует запрос пользователя, находит релевантные формы, ранжирует их и может автоматически заполнить форму для пользователя или показать уже извлеченный контент.

US8037068B2
2006-04-05

Индексация
Краулинг
Семантика и интент

Как Google использует данные аналитики в реальном времени и контролируемый трафик для установления оригинального авторства контента

Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.

US9372927B1
2013-03-15

EEAT и качество
Индексация
Краулинг

Как Google использует анализ контента для распределения пользовательских вопросов на тематически релевантные сайты

Патент описывает систему, функционирующую подобно рекламной сети (типа AdSense), но для Q&A. Google анализирует содержание веб-сайтов (издателей) и пользовательские вопросы для определения тематической релевантности. Затем система размещает релевантные вопросы на этих сайтах, чтобы эксперты, посещающие их, могли дать ответ. Это демонстрирует базовые механизмы Google для определения тематики контента.

US20080160490A1
2007-03-22

Краулинг
Семантика и интент

Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

US20120254158A1
2011-09-12

Google Shopping
SERP
Семантика и интент

Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования

Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.

US7769742B1
2005-06-30

Краулинг
Техническое SEO
Свежесть контента

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2004-06-30

Краулинг
Свежесть контента
Индексация

Как Google адаптивно управляет краулинговым бюджетом и скоростью сканирования на основе производительности сервера

Google использует распределенную систему управления сканированием, которая группирует URL по хостам и определяет оптимальное время следующего обращения к серверу («Stall Time»). Эта система адаптивно регулирует частоту запросов на основе фактической скорости ответа сервера («Retrieval Time»), чтобы эффективно сканировать интернет, не перегружая отдельные сайты.

US7305610B1
2000-08-14

Краулинг
Техническое SEO

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2011-01-21

Краулинг
Техническое SEO
Индексация

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров

Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.

US9081861B2
2008-07-21

Техническое SEO
Краулинг
Индексация

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2003-12-31

Краулинг
Техническое SEO
Индексация

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита

Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

US7725452B1
2004-05-20

Краулинг
Индексация
Свежесть контента

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса

Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.

US7627613B1
2003-07-03

Краулинг
Индексация
Техническое SEO

Как Google динамически управляет очередью сканирования и отклоняет низкоприоритетные URL при ограниченной пропускной способности сервера

Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early Rejection), не дожидаясь таймаута, чтобы обеспечить быстрое сканирование важного контента.

US8676783B1
2011-06-28

Краулинг

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика

Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.

US8666964B1
2005-04-25

Краулинг
Свежесть контента
Индексация

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования

Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).

US7930400B1
2006-12-27

Индексация
Краулинг
Техническое SEO

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2005-03-31

Техническое SEO
Краулинг
Индексация

Как Google сканирует, индексирует и ранжирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует виртуальные машины для эмуляции мобильных операционных систем (например, Android). В этой среде запускаются нативные приложения, и система извлекает текст, изображения и структуру непосредственно из процесса рендеринга контента. Это позволяет индексировать внутренние страницы приложений и показывать их в результатах поиска вместе с веб-страницами, реализуя механизм Deep Linking.

US9002821B2
2013-01-16

Индексация
Краулинг
SERP

Как Google использует мобильные Sitemaps для выбора правильного краулера и оптимизации сканирования

Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.

US7653617B2
2006-05-01

Краулинг
Индексация
Техническое SEO

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

US8386459B1
2011-02-22 (Продолжение заявки от 2005-04-25)

Краулинг
Свежесть контента
Техническое SEO

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы

Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.

US8055626B1
2005-08-09

Индексация
Краулинг
Техническое SEO

Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).

US8862569B2
2012-01-11

Краулинг
Индексация
Техническое SEO

Как Google использует структуру URL для прогнозирования качества, популярности и поведения пользователей для новых страниц

Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее ценность, основываясь на показателях других страниц с аналогичной структурой URL. Это влияет на приоритеты сканирования, индексирования и начальное ранжирование.

US8645367B1
2010-03-08

Структура сайта
Техническое SEO
Индексация