Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика

MANAGING ITEMS IN CRAWL SCHEDULE (Управление элементами в расписании сканирования)

US8666964B1
Google LLC
2005-04-25
2014-03-04

Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.

Какую проблему решает

Патент решает проблему неэффективного распределения ресурсов сканирования, особенно когда краулер отстает от графика (behind schedule) и не успевает обработать все запланированные URL. Он устраняет недостаток традиционных систем последовательного переобхода, при котором менее важные или редко обновляемые страницы могут сканироваться в ущерб более важным (important pages) или часто изменяющимся страницам.

Что запатентовано

Запатентован метод динамического управления расписанием сканирования (Crawl Schedule). Система рассчитывает оптимальную частоту сканирования и определяет дату следующего обхода (Due Date) для каждого URL. Ключевой особенностью является механизм обработки «просроченных» страниц (Past Due Items): в зависимости от степени отставания краулера от графика система динамически выбирает метод сортировки очереди сканирования, переключаясь с хронологического порядка на приоритизацию по важности (Importance Rank).

Как это работает

Система работает в два этапа:

Планирование: Для каждого URL оценивается частота изменений (Change Period) на основе истории сканирования и его важность (Importance Rank, например, PageRank). На основе этих данных, а также административных правил (Hints), рассчитывается период сканирования (Crawl Period) и назначается Due Date.
Исполнение и Приоритизация: Система идентифицирует просроченные URL. Если краулер работает по графику или отставание незначительно, эти URL сканируются в хронологическом порядке. Если отставание превышает установленный порог, система меняет метод сортировки, отдавая приоритет URL с наивысшим Importance Rank.

Актуальность для SEO

Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и обеспечение свежести индекса для важных страниц остаются фундаментальными задачами поисковых систем. Хотя методы оценки важности и частоты изменений с 2005 года эволюционировали (например, с использованием ML), базовая логика динамической приоритизации сканирования при ограниченных ресурсах остается крайне актуальной.

Важность для SEO

Патент имеет высокое значение (8.5/10) для SEO, особенно для крупных веб-сайтов. Он раскрывает конкретный механизм распределения краулингового бюджета. Ключевой вывод: авторитетность страницы (Importance Rank/PageRank) является определяющим фактором для частоты и приоритета сканирования в условиях ограниченных ресурсов Google. Если сайт не обладает достаточной авторитетностью, его страницы могут сканироваться с большими задержками.

Термины и определения

Change Period (Период изменения): Оценка того, как часто изменяется контент по данному URL. Рассчитывается на основе истории сканирований и сравнения хэшей контента.
Crawl Period (Период сканирования): Запланированная частота, с которой система намерена сканировать URL. Может устанавливаться короче, чем Change Period (например, 50%), чтобы точнее отслеживать реальную частоту изменений.
Crawl Schedule (Расписание сканирования): Список URL с указанием запланированного времени следующего сканирования (Due Date).
Hints (Подсказки): Административные правила (например, на основе шаблонов URL), которые переопределяют расчетный Crawl Period. Включают Minimum Hints (не сканировать чаще, чем X) и Maximum Hints (сканировать не реже, чем Y).
History Server (Сервер истории): Компонент, хранящий записи о предыдущих сканированиях, включая время и хэш (checksum) контента.
Importance Crawl Period (Период сканирования по важности): Максимально допустимый интервал между сканированиями для страницы с определенным Importance Rank. Гарантирует частое сканирование важных страниц, даже если они редко меняются.
Importance Rank (Ранг важности): Метрика важности страницы, независимая от поискового запроса. В патенте явно упоминается PageRank® как один из вариантов реализации.
Past Due Items / Overdue Items (Просроченные элементы): URL, чье запланированное время сканирования (Due Date) уже прошло.
Ready to Crawl List (Список готовых к сканированию): Очередь из просроченных элементов, отсортированная для обработки краулером.
Tardiness (Отставание от графика): Метрика, показывающая, насколько сильно краулер отстает от расписания. Используется как триггер для изменения стратегии сортировки.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод управления расписанием повторного сканирования.

Оценка периода изменения (Change Period) для набора элементов (URL).
Генерация списка сканирования (Crawl List), включающего элементы, которые просрочены (overdue) для сканирования.
Ключевой шаг: Выбор метода сортировки из нескольких различных методов на основе одного или нескольких факторов (например, степени отставания краулера).
Сортировка списка сканирования с использованием выбранного метода перед началом сканирования.

Ядром изобретения является динамический выбор метода приоритизации (сортировки) для просроченных задач сканирования. Система адаптирует приоритеты на лету в зависимости от текущего состояния и нагрузки.

Claims 2, 3, 4 (Зависимые пункты): Детализируют возможные методы сортировки, упомянутые в Claim 1.

Claim 2: Метод сортировки может основываться на ранге важности (Importance Rank).
Claim 3: Метод сортировки может основываться на оценочном периоде изменения (Change Period).
Claim 4: Метод сортировки может основываться на том, насколько просрочен каждый элемент (хронологический порядок).

Система может переключаться между приоритизацией по авторитетности, свежести или давности ожидания в очереди. Выбор режима зависит от степени отставания краулера от графика (Tardiness).

Где и как применяется

Изобретение полностью относится к этапу CRAWLING – Сканирование и Сбор данных. Оно является центральным компонентом системы планирования сканирования (Crawl Scheduling) и управления краулинговым бюджетом (Crawl Budget Management).

Взаимодействие компонентов:

INDEXING (Косвенно): Ranking Engine на этапе индексации рассчитывает и предоставляет Importance Rank (например, PageRank). History Server хранит данные о предыдущих сканированиях.
CRAWLING (Прямое применение):
- Crawl Scheduler использует историю и Importance Rank для расчета Crawl Period и Due Date.
- Crawl Manager отслеживает расписание, идентифицирует просроченные элементы, оценивает Tardiness и динамически выбирает метод сортировки очереди.
- Crawler (Googlebot) выполняет сканирование согласно отсортированному списку.

Входные данные:

История сканирования (время последнего обхода, хэши контента).
Importance Rank для каждого URL.
Административные правила (Hints).
Текущее состояние системы (степень отставания от графика).

Выходные данные:

Отсортированный список URL (Ready to Crawl List), передаваемый краулеру.

На что влияет

Крупные сайты: Наибольшее влияние на сайты с миллионами страниц (e-commerce, порталы, агрегаторы), где краулинговый бюджет ограничен и система приоритизации работает постоянно.
Авторитетность сайтов: Сайты с низким Importance Rank будут первыми страдать от задержек в сканировании, когда ресурсы Googlebot ограничены. Высокоавторитетные сайты получают приоритет.
Свежесть контента: Влияет на скорость индексации обновлений. Часто обновляемый, но не авторитетный контент может индексироваться с задержкой при высокой нагрузке на краулер.

Когда применяется

Процесс планирования работает непрерывно, но ключевой механизм динамической сортировки активируется при определенных условиях:

Триггер активации: Наличие просроченных задач (Past Due Items) в очереди.
Пороговые значения (Thresholds): Система использует пороги отставания (Tardiness) для переключения стратегий.
- Низкое отставание (например, < 3 часов): Используется стандартная сортировка (хронологическая, самые просроченные первыми).
- Высокое отставание (например, > 3 часов): Активируется альтернативная сортировка.

Альтернативные методы сортировки (при высоком отставании):

По Importance Rank (PageRank). При этом может применяться отсечение: например, сканируются топ 80% самых важных страниц, а нижние 20% игнорируются (discarded).
Гибридный метод: Комбинация важности и давности. Например, Приоритет = $Importance Rank * Minutes Overdue$ .
Комбинация Importance Rank, Due Date и Change Rate.

Пошаговый алгоритм

Алгоритм состоит из двух основных процессов: Планирование сканирования и Исполнение сканирования.

Процесс А: Планирование следующего сканирования URL

Определение периода изменения: Анализ истории сканирования URL. Сравнение хэшей контента для оценки Change Period.
Установка базового периода сканирования: Рассчитывается Crawl Period. Например, он устанавливается равным половине Change Period, чтобы быстрее обнаруживать изменения частоты обновлений.
Корректировка по важности: Проверяется, не превышает ли Crawl Period максимально допустимый интервал для данного уровня важности (Importance Crawl Period). Если превышает, Crawl Period уменьшается до этого максимума.
Применение подсказок (Hints): Проверяется соответствие URL административным правилам (Minimum/Maximum Hints). Crawl Period корректируется, если он выходит за установленные рамки.
Планирование: Дата следующего сканирования (Due Date) устанавливается как Время последнего сканирования + итоговый Crawl Period.

Процесс Б: Исполнение сканирования и Приоритизация (Ключевая часть патента)

Проверка расписания: Система идентифицирует URL, чья Due Date уже прошла (Past Due Items).
Формирование списка: Просроченные задачи перемещаются в Ready to Crawl List.
Оценка состояния и выбор метода сортировки: Система анализирует степень отставания от графика (Tardiness).
- Низкое отставание (ниже порога): Выбирается сортировка по хронологии (самые старые задачи вперед).
- Высокое отставание (выше порога): Выбирается альтернативная сортировка (например, по Importance Rank или гибридный метод).
Сортировка списка: Ready to Crawl List сортируется выбранным методом. При сортировке по важности наименее важные URL могут быть отброшены.
Сканирование: Краулер обрабатывает элементы списка в отсортированном порядке до тех пор, пока список не опустеет.

Какие данные и как использует

Данные на входе

Ссылочные факторы (Авторитетность): Importance Rank. Патент явно упоминает PageRank® как пример. Это ключевой сигнал для установки порогов сканирования и для приоритизации очереди при отставании.
Временные факторы: Время последнего сканирования (Last Crawl) и исторические временные метки. Критичны для определения Change Period и статуса просрочки.
Контентные факторы (Косвенно): Хэш или контрольная сумма (Checksum/Hash) контента. Используется для обнаружения факта изменения контента между сканированиями.
Технические факторы: URL. Также упоминается возможность использования HTTP-заголовка If-Modified-Since.
Конфигурационные данные: Подсказки (Hints) – правила на основе шаблонов URL.

Какие метрики используются и как они считаются

Change Period: Оценивается путем анализа интервалов времени между обнаруженными изменениями контента (различия в хэшах).
Crawl Period: Базовый расчет может быть функцией от Change Period (например, $Change Period / 2$ ). Далее корректируется ограничителями по важности и подсказками.
Tardiness (Отставание): Степень отставания краулера от графика. Используется для переключения стратегии сортировки.
Prioritization Score (Оценка приоритизации): При использовании альтернативной сортировки могут использоваться разные формулы. Пример из патента: $Importance Rank * Minutes Overdue$ .

Ресурсы Googlebot ограничены и динамичны: Патент описывает механизмы работы в условиях, когда краулер не справляется с нагрузкой. Управление дефицитом ресурсов является ключевой задачей системы сканирования.
Динамическая приоритизация сканирования: Google не использует единую стратегию сортировки очереди. В штатном режиме приоритет отдается хронологии. При перегрузке система адаптивно меняет метод сортировки.
Важность (PageRank) доминирует при дефиците ресурсов: Это ключевой вывод. Когда система перегружена (Tardiness высок), Importance Rank становится главным фактором приоритизации. Авторитетные страницы будут просканированы в первую очередь, даже если менее авторитетные страницы ждут дольше.
Важность гарантирует минимальную частоту сканирования: Высокий Importance Rank гарантирует, что страница не будет оставаться без внимания слишком долго, даже если она редко меняется (Importance Crawl Period).
Отсечение неважных страниц: В условиях сильного отставания система может полностью игнорировать (discard) наименее важные страницы из очереди сканирования, чтобы сосредоточить ресурсы на обновлении критически важного контента.
Стремление к опережению изменений: Система пытается сканировать страницы чаще, чем они изменяются (например, Crawl Period = 1/2 Change Period), чтобы поддерживать индекс максимально свежим и точнее определять частоту обновлений.

Best practices (это мы делаем)

Максимизация Importance Rank (Авторитетность/PageRank): Это критически важная стратегия для обеспечения стабильного и частого сканирования. Необходимо системно работать над получением качественных внешних ссылок и оптимизировать внутреннюю перелинковку. Высокая важность является страховкой: если Google будет отставать от графика, он отдаст приоритет вашим страницам.
Оптимизация внутренней перелинковки (IA): Структурируйте сайт так, чтобы ключевые страницы (категории, основные продукты, хабы) получали максимальный внутренний вес. Это повышает их Importance Rank и, следовательно, их приоритет в очереди сканирования.
Оптимизация производительности сервера: Скорость ответа сервера влияет на краулинговый бюджет. Чем быстрее работает сайт, тем больше страниц Googlebot успевает обработать, снижая вероятность отставания от графика и активации жесткой приоритизации.
Корректная сигнализация об изменениях: Используйте технические сигналы для помощи Google. Настраивайте HTTP-заголовки (Last-Modified, ETag) и поддерживайте актуальные даты в <lastmod> XML Sitemaps. Это помогает системе точнее определить Change Period и экономить ресурсы.

Worst practices (это делать не надо)

Надеяться только на частоту обновлений: Ошибочно полагать, что частое обновление контента гарантирует частое сканирование. Без достаточного Importance Rank страницы будут деприоритизированы, как только ресурсы Googlebot окажутся ограничены.
Скрывать важные страницы глубоко в структуре: Размещение ключевых страниц на большом расстоянии от главной или отсутствие на них сильных внутренних ссылок снижает их Importance Rank и приоритет сканирования.
Генерация большого количества маловажных страниц: Наличие множества страниц с низким Importance Rank (например, фасеты, технические страницы) размывает краулинговый бюджет. При высокой нагрузке эти страницы рискуют быть отброшенными (discarded) из очереди сканирования.
Генерация ложных сигналов изменения: Избегайте динамических элементов (например, текущее время, случайные блоки), которые меняют хэш страницы при каждом сканировании без изменения основного контента. Это может привести к пустой трате краулингового бюджета.

Стратегическое значение

Патент подтверждает фундаментальный принцип SEO: авторитетность (Importance Rank/PageRank) определяет не только ранжирование, но и сканирование. Оптимизация краулингового бюджета — это не просто техническая задача, а стратегическая задача повышения воспринимаемой важности ресурса. В условиях ограниченных ресурсов Google всегда будет отдавать предпочтение авторитетности.

Практические примеры

Сценарий: Приоритизация сканирования крупного E-commerce сайта во время пиковой нагрузки (например, Черная Пятница).

Ситуация: Googlebot сканирует сайт с миллионами товаров. Из-за возросшей нагрузки в интернете (много обновлений на других сайтах) он начинает отставать от графика. Tardiness превышает порог.
Переключение стратегии: Вместо того чтобы сканировать просроченные URL в хронологическом порядке, система переключается на сортировку по Importance Rank.
Исполнение:
- Страницы популярных категорий и товаров-бестселлеров (Высокий Importance Rank) получают наивысший приоритет и сканируются в первую очередь.
- Страницы новых, еще не раскрученных товаров (Низкий Importance Rank) смещаются вниз очереди.
- Страницы старых архивных товаров (Очень низкий Importance Rank) могут быть полностью отброшены из текущей очереди сканирования.
Результат: Google обеспечивает актуальность информации (цены, наличие) на наиболее важных страницах сайта, жертвуя обновлением менее критичного контента.
Действие SEO: Убедиться, что перед распродажей ключевые товары и категории имеют максимальный внутренний ссылочный вес.

Что важнее для частоты сканирования: частота обновления страницы или ее авторитетность (PageRank)?

Оба фактора важны, но их роль меняется. В штатном режиме Google старается адаптироваться к частоте обновлений (Change Period). Однако, когда краулер отстает от графика (нехватка ресурсов), Importance Rank (PageRank) становится доминирующим фактором приоритизации. Авторитетная страница получит приоритет.

Как Google определяет "важность" (Importance Rank) страницы для сканирования?

Патент явно упоминает PageRank® как пример реализации Importance Rank. Это метрика, оценивающая авторитетность страницы на основе количества и качества входящих ссылок (внешних и внутренних). Чем выше ранг, тем выше приоритет страницы в очереди сканирования.

Как Google определяет, что краулер отстает от графика?

Система отслеживает время, прошедшее с запланированной даты сканирования (Due Date) для URL в очереди (Tardiness). Если это время превышает установленный порог (например, 3 часа, как указано в патенте), система фиксирует отставание и может изменить стратегию приоритизации.

Мой сайт часто обновляется, но Googlebot приходит редко. Почему?

Вероятно, у вашего сайта или его страниц низкий Importance Rank. Когда ресурсы Google ограничены (глобальное отставание от графика), система приоритизирует более авторитетные сайты. Необходимо работать над повышением авторитетности (ссылочный профиль, внутренняя перелинковка) для улучшения сканирования.

Что такое механизм "Crawl Period = 1/2 Change Period"?

Система стремится сканировать страницу чаще, чем она реально меняется. Если страница меняется раз в 10 дней (Change Period), система может запланировать сканирование раз в 5 дней (Crawl Period). Это позволяет не пропускать обновления и более точно определять реальную частоту изменений, если она увеличится.

Что происходит с неважными страницами, когда краулер перегружен?

Патент описывает агрессивный подход: при сильном отставании и сортировке по важности система может полностью игнорировать (discard) нижнюю часть списка. Например, сканируются только топ 80% самых важных страниц, а нижние 20% удаляются из очереди до следующего цикла планирования.

Как этот патент связан с краулинговым бюджетом (Crawl Budget)?

Этот патент описывает ядро механизма управления краулинговым бюджетом. Он показывает, как Google распределяет свои ограниченные ресурсы сканирования, балансируя между необходимостью обновления контента (свежесть) и его важностью, и как эта стратегия меняется в зависимости от нагрузки.

Что такое "Importance Crawl Period"?

Это гарантия минимальной частоты сканирования для важных страниц. Например, система может определить, что страницы с высоким Importance Rank должны сканироваться не реже раза в 4 дня, даже если их контент меняется раз в месяц. Это гарантирует актуальность индекса для авторитетных ресурсов.

Как Google определяет частоту изменений (Change Period)?

При каждом сканировании система вычисляет хэш (контрольную сумму) контента и сохраняет его в History Server. При следующем сканировании новый хэш сравнивается с предыдущим. Если хэши отличаются, фиксируется факт изменения. Анализируя историю этих изменений во времени, система оценивает Change Period.

Патент подан в 2005 году. Актуален ли он сейчас?

Хотя патент старый, описанные в нем принципы являются фундаментальными для работы любой крупномасштабной поисковой системы. Управление ресурсами сканирования и приоритизация на основе важности и свежести – это вечные задачи. Современные системы Google, вероятно, более сложные, но базовая логика, заложенная в этом патенте, остается актуальной.

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

US8386459B1
2013-02-26

Краулинг
Свежесть контента
Техническое SEO

Как Google динамически управляет очередью сканирования и отклоняет низкоприоритетные URL при ограниченной пропускной способности сервера

Google использует адаптивную систему управления краулинговым бюджетом. Система прогнозирует вероятность успешного сканирования URL на основе скорости ответов сервера и приоритета запроса. Если пропускная способность ограничена, низкоприоритетные URL немедленно отклоняются (Early Rejection), не дожидаясь таймаута, чтобы обеспечить быстрое сканирование важного контента.

US8676783B1
2014-03-18

Краулинг

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита

Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

US7725452B1
2010-05-25

Краулинг
Индексация
Свежесть контента

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг
Техническое SEO
Индексация

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей

Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.

US9116957B1
2015-08-25

Поведенческие сигналы
Семантика и интент
SERP

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах

Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.

US20130144836A1
2013-06-06

Ссылки
Индексация
Техническое SEO

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

US8688716B1
2014-04-01

SERP
Поведенческие сигналы

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация