Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

SCHEDULING A RECRAWL (Планирование повторного сканирования)

US8386459B1
Google LLC
2011-02-22 (Продолжение заявки от 2005-04-25)
2013-02-26

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

Какую проблему решает

Патент решает проблему неэффективности традиционного последовательного повторного сканирования. При таком подходе менее важные или редко меняющиеся страницы могут сканироваться раньше, чем более важные или часто обновляемые. Это приводит к неоптимальному использованию ресурсов сканирования (Crawl Budget) и снижению свежести индекса. Цель изобретения — создать адаптивный график сканирования, приоритизирующий важный и обновленный контент.

Что запатентовано

Запатентована система и метод для определения оптимального графика повторного сканирования документов. Система оценивает историческую частоту изменений документа (Change Period) и рассчитывает желаемую частоту его проверки (Crawl Period). Этот период затем корректируется на основе важности документа (Importance Rank) и специфических правил (Hints). Изобретение описано в контексте поискового устройства (Search Appliance) для интранета.

Как это работает

Система работает в несколько этапов:

Анализ истории: Сравниваются контрольные суммы (checksums/hash) контента из прошлых сканирований для определения факта изменения.
Оценка частоты изменений (Change Period): На основе истории оценивается, как часто меняется документ.
Расчет периода сканирования (Crawl Period): Изначально устанавливается период сканирования, который короче периода изменения (например, вдвое), чтобы агрессивно обнаруживать реальную частоту обновлений.
Корректировка по важности: Для более важных страниц (высокий Importance Rank, например, PageRank) частота сканирования увеличивается, даже если они меняются редко.
Корректировка по правилам (Hints): Применяются заданные администратором правила (в контексте Search Appliance) для принудительного установления минимальной или максимальной частоты сканирования для групп URL.
Планирование и приоритизация: Создается график сканирования. Если краулер отстает от графика, логика приоритизации может измениться, фокусируясь на наиболее важных страницах.

Актуальность для SEO

Средняя. Фундаментальные концепции патента — оптимизация сканирования на основе важности (PageRank) и частоты изменений — остаются крайне актуальными в 2025 году. Однако описанная реализация (простые эвристики, такие как установка Crawl Period в половину Change Period, и ручные правила Hints) устарела, так как оригинальная заявка подана в 2005 году. Современные системы Google используют сложное машинное обучение для планирования сканирования. Кроме того, патент фокусируется на Search Appliance для интранета, что отличается от основного веб-поиска.

Важность для SEO

Патент имеет высокое значение (8/10) для понимания основ управления Crawl Budget. Он четко определяет ключевые входные данные для планировщика сканирования: частоту изменений и важность страницы (где PageRank указан как пример). Это подтверждает стратегическую необходимость повышения авторитетности сайта для улучшения частоты его сканирования и обеспечения свежести в индексе.

Термины и определения

Change Period (Период изменения): Оценка частоты изменения контента документа. Рассчитывается на основе истории сканирования.
Crawl Period (Период сканирования): Желаемая частота, с которой система должна повторно сканировать документ. Рассчитывается на основе Change Period и корректируется.
Crawl Manager (Менеджер сканирования): Компонент, который поддерживает информацию о URL, рассчитывает и корректирует Crawl Period, и выбирает URL для отправки краулеру.
Crawl Scheduler (Планировщик сканирования): Компонент, который оценивает Change Period на основе данных от History Server.
Checksum / Hash (Контрольная сумма / Хеш): Цифровой отпечаток контента документа. Используется для быстрого определения факта изменения контента между сканированиями.
Hints (Подсказки / Правила): Определенные администратором правила (например, на основе шаблонов URL), которые переопределяют расчетный Crawl Period. Включают Minimum Hints (не сканировать чаще, чем X) и Maximum Hints (не сканировать реже, чем Y).
History Server (Сервер истории): Компонент, хранящий записи о прошлых сканированиях, включая время и контрольную сумму контента.
Importance Rank (Ранг важности): Метрика релевантности или важности страницы, не зависящая от запроса. В патенте в качестве примера приводится PageRank®.
Importance Crawl Period (Период сканирования по важности): Пороговое значение Crawl Period, установленное для определенного уровня Importance Rank. Гарантирует, что важные страницы сканируются достаточно часто.
Ready to Crawl List (Список готовых к сканированию): Очередь URL, которые должны быть просканированы (время настало или просрочено).
Search Appliance (Поисковое устройство): Автономный сервер, устанавливаемый в сети организации (интранет) для индексирования и поиска по внутренним документам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод определения графика повторного сканирования элементов в интранете с использованием Search Appliance.

Оценка Change Period (частоты изменения контента) для элементов на основе истории сканирования.
Расчет Crawl Period для каждого элемента, который устанавливается относительно Change Period.
Определение необходимости корректировки расчетного Crawl Period с использованием критериев корректировки (adjustment criteria). Критерии включают комбинацию Importance Rank элемента и списка Hints.
Корректировка Crawl Period для выбранных элементов. Корректировка происходит, если элемент соответствует Hint И расчетный Crawl Period превышает порог (threshold), связанный с этим Hint.
Создание графика повторного сканирования (recrawl schedule) с использованием времени повторного сканирования (recrawl time). Это время основано на времени последнего сканирования плюс расчетный или скорректированный Crawl Period.

Ядро изобретения — это процесс адаптивного планирования сканирования, который использует историю изменений как базовую линию, а затем применяет модификаторы (важность и правила) для оптимизации графика.

Claim 3 и 4 (Зависимые): Уточняют процесс использования графика.

График повторного сканирования может быть опционально отсортирован.
Сортировка графика выполняется таким образом, чтобы элементы, которые более просрочены (more overdue), сканировались раньше, чем менее просроченные (less overdue).

Где и как применяется

Изобретение целиком относится к этапу CRAWLING – Сканирование и Сбор данных. Оно описывает логику работы системы планирования сканирования (Crawl Scheduling) и управления бюджетом сканирования (Crawl Budget Management).

Хотя патент описывает применение в контексте Search Appliance для интранета, он также указывает, что изобретение может быть реализовано в веб-поисковой системе (например, Google.com).

Взаимодействие компонентов:

History Server предоставляет данные о прошлых сканированиях (время, хеш).
Crawl Scheduler использует эти данные для расчета Change Period.
Ranking Engine (на этапе INDEXING) предоставляет Importance Rank (например, PageRank).
Crawl Manager использует Change Period, Importance Rank и Hints для расчета и корректировки Crawl Period, поддерживает график и формирует Ready to Crawl List.
Crawler запрашивает URL из Crawl Manager, скачивает их и обрабатывает.

Входные данные:

История сканирования (URL, временные метки, контрольные суммы контента).
Importance Rank (PageRank) для каждого URL.
Определенные администратором правила (Hints).

Выходные данные:

Приоритизированный график повторного сканирования (Recrawl Schedule).
Очередь URL для немедленного сканирования (Ready to Crawl List).

На что влияет

Свежесть индекса: Основное влияние. Система стремится обеспечить актуальность данных в индексе, минимизируя время между изменением контента и его повторным сканированием.
Типы контента: Наибольшее влияние оказывается на контент, который часто обновляется (новости, блоги, главные страницы) или имеет высокую важность (корневые страницы, ключевые разделы). Меньшее влияние на статический контент (архивы).
Распределение Crawl Budget: Система определяет, как ресурсы сканирования распределяются между различными страницами и разделами сайта.

Когда применяется

Алгоритм применяется непрерывно в рамках жизненного цикла управления сканированием.

Расчет и корректировка Crawl Period: Выполняется периодически для каждого известного URL или после завершения сканирования URL.
Проверка графика: Crawl Manager постоянно проверяет график, чтобы определить, какие URL готовы к сканированию.
Триггеры активации альтернативной сортировки: Особые режимы сортировки очереди (alternate crawl order) активируются, если краулер отстает от графика на определенное пороговое значение (в патенте приведен пример порога в 3 часа).

Пошаговый алгоритм

Процесс А: Расчет периода сканирования (Crawl Period)

Определение периода изменения (Change Period): Crawl Scheduler анализирует историю сканирования URL, сравнивая контрольные суммы контента. Оценивается интервал между обнаруженными изменениями.
Установка начального периода сканирования (Crawl Period): Crawl Period устанавливается на основе Change Period. В описанном варианте он устанавливается равным половине Change Period. Это делается для агрессивного обнаружения изменений и более точного определения истинной частоты обновлений.
Проверка важности: Система сравнивает расчетный Crawl Period с Importance Crawl Period (максимально допустимым интервалом сканирования для данного уровня Importance Rank).
Корректировка по важности: Если расчетный Crawl Period длиннее, чем Importance Crawl Period, он сокращается до значения Importance Crawl Period. (Важные страницы сканируются чаще, даже если меняются редко).
Проверка правил (Hints): URL сравнивается со списком заданных администратором правил (Minimum Hints и Maximum Hints).
Корректировка по правилам:
- Если URL соответствует Minimum Hint и его Crawl Period короче заданного минимума, он устанавливается на минимум (защита от перекрауливания).
- Если URL соответствует Maximum Hint и его Crawl Period длиннее заданного максимума, он устанавливается на максимум (обеспечение свежести).
Финализация: Скорректированный Crawl Period сохраняется.

Процесс Б: Выполнение сканирования

Проверка графика: Crawl Manager проверяет график сканирования. Время следующего сканирования рассчитывается как время последнего сканирования плюс Crawl Period.
Идентификация готовых URL: Определяются URL, время сканирования которых наступило или уже прошло (просроченные). Если таких нет, система ожидает.
Формирование списка: Готовые URL перемещаются в Ready to Crawl List.
Сортировка списка: Список сортируется. Стандартный порядок — хронологический (наиболее просроченные сканируются первыми).
- Альтернативная сортировка: Если краулер значительно отстает от графика (превышен порог задержки), порядок сортировки изменяется. Варианты: сортировка по Importance Rank (PageRank), или по комбинации важности и времени просрочки, или по комбинации важности, даты и частоты изменений. При сортировке по важности часть наименее важных страниц может быть отброшена.
Сканирование: Crawler обрабатывает элементы списка в отсортированном порядке, пока список не опустеет.

Какие данные и как использует

Данные на входе

Временные факторы: Временные метки предыдущих сканирований (Time Crawled). Критически важны для расчета интервалов.
Технические факторы: Идентификаторы URL. Контрольные суммы (Hash) содержимого, используемые для обнаружения изменений. Упоминается возможность использования HTTP-заголовка If-Modified-Since.
Ссылочные факторы (Косвенно): Importance Rank. Патент явно упоминает PageRank® как один из вариантов реализации метрики важности, которая не зависит от запроса.
Системные данные (Search Appliance): Заданные администратором правила (Hints), основанные на шаблонах URL (например, начало строки, окончание строки или регулярные выражения). Данные о состоянии системы (отставание от графика) для выбора метода сортировки.

Какие метрики используются и как они считаются

Change Period: Оценка частоты изменений. Рассчитывается как интервал времени между последовательными сканированиями, в которых были обнаружены разные контрольные суммы.
Crawl Period (Начальный): Желаемая частота сканирования. Рассчитывается как функция от Change Period. Пример эвристики из патента: $\text{Crawl Period} = \frac{\text{Change Period}}{2}$ .
Importance Crawl Period: Пороговые значения, определяемые на основе Importance Rank. (Например, Ранг 9 = макс. 4 дня, Ранг 1 = макс. 4 месяца).
Recrawl Time: Время следующего сканирования. $\text{Recrawl Time} = \text{Last Crawl Time} + \text{Crawl Period}$ .
Метрики сортировки при отставании: В патенте предлагаются альтернативные методы сортировки, если краулер отстает от графика. Один из примеров расчета приоритета: $\text{Crawl Priority} = \text{Importance Rank} \times \text{Minutes Overdue}$ .

Баланс свежести и важности: Система планирования сканирования постоянно балансирует между необходимостью поддерживать свежесть часто меняющегося контента (Change Period) и необходимостью поддерживать точность индекса для важного контента (Importance Rank/PageRank).
PageRank как ключевой фактор сканирования: Патент явно упоминает PageRank как реализацию Importance Rank. Эта метрика используется для установки верхней границы интервала сканирования. Очень важные страницы будут сканироваться часто, даже если их контент меняется редко.
Адаптивное обучение и агрессивное обнаружение: Система активно пытается определить истинную частоту изменений, изначально устанавливая Crawl Period короче, чем наблюдаемый Change Period (например, вдвое).
Обработка отставания от графика (Crawler Lag): Если краулер перегружен и отстает от графика, логика приоритизации меняется. Вместо того чтобы сканировать самые просроченные страницы (хронологический порядок), система переключается на сканирование самых важных страниц (по Importance Rank).
Защита от ложных изменений: Система признает проблему динамических страниц, которые меняют хэш без смысловых изменений. Механизм Minimum Hints предназначен для предотвращения чрезмерного сканирования таких страниц.
Контекст Search Appliance: Механизмы Hints (ручное управление частотой сканирования администратором) специфичны для контекста Search Appliance в интранете и недоступны в основном веб-поиске Google.

Best practices (это мы делаем)

Повышение авторитетности (Importance Rank): Так как Importance Rank (PageRank) напрямую влияет на максимальную частоту сканирования и приоритет при перегрузке краулера, работа над повышением авторитетности ключевых страниц (через качественные внешние и внутренние ссылки) критически важна для обеспечения достаточного Crawl Budget.
Четкая сигнализация об изменениях: Убедитесь, что сервер корректно настроен. Патент упоминает использование HTTP-заголовка If-Modified-Since. Корректная отдача заголовка Last-Modified помогает системе понять, изменился ли контент, экономя ресурсы.
Поддержание консистентного графика обновлений: Система учится тому, как часто меняется контент (Change Period). Регулярное и значимое обновление контента тренирует краулер посещать страницы чаще.
Оптимизация структуры сайта и перелинковки: Обеспечение того, чтобы важные страницы имели высокий внутренний Importance Rank за счет продуманной перелинковки, гарантирует их приоритетное сканирование.
Оптимизация скорости ответа сервера: Быстрый сервер позволяет краулеру эффективно использовать бюджет и снижает вероятность отставания от графика, при котором менее важные страницы могут игнорироваться.

Worst practices (это делать не надо)

Генерация ложных изменений: Добавление динамических элементов (например, текущее время, случайные блоки рекламы), которые меняют хэш страницы при каждой загрузке. Это может привести к ошибочному расчету Change Period и неэффективному расходованию Crawl Budget.
Игнорирование ссылочного веса при работе над свежестью: Полагаться только на частое обновление контента для обеспечения индексации неэффективно. Если страница имеет низкий Importance Rank, интервал ее сканирования будет большим, независимо от частоты обновлений.
Изоляция важного контента: Размещение важных страниц глубоко в структуре сайта без достаточного количества внутренних ссылок снижает их Importance Rank и, как следствие, частоту сканирования.

Стратегическое значение

Патент подтверждает критическую связь между авторитетностью (PageRank) и поведением краулера. Crawl Budget в значительной степени зависит от воспринимаемой важности (Importance Rank) и полезности обновления контента (Change Period). Хотя конкретные эвристики, описанные в патенте 2005 года, устарели и заменены ML-моделями, стратегический императив остается неизменным: для обеспечения максимальной видимости и быстрой индексации необходимо строить авторитетный ресурс.

Практические примеры

Сценарий 1: Улучшение частоты сканирования страницы категории интернет-магазина

Проблема: Новые товары в категории появляются в индексе Google с задержкой в несколько дней.

Анализ на основе патента: Задержка вызвана длинным Crawl Period. Это следствие либо низкого Importance Rank страницы категории, либо система считает, что Change Period страницы длинный.

Действия:

Повышение Importance Rank: Увеличить количество внутренних ссылок на эту категорию (из меню, с главной страницы, из блога). Получить внешние ссылки.
Стимулирование Change Period: Регулярно обновлять контент на странице категории (например, ротация рекомендуемых товаров), чтобы система зафиксировала более короткий период изменения.
Техническая проверка: Убедиться в корректности ответа сервера Last-Modified.

Ожидаемый результат: Сокращение Crawl Period за счет повышения важности и подтвержденной частоты изменений, что приведет к более быстрому обнаружению новых товаров.

Сценарий 2: Оптимизация сканирования новостного сайта при высокой нагрузке

Проблема: Во время пиковых новостных событий краулер не успевает оперативно индексировать все новые статьи.

Анализ на основе патента: Краулер отстает от графика и переключается в режим сортировки по Importance Rank.

Действия: Необходимо обеспечить быструю передачу Importance Rank новым статьям. Размещать ссылки на самые важные новости на главной странице и в топе рубрик (страницах с высоким Importance Rank).

Ожидаемый результат: При перегрузке краулер будет выбирать для сканирования те статьи, которые получили наибольший вес, гарантируя индексацию самого важного контента.

Какие два основных фактора определяют, как часто Google сканирует страницу?

Согласно патенту, это Importance Rank (важность страницы, например, PageRank) и Change Period (оценка того, как часто меняется контент страницы). Система балансирует эти два фактора, чтобы определить оптимальный период сканирования (Crawl Period).

Что важнее для частоты сканирования: частота обновления контента или его авторитетность (PageRank)?

Оба фактора критичны. Частота обновления определяет базовую потребность в сканировании. Авторитетность (Importance Rank) гарантирует минимальную частоту сканирования для важных страниц, даже если они меняются редко. Кроме того, авторитетность становится главным критерием приоритезации, если краулер перегружен и отстает от графика.

В патенте говорится, что Crawl Period устанавливается как половина Change Period. Почему?

Это механизм для агрессивного обнаружения реальной частоты изменений. Если система заметила, что страница меняется раз в 10 дней, она запланирует визит через 5 дней. Это позволяет быстрее обнаружить, если частота обновлений увеличилась, и скорректировать график сканирования.

Что происходит, если Googlebot не успевает сканировать мой сайт по графику?

Если краулер значительно отстает от графика (превышает порог задержки), он меняет стратегию сортировки очереди. Вместо хронологического порядка (кто дольше ждет), он переключается на сортировку по Importance Rank (PageRank). В этом случае самые авторитетные страницы будут просканированы в первую очередь, а менее важные могут быть проигнорированы.

Как система определяет, что контент изменился?

Система рассчитывает контрольную сумму (Hash или Checksum) содержимого страницы при каждом сканировании. При следующем визите она сравнивает новую чек-сумму с сохраненной. Если они отличаются, система фиксирует факт изменения контента.

Что такое “Hints” и применимы ли они к обычному Google Поиску?

Hints в патенте — это правила, заданные администратором Search Appliance для принудительной установки минимальной или максимальной частоты сканирования. В обычном веб-поиске у SEO-специалистов нет возможности так прямо управлять частотой. Мы используем косвенные сигналы, но не прямые директивы.

Стоит ли добавлять динамические элементы (например, блок с текущей датой), чтобы увеличить частоту сканирования?

Нет. Патент признает, что это может привести к чрезмерно частому сканированию и неэффективному расходованию Crawl Budget. Для таких случаев в патенте предусмотрен механизм Minimum Hints, чтобы ограничить частоту сканирования страниц с незначительными динамическими изменениями.

Применяется ли этот патент в основном поиске Google или только в корпоративных Search Appliances?

Патент описывает реализацию в Search Appliance для интранета. Однако в тексте указано, что изобретение может быть реализовано и в веб-поисковой системе. Описанные принципы (баланс свежести и важности, приоритизация по PageRank) являются фундаментальными для работы Google и используются в основном поиске, хотя реализация может отличаться.

Как этот патент связан с понятием Краулингового Бюджета (Crawl Budget)?

Этот патент описывает ключевую часть управления краулинговым бюджетом — планирование спроса на сканирование (Crawl Demand). Система определяет, какие страницы нужно сканировать и как часто, основываясь на их важности и частоте изменений. Это напрямую формирует потребность сайта в ресурсах краулера.

Как лучше всего ускорить индексацию новой страницы согласно этому патенту?

Чтобы новая страница была быстро просканирована, она должна быстро получить высокий Importance Rank. Лучший способ добиться этого — разместить ссылки на новую страницу с уже известных и авторитетных страниц сайта (например, с главной страницы или важных категорий). Это гарантирует ее обнаружение и присвоение высокого приоритета в очереди на сканирование.

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика

Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.

US8666964B1
2014-03-04

Краулинг
Свежесть контента
Индексация

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг
Техническое SEO
Индексация

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита

Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

US7725452B1
2010-05-25

Краулинг
Индексация
Свежесть контента

Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).

US8862569B2
2014-10-14

Краулинг
Индексация
Техническое SEO

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR

Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.

US10922326B2
2021-02-16

Knowledge Graph
SERP
Семантика и интент

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

US8583675B1
2013-11-12

Поведенческие сигналы
SERP
Семантика и интент

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы

Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.

US20140188927A1
2014-07-03

Персонализация
SERP
Ссылки