Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

SCHEDULER FOR SEARCH ENGINE CRAWLER (Планировщик для краулера поисковой системы)

US8042112B1
Google LLC
2004-06-30
2011-10-18

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

Какую проблему решает

Патент решает фундаментальную проблему масштабируемости веб-краулинга: как эффективно управлять сканированием миллиардов документов в интернете, превышающих возможности поисковой системы. Он описывает архитектуру для определения того, какие документы следует сканировать в следующем цикле, в каком порядке, и следует ли загружать их заново или использовать (Reuse) существующую копию, чтобы оптимизировать свежесть и покрытие в рамках ограничений пропускной способности.

Что запатентовано

Запатентована распределенная система планирования (Scheduler System) для краулера. Система использует важность страницы (Page Importance, например, PageRank) и исторические данные о сканировании (History Logs, Status Data) для расчета приоритета (Priority Score) каждого известного URL. Планировщики отбирают Топ-N самых приоритетных URL, применяют к ним ограничения емкости (Scheduler Limits) на уровне хоста или домена и определяют логику повторного использования контента (Reuse Logic) для оптимизации ресурсов.

Как это работает

Система работает в двух ключевых направлениях:

Планирование (Scheduling): Перед циклом сканирования планировщики анализируют список URL. Они удаляют URL, которые были недоступны или выдавали ошибки в течение нескольких последовательных попыток. Для оставшихся рассчитывается Priority Score (Важность Страницы * Boost Factor). URL сортируются, выбирается Топ-N, после чего применяются Capacity Limits (например, максимум URL на хост).
Повторное использование (Reuse): Reuse Server анализирует историю изменений (через Content Checksum) и важность страницы. Высоковажные страницы часто загружаются заново (DOWNLOAD). Страницы средней важности могут использовать условную загрузку (REUSE IF NOT MODIFIED SINCE). Низковажные, неизменившиеся страницы используются повторно из локального репозитория (REUSE) для экономии ресурсов.

Актуальность для SEO

Высокая. Управление краулинговым бюджетом (Crawl Budget Management) и приоритизация сканирования на основе авторитетности являются фундаментальными аспектами работы современных поисковых систем. Принципы, описанные в этом патенте, остаются критически важными для управления масштабом и эффективностью сканирования в 2025 году.

Важность для SEO

Патент имеет критическое значение для технического SEO, особенно для крупных сайтов. Он раскрывает механизмы, лежащие в основе управления бюджетом сканирования. Патент прямо указывает, что Page Importance (PageRank) является основным фактором приоритизации сканирования. Понимание логики фильтрации ошибок, применения лимитов на хост и механизма повторного использования контента позволяет SEO-специалистам оптимизировать архитектуру сайта и серверную инфраструктуру для обеспечения максимальной скорости и полноты индексации.

Термины и определения

Boost Factor (Коэффициент повышения/понижения): Скалярное значение, используемое для искусственного повышения или понижения Priority Score URL. Например, для продвижения новостных сайтов или главных страниц крупных компаний.
Capacity Limits / Scheduler Limits (Лимиты мощности / Лимиты планировщика): Ограничения, применяемые для управления нагрузкой. Примеры: максимальное количество URL на хост, на домен или определенного типа файлов (например, CGI файлы).
Content Checksum (Контрольная сумма контента): Значение, рассчитанное на основе содержимого документа. Используется для определения, изменился ли документ между сканированиями.
History Logs (Журналы истории): Записи о прошлых попытках сканирования URL, включая Timestamp, Crawl Status (статус сканирования), Content Checksum, Source ID (источник загрузки) и Page Importance на момент сканирования.
Page Importance (Важность страницы): Метрика, определяющая значимость URL. В патенте прямо упоминается PageRank как пример Page Importance. Является основой для расчета Priority Score.
Priority Score (Оценка приоритета): Итоговая оценка, используемая для сортировки URL в очереди на сканирование. Рассчитывается как произведение Page Importance и Boost Factor.
Reuse Server (Сервер повторного использования): Компонент, который анализирует History Logs для определения, следует ли загружать документ из сети или использовать локальную копию.
Reuse Table (Таблица повторного использования): Таблица с инструкциями для роботов (Googlebot) о том, как обрабатывать URL.
Reuse Type (Тип повторного использования): Флаг в Reuse Table. Варианты: DOWNLOAD (загрузить), REUSE (использовать копию) или REUSE IF NOT MODIFIED SINCE (условная загрузка).
URL Schedulers (Планировщики URL): Распределенные компоненты, отвечающие за выбор и приоритизацию URL для следующего цикла сканирования.
URL Status File (Файл статуса URL): Хранилище данных о состоянии URL, содержащее информацию о предыдущих статусах сканирования (ошибки, недоступность).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему планирования.

Система хранит идентификаторы документов (URL) и данные о статусе (Status Data) из предыдущих сканирований.
Множество планировщиков выбирают подмножество URL для сканирования.
Планировщики рассчитывают Priority Scores и планируют сканирование на основе этих оценок И Status Data.
Ключевой аспект: Планирование включает удаление URL, которые были недоступны (unreachable) или имели ошибки загрузки (download errors) в нескольких последовательных предыдущих сканированиях (plurality of consecutive prior crawls).
Планировщики определяют URL, контент которых будет повторно использован (reused) на основе исторических данных.
Документы для повторного использования извлекаются из локального репозитория, а не с веб-хостов.

Claim 5 (Зависимый от 1): Детализирует расчет Priority Score.

Оценка приоритета рассчитывается с использованием функции: $Priority Score_i = Page\_Importance_i * Boost\_Factor_i$ . Boost Factor используется для повышения или понижения приоритета.

Claim 8 (Зависимый от 6): Описывает применение ограничений.

После выбора приоритизированных URL, из этого списка удаляются URL в соответствии с одним или несколькими Scheduler Limits (например, лимиты мощности хоста или домена).

Где и как применяется

Изобретение является центральным компонентом этапа CRAWLING – Сканирование и Сбор данных. Оно определяет всю логику планирования работы краулера (Googlebot).

CRAWLING – Сканирование и Сбор данных
URL Schedulers определяют план сканирования (Crawl Scheduling) и управляют бюджетом (Crawl Budget Management). Они решают, что именно Robots будут загружать.

INDEXING – Индексирование и извлечение признаков
Система планирования использует данные, сгенерированные на этапе индексирования предыдущих циклов:

Page Importance Scores (например, PageRank), рассчитанные Page Rankers.
History Logs и URL Status Files, созданные Content Processing Servers.

Входные данные:

Списки URL из предыдущего цикла сканирования.
URL Status Files (история ошибок и доступности).
Page Importance scores (PageRank).
History Logs (контрольные суммы контента, временные метки).
Scheduler Limits (параметры мощности) и Boost Factors.

Выходные данные:

Schedule Output File (приоритизированный список URL для сканирования).
Reuse Table (инструкции по повторному использованию).
Unscheduled URLs File (опционально, список URL, не попавших в расписание).

На что влияет

Крупные сайты: Наибольшее влияние оказывается на крупные сайты (e-commerce, порталы), где ограничения краулингового бюджета наиболее заметны. Scheduler Limits и приоритизация играют ключевую роль в том, какая часть сайта будет обновлена.
Техническое состояние: Сайты с низкой технической надежностью страдают из-за механизмов фильтрации ошибок.
Свежесть контента: Механизм Reuse напрямую влияет на частоту обновления контента в индексе. Важные страницы обновляются часто, неважные и неизменные — редко.

Когда применяется

Частота применения: Процесс планирования выполняется периодически, перед началом каждого цикла сканирования (epoch или crawl cycle).
Триггеры и пороги: Система использует несколько пороговых значений:
- Порог X: Количество последовательных неудачных сканирований (ошибки/недоступность) для удаления URL из расписания.
- Пороги важности (Threshold 1 и 2): Определяют логику Reuse (всегда загружать vs условно загружать).
- Порог Y: Максимальное количество последовательных повторных использований (Reuse) перед принудительной загрузкой.

Пошаговый алгоритм

Система состоит из двух основных процессов: Процесс А (Планирование URL) и Процесс Б (Определение повторного использования).

Процесс А: Планирование URL (URL Scheduler)

Получение исходного списка: Извлекается список URL, запланированных в предыдущем цикле.
Фильтрация ошибок: Удаляются URL, которые были недоступны или выдавали ошибки в течение последних X последовательных сканирований. Информация берется из URL Status File.
Применение исключений: Применяются дополнительные фильтры (Exception Filters), например, удаление спама.
Расчет приоритета: Для оставшихся URL рассчитывается Priority Score по формуле: $Page\_Importance * Boost\_Factor$ .
Сортировка и Выбор Топ-N: URL сортируются по Priority Score, выбираются первые N URL (N резервирует часть мощности для новых ссылок).
Применение лимитов мощности: Применяются Scheduler Limits (например, не более K документов с одного хоста/домена).
Запись результата: Итоговый список записывается в Schedule Output File.

Процесс Б: Определение повторного использования (Reuse Server)

Анализ URL: Обработка списка URL с использованием History Logs.
Проверка Порога 1 (Высокая важность): Если Page Importance > Threshold 1.
- Установить Reuse Type = DOWNLOAD.
Проверка Порога 2 (Средняя важность): Если Page Importance > Threshold 2.
- Если последнее сканирование было из веба: Установить Reuse Type = REUSE UNLESS MODIFIED SINCE (условная загрузка).
- Если последнее сканирование было из репозитория (Reuse): Установить Reuse Type = DOWNLOAD.
Проверка истории изменений: Если важность низкая. Анализируется история Content Checksum за определенный период (например, 45 дней).
- Если контент менялся: Установить Reuse Type = DOWNLOAD.
Проверка частоты Reuse: Если контент не менялся. Проверяется, использовался ли URL повторно в последних Y сканированиях.
- Если ДА (лимит достигнут): Установить Reuse Type = DOWNLOAD (принудительное обновление).
- Если НЕТ: Установить Reuse Type = REUSE.
Сохранение результата: Запись URL и его Reuse Type в Reuse Table.

Какие данные и как использует

Данные на входе

Технические факторы:
- URL (и их фингерпринты).
- Данные хоста и домена (для применения Capacity Limits).
- Статус предыдущего сканирования (Crawl Status): коды ошибок (HTTP 4xx), недоступность хоста (unreachable status).
- Source ID: Источник предыдущей загрузки (Веб или Репозиторий).
Ссылочные факторы:
- Page Importance (PageRank). Критически важен для расчета Priority Score и определения логики Reuse.
Временные факторы:
- Timestamps сканирования, история изменений за период.
- Даты модификации документа (для условной загрузки).
Контентные факторы:
- Content Checksum используется для отслеживания изменений контента между сканированиями.

Какие метрики используются и как они считаются

Page Importance: Внешняя метрика (например, PageRank).
Priority Score: Основная метрика планировщика. Формула: $Page\_Importance * Boost\_Factor$ .
Reuse Type: Определяется Reuse Server. Значения: DOWNLOAD, REUSE, REUSE IF NOT MODIFIED SINCE.
Пороговые значения:
- Threshold 1 и 2: Пороги Page Importance для логики Reuse.
- X: Порог последовательных ошибок/недоступности для удаления URL из расписания.
- Y: Лимит последовательных Reuse перед принудительной загрузкой.
- N: Количество URL, выбираемых после сортировки.

PageRank (Page Importance) — главный драйвер сканирования: Патент явно указывает, что Page Importance является основой для Priority Score. Чем выше PageRank, тем выше приоритет и чаще сканирование (и меньше вероятность Reuse).
Критичность технического SEO и стабильности: Система агрессивно удаляет из расписания URL, которые демонстрируют постоянные проблемы (ошибки 4xx или недоступность сервера) в течение нескольких последовательных попыток. Техническое здоровье критично для индексации.
Стратегическое повторное использование контента (Reuse): Google экономит ресурсы за счет Reuse. Логика зависит от важности и истории изменений: высоковажные страницы почти всегда загружаются заново; низковажные, статичные страницы часто используются повторно.
Управление Crawl Budget через лимиты: Система активно управляет нагрузкой с помощью Scheduler Limits (лимиты на хост/домен). Это объясняет, почему на крупных сайтах не все страницы сканируются одновременно, даже если они приоритетны.
Защита от "заморозки" контента: Существует механизм принудительного обновления даже для статичных страниц после Y циклов Reuse, что гарантирует периодическую проверку актуальности.
Boost Factors как инструмент корректировки: Система предусматривает возможность искусственной корректировки приоритета сканирования для определенных URL или сайтов (например, новостных), независимо от их Page Importance.

Best practices (это мы делаем)

Оптимизация внутренней перелинковки и получение внешних ссылок: Поскольку Page Importance (PageRank) напрямую влияет на Priority Score, необходимо стратегически распределять ссылочный вес на ключевые страницы. Это повысит их приоритет сканирования и частоту обновления в индексе.
Обеспечение стабильности сервера и минимизация ошибок: Критически важно мониторить логи сервера и исправлять ошибки (4xx, 5xx). Постоянные ошибки приводят к удалению URL из расписания сканирования (Crawl Schedule) после достижения порога X.
Корректная настройка условных ответов сервера (If-Modified-Since): Для страниц средней важности Google использует механизм REUSE IF NOT MODIFIED SINCE. Корректная настройка заголовков Last-Modified и ETag на сервере позволяет эффективно использовать этот механизм, экономя краулинговый бюджет и ускоряя обработку.
Управление структурой сайта для оптимизации лимитов: Для крупных сайтов важно учитывать Capacity Limits. Избегайте генерации мусорных URL (например, неоптимизированной фасетной навигации), которые могут потреблять лимиты хоста до того, как будут просканированы важные страницы.
Обновление контента для предотвращения нежелательного Reuse: Если страница имеет низкую Page Importance, но требует обновления в индексе, необходимо вносить значимые изменения в контент. Это изменит Content Checksum и заставит систему установить Reuse Type в DOWNLOAD.

Worst practices (это делать не надо)

Игнорирование технических ошибок и нестабильный хостинг: Допущение большого количества ошибок 404 или частая недоступность сервера (5xx, таймауты) приведет к исключению URL из сканирования.
Слабая внутренняя ссылочная структура: Создание глубокой архитектуры или страниц-сирот приведет к низкому Page Importance, низкому приоритету сканирования и частому использованию механизма Reuse.
Некорректная отдача Last-Modified: Отдача неверных дат модификации (например, всегда текущая дата) или некорректная обработка условных запросов мешает работе механизма Reuse, приводя к избыточному сканированию или индексации устаревшего контента.
Ожидание частого сканирования статичного, неважного контента: Если страница не важна (мало ссылок) и контент не меняется, система переключится в режим REUSE для экономии ресурсов.

Стратегическое значение

Этот патент подтверждает фундаментальную связь между ссылочной авторитетностью (PageRank) и поведением краулера. PageRank используется не только для ранжирования, но и является основным сигналом для планирования сканирования. Для Senior SEO-специалистов это подчеркивает необходимость интеграции стратегий по управлению ссылочным весом с технической оптимизацией сайта для достижения максимальной эффективности индексации и управления краулинговым бюджетом.

Практические примеры

Сценарий 1: Медленное обновление карточки товара в индексе (E-commerce)

Ситуация: Карточка товара имеет мало внутренних ссылок (низкий Page Importance). Цена изменилась, но в индексе Google старая информация.
Объяснение по патенту: Из-за низкого Page Importance и, возможно, незначительного изменения Content Checksum, Reuse Server установил Reuse Type = REUSE. Система экономит ресурсы.
Решение: Увеличить Page Importance страницы через улучшение внутренней перелинковки (блоки похожих товаров, ссылки из категорий). Это повысит Priority Score и увеличит вероятность перевода страницы в режим DOWNLOAD или Conditional Reuse.

Сценарий 2: Резкое снижение количества сканируемых страниц после сбоя сервера

Ситуация: После длительного сбоя, когда сервер отдавал ошибки 503, количество сканируемых страниц в день резко упало.
Объяснение по патенту: URL Scheduler зафиксировал несколько последовательных ошибок сканирования (превышен порог X) и исключил URL из активного расписания согласно Claim 1.
Решение: Немедленно стабилизировать работу сервера и устранить ошибки 503. Планировщик постепенно вернет URL в расписание, как только убедится в надежности хоста и счетчик последовательных ошибок сбросится.

Как именно PageRank влияет на сканирование согласно этому патенту?

PageRank (упомянутый как пример Page Importance) является основным компонентом для расчета Priority Score. Чем выше Page Importance, тем выше приоритет URL в очереди на сканирование. Кроме того, он используется в логике Reuse: очень важные страницы (выше Threshold 1) чаще загружаются заново (DOWNLOAD), тогда как неважные страницы чаще используются повторно (REUSE).

Что происходит, если мой сервер был временно недоступен или отдавал ошибки?

Если недоступность была кратковременной, URL сохранит свой приоритет. Однако, если URL был недоступен (unreachable) или выдавал ошибки в течение нескольких последовательных попыток сканирования (порог X), планировщик удалит его из расписания следующего цикла. Техническая стабильность критична.

Как заставить Google быстрее обновить страницу с низкой важностью (PageRank)?

Для страниц с низкой важностью часто применяется механизм Reuse. Чтобы принудительно перевести её в режим DOWNLOAD, необходимо внести существенные изменения в контент, что изменит Content Checksum. Если это невозможно, единственным надежным способом является повышение Page Importance страницы через улучшение перелинковки.

Что такое Boost Factor и можем ли мы на него влиять?

Boost Factor — это множитель, который позволяет Google искусственно повышать или понижать приоритет сканирования. В патенте приводятся примеры повышения для главных страниц крупных компаний или новостных сайтов. Прямого способа влияния на этот фактор для SEO-специалистов нет, это внутренний механизм Google.

Что такое Scheduler Limits (Capacity Limits) и как они связаны с Crawl Budget?

Scheduler Limits — это ограничения на количество URL, которые можно сканировать с одного хоста или домена. Они применяются после приоритизации для управления нагрузкой. Это прямое инфраструктурное воплощение краулингового бюджета. Если вы достигаете этих лимитов, необходимо оптимизировать производительность сервера или структуру сайта.

Как система определяет, что контент изменился?

Система использует Content Checksum, который рассчитывается при каждом сканировании и сохраняется в History Logs. Сравнивая контрольные суммы, Reuse Server определяет факт изменения контента. Также может использоваться условный запрос к серверу (If-Modified-Since).

Если страница долго не менялась, Google перестанет её сканировать?

Не совсем. Система переведет её в режим REUSE. Однако в патенте предусмотрен механизм защиты: если страница использовалась повторно Y раз подряд (например, 3 раза), то в следующем цикле ей принудительно будет присвоен тип DOWNLOAD для проверки актуальности.

Насколько важна корректная настройка заголовков Last-Modified и ETag?

Она очень важна, особенно для страниц средней важности. Для них система может применять REUSE IF NOT MODIFIED SINCE. Корректные заголовки позволяют роботу быстро проверить актуальность контента без загрузки всего документа (ответ 304 Not Modified), что экономит краулинговый бюджет и ускоряет сканирование.

Влияет ли этот патент на сканирование новых (впервые обнаруженных) URL?

Патент фокусируется на планировании сканирования уже известных URL. Однако он упоминает, что при выборе Топ-N URL планировщик резервирует часть мощности краулера. Эта зарезервированная мощность используется для сканирования вновь обнаруженных ссылок.

Что важнее для Crawl Budget: скорость сервера или количество ссылок (PageRank)?

Оба фактора критичны. Количество ссылок (Page Importance) определяет спрос на сканирование и приоритет (Priority Score). Скорость и стабильность сервера определяют предложение (Scheduler Limits и фильтрация ошибок). Необходимо оптимизировать оба аспекта для достижения максимального бюджета сканирования.

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита

Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

US7725452B1
2010-05-25

Краулинг
Индексация
Свежесть контента

Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования

Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.

US7769742B1
2010-08-03

Краулинг
Техническое SEO
Свежесть контента

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг
Техническое SEO
Индексация

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

US8386459B1
2013-02-26

Краулинг
Свежесть контента
Техническое SEO

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google переносит поведенческие сигналы через ссылки для повышения в ранжировании первоисточников контента

Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.

US8959093B1
2015-02-17

Поведенческие сигналы
Ссылки
SERP

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования

Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.

US9436742B1
2016-09-06

Персонализация
Поведенческие сигналы
SERP

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах

Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.

US20130144836A1
2013-06-06

Ссылки
Индексация
Техническое SEO

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей

Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.

US8498974B1
2013-07-30

Поведенческие сигналы
Мультиязычность
Персонализация

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

US8825646B1
2014-09-02

Ссылки

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования

Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.

US7925498B1
2011-04-12

Семантика и интент
Поведенческие сигналы

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска

Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.

US20170277702A1
2017-09-28

Семантика и интент
Local SEO
Персонализация

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа