Как Google итеративно рендерит веб-страницы, собирая недостающие ресурсы (JS, CSS, изображения) для индексации

ITERATIVE OFF-LINE RENDERING PROCESS (Итеративный офлайн-процесс рендеринга)

US8346755B1
Google LLC
2010-05-04
2013-01-01

Патент описывает инфраструктуру Google для рендеринга веб-страниц в масштабах всего интернета. Вместо того чтобы запрашивать все внешние ресурсы (JS, CSS, изображения) в реальном времени, система использует итеративный подход. Если ресурс не найден в базе данных, процесс рендеринга останавливается, ресурс ставится в очередь на сканирование, и рендеринг перезапускается только после того, как все необходимое будет собрано. Это обеспечивает точное отображение страницы без перегрузки внешних серверов.

Какую проблему решает

Патент решает фундаментальную инфраструктурную проблему: как эффективно и безопасно рендерить веб-страницы в масштабах всего интернета (миллиарды страниц) для целей индексации. Проблема заключается в том, что для полного рендеринга требуются внешние ресурсы (embedded objects), такие как JavaScript, CSS и изображения. Если система индексации будет запрашивать эти ресурсы в режиме реального времени для тысяч страниц одновременно, это приведет к перегрузке (DDoS-атаке) серверов, на которых размещены эти ресурсы. Патент предлагает механизм для асинхронного сбора ресурсов и рендеринга без перегрузки сети, а также решает проблемы консистентности и обработки динамических URL (Cache-Busting URLs).

Что запатентовано

Запатентована система итеративного офлайн-рендеринга веб-страниц. Ключевая особенность — разделение процессов сканирования и рендеринга. Система пытается отрендерить страницу, используя уже просканированные ресурсы. Если необходимый встроенный объект отсутствует в базе данных, процесс рендеринга прерывается, а отсутствующий объект ставится в очередь на сканирование. Рендеринг страницы перезапускается только после того, как отсутствовавший ресурс будет просканирован.

Как это работает

Система состоит из трех основных компонентов:

Web Crawling Engine: Сканирует веб-страницы и встроенные объекты, сохраняя их контент и время сканирования (Crawl Time) в базу данных.
Scheduling Engine: Управляет процессом. Он отправляет контент страницы в Rendering Engine. Когда Rendering Engine запрашивает встроенный объект, Scheduling Engine проверяет его наличие в базе. Если объект есть, он отправляется рендереру. Если нет, Scheduling Engine останавливает рендеринг и поручает Web Crawling Engine просканировать объект. После сканирования процесс рендеринга исходной страницы инициируется заново.
Rendering Engine: Пытается собрать страницу. Он обнаруживает и запрашивает все встроенные объекты (включая вложенные). Он также нормализует динамические URL (Cache-Busting URLs), заменяя случайные числа или текущее время на константы или время сканирования основной страницы, чтобы обеспечить консистентность. Рендеринг завершается только тогда, когда все ресурсы получены.

Актуальность для SEO

Высокая. Рендеринг страниц с исполнением JavaScript является критически важной частью современного процесса индексирования Google (Web Rendering Service - WRS). Описанная в патенте инфраструктура, обеспечивающая эффективное управление ресурсами и итеративный сбор данных, остается фундаментально актуальной для работы поисковых систем в масштабе интернета.

Важность для SEO

Патент имеет среднее значение для SEO-стратегии, но критически важен для технического SEO. Он не описывает факторы ранжирования, но детально раскрывает инфраструктуру и логику процесса рендеринга. Понимание этого механизма объясняет, почему Google может не видеть страницу так же, как браузер, если критически важные ресурсы (JS, CSS) заблокированы от сканирования, медленно загружаются или недоступны. Это напрямую влияет на индексацию контента, особенно для сайтов, полагающихся на JavaScript (SPA/PWA).

Термины и определения

Cache-Busting URLs (URL для обхода кэша): URL встроенных объектов, которые динамически генерируются при каждой загрузке страницы, часто включая случайное число или текущую временную метку. Система нормализует их для консистентного рендеринга.
Crawl Time (Время сканирования): Временная метка, когда контент веб-страницы или объекта был сканирован. Критически важен для обеспечения консистентности рендеринга и для обработки динамических URL.
Embedded Object (Встроенный объект): Внешний ресурс, необходимый для рендеринга веб-страницы. Примеры: JavaScript-код, CSS, изображения, другие веб-страницы (например, в iframe). Объекты могут быть вложенными.
Iterative Off-line Rendering (Итеративный офлайн-рендеринг): Процесс рендеринга, при котором система многократно пытается собрать страницу, прерываясь для сканирования отсутствующих ресурсов и перезапускаясь после их получения.
Rendering Engine (Движок рендеринга): Компонент, который визуализирует страницу в образ (image file), аналогично веб-браузеру. Он обнаруживает и запрашивает встроенные объекты и нормализует динамические URL.
Scheduling Engine (Движок планирования): Оркестратор процесса. Он передает контент между сканером и рендерером, обрабатывает запросы на встроенные объекты, управляет итеративным процессом и инициирует сканирование отсутствующих объектов.
Web Crawling Engine (Движок веб-сканирования): Компонент, отвечающий за загрузку (сканирование) веб-страниц и встроенных объектов из интернета.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную архитектуру системы.

Web Crawling Engine сканирует страницу и сохраняет контент и Crawl Time в репозиторий.
Rendering Engine рендерит страницу в файл изображения, когда все объекты получены.
Scheduling Engine координирует процесс:
- Получает запрос от Rendering Engine на встроенный объект.
- Определяет, хранится ли контент объекта в репозитории.
- Если ДА: отправляет контент в Rendering Engine.
- Если НЕТ: планирует сканирование объекта с помощью Web Crawling Engine.

Система разделяет сканирование и рендеринг. Рендеринг зависит от наличия данных в репозитории. Если данных нет, инициируется сканирование, а не запрос в реальном времени.

Claim 5 (Зависимый от 1): Уточняет действие при отсутствии ресурса.

Если контент встроенного объекта не хранится в репозитории, Scheduling Engine инструктирует Rendering Engine прервать (exit) процесс рендеринга веб-страницы.

Подтверждается, что рендеринг полностью останавливается, если ресурс недоступен в базе.

Claim 10 (Независимый пункт): Описывает метод рендеринга с точки зрения итеративного процесса.

Итеративно, пока все объекты не получены Rendering Engine:
- Отправляется запрос на контент объекта от Rendering Engine к Scheduling Engine.
- Проверяется, получил ли Rendering Engine контент.
- Если НЕТ: процесс рендеринга прерывается (exiting the rendering process), и планируется сканирование объекта.
Веб-страница рендерится в файл изображения только после того, как контент всех объектов получен.

Фокус на итеративной природе: процесс повторяется до тех пор, пока не будут удовлетворены все зависимости.

Claim 12 (Зависимый от 10): Описывает обработку динамических URL (Cache-Busting).

Система определяет, генерируется ли URL объекта динамически (возвращая разный URL при каждом обнаружении). Если ДА: система генерирует один и тот же URL (generating the same URL) для этого объекта каждый раз.

Это критически важный механизм нормализации, позволяющий распознавать один и тот же ресурс, даже если его URL постоянно меняется.

Claim 13 и 14 (Зависимые от 12): Уточняют метод нормализации для URL, зависящих от времени.

Если URL генерируется на основе текущего времени, система генерирует URL, используя время, основанное на Crawl Time самой веб-страницы. Это время может быть получено путем округления Crawl Time до ближайшего кратного предопределенного значения.

Claim 15 (Зависимый от 12): Уточняет метод нормализации для URL, зависящих от случайных чисел.

Если URL генерируется на основе случайного числа, система генерирует URL, используя одно и то же фиксированное число вместо случайного каждый раз.

Где и как применяется

Изобретение является инфраструктурным и охватывает два ключевых этапа поиска.

CRAWLING – Сканирование и Сбор данных
Web Crawling Engine активно используется для первоначального сканирования HTML-страницы. Затем, по запросу от Scheduling Engine, он используется для сканирования любых отсутствующих встроенных ресурсов (JS, CSS, изображения и т.д.).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Описанный процесс является реализацией этапа Рендеринга (Web Rendering Service или WRS) внутри конвейера индексирования. Rendering Engine исполняет код и создает визуальное представление страницы, которое затем используется для анализа контента и извлечения признаков.

Входные данные:

Контент (HTML) просканированной веб-страницы.
Время сканирования (Crawl Time) веб-страницы.
База данных ранее просканированных встроенных объектов.

Выходные данные:

Файл изображения (Image File) — полностью отрендеренная версия веб-страницы.
Запросы на сканирование отсутствующих встроенных объектов.

На что влияет

Типы контента и форматы: Особенно критичен для страниц, которые сильно зависят от внешних ресурсов для своего отображения — например, страниц, использующих JavaScript для загрузки контента (SPA/PWA), или страниц со сложным дизайном, зависящим от CSS.
Встроенные объекты: Напрямую влияет на обработку JavaScript, CSS, изображений, iframe, API-запросов и других внешних ресурсов.
Технические аспекты: Влияет на то, как система обрабатывает динамически генерируемые URL (Cache-Busting URLs).

Когда применяется

Алгоритм применяется во время процесса индексирования для любой веб-страницы, которую система решает отрендерить.

Триггеры активации итерации: Повторно активируется для той же страницы, если предыдущая попытка рендеринга была прервана из-за отсутствия ресурсов, и эти ресурсы были впоследствии просканированы.
Условия работы: Рендеринг завершается только при условии, что 100% необходимых встроенных объектов доступны в базе данных сканирования. В противном случае он прерывается.

Пошаговый алгоритм

A. Логика Scheduling Engine (Планировщик)

Получение данных: Получение контента и Crawl Time веб-страницы.
Сохранение состояния (Опционально): Сохранение контента и Crawl Time в локальную базу данных планировщика (Scheduling Database) для обеспечения консистентности версии.
Инициация рендеринга: Отправка контента и Crawl Time в Rendering Engine.
Обработка запросов ресурсов: Ожидание запросов на встроенные объекты от Rendering Engine.
Проверка наличия ресурса: Поиск контента запрошенного объекта в базе данных сканирования.
Ответ на запрос:
- Если найдено: Отправка контента объекта в Rendering Engine. Переход к шагу 4.
- Если не найдено:
  - Инструкция Rendering Engine прервать процесс (или ожидание тайм-аута).
  - Планирование сканирования отсутствующего объекта с помощью Web Crawling Engine.
Перезапуск (Итерация): После получения уведомления о том, что объект просканирован, возврат к шагу 3 для повторной попытки рендеринга исходной страницы.
Завершение: Если Rendering Engine завершает работу успешно, процесс планирования завершен.

B. Логика Rendering Engine (Рендерер)

Получение данных: Получение контента и Crawl Time страницы от Scheduling Engine.
Анализ и обнаружение объектов: Парсинг контента и определение наличия встроенных объектов.
Обработка объектов: Для каждого обнаруженного объекта:
- Нормализация URL: Проверка, является ли URL динамически генерируемым (Cache-Busting).
  - Если ДА (зависит от времени): Генерация URL с использованием округленного Crawl Time страницы.
  - Если ДА (зависит от случайного числа): Генерация URL с использованием предопределенной константы.
- Запрос объекта: Отправка запроса на нормализованный URL объекта в Scheduling Engine.
Ожидание ресурсов:
- Если ресурс не получен (тайм-аут или инструкция от планировщика): Прерывание процесса рендеринга.
- Если ресурс получен: Переход к шагу 5.
Анализ вложенности: Проверка, содержат ли только что полученные объекты свои собственные встроенные объекты (например, CSS ссылается на изображение).
- Если ДА: Возврат к шагу 3 для обработки вложенных объектов.
Финальный рендеринг: Когда все объекты (включая вложенные) получены, рендеринг веб-страницы в файл изображения.
Сохранение: Сохранение файла изображения в Image Indexing Database.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре рендеринга и использует следующие типы данных:

Контентные факторы: HTML-код веб-страницы, контент встроенных объектов (JavaScript, CSS, изображения).
Технические факторы: URL встроенных объектов. Система анализирует структуру URL для выявления динамической генерации (Cache-Busting URLs).
Временные факторы: Crawl Time (время сканирования) основной веб-страницы. Это критически важный элемент, используемый для обеспечения консистентности рендеринга и нормализации динамических URL, зависящих от времени.

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования, но описывает конкретные методы обработки данных для рендеринга:

Нормализация времени: Для URL, зависящих от времени, используется формула округления Crawl Time страницы. $Time_{normalized} = RoundDown(CrawlTime_{page}, PredefinedValue)$ . В описании патента приведен пример PredefinedValue равный 2 дням (172,800 секунд).
Нормализация случайных чисел: Для URL, зависящих от случайных чисел, используется замена случайного значения на константу. $RandomNumber \rightarrow Constant$ (в описании приведен пример 0.27832434).
Условия завершения: Рендеринг завершается только тогда, когда 100% запрошенных ресурсов получены. Отсутствие хотя бы одного ресурса приводит к прерыванию процесса.

Итеративный подход к рендерингу: Google не обязательно рендерит страницу за один раз. Процесс является итеративным: если ресурсы отсутствуют, рендеринг прерывается, ресурсы ставятся в очередь на сканирование, и попытка повторяется позже. Это объясняет задержки в индексации.
Критичность доступности ресурсов: Для полного рендеринга страницы абсолютно все встроенные ресурсы (JS, CSS, изображения, запросы API, описанные как Embedded Objects) должны быть доступны для сканирования. Отсутствие даже одного ресурса остановит текущую попытку рендеринга (Claim 5).
Разделение сканирования и рендеринга: Рендеринг использует только те ресурсы, которые уже находятся в базе данных Google. Система не выполняет внешние запросы в реальном времени во время рендеринга, чтобы избежать перегрузки внешних серверов.
Обработка динамических URL (Cache-Busting): Google активно нормализует динамически генерируемые URL (Claim 12). Система заменяет случайные числа на константы и текущее время на фиксированное время, основанное на Crawl Time HTML-документа. Это обеспечивает детерминированный и консистентный рендеринг.
Консистентность версии страницы: Система стремится отрендерить страницу в том состоянии, в котором она была на момент сканирования (Crawl Time), используя Scheduling Database для сохранения этой версии, даже если страница часто обновляется.

Best practices (это мы делаем)

Обеспечение доступности всех ресурсов для сканирования: Убедитесь, что все критически важные для отображения контента ресурсы (JavaScript, CSS, изображения, шрифты, API-запросы) не заблокированы в robots.txt. Блокировка приведет к тому, что Google не увидит страницу корректно.
Оптимизация краулингового бюджета и скорости ресурсов: Поскольку отсутствующие ресурсы ставятся в отдельную очередь на сканирование (Claim 1), важно, чтобы сервер отдавал их быстро. Это ускорит их попадание в базу данных Google и, следовательно, ускорит финальный рендеринг страницы.
Оптимизация цепочек запросов (Request Chains): Сокращайте количество и сложность вложенных зависимостей ресурсов. Чем сложнее цепочка (HTML -> JS -> CSS -> Image), тем больше вероятность задержек индексации из-за необходимости нескольких итераций рендеринга.
Использование консистентных URL (Content Fingerprinting): Хотя система умеет нормализовывать динамические URL (Claim 12), лучше полагаться на стабильные URL для основных файлов JS/CSS. Предпочтительнее использовать отпечатки контента в имени файла (например, app.a1b2c3.js), а не динамические параметры запроса (app.js?v=12345).
Мониторинг ошибок сканирования ресурсов: Регулярно проверяйте отчеты GSC и логи сервера на предмет ошибок сканирования JavaScript, CSS или изображений. Каждая такая ошибка означает, что рендеринг страниц, использующих этот ресурс, был прерван.

Worst practices (это делать не надо)

Блокировка JS и CSS в robots.txt: Это напрямую противоречит механизму. Система не сможет собрать необходимые Embedded Objects и не завершит рендеринг.
Использование случайных чисел или текущего времени в URL основных ресурсов: Это создает Cache-Busting URLs. Хотя Google пытается их нормализовать (Claims 13-15), это усложняет процесс и может привести к ошибкам сопоставления ресурсов, если логика генерации слишком сложна.
Игнорирование скорости загрузки ресурсов: Медленная отдача ресурсов замедлит их сканирование Web Crawling Engine, что задержит их попадание в базу данных и, как следствие, отложит успешный рендеринг страницы из-за итеративной природы процесса.
Размещение критического контента в нестабильных внешних источниках: Если контент загружается через JS с внешнего API, этот API рассматривается как Embedded Object. Если он недоступен или медленно отвечает, рендеринг будет прерван.

Стратегическое значение

Этот патент подчеркивает фундаментальные инфраструктурные вызовы, с которыми сталкивается Google при индексировании современного интернета, особенно с учетом распространения JavaScript-фреймворков. Для SEO-специалистов это подтверждает, что техническая оптимизация доступности и скорости загрузки ресурсов — это необходимое условие для корректной индексации. Понимание итеративного процесса рендеринга помогает диагностировать проблемы: контент может быть не проиндексирован не потому, что он некачественный, а потому, что Google буквально не смог его "увидеть" из-за отсутствия необходимых ресурсов во время попытки рендеринга.

Практические примеры

Сценарий: Диагностика проблем с индексацией JavaScript-контента (SPA)

Проблема: Основной контент товара на сайте электронной коммерции (SPA) не индексируется. Контент загружается через JavaScript, делающий запрос к внутреннему API.
Анализ по патенту: Rendering Engine пытается исполнить JavaScript. Запрос к API рассматривается как запрос на Embedded Object. Если ответ API отсутствует в базе, Scheduling Engine прерывает рендеринг и ставит URL API в очередь на сканирование.
Действия SEO-специалиста:
- Проверить, доступен ли URL API для сканирования (не заблокирован ли в robots.txt).
- Проверить логи сервера, чтобы убедиться, что Googlebot успешно сканирует URL API (HTTP статус 200) и скорость ответа высокая.
Ожидаемый результат: После обеспечения доступности и быстрой загрузки API, Web Crawling Engine просканирует его. При следующей итерации рендеринга Rendering Engine успешно получит данные и контент будет проиндексирован.

Сценарий: Обработка скриптов аналитики с динамическими URL

Проблема: Сайт использует сторонний скрипт отслеживания, который генерирует запросы с временной меткой в URL (например, /track?t=1727197271) для обхода кэша.
Анализ по патенту: Rendering Engine обнаруживает этот Cache-Busting URL (Claim 12). Чтобы не сканировать его как новый ресурс при каждом рендеринге, он применяет нормализацию (Claim 13). Он заменяет текущее время t на округленное время сканирования основного HTML документа.
Действия SEO-специалиста: Понимать, что такие скрипты не должны мешать рендерингу, так как Google имеет механизмы для их обработки. Не нужно предпринимать специальных действий, но важно убедиться, что эти скрипты не блокируют основной поток рендеринга.

Означает ли этот патент, что Google рендерит каждую страницу несколько раз?

Не обязательно, но это возможно. Если все необходимые ресурсы (JS, CSS, изображения) уже просканированы и находятся в базе данных Google, страница может быть отрендерена за одну попытку. Однако, если какой-либо ресурс отсутствует, процесс рендеринга будет прерван и перезапущен позже, после того как ресурс будет просканирован. Этот итеративный процесс гарантирует полноту рендеринга.

Что произойдет, если заблокировать JavaScript или CSS в robots.txt?

Согласно патенту, JavaScript и CSS являются Embedded Objects. Если они заблокированы, Web Crawling Engine не сможет их просканировать. Когда Rendering Engine запросит эти ресурсы, Scheduling Engine не найдет их в базе данных и прервет процесс рендеринга. В результате Google не сможет увидеть страницу так, как ее видит пользователь, что негативно скажется на индексации.

Как этот итеративный процесс влияет на скорость индексации контента?

Он может значительно замедлить индексацию, особенно для сложных сайтов. Каждая итерация добавляет задержку, так как системе нужно поставить недостающие ресурсы в очередь на сканирование, дождаться их получения, а затем снова запланировать рендеринг всей страницы. Оптимизация цепочек запросов критически важна для ускорения этого процесса.

Что такое "Cache-Busting URLs" и почему Google их нормализует?

Cache-Busting URLs — это URL ресурсов, которые динамически изменяются при каждой загрузке (например, содержат случайное число или временную метку), чтобы обойти кэш браузера. Google нормализует их (заменяя переменные части на константы), чтобы избежать необходимости сканировать один и тот же ресурс снова и снова. Это обеспечивает консистентность рендеринга и экономит ресурсы системы.

Как Google определяет время для нормализации динамических URL?

Патент указывает, что вместо использования текущего времени в момент рендеринга система использует время, основанное на Crawl Time основного HTML-документа. Оно может быть округлено до определенного интервала (например, до двух дней, как указано в описании), чтобы обеспечить стабильность URL для этой конкретной версии страницы.

Влияет ли скорость загрузки JavaScript и CSS на этот процесс?

Да, существенно. Если ресурсы загружаются медленно, Web Crawling Engine потратит больше времени на их сканирование. Поскольку рендеринг страницы не завершится до тех пор, пока все ресурсы не будут просканированы и помещены в базу данных, медленная загрузка ресурсов задерживает финальный рендеринг и индексацию контента страницы.

Обрабатывает ли система ресурсы, загружаемые внутри JavaScript (например, запросы API)?

Да. В патенте указано, что Rendering Engine обнаруживает и запрашивает все встроенные объекты, включая вложенные. Если JavaScript делает запрос к API для получения контента, этот запрос рассматривается как запрос на Embedded Object. Если ответ API отсутствует в базе, рендеринг будет прерван, а URL API поставлен в очередь на сканирование.

Может ли Google отрендерить страницу частично, если не все ресурсы доступны?

Согласно патенту (Claim 10), рендеринг веб-страницы в финальный файл изображения происходит только после того, как контент *всех* встроенных объектов получен. Если хотя бы один объект не получен, процесс прерывается. Это подразумевает, что система стремится к полному, а не частичному рендерингу.

Какое значение этот патент имеет для JavaScript SEO (SPA/PWA)?

Значение критическое. Он детально объясняет, как Google подходит к рендерингу контента, зависящего от JavaScript. Для успеха SPA/PWA необходимо гарантировать, что все JS-бандлы и запросы API быстро загружаются, доступны для сканирования и не содержат ошибок. Итеративный характер процесса объясняет задержки в индексации нового контента на JS-сайтах.

Как этот патент связан с Web Rendering Service (WRS) Google?

Этот патент описывает базовую инфраструктуру и логику, которая лежит в основе Web Rendering Service. WRS — это реализация Rendering Engine, а описанные механизмы планирования (Scheduling Engine) и итеративного сбора ресурсов обеспечивают его масштабируемость и эффективность при обработке миллиардов страниц.

Как Google сканирует, индексирует и ранжирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует виртуальные машины для эмуляции мобильных операционных систем (например, Android). В этой среде запускаются нативные приложения, и система извлекает текст, изображения и структуру непосредственно из процесса рендеринга контента. Это позволяет индексировать внутренние страницы приложений и показывать их в результатах поиска вместе с веб-страницами, реализуя механизм Deep Linking.

US9002821B2
2015-04-07

Индексация
Краулинг
SERP

Как Google использует «Виртуальные часы» и оптимизацию ресурсов для эффективного рендеринга JavaScript-сайтов в масштабах веба

Google использует специализированную архитектуру для рендеринга веб-страниц в пакетном режиме (для индексации). Система применяет «Виртуальные часы», чтобы избежать таймаутов при медленной загрузке ресурсов и ускорить процесс. Также она оптимизирует нагрузку, игнорируя ненужные скрипты (например, аналитику), дедуплицируя ресурсы и используя «Mock Images» (заглушки с размерами) для расчета макета страницы.

US9984130B2
2018-05-29

Индексация

Как Google использует пререндеринг (Prerendering) для мгновенного отображения результатов поиска

Google ускоряет отображение поисковой выдачи, заранее загружая и отрисовывая (пререндеринг) структуру страницы результатов (SERP) в фоновом режиме. Когда пользователь вводит запрос (например, в адресной строке браузера), он передается на уже готовую страницу через API, что позволяет мгновенно показать результаты без задержек на загрузку интерфейса.

US9104664B1
2015-08-11

SERP

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google анализирует рендеринг страницы (DOM и CSS) для обнаружения скрытого текста и ссылок

Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент пользователю. Это позволяет обнаруживать и игнорировать манипуляции (спам), такие как текст цветом фона или позиционирование за пределами экрана.

US8392823B1
2013-03-05

Антиспам
Структура сайта
Индексация

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента

Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.

US8412699B1
2013-04-02

Свежесть контента
Поведенческие сигналы
SERP

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

US8090736B1
2012-01-03

Ссылки
SERP
Структура сайта