Как Google использует «Виртуальные часы» и оптимизацию ресурсов для эффективного рендеринга JavaScript-сайтов в масштабах веба

BATCH-OPTIMIZED RENDER AND FETCH ARCHITECTURE UTILIZING A VIRTUAL CLOCK (Архитектура рендеринга и выборки, оптимизированная для пакетной обработки с использованием виртуальных часов)

US9984130B2
Google LLC
2014-10-22
2018-05-29

Индексация

Google использует специализированную архитектуру для рендеринга веб-страниц в пакетном режиме (для индексации). Система применяет «Виртуальные часы», чтобы избежать таймаутов при медленной загрузке ресурсов и ускорить процесс. Также она оптимизирует нагрузку, игнорируя ненужные скрипты (например, аналитику), дедуплицируя ресурсы и используя «Mock Images» (заглушки с размерами) для расчета макета страницы.

Какую проблему решает

Патент решает проблему эффективности, надежности и масштабируемости рендеринга огромного количества веб-страниц (триллионы) в пакетном режиме (batch process), например, для индексации поисковой системой. Стандартный рендеринг неэффективен в масштабах веба из-за высокой латентности сети (fetch latency), частых таймаутов ожидания ресурсов и загрузки избыточного или ненужного контента (например, скриптов аналитики или тяжелых изображений).

Что запатентовано

Запатентована архитектура рендеринга и выборки, оптимизированная для пакетной обработки. Ключевым элементом является использование Virtual Clock (Виртуальных часов) в механизме рендеринга. Эти часы останавливаются во время ожидания загрузки ресурсов и выполнения задач, что позволяет избежать таймаутов и ускорить процесс. Также система включает оптимизированный Fetch Server, который использует правила перезаписи (Rewrite Rules) для дедупликации, черные списки (Blacklists) для игнорирования ненужного контента и Mock Images для ускорения расчета макета.

Как это работает

Система работает следующим образом:

Инициализация: Пакетный процесс (например, индексатор) запрашивает рендеринг. Rendering Engine инициализирует Virtual Clock и список задач (Task List), включая финальную задачу остановки (Stop Task) через заданное время (например, 20 секунд виртуального времени).
Работа Virtual Clock: Пока система ожидает ресурсы или выполняет задачи (например, исполняет JavaScript), Virtual Clock стоит на месте. Это скрывает задержки сети и предотвращает таймауты. Когда система простаивает, Virtual Clock перематывается вперед ко времени следующей задачи.
Оптимизация выборки: Ресурсы запрашиваются у Fetch Server. Сервер применяет URL Rewrite Rules для выявления дубликатов (например, Cache-Busting URLs) или блокировки ненужных скриптов. Для изображений часто возвращаются только размеры (Mock Image), а не пиксельные данные.
Завершение: Рендеринг завершается, когда Virtual Clock достигает времени Stop Task. Генерируется результат рендеринга (Rendering Result), включающий DOM, макет и ошибки.

Актуальность для SEO

Высокая. Рендеринг JavaScript-контента является критически важным компонентом современного поиска Google (Web Rendering Service - WRS). Описанные механизмы оптимизации необходимы для обработки динамических сайтов в масштабах интернета. Принципы, заложенные в патенте, лежат в основе того, как Googlebot обрабатывает и понимает современные веб-приложения.

Важность для SEO

Патент имеет критическое значение для технического SEO, особенно для сайтов, полагающихся на JavaScript (SPA/PWA). Он не описывает факторы ранжирования, но детально раскрывает инфраструктуру, которую Google использует для рендеринга. Понимание механизмов Virtual Clock, Stop Task и оптимизации выборки (игнорирование скриптов, Mock Images) позволяет точно понять, как Googlebot видит страницу, какие ресурсы он загружает и какие ограничения применяет во время рендеринга для индексации.

Термины и определения

Batch Process (Пакетный процесс): Автоматизированный процесс, обрабатывающий большое количество данных одновременно (например, индексация веб-страниц), а не в реальном времени.
Blacklisted URL (URL в черном списке): URL ресурса, который система намеренно не загружает, так как он признан ненужным для целей пакетного рендеринга (например, скрипты аналитики). При запросе возвращается ошибка.
Fetch Server (Сервер выборки): Компонент, отвечающий за получение встроенных ресурсов по запросу Rendering Engine. Управляет кэшированием, применением правил перезаписи и взаимодействием с краулером.
Image Dimension Table (Таблица размеров изображений): Хранилище данных, содержащее только размеры (ширину и высоту) изображений, проиндексированное по URL.
Mock Image (Мок-изображение / Заглушка): Файл изображения, имеющий те же размеры, что и оригинальное изображение, но с пустым содержимым. Используется для расчета макета без загрузки реальных пиксельных данных.
Rendering Engine (Механизм рендеринга): Компонент, эмулирующий ядро браузера, оптимизированный для пакетного рендеринга. Использует Virtual Clock.
Rendering Result (Результат рендеринга): Итоговый набор данных после рендеринга: финальный DOM, макет (Layout/Render Tree), изображение страницы, список загруженных ресурсов, ошибки JavaScript.
Rewrite Rules (Правила перезаписи URL): Набор правил, используемых Fetch Server для нормализации URL. Позволяют идентифицировать дублирующийся контент (например, из-за параметров сброса кэша — Cache-Busting URLs) или ресурсы в черном списке.
Stop Task (Задача остановки): Финальная задача в Task List, запланированная на определенное время (например, 20 секунд). По достижении этого времени рендеринг завершается.
Task List (Список задач): Очередь задач, которые должен выполнить Rendering Engine (парсинг HTML, выполнение JS, изменение стилей). Каждая задача имеет время выполнения, привязанное к Virtual Clock.
Virtual Clock (Виртуальные часы): Механизм управления временем внутри Rendering Engine. Часы не идут в реальном времени: они стоят на месте во время ожидания выборки ресурсов и выполнения задач и перематываются (перескакивают) вперед во время простоя.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему пакетного рендеринга с оптимизацией выборки (дедупликацией) и использованием виртуальных часов.

Система получает запрос от пакетного процесса на рендеринг страницы.
Инициализируются Virtual Clock и Task List. В список добавляется Stop Task с заданным временем выполнения.
Выполняются задачи согласно Virtual Clock.
Механизм работы Virtual Clock: часы продвигаются вперед путем установки времени следующей задачи в списке; часы остаются неизменными (останавливаются), пока есть задачи, готовые к выполнению в текущее время (или, как указано в описании, ожидается ресурс).
Во время выполнения задач система идентифицирует встроенный ресурс.
Определяется (на основе Rewrite Rule), что контент этого ресурса дублирует контент ранее полученного ресурса.
В ответ предоставляется ранее полученный (кэшированный) контент из хранилища.
Генерируется Rendering Result, когда Virtual Clock достигает времени Stop Task.

Claim 7 (Независимый пункт): Описывает метод пакетного рендеринга с фокусом на механизме Virtual Clock (аналогично Claim 1, но без акцента на дедупликацию).

Получение запроса на рендеринг.
Инициализация Virtual Clock и Task List с добавлением Stop Task.
Выполнение задач с использованием механизма Virtual Clock (остановка во время выполнения/ожидания, перемотка во время простоя).
Генерация Rendering Result по достижении времени Stop Task.

Claim 4 (Зависимый от 1): Описывает механизм черных списков.

Система идентифицирует ресурс и определяет, находится ли он в черном списке (blacklisted). Если да, возвращается ошибка без выборки контента, и рендеринг продолжается без этого ресурса.

Claim 6 (Независимый пункт) и Claim 11 (Зависимый от 7): Описывают использование Mock Images.

Система идентифицирует встроенное изображение и получает в ответ Mock Image, который содержит размеры изображения (взятые из Dimension Table), но пустое содержимое. Этот Mock Image используется при генерации Rendering Result.

Где и как применяется

Изобретение является ключевой частью инфраструктуры сканирования и индексирования Google, обеспечивающей работу Web Rendering Service (WRS).

CRAWLING – Сканирование и Сбор данных
Web-Crawling Engine (Googlebot) собирает сырой контент. Fetch Server взаимодействует с краулером для получения встроенных ресурсов (CSS, JS, Images). Запатентованные механизмы оптимизации (дедупликация, черные списки) снижают нагрузку на краулер и ускоряют сбор данных.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Indexing Engine запрашивает рендеринг у Render Server (WRS). Rendering Engine использует Virtual Clock для быстрого и детерминированного рендеринга страницы. Полученный Rendering Result (включая динамический контент, финальный DOM и Layout) используется индексатором для извлечения признаков и понимания структуры страницы.

Входные данные:

URL и/или сырой HTML контент страницы.
URL Rewrite Rules, кэш ресурсов (Embedded Item Table), Image Dimension Table (используются Fetch Server).

Выходные данные:

Rendering Result: Включает Image (снимок страницы), DOM Tree, Layout (Render Tree), Errors (ошибки JS), список загруженных ресурсов.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на динамический контент, генерируемый с помощью JavaScript (SPA, PWA), и на понимание макета страницы (Layout).
Определенные форматы контента: Влияет на понимание визуальной структуры — расположение блоков, видимость контента, метрики визуальной стабильности (например, CLS).

Когда применяется

Алгоритм применяется всегда, когда поисковая система выполняет рендеринг страницы для индексации.

Условия работы: Наличие встроенных ресурсов, особенно JavaScript, которые влияют на контент или макет.
Ограничения (Stop Task): Рендеринг ограничен предопределенным лимитом виртуального времени. В патенте упоминаются примеры от 5 до 20 секунд, установленные через Stop Task.

Пошаговый алгоритм

Процесс А: Рендеринг страницы (Rendering Engine и Virtual Clock)

Инициализация: Получение запроса. Инициализация Virtual Clock (например, 0 секунд). Создание Task List. Добавление начальных задач и Stop Task (например, 20 секунд).
Цикл выполнения задач: Система повторяет следующие шаги:
1. Проверка ожидающих загрузок (Fetch): Есть ли невыполненные запросы к Fetch Server? Если ДА, Virtual Clock не двигается (система ждет или выполняет другие готовые задачи).
2. Выполнение готовых задач: Есть ли задачи, готовые к выполнению в текущее виртуальное время? Если ДА, они выполняются. Virtual Clock не двигается во время выполнения. Выполнение может порождать новые задачи (например, setTimeout) или запросы к Fetch Server.
3. Перемотка времени (Warping): Если НЕТ ожидающих загрузок и НЕТ готовых задач, Virtual Clock перематывается ко времени следующей запланированной задачи.
Завершение: Если достигнуто время Stop Task, рендеринг завершается.
Финализация: Генерация итогового Rendering Result (DOM, Layout, Errors) и возврат его запрашивающему процессу.

Процесс Б: Обработка запроса ресурса (Fetch Server)

Получение запроса: Получение URL ресурса от Rendering Engine.
Применение правил перезаписи: Применение URL Rewrite Rules для нормализации URL (дедупликация) и проверки черных списков.
Проверка черного списка: Если URL в черном списке (Blacklisted), возврат ошибки.
Поиск в кэше: Поиск нормализованного URL в Embedded Item Table.
Обработка изображений (Оптимизация): Если ресурс — изображение, поиск размеров в Image Dimension Table. Если размеры найдены и не устарели, генерация и возврат Mock Image.
Проверка актуальности: Если ресурс найден в кэше и не устарел (Stale), возврат кэшированного контента.
Выборка (Crawl): Если ресурс не найден или устарел, запрос на сканирование краулеру.
Сохранение и ответ: Получение контента, сохранение в кэш (и обновление размеров для изображений), возврат контента/Mock Image в Rendering Engine.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре рендеринга и использует следующие типы данных:

Контентные факторы: HTML код страницы, содержимое встроенных ресурсов (JavaScript, CSS). Используются для построения DOM и выполнения скриптов.
Технические факторы: URL ресурсов. Используются для выборки и применения URL Rewrite Rules.
Мультимедиа факторы: Размеры изображений (ширина, высота). Используются для генерации Mock Images и расчета макета (Layout). Патент явно указывает, что реальные пиксельные данные изображений часто не используются для экономии ресурсов.

Какие метрики используются и как они считаются

Virtual Clock Time (Время виртуальных часов): Основная метрика для планирования задач. Измеряется в секундах, но не коррелирует с реальным временем. Продвигается скачкообразно на основе времени следующей задачи.
Predetermined Time / Stop Task Time (Предопределенное время): Пороговое значение виртуального времени для завершения рендеринга (упоминаются примеры 5-20 секунд).
Staleness (Устаревание): Метрика актуальности кэшированного контента. Определяется на основе частоты изменений ресурса (change rate), его типа или времени последнего сканирования.
Dimensions (Размеры): Ширина и высота изображений, используемые для Mock Images.

Рендеринг для индексации (WRS) отличается от пользовательского: Google использует специализированную среду (Batch-Optimized Architecture), оптимизированную для скорости, масштаба и детерминизма, а не для визуальной точности или интерактивности.
Virtual Clock предотвращает таймауты загрузки: Механизм Virtual Clock специально разработан для скрытия сетевых задержек (fetch latency). Система будет ждать загрузки ресурсов, так как время останавливается во время ожидания. Это опровергает миф о том, что Googlebot может не дождаться загрузки медленных скриптов.
Virtual Clock ускоряет таймеры и анимации: Система не ждет в реальном времени. Если нет активных задач, время перескакивает к следующей задаче (например, setTimeout). Это позволяет завершить 20 виртуальных секунд за несколько реальных.
Существует жесткий лимит времени рендеринга (Stop Task): Рендеринг ограничен лимитом виртуального времени (Stop Task, например, 5-20 секунд). Если процесс не завершится к этому моменту, он будет прерван.
Google агрессивно оптимизирует сканирование ресурсов: Система активно избегает загрузки ненужного контента. Скрипты, не влияющие на отображение (например, аналитика), могут быть внесены в Blacklist. Дублирующиеся ресурсы (например, из-за cache-busting URL) дедуплицируются через URL Rewrite Rules.
Макет рассчитывается без реальных изображений: Для расчета Layout Google использует Mock Images (заглушки с нужными размерами), а не реальные пиксельные данные. Для оценки структуры страницы важны только размеры изображений.

Best practices (это мы делаем)

Указание размеров изображений (Критично для CLS): Всегда указывайте атрибуты width и height для изображений в HTML или CSS. Поскольку Google использует Mock Images на основе этих размеров для расчета Layout, это критично для стабильности макета (Cumulative Layout Shift) во время рендеринга Googlebot.
Обеспечение доступности критических ресурсов: Убедитесь, что все JS и CSS файлы, необходимые для отображения основного контента и макета, доступны для сканирования (не заблокированы в robots.txt). Virtual Clock гарантирует, что Googlebot дождется их загрузки, если они доступны.
Оптимизация эффективности выполнения JavaScript: Необходимо оптимизировать код, чтобы основной контент формировался быстро и не превышал лимит Stop Task. Хотя ожидание загрузки не тратит виртуальное время, сложный JS-код может замедлить процесс рендеринга.
Использование Graceful Degradation/Enhancement: Функционал, который может быть классифицирован как ненужный (например, трекинг, чат-боты), должен быть реализован так, чтобы его блокировка (попадание в Blacklist) не нарушала отображение основного контента.

Worst practices (это делать не надо)

Изображения без указания размеров: Это затрудняет расчет макета с использованием Mock Images и может привести к некорректной оценке структуры страницы и высокому CLS.
Зависимость от сторонних скриптов для отображения контента: Размещение критически важного контента в зависимость от скриптов, которые могут быть расценены как ненужные и попасть в Blacklist (например, системы персонализации или A/B тестирования).
Использование длительных анимаций или отложенных задач: Полагаться на длительные таймауты в JavaScript (setTimeout) для отображения контента. Хотя Virtual Clock ускоряет время простоя, это увеличивает риск достижения Stop Task до появления контента.
Игнорирование ошибок JavaScript: Rendering Result включает в себя ошибки (Errors). Наличие критических ошибок может прервать выполнение скриптов и привести к неполному рендерингу.

Стратегическое значение

Патент подтверждает стратегическую важность технического SEO и понимания процесса рендеринга. Google разработал инфраструктуру, устойчивую к медленной загрузке ресурсов, но ориентированную на быстрое извлечение структуры и контента. Для SEO это означает, что оптимизация Critical Rendering Path, обеспечение стабильности макета (CLS) и эффективное выполнение JavaScript являются приоритетами для обеспечения полной индексации современных веб-сайтов.

Практические примеры

Сценарий: Обеспечение стабильности макета для Googlebot (CLS)

Проблема: При анализе страницы инструментами Google наблюдается смещение макета (CLS).
Причина (на основе патента): Google WRS заменил реальные изображения на Mock Images. Если размеры изображений не были указаны в HTML, WRS не смог зарезервировать место и рассчитал Layout некорректно.
Действие: Прописать атрибуты width и height для всех тегов <img> и убедиться, что CSS корректно управляет адаптивностью (например, height: auto;).
Ожидаемый результат: Googlebot корректно рассчитывает Layout с зарезервированным пространством под изображения с самого начала рендеринга. Это улучшает оценку визуальной стабильности страницы.

Сценарий: Оптимизация рендеринга JavaScript-приложения (SPA)

Проблема: Контент загружается асинхронно через API. Есть риск, что Googlebot достигнет Stop Task до того, как контент появится в DOM.
Действия согласно патенту:
- Убедиться, что запросы к API не блокируются (Googlebot их дождется благодаря Virtual Clock).
- Оптимизировать код JavaScript, отвечающий за обработку ответа API и обновление DOM, чтобы ускорить появление контента.
- Избегать использования искусственных задержек (setTimeout) перед запросом к API.
Ожидаемый результат: Рендеринг завершается быстрее, обеспечивая полную индексацию динамического контента до достижения Stop Task.

Что такое «Виртуальные часы» (Virtual Clock) и как они влияют на рендеринг Googlebot?

Virtual Clock — это механизм симуляции времени при рендеринге. Он не идет в реальном времени. Он останавливается, когда Googlebot ждет загрузки ресурсов (CSS, JS, API) или выполняет задачи. Когда система простаивает, часы «перематываются» вперед. Это позволяет Googlebot избегать таймаутов при медленной загрузке ресурсов и значительно ускоряет общий процесс рендеринга.

Значит ли это, что скорость загрузки ресурсов (TTFB) не важна для Googlebot?

Скорость загрузки ресурсов менее критична для успешного завершения рендеринга, чем считалось ранее, так как Virtual Clock предотвращает таймауты. Однако скорость по-прежнему влияет на общий бюджет сканирования (Crawl Budget) в реальном времени, и ресурсы должны быть доступны (не возвращать ошибки).

Если Googlebot ждет все ресурсы, существует ли вообще лимит времени на рендеринг?

Да, существует. В начале рендеринга устанавливается задача остановки (Stop Task) на определенное виртуальное время (в патенте упоминаются примеры от 5 до 20 секунд). Если общий процесс рендеринга не завершится до достижения этого лимита виртуального времени, он будет прерван.

Как Google обрабатывает анимации и таймеры (setTimeout)?

Система обрабатывает их ускоренно. Если страница устанавливает таймер на 5 секунд (setTimeout(func, 5000)), и в это время нет других задач, Virtual Clock не будет ждать 5 реальных секунд. Он сразу перескочит на 5 секунд вперед и выполнит задачу таймера мгновенно.

Как Google обрабатывает изображения во время рендеринга?

Для экономии ресурсов Google часто не загружает реальные пиксельные данные. Вместо этого система использует Image Dimension Table, чтобы узнать размеры изображения, и создает заглушку (Mock Image) с этими размерами, но пустым содержимым. Этого достаточно для расчета макета страницы (Layout).

Какое практическое значение имеет использование Mock Images для SEO?

Это подчеркивает критическую важность указания атрибутов width и height для изображений в HTML или CSS. Поскольку расчет макета основан на этих размерах, их отсутствие может привести к нестабильности макета (Layout Shifts) во время рендеринга, что негативно сказывается на оценке страницы (например, метрика CLS).

Загружает ли Googlebot скрипты аналитики и трекинга?

Патент указывает, что система использует черные списки (Blacklists) для игнорирования ресурсов, ненужных для пакетного рендеринга. В качестве примера прямо упоминается Google Analytics. Скрипты, не влияющие на отображение контента или макет (аналитика, реклама, трекеры), скорее всего, игнорируются.

Что произойдет, если критически важный контент загружается через скрипт, который попал в Blacklist?

Если скрипт, необходимый для отображения контента, заблокирован (попал в Blacklist), этот контент не будет отрендерен и, следовательно, не будет проиндексирован. Необходимо избегать зависимости критического контента от сторонних скриптов, которые могут быть классифицированы как ненужные.

Как Google обрабатывает URL с динамическими параметрами (например, для сброса кэша)?

Система использует URL Rewrite Rules для дедупликации таких ресурсов (Cache-Busting URLs). Если система определяет, что разные URL ведут к одному и тому же контенту (например, отличаются только временной меткой), она использует ранее закэшированную версию. Это позволяет оптимизировать процесс сканирования.

Как система обеспечивает детерминированность рендеринга, если в коде используется текущее время (например, Date())?

Патент упоминает, что система может использовать значение Virtual Clock вместо реального времени. Это гарантирует, что при каждом рендеринге страницы функции, зависящие от времени, будут возвращать одно и то же значение, обеспечивая повторяемость (детерминированность) результатов и эффективность кэширования.

Как Google итеративно рендерит веб-страницы, собирая недостающие ресурсы (JS, CSS, изображения) для индексации

Патент описывает инфраструктуру Google для рендеринга веб-страниц в масштабах всего интернета. Вместо того чтобы запрашивать все внешние ресурсы (JS, CSS, изображения) в реальном времени, система использует итеративный подход. Если ресурс не найден в базе данных, процесс рендеринга останавливается, ресурс ставится в очередь на сканирование, и рендеринг перезапускается только после того, как все необходимое будет собрано. Это обеспечивает точное отображение страницы без перегрузки внешних серверов.

US8346755B1
2013-01-01

Индексация
Краулинг
Техническое SEO

Как Google оптимизирует скорость генерации поисковой выдачи с помощью адаптивного планирования внутренних задач

Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических данных и контекста (например, времени суток). Это позволяет оптимально распределить нагрузку на процессоры и минимизировать общее время генерации SERP.

US8555281B1
2013-10-08

SERP

Как Google адаптивно управляет краулинговым бюджетом и скоростью сканирования на основе производительности сервера

Google использует распределенную систему управления сканированием, которая группирует URL по хостам и определяет оптимальное время следующего обращения к серверу («Stall Time»). Эта система адаптивно регулирует частоту запросов на основе фактической скорости ответа сервера («Retrieval Time»), чтобы эффективно сканировать интернет, не перегружая отдельные сайты.

US7305610B1
2007-12-04

Краулинг
Техническое SEO

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

US20140188919A1
2014-07-03

Индексация
SERP
Краулинг

Как Google использует пререндеринг (Prerendering) для мгновенного отображения результатов поиска

Google ускоряет отображение поисковой выдачи, заранее загружая и отрисовывая (пререндеринг) структуру страницы результатов (SERP) в фоновом режиме. Когда пользователь вводит запрос (например, в адресной строке браузера), он передается на уже готовую страницу через API, что позволяет мгновенно показать результаты без задержек на загрузку интерфейса.

US9104664B1
2015-08-11

SERP

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию

Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.

US8321463B2
2012-11-27

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество