Как Google индексирует динамический JavaScript-контент (AJAX/SPA), используя рендеринг и анализ URL-фрагментов

INDEXING OF URLS WITH FRAGMENTS (Индексирование URL-адресов с фрагментами)

US8468145B2
Google LLC
2011-11-10
2013-06-18

Патент Google, описывающий фундаментальный механизм индексирования динамического контента, генерируемого на стороне клиента (JavaScript/AJAX). Система идентифицирует «индексируемые фрагменты» в URL (часть после '#'), выполняет клиентский код для генерации финального состояния страницы (DOM) и преобразует его в статический HTML для индексации. Это основа работы современного сервиса рендеринга (WRS).

Какую проблему решает

Патент решает фундаментальную проблему индексирования динамического контента, генерируемого на стороне клиента (например, JavaScript/AJAX). Исторически поисковые системы игнорировали URL-фрагменты (часть после #), так как они использовались для навигации внутри документа (Pointer Fragments). Однако веб-приложения (SPA/AJAX) начали использовать фрагменты для идентификации уникальных состояний контента. Если краулер игнорирует такие фрагменты (Indexable Fragments), он индексирует только базовую страницу, упуская динамический контент.

Что запатентовано

Запатентована система для индексации контента, доступного по URL-адресам, содержащим Indexable Fragments. Система распознает, что фрагмент указывает на динамический контент, требующий выполнения клиентского кода. Ключевым элементом является Rendering System, который выполняет этот код для достижения финального состояния страницы (DOM tree), которое затем конвертируется в индексируемый формат (HTML).

Как это работает

Система работает как расширение процесса индексирования:

Идентификация и Классификация: Определяется URL с фрагментом. Система определяет, является ли фрагмент «индексируемым» (например, обнаружив #!) или просто указателем.
Разделение: Выделяется базовый URL (Base URL).
Рендеринг: Rendering System загружает базовый контент и выполняет клиентский код (JavaScript), связанный с фрагментом, для генерации финального состояния страницы (Rendered Content).
Конвертация: Финальное состояние (например, DOM tree) преобразуется (сериализуется) в статический HTML.
Индексирование: Полученный HTML индексируется.

Актуальность для SEO

Высокая (Фундаментальное значение). Этот патент описывает механизм, который лег в основу «AJAX Crawling Scheme» (использование #! или «hashbang»), которая сейчас устарела. Однако сам запатентованный механизм — обнаружение динамического контента, его рендеринг на стороне сервера и последующая индексация отрендеренного HTML — является точным описанием работы современного Googlebot (Web Rendering Service - WRS). Понимание этого патента критически важно для JavaScript SEO.

Важность для SEO

Патент имеет критическое значение (9/10). Он описывает инфраструктуру, которая позволяет Google индексировать динамический контент (React, Angular, Vue и т.д.). Это подчеркивает необходимость обеспечения того, чтобы JavaScript мог быть корректно и быстро выполнен Googlebot, а весь важный контент присутствовал в финальном DOM.

Термины и определения

Base URL (Базовый URL): URL, полученный путем удаления индексируемого фрагмента. Идентифицирует основной ресурс или точку входа в приложение.
Content Converter (Конвертер контента): Компонент, который преобразует отрендеренный контент (например, DOM tree) в индексируемый формат (например, сериализованный HTML).
DOM Tree (Объектная модель документа): Структурированное представление веб-страницы после рендеринга, включающее все динамически добавленные элементы и ресурсы. Источник истины для индексации.
Indexable Content (Индексируемый контент): Контент, преобразованный в формат, который может быть обработан индексатором (например, статический HTML).
Indexable Fragment (Индексируемый фрагмент): Фрагмент URL (после #), который идентифицирует уникальное состояние страницы, сгенерированное путем выполнения клиентского кода (dynamic content). Отличается от Pointer Fragment. Патент упоминает использование специальных символов (например, !) для их идентификации (т.е. #!).
Pointer Fragment (Указательный фрагмент): Традиционное использование фрагмента URL (анкорь) для перехода к определенной части документа. Не указывает на уникальный контент и обычно игнорируется при индексации.
Rendered Content (Отрендеренный контент): Состояние веб-страницы после выполнения клиентских скриптов и загрузки всех встроенных ресурсов (embedded resources). Обычно представлено в виде DOM tree.
Rendering System (Система рендеринга): Компонент, который эмулирует поведение браузера, выполняя клиентский код (JavaScript/AJAX) для генерации финального состояния страницы.
URL Inspector (Инспектор URL): Компонент, который анализирует URL, обнаруженный краулером, и определяет наличие и тип фрагмента (Indexable или Pointer).
URL Separator (Разделитель URL): Компонент, который разделяет URL с индексируемым фрагментом на Base URL и полный URL.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс индексации URL с динамическим контентом.

Система определяет URL, содержащий indexable fragment. Уточняется, что этот фрагмент связан с динамическим контентом, генерируемым исполняемым кодом (браузером) для частичной модификации страницы.
Система отделяет Base URL (часть до фрагмента).
Система обрабатывает контент Base URL для получения обработанного контента. Важное уточнение: этот контент не включает встроенные ресурсы, подлежащие рендерингу (т.е. это исходный код до выполнения JS).
Rendering System рендерит этот обработанный контент вместе с контентом, идентифицируемым полным URL (включая фрагмент), для получения rendered content. Важное уточнение: этот контент включает рендеринг встроенных ресурсов (т.е. после выполнения JS).
Content Converter преобразует rendered content в indexable content (код на языке разметки).

Ядро изобретения — это использование фрагмента URL как триггера для выполнения клиентского кода и последующего захвата результата для индексации.

Claim 3 (Зависимый от 1): Уточняет процесс идентификации.

Система способна отличить indexable fragment от pointer fragment (который только указывает на специфическую часть веб-сайта).

Claim 9 (Зависимый от 1): Детализирует результат работы Rendering System.

Рендеринг включает вывод Document Object Model (DOM) tree, который содержит динамически обновленные части веб-сайта, связанные с indexable fragment.

Claim 10 (Зависимый от 9): Детализирует работу Content Converter.

Конвертация отрендеренного контента включает сериализацию DOM tree для получения кода HyperText Markup Language (HTML).

Где и как применяется

Изобретение является ключевой частью инфраструктуры сканирования и индексирования Google, обеспечивающей обработку динамического контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе краулер (Crawler) обнаруживает ссылки. URL Inspector анализирует эти ссылки на наличие фрагментов и классифицирует их. Если фрагмент идентифицирован как Indexable Fragment, запускается специальный процесс обработки, и URL Separator разделяет URL.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента, соответствующий современному процессу рендеринга (Web Rendering Service - WRS).

Обработка Base URL: Исходный контент базового URL обрабатывается.
Рендеринг: Rendering System эмулирует браузер, объединяя контент Base URL и полный URL с фрагментом. Это заставляет систему выполнить JavaScript и AJAX-запросы для построения финального состояния страницы.
Конвертация: Content Converter сериализует полученный DOM tree в HTML.
Индексация: Полученный HTML передается стандартному индексатору для анализа контента и извлечения признаков.

Входные данные:

URL с индексируемым фрагментом.
Base URL.
Исходный код (HTML) и связанные ресурсы (JS, CSS, API ответы).

Выходные данные:

Сериализованный HTML-код (Indexable Content), представляющий финальное состояние динамической страницы.

На что влияет

Типы контента: В первую очередь влияет на контент, который загружается асинхронно с помощью JavaScript (AJAX), а не присутствует в исходном HTML.
Технологии: Критически важен для Single Page Applications (SPA), которые используют (или использовали) URL-фрагменты для маршрутизации (например, ранние версии Angular.js, React/Vue с хэш-маршрутизацией).
Специфические запросы: Позволяет страницам с динамическим контентом ранжироваться по запросам, релевантным этому контенту.

Когда применяется

Триггеры активации: Алгоритм активируется, когда URL Inspector классифицирует фрагмент в URL как Indexable Fragment. Патент предлагает несколько методов для этой классификации (варианты реализации):
- Наличие специальных символов (например, ! после #, т.е. hashbang #!).
- Включение сайта в список (whitelist) ресурсов, использующих динамический контент.
- Эвристики и машинное обучение для предсказания типа фрагмента на основе статистики сайта.
- Эвристический подход: попытка обработать все фрагменты как индексируемые и откат в случае неудачи.

Пошаговый алгоритм

Процесс обработки URL с индексируемым фрагментом:

Сканирование и извлечение: Краулер сканирует веб-сайт и извлекает URL, содержащий фрагмент (например, www.example.com#!page1).
Инспекция фрагмента: URL Inspector анализирует фрагмент.
- Если это Pointer Fragment: Процесс продолжается стандартно (фрагмент игнорируется).
- Если это Indexable Fragment: Переход к шагу 3.
Разделение URL: URL Separator разделяет URL на Base URL (www.example.com) и полный URL (www.example.com#!page1).
Ассоциация и хранение: Оба URL могут быть сохранены в системе (например, в Index Table с общим флагом) для последующей совместной обработки.
Обработка Base URL: Контент Base URL сканируется и обрабатывается (это может произойти независимо или быть инициировано на данном этапе).
Поиск связанных URL: Система идентифицирует Base URL и ищет все связанные с ним URL с фрагментами (если используется механизм ассоциации).
Передача на рендеринг: Обработанный контент Base URL вместе с полным URL (с фрагментом) передается в Rendering System.
Рендеринг и выполнение скриптов: Rendering System эмулирует браузер, загружает ресурсы и выполняет JavaScript. Фрагмент используется для запуска скриптов, которые генерируют динамический контент.
Захват состояния: Система фиксирует финальное состояние страницы в виде DOM Tree.
Конвертация: Content Converter сериализует DOM Tree в статический HTML (Indexable Content).
Индексация: Полученный HTML индексируется стандартным образом.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре обработки и использует следующие типы данных:

Технические факторы (URL): Структура URL критически важна. Система анализирует наличие символа # и последующих символов (например, !) для идентификации Indexable Fragments.
Контентные факторы (Исходный код): Исходный HTML Base URL используется как основа для рендеринга.
Мультимедиа и Ресурсы (Встроенные ресурсы): Встроенные ресурсы (embedded resources), такие как JavaScript, CSS, изображения, а также данные, получаемые через API (AJAX-запросы), необходимы Rendering System для построения финального DOM.
Системные данные (Внутренние): Списки сайтов (whitelists) и эвристики/статистика, используемые для классификации фрагментов.

Какие метрики используются и как они считаются

Патент не описывает конкретных метрик ранжирования, но описывает механизмы классификации и обработки:

Классификация фрагментов: Определение типа фрагмента (Indexable vs Pointer). Может основываться на синтаксисе (#!), списках сайтов или оценках уверенности от моделей машинного обучения (хотя конкретные модели не детализированы).
Построение DOM: Процесс построения DOM tree на основе выполнения JavaScript и других ресурсов.
Сериализация: Алгоритм преобразования структуры DOM обратно в HTML-код.

Рендеринг как необходимость для индексации JavaScript: Патент описывает сложную инфраструктуру, разработанную для решения проблемы индексации динамического контента. Это подтверждает, что для индексации JavaScript-контента требуется полноценный рендеринг.
Индексация основана на DOM, а не на исходном коде: Система индексирует контент, который присутствует в DOM tree после выполнения скриптов. Content Converter сериализует этот DOM в HTML. Если контент не попал в DOM, он не будет проиндексирован.
Подтверждение двухфазной индексации: Процесс четко разграничивает первичное сканирование/обработку Base URL (исходный HTML) и последующий, отдельный этап рендеринга, необходимый для выполнения динамического контента.
Специфическая обработка URL-фрагментов: Система активно различает традиционные анкорные ссылки (Pointer Fragments) и фрагменты, используемые для маршрутизации в SPA (Indexable Fragments). Это было критически важно для реализации AJAX Crawling Scheme.
Фундамент для современного Googlebot (WRS): Механизмы, описанные в патенте (Rendering System, Content Converter), являются основой того, как Google обрабатывает JavaScript сегодня, даже несмотря на то, что триггер в виде #! больше не требуется.

Best practices (это мы делаем)

Хотя патент описывает механизм, связанный с устаревшей AJAX Crawling Scheme (#!), его принципы критически важны для современного JavaScript SEO.

Обеспечение доступности ресурсов для рендеринга: Убедитесь, что все критически важные ресурсы (JavaScript, CSS, изображения, ответы API/XHR-запросов) доступны для Googlebot и не заблокированы (например, в robots.txt). Rendering System нуждается в них для построения DOM.
Проверка отрендеренного HTML (DOM): Регулярно используйте инструменты (например, Инструмент проверки URL в GSC) для анализа HTML-кода, который видит Googlebot. Этот HTML является результатом работы Content Converter (сериализованный DOM). Убедитесь, что весь ключевой контент и ссылки присутствуют в этом коде, а не только в исходном коде (View Source).
Оптимизация производительности JavaScript: Так как система тратит реальные ресурсы на выполнение скриптов (бюджет рендеринга), необходимо оптимизировать скорость их выполнения. Медленный JavaScript может привести к таймаутам рендеринга и неполной индексации.
Использование History API для маршрутизации (Современная практика): Вместо использования фрагментов (# или #!) для маршрутизации в SPA, используйте History API (pushState) для генерации чистых URL. Это современный стандарт, который более надежен для поисковых систем.

Worst practices (это делать не надо)

Использование Hashbang (#!) или простых хэшей (#) для нового сайта: Не используйте схему #!, она официально устарела. Использование простых хэшей (#state) для уникального контента рискованно, так как они могут быть восприняты как Pointer Fragments.
Блокировка JavaScript или CSS: Это предотвратит корректную работу Rendering System, что приведет к индексации пустого или неполного контента.
Игнорирование ошибок JavaScript: Ошибки во время выполнения скриптов могут остановить процесс рендеринга. Контент, который должен был быть сгенерирован после точки возникновения ошибки, не попадет в DOM.
Зависимость основного контента от действий пользователя: Rendering System выполняет скрипты при загрузке, но обычно не симулирует сложные взаимодействия с пользователем (например, клики). Основной контент должен быть доступен в DOM после начальной загрузки.

Стратегическое значение

Этот патент знаменует собой важный переход в истории поиска: от сканирования статического HTML к необходимости рендеринга динамического контента. Он подтверждает, что JavaScript SEO — это необходимость, продиктованная архитектурой поисковой системы. Стратегически, это подчеркивает важность оптимизации под процесс выполнения JavaScript (рендеринг) и признания того, что отрендеренный DOM является каноническим контентом.

Практические примеры

Сценарий 1: Индексация каталога товаров в ранней версии SPA (Исторический контекст)

Ситуация: Интернет-магазин использует AJAX. При выборе категории URL меняется на www.shop.com#!category=shoes. Список товаров генерируется JavaScript.
Проблема (до патента): Googlebot игнорировал #!category=shoes и индексировал только www.shop.com. Контент категории «Обувь» терялся.
Решение (согласно патенту):
- URL Inspector видит #! и классифицирует фрагмент как Indexable.
- Rendering System загружает www.shop.com и использует #!category=shoes для запуска JavaScript, который загружает товары категории «Обувь».
- Content Converter сериализует финальный DOM, содержащий список товаров, в HTML.
Результат: Google индексирует страницу категории «Обувь» со всем её содержимым.

Сценарий 2: Отладка отсутствующего динамического контента (Современный контекст)

Контекст: Сайт динамически загружает отзывы о товарах через AJAX. Отзывы не индексируются.
Действие: Проанализировать отрендеренный HTML (DOM) в инструменте проверки URL GSC.
Анализ: Если отзывы отсутствуют в отрендерованном HTML, Rendering System не смогла выполнить вызов AJAX или завершить рендеринг.
Отладка и Решение: Проверить GSC на наличие заблокированных ресурсов или ошибок JavaScript. Убедиться, что JavaScript, отвечающий за получение отзывов, доступен и выполняется корректно, позволяя Content Converter зафиксировать конечное состояние DOM.

Что такое «Indexable Fragment» и чем он отличается от обычной анкорной ссылки?

Indexable Fragment, согласно патенту, — это фрагмент URL (после #), который указывает на уникальное состояние страницы, сгенерированное динамически (JavaScript). Система должна выполнить код, чтобы увидеть этот контент. Анкорная ссылка (Pointer Fragment) просто указывает на место в уже существующем контенте и не требует дополнительного рендеринга.

Какая связь между этим патентом и современным Googlebot (Web Rendering Service - WRS)?

Патент описывает фундаментальный механизм, который используется и сегодня. Компоненты Rendering System (выполнение JavaScript) и Content Converter (сериализация DOM в HTML) являются ядром современного WRS. Изменился в основном триггер: раньше система активно искала сигналы вроде #!, теперь она пытается рендерить большинство страниц по умолчанию.

Актуален ли еще механизм `#!` (hashbang), упомянутый в патенте?

В патенте упоминается использование специального символа (например, !) для явного указания на Indexable Fragment. Это привело к созданию AJAX Crawling Scheme. Однако Google официально прекратил поддержку этой схемы. Современная рекомендация — использовать History API для создания чистых URL вместо хэш-маршрутизации.

Что такое сериализация DOM в HTML и почему она важна?

После выполнения JavaScript финальное состояние страницы существует в виде структуры данных — DOM Tree. Сериализация — это процесс преобразования DOM Tree в статический HTML-код, выполняемый Content Converter. Это критически важно, потому что индексатор Google анализирует именно этот статический HTML, а не живой DOM или исходный код страницы.

Как этот патент связан с двухфазной индексацией (Two Waves of Indexing)?

Патент явно описывает двухфазный процесс. На первом этапе обрабатывается контент Base URL (исходный HTML). На втором этапе Rendering System выполняет ресурсы и генерирует финальный контент. Это техническое описание того, как Google разделяет сканирование HTML и рендеринг JavaScript.

Почему важно проверять именно отрендеренный HTML в Google Search Console?

Потому что именно этот HTML является результатом работы системы, описанной в патенте (сериализованный DOM). Исходный код страницы (View Source) может не содержать динамического контента. Только анализ отрендеренного HTML показывает, что именно Googlebot смог увидеть и что будет проиндексировано.

Влияет ли этот механизм на бюджет сканирования (Crawl Budget)?

Да, косвенно. Процесс рендеринга (работа Rendering System) требует значительно больше вычислительных ресурсов, чем сканирование статического HTML. Это привело к появлению концепции «бюджета рендеринга». Медленный рендеринг может замедлить общую скорость индексации сайта.

Что произойдет, если JavaScript выдаст ошибку во время работы Rendering System?

Если произойдет критическая ошибка JavaScript, Rendering System может прекратить выполнение скриптов. Контент, который должен был быть сгенерирован после точки ошибки, не попадет в финальный DOM Tree и, следовательно, не будет проиндексирован.

Должен ли я использовать маршрутизацию на основе хэшей для моего нового SPA?

Нет. Хотя этот патент описывает, как Google научился обрабатывать такие URL, современная лучшая практика настоятельно рекомендует использовать History API для создания чистых, обычных URL для каждого состояния приложения. Это лучше для пользователей и более надежно для поисковых систем.

Что самое важное для SEO специалиста в этом патенте?

Самое важное — это подтверждение того, что Google выполняет JavaScript для генерации DOM tree и индексирует именно результат этого рендеринга. Это подчеркивает критическую важность технического SEO для JavaScript: обеспечение доступности ресурсов, отсутствие ошибок при выполнении скриптов и наличие всего важного контента в финальном DOM.

Как Google использует сравнение DOM и Render Tree для обнаружения и девальвации скрытого текста при генерации сниппетов и ранжировании

Google использует механизм для точного определения, какой текст на веб-странице виден пользователю при загрузке, а какой скрыт. Система сравнивает весь код страницы (DOM Tree) с тем, что фактически отображается (Render Tree). Обнаруженный скрытый текст (например, в меню, скрытый через CSS или цветом фона) получает понижающий коэффициент (Weighting Factor), что снижает вероятность его попадания в сниппет и может влиять на оценку страницы.

US8639680B1
2014-01-28

Техническое SEO
Индексация
SERP

Как Google итеративно рендерит веб-страницы, собирая недостающие ресурсы (JS, CSS, изображения) для индексации

Патент описывает инфраструктуру Google для рендеринга веб-страниц в масштабах всего интернета. Вместо того чтобы запрашивать все внешние ресурсы (JS, CSS, изображения) в реальном времени, система использует итеративный подход. Если ресурс не найден в базе данных, процесс рендеринга останавливается, ресурс ставится в очередь на сканирование, и рендеринг перезапускается только после того, как все необходимое будет собрано. Это обеспечивает точное отображение страницы без перегрузки внешних серверов.

US8346755B1
2013-01-01

Индексация
Краулинг
Техническое SEO

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

US20140188919A1
2014-07-03

Индексация
SERP
Краулинг

Как Google анализирует рендеринг страницы (DOM и CSS) для обнаружения скрытого текста и ссылок

Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент пользователю. Это позволяет обнаруживать и игнорировать манипуляции (спам), такие как текст цветом фона или позиционирование за пределами экрана.

US8392823B1
2013-03-05

Антиспам
Структура сайта
Индексация

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя

Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.

US9235626B2
2016-01-12

Персонализация
SERP
Семантика и интент

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы

Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.

US20140188927A1
2014-07-03

Персонализация
SERP
Ссылки

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы