Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

Описание

Какую задачу решает

Патент решает проблему верификации работоспособности ссылок, ведущих внутрь мобильных приложений (Application Links или Deep Links). Традиционные методы сканирования часто неэффективны для приложений, так как контент может требовать аутентификации, краулеры сталкиваются с сетевыми таймаутами, или доступность контента зависит от состояния приложения. Неработающие ссылки приводят к сбоям приложений или показу некорректного контента, ухудшая пользовательский опыт. Изобретение предлагает метод идентификации таких ссылок без прямого сканирования.

Что запатентовано

Запатентована система, которая использует машинное обучение для классификации ссылок приложений как работающих или битых на основе поведенческих данных пользователей. Ключевым сигналом является Presentation Duration — время, в течение которого контент приложения отображался у пользователя после перехода по ссылке. Система анализирует распределение этих временных интервалов для выявления паттернов, характерных для битых ссылок.

Как это работает

Система работает в несколько этапов:

Сбор данных: Компоненты на клиентских устройствах (Duration Monitors) отслеживают Presentation Duration после взаимодействия пользователя с Deep Link.
Агрегация и Анализ распределения: Серверы агрегируют эти данные и анализируют их распределение по временным диапазонам (Duration Groups).
Классификация (ML): Модель машинного обучения, обученная на размеченных данных, применяется к паттерну распределения. Если паттерн смещен в сторону очень коротких взаимодействий (признак сбоя или быстрого отказа), ссылка классифицируется как битая.
Группировка: Система может группировать ссылки по общим префиксам (Application Link Prefix Pattern) для выявления системных проблем в разделах приложений.

Актуальность для SEO

Высокая. Интеграция контента мобильных приложений в поиск (например, через Firebase App Indexing) остается важной задачей. Обеспечение качества и стабильности этих ссылок критично для пользовательского опыта. Использование агрегированных поведенческих сигналов и машинного обучения для оценки качества индексируемых ресурсов является стандартной практикой Google.

Важность для SEO

Патент имеет значительное влияние (8/10) для App SEO и App Indexing. Он описывает конкретный механизм, с помощью которого Google оценивает техническое качество и пользовательский опыт Deep Links, показанных в SERP. Если система классифицирует ссылку как битую на основе негативного поведения (короткие Presentation Durations, сбои), эта ссылка будет удалена из индекса. Это подчеркивает, что стабильность приложения и качество UX напрямую влияют на трафик из органического поиска в приложение.

Детальный разбор

Термины и определения

Application Link (Ссылка приложения): Строка символов (например, URI), которая ведет на определенное место или контент внутри мобильного приложения (Deep Link).
Presentation Duration (Длительность презентации): Ключевая метрика. Время, в течение которого контент приложения, на который ведет ссылка, был представлен пользователю после взаимодействия со ссылкой. Измеряется от момента взаимодействия до момента закрытия приложения, перехода к другому контенту или сбоя (crash) приложения.
Duration Monitor (Монитор длительности): Компонент на клиентском устройстве, который отслеживает, записывает и отправляет данные о Presentation Duration в систему.
Duration Groups (Группы длительности): Заданные диапазоны времени (например, 0-2 сек, 2-4 сек). Используются для построения распределения (гистограммы) Presentation Durations.
Machine Learning Model (Модель машинного обучения): Модель (например, линейная регрессия), обученная на размеченных данных (labeled training data) для предсказания статуса ссылки (битая/рабочая) на основе анализа распределения ее Presentation Durations.
Application Link Prefix Pattern (Паттерн префикса ссылки приложения): Строка символов, общая для двух или более ссылок приложения (например, appname:category1/). Используется для группировки ссылок, относящихся к одному разделу приложения.
Broken Link (Битая ссылка): Ссылка, которая не ведет к предполагаемому контенту. Включает ссылки, вызывающие сбой приложения, ведущие в несуществующее место, или ссылки, ведущие к технически корректному, но неверному контенту.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему идентификации битых ссылок.

Система получает данные (Presentation Durations) о множестве взаимодействий пользователей со ссылками приложения.
Система классифицирует каждую ссылку как битую или рабочую, применяя Machine Learning Model.
Модель ML генерируется с использованием размеченных обучающих данных.
Критически важный элемент: Модель ML классифицирует ссылку на основе распределения (distribution) Presentation Durations. Распределение определяет, сколько сессий попадает в каждый из множества временных диапазонов (plurality of time duration ranges).
Система генерирует и выводит оповещение, если ссылка классифицирована как битая.

Claim 2 (Зависимый от 1): Детализирует, как модель ML использует распределение.

Каждая Presentation Duration назначается одной из Duration Groups (временных диапазонов).
Классификация ссылки основана на паттерне (pattern), определяемом количеством Presentation Durations, назначенных каждой группе. (На практике это анализ формы гистограммы распределения).

Claim 4 (Зависимый от 1): Описывает механизм группировки ссылок для повышения эффективности и точности.

Система идентифицирует Application Link Prefix Patterns (общие строки символов) для набора ссылок.
Для каждого префикса:
1. Идентифицируется группа ссылок с этим префиксом.
2. Идентифицируется набор Presentation Durations для этой группы (агрегация).
3. Модель ML применяется к агрегированным данным группы.
4. Генерируется оповещение для группы ссылок, если модель классифицирует набор ссылок как битый.

Где и как применяется

Изобретение применяется для контроля качества индексации контента мобильных приложений, заменяя или дополняя традиционный краулинг.

CRAWLING – Сканирование и Сбор данных
Вместо активного сканирования контента краулером, система пассивно собирает данные о пользовательском опыте (Presentation Durations) с клиентских устройств через Duration Monitors. Это позволяет валидировать ссылки, которые сложно проверить прямым сканированием (например, контент за логином).

INDEXING – Индексирование и извлечение признаков
Основное применение. Собранные Presentation Durations обрабатываются, строятся распределения (гистограммы), и ML-модель используется для классификации здоровья ссылок. Эта классификация (рабочая/битая) используется для валидации и контроля качества Application Links, хранящихся в индексе Google (например, App Indexing).

RERANKING – Переранжирование (Фильтрация)
Результаты работы системы используются для улучшения качества SERP. Ссылки, классифицированные как битые, вероятно, будут отфильтрованы или удалены из поисковой выдачи, чтобы предотвратить негативный пользовательский опыт.

Входные данные:

Идентификаторы ссылок приложения (Deep Links URI).
Presentation Durations для множества взаимодействий с этими ссылками.

Выходные данные:

Классификация ссылки или группы ссылок (Рабочая/Битая).
Оповещения (Alerts) о битых ссылках.

На что влияет

Конкретные типы контента: Влияет исключительно на контент, доступный через Deep Links в мобильных приложениях (товары, статьи, видео и т.д.). Не влияет на стандартные веб-URL.
Специфические запросы: Влияет на запросы, по которым Google показывает результаты App Indexing (ссылки на контент приложений).

Когда применяется

Условия работы алгоритма: Алгоритм применяется для ссылок приложений, по которым доступно достаточное количество статистических данных о Presentation Durations от реальных пользователей.
Частота применения: Сбор данных происходит непрерывно. Классификация может выполняться периодически или при накоплении определенного объема данных по ссылке или группе ссылок. Группировка по префиксам позволяет быстрее достичь статистической значимости.

Пошаговый алгоритм

Процесс А: Обучение модели (Офлайн)

Подготовка данных: Выбирается набор тренировочных ссылок приложения (training application links), для которых известен статус (рабочая/битая – label) и доступны данные о Presentation Durations.
Генерация признаков: Для каждой ссылки строится распределение Presentation Durations по Duration Groups, формируя вектор признаков.
Обучение модели: Модель машинного обучения тренируется для распознавания паттернов распределения, которые коррелируют с метками статуса.

Процесс Б: Классификация ссылок

Сбор данных: Система получает данные о Presentation Durations от Duration Monitors на клиентских устройствах.
Агрегация и Группировка (Опционально): Данные агрегируются по отдельным ссылкам. Система может идентифицировать Application Link Prefix Patterns и агрегировать данные по группам ссылок с общим префиксом.
Анализ распределения: Для каждой ссылки (или группы) система строит распределение Presentation Durations:
1. Назначение каждой продолжительности в соответствующую Duration Group (например, 0-2 сек).
2. Подсчет количества продолжительностей в каждой группе.
Применение модели ML: Обученная модель применяется к полученному распределению (вектору признаков).
Классификация: Модель выводит классификацию. Например, паттерн с доминированием очень коротких длительностей классифицируется как битый.
Генерация оповещения: Если ссылка или группа классифицирована как битая, система генерирует оповещение.

Какие данные и как использует

Данные на входе

Патент фокусируется на специфическом наборе данных:

Поведенческие факторы: Presentation Duration. Это основная метрика, отражающая время взаимодействия пользователя с контентом приложения после клика по ссылке.
Технические факторы: Идентификаторы ссылок приложения (URI). Они используются для агрегации данных и для идентификации Application Link Prefix Patterns. Также используются данные о сбоях приложений (crash data) для определения момента окончания Presentation Duration в случае сбоя.

Какие метрики используются и как они считаются

Распределение длительностей (Distribution of Presentation Durations): Ключевой набор признаков для ML-модели. Строится путем разделения временной шкалы на Duration Groups и подсчета количества сессий, попадающих в каждую группу. Система анализирует паттерн распределения, а не среднее значение.
Вектор признаков (Feature Vector): Числовое представление распределения. Вектор содержит элементы, соответствующие каждой Duration Group, а значение элемента равно количеству (или пропорционально количеству) Presentation Durations в этой группе.
Алгоритмы машинного обучения: Используется модель классификации (Supervised Learning). В патенте (Claim 6) конкретно упоминается возможность использования линейной регрессии (linear regression model).

Выводы

Google оценивает качество Deep Links через поведение пользователей: Патент подтверждает, что Google активно отслеживает, что происходит после клика по ссылке в мобильное приложение. Вместо попыток сканировать сложный контент приложений, используется анализ реального пользовательского опыта как источник истины.
Presentation Duration как ключевой сигнал здоровья ссылки: Время, проведенное пользователем в приложении после перехода (аналог Dwell Time), является основным индикатором работоспособности. Короткие сессии или сбои приложений интерпретируются как признак битой ссылки.
Важность анализа распределения, а не средних значений: Система анализирует гистограмму временных интервалов. Паттерн, сильно смещенный в сторону коротких сессий (0-3 сек), является сильным негативным сигналом, указывающим на технические проблемы или нерелевантность контента.
Эффективность за счет группировки по префиксам: Google использует анализ структуры URI (Prefix Patterns) для масштабирования и повышения точности. Если целый раздел приложения (например, app://store/category/*) демонстрирует негативные паттерны, вся группа ссылок может быть признана некачественной одновременно.
Техническое состояние приложения напрямую влияет на App SEO: Работоспособность приложения, скорость загрузки контента и отсутствие сбоев при переходе по Deep Links напрямую влияют на сохранение этих ссылок в индексе Google и их видимость в поиске.

Практика

Best practices (это мы делаем)

Рекомендации критически важны для специалистов, занимающихся App Indexing (например, Firebase App Indexing) и ASO.

Комплексный мониторинг Deep Links и UX: Анализируйте внутреннюю аналитику приложений (например, Firebase Analytics), фокусируясь на времени, проведенном на экране (Time on Screen), и показателях отказов для пользователей, пришедших через Deep Links из поиска. Ищите экраны с аномально короткими сессиями.
Мониторинг сбоев приложений (Crash Monitoring): Активно отслеживайте сбои (crashes), происходящие при переходе по внешним ссылкам (например, через Firebase Crashlytics). Сбои приводят к очень коротким Presentation Durations и быстрой классификации ссылки как битой.
Тщательное тестирование после обновлений: Регулярно проверяйте работоспособность всех индексируемых Deep Links, особенно после обновлений приложения или изменений на бэкенде.
Оптимизация скорости загрузки внутри приложения: Убедитесь, что контент по Deep Link загружается быстро. Медленная загрузка может побудить пользователей покинуть приложение, что система интерпретирует как проблему.
Поддержание консистентной структуры URI: При изменении структуры приложения убедитесь, что старые URI корректно обрабатываются. Группировка по Prefix Patterns означает, что ошибка в структуре раздела может повлиять на все ссылки с этим префиксом.
Обеспечение релевантности контента: Убедитесь, что Deep Link ведет на релевантный контент. Если ссылка технически работает, но ведет на неверный экран, пользователи будут быстро уходить, что система также интерпретирует как «битую» ссылку.

Worst practices (это делать не надо)

Игнорирование стабильности приложения: Рассматривать App SEO отдельно от технического состояния приложения. Сбои приложения при переходе из поиска напрямую вредят видимости в Google.
Изменение структуры приложения без учета Deep Links: Обновление приложения, которое меняет внутреннюю навигацию или структуру URI, может мгновенно сделать все существующие индексированные Deep Links битыми.
Показ промежуточных страниц или агрессивных Pop-up: Показ полноэкранной рекламы, запросов на авторизацию или других промежуточных экранов сразу после перехода по Deep Link может привести к быстрому уходу пользователя, что будет интерпретировано как негативный сигнал (короткая Presentation Duration).

Стратегическое значение

Патент демонстрирует, что для Google качество пользовательского опыта является универсальным принципом, применяемым ко всем типам контента, включая мобильные приложения. Техническое SEO выходит за рамки веб-сайта и распространяется на внутреннюю работу и стабильность приложений, если они интегрированы с поиском. Google полагается на агрегированные данные пользователей как на «виртуальный краулер» для оценки качества контента, который сложно анализировать традиционными методами.

Практические примеры

Сценарий: Ошибка в разделе E-commerce приложения после сбоя API

Ситуация: В приложении интернет-магазина произошел сбой API, из-за которого не загружаются товары в категории «Ноутбуки» (префикс app://store/laptops/). При переходе по Deep Link на товар из этой категории пользователь видит пустой экран или ошибку.
Поведение пользователей: Пользователи кликают на эти ссылки в поиске Google. Duration Monitor фиксирует сбой или быстрый выход пользователя. Presentation Durations составляют 0-3 секунды.
Анализ Google: Система агрегирует данные для префикса app://store/laptops/. Модель машинного обучения видит распределение, сильно смещенное к коротким сессиям (пик в 0-3 сек).
Результат: Система классифицирует всю группу ссылок с этим префиксом как битые и удаляет их из поисковой выдачи до устранения проблемы и нормализации поведенческих сигналов.

Вопросы и ответы

Что именно измеряет «Presentation Duration»?

Это время с момента взаимодействия пользователя со ссылкой (клика) до одного из следующих событий: приложение было закрыто, пользователь перешел к другому контенту внутри приложения, или приложение аварийно завершило работу (краш). Это ключевой поведенческий показатель здоровья ссылки.

Как Presentation Duration связан с Dwell Time в вебе?

Это прямой аналог Dwell Time, адаптированный для мобильных приложений. Чем дольше это время, тем выше вероятность, что ссылка технически рабочая и контент релевантен ожиданиям пользователя. Короткие значения сигнализируют о проблемах.

Как система отличает битую ссылку от просто неинтересного контента?

Система анализирует распределение длительностей сессий. Паттерны сбоев или загрузки явно неверного контента обычно приводят к большому количеству крайне коротких сессий (например, 0-2 секунды). Модель машинного обучения обучена распознавать эти специфические паттерны распределения, отличая их от естественного поведения пользователей на неинтересном, но технически рабочем контенте.

Что такое Application Link Prefix Pattern и почему это важно?

Это общий префикс для группы ссылок, например, app://store/shoes/. Система группирует ссылки по префиксам для повышения эффективности и точности анализа. Если система обнаружит проблемы с группой в целом (например, из-за изменения структуры приложения или сбоя API), все ссылки этого раздела могут быть признаны битыми одновременно.

Влияет ли этот патент на ранжирование обычных веб-страниц (URL)?

Нет, патент специфичен для Application Links (Deep Links), ведущих внутрь мобильных приложений. Он затрагивает только видимость контента приложений в поиске (App Indexing). Он не влияет на ранжирование стандартного веб-контента.

Может ли Google обнаружить битые ссылки, если для доступа к контенту требуется вход в приложение (логин)?

Да. Эта система разработана специально для ситуаций, когда стандартные краулеры не могут получить доступ к контенту. Она использует данные с устройства пользователя уже после того, как он потенциально вошел в систему, отслеживая, как долго отображается целевой контент.

Как этот патент связан с Firebase App Indexing?

Он имеет прямое отношение. Firebase App Indexing — это механизм, позволяющий Google индексировать контент внутри приложений. Описанная в патенте система является механизмом контроля качества для этих проиндексированных ссылок, гарантируя, что они работают у реальных пользователей.

Может ли медленная работа приложения привести к классификации ссылки как битой?

Да. Если контент в приложении загружается очень медленно, пользователи могут покинуть его до завершения загрузки. Это приведет к коротким Presentation Durations, что модель машинного обучения может интерпретировать как признак проблемы со ссылкой или контентом.

Что делать, если мои Deep Links были классифицированы как битые?

Необходимо срочно проверить техническую реализацию этих ссылок: проверить отчеты о сбоях (Crash Reports), убедиться, что ссылки ведут на корректный и доступный контент, и что серверы, обслуживающие контент приложения, работают стабильно. После исправления система автоматически переоценит ссылки по мере поступления новых положительных данных о Presentation Durations.

Какие типы машинного обучения используются?

Патент описывает использование модели, обученной на размеченных данных (Supervised Learning), для классификации ссылок. В Claim 6 конкретно упоминается модель линейной регрессии (linear regression model), но могут использоваться и другие модели классификации.