Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

Описание

Какую задачу решает

Патент решает проблему неоптимальной релевантности стандартных поисковых систем, которые опираются преимущественно на анализ ключевых слов. Основные проблемы, которые устраняет изобретение:

Неспособность поисковых систем точно определить наиболее ценную или релевантную часть (раздел, страницу) внутри большого электронного документа.
Сложность для пользователя в поиске нужной информации после перехода к объемному документу.
Уязвимость к манипуляциям, таким как «keyword spamming» (перенасыщение ключевыми словами), когда частота слов не отражает реальную ценность контента для пользователей.

Что запатентовано

Запатентована система и метод использования информации об использовании электронных документов (Electronic Document Usage Information) для улучшения результатов поиска. Система собирает данные о том, как пользователи взаимодействуют с контентом внутри документов (время просмотра разделов, закладки, печать), агрегирует эти данные от множества пользователей и использует их как сигнал для оценки ценности и релевантности конкретных частей документа. Поисковая система использует эти сигналы для корректировки ранжирования.

Как это работает

Система работает путем сбора и анализа поведенческих данных на уровне документа:

Сбор данных: Специальный модуль (Usage Tracking Module), который может быть интегрирован в программы для чтения документов (Document Reader, например, браузеры, Adobe Reader), отслеживает активность пользователя: время, проведенное на конкретной странице/разделе, создание закладок, печать. Система фильтрует неактивное время (Active Viewing).
Агрегация: Собранные данные передаются на сервер-агрегатор (Aggregator Server), который суммирует информацию от множества пользователей для каждого документа, создавая профиль использования (Document Utilization Information).
Использование в поиске: Поисковая система получает эти агрегированные данные. При ранжировании система повышает рейтинг документа, если ключевые слова запроса находятся в той части документа, которая, согласно профилю использования, просматривается пользователями дольше всего.

Актуальность для SEO

Высокая. Принципы использования поведенческих факторов (user engagement, dwell time) для оценки качества и релевантности контента являются фундаментальными для современных поисковых систем. Концепция оценки релевантности не всего документа целиком, а его отдельных частей (связано с Passage Ranking), крайне актуальна в 2025 году. Хотя реализация сбора данных могла эволюционировать (например, через браузер Chrome вместо сторонних модулей), базовая идея остается критически важной.

Важность для SEO

Патент имеет высокое значение (8/10). Он описывает конкретный механизм, при котором поведенческие сигналы, такие как время взаимодействия с контентом (dwell time) и активность пользователя (закладки), напрямую используются для оценки релевантности и корректировки позиций в выдаче. Это подчеркивает важность оптимизации пользовательского опыта, структуры контента и удержания внимания пользователя на ключевых разделах страницы или документа.

Детальный разбор

Термины и определения

Active Viewing (Активный просмотр): Состояние, при котором пользователь активно взаимодействует с документом. Система отфильтровывает неактивное время (простой, работа в другом приложении) для повышения точности данных.
Aggregator Server (Сервер-агрегатор): Сервер, который собирает Usage Information от множества пользователей и обрабатывает ее для создания Document Utilization Information.
Bookmark Information (Информация о закладках): Данные о создании или удалении закладок в определенных местах документа. Используется как индикатор ценности контента.
Document Reader (Программа для чтения документов): Программное обеспечение для отображения электронного документа (например, Adobe Reader, Microsoft Word, браузер).
Document Utilization Information (Информация об использовании документа): Агрегированные данные об использовании документа многими пользователями. В Claims 1 и 5 конкретно определяется как «количество времени, в течение которого пользователи получали доступ к определенным разделам» документа.
Electronic Document (Электронный документ): Цифровой контент. Примеры включают PDF, DOC, HTML, JPEG, электронные книги, статьи, веб-страницы.
Usage Information (Информация об использовании): Сырые данные, собранные на стороне клиента об активности одного пользователя: время просмотра страниц/разделов, создание закладок, печать, отправка по email.
Usage Tracking Module (Модуль отслеживания использования): Компонент на стороне клиента, который отслеживает взаимодействие пользователя с электронным документом.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод использования данных о поведении пользователей в поисковой системе.

Система получает поисковый запрос с ключевыми словами.
Система получает Document Utilization Information для документов, подлежащих поиску. Эта информация определена как данные о том, сколько времени пользователи провели за доступом к определенным разделам (particular sections) этих документов.
Генерация результатов поиска основывается как на запросе, так и на полученной Document Utilization Information.
Механизм генерации включает изменение позиции конкретного документа в результатах поиска на основе его использования по сравнению с другими документами.
Ключевой механизм ранжирования: Позиция документа улучшается (improving the position), если система определяет, что ключевое слово из запроса включено в раздел документа, к которому пользователи обращались в течение более длительного периода времени (accessed by users a longer period of time), чем к другим разделам этого документа.
Результаты передаются пользователю.

Ядро изобретения — использование метрики времени доступа (вовлеченности) к конкретным разделам для корректировки ранжирования. Если ключевое слово находится в разделе, который пользователи долго читали, это сильный сигнал релевантности.

Claim 5 (Независимый пункт): Описывает архитектуру поискового сервера (систему), реализующего этот метод.

Включает модули коммуникации с пользователем и Aggregator Server.
Search Algorithm Module генерирует результаты, используя запрос и Document Utilization Information.
Модуль реализует ту же логику ранжирования, что и в Claim 1: улучшение позиции, если ключевое слово найдено в разделе с более длительным временем доступа пользователей.

Где и как применяется

Изобретение затрагивает этапы сбора данных, индексирования и ранжирования, используя поведенческие сигналы для уточнения релевантности.

CRAWLING / INDEXING – Сбор данных и Индексирование
Система предполагает инфраструктуру для сбора поведенческих данных (Usage Tracking Modules и Aggregator Servers), отличную от стандартного краулинга. На этапе индексирования Indexer Module может использовать эти данные для:

Взвешивания терминов: Патент предполагает, что ключевые слова могут быть обозначены (designating keywords) на основе частоты, взвешенной по использованию раздела, содержащего это ключевое слово. Слово в часто используемом разделе получает больший вес.
Аннотирования документов: Ассоциация частей документа с показателями использования.

RANKING – Ранжирование
Основное применение патента. Search Algorithm Module использует Document Utilization Information как фактор ранжирования. Система оценивает не только наличие ключевых слов, но и контекст их расположения относительно «ценных» (наиболее используемых) частей документа, как описано в Claim 1.

RERANKING – Переранжирование
На этапе формирования выдачи система может использовать эти данные для улучшения представления результатов, например, указывая в сниппете ссылку непосредственно на наиболее используемую часть документа (deep linking).

Входные данные:

Поисковый запрос (ключевые слова).
Стандартный индекс контента.
Document Utilization Information (агрегированные данные о времени просмотра разделов, закладках) от Aggregator Server.

Выходные данные:

Отранжированный список результатов поиска, где позиции скорректированы с учетом поведенческих данных.

На что влияет

Типы контента: Наибольшее влияние на электронные документы, для которых возможно отслеживание внутреннего использования (PDF, DOC, eBooks, сложные HTML-страницы). Особенно актуально для лонгридов, инструкций, научных статей.
Специфические запросы: Влияет на информационные запросы, где ответ содержится глубоко внутри объемного документа.
Борьба со спамом: Механизм снижает эффективность «keyword spamming», так как простое наличие ключевых слов в неиспользуемых разделах не даст преимущества.

Когда применяется

Алгоритм применяется во время выполнения поискового запроса.

Триггеры активации: Наличие агрегированных поведенческих данных (Document Utilization Information) для релевантных документов.
Условия работы: Система должна быть способна сопоставить данные об использовании с конкретными разделами или страницами документа и определить наличие ключевых слов в этих разделах.

Пошаговый алгоритм

Процесс состоит из трех основных фаз: Сбор данных, Агрегация и Выполнение поиска.

Фаза А: Сбор данных (Клиентская сторона)

Обнаружение использования: Usage Tracking Module обнаруживает использование электронного документа (время просмотра страницы, печать).
Проверка активности (Active Viewing): Система определяет, активно ли пользователь просматривает документ, исключая время простоя (например, если нет ввода пользователя, активна заставка или фокус на другом приложении).
Обнаружение закладок: Фиксируется создание или удаление закладок в определенных местах документа.
Передача данных: Собранная Usage Information передается на Aggregator Server.

Фаза Б: Агрегация (Aggregator Server)

Получение и агрегация данных: Сервер получает данные от разных пользователей и суммирует их для одного и того же документа на уровне страниц или разделов.
Создание профиля использования: Генерируется Document Utilization Information, отражающая относительную ценность различных частей документа (например, гистограмма времени просмотра по страницам).
Определение ключевых слов (Опционально): Система может переопределить ключевые слова документа, придавая больший вес словам, которые часто встречаются в наиболее используемых разделах.
Передача в поисковую систему: Агрегированные данные передаются на Search Engine Server.

Фаза В: Выполнение поиска (Search Engine Server)

Получение запроса: Поисковая система получает запрос от пользователя.
Получение данных об использовании: Система получает агрегированную Document Utilization Information.
Генерация результатов и корректировка ранжирования: Search Algorithm Module генерирует результаты. Ранжирование корректируется: система повышает рейтинг документа, если ключевые слова запроса находятся в разделах, которые пользователи просматривают дольше всего (согласно Claim 1).
Формирование выдачи: Система передает отранжированные результаты пользователю.

Какие данные и как использует

Данные на входе

Основной фокус патента – на поведенческих факторах, собираемых на уровне взаимодействия с документом.

Поведенческие факторы (Behavioral Factors):
- Время просмотра (Dwell Time/Time Spent): Время, которое пользователь активно тратит на просмотр определенной страницы или раздела документа.
- Закладки (Bookmarks): Создание или удаление закладок в определенных местах документа.
- Взаимодействие: Печать (Printing) раздела, открытие, закрытие, отправка документа по email.
Контентные факторы:
- Ключевые слова: Наличие и расположение ключевых слов в документе (используется в сочетании с поведенческими данными).
Технические факторы (для фильтрации):
- Данные об активности пользователя (ввод), статус других приложений, статус заставки – используются для определения Active Viewing.
Пользовательские факторы (Опционально):
- Патент упоминает возможность анализа данных по типу или классу пользователя (например, эксперты, новички) для создания специализированных профилей использования.

Какие метрики используются и как они считаются

Относительное время использования раздела: Ключевая метрика ценности раздела (Claims 1 и 5). Рассчитывается путем агрегации времени, проведенного пользователями на этом разделе, и сравнения его с другими разделами того же документа. Время простоя исключается с помощью механизма Active Viewing.
Частота закладок (Bookmark Frequency): Процент пользователей, добавивших определенную страницу/раздел в закладки.
Взвешенная частота ключевых слов (Weighted Keyword Frequency): Патент предлагает рассчитывать значимость ключевого слова с учетом веса (использования) раздела, в котором оно находится. Слово, часто встречающееся на самой просматриваемой странице, может быть важнее слова, которое чаще встречается в документе в целом.
Общее использование документа: Совокупное время использования документа всеми пользователями. Может использоваться для ранжирования документов относительно друг друга.

Выводы

Поведенческие данные как прямой сигнал релевантности: Патент описывает механизм, где агрегированные данные о поведении пользователей (user engagement, dwell time) используются как прямой индикатор ценности контента для корректировки ранжирования.
Гранулярность оценки на уровне разделов: Оценка производится не только на уровне документа, но и на уровне его отдельных частей (страниц, разделов). Это позволяет поисковой системе определять наиболее ценные сегменты контента, что тесно связано с концепцией Passage Ranking.
Контекст расположения ключевых слов критичен: Ключевое утверждение (Claim 1) прямо указывает: если ключевое слово находится в разделе, который пользователи просматривают дольше всего, позиция документа улучшается. Релевантность определяется не только наличием слова, но и его расположением в «ценном» (с точки зрения поведения пользователей) контексте.
Борьба с манипуляциями (Keyword Spamming): Использование реальных поведенческих данных снижает эффективность переспама. Перенасыщение ключевыми словами разделов, которые пользователи пропускают, не даст эффекта.
Важность структуры и удержания внимания: Для SEO критически важно не только привлечь пользователя на страницу, но и удержать его внимание на ключевых разделах, содержащих целевые запросы.
Обеспечение качества данных: Включены механизмы для повышения точности собираемых данных, такие как обнаружение Active Viewing для исключения времени простоя.

Практика

Best practices (это мы делаем)

Оптимизация удержания внимания (Dwell Time Optimization): Создавать контент, который вовлекает пользователя и стимулирует его тратить время на изучение материала. Использовать качественный текст, форматирование и мультимедиа для увеличения времени взаимодействия с ключевыми разделами.
Анализ поведения пользователей внутри страницы: Использовать инструменты аналитики (тепловые карты, карты скроллинга) для понимания того, какие части страницы/документа наиболее востребованы. Убедиться, что эти разделы оптимизированы под целевые запросы и содержат ключевую информацию.
Улучшение структуры и навигации (для HTML и PDF): Для длинных документов использовать анкорные ссылки и четкое оглавление (Table of Contents). Это помогает пользователям находить нужную информацию и способствует более длительному взаимодействию с релевантными разделами.
Оптимизация PDF-документов: К PDF-файлам (whitepapers, инструкции) следует относиться как к веб-страницам. Обеспечивать высокое качество контента и удобство чтения для стимулирования вовлеченности (длительное чтение, добавление в закладки).
Размещение ключевой информации в зонах высокой вовлеченности: Убедитесь, что ответы на основные запросы и целевые ключевые слова расположены в тех разделах контента, которые генерируют наибольшую вовлеченность.

Worst practices (это делать не надо)

Keyword Spamming и «Вода»: Создание объемного контента с низкой информационной плотностью или перенасыщение ключевыми словами. Если пользователи быстро пропускают эти разделы, система понизит их ценность, и вес ключевых слов будет снижен.
Введение в заблуждение (Кликбейт): Использование заголовков, которые привлекают трафик, но не соответствуют содержанию. Это приведет к короткому времени взаимодействия и низким показателям использования, что негативно скажется на ранжировании.
Сложная структура и плохое форматирование: Публикация «стены текста» или плохо структурированных PDF, в которых сложно ориентироваться. Это снижает вероятность того, что пользователи найдут и потратят время на изучение ключевых разделов.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на использовании поведенческих факторов для оценки качества и релевантности. Он демонстрирует, что оценка контента становится все более гранулярной, переходя от уровня домена и страницы к уровню отдельных разделов и пассажей. Внимание пользователя (Attention) является измеримым сигналом ценности. Долгосрочная SEO-стратегия должна фокусироваться на создании контента, который не просто соответствует интенту запроса, но и обеспечивает глубокое вовлечение пользователя.

Практические примеры

Сценарий 1: Оптимизация длинной статьи (HTML-документа)

Задача: Продвинуть статью «Полное руководство по уходу за орхидеями» по запросу «почему желтеют листья у орхидеи».
Анализ: С помощью карты скроллинга и анализа времени взаимодействия выясняется, что пользователи быстро прокручивают введение и останавливаются на разделе «Проблемы и решения», тратя на него в среднем 2 минуты.
Действия согласно патенту: Убедиться, что раздел «Проблемы и решения» содержит точную фразу «почему желтеют листья у орхидеи» и дает исчерпывающий ответ. Улучшить форматирование этого раздела для еще большего удержания (списки причин, фото).
Ожидаемый результат: Система фиксирует, что ключевой запрос находится в разделе с наибольшим временем взаимодействия (longer period of time). Согласно Claim 1, позиция документа по этому запросу улучшается.

Сценарий 2: Ранжирование технического руководства в формате PDF

Ситуация: Компания публикует 50-страничное техническое руководство в формате PDF. Раздел «Устранение неполадок» находится на страницах 40-45.
Как работает механизм (Гипотетическое применение): Если система отслеживает использование PDF (например, через Chrome PDF Viewer), она определяет, что пользователи проводят значительное время на страницах 40-45 и часто добавляют их в закладки.
Ожидаемый результат: Когда пользователь ищет решение проблемы (например, «ошибка код 123 [продукт]»), ключевые слова из запроса обнаруживаются в этом высокоценном разделе PDF. Система повышает рейтинг этого PDF в выдаче, так как ключевые слова находятся в разделе с длительным временем доступа, и потенциально дает прямую ссылку на этот раздел.

Вопросы и ответы

Что такое «Document Utilization Information» и чем она отличается от стандартных поведенческих факторов?

Document Utilization Information — это агрегированные данные о том, как множество пользователей взаимодействуют с конкретным документом. Ключевое отличие от стандартных метрик (вроде CTR или общего времени на сайте) заключается в гранулярности. Она показывает не просто факт использования документа, а то, какие именно страницы или разделы внутри него оказались наиболее ценными (дольше просматривались, чаще добавлялись в закладки).

Как именно время, проведенное на разделе документа, влияет на ранжирование согласно патенту?

В патенте (Claim 1) прямо указан механизм: если ключевое слово из поискового запроса находится в том разделе документа, который пользователи просматривают в течение более длительного периода времени, чем другие разделы, то позиция этого документа в результатах поиска улучшается. Это означает, что система использует время взаимодействия (dwell time) как прокси для оценки ценности и релевантности этого конкретного раздела.

Применяется ли этот патент только к PDF и DOC файлам?

Нет. Хотя PDF и DOC часто упоминаются в качестве примеров, патент определяет Electronic Document очень широко, включая HTML, JPEG, GIF, TIFF, электронные книги и веб-страницы. Описанные принципы в равной степени применимы к обычным веб-страницам (HTML), особенно к длинным статьям или сложным страницам, где можно выделить отдельные разделы и отслеживать взаимодействие с ними.

Как Google может собирать эти данные? Нужно ли устанавливать специальный софт?

Патент описывает инфраструктуру, включающую Usage Tracking Module на стороне клиента, и предлагает вознаграждение (Usage Credits) за участие. В современных условиях Google может собирать аналогичные данные через свои продукты: браузер Chrome (включая встроенный просмотрщик PDF), приложения Google Docs/Drive, а также через данные Google Analytics. Установка дополнительного стороннего ПО сейчас, скорее всего, не требуется.

Как этот патент связан с Passage Ranking (Индексированием пассажей)?

Патент тесно связан с концепцией Passage Ranking. Passage Ranking позволяет Google оценивать релевантность отдельных пассажей (частей) страницы. Этот патент предоставляет один из механизмов для определения того, какие именно пассажи являются наиболее ценными, используя для этого поведенческие данные. Если пассаж долго изучается пользователями, он является сильным кандидатом для ранжирования.

Учитывает ли система разницу между активным и пассивным просмотром (Active Viewing)?

Да. В патенте описан механизм проверки того, активно ли пользователь просматривает документ. Система может использовать тайм-ауты при отсутствии ввода, отслеживать активность в других приложениях или активацию скринсейвера, чтобы исключить время простоя из расчета Document Utilization Information. Это повышает точность данных об использовании.

Влияет ли добавление страницы в закладки на ранжирование?

Да, согласно описанию патента, создание закладок (Bookmarks) является одним из типов Usage Information, который собирается и агрегируется. Закладка рассматривается как явное свидетельство того, что пользователь находит информацию в данном месте ценной. Это используется как один из сигналов для повышения релевантности раздела или документа.

Может ли этот механизм бороться с Keyword Spamming?

Да, это одна из заявленных целей патента. Поскольку система придает вес только тем ключевым словам, которые находятся в активно используемых разделах, простое перенасыщение текста ключевыми словами в разделах, которые пользователи пропускают (например, в футере или в «водянистых» абзацах), не даст эффекта. Ценность ключевого слова определяется контекстом его использования.

Что такое «Определение ключевых слов» (Designating Keywords), основанное на использовании документа?

Это процесс определения важных терминов документа не только по их частоте (как в TF-IDF), но и с учетом популярности раздела, где они встречаются. Слово, которое появляется 5 раз на самой просматриваемой странице, может быть признано более важным ключевым словом, чем слово, которое появляется 10 раз на страницах, которые пользователи пропускают.

Какое влияние этот патент оказывает на стратегию создания лонгридов?

Лонгриды должны быть структурированы так, чтобы постоянно поддерживать вовлеченность пользователя. Если пользователи читают только введение, а основную часть пролистывают, ценность контента будет оценена низко. Важно использовать качественное форматирование, мультимедиа и сильное повествование, чтобы максимизировать время активного чтения ключевых разделов.