Google использует агрегированные данные о том, как пользователи взаимодействуют с контентом внутри документа. Система отслеживает время, проведенное на определенных разделах, и частоту добавления в закладки. Эта информация используется для определения наиболее ценных частей документа, что напрямую влияет на ранжирование в поиске и позволяет ссылаться на конкретные фрагменты.
Описание
Какую задачу решает
Патент решает проблему определения наиболее релевантных и полезных частей внутри электронных документов. Традиционным поисковым системам сложно оценить, какой именно раздел длинного документа наиболее ценен для пользователя. Изобретение направлено на улучшение качества поиска путем использования фактических данных об использовании контента в качестве сигнала релевантности, что также снижает зависимость от анализа ключевых слов и делает поиск менее уязвимым для манипуляций (keyword spamming).
Что запатентовано
Запатентована система сбора, агрегации и использования данных о взаимодействии пользователей с электронными документами для улучшения ранжирования. Ключевыми метриками являются время, проведенное пользователями на конкретном фрагменте (amount of time spent accessing the position), и использование закладок (bookmarks). Эти агрегированные данные (Document Utilization Information) используются поисковой системой для упорядочивания (ordering) результатов поиска. Также описан механизм стимулирования сбора этих данных через систему кредитов.
Как это работает
Механизм работает в несколько этапов:
- Сбор данных: Usage Tracking Module на стороне клиента отслеживает взаимодействие с документом (время просмотра разделов, закладки, печать).
- Стимулирование: Пользователи и поставщики контента мотивируются предоставлять эти данные в обмен на Usage Credits и Statistics Credits (например, премиум-поиск или повышенная видимость).
- Агрегация: Aggregator Server собирает данные от множества пользователей и создает профиль использования документа (Document Utilization Information), определяя наиболее популярные разделы.
- Ранжирование: Поисковая система использует эти агрегированные данные как фактор ранжирования. Документы или разделы с высоким уровнем использования получают приоритет, и система может направлять пользователя непосредственно к этим разделам.
Актуальность для SEO
Высокая. Использование агрегированных сигналов вовлеченности (User Engagement) для оценки качества и релевантности является фундаментальной частью современных поисковых систем. Хотя описанная система «кредитов» могла быть реализована иначе (например, через неявный сбор данных в Chrome/Android), базовая концепция крайне актуальна. Механизмы, ссылающиеся на конкретные фрагменты контента (например, Passage Ranking, Scroll-to-Text), тесно связаны с этими идеями.
Важность для SEO
Влияние на SEO — высокое (85/100). Патент предоставляет прямое подтверждение использования агрегированных поведенческих метрик (время взаимодействия и закладки) в качестве сигналов ранжирования. Это подчеркивает критическую важность оптимизации пост-клик поведения: удержания внимания пользователя и предоставления реальной ценности внутри контента, а не только оптимизации для привлечения клика.
Детальный разбор
Термины и определения
- Aggregator Server (Сервер-агрегатор)
- Сервер, который собирает информацию об использовании от множества пользователей, агрегирует ее и создает Document Utilization Information.
- Document Utilization Information (Информация об использовании документа)
- Агрегированные данные, отражающие, как пользователи взаимодействуют с документом. Показывает относительную ценность разных частей документа (например, гистограмма времени, проведенного на каждой странице).
- Specific Position / Location (Конкретная позиция / Местоположение)
- Определенный фрагмент внутри электронного документа (страница, глава, раздел, параграф), для которого отслеживается взаимодействие.
- Statistics Credits (Кредиты за статистику)
- Вознаграждение, предоставляемое поисковой системой поставщикам контента в обмен на Document Utilization Information. Могут быть обменены на преимущества, например, на повышение видимости (modifying priority) в поиске.
- Time Spent Viewing / Amount of Time (Время просмотра)
- Метрика, фиксирующая продолжительность взаимодействия пользователя с определенным разделом документа. Используется как показатель ценности или релевантности.
- Usage Credits (Кредиты за использование)
- Вознаграждение, предоставляемое пользователям в обмен на разрешение отслеживать и передавать данные об их использовании документов. Могут быть обменены на премиум-поиск (Premium Search).
- Usage Tracking Module (Модуль отслеживания использования)
- Клиентский модуль (например, в браузере или программе для чтения документов), который фиксирует взаимодействие пользователя с электронным документом (время, закладки, печать).
Ключевые утверждения (Анализ Claims)
Патент US8463766B1 фокусируется на использовании собранных поведенческих данных для ранжирования.
Claim 1 (Независимый пункт): Описывает основной процесс использования агрегированных данных для ранжирования.
- Система получает агрегированную информацию об использовании документа (aggregate document usage information) от множества пользователей (plurality of users).
- Эта информация характеризует взаимодействия с одним и тем же конкретным местом (same specific position) внутри документа.
- Ключевая метрика: информация включает количество времени (amount of time), которое пользователи потратили на доступ к этой позиции.
- Система получает поисковый запрос.
- Система получает результаты поиска, включающие данный документ.
- Система упорядочивает (ordering) результаты поиска, основываясь, по крайней мере частично, на этой информации об использовании.
Система использует агрегированное время, проведенное пользователями на определенном фрагменте документа, как сигнал для определения порядка результатов в поисковой выдаче.
Claim 2 и 3 (Зависимые): Уточняют типы взаимодействий.
Взаимодействие включает создание или удаление закладки (bookmark) для данного местоположения. Информация об использовании может включать данные о доле пользователей, создавших закладку в этом месте.
Claim 4 (Зависимый): Уточняет представление результата.
Результат поиска, идентифицирующий документ, также идентифицирует конкретное местоположение (location) в этом документе (т.е. наиболее используемую часть).
Claim 6 (Зависимый): Уточняет фактор ранжирования.
Ранг (rank) документа в упорядоченном списке основывается, по крайней мере, на количестве времени (amount of time), проведенном пользователями на документе/фрагменте.
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры, фокусируясь на сборе поведенческих данных и их использовании при ранжировании.
CRAWLING (Data Acquisition) – Сбор данных
Это не традиционный краулинг веба. Usage Tracking Module на клиентских устройствах фиксирует поведенческие данные (время, закладки) и передает их на Aggregator Server. Это сбор «сырья» о поведении пользователей.
INDEXING (Feature Extraction) – Индексирование и извлечение признаков
Aggregator Server обрабатывает сырые данные и создает структурированную Document Utilization Information. Эта информация передается поисковой системе и индексируется как признаки (features), связанные с документом и его конкретными разделами (specific positions).
RANKING – Ранжирование
Основной этап применения. Алгоритм поиска использует Document Utilization Information (в частности, amount of time и bookmarks) как сигналы для определения порядка (ordering) результатов поиска. Документы с более высокими показателями вовлеченности могут получать повышение.
METASEARCH (SERP Presentation) – Метапоиск и Представление SERP
Система может модифицировать отображение результата поиска. Вместо стандартной ссылки на начало документа, результат может включать прямую ссылку на конкретное место (location) внутри документа, которое имеет наивысшие показатели использования (Claim 4).
Входные данные:
- Сырые данные об использовании от пользователей (время на страницу, закладки, печать).
- Поисковый запрос пользователя.
Выходные данные:
- Упорядоченный список результатов поиска.
- (Опционально) Ссылки на конкретные разделы внутри документов.
На что влияет
- Типы контента: Наибольшее влияние на структурированные электронные документы и длинный веб-контент (лонгриды, руководства, документация, электронные книги), где есть четкое разделение на страницы или разделы. Упоминаются форматы HTML, PDF, DOC, JPEG, GIF и другие.
- Специфические запросы: Информационные и исследовательские запросы, где пользователь ищет конкретный ответ внутри большого объема информации.
- Ниши: Любые ниши, где качество контента сильно варьируется. Система помогает выделить контент, который пользователи фактически считают полезным, снижая эффективность keyword spamming.
Когда применяется
- Условия работы: Алгоритм применяется, когда для документа накоплено достаточное количество агрегированных данных об использовании (Document Utilization Information) от множества пользователей.
- Триггеры активации: Активируется в процессе ранжирования для улучшения релевантности, когда необходимо сравнить ценность различных документов или выделить наиболее полезный фрагмент.
Пошаговый алгоритм
Процесс разделен на сбор/агрегацию данных и использование данных при поиске.
Поток А: Сбор, агрегация и стимулирование (Офлайн или Near Real-Time)
- Отслеживание использования: Usage Tracking Module на устройстве пользователя обнаруживает использование документа (время просмотра страниц/разделов, создание/удаление закладок).
- Передача данных: Данные об использовании передаются на Aggregator Server.
- Агрегация: Aggregator Server получает данные от множества пользователей и агрегирует их для каждого конкретного документа и его разделов.
- Создание статистики использования: Система создает Document Utilization Information (например, расчет среднего времени на страницу, частоты закладок).
- Начисление пользовательских кредитов: Система начисляет Usage Credits пользователям, предоставившим данные.
- Передача агрегированных данных: Aggregator Server передает Document Utilization Information на Search Engine Server (потенциально в обмен на Statistics Credits).
Поток Б: Обработка запроса и ранжирование (Real-Time)
- Получение запроса: Search Engine Server получает поисковый запрос.
- Использование кредитов (Опционально): Система проверяет запросы на использование Usage Credits (для премиум-поиска) или Statistics Credits (для повышения приоритета документа поставщиком).
- Получение кандидатов: Система отбирает набор документов, релевантных запросу.
- Ранжирование с учетом использования: Система извлекает Document Utilization Information для кандидатов. Результаты упорядочиваются (ранжируются) на основе стандартных факторов и данных об использовании (amount of time, bookmarks).
- Формирование выдачи: Система генерирует финальный список. Для документов с высокими показателями использования конкретных разделов могут быть сформированы прямые ссылки на эти разделы (Claim 4).
- Предоставление результатов: Упорядоченные результаты передаются пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется преимущественно на поведенческих факторах, собираемых после открытия документа.
- Поведенческие факторы (Ключевые):
- Время взаимодействия: Количество времени (amount of time), которое пользователь тратит на просмотр определенной страницы, главы или раздела (Claim 1).
- Закладки (Bookmarks): Создание или удаление закладок на определенных страницах (Claim 2).
- Другие виды использования (упомянутые в описании): Печать (printing), отправка по электронной почте (e-mailing), открытие и закрытие документа.
- Пользовательские факторы (Опционально): Упоминается возможность анализа данных по типу пользователя (type of user) или классу пользователя (class of user) для более сложного анализа (например, придание большего веса экспертам).
Какие метрики используются и как они считаются
- Aggregated Time Spent (Агрегированное время просмотра): Суммарное или среднее время, проведенное множеством пользователей на конкретном разделе (specific position). Патент предполагает, что длительное время просмотра является показателем ценности (proxy for the value, utility, or relevance).
- Bookmark Frequency (Частота закладок): Процент пользователей, которые добавили закладку на определенную страницу (Claim 3). Считается сильным индикатором ценности контента.
- Визуализация использования: Упоминается возможность создания гистограммы (histogram-like display), иллюстрирующей время, потраченное на каждую страницу.
- Нормализация и Активность: Система может учитывать активность пользователя, чтобы отличить активный просмотр от открытой вкладки. В описании указано, что быстрое пролистывание страницы может указывать на меньшую ценность, чем страница, которую пользователь еще не видел, так как быстрое пролистывание отражает низкую оценку пользователем этого контента.
Выводы
- Агрегированные поведенческие сигналы как фактор ранжирования: Патент явно описывает использование агрегированных данных о взаимодействии пользователей (aggregate document usage information) для упорядочивания (ранжирования) результатов поиска (Claim 1).
- Ключевые метрики вовлеченности: Конкретно выделены время взаимодействия с контентом (amount of time) и использование закладок (bookmarks). Это подтверждает важность удержания внимания пользователя.
- Гранулярность до уровня раздела (Fragment-level): Система оценивает релевантность на уровне конкретных мест или разделов (specific position/location), а не только документа в целом. Это позволяет выявлять наиболее ценные фрагменты контента.
- Прямые ссылки на основе использования: Заявлена возможность направлять пользователя в результатах поиска непосредственно к наиболее используемому разделу документа (Claim 4). Это лежит в основе функций, таких как ссылки на фрагменты текста (Scroll-to-Text) или Passage Ranking.
- Поведенческие данные как защита от спама: Механизм предложен как способ улучшения качества поиска и борьбы с keyword spamming, так как он опирается на реальное использование, которым сложнее манипулировать.
- Ценность данных о поведении: Описанная система вознаграждений (Usage Credits и Statistics Credits) подчеркивает высокую ценность поведенческих данных для поисковой системы.
Практика
Best practices (это мы делаем)
- Оптимизация вовлеченности и удержания (Engagement Optimization): Создавайте контент, который удерживает внимание пользователя. Если пользователи проводят много времени, изучая ваш контент, это интерпретируется как положительный сигнал (высокий amount of time spent).
- Создание контента, достойного закладок (Bookmark-Worthy Content): Фокусируйтесь на создании «вечнозеленого» контента, справочных материалов, уникальных исследований и инструментов, к которым пользователи захотят возвращаться. Высокая частота добавления в закладки (bookmarks) является сильным сигналом качества согласно патенту.
- Четкая структура длинного контента: Для лонгридов и руководств используйте понятную структуру, анкорные ссылки и содержание (Table of Contents). Концентрация использования на конкретных разделах помогает системе идентифицировать эти разделы как наиболее ценные (specific positions).
- Оптимизация под фрагменты (Passage Optimization): Структурируйте контент так, чтобы ключевые ответы были четко сформулированы. Это повышает вероятность того, что система выберет ваш фрагмент для прямой ссылки на раздел в SERP, основываясь на поведенческих данных.
Worst practices (это делать не надо)
- Использование кликбейта: Привлечение трафика, который не конвертируется в реальное взаимодействие (низкое time spent viewing), будет негативно влиять на оценку документа этим алгоритмом.
- Тонкий контент и быстрое пролистывание: Контент, который пользователи быстро прокручивают в поисках ответа. Патент указывает, что быстрое пролистывание страницы может указывать на низкую ценность этого раздела.
- Игнорирование структуры и навигации: Публикация больших объемов текста без четкой структуры затрудняет взаимодействие и формирует слабые сигналы использования.
- Фокус на Keyword Spamming: Патент прямо указывает, что анализ использования призван бороться с манипуляциями ключевыми словами. Переоптимизированный контент без реальной ценности будет пессимизирован.
Стратегическое значение
Этот патент подтверждает стратегический приоритет Google на оценку реального пользовательского опыта (User Experience) и пост-клик поведения. Для SEO это означает, что критически важно то, как пользователь взаимодействует с контентом после клика. Патент также является сильным индикатором развития технологий анализа фрагментов контента (Passage Analysis) и функций SERP, направляющих пользователя к конкретным ответам внутри страницы.
Практические примеры
Сценарий: Ранжирование технического руководства (Лонгрид или PDF)
- Ситуация: Опубликовано подробное руководство по программированию на Python (50 страниц).
- Поведение пользователей: Большинство пользователей быстро пролистывают введение, проводят много времени на Главе 5 (Работа со списками) и часто ставят закладки на Главу 10 (Примеры кода).
- Обработка данных Google: Система агрегирует эти данные и формирует Document Utilization Information. Главы 5 и 10 идентифицируются как наиболее ценные (high value positions).
- Запрос пользователя: Пользователь ищет «как работать со списками в Python».
- Ранжирование и Результат: Google ранжирует это руководство выше конкурентов из-за сильных сигналов использования. В SERP может быть предоставлена прямая ссылка (Fragment URL) непосредственно на Главу 5 этого руководства.
Вопросы и ответы
Подтверждает ли этот патент, что Dwell Time (время пребывания на сайте) является фактором ранжирования?
Да, в значительной степени. Claim 1 прямо заявляет метод ранжирования результатов поиска, основанный на amount of time (количестве времени), которое множество пользователей потратили на доступ к позиции в документе. Это описание очень близко к концепции агрегированного Dwell Time как сигнала релевантности и качества.
Являются ли закладки (Bookmarks) прямым фактором ранжирования?
Да, согласно патенту. Claim 2 и 3 прямо указывают, что создание закладок является отслеживаемым взаимодействием, и доля пользователей, создавших закладку в определенном месте, является частью Document Utilization Information, используемой для ранжирования. Это сильный сигнал ценности контента.
Как Google собирает эти данные? Через Chrome или Analytics?
Патент описывает сбор через Usage Tracking Module в программе для чтения документов и систему стимулов (Usage Credits). Хотя этот конкретный механизм мотивации мог устареть, сегодня Google с высокой вероятностью собирает аналогичные сигналы взаимодействия через браузер Chrome, Android и другие свои сервисы. Концепция сбора данных о вовлеченности остается актуальной.
Применяется ли этот механизм ко всем типам контента?
Патент применим ко всем электронным документам, включая HTML (веб-страницы), PDF, DOC и другие. Наиболее эффективен он для длинных, структурированных документов (лонгридов, руководств), где есть необходимость выделять отдельные наиболее используемые разделы.
Как этот патент связан с Passage Ranking или функцией Scroll-to-Text?
Патент описывает механизм сбора данных, который делает эти функции возможными. Document Utilization Information позволяет системе понять, какие именно фрагменты (passages) документа наиболее ценны для пользователей. Это обеспечивает данные для ранжирования этих фрагментов или создания прямых ссылок на них в SERP (Scroll-to-Text).
Что такое «Usage Credits» и «Statistics Credits»? Используются ли они до сих пор?
Usage Credits – вознаграждение пользователям за данные. Statistics Credits – вознаграждение владельцам сайтов за агрегированную статистику. Маловероятно, что эта система «кредитов» используется сегодня в том виде, как описано, но она демонстрирует, насколько ценны эти поведенческие данные для Google.
Что важнее: общее время на сайте или время на конкретной странице/разделе?
Патент фокусируется на времени, проведенном на конкретном разделе (specific position) документа. Цель – определить наиболее ценные фрагменты контента, а не просто измерить общее время пребывания на сайте.
Может ли система отличить активное чтение от открытой вкладки или быстрого пролистывания?
Да. В патенте упоминается, что система может попытаться определить, активно ли пользователь просматривает документ. Также отмечается, что быстрое пролистывание (scrolling) страницы может быть оценено негативно, как показатель низкой ценности этого раздела.
Как SEO-специалист может повлиять на эти метрики?
Необходимо оптимизировать контент для улучшения взаимодействия. Это включает повышение качества и релевантности, улучшение читабельности, использование четкой структуры и добавление полезных элементов. Все, что удерживает внимание пользователя и мотивирует его добавить контент в закладки, будет полезно.
Могут ли конкуренты намеренно ухудшать поведенческие факторы?
Система использует агрегированные данные от множества пользователей (plurality of users). Это защищает от манипуляций со стороны отдельных лиц. Для существенного влияния на метрики требуется масштабная атака, которую системы Google, как правило, умеют фильтровать как аномальную активность.