Как Google использует детальные данные о поведении пользователя на устройстве (Client-Side Behavior) для ранжирования результатов

Google использует механизм для улучшения ранжирования путем анализа взаимодействия пользователя с документами, email и веб-страницами на его устройстве. Система отслеживает детальные действия, такие как скроллинг, движение мыши, копирование, печать и частоту доступа. Эти данные используются для расчета оценки ранжирования, определяя, какие результаты наиболее важны для пользователя, что является основой для персонализации и оценки вовлеченности.

Описание

Какую задачу решает

Патент решает проблему неэффективности традиционных методов ранжирования, особенно в клиентских (локальных) поисковых системах. Эти методы часто полагались только на контент документа (например, частоту ключевых слов) или базовые атрибуты файла (дата сохранения, размер). Это приводило к выдаче результатов, не отсортированных по реальной важности или интересу для пользователя. Изобретение улучшает качество поиска, вводя механизм оценки релевантности на основе того, как пользователь фактически взаимодействует с контентом.

Что запатентовано

Запатентована система и метод для определения Ranking Score документа (Article) на основе данных о поведении на стороне клиента (Client-Side Behavior Data). Система отслеживает широкий спектр действий пользователя при взаимодействии с документом (скроллинг, печать, копирование, движение мыши, частота доступа и т.д.). Эти данные собираются и используются поисковой системой для ранжирования результатов, чтобы более точно отразить интерес пользователя к конкретному контенту.

Как это работает

Система работает в несколько этапов:

Мониторинг: Monitoring Engine постоянно отслеживает взаимодействие пользователя с различными документами (веб-страницы, локальные файлы, электронные письма) на его устройстве.
Сбор данных: Собираются детальные Client-Side Behavior Data (например, активность скроллинга, движения мыши, время и частота доступа, действия по копированию, печати).
Хранение: Данные сохраняются в Data Store в привязке к конкретному документу.
Обработка запроса: При получении поискового запроса (явного или неявного) система находит релевантные документы.
Ранжирование: Ranking Processor извлекает поведенческие данные для этих документов и рассчитывает Ranking Score, основываясь на этих данных. Разные типы поведения могут иметь разный вес.
Предварительный расчет: Система также может рассчитывать независимую от запроса оценку важности документа (Query-Independent Score) на основе накопленных поведенческих данных.

Актуальность для SEO

Высокая. Хотя патент подан в 2003 году и изначально мог быть связан с Google Desktop Search (локальный поиск), описанные концепции являются фундаментальными для современных поисковых систем. Метрики вовлеченности пользователя, персонализация и сигналы, связанные с Dwell Time, критически важны в 2025 году. Сбор подобных данных через браузеры (Chrome) и мобильные ОС (Android) делает этот механизм крайне актуальным для веб-поиска.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10) для понимания SEO. Он описывает детальный механизм того, как Google может измерять вовлеченность пользователя и персонализировать выдачу. Это подтверждает необходимость смещения фокуса с традиционных факторов на качество пользовательского опыта (UX), глубину взаимодействия с контентом (UE) и удержание внимания. Если Google применяет эти методы в веб-поиске, используя данные из Chrome/Android, это напрямую влияет на ранжирование сайтов, обеспечивающих высокую вовлеченность.

Детальный разбор

Термины и определения

Article (Документ/Статья): Любая единица контента: веб-страницы (HTML, PDF), документы офисных приложений, сообщения чата, электронные письма, аудио, видео и т.д.
Client-Side Behavior Data (Данные о поведении на стороне клиента): Данные, отражающие взаимодействие пользователя или клиентского устройства с документом. Включают широкий спектр действий: ввод данных, переписку, историю документа и ссылочные действия.
Client Behavior Score (Оценка поведения клиента): Предварительно рассчитанная оценка (упоминается в патенте как predetermined client behavior score), отражающая относительную частоту и тип взаимодействий пользователя с документом.
Monitoring Engine (Механизм мониторинга): Компонент системы, который отслеживает и записывает взаимодействие пользователя с документами на клиентском устройстве.
Query Processor (Обработчик запросов): Компонент, который получает явный поисковый запрос от пользователя или генерирует неявный запрос (Implicit Query) на основе контекстных данных (например, текста, который пользователь вводит в приложении).
Ranking Processor (Процессор ранжирования): Компонент, который рассчитывает Ranking Score для документов, используя Client-Side Behavior Data и, возможно, другие факторы (включая традиционные методы и внешние данные, такие как PageRank).
Query-Independent Score (Оценка, независимая от запроса): Оценка важности или релевантности документа, рассчитанная на основе Client-Side Behavior Data вне контекста конкретного поискового запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования.

Система получает или создает поисковый запрос.
Определяется релевантный документ, связанный с запросом.
Определяется Ranking Score для этого документа, основанный, по крайней мере частично, на Client-Side Behavior Data, связанных с этим документом.

Ядро изобретения: использование данных о предыдущих взаимодействиях пользователя с конкретным документом для его ранжирования в ответ на новый запрос.

Claims 6-21 (Зависимые): Детализируют типы Client-Side Behavior Data. Эти пункты защищают использование конкретных метрик взаимодействия:

Активность скроллинга (Claim 6), данные о печати (Claim 7), закладки (Claim 8), использование приложений и время простоя (Claims 9-12), частота и время доступа (Claims 13-15), пересылка, копирование, ответы (Claims 16-18), движение мыши (Claim 19), взаимодействие с другими документами (Claim 20) и данные о местоположении файла (Claim 21).

Claim 24 (Зависимый): Уточняет механизм взвешивания.

При расчете комбинированной оценки используются разные веса (different weights) для разных типов поведенческих данных или для данных, связанных с разными приложениями. Это указывает на сложную модель, где, например, редактирование может иметь больший вес, чем просмотр.

Claim 25 (Независимый пункт): Описывает метод предварительного расчета оценки (Predetermined Client Behavior Score).

Система определяет и сохраняет поведенческую оценку документа заранее, до поступления поискового запроса, основываясь на Client-Side Behavior Data.

Claim 27 (Независимый пункт): Описывает использование независимой от запроса оценки (Query-Independent Score).

Система рассчитывает Ranking Score во время запроса, используя предварительно вычисленный Query-Independent Score. Это подтверждает использование поведенческих данных как общего сигнала важности/качества документа для пользователя.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, преимущественно на стороне клиента, но с возможностью интеграции с сетевым поиском.

CRAWLING & INDEXING (Клиентская сторона)
Monitoring Engine постоянно сканирует активность пользователя и индексирует Client-Side Behavior Data. Эти данные сохраняются в локальном Data Store и ассоциируются с конкретными документами (локальными файлами или URL веб-страниц). На этом этапе также могут рассчитываться Query-Independent Scores.

QUNDERSTANDING – Понимание Запросов
Query Processor может генерировать не только явные запросы, но и неявные (Implicit Queries) на основе текущего контекста пользователя (например, на основе текста, который пользователь вводит в документе).

RANKING – Ранжирование
Основное применение патента. Ranking Processor использует собранные поведенческие данные для расчета Ranking Score. Это может происходить как в реальном времени во время запроса, так и с использованием предварительно рассчитанных Query-Independent Scores.

RERANKING – Переранжирование (Персонализация)
Описанный механизм по сути является системой персонализации. Он переранжирует стандартный набор результатов (полученный на основе контента или сетевых сигналов), основываясь на личной истории взаимодействия пользователя с этими документами.

Входные данные:

Поисковый запрос (явный или неявный).
Набор релевантных документов (Articles).
Client-Side Behavior Data (скроллинг, печать, время доступа и т.д.).
Опционально: Внешние данные ранжирования (патент упоминает возможность интеграции с PageRank для веб-страниц).

Выходные данные:

Ranking Score для каждого документа, учитывающий поведенческие данные.
Отсортированный список результатов поиска.

На что влияет

Типы контента: Влияет на все типы контента, с которыми взаимодействует пользователь: веб-страницы, электронные письма, локальные документы (Word, Excel, PDF), чаты.
Персонализация выдачи: Оказывает сильное влияние на персонализированные результаты поиска. Документы, с которыми пользователь часто и активно взаимодействует, будут ранжироваться выше.
Веб-поиск: Патент прямо указывает (Параграф [0075]), что система может использоваться для ранжирования статей, расположенных в сети (например, в Интернете), и может комбинировать эти данные с сетевыми оценками ранжирования.

Когда применяется

Триггеры активации: Применяется при выполнении любого поискового запроса в системе, которая собирает и использует Client-Side Behavior Data.
Условия: Наличие накопленных данных о взаимодействии пользователя с документами, релевантными запросу. Чем больше данных, тем сильнее влияние на ранжирование.

Пошаговый алгоритм

Процесс А: Сбор данных (Фоновый процесс)

Мониторинг активности: Monitoring Engine отслеживает действия пользователя в клиентских приложениях.
Определение поведенческих данных: Система фиксирует различные типы взаимодействий с документами (скроллинг, печать, закладки, время простоя, частота доступа, движение мыши, копирование, пересылка, местоположение и т.д.).
Хранение данных: Собранные Client-Side Behavior Data сохраняются в Data Store в ассоциации с идентификатором конкретного документа.
(Опционально) Расчет независимой оценки: Система периодически рассчитывает и сохраняет Query-Independent Score для документов на основе накопленных данных.

Процесс Б: Обработка запроса и ранжирование

Получение запроса: Query Processor получает явный запрос или генерирует неявный.
Определение релевантных документов: Article Locator находит набор документов, соответствующих запросу.
Итерация по документам: Система обрабатывает каждый релевантный документ.
Извлечение поведенческих данных: Client Behavior Data Processor извлекает из Data Store поведенческие данные (или предварительно рассчитанный Client Behavior Score), связанные с текущим документом.
Расчет Ranking Score: Ranking Processor определяет оценку ранжирования для документа. Оценка базируется, по крайней мере частично, на полученных поведенческих данных. Система использует весовые коэффициенты для разных типов поведения и разных приложений (Claim 24).
Сортировка: Релевантные документы упорядочиваются в соответствии с их Ranking Score.
Отображение: Отсортированные результаты отображаются пользователю.

Какие данные и как использует

Данные на входе

Патент описывает исключительно широкий спектр поведенческих факторов (Client-Side Behavior Data):

Поведенческие факторы (Взаимодействие и Вовлеченность):
- Скроллинг (Scrolling activity data): Объем скроллинга, местоположение в документе, время, потраченное на скроллинг.
- Движение мыши (Mouse movement data): Объем и манера движения, вероятность намеренного движения, зависание курсора над определенной областью (hovering).
- Ввод данных (Input action data): Набор текста, использование голосового ввода.
- Копирование (Copying data): Факт копирования контента из документа, объем скопированного материала.
- Время простоя (Idleness data): Время, прошедшее с момента прекращения активности пользователя с документом; активен ли документ или виден пользователю.
Поведенческие факторы (Использование и Навигация):
- Частота доступа (Frequency of article access data): Как часто документ открывался пользователем.
- Время доступа (Time of access data): Время суток доступа, продолжительность доступа (сессии), время с момента последнего доступа.
- Закладки (Book marking data): Добавление URL в закладки, закладки внутри текста, текст закладки.
Поведенческие факторы (Распространение):
- Печать (Printing data): Когда и как часто документ печатался, какие части документа были напечатаны.
- Пересылка (Forwarding data) и Ответы (Replying data): Факт отправки документа по email, в мессенджере и т.д.
Технические и Контекстные факторы:
- Местоположение (Location data): Полный путь к файлу (например, c:\documentsudgets\). Термины из пути могут ассоциироваться с документом.
- Использование приложений (Use of computer program applications data): Какие программы активны, как часто используется приложение, среднее время сессии. Это может передавать вес документам, созданным в этом приложении.

Какие метрики используются и как они считаются

Ranking Score: Агрегированная оценка. Рассчитывается путем взвешивания различных Client-Side Behavior Data и других факторов ранжирования.
Client Behavior Score / Query-Independent Score: Предварительно рассчитанная метрика важности документа для пользователя, основанная исключительно на поведенческих данных, вне контекста запроса.
Весовые коэффициенты: Система использует веса для определения значимости различных действий (Claim 24). Например, активное редактирование или печать могут иметь больший вес, чем простое открытие документа без последующего скроллинга или взаимодействия. Веса могут также зависеть от приложения.
Агрегация данных: Упоминается возможность расчета комбинированной оценки на основе данных нескольких пользователей (Claim 22).

Выводы

Фундамент для измерения вовлеченности (Engagement) и Dwell Time: Патент детально описывает, как измерять реальное взаимодействие пользователя с контентом за пределами простого клика. Метрики, такие как скроллинг, движение мыши, копирование и время доступа, являются прямыми индикаторами вовлеченности и удовлетворенности пользователя.
Персонализация как ключевой фактор ранжирования: Система предназначена для выявления того, что важно для конкретного пользователя. Client-Side Behavior Data являются основой глубокой персонализации поисковой выдачи.
Query-Independent Behavioral Score: Google может рассчитывать независимую от запроса оценку важности документа (веб-страницы) для пользователя на основе его предыдущих взаимодействий. Это может служить персональным показателем авторитетности.
Активное взаимодействие ценится выше пассивного: Патент подчеркивает разницу между активными действиями (печать, редактирование, скроллинг) и пассивным просмотром (например, учет Idleness data). Документ, с которым активно работали, считается более важным.
Применимость к Веб-поиску: Хотя система описана как клиентская, патент явно предусматривает ее использование для ранжирования сетевых ресурсов (веб-страниц) и интеграцию с сетевыми сигналами (PageRank). Это критически важно для SEO, так как предполагает сбор поведенческих данных через браузеры (Chrome) или ОС (Android).

Практика

Best practices (это мы делаем)

Практики основаны на предположении, что Google использует аналогичные поведенческие сигналы в веб-поиске.

Оптимизация под глубокое вовлечение (Engagement): Создавайте контент, который стимулирует активное взаимодействие. Используйте форматирование, мультимедиа и структуру, которые побуждают пользователя скроллить страницу до конца (Scrolling activity data), взаимодействовать с элементами и проводить на ней время (увеличивать Time of access data).
Стимулирование повторных визитов: Поскольку Frequency of article access data является фактором, стратегии удержания пользователей (регулярные обновления, email-рассылки, создание полезных инструментов) приобретают дополнительное значение для SEO.
Улучшение юзабилити (UX) и читаемости: Дизайн должен способствовать легкому потреблению контента. Если пользователи активно двигают мышью и скроллят (Mouse movement data), это сигнализирует о вовлеченности. Плохое юзабилити, ведущее к быстрому закрытию вкладки, будет негативным сигналом.
Поощрение сохранения контента: Стимулируйте пользователей добавлять страницу в закладки (Book marking data) или скачивать/печатать полезные материалы (Printing data). Это сильные сигналы важности контента.
Оптимизация под копирование (Copying Data): Делайте ключевую информацию (например, контактные данные, промокоды, цитаты, фрагменты кода) удобной для копирования. Факт копирования может являться сигналом ценности информации.

Worst practices (это делать не надо)

Имитация вовлеченности: Попытки искусственно накрутить поведенческие факторы. Система анализирует «манеру» движения мыши и скроллинга, оценивая их намеренность, что делает примитивную накрутку неэффективной.
Фокус только на привлечении трафика (Clicks): Получение клика без последующего взаимодействия (высокий Bounce Rate, низкий Dwell Time) является негативным сигналом в контексте этого патента. Если пользователь не скроллит и не взаимодействует, страница будет считаться нерелевантной для него.
Создание поверхностного контента: Контент, который не требует времени на изучение и не стимулирует взаимодействие, будет иметь низкие показатели Client-Side Behavior Data.
Использование навязчивых элементов: Элементы, которые мешают потреблению контента и приводят к хаотичному скроллингу или быстрому уходу со страницы, негативно скажутся на поведенческих метриках.

Стратегическое значение

Этот патент подтверждает стратегическую важность User Experience (UX) и Customer Retention в SEO. Он демонстрирует, что Google обладает методологией для детального измерения удовлетворенности и вовлеченности пользователей. Для Senior SEO-специалистов это означает, что долгосрочная стратегия должна фокусироваться на создании действительно полезного ресурса, к которому пользователи хотят возвращаться и с которым они активно взаимодействуют. Патент также подчеркивает важность персонализации и то, как история поведения пользователя формирует его будущую поисковую выдачу.

Практические примеры

Сценарий: Повышение ранжирования за счет вовлеченности и повторных визитов (Персонализация)

Ситуация: У пользователя есть два результата поиска по запросу «python pandas tutorial»: Сайт А (поверхностный обзор) и Сайт Б (детальное руководство с интерактивными примерами).
Взаимодействие: Пользователь заходит на Сайт А, быстро просматривает его (мало скроллинга) и уходит. Затем он заходит на Сайт Б.
Сбор данных (Client-Side Behavior Data) для Сайта Б:
- Пользователь активно скроллит страницу (Scrolling activity data).
- Копирует примеры кода (Copying data).
- Проводит на сайте 15 минут (Time of access data).
- Добавляет страницу в закладки (Book marking data).
- Возвращается к руководству на следующий день (Frequency of article access data).
Расчет Query-Independent Score: Система рассчитывает высокую независимую от запроса оценку для Сайта Б для этого пользователя.
Результат: При последующих запросах, связанных с Python или pandas, Сайт Б будет иметь значительное преимущество в ранжировании для этого конкретного пользователя, так как его Ranking Score будет повышен за счет высокого Query-Independent Score.

Вопросы и ответы

Означает ли этот патент, что Google отслеживает все действия пользователей в Chrome для ранжирования?

Патент описывает *метод* сбора и использования Client-Side Behavior Data для ранжирования, изначально сфокусированный на локальном поиске. Он не подтверждает, что именно этот метод используется в веб-поиске Google. Однако он демонстрирует, что Google разработал технологию для такого детального отслеживания и считает эти данные ценными. Учитывая наличие у Google Chrome и Android, техническая возможность сбора аналогичных данных для веб-поиска существует.

Какие метрики вовлеченности наиболее важны согласно этому патенту?

Патент не выделяет конкретные метрики как наиболее важные, но указывает (Claim 24), что система использует весовые коэффициенты для разных типов поведения. Перечислен широкий спектр: скроллинг, движение мыши, копирование, печать, добавление в закладки, частота и продолжительность доступа. Логично предположить, что действия, требующие больших усилий (например, печать, копирование, повторные визиты), имеют больший вес, чем пассивный просмотр.

Что такое Query-Independent Score, основанный на поведении?

Это оценка важности или полезности документа (веб-страницы) для конкретного пользователя, рассчитанная заранее, вне контекста какого-либо запроса. Она базируется на истории взаимодействия пользователя с этим документом. Это можно рассматривать как персональный показатель авторитетности, который затем используется при ранжировании по конкретным запросам.

Как этот патент связан с Dwell Time и Bounce Rate?

Патент описывает механизмы, которые лежат в основе измерения Dwell Time. Time of access data (продолжительность доступа) и Idleness data (время простоя) напрямую связаны с временем пребывания на сайте. Высокий Bounce Rate (быстрый уход без взаимодействия) будет выражаться в низких показателях скроллинга, движения мыши и продолжительности доступа, что приведет к низкому Ranking Score.

Как можно оптимизировать сайт под фактор «Копирование данных» (Copying Data)?

Факт копирования контента пользователем может сигнализировать о его ценности. Для оптимизации следует делать ключевую информацию (цитаты, примеры кода, контактные данные, инструкции, промокоды) удобной для выделения и копирования. Это может повысить поведенческие сигналы для страницы.

Влияет ли скорость скроллинга на ранжирование?

Патент упоминает сбор данных об активности скроллинга, включая объем, местоположение и время, потраченное на скроллинг. Система может анализировать манеру скроллинга. Медленный, вдумчивый скроллинг с остановками, вероятно, ценится выше, чем мгновенная прокрутка страницы до конца без остановки, так как это указывает на реальное потребление контента.

Что такое «Движение мыши» (Mouse Movement Data) как фактор ранжирования?

Система отслеживает объем и манеру движения мыши, а также зависание курсора (hovering) над определенными областями. Это помогает определить, читает ли пользователь текст (например, следуя курсором за строками) и какие элементы интерфейса привлекают его внимание. Это более точный индикатор вовлеченности, чем просто время на сайте.

Патент подан в 2003 году. Насколько он актуален сейчас?

Несмотря на возраст, патент крайне актуален концептуально. Описанные в нем принципы измерения детальной вовлеченности пользователя и персонализации стали мейнстримом в современных поисковых системах. Технологии сбора данных (через браузеры и мобильные ОС) значительно продвинулись, что делает реализацию описанных методов более эффективной сегодня, чем в 2003 году.

Может ли эта система использовать данные от нескольких пользователей?

Да, в патенте (Claim 22) упоминается возможность определения комбинированной оценки (combined score), основанной на client-side behavior data от нескольких пользователей (multiple users). Это предполагает возможность использования агрегированных поведенческих данных, что критически важно для веб-поиска.

Что такое неявные запросы (Implicit Queries) в контексте этого патента?

Неявный запрос генерируется системой автоматически на основе текущего контекста пользователя, без его явного ввода в строку поиска. Например, если пользователь пишет в документе текст «повестка дня бюджетного совещания», система может автоматически инициировать поиск релевантных документов по этим терминам и предложить их пользователю.