Как Google использует историю поиска и браузинга для персонализации выдачи и создания неявного "Избранного"

Google записывает историю поиска и просмотров пользователя для персонализации результатов. Система определяет «предпочтительные сайты» на основе частоты посещений, кликов и времени на сайте, повышая их в выдаче для этого пользователя. Патент также описывает объединение предпочтений пользователя с предпочтениями других людей для формирования комбинированного рейтинга.

Описание

Какую задачу решает

Патент решает задачу улучшения поискового опыта пользователя путем интеграции его прошлых действий (поисковых запросов, кликов по результатам и рекламе, истории браузинга) в процесс ранжирования. Он устраняет проблему универсальной выдачи, которая не учитывает индивидуальные предпочтения и историю взаимодействий пользователя с контентом. Система направлена на автоматическое определение «избранных» или «предпочтительных» сайтов пользователя без необходимости их явного указания.

Что запатентовано

Запатентована система мониторинга, записи и анализа активности пользователя для персонализации поиска и создания наборов «предпочтительных местоположений» (Preferred Locations). Ключевым элементом изобретения является метод объединения набора предпочтительных сайтов пользователя с наборами предпочтений других пользователей или сообществ. Это позволяет внедрять социальные сигналы (коллаборативную фильтрацию) в процесс ранжирования и представления результатов.

Как это работает

Система работает путем мониторинга активности пользователя через Client Assistant (например, тулбар или расширение браузера) или серверное логирование. Эти данные (запросы, клики, просмотры, время пребывания) сохраняются в User Information Database. На основе этой истории вычисляются производные данные (Derived Data) и оценки (например, History Score), которые определяют предпочтения пользователя. При получении нового запроса стандартные результаты поиска переранжируются с учетом этих оценок: ранее посещенные сайты повышаются или помечаются. Система также может объединять предпочтения пользователя с предпочтениями его сообщества, используя весовые коэффициенты.

Актуальность для SEO

Средняя-Высокая. Базовые принципы персонализации на основе истории поиска и поведения пользователя остаются фундаментальными для современных поисковых систем. Механизмы логирования поведения (клики, stay-time) критически важны. Однако, специфические аспекты социальной персонализации (объединение «избранного» с другими пользователями), описанные в патенте, были более актуальны в прошлом (например, в эпоху Google+) и значительно менее заметны в основном поиске Google в 2025 году.

Важность для SEO

Патент имеет высокое значение для понимания механизмов персонализации поиска (7.5/10). Он демонстрирует, как поведенческие метрики (клики, повторные визиты, время пребывания на сайте) могут напрямую влиять на SERP для конкретного пользователя. Это подчеркивает стратегическую важность создания сайтов, на которые пользователи регулярно возвращаются, превращая их в Preferred Locations.

Детальный разбор

Термины и определения

Client Assistant (Клиентский помощник): Локально работающая программа на клиенте (например, плагин или тулбар для браузера), предназначенная для мониторинга действий пользователя и передачи их в поисковую систему.
Derived Data (Производные данные): Информация, полученная путем анализа Event-Based Data. Включает профили пользователей, агрегированные оценки для контента (ContentID), основанные на частоте, времени пребывания, свежести посещений и т.д.
Event-Based Data (Данные, основанные на событиях): Сырые данные об активности пользователя. Включают типы событий: Query Event (запрос), Result Click Event (клик по результату), Ad Click Event (клик по рекламе), Browsing Event (просмотр страниц).
History Score (Оценка истории): Ранговое значение, связанное с событием. Часто упоминается как значение, которое может периодически изменяться (уменьшаться) в зависимости от времени, прошедшего с момента записи события.
Preferred Locations (Предпочтительные местоположения): Набор сайтов или страниц (включая лендинги рекламы), неявно определенных как «избранные» для пользователя на основе его истории посещений и поведения.
Query Session (Поисковая сессия): Группа связанных запросов и действий (кликов), выполненных пользователем в течение одного ограниченного периода времени (браузинг-сессии).
Session Group (Группа сессий): Объединение нескольких связанных Query Sessions из разных браузинг-сессий.
Stay-time (Время пребывания): Оценка времени, которое пользователь провел на странице. Используется как показатель интереса пользователя к контенту при расчете Derived Data и ранжировании Preferred Locations.
User Information Database (База данных информации о пользователе): Хранилище, содержащее записи об активности пользователей (Event-Based Data) и производную информацию (Derived Data).

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов, описывающих разные аспекты системы.

Claim 1 (Независимый пункт): Описывает метод объединения наборов местоположений (социальная персонализация).

Система получает запрос на список местоположений, удовлетворяющих условию.
Идентифицируется первый набор ранее посещенных местоположений из истории пользователя (Набор 1), имеющих ранговые значения.
Идентифицируется второй набор ранее посещенных местоположений (Набор 2, например, от другого пользователя или сообщества), также имеющих ранговые значения.
Набор 1 и Набор 2 объединяются.
Объединенный набор упорядочивается на основе соответствующих ранговых значений.

Claim 7 (Зависимый от 1): Детализирует процесс упорядочивания.

Упорядочивание включает применение первого весового коэффициента к Набору 1 и второго весового коэффициента к Набору 2. Это позволяет пользователю настраивать степень влияния чужих предпочтений на свой список.

Claim 12 (Независимый пункт): Описывает метод создания набора предпочтений для сообщества пользователей.

Для каждого участника сообщества идентифицируется его набор ранее посещенных местоположений с ранговыми значениями.
Эти наборы объединяются.
К ранговым значениям в каждом наборе применяется соответствующий весовой коэффициент (например, основанный на доверии или важности участника в сообществе).
Объединенный набор упорядочивается на основе взвешенных ранговых значений.

Claim 15 (Независимый пункт): Описывает базовый метод создания «избранного» (для одного пользователя).

Идентификация набора ранее посещенных местоположений из журнала посещений, хранящегося на сервере, где каждое местоположение имеет ранговые значения.
Упорядочивание этого набора на основе этих ранговых значений.

Где и как применяется

Изобретение в первую очередь затрагивает этапы ранжирования и переранжирования, используя отдельную инфраструктуру для сбора и хранения данных о поведении пользователей.

CRAWLING & INDEXING (Инфраструктура сбора пользовательских данных)
Хотя это не классическое сканирование веба, патент описывает инфраструктуру для сбора данных о поведении. Client Assistant или серверные логи собирают данные об активности (клики, запросы, просмотры) и передают их для хранения и индексации в User Information Database. На этом этапе вычисляются Derived Data и History Scores.

RANKING – Ранжирование
На этом этапе генерируется стандартный набор результатов для запроса.

RERANKING – Переранжирование (Персонализация)
Основное применение патента. Система использует данные из User Information Database для модификации стандартного набора результатов.

Корректировка оценок: Ranking Scores результатов корректируются на основе истории пользователя. Ранее посещенные или кликнутые результаты повышаются. Результаты, которые были показаны, но не кликнуты, могут понижаться.
Использование Preferred Locations: Сайты, классифицированные как предпочтительные (на основе частоты, stay-time и т.д.), получают дополнительное повышение.
Социальное смешивание: Если активировано, система объединяет предпочтения пользователя с предпочтениями сообщества, используя весовые коэффициенты, и переранжирует выдачу.

METASEARCH – Метапоиск и Смешивание
Система может отображать результаты из истории поиска в отдельном блоке (например, «My Search History results») и добавлять аннотации к результатам в основной выдаче (например, дату последнего посещения).

Входные данные:

Исходный запрос пользователя.
Идентификатор пользователя (User ID) или клиента (Client ID).
Стандартный набор результатов поиска.
User Information Database (история событий, производные оценки, предпочтительные сайты пользователя и сообщества).

Выходные данные:

Персонализированный (переупорядоченный) SERP.
Аннотации к результатам (индикаторы посещения, частота).
Отдельные блоки с историческими результатами.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, по которым у пользователя есть релевантная история. Это особенно заметно при навигационных запросах или повторяющихся информационных потребностях, где пользователь уже нашел предпочтительный источник.
Конкретные типы контента: Влияет на все типы контента, включая веб-страницы, лендинги рекламы (Ad Click Event) и обзоры продуктов (Product Event).

Когда применяется

Условия применения: Алгоритм применяется, когда пользователь может быть идентифицирован (через логин или cookie) И у пользователя есть релевантная история поиска или браузинга, связанная с текущим запросом.
Триггеры активации: Получение поискового запроса от идентифицированного пользователя.
Исключения: Пользователь может отказаться от записи истории (unsubscribed) или временно приостановить ее (функция «snooze»). В этих случаях персонализация на основе истории не применяется или ограничена.

Пошаговый алгоритм

Процесс А: Персонализация результатов поиска

Получение запроса: Система получает поисковый запрос от пользователя.
Стандартный поиск: Запрос выполняется по стандартному репозиторию документов.
Получение результатов: Система получает базовый набор результатов поиска.
Корректировка на основе истории: Система обращается к User Information Database и корректирует результаты. Это включает:
- Повышение результатов, которые пользователь ранее посещал или кликал. Величина повышения может зависеть от History Score, частоты, свежести визита и stay-time.
- Понижение результатов, которые ранее были показаны пользователю, но не были кликнуты.
- Добавление индикаторов (дата последнего визита, частота посещений).
- Выделение топовых исторических результатов в отдельный блок.
Предоставление ответа: Персонализированный набор результатов предоставляется пользователю.

Процесс Б: Объединение наборов избранного (Социальная персонализация)

Идентификация Набора 1: Определяется набор предпочтительных местоположений пользователя (Preferred Locations) и их ранговые значения.
Идентификация Набора 2: Определяется набор предпочтительных местоположений от других источников (другой пользователь, сообщество) и их ранговые значения.
Идентификация весовых коэффициентов: Определяются веса, которые будут применены к Набору 1 и Набору 2 (могут быть заданы пользователем или системой).
Объединение наборов: Наборы объединяются, при этом к ранговым значениям применяются весовые коэффициенты.
Упорядочивание: Комбинированный набор сортируется на основе взвешенных ранговых значений.
Предоставление ответа: Комбинированный набор предоставляется пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных для персонализации.

Поведенческие факторы: Являются критически важными.
- Поисковые запросы (Query Event).
- Клики по результатам поиска (Result Click Event).
- Клики по рекламе (Ad Click Event).
- История браузинга (Browsing Event) – посещенные URL.
- Частота посещений (Frequency).
- Свежесть посещений (Recency) – дата последнего визита.
- Время пребывания на сайте (Stay-time или dwell time).
Ссылочные факторы: PageRank упоминается как один из возможных критериев для ранжирования Preferred Locations.
Пользовательские факторы:
- Идентификаторы: User ID (логин), Client ID (cookie).
- Настройки подписки и приватности (subscription, snooze).
- Явные модификации ранжирования пользователем (user-modified ranking values).
- Аннотации или метки (Labels), добавленные пользователем к контенту.
- Данные о сообществе или социальной сети (используются для объединения избранного).

Какие метрики используются и как они считаются

History Score: Оценка, связанная с событием. В патенте упоминается, что ее значение может уменьшаться по мере увеличения времени с момента события (time-decay).
Derived Scores (Оценки для ContentID): Метрики, вычисляемые для конкретных URL на основе анализа истории. Факторы включают:
- Частота кликов/посещений за период времени.
- Stay-time (время пребывания).
- Время с момента последнего просмотра.
- Негативное влияние, если контент был показан в выдаче, но пользователь его не выбрал.
- Позитивное влияние, если пользователь посещает похожие сайты.
Visit Score (Оценка посещения): В одном из вариантов реализации это сумма оценок отдельных посещений (instance visit scores), где каждая оценка уменьшается со временем.
Weighting Factors (Весовые коэффициенты): Используются при объединении разных наборов Preferred Locations (например, своих и сообщества) для контроля их влияния на итоговый рейтинг.

Выводы

Персонализация через историю поведения: Патент подтверждает, что Google детально записывает и использует историю поведения пользователя (запросы, клики, просмотры, stay-time) для модификации поисковой выдачи.
Влияние на стандартное ранжирование: Персонализация применяется на этапе RERANKING и может существенно изменить порядок результатов для конкретного пользователя по сравнению со стандартной выдачей.
Неявное определение предпочтений (Implicit Feedback): Система автоматически определяет Preferred Locations (избранные сайты) на основе неявных сигналов: частоты посещений, повторных визитов и времени пребывания (stay-time). Явное добавление в закладки не требуется.
Учет негативного опыта: Патент явно указывает на возможность понижения (demotion) результатов, которые были ранее показаны пользователю, но не были кликнуты.
Инфраструктура для социальной персонализации: Значительная часть патента посвящена механизмам объединения предпочтений разных пользователей и сообществ. Хотя этот аспект менее заметен сегодня, инфраструктура для использования социальных сигналов была заложена.
Кросс-девайс трекинг: Система предусматривает объединение истории с разных устройств (Client IDs) под одним аккаунтом (User ID) для создания унифицированной истории пользователя.

Практика

Best practices (это мы делаем)

Фокус на вовлеченности и удовлетворенности пользователя: Стратегическая цель — стать Preferred Location для целевой аудитории. Это достигается через предоставление высококачественного контента, который полностью отвечает на запрос пользователя и стимулирует длительное пребывание на сайте (stay-time).
Оптимизация под высокий CTR и долгий клик (Long Click): Необходимо оптимизировать сниппеты для повышения кликабельности и обеспечивать отличный пост-клик опыт, чтобы избежать коротких кликов и возврата в выдачу (pogo-sticking). Это напрямую влияет на Derived Scores.
Стимулирование повторных визитов (Retention): Используйте брендинг, полезные инструменты, регулярные обновления контента, email-рассылки и другие методы удержания, чтобы увеличить частоту (frequency) и свежесть (recency) посещений. Чем чаще пользователь возвращается, тем выше вероятность повышения сайта в его персональной выдаче.
Построение бренда и узнаваемости: Работайте над узнаваемостью бренда, чтобы пользователи целенаправленно искали ваш сайт или предпочитали его в выдаче, генерируя позитивные поведенческие сигналы.

Worst practices (это делать не надо)

Использование кликбейта: Привлечение трафика обманными сниппетами приведет к коротким визитам (низкий stay-time). Система интерпретирует это как низкую удовлетворенность, что может привести к понижению сайта в персональной выдаче пользователя.
Игнорирование пост-клик оптимизации: Фокус исключительно на привлечении трафика без работы над качеством лендингов и пользовательским опытом приведет к негативным поведенческим сигналам.
Создание контента низкого качества: Если пользователи часто игнорируют ваш результат в выдаче (presented but not clicked), патент предполагает, что система может понизить его для этого пользователя в будущем.

Стратегическое значение

Патент является одним из фундаментальных документов, описывающих инфраструктуру персонализированного поиска Google. Он подтверждает, что поведенческие факторы играют ключевую роль в модификации выдачи для конкретного пользователя. Для SEO это означает, что стратегия не может заканчиваться на привлечении клика; оптимизация удовлетворенности пользователя и удержание аудитории являются необходимыми элементами для обеспечения долгосрочной видимости и превращения сайта в авторитетный источник (Preferred Location) для пользователей.

Практические примеры

Сценарий 1: Повышение за счет повторных визитов

Действие пользователя: Пользователь ищет «советы по уходу за орхидеями», кликает на сайт OrchidExpert.com и проводит там 7 минут (высокий stay-time).
Запись в системе: Google регистрирует Result Click Event и stay-time в User Information Database. Derived Score для OrchidExpert.com у этого пользователя повышается.
Повторный запрос: Через неделю пользователь ищет «почему желтеют листья у орхидей».
Результат (Персонализация): Несмотря на то, что OrchidExpert.com мог быть на 5 позиции в стандартной выдаче, для этого пользователя он поднимается на 1 позицию. Также рядом со сниппетом появляется индикатор «Вы посещали этот сайт [дата]».

Сценарий 2: Понижение из-за негативного опыта

Действие пользователя: Пользователь ищет «купить билеты на поезд». В Топ-3 присутствует сайт CheapTickets.com.
Негативный сигнал 1: Пользователь игнорирует CheapTickets.com и кликает на другие результаты. Система фиксирует (presented but not clicked).
Негативный сигнал 2: При следующем поиске пользователь кликает на CheapTickets.com, но сразу возвращается в выдачу (низкий stay-time).
Результат (Персонализация): При последующих запросах, связанных с билетами, система может понизить CheapTickets.com в персональной выдаче этого пользователя, так как Derived Score уменьшился из-за негативных сигналов.

Вопросы и ответы

Означает ли этот патент, что поведенческие факторы являются прямым фактором ранжирования?

Да, но с важным уточнением: они являются прямым фактором для персонализации выдачи конкретного пользователя. Патент описывает, как история кликов, частота посещений и stay-time используются для переранжирования стандартных результатов. Это не обязательно означает, что эти данные используются для глобального ранжирования, но для индивидуального пользователя их влияние критично.

Что такое «Stay-time» и как Google его измеряет?

Stay-time (время пребывания или Dwell Time) — это оценка времени, которое пользователь провел на странице после клика из поиска. Патент предлагает два метода измерения: с помощью Client Assistant (например, тулбара или браузера Chrome), который мониторит активность локально, или путем наблюдения за временем между кликами на странице результатов поиска (время от клика по результату до следующего действия в SERP).

Актуален ли сегодня социальный аспект патента (объединение «Избранного»)?

В 2025 году этот аспект значительно менее актуален, чем во времена активного развития социальных функций в поиске (например, Google+). Прямое влияние социальных связей на основную поисковую выдачу сейчас минимально. Однако базовый механизм объединения разных наборов предпочтений с использованием весовых коэффициентов может применяться в других контекстах, например, в рекомендательных системах (Discover).

Как Google отслеживает пользователей на разных устройствах согласно патенту?

Патент описывает механизм ассоциации нескольких Client ID (идентификаторы конкретного браузера или устройства, часто cookie) с одним User ID (аккаунт пользователя). Когда пользователь входит в свой аккаунт на новом устройстве, система предлагает связать Client ID этого устройства с его User ID, что позволяет объединить историю поиска и браузинга в единый профиль.

Что произойдет, если пользователи видят мой сайт в выдаче, но не кликают на него?

Патент явно указывает, что если результат был показан пользователю, но не был кликнут (presented but not clicked), это может негативно повлиять на Derived Score этого результата для данного пользователя. Это может привести к понижению (demotion) сайта в будущих персональных выдачах этого пользователя по схожим запросам.

Как сделать свой сайт «Preferred Location»?

Система неявно определяет Preferred Locations на основе поведенческих сигналов. Чтобы стать предпочтительным сайтом, необходимо фокусироваться на трех ключевых метриках: частота посещений (Frequency), свежесть посещений (Recency) и время пребывания (Stay-time). Это требует высококачественного контента, отличного UX и стратегии удержания пользователей.

Что такое «Query Session» и зачем это нужно?

Query Session — это группа связанных запросов и кликов, совершенных за короткий промежуток времени. Группировка активности в сессии помогает системе лучше понять контекст и намерение пользователя. Это используется для анализа истории и может влиять на персонализацию, например, предлагая запросы, которые пользователь вводил сразу после аналогичного запроса в прошлой сессии.

Может ли пользователь контролировать эту персонализацию?

Да. Патент описывает механизмы подписки (subscription) и отказа (unsubscription) от записи различных типов данных (например, можно разрешить запись кликов по результатам, но запретить запись кликов по рекламе). Также упоминается функция «snooze», позволяющая временно приостановить запись истории. Кроме того, пользователи могут вручную удалять события из истории.

Влияет ли реклама (Ad Clicks) на органическую выдачу согласно патенту?

Патент не описывает прямого влияния кликов по рекламе на органическое ранжирование. Однако Ad Click Events записываются в ту же базу данных и могут использоваться для построения профиля пользователя (Derived Data). Кроме того, лендинги рекламы могут стать Preferred Locations, если пользователь часто на них переходит, что может улучшить их видимость в рамках персонализированных списков.

Что важнее для персонализации: частота визитов или время на сайте?

Патент не указывает точных весов, но упоминает оба фактора как важные компоненты для расчета Derived Scores и определения Preferred Locations. Высокая частота визитов указывает на лояльность, а длительное время пребывания (stay-time) используется как показатель интереса и качества контента. Оба фактора необходимы для эффективной персонализации.

Как Google использует историю поиска и браузинга для персонализации выдачи и создания неявного «Избранного»