Как Google использует данные о закладках, сообществах и поведении пользователей для персонализации и контекстуализации поиска

Патент описывает раннюю систему персонализации поиска, которая собирает и анализирует закладки (content pointers) пользователей и групп, организованные в иерархические категории. Эта информация используется для создания профилей интересов (content vectors), которые затем применяются для дополнения поисковых запросов (query augmentation) и переранжирования результатов (contextualization) с учетом личного контекста, интересов сообщества и недавней активности пользователя.

Описание

Какую задачу решает

Патент решает проблему ограниченности традиционных поисковых систем, которые предоставляют универсальные результаты без учета индивидуальных предпочтений пользователя или интересов его сообщества (группы). Система направлена на повышение релевантности путем фильтрации и переупорядочивания общих результатов поиска с помощью персонализированных моделей интересов, что особенно важно для неоднозначных запросов (например, “java” – язык программирования или остров).

Что запатентовано

Запатентована система поиска и рекомендаций, использующая централизованную базу данных иерархически организованных закладок пользователей и групп (content pointers) для генерации профилей релевантности. Эти профили, часто представленные как векторы контента (content vectors), используются для дополнения исходных запросов (Query Augmentation) и переранжирования результатов поиска (Contextualization) на основе контекста пользователя и метрик использования (популярность, частота, новизна).

Как это работает

Система работает в несколько этапов:

Сбор данных: Собирает и иерархически организует закладки пользователей. Также отслеживается недавняя история просмотров (clickstream).
Генерация профилей: На основе контента и структуры закладок создаются профили пользователей и групп (content vectors).
Идентификация контекста: При поиске система определяет контекст пользователя (личный профиль, профиль группы, текущее положение в иерархии интересов – spatial positioning, или недавняя активность – Interest Immediacy).
Дополнение запроса (Query Augmentation): Исходный запрос дополняется терминами из соответствующего вектора контента.
Переранжирование (Contextualization): Полученные результаты поиска переупорядочиваются на основе соответствия контексту и метрикам использования (Popularity, Frequency, Recency).

Актуальность для SEO

Средняя/Высокая. Патент очень старый (подан в 2000 году), однако заложенные в нем концепции – персонализация, контекстуализация, использование поведения пользователя (закладки, кликстрим) для определения интента и маппинг интересов на глобальную иерархию (упоминается ODP) – являются фундаментальными для современного поиска. Текущие системы значительно более продвинуты (используют нейронные сети вместо простых векторов контента), но стратегические цели, описанные здесь, остаются актуальными.

Важность для SEO

Патент имеет значительное влияние (75/100). Он закладывает основу для персонализированного поиска и подчеркивает важность понимания контекста и намерений пользователя за пределами ключевых слов. Он показывает, что релевантность не универсальна, а специфична для пользователя и его сообщества. SEO-стратегии должны учитывать различные намерения и контексты пользователей для одного и того же ключевого слова.

Детальный разбор

Термины и определения

Centralized Database (Централизованная база данных): Серверное хранилище, содержащее закладки всех пользователей системы.
Content Pointer (Указатель контента): Закладка (Bookmark) или «Избранное» (Favorite). Указатель на объект (например, веб-страницу), включающий URL и заголовок.
Content Vector (Вектор контента): Нормализованное числовое представление совокупного контента, на который ссылаются закладки пользователя или группы. Используется для определения контекста и профиля интересов.
Contextualization (Контекстуализация): Процесс переранжирования результатов поиска на основе соответствия профилю интересов пользователя или группы.
Frequency (Частота): Метрика использования, показывающая, как часто пользователи обращаются к определенной закладке.
Global Hierarchy / Standard Directory Model (Глобальная иерархия): Стандартизированная иерархическая структура для организации информации (например, ODP). Система сопоставляет персональные иерархии пользователей с этой моделью.
Interest Immediacy (Непосредственный интерес): Временная контекстуализация. Определение текущего намерения пользователя на основе его недавней активности просмотра (clickstream), даже если эта активность не соответствует его долгосрочному профилю.
Popularity (Популярность): Метрика, показывающая, какая доля пользователей имеет определенную закладку в своей коллекции.
Query Augmentation (Дополнение запроса): Процесс добавления дополнительных ключевых слов к исходному запросу пользователя. Дополнительные слова извлекаются из вектора контента, связанного с контекстом пользователя.
Recency (Новизна/Недавность): Метрика, показывающая, как давно пользователи обращались к закладке или как давно обновлялся контент по ссылке.
Spatial Positioning (Пространственное позиционирование): Использование текущего местоположения пользователя внутри его иерархической структуры закладок как сигнала непосредственного контекста.
Topical Categorical Hierarchy (Тематическая категориальная иерархия): Иерархическая структура (например, папки), в которую пользователи организуют свои закладки. Используется для определения контекста.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод поиска в информационном репозитории.

Создание коллекции общих указателей контента (закладок).
Получение ключевого слова запроса.
Поиск по коллекции закладок.
Извлечение дополнительного ключевого слова из коллекции, связанного с исходным запросом.
Дополнение (Augmenting) запроса этим дополнительным словом.
Поиск в информационном репозитории (например, в Вебе) по дополненному запросу.
Получение группы объектов.
Определение контекста (Context).
Упорядочивание объектов на основе соответствия контексту.
И упорядочивание объектов в ранжировании, определяемом взвешенным набором пользовательских метрик (popularity, frequency of access, recency of access, link structure).

Это определяет комплексную систему, которая сочетает в себе как дополнение запроса (Query Augmentation), так и переранжирование результатов (Re-ranking) на основе контекста (извлеченного из закладок) и метрик использования.

Claim 9 (Независимый пункт): Метод поиска в иерархическом пространстве объектов с акцентом на композитную оценку.

Создание коллекции категоризированных указателей контента.
Поиск по коллекции и дополнение запроса.
Поиск в репозитории и получение группы объектов.
Определение контекста в коллекции.
Определение набора пользовательских метрик (включая популярность, частоту, новизну, структуру ссылок и метрику тематической категориальной организации).
Объединение соответствия контексту и пользовательских метрик в composite measure (композитную оценку).
Ранжирование объектов на основе композитной оценки.

Этот пункт похож на Claim 1, но делает акцент на иерархической природе данных и явно включает тематическую организацию (структуру категорий) как метрику. Он фокусируется на механизме ранжирования с использованием единой композитной оценки.

Claim 18 (Независимый пункт): Метод генерации упорядоченных рекомендаций.

Создание коллекции категоризированных указателей контента.
Получение запроса и поиск в репозитории.
Получение группы объектов.
Определение контекста в коллекции.
Ранжирование на основе соответствия между профилем объекта и контекстом.
И упорядочивание на основе метрик приоритета пользовательских рекомендаций (популярность, частота, новизна, структура ссылок).

Этот пункт фокусируется именно на аспекте переранжирования/рекомендации после выполнения поиска, используя как контекст, так и метрики использования.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя предварительно рассчитанные данные для персонализации обработки запроса и финального ранжирования.

INDEXING – Индексирование и извлечение признаков
Система выполняет фоновые процессы: индексацию базы данных закладок, анализ контента, на который они указывают (извлечение метаданных, суммирование). На этом этапе в офлайн-режиме рассчитываются профили пользователей и групп (User/Group Profiles, Content Vectors) и метрики использования, а также происходит сопоставление с глобальной иерархией (ODP).

QUNDERSTANDING – Понимание Запросов
Ключевой этап применения. Система выполняет Query Augmentation. Она определяет контекст пользователя (профиль, группа, недавняя активность или текущее положение в иерархии) и добавляет релевантные термины из соответствующего content vector к исходному запросу перед отправкой его в поисковую систему.

RANKING / RERANKING – Ранжирование / Переранжирование
Система переранжирует результаты, полученные от поисковой системы (Contextualization). Она рассчитывает композитную оценку (composite measure) для каждого результата, основываясь на степени его соответствия контексту пользователя и пользовательским метрикам (Popularity, Frequency, Recency).

Входные данные:

Исходный запрос пользователя.
Идентификатор пользователя/группы.
Профили пользователей/групп (Content Vectors).
База данных закладок (с иерархиями и метриками использования).
Недавняя история просмотров пользователя (clickstream).
Результаты поиска от внешней поисковой системы.

Выходные данные:

Дополненный запрос (Augmented Query).
Переранжированный список результатов поиска.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (например, «java», «apple»), где контекст (программист, путешественник, садовод) необходим для определения релевантности.
Персонализация: Напрямую влияет на персонализацию поисковой выдачи. Результаты для разных пользователей или даже для одного пользователя в разное время (из-за временного контекста) будут отличаться.

Когда применяется

Условия активации: Алгоритм активируется, когда пользователь инициирует поиск.
Триггеры контекстуализации: Активируется, когда контекст пользователя может быть четко идентифицирован:
- Долгосрочный профиль: У пользователя есть сильный профиль интересов.
- Временной контекст (Temporal): Пользователь недавно просматривал контент по определенной теме (Interest Immediacy).
- Пространственный контекст (Spatial): Пользователь инициировал поиск из определенной категории интересов (spatial positioning).

Пошаговый алгоритм

Процесс А: Офлайн-обработка и генерация профилей

Сбор данных: Сбор закладок пользователей и их организация в иерархические категории.
Анализ контента: Анализ содержания страниц, на которые указывают закладки.
Генерация векторов и Маппинг: Создание нормализованных векторов контента (Content Vectors) для пользователей и групп. Сопоставление персональных иерархий с глобальной моделью (ODP).
Расчет метрик: Вычисление и обновление метрик использования (Popularity, Frequency, Recency).

Процесс Б: Обработка запроса в реальном времени

Получение запроса: Пользователь отправляет поисковый запрос.
Идентификация контекста: Система определяет релевантный контекст (профиль пользователя/группы, spatial positioning или Interest Immediacy).
Дополнение запроса (Query Augmentation): Система извлекает наиболее важные термины из вектора контента, соответствующего контексту, и добавляет их к исходному запросу (с учетом Relevance Feedback, если применимо).
Выполнение поиска: Дополненный запрос отправляется во внешнюю поисковую систему.
Получение результатов: Система получает стандартные результаты поиска.
Переранжирование (Contextualization): Для каждого результата рассчитывается композитная оценка (composite measure). Оценка основывается на: (1) степени соответствия результата идентифицированному контексту/вектору контента и (2) взвешенных пользовательских метриках (Popularity, Frequency, Recency, Link Structure).
Презентация: Отображение переранжированного списка результатов пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются закладки (URL, заголовки, категоризация), частота доступа (логированные события), недавность доступа. Также используется данные кликстрима (clickstream data) для временной контекстуализации (Interest Immediacy).
Контентные факторы: Содержание страниц, на которые указывают закладки. Это содержание анализируется для создания content vectors. Также могут извлекаться метаданные из этих страниц.
Структурные факторы: Иерархическая организация (категории), созданная пользователями или группами. Структура помогает определить контекст и интересы. Также используется глобальная структура (ODP) для маппинга.
Ссылочные факторы: Упоминается link structure metric как один из возможных компонентов ранжирования.

Какие метрики используются и как они считаются

Content Vector (Вектор контента): Нормализованное представление совокупного контента закладок. Используется для сопоставления контекста с результатами поиска и для дополнения запросов.
Popularity (Популярность): Доля пользователей (всей системы или конкретной группы), у которых есть данная закладка.
Frequency (Частота): Как часто пользователи обращаются к закладке.
Recency (Новизна/Недавность): Как давно был доступ к закладке или как давно обновлялся контент.
Interest Immediacy (Непосредственный интерес): Метрика, полученная из анализа недавней активности пользователя (кликстрима), указывающая на текущий фокус внимания.
Composite Measure (Композитная оценка): Итоговый балл ранжирования. Рассчитывается путем объединения оценки соответствия контексту (Content Vector match) и взвешенных пользовательских метрик (Popularity, Frequency, Recency, Link Structure).

Выводы

Релевантность субъективна и контекстуальна: Патент подчеркивает, что релевантность сильно зависит от контекста пользователя – его личных интересов, принадлежности к группам и непосредственного намерения (Interest Immediacy). Универсального ранжирования недостаточно.
Поведенческие данные как сигнал релевантности: Закладки и история просмотров рассматриваются как сильные индикаторы интереса. Эти данные используются напрямую для модификации поисковой выдачи (как через профили, так и через метрики использования).
Двойной подход к улучшению поиска: Система использует две техники: Query Augmentation (улучшение запроса до поиска путем добавления контекстных терминов) и Re-ranking/Contextualization (фильтрация и переупорядочивание результатов после поиска).
Разрешение неоднозначности запросов: Система специально разработана для разрешения двусмысленности путем вывода намерения из долгосрочного и краткосрочного (Interest Immediacy) контекста.
Структура определяет контекст: То, как пользователи организуют информацию (Categorical Hierarchy) и где они находятся в этой структуре (Spatial Positioning), используется для построения модели интересов и определения текущего контекста.
Фундаментальные концепции персонализации: Патент вводит основные идеи персонализации и контекстного поиска, которые лежат в основе современных поисковых систем, даже если методы реализации (например, использование простых Content Vectors) с тех пор значительно эволюционировали.

Практика

Best practices (это мы делаем)

Понимание разнообразных интентов и контекстов: Необходимо признать, что один и тот же ключевой запрос может иметь множество контекстов (программист ищет «Java» vs. путешественник ищет «Java»). Создавайте контент, который глубоко удовлетворяет конкретные интенты и четко сигнализирует о своем контексте.
Ориентация на сообщества и группы интересов: Определите, каковы общие интересы и терминология вашей целевой аудитории (их «групповой профиль»). Релевантность для сообщества может повысить видимость вашего контента для его членов.
Оптимизация для долгосрочного вовлечения: Цельтесь на создание контента, который пользователи захотят пересмотреть и поделиться («контент, достойный закладок»). Эти сигналы соответствуют метрикам Popularity, Frequency и Recency, которые используются для повышения рейтинга в этой модели.
Построение тематического авторитета (Topical Authority) и Четкая Структура: Широкий охват темы и логичная иерархия сайта соответствуют концепции сильного content vector и использованию Categorical Hierarchies. Это повышает вероятность того, что ваш контент будет признан релевантным для пользователей, интересующихся этим контекстом.

Worst practices (это делать не надо)

Фокус только на ключевых словах без учета контекста: Игнорирование намерений пользователя, стоящих за ключевым словом, приведет к низкой эффективности в контекстуализированной и персонализированной поисковой среде.
Погоня за краткосрочными всплесками трафика: Тактики, которые генерируют временный трафик, но не стимулируют повторные визиты или долгосрочное вовлечение, менее ценны согласно этой модели, ориентированной на качество и интересы пользователя.
Игнорирование структуры сайта: Плохо организованный контент затрудняет системам понимание топической релевантности и иерархических связей, что противоречит принципам использования Categorical Hierarchies для определения контекста.

Стратегическое значение

Этот патент подтверждает, что Google с самого начала работал над персонализацией и контекстуализацией. Он подчеркивает отход от универсальной модели ранжирования к модели, где результаты адаптируются к индивидууму и его непосредственным потребностям (Interest Immediacy). Долгосрочная SEO-стратегия должна быть сосредоточена на понимании полного контекста целевого пользователя, а не только на ключевых словах, которые он вводит.

Практические примеры

Сценарий: Контекстуализация неоднозначного запроса («Java») с учетом временного контекста

Пользователь: Программист, у которого в профиле много закладок по Python и C++ (Долгосрочный контекст/Профиль).
Недавняя активность (Interest Immediacy): Последние 30 минут пользователь активно просматривал сайты по бронированию авиабилетов и отелей на Бали и Ломбоке (Временной контекст).
Запрос: Пользователь вводит «Java».
Стандартный поиск: Вероятно, выдал бы результаты по языку программирования, основываясь на профессии или общей популярности темы.
Действие системы (Temporal Contextualization): Система обнаруживает высокую недавнюю активность по теме «путешествия в Индонезию».
Query Augmentation/Re-ranking: Система может неявно дополнить запрос терминами, связанными с путешествиями, и повышает в выдаче результаты, касающиеся острова Ява (Java).
Результат: Система балансирует выдачу, показывая результаты и по программированию (из-за профиля), и по путешествиям (из-за недавней активности), так как Interest Immediacy вносит сильную коррективу в данном сеансе.

Вопросы и ответы

Что такое «Content Vector» в контексте этого патента и как он влияет на SEO?

Content Vector – это математическое представление совокупных интересов пользователя или группы, основанное на содержании страниц, которые они добавили в закладки. Он функционирует как профиль интересов. Для SEO это означает, что система пытается понять общий контекст пользователя и предпочтет контент, который семантически соответствует этому профилю, а не только ключевым словам запроса.

Что такое «Query Augmentation» и почему это важно?

Query Augmentation – это процесс, когда система автоматически добавляет дополнительные ключевые слова к запросу пользователя на основе его профиля интересов (Content Vector). Это важно, потому что позволяет системе уточнить неоднозначные запросы. Например, если инженер ищет «python», система может дополнить запрос терминами, связанными с программированием, чтобы отфильтровать результаты о змеях.

Патент упоминает метрики Popularity, Frequency и Recency. Как они используются?

Эти метрики используются для переранжирования результатов поиска. Popularity (сколько людей добавили ссылку в закладки), Frequency (как часто на нее кликают) и Recency (как давно был последний клик или обновление контента). Ресурсы, которые популярны и часто используются в контексте интересов пользователя или его сообщества, получают повышение в выдаче.

Что такое «Interest Immediacy» или временная контекстуализация?

Это ключевая концепция патента. Система анализирует недавнюю активность пользователя (clickstream) для определения его непосредственного интереса в текущем сеансе. Это позволяет системе адаптировать результаты к сиюминутным задачам, даже если они отличаются от обычных интересов пользователя (например, программист планирует отпуск).

Как этот патент связан с современным пониманием User Intent?

Этот патент является одним из ранних фундаментов для понимания User Intent через контекст. Он показывает, что для определения намерения недостаточно анализа ключевых слов; необходимо учитывать долгосрочные интересы пользователя (профиль), интересы его сообщества (группы) и его недавние действия (Interest Immediacy).

Использует ли Google до сих пор закладки пользователей для ранжирования?

Патент описывает специализированную систему, основанную на общих закладках. Хотя Google, вероятно, использует различные поведенческие данные для персонализации, маловероятно, что современные алгоритмы полагаются на анализ закладок браузера в том виде, как это описано здесь. Концепция использования профиля интересов осталась, но источники данных стали шире (история поиска, клики).

Как SEO-специалисту реагировать на персонализацию, описанную в патенте?

Необходимо перестать думать о едином «Топ-1» для всех. Сосредоточьтесь на создании глубоко проработанного контента, который четко отвечает на интент конкретного сегмента аудитории (контекст). Чем лучше контент соответствует контексту пользователя и его сообщества, тем выше он будет ранжироваться для этой группы.

Что такое «Spatial Positioning» (Пространственное позиционирование) в этом патенте?

Это относится к текущему местоположению пользователя внутри его собственной иерархической структуры закладок в момент инициирования поиска. Если пользователь инициирует поиск, находясь в категории «Программирование», система использует это как сильный сигнал непосредственного контекста для дополнения запроса и ранжирования результатов.

Влияет ли принадлежность пользователя к определенной группе или сообществу на его поисковую выдачу?

Да, согласно патенту. Система может использовать профиль группы (Group Profile) для контекстуализации поиска пользователя. Если пользователь является частью сообщества (например, фотографов), система будет предпочитать результаты, которые популярны в этой группе или соответствуют ее общему вектору контента.

Насколько актуальны методы (Content Vectors), описанные в этом старом патенте?

Сами методы (простые векторы контента) устарели и были заменены сложными нейросетевыми эмбеддингами (например, на базе BERT/MUM). Однако стратегическая цель осталась прежней: математически представить интересы пользователя и использовать это представление для улучшения релевантности поиска.