Анализ основополагающего патента Google, описывающего создание детальных профилей пользователей (Term-based, Category-based, Link-based) на основе их интересов, истории поиска, поведения на сайте и демографии. Эти профили используются для переранжирования органических результатов поиска. Затем персонализированная органическая выдача анализируется для подбора релевантной рекламы.
Описание
Какую задачу решает
Патент решает проблему ограниченности использования только текущего запроса для определения интересов пользователя. Отмечается, что запросы являются кратковременными и ненадежными индикаторами реальных интересов. Основная цель — улучшить таргетинг рекламы за счет использования долгосрочных интересов пользователя. Критически важно для SEO, что патент детально описывает механизмы персонализации самих органических результатов поиска как необходимое условие для улучшения персонализации рекламы.
Что запатентовано
Запатентована система, которая создает комплексный профиль пользователя (User Profile) на основе его истории, поведения, демографии и другой информации. Этот профиль используется для персонализации органических результатов поиска. Затем система анализирует эти персонализированные органические результаты для создания «профиля поиска» (Search Profile) — набора тем и ключевых слов, который, в свою очередь, используется для выбора персонализированной рекламы.
Как это работает
Система работает в несколько этапов:
- Создание профиля пользователя: Сбор данных о поведении, истории поиска, демографии и интересах пользователя.
- Генерация результатов: Получение запроса и генерация стандартных результатов поиска (с GenericScore).
- Персонализация выдачи: Переранжирование или переоценка результатов с использованием User Profile для получения PersonalizedScore.
- Анализ персонализированной выдачи: Анализ контента в топе персонализированной выдачи для создания Search Profile.
- Подбор рекламы: Выбор рекламных объявлений на основе Search Profile.
Актуальность для SEO
Высокая. Хотя патент старый (2005 год), он закладывает концептуальную основу персонализированного поиска, который остается критически важным компонентом современных поисковых систем. Описанные методы создания профилей (поведенческий анализ, извлечение тем) концептуально актуальны, хотя конкретные реализации (например, зависимость от категорий ODP/DMOZ или описанные формулы ранжирования) наверняка эволюционировали в сторону более сложных нейросетевых моделей.
Важность для SEO
Значительное влияние (8/10). Патент детально описывает механику, с помощью которой Google может изменять органическое ранжирование на основе индивидуальной истории и интересов пользователя, а не только на основе релевантности запросу и глобального авторитета. Понимание того, как строятся профили пользователей (включая поведенческие сигналы и предпочтительные источники), является ключом к оптимизации под сценарии персонализированного поиска.
Детальный разбор
Термины и определения
- User Profile (Профиль пользователя)
- Структура данных, описывающая интересы пользователя. Может включать Term-based Profile, Category-based Profile и Link-based Profile. Строится на основе истории поиска, поведения, демографии и т.д.
- Term-based Profile (Профиль на основе терминов)
- Часть профиля пользователя, представляющая его предпочтения в виде набора терминов (n-грамм). Каждому термину присвоен вес (положительный или отрицательный), указывающий на его важность.
- Category-based Profile (Профиль на основе категорий)
- Часть профиля пользователя, соотносящая его предпочтения с набором категорий (например, из иерархии ODP/DMOZ), типами документов или их происхождением.
- Link-based Profile (Профиль на основе ссылок)
- Часть профиля пользователя, идентифицирующая набор предпочтительных URL, хостов или доменов, основанная на частоте доступа и активности пользователя.
- Search Profile (Профиль поиска)
- Набор ключевых слов или тем, описывающих документы в персонализированной выдаче. Генерируется модулем Content Analysis Module и используется исключительно для подбора рекламы. Отличается от User Profile.
- Personalization Server (Сервер персонализации)
- Компонент системы, который получает стандартные результаты поиска и переранжирует их на основе User Profile.
- GenericScore (Общая оценка)
- Стандартная оценка ранжирования документа до персонализации. В патенте приводится формула: GenericScore = QueryScore * PageRank.
- PersonalizedScore (Персонализированная оценка)
- Оценка ранжирования документа после применения профиля пользователя. В патенте приводится формула: PersonalizedScore = GenericScore * (TermScore + CategoryScore + LinkScore).
- Paragraph Sampling (Выборка параграфов)
- Процедура автоматического извлечения релевантного контента из документа. Фокусируется на самых длинных параграфах и игнорирует короткие сегменты (предполагаемые как навигация, дисклеймеры), скрипты и стили.
- Context Analysis (Контекстный анализ)
- Метод выявления важных терминов в документе путем поиска префиксных и постфиксных паттернов, изученных на тренировочных данных (например, паттерн «домашняя страница *»).
- ProfileConfidence (Уровень доверия к профилю)
- Метрика, учитывающая объем собранной информации о пользователе, возраст профиля и соответствие текущего запроса профилю. Используется для модуляции степени персонализации.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод изобретения.
- Выбор набора документов, отвечающих КАК запросу пользователя (user query), ТАК И профилю пользователя (user profile), содержащему информацию об интересах пользователя.
- Выбор рекламного объявления в ответ на профиль поиска (search profile), полученный из этого набора документов.
Ядром изобретения является двухэтапный процесс. Первый шаг явно подтверждает, что органические результаты поиска персонализируются на основе профиля пользователя. Второй шаг заключается в том, что реклама подбирается на основе анализа этих персонализированных результатов.
Claims 2-30 (Зависимые): Детализируют источники данных для User Profile. Это обширный список потенциальных сигналов персонализации:
- Предыдущие поисковые запросы и результаты (Claim 2-5).
- Анкорный текст (Anchor text) гиперссылок в этих документах (Claim 6).
- Взаимодействие пользователя с документами (Claim 9): время просмотра (Claim 10), активность прокрутки (scrolling activity) (Claim 11), печать (Claim 12), сохранение (Claim 13), добавление в закладки (Claim 14).
- Предпочтительные URL и категории (Claim 16, 17).
- Демографическая, психографическая и географическая информация (Claim 18, 19, 20).
- Информация, полученная из сетевых доменов/IP-адресов, связанных с пользователем (Claim 22-28).
Claims 31-34 (Зависимые): Детализируют генерацию Search Profile.
Search Profile может быть получен из подмножества документов (Claim 31), например, только с первой страницы (Claim 32). Он может обновляться при переходе на следующую страницу (Claim 33) и может учитывать результаты предыдущих запросов (Claim 34).
Claim 37 (Независимый пункт): Аналогичен Claim 1, но описывает последовательность шагов: получение запроса и профиля, выбор документов (персонализация), получение Search Profile, выбор рекламы, предоставление пользователю.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, в основном фокусируясь на персонализации на этапе переранжирования или понимания запросов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует документы для извлечения терминов, классификации по категориям и анализа ссылок. Эти данные необходимы для сопоставления с профилем пользователя. Также происходит сбор и индексация данных о поведении пользователя для построения User Profile.
QUNDERSTANDING – Понимание Запросов
Патент описывает (FIG. 9B) возможность корректировки стратегии запроса на основе профиля пользователя для создания personalized query strategy. Это может включать добавление терминов из User Profile к исходному запросу до выполнения основного поиска.
RANKING – Ранжирование
На этом этапе вычисляется стандартная оценка ранжирования — GenericScore. В патенте указана формула: GenericScore = QueryScore * PageRank.
RERANKING – Переранжирование
Основной этап персонализации органической выдачи (FIG. 9A). Personalization Server получает результаты с GenericScore и User Profile. Он вычисляет профильные оценки (TermScore, CategoryScore, LinkScore) для каждого документа и определяет PersonalizedScore. Происходит переранжирование списка результатов.
METASEARCH (Ad Selection) – Метапоиск (Выбор рекламы)
Основное применение изобретения. Content Analysis Module анализирует персонализированные результаты (полученные на этапе RERANKING или QUNDERSTANDING) и создает Search Profile. Затем Ad Server использует этот профиль для выбора и ранжирования рекламы.
Входные данные:
- Запрос пользователя и его User ID.
- Стандартные результаты поиска с GenericScore.
- Данные User Profile (термины, категории, ссылки с весами).
Выходные данные:
- Персонализированные результаты поиска (переранжированный список).
- Search Profile (передается в Ad Server).
- Персонализированная реклама.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные или широкие запросы, где история пользователя дает значимый контекст (например, запрос [java] для программиста и любителя кофе). Влияние на четкие навигационные запросы может быть меньше.
- Типы контента: Влияет на все типы контента. Профиль пользователя может также включать предпочтения по форматам (например, PDF, HTML).
Когда применяется
- Условия применения: Алгоритм применяется, когда доступен профиль пользователя и он применим к текущему запросу.
- Модуляция интенсивности: Патент вводит понятие ProfileConfidence (уровень доверия к профилю). Если данных о пользователе мало, профиль устарел или текущий запрос не соответствует профилю, уровень доверия низкий, и влияние персонализации уменьшается. Система больше полагается на GenericScore.
- Смешивание результатов: Для снижения негативного эффекта от возможной неточности профиля (например, при временной смене интересов пользователя), персонализированные результаты могут смешиваться или чередоваться (interleaved) с обычными результатами.
- Исключения: Патент упоминает (Claim 36), что если запрос направлен на портал (например, [yahoo.com]), система может использовать User Profile напрямую для выбора рекламы, возможно, минуя персонализацию органических результатов.
Пошаговый алгоритм
Процесс А: Генерация профиля пользователя (Постоянный/Фоновый процесс)
- Сбор данных: Система собирает данные о пользователе: предыдущие запросы, клики по результатам, поведение на страницах (время, скроллинг, сохранение), демографию, географию.
- Извлечение контента: Для посещенных документов применяется Paragraph Sampling. Извлекается релевантный текст путем анализа длинных параграфов и игнорирования шаблонов, навигации, скриптов.
- Идентификация терминов: Применяется Context Analysis к извлеченному тексту. Система использует обученные контекстные паттерны (префиксы/постфиксы) для определения важных терминов и их весов.
- Классификация интересов: Извлеченные термины и данные используются для обновления Term-based Profile. Термины классифицируются для обновления Category-based Profile. Анализируется частота посещений для обновления Link-based Profile.
- Хранение и обновление: Обновленный User Profile сохраняется. Вес старых данных может уменьшаться со временем.
Процесс Б: Обработка запроса и персонализация (Вариант 1: Переранжирование)
- Получение запроса и профиля: Система получает запрос и User ID, извлекает User Profile.
- Генерация стандартных результатов: Поисковая система генерирует результаты и вычисляет GenericScore для каждого документа.
- Вычисление профильных оценок: Personalization Server оценивает релевантность каждого документа профилю пользователя, вычисляя TermScore, CategoryScore и LinkScore.
- Вычисление персонализированной оценки: Рассчитывается PersonalizedScore путем комбинации GenericScore и профильных оценок.
- Модуляция (Опционально): Рассчитывается ProfileConfidence. Итоговая оценка (FinalScore) корректируется для баланса между PersonalizedScore и GenericScore.
- Переранжирование: Результаты сортируются по итоговой оценке.
Процесс В: Обработка запроса и персонализация (Вариант 2: Переписывание запроса)
- Получение запроса и профиля: Система получает запрос и извлекает User Profile.
- Создание персонализированной стратегии запроса: Система корректирует исходный запрос, например, добавляя важные термины из User Profile для уточнения интента.
- Выполнение поиска: Поисковая система выполняет поиск по измененному запросу, сразу получая персонализированные результаты.
Процесс Г: Персонализация рекламы
- Анализ выдачи: Content Analysis Module анализирует контент документов в топе персонализированной выдачи (например, первую страницу).
- Генерация профиля поиска: Создается Search Profile — набор тем и ключевых слов, описывающих эту выдачу.
- Выбор рекламы: Ad Server использует Search Profile для выбора релевантных объявлений.
- Отображение: Реклама и персонализированные результаты отображаются пользователю.
Какие данные и как использует
Данные на входе
Патент описывает исключительно широкий спектр данных, используемых для построения User Profile:
- Поведенческие факторы (Ключевые):
- Предыдущие поисковые запросы пользователя (Previous Search Queries).
- URL, идентифицированные в предыдущих результатах поиска, особенно те, которые были выбраны (посещены) пользователем.
- Активность пользователя на посещенных документах (User’s Activities): время, проведенное на документе, активность прокрутки (scrolling activity), факты печати, сохранения или добавления документа в закладки.
- Контентные факторы:
- Анкорный текст (Anchor Text) ссылок, указывающих на идентифицированные URL.
- Выборочный контент (Sample Content) из идентифицированных документов, полученный с помощью Paragraph Sampling.
- Заголовки документов, ALT-теги, мета-теги (используются, если основного контента недостаточно).
- Термины, извлеченные с помощью Context Analysis.
- Технические факторы (Метаданные):
- Общая информация о документах: формат (HTML, PDF, Word), дата создания, автор.
- IP-адрес пользователя.
- Пользовательские и Географические факторы (Personal Information):
- Демография (возраст, образование, доход), география (местоположение, язык; может быть выведено из IP-адреса), психографическая информация, членство в группах.
- Явно указанные предпочтения по темам или категориям (Expressed topic or category preferences).
- Структурные/Ссылочные факторы:
- Предпочтительные URL, хосты и домены на основе частоты доступа (для Link-based Profile).
- Косвенно идентифицированные URL/хосты (те, что ссылаются на/из предпочтительных).
- Сетевые данные:
- Информация, полученная с веб-страниц и сайтов, связанных с IP-адресами и доменами пользователя (тип сайта, его размер, ключевые слова).
Какие метрики используются и как они считаются
Патент приводит конкретные формулы для расчета оценок ранжирования:
- GenericScore (Общая оценка):
GenericScore = QueryScore * PageRank.
Комбинация релевантности запросу и авторитетности страницы (PageRank). - PersonalizedScore (Персонализированная оценка):
PersonalizedScore = GenericScore * (TermScore + CategoryScore + LinkScore).
Общая оценка модулируется (мультипликативно) суммой оценок релевантности трем типам профилей. - FinalScore (Финальная оценка с учетом доверия):
FinalScore = ProfileScore * ProfileConfidence + GenericScore * (1 — ProfileConfidence).
Линейная интерполяция между профильной оценкой и общей оценкой, где вес определяется уровнем доверия к профилю (ProfileConfidence). - Веса терминов в Context Analysis:
Вес паттерна определяется как функция частоты его появления с важными и неважными терминами. Пример формулы:
Weight(m,n,s) = Log(ImportantContext(m,n,s)+1) — Log(UnimportantContext(m,n,s)+1). - Пороги в Paragraph Sampling: Используются пороговые значения длины параграфа (MinParagraphLength) и максимальное количество слов (N) или предложений (M) для выборки.
Выводы
- Персонализация органического поиска как основа: Патент подтверждает, что Google с ранних этапов разрабатывал системы для глубокой персонализации органических результатов поиска. Персонализация рекламы является следствием, а не причиной персонализации органической выдачи.
- Комплексные профили пользователей: User Profile — это не просто набор ключевых слов. Он включает поведенческие данные (время на сайте, скроллинг, сохранение), демографию, географию, а также профили на основе терминов, категорий и предпочтительных сайтов (Link-based Profile).
- Два механизма персонализации: Патент четко описывает два разных подхода к персонализации: Переранжирование (Reranking) существующих результатов и Переписывание запроса (Query Rewriting) путем добавления терминов из профиля до выполнения поиска.
- Извлечение значимого контента: Методы Paragraph Sampling и Context Analysis показывают, как Google пытается отделить основной контент от шаблонов (boilerplate) и навигации, чтобы идентифицировать ключевые термины, связанные с интересами пользователя.
- Сигналы вовлеченности как фактор ранжирования: Патент явно указывает на использование сигналов вовлеченности (время просмотра, скроллинг, сохранение документа) для определения важности документа для пользователя и построения его профиля.
- Баланс персонализации и общей релевантности: Система включает предохранители (ProfileConfidence) для модуляции силы персонализации. Если доверие к профилю низкое, система предпочитает стандартное ранжирование (GenericScore) или смешивает результаты.
Практика
Best practices (это мы делаем)
- Фокус на вовлеченности и удовлетворенности пользователя (Engagement Signals): Поскольку время просмотра, активность прокрутки и сохранение документа явно используются для построения User Profile, необходимо создавать контент, который удерживает пользователя. Это подтверждает важность метрик вовлеченности и удовлетворения интента (User Satisfaction).
- Построение тематического авторитета (Topical Authority): Важно быть релевантным не только по конкретным терминам (Term-based Profile), но и в рамках широкой тематики (концепция Category-based Profile). Создание кластеров контента, полностью покрывающих тему, повышает шансы на высокое ранжирование в персонализированной выдаче у заинтересованной аудитории.
- Оптимизация структуры и чистоты кода: Используйте четкую структуру контента с содержательными параграфами. Метод Paragraph Sampling отдает предпочтение длинным параграфам и пытается игнорировать шаблонный текст. Основной контент должен быть легко извлекаемым и отделенным от навигации и сквозных блоков.
- Построение бренда и лояльности аудитории: Необходимо стремиться стать предпочтительным источником для пользователя (Link-based Profile). Возвращение пользователей на сайт и частые визиты укрепляют профиль и могут привести к повышению ранжирования сайта для этого конкретного пользователя.
- Учет демографии и географии целевой аудитории: Поскольку эти данные являются частью User Profile (явно или выведенные из IP), контент должен четко соответствовать целевым сегментам аудитории, особенно в локальном поиске.
Worst practices (это делать не надо)
- Кликбейт и контент с низкой вовлеченностью: Создание страниц, которые пользователи быстро покидают или не взаимодействуют с ними (нет скроллинга), генерирует негативные сигналы для User Profile и может привести к понижению сайта в персонализированной выдаче этого пользователя.
- Использование запутанной навигации и избыточного шаблонного текста: Если основной контент трудно отделить от шаблона, системы типа Paragraph Sampling могут некорректно извлечь содержимое, что затруднит понимание релевантности страницы интересам пользователя.
- Фрагментированный контент: Контент, состоящий из множества коротких фрагментов или предложений, может быть недооценен системами, предпочитающими длинные, содержательные параграфы.
- Оптимизация только под ключевые слова без учета контекста пользователя: Игнорирование широкого тематического контекста и долгосрочных интересов пользователя делает сайт уязвимым перед персонализацией.
Стратегическое значение
Патент имеет высокое стратегическое значение, так как подтверждает, что ранжирование не является статичным и универсальным. Оно сильно зависит от контекста и истории конкретного пользователя. SEO-стратегия должна учитывать необходимость построения релевантности и вовлеченности для конкретных сегментов аудитории, а не только соответствие общим факторам ранжирования. Этот патент закладывает основу для понимания того, как поведенческие факторы интегрируются в ядро поиска через механизм персонализации.
Практические примеры
Сценарий: Персонализация выдачи по широкому запросу
- Профиль пользователя (User Profile): Пользователь часто ищет информацию о «веб-разработке на Java», посещает сайты типа StackOverflow (Java-секции) и Oracle, проводит на них много времени. В его Category-based Profile высокий вес у категории, связанной с программированием на Java.
- Запрос: Пользователь вводит широкий запрос [Java].
- Стандартная выдача (GenericScore): В топе могут быть результаты о кофе, острове Ява и языке программирования.
- Персонализация (Reranking): Personalization Server определяет высокую корреляцию между результатами о языке программирования и User Profile пользователя.
- Результат: Система значительно повышает PersonalizedScore для результатов о программировании и понижает результаты о кофе и острове. Пользователь видит выдачу, релевантную его профессиональным интересам.
Сценарий: Использование поведенческих сигналов для Link-based Profile
- Действия пользователя: Пользователь ищет [лучшие смартфоны 2025]. Он кликает на три результата. На сайте А он проводит 5 секунд и возвращается. На сайте Б он проводит 3 минуты, активно скроллит страницу и сохраняет ее в закладки.
- Обновление профиля: Система использует данные об активности (время, скроллинг, закладка). Сайт Б получает высокий вес в Link-based Profile пользователя. Контент сайта Б используется для уточнения Term-based Profile.
- Последующий поиск: Когда пользователь в следующий раз будет искать информацию о технике или обзоры, сайт Б с большей вероятностью окажется выше в его персонализированной выдаче.
Вопросы и ответы
Какие именно поведенческие факторы упоминаются в патенте для построения профиля пользователя?
Патент явно перечисляет несколько ключевых поведенческих сигналов: предыдущие поисковые запросы, клики по результатам (посещенные URL), а также активность пользователя на странице. К активности относятся: время, проведенное на документе, активность прокрутки (scrolling activity), а также действия, такие как печать, сохранение документа или добавление его в закладки. Это прямое подтверждение использования сигналов вовлеченности.
Что такое Paragraph Sampling и как это влияет на SEO?
Paragraph Sampling — это метод извлечения основного контента страницы, который фокусируется на самых длинных параграфах и игнорирует короткие сегменты текста (предполагая, что это навигация, шаблоны или дисклеймеры), а также скрипты и стили. Для SEO это означает, что важно иметь чистую структуру страницы, где основной контент представлен в виде содержательных, хорошо структурированных абзацев, легко отделимых от шаблонных элементов.
Патент описывает два способа персонализации: переранжирование и переписывание запроса. В чем разница?
Переранжирование (Reranking) происходит после получения стандартных результатов поиска. Система корректирует их позиции на основе профиля пользователя. Переписывание запроса (Query Rewriting) происходит до основного поиска: система изменяет исходный запрос пользователя (например, добавляя термины из его профиля) и выполняет поиск уже по новому, уточненному запросу. Оба метода направлены на повышение релевантности выдачи интересам пользователя.
Что такое GenericScore и PersonalizedScore?
GenericScore — это стандартная оценка ранжирования до персонализации, рассчитываемая как произведение релевантности запросу (QueryScore) и авторитетности (PageRank). PersonalizedScore — это оценка после применения профиля пользователя. Она рассчитывается путем модуляции GenericScore оценками из профиля (TermScore, CategoryScore, LinkScore), что позволяет изменить порядок выдачи.
Может ли Google полностью убрать релевантные результаты из выдачи из-за персонализации?
Теоретически, сильная персонализация может значительно понизить результаты, которые не соответствуют профилю пользователя. Однако патент описывает механизм ProfileConfidence. Если система не уверена в профиле или его применимости к запросу, она снижает влияние персонализации и больше полагается на GenericScore. Также упоминается возможность смешивания (interleaving) персонализированных и обычных результатов для обеспечения разнообразия.
Что такое Link-based Profile и как он используется?
Link-based Profile содержит список предпочтительных URL, хостов или доменов пользователя, основанный на частоте его визитов и активности на этих сайтах. Если в результатах поиска появляется документ с предпочтительного сайта, он получает бонус к ранжированию для этого пользователя. Это подчеркивает важность построения бренда и лояльности аудитории.
Использует ли Google демографические и географические данные для ранжирования?
Да, согласно патенту. Персональная информация, включая демографию (возраст, образование, доход) и географию (местоположение, язык), является частью User Profile. Эта информация может быть предоставлена пользователем явно или выведена системой (например, география по IP-адресу) и используется для корректировки ранжирования результатов.
Что такое Context Analysis и как он находит важные термины?
Context Analysis — это метод машинного обучения для идентификации важных терминов, даже если система видит их впервые. Он ищет текстовые паттерны (префиксы и постфиксы), которые часто окружают важные термины на тренировочных данных. Например, если система знает паттерн «лучший * для дома», она может определить, что слово, стоящее на месте звездочки в новом документе, является важным термином.
Насколько важен этот патент, учитывая его возраст (2005 год)?
Несмотря на возраст, патент критически важен, так как он закладывает концептуальную основу персонализированного поиска Google. Многие из описанных принципов (использование поведенческих данных, комплексные профили, механизмы переранжирования) остаются актуальными. Хотя конкретные алгоритмы наверняка сменились более сложными моделями (например, трансформерами), общая архитектура и цели системы остались схожими.
В чем разница между User Profile и Search Profile?
User Profile — это долгосрочное хранилище информации об интересах пользователя, основанное на его истории и поведении. Search Profile — это временный набор тем и ключевых слов, который генерируется на лету путем анализа контента текущей персонализированной выдачи. User Profile используется для персонализации органической выдачи, а Search Profile — для подбора рекламы к этой выдаче.