Google использует многоуровневую систему персонализации. Сначала органическая выдача адаптируется под интересы пользователя (User Profile). Затем контент этой персонализированной выдачи анализируется для создания Профиля Поиска (Search Profile). Именно этот профиль, отражающий контекст результатов, используется для выбора релевантной рекламы, а не только исходный запрос.
Описание
Какую задачу решает
Патент решает проблему неточности таргетинга рекламы, основанного исключительно на текущем поисковом запросе. Запрос часто является ненадежным и кратковременным индикатором истинных личных интересов пользователя, на которые обычно нацелена реклама. Система стремится повысить релевантность рекламы, учитывая долгосрочные интересы пользователя и контекст результатов поиска.
Что запатентовано
Запатентована система и метод для предоставления персонализированной рекламы. Ключевым элементом является использование Search Profile (Профиль Поиска), который генерируется путем анализа контента Personalized Search Results (Персонализированных Результатов Поиска). Эти результаты, в свою очередь, предварительно адаптированы под User Profile (Профиль Пользователя). Таким образом, реклама таргетируется на основе контекста результатов, релевантных как запросу, так и глубинным интересам пользователя.
Как это работает
Система работает по следующей цепочке:
- Персонализация выдачи: Сначала стандартные результаты поиска переранжируются на основе User Profile, который агрегирует данные о прошлых поисках, поведении (Activity Information) и демографии пользователя.
- Анализ контента: Content Analysis Module анализирует контент (например, первую страницу) персонализированной выдачи.
- Генерация Search Profile: На основе анализа создается Search Profile, включающий ключевые термины и темы этих документов.
- Выбор рекламы: Ad Server использует Search Profile для выбора наиболее релевантной рекламы.
- Исключение: Если результаты поиска слишком общие или навигационные (имеют Portal Aspect, например, поиск CNN.com), система может использовать User Profile напрямую для выбора рекламы, минуя генерацию Search Profile.
Актуальность для SEO
Высокая. Персонализация является фундаментальным аспектом современных поисковых и рекламных систем Google. Описанные принципы построения профилей пользователей на основе их поведения и использования этих данных для модификации как органической выдачи, так и рекламного таргетинга остаются крайне актуальными. Хотя конкретные технические реализации могли эволюционировать, общая архитектура сохраняет свою значимость.
Важность для SEO
Влияние на SEO значительное (85/100). Хотя финальные Claims патента сосредоточены на рекламе, большая часть документа детально описывает механизмы персонализации органической выдачи. Патент раскрывает, как Google строит User Profiles (Term-based, Category-based, Link-based), какие данные использует (включая детальное поведение на сайте) и как применяет их для переранжирования результатов. Понимание этих механизмов критически важно для Senior SEO-специалистов, так как это напрямую влияет на видимость контента.
Детальный разбор
Термины и определения
- User Profile (Профиль пользователя)
- Набор данных, описывающий интересы пользователя. Включает Term-based, Category-based и Link-based профили. Источники данных: прошлые запросы, клики, поведение на сайте (Activity Information), демография.
- Term-based Profile (Терм-профиль)
- Часть профиля пользователя, представляющая интересы в виде списка терминов (n-grams) с весами.
- Category-based Profile (Категорийный профиль)
- Часть профиля пользователя, коррелирующая интересы с набором иерархических категорий (например, Open Directory Project) с весами.
- Link-based Profile (Ссылочный профиль)
- Часть профиля пользователя, идентифицирующая предпочитаемые URL, хосты или домены с весами.
- Activity Information (Информация об активности)
- Данные о взаимодействии пользователя с документом: время просмотра, активность прокрутки (scrolling activity), печать, сохранение или добавление в закладки. Используется для оценки важности документа для User Profile.
- Personalized Search Results (Персонализированные результаты поиска)
- Результаты поиска, адаптированные (переранжированные) под User Profile.
- Search Profile (Профиль поиска)
- Профиль, генерируемый Content Analysis Module на основе анализа контента Personalized Search Results. Содержит ключевые термины и темы этих результатов. Используется для выбора рекламы.
- Paragraph Sampling (Выборка параграфов)
- Метод извлечения релевантного контента из документа путем анализа длинных параграфов и игнорирования коротких сегментов (навигация, копирайты).
- Context Analysis (Контекстный анализ)
- Метод идентификации важных терминов в документе путем поиска контекстных шаблонов (префиксных/постфиксных), которые были предварительно обучены предсказывать важность термина.
- GenericScore (Общая оценка)
- Стандартная оценка ранжирования до персонализации. Пример в патенте: QueryScore * PageRank.
- PersonalizedScore (Персонализированная оценка)
- Оценка ранжирования после применения User Profile. Пример в патенте: GenericScore * (TermScore + CategoryScore + LinkScore).
- Profile Confidence (Уровень уверенности профиля)
- Метрика, учитывающая объем данных о пользователе, возраст профиля и соответствие текущего запроса профилю. Используется для балансировки между персонализированными и общими результатами.
- Portal Aspect (Портальный аспект)
- Характеристика результатов поиска, указывающая на то, что они слишком общие или навигационные (например, главные страницы новостных или правительственных сайтов), что делает их непригодными для генерации Search Profile.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод предоставления персонализированной рекламы.
- Система выбирает набор результатов поиска, отвечающих (а) запросу пользователя И (б) профилю пользователя (User Profile).
- Система определяет аспект соответствующих документов, который указывает на их полезность для персонализации (т.е. проверяет наличие Portal Aspect).
- Если документы полезны для персонализации: Система извлекает профиль (Search Profile) из этих документов. Это включает анализ документов для определения терминов и включение этих терминов в профиль.
- Если документы НЕ полезны для персонализации: Система выбирает User Profile в качестве профиля для таргетинга.
- Система выбирает рекламу, соответствующую профилю (который является либо Search Profile, либо User Profile, в зависимости от шагов 3 и 4).
- Система предоставляет рекламу вместе с результатами поиска.
Ядро изобретения заключается в динамическом выборе основы для таргетинга рекламы: либо контекст текущих персонализированных результатов (Search Profile), либо общие интересы пользователя (User Profile), в зависимости от характера самих результатов.
Claim 7 (Зависимый от 1): Уточняет шаг 2 из Claim 1.
Определение полезности документов для персонализации включает определение того, имеют ли документы один или несколько portal aspects. Наличие портальных аспектов указывает на то, что документы не полезны для персонализации (и активирует шаг 4).
Claim 8 (Зависимый от 7): Уточняет определение portal aspects.
Определение portal aspects включает определение доменных имен сайтов, на которых размещены документы. Доменные имена новостных организаций и правительственных учреждений указывают на непригодность для персонализации.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, интегрируя данные профилирования для улучшения как органической выдачи, так и рекламного таргетинга.
INDEXING – Индексирование и извлечение признаков (Фоновый процесс)
На этом этапе документы анализируются (например, с помощью Paragraph Sampling и Context Analysis) для извлечения признаков, необходимых для последующего сопоставления с профилями пользователей.
(Вне основного потока поиска) – Профилирование Пользователя
Система постоянно собирает данные о поведении пользователя (запросы, клики, Activity Information) для создания и обновления User Profile (Term-based, Category-based, Link-based) на User Profile Server.
QUNDERSTANDING / RANKING / RERANKING – Персонализация Поиска
На этих этапах происходит персонализация результатов поиска. Система может либо модифицировать запрос, добавляя термины из User Profile, либо, что чаще, использовать User Profile для переранжирования результатов, сгенерированных по исходному запросу, вычисляя PersonalizedScore. Personalization Server выполняет эту задачу.
METASEARCH – Метапоиск и Смешивание (В контексте выбора рекламы)
Это основной этап применения изобретения (Claims).
- Personalization Server передает Personalized Search Results в Content Analysis Module.
- Модуль оценивает результаты на наличие Portal Aspect.
- Если аспекта нет, модуль анализирует контент результатов и генерирует Search Profile.
- Если аспект есть, модуль использует User Profile.
- Ad Server использует полученный профиль для выбора и ранжирования рекламы.
- Финальная выдача объединяет персонализированные органические результаты и персонализированную рекламу.
Входные данные:
- Запрос пользователя и User ID.
- User Profile (Term, Category, Link данные).
- Общие результаты поиска (если используется метод переранжирования).
Выходные данные:
- Personalized Search Results.
- Search Profile (сгенерированный или выбранный).
- Персонализированная реклама.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы или запросы с широким интентом, где User Profile помогает уточнить намерение. Для навигационных запросов (поиск порталов) механизм выбора рекламы меняется.
- Типы контента: Влияет на все типы индексируемого контента. Упоминается анализ различных форматов (HTML, PDF, Word) при построении профиля пользователя.
Когда применяется
- Триггеры активации: Алгоритм активируется при каждом поисковом запросе, если доступен User Profile. Степень применения может зависеть от Profile Confidence.
- Условия для Search Profile: Search Profile генерируется из результатов, если они признаны полезными для персонализации (не имеют Portal Aspect).
- Условия для User Profile (Fallback): User Profile используется напрямую для рекламы, если результаты имеют Portal Aspect (например, результаты являются главными страницами новостных организаций, правительственных агентств или крупных порталов).
Пошаговый алгоритм
Процесс А: Обработка запроса и персонализация рекламы (Реальное время)
- Получение запроса и профиля: Система получает запрос и User ID. Извлекается соответствующий User Profile.
- Генерация персонализированных результатов: Система генерирует Personalized Search Results. Это может быть сделано путем переранжирования общих результатов на основе User Profile (вычисление PersonalizedScore) или путем модификации запроса.
- Оценка полезности результатов: Content Analysis Module анализирует полученные результаты (например, доменные имена), чтобы определить, имеют ли они Portal Aspect.
- Ветвление логики таргетинга:
- Если Portal Aspect ЕСТЬ (результаты слишком общие/навигационные): В качестве профиля для таргетинга выбирается User Profile. Переход к шагу 6.
- Если Portal Aspect НЕТ (результаты специфичны): Переход к шагу 5.
- Генерация Search Profile: Content Analysis Module анализирует контент персонализированных результатов (часто только первую страницу) для извлечения ключевых тем и терминов. Генерируется Search Profile.
- Выбор рекламы: Ad Server получает профиль (Search Profile или User Profile) и выбирает релевантную рекламу из базы данных.
- Формирование выдачи: Front End Server объединяет персонализированные результаты поиска и выбранную рекламу и отправляет пользователю.
Процесс Б: Построение User Profile (Фоновый процесс)
- Сбор данных: Система собирает данные о пользователе: запросы, просмотренные URL, анкорные тексты, Activity Information (время на сайте, скроллинг, сохранение), демографию, IP.
- Извлечение контента: Для просмотренных документов применяется Paragraph Sampling для извлечения релевантного текста, игнорируя шаблоны.
- Идентификация терминов: Применяется Context Analysis для идентификации важных терминов и их весов на основе обученных контекстных шаблонов.
- Классификация: Термины и ссылки классифицируются для обновления Term-based, Category-based и Link-based профилей.
- Обновление и Прунинг: Новые данные объединяются со старыми (возможно, с понижением веса старых данных). Профиль обрезается для удаления неважных или устаревших элементов.
Какие данные и как использует
Данные на входе
Патент описывает чрезвычайно широкий спектр данных, используемых для построения User Profile:
- Контентные факторы: Содержимое просмотренных документов (извлеченное через Paragraph Sampling), заголовки документов, мета-теги, ALT-теги.
- Ссылочные факторы: URL, идентифицированные пользователем; анкорные тексты (Anchor Texts) этих URL; хосты и домены посещенных сайтов.
- Поведенческие факторы (Ключевые): История поисковых запросов (Previous Search Queries); Activity Information: время просмотра документа, активность скроллинга, печать, сохранение, добавление в закладки.
- Технические факторы: Формат документа (HTML, PDF, Word), IP-адрес пользователя.
- Временные факторы: Дата информации в профиле (упоминается возможность понижения веса старых данных).
- Географические факторы: Явно предоставленное местоположение или выведенное из IP-адреса.
- Пользовательские факторы: Демографическая информация (возраст, образование, доход, язык, статус), психографическая информация, членство в группах, явно выраженные интересы (Expressed Topics).
- Внешние данные: Информация, извлеченная с веб-сайтов, связанных с IP-адресом пользователя.
Какие метрики используются и как они считаются
- GenericScore (Общая оценка): Базовая оценка релевантности документа запросу. Формула: QueryScore * PageRank.
- Profile Scores (Оценки профиля): Метрики релевантности документа профилю пользователя.
- TermScore: На основе совпадения терминов документа и Term-based профиля.
- CategoryScore: На основе совпадения категорий документа и Category-based профиля.
- LinkScore: На основе совпадения URL/хоста документа и Link-based профиля.
- PersonalizedScore (Персонализированная оценка): Итоговая оценка для ранжирования. Одна из формул: GenericScore * (TermScore + CategoryScore + LinkScore).
- Profile Confidence (Уровень уверенности профиля): Метрика для балансировки. Используется в альтернативной формуле финальной оценки: FinalScore = ProfileScore * ProfileConfidence + GenericScore * (1 — ProfileConfidence).
- Веса контекстных шаблонов (Context Analysis Weights): Оценка важности шаблона для идентификации термина. Пример формулы, основанной на частоте появления шаблона с важными и неважными терминами.
Выводы
- Персонализация как основа поиска: Патент демонстрирует, что Google рассматривает персонализацию не как дополнительный слой, а как фундаментальный компонент ранжирования. Система активно стремится понять долгосрочные интересы пользователя, выходя за рамки текущего запроса.
- Комплексное профилирование пользователя: User Profile строится на огромном массиве данных, включая контент, ссылки, поведение, демографию и географию. Профиль многомерен: термины (Term-based), категории (Category-based) и ссылки (Link-based).
- Поведенческие сигналы критичны: Activity Information (время на сайте, скроллинг, сохранение) явно указана как входной сигнал для построения профиля. Это подтверждает важность поведенческих факторов в SEO.
- Реклама следует за органическим контекстом: Ключевой механизм таргетинга рекламы основан на анализе контента уже персонализированной органической выдачи (Search Profile). Это обеспечивает высокую степень соответствия между органическими результатами и рекламой.
- Продвинутые методы анализа контента: Описаны конкретные методы (Paragraph Sampling и Context Analysis) для фильтрации шума (boilerplate) и идентификации важных терминов не только по их наличию, но и по их контекстуальному окружению.
- Адаптация к интенту запроса: Система различает типы поиска. При навигационных или общих запросах (Portal Aspect) логика персонализации рекламы меняется (используется User Profile напрямую), что указывает на гибкость системы в интерпретации интента.
Практика
Best practices (это мы делаем)
Хотя Claims патента фокусируются на рекламе, описанные механизмы персонализации поиска имеют прямое значение для SEO.
- Оптимизация под интересы, а не только под запросы: Необходимо понимать долгосрочные интересы целевой аудитории. Поскольку User Profile сильно влияет на ранжирование, контент должен соответствовать этим интересам, чтобы иметь преимущество при неоднозначных или широких запросах.
- Фокус на вовлеченности и поведении (User Engagement): Патент явно указывает, что активность пользователя на странице (Activity Information: время просмотра, скроллинг, сохранение) используется для построения User Profile. Создание качественного, вовлекающего контента, который удерживает пользователя, критически важно.
- Построение тематического авторитета (Topical Authority): Глубокое покрытие тем повышает вероятность того, что сайт будет высоко оценен в Category-based и Term-based профилях пользователей, интересующихся данной тематикой. Это создает устойчивое преимущество в персонализированной выдаче.
- Создание субстантивного контента (Уроки Paragraph Sampling): Контент должен быть сосредоточен в содержательных, развернутых абзацах. Избегайте разбавления основного контента большим количеством коротких, несвязных фрагментов текста, которые могут быть интерпретированы как шум.
- Использование контекстных сигналов (Уроки Context Analysis): Обращайте внимание на контекстное окружение ключевых терминов. Использование естественных языковых конструкций, которые сигнализируют о важности термина (например, определения, списки характеристик), может помочь системам правильно интерпретировать контент.
Worst practices (это делать не надо)
- Игнорирование персонализации: Оптимизация только под «общий» (generic) рейтинг неэффективна, так как значительная часть пользователей увидит персонализированную выдачу, которая может радикально отличаться.
- Манипуляция поведенческими факторами (Краткосрочная): Попытки симулировать вовлеченность могут быть неэффективны, так как User Profile строится на долгосрочных данных и комплексном анализе поведения (учитывается не только клик, но и активность после него).
- Создание поверхностного контента (Thin Content): Контент, который не предоставляет достаточной глубины или состоит из коротких абзацев, может быть отфильтрован системами типа Paragraph Sampling при оценке его релевантности интересам пользователя.
- Чрезмерное использование шаблонного текста (Boilerplate): Большое количество навигационных элементов, дисклеймеров или другого нерелевантного текста в теле документа снижает плотность полезного контента и может мешать анализу.
Стратегическое значение
Этот патент подтверждает стратегический приоритет Google на глубокое понимание пользователя. Для SEO это означает переход от оптимизации под ключевые слова к оптимизации под аудитории и их интересы. Долгосрочная стратегия должна фокусироваться на создании контента, который отвечает реальным потребностям пользователей и стимулирует долгосрочное вовлечение. Понимание того, как прошлые взаимодействия пользователя с вашим сайтом (и сайтами конкурентов) формируют его будущую выдачу, является ключом к построению эффективной SEO-стратегии.
Практические примеры
Сценарий: Персонализация выдачи и рекламы для пользователя с техническими интересами
- User Profile: Пользователь часто ищет информацию о Python, читает документацию (высокий Link-based score для python.org) и проводит много времени на технических блогах (высокий Category-based score для «Programming»).
- Запрос: Пользователь вводит неоднозначный запрос «Panda».
- Персонализация выдачи: Personalization Server использует User Profile и повышает в ранжировании результаты, связанные с библиотекой Pandas для Python, понижая результаты о животных или автомобилях Fiat Panda.
- Генерация Search Profile: Content Analysis Module анализирует первую страницу персонализированной выдачи. Search Profile содержит термины: «DataFrame», «Python», «Data Analysis», «NumPy». (Portal Aspect не обнаружен).
- Персонализация рекламы: Ad Server использует Search Profile и показывает рекламу курсов по Data Science или книг по Python, а не туров в Китай или игрушечных панд.
Вопросы и ответы
Насколько сильно персонализация, описанная в патенте, влияет на органическую выдачу?
Влияние очень сильное. Хотя Claims патента касаются рекламы, сам механизм рекламы зависит от предварительной персонализации органической выдачи. Патент детально описывает, как User Profile используется для переранжирования результатов (изменяя GenericScore на PersonalizedScore) или даже для модификации самого запроса. Это означает, что пользователи с разными интересами увидят совершенно разные SERP по одному и тому же запросу.
Какие типы данных Google использует для построения профиля пользователя (User Profile)?
Патент описывает очень широкий спектр данных. Ключевые из них: история поисковых запросов, посещенные URL и их анкорные тексты, активность пользователя на странице (Activity Information: время, скроллинг, сохранение), формат документов, демографические данные, географическое положение (включая вывод из IP), и даже анализ сайтов, связанных с IP пользователя. Это комплексный сбор поведенческих, контентных и личных данных.
Что такое Term-based, Category-based и Link-based профили?
Это три измерения, по которым Google хранит интересы пользователя. Term-based — это список важных терминов и их весов. Category-based — это привязка интересов к иерархическим категориям (например, Спорт/Футбол). Link-based — это список предпочитаемых URL, хостов или доменов. Все три типа используются для расчета персонализированной оценки релевантности (PersonalizedScore).
Как Google определяет, какой контент на странице важен, а какой нет? (Paragraph Sampling)
Патент описывает метод Paragraph Sampling. Он основан на предположении, что важный контент находится в длинных абзацах, а неважный (навигация, копирайты, дисклеймеры) — в коротких. Система извлекает текст из самых длинных параграфов до достижения определенного лимита, игнорируя короткие фрагменты и шаблонный текст. Это важно учитывать при структурировании контента на сайте.
Что такое Context Analysis и как он влияет на SEO?
Context Analysis — это метод определения важности термина по его окружению (контекстным шаблонам). Например, система может выучить, что шаблон «* является языком программирования» указывает на важный термин вместо звездочки. Для SEO это означает, что важно не только наличие ключевого слова, но и его естественное и информативное контекстное окружение, которое помогает поисковой системе понять значимость термина.
Учитывает ли Google поведение пользователя на моем сайте для персонализации?
Да, явно. В патенте указано, что Activity Information (активность пользователя) на просмотренных документах используется для построения профиля. Это включает такие факторы, как время просмотра документа, активность скроллинга, а также сохранение, печать или добавление документа в закладки. Вовлечение пользователя (Engagement) критически важно.
Может ли Google полностью игнорировать персонализацию?
Да. Патент описывает механизм балансировки с использованием Profile Confidence (уверенность в профиле). Если уверенность в профиле низкая (например, мало данных о пользователе или интересы недавно изменились), система будет больше полагаться на общие (generic) результаты. Также упоминается возможность смешивания (interleaving) персонализированных и общих результатов в выдаче.
В чем основное отличие между User Profile и Search Profile?
User Profile — это долгосрочное хранилище интересов пользователя, основанное на его истории. Search Profile — это динамический профиль, создаваемый на лету путем анализа контента результатов текущего поиска (после их персонализации). User Profile используется для персонализации органической выдачи, а Search Profile используется для таргетинга рекламы в этой выдаче.
Что такое «Portal Aspect» и почему он важен?
Portal Aspect — это характеристика, указывающая, что результаты поиска слишком общие или навигационные (например, главная страница CNN.com). Если он обнаружен, Google считает, что контент этих результатов не подходит для генерации точного Search Profile. В этом случае система переключается на использование общего User Profile для таргетинга рекламы.
Какова главная стратегическая рекомендация для SEO, исходя из этого патента?
Главная рекомендация — сместить фокус с оптимизации под изолированные ключевые слова на оптимизацию под долгосрочные интересы целевой аудитории и построение тематического авторитета. Необходимо создавать вовлекающий, субстантивный контент, который заставляет пользователей взаимодействовать с сайтом, так как это напрямую формирует их User Profile и влияет на будущее ранжирование вашего сайта в их выдаче.