Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google определяет интересы пользователя по его взаимодействию с B2C рассылками (Email, SMS) для персонализации поиска

    TEMPLATE-BASED IDENTIFICATION OF USER INTEREST (Идентификация интересов пользователя на основе шаблонов)
    • US10387559B1
    • Google LLC
    • 2019-08-20
    • 2016-11-22
    2016 Патенты Google Персонализация Семантика и интент

    Google анализирует, как пользователи взаимодействуют (открывают, читают, сохраняют) с шаблонными B2C сообщениями (email, SMS). Система определяет интересы (бренды, темы, сущности), связанные с этими сообщениями. Если вовлеченность высока, эти интересы добавляются в профиль пользователя и используются для изменения ранжирования результатов поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу точной идентификации интересов пользователя, используя источники данных за пределами явной поисковой истории, а именно — Business-to-Consumer (B2C) коммуникации (электронные письма, SMS). Цель — улучшить понимание предпочтений пользователя и использовать эти данные для персонализации и ранжирования результатов поиска. Система также решает проблему фильтрации спама, учитывая только те сообщения, с которыми пользователь активно взаимодействует.

    Что запатентовано

    Запатентована система автоматического профилирования интересов пользователя путем анализа шаблонных B2C сообщений. Система кластеризует массовые рассылки, генерирует шаблоны и определяет связанные с ними интересы (сущности, бренды, темы). Ключевая особенность — интерес добавляется в профиль пользователя только при условии достаточной вовлеченности (user engagement) с сообщением, например, длительного чтения или возврата к старому сообщению. Эти интересы затем используются для ранжирования поисковой выдачи.

    Как это работает

    Система работает в двух основных режимах:

    • Офлайн-подготовка: Система собирает корпус B2C сообщений, кластеризует их по схожести структуры и контента, генерирует шаблоны (electronic document templates). Затем она определяет интересы, связанные с каждым шаблоном, анализируя контент, домен отправителя или связанные веб-страницы.
    • Онлайн-обработка и Применение: Когда пользователь получает новое B2C сообщение, система отслеживает его взаимодействие. Если вовлеченность удовлетворяет строгим критериям (Engagement Criteria), система сопоставляет сообщение с шаблоном, добавляет связанный интерес в профиль пользователя (user profile) и использует его для ранжирования результатов поиска.

    Актуальность для SEO

    Высокая. Глубокая персонализация и понимание интересов пользователя за пределами поисковых запросов являются ключевыми направлениями развития поиска. Использование данных из экосистемы Google (таких как Gmail или Android Messages) для улучшения качества Поиска является стандартной и актуальной стратегией.

    Важность для SEO

    Патент имеет значительное влияние на SEO (7.5/10), особенно в контексте персонализации. Он не описывает классические факторы ранжирования, но детально раскрывает механизм построения профиля интересов пользователя, который напрямую используется для переранжирования выдачи. Это подчеркивает стратегическую важность построения бренда и прямого взаимодействия с аудиторией через Email/SMS маркетинг как способа влияния на видимость сайта в поиске для лояльной аудитории.

    Детальный разбор

    Термины и определения

    B2C Electronic Documents (B2C электронные документы)
    «Business-to-Consumer» коммуникации (email, SMS, instant messages), которые обычно генерируются автоматически с использованием шаблонов. Противопоставляются C2C (личной переписке).
    Cluster Engine (Механизм кластеризации)
    Компонент, группирующий B2C документы на основе общих паттернов (фиксированный контент, метаданные, структура XPaths).
    Electronic Document Template (Шаблон электронного документа)
    Шаблон, сгенерированный из кластера похожих B2C документов.
    Engagement Criteria (Критерии вовлеченности)
    Пороговые значения и условия взаимодействия пользователя с документом. При их выполнении система делает вывод, что пользователь заинтересован в контенте.
    Entity (Сущность)
    Человек, место, компания, организация, событие или объект (например, спортивная команда, бренд), который может быть идентифицирован системой и хранится в Entity Database (Knowledge Graph).
    Interest Engine (Механизм определения интересов)
    Компонент, определяющий интересы (темы, сущности) и связывающий их с шаблонами. Использует Topic Classifier и Entity Classifier.
    User Engagement (Вовлеченность пользователя)
    Действия пользователя с электронным документом: открытие, время чтения, маркировка (labeling), перемещение в папку, форвардинг.
    User Profile Engine (Механизм профилирования пользователя)
    Компонент, который добавляет идентифицированные интересы в профиль пользователя при условии достаточной вовлеченности.
    XPaths
    Набор адресов для достижения узлов в дереве HTML/XML документа. Используется для определения структурного сходства документов независимо от их текста.

    Ключевые утверждения (Анализ Claims)

    Патент содержит три ключевых независимых пункта (1, 8, 16), которые описывают один и тот же процесс, но фокусируются на разных критериях вовлеченности.

    Claim 1 (Независимый пункт): Описывает полный цикл работы системы от генерации шаблонов до персонализации поиска.

    1. Генерация множества шаблонов из email или SMS, имеющих общий фиксированный контент.
    2. Определение интересов пользователя для каждого шаблона на основе агрегированных атрибутов корпуса сообщений.
    3. Хранение шаблонов и связанных интересов.
    4. Идентификация нового email/SMS, адресованного пользователю, и выбор соответствующего шаблона.
    5. Обнаружение вовлеченности (engagement) пользователя с сообщением.
    6. Определение, удовлетворяет ли вовлеченность критерию, указывающему на интерес. Критерий определяется как выполнение ОДНОГО из условий:
      • (А) Прошло определенное время между получением сообщения и тем, как пользователь прокрутил инбокс вниз, чтобы открыть его (возврат к старому сообщению).
      • (Б) Сообщение было открыто в течение порогового времени (threshold time interval), что указывает на полное ознакомление (fully consumed) с ним.
    7. Если критерий выполнен, система сохраняет ассоциацию между пользователем и интересами, связанными с шаблоном.
    8. Применение: Получение поискового запроса от пользователя -> Ранжирование контента на основе идентифицированных интересов -> Предоставление ранжированного контента.

    Claim 8 (Независимый пункт): Повторяет логику Claim 1, но фокусируется исключительно на критерии вовлеченности (А) — возврат к старому сообщению путем прокрутки инбокса.

    Claim 16 (Независимый пункт): Повторяет логику Claim 1, но фокусируется исключительно на критерии вовлеченности (Б) — достаточное время чтения для полного ознакомления с контентом.

    Где и как применяется

    Изобретение связывает анализ коммуникаций (Email/SMS) с процессом поиска и персонализацией.

    INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
    Основная часть анализа данных происходит офлайн. Сюда входит сбор корпуса B2C сообщений, их кластеризация (Cluster Engine), генерация шаблонов и определение связанных интересов (Interest Engine). Система также может анализировать внешние веб-документы (sender domain web documents) для определения интересов.

    CRAWLING / Data Acquisition (Сбор данных в реальном времени)
    Система отслеживает входящие B2C документы пользователя и собирает данные о его взаимодействии (User Engagement) с ними.

    RERANKING – Переранжирование (Персонализация)
    Финальное применение патента. Профиль интересов пользователя (User Profile), сгенерированный этой системой, используется как входной сигнал для персонализации и переранжирования результатов поиска, полученных на этапе RANKING.

    Входные данные:

    • Корпус B2C электронных документов (Email, SMS).
    • Данные о взаимодействии пользователя с клиентским устройством (для измерения вовлеченности).
    • База данных сущностей (Entity Database / Knowledge Graph).
    • Внешние данные: веб-документы с домена отправителя, результаты поиска.

    Выходные данные:

    • База данных шаблонов (Template Database), аннотированных интересами.
    • Обновленный профиль интересов пользователя (User Profile Database).

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на запросы, где у пользователя могут быть явные предпочтения, связанные с брендами, хобби, спортивными командами, развлечениями. Также влияет на неоднозначные запросы, где знание интересов помогает уточнить интент.
    • Конкретные ниши: Влияет на все ниши, где активно используются B2C коммуникации: E-commerce, медиа, спорт, развлечения.
    • Персонализированная выдача: Алгоритм напрямую влияет на ранжирование в персонализированной выдаче для конкретного пользователя.

    Когда применяется

    • Триггеры активации: Получение пользователем B2C сообщения, которое соответствует известному шаблону.
    • Условия применения (Критические): Алгоритм профилирования активируется только тогда, когда обнаруженная вовлеченность (User Engagement) пользователя с сообщением удовлетворяет строгим критериям.
    • Критерии (согласно Claims 1, 8, 16):
      • Пользователь вернулся к старому сообщению, прокрутив инбокс (сигнал высокого интереса).
      • ИЛИ пользователь держал сообщение открытым достаточно долго для полного ознакомления (threshold time interval).
    • Исключения: Если сообщение помечено как спам, удалено без открытия, открыто на короткое время или является личной перепиской (C2C), интерес не засчитывается.

    Пошаговый алгоритм

    Система состоит из двух основных процессов.

    Процесс А: Офлайн-генерация шаблонов и интересов

    1. Сбор и Кластеризация: Корпус B2C документов группируется в кластеры на основе общего контента и структуры (фиксированный текст, метаданные, XPaths).
    2. Генерация шаблонов: Для каждого кластера генерируется шаблон электронного документа.
    3. Определение интересов: Для каждого шаблона Interest Engine определяет связанные интересы (темы/сущности). Методы включают:
      • Метод 1: Анализ домена отправителя и сопоставление с сущностью.
      • Метод 2: Анализ веб-документов на домене отправителя (Sender Domain Web Documents) для поиска частых сущностей/тем.
      • Метод 3: Анализ результатов поиска по запросу, содержащему отправителя.
      • Метод 4: Анализ корпуса B2C документов в кластере для поиска наиболее часто упоминаемых сущностей/тем.
    4. Сохранение ассоциации: Связь между шаблоном и идентифицированными интересами сохраняется в базе данных.

    Процесс Б: Онлайн-обработка и профилирование пользователя

    1. Идентификация документа: Система идентифицирует B2C документ, адресованный пользователю.
    2. Обнаружение вовлеченности: Система отслеживает взаимодействие пользователя с документом.
    3. Проверка критериев вовлеченности: Система определяет, удовлетворяет ли вовлеченность установленным критериям (время чтения или возврат к старому сообщению).
      • Если НЕТ: Процесс останавливается.
      • Если ДА: Перейти к шагу 4.
    4. Выбор шаблона: Система выбирает из библиотеки шаблон, соответствующий данному документу.
    5. Идентификация интересов: Система идентифицирует интересы, ранее ассоциированные с этим шаблоном.
    6. Сохранение профиля: Ассоциация между пользователем и интересами сохраняется в User Profile Database.
    7. Применение в поиске: При получении поискового запроса система ранжирует результаты, учитывая эти интересы (персонализация).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст B2C сообщений. Используется для кластеризации и анализа интересов с помощью Topic/Entity Classifier. Фиксированный контент (boilerplate).
    • Структурные факторы: Структура документов (HTML узлы, XPaths). Критически важны для кластеризации шаблонных документов.
    • Технические факторы (Метаданные): Адрес отправителя (sender address), домен отправителя (sender domain), тема письма (subject), дата.
    • Поведенческие факторы (User Engagement): Ключевые данные для активации алгоритма. Включают:
      • Открытие документа.
      • Время чтения (интервал между открытием и закрытием).
      • Время между получением и открытием (особенно открытие старых писем путем прокрутки инбокса).
      • Маркировка (labeling) или перемещение документа в папку.
      • Пересылка документа (forwarding).
      • Негативные действия: удаление, блокировка, пометка как СПАМ.
    • Внешние данные: Веб-документы с домена отправителя (Sender Domain Web Documents), результаты поиска по отправителю (Search Results).

    Какие метрики используются и как они считаются

    • Метрики кластеризации: Структурное сходство (количество общих XPaths), текстовое сходство (общие n-граммы), байтовое сходство.
    • Метрики определения интересов: Частотность упоминания сущностей или тем в корпусе документов. Могут использоваться статистические методы (TF-IDF, Байесовские методы).
    • Метрики вовлеченности (Engagement Criteria):
      • Predetermined time interval: Интервал между получением и открытием при скроллинге назад к старому сообщению.
      • Threshold time interval: Пороговая длительность чтения сообщения. В патенте указано, что этот порог может рассчитываться исходя из размера документа, чтобы определить время, необходимое для полного ознакомления (fully consumed).

    Выводы

    1. Использование B2C коммуникаций для ранжирования в поиске: Патент подтверждает, что Google активно использует данные из внешних по отношению к Поиску источников (Email, SMS) для построения профиля интересов пользователя, который напрямую влияет на ранжирование (Claims 1, 8, 16).
    2. Вовлеченность как обязательное условие: Система не анализирует все входящие сообщения. Интерес засчитывается только при наличии явных и сильных сигналов вовлеченности (User Engagement). Получение спама или неинтересных рассылок не влияет на профиль.
    3. Строгие и конкретные критерии вовлеченности: Патент определяет конкретные поведенческие паттерны как индикаторы интереса: (1) возврат к старому сообщению путем скроллинга инбокса и (2) достаточное время чтения для полного ознакомления с контентом.
    4. Автоматизированный анализ рассылок: Система автоматически кластеризует массовые рассылки, генерирует шаблоны и определяет связанные интересы, анализируя как сами сообщения, так и связанные веб-ресурсы (например, сайт отправителя).
    5. Фокус на B2C, а не C2C: Система разработана для анализа шаблонных (template-generated) документов и фильтрует личные (C2C) сообщения.
    6. Кросс-канальное влияние на SEO: Эффективность email-маркетинга и SMS-рассылок напрямую влияет на персонализированное ранжирование сайта в поиске для конкретного пользователя.

    Практика

    Best practices (это мы делаем)

    • Интеграция стратегий SEO и Email/SMS маркетинга: Рассматривайте B2C рассылки как способ формирования профиля интересов вашей аудитории в Google. Лояльность к бренду в рассылках может повысить видимость сайта в поиске для этих пользователей.
    • Стимулирование глубокой вовлеченности: Создавайте контент рассылок, который пользователи будут читать долго (удовлетворяя threshold time interval) или сохранять (labeling) и возвращаться к нему позже. Это увеличивает вероятность фиксации интереса системой.
    • Четкая идентификация бренда и сущностей: Используйте узнаваемый адрес отправителя и основной домен бренда (Sender Domain). Это упрощает системе ассоциацию рассылки с вашей сущностью (Entity). Упоминайте ключевые сущности и темы в рассылках.
    • Поддержание качества и релевантности основного сайта: Убедитесь, что контент на вашем сайте четко отражает тематику рассылок. Система может анализировать веб-документы на домене отправителя (Sender Domain Web Documents) для определения интересов, связанных с шаблоном.
    • Оптимизация структуры писем: Используйте чистый и стабильный HTML код. Патент упоминает использование XPaths для кластеризации. Последовательная структура поможет системе корректно генерировать шаблоны.

    Worst practices (это делать не надо)

    • Рассылка спама и низкокачественного контента: Сообщения, которые пользователи удаляют не читая или помечают как спам, не генерируют сигналов интереса и не влияют на профилирование.
    • «Кликбейтные» заголовки при слабом контенте: Если пользователь открывает сообщение, но быстро его закрывает (время чтения ниже порогового), критерий вовлеченности не будет выполнен, и интерес не будет засчитан.
    • Использование небрендированных или общих доменов: Отправка B2C коммуникаций с технических доменов затрудняет системе идентификацию связанной сущности.
    • Частая смена структуры рассылок: Это может затруднить работу Cluster Engine и помешать созданию стабильных шаблонов.

    Стратегическое значение

    Патент подтверждает стратегическую важность кросс-канального маркетинга и глубокую интеграцию сервисов Google. Взаимодействие с пользователем в одном канале (Email/SMS) напрямую влияет на его опыт и видимость бренда в другом канале (Поиск). Для SEO это означает, что построение долгосрочных отношений с пользователем и формирование подлинного интереса к бренду (Brand Affinity) за пределами сайта напрямую влияет на видимость в персонализированном поиске.

    Практические примеры

    Сценарий: Улучшение ранжирования для лояльного покупателя спортивного магазина

    1. Офлайн-подготовка: Google анализирует рассылки спортивного магазина «Brand X». Он генерирует шаблон для их еженедельного дайджеста и определяет, что этот шаблон связан с интересами «Brand X» и «Бег».
    2. Взаимодействие пользователя: Пользователь подписан на рассылку «Brand X». Он получает дайджест.
    3. Вовлеченность: Пользователь открывает письмо и читает его в течение 2 минут. Google определяет, что это время достаточно для полного ознакомления с контентом (критерий выполнен).
    4. Профилирование: Система добавляет интересы «Brand X» и «Бег» в профиль пользователя.
    5. Применение в поиске: Через неделю пользователь ищет «лучшие кроссовки для марафона».
    6. Ранжирование: Google использует профиль интересов пользователя. Поскольку «Brand X» и «Бег» есть в профиле, система повышает в ранжировании релевантные страницы с сайта «Brand X» для этого конкретного пользователя.
    7. Результат: Пользователь видит сайт «Brand X» выше в выдаче, чем если бы он не взаимодействовал с рассылками.

    Вопросы и ответы

    Означает ли этот патент, что Google читает личную переписку пользователей?

    Патент акцентирует внимание на анализе Business-to-Consumer (B2C) коммуникаций, которые генерируются на основе шаблонов (рассылки, уведомления). Упоминается, что личные письма (C2C) могут быть отфильтрованы на предварительном этапе, так как они не подходят для кластеризации и генерации шаблонов.

    Насколько сильным должно быть вовлечение пользователя, чтобы интерес был засчитан?

    Вовлечение должно быть значительным. Патент определяет строгие критерии: либо пользователь должен держать сообщение открытым достаточно долго для полного ознакомления (время может рассчитываться динамически), либо он должен специально вернуться к старому сообщению, прокрутив инбокс. Простое открытие не засчитывается.

    Как система определяет, какой интерес связан с рассылкой?

    Система использует несколько методов: прямое сопоставление домена отправителя с сущностью (брендом); анализ контента на сайте отправителя для поиска частых тем/сущностей; анализ результатов поиска по отправителю; или анализ всего корпуса похожих B2C сообщений для выявления наиболее часто упоминаемых сущностей.

    Какова основная цель сбора этих данных согласно патенту?

    Основная цель явно указана в Claims 1, 8 и 16 — это использование идентифицированных интересов для ранжирования контента (ranking the obtained content) в ответ на последующие поисковые запросы пользователя. Это механизм персонализации поиска.

    Как SEO-специалист может использовать это знание на практике?

    Необходимо координировать SEO и Email/SMS маркетинг. Создавайте качественные рассылки, которые вовлекают аудиторию и стимулируют длительное время чтения. Это помогает формировать лояльность к бренду в профилях пользователей Google, что приведет к лучшему ранжированию вашего сайта в персонализированной выдаче для вашей аудитории.

    Что произойдет, если пользователь пометит письмо как СПАМ?

    Если пользователь помечает письмо как СПАМ, блокирует отправителя или удаляет письмо без прочтения, критерии вовлеченности не выполняются. Интересы, связанные с шаблоном письма, не будут приписаны пользователю. Система специально разработана так, чтобы игнорировать нежелательные сообщения.

    Влияет ли структура HTML-письма на работу этого алгоритма?

    Да, влияет. Система использует структурные сходства, такие как XPaths (адреса узлов в HTML-дереве), для кластеризации писем и генерации шаблонов. Стабильная и чистая структура HTML помогает системе корректно идентифицировать ваши рассылки как единый кластер.

    Применяется ли этот механизм только к электронной почте?

    Нет. В патенте указано, что механизм применяется к различным типам структурированных B2C электронных документов, включая электронные письма (emails), текстовые сообщения (SMS, MMS) и мгновенные сообщения (instant messages).

    Использует ли Google данные из Gmail для улучшения Поиска?

    Да, этот патент является прямым подтверждением того, как данные о взаимодействии пользователя с электронной почтой (предположительно в Gmail) используются для построения профиля интересов, который затем применяется для ранжирования результатов в Поиске Google.

    Что важнее для этой системы: частота рассылок или качество взаимодействия с ними?

    Качество взаимодействия (вовлеченность) критически важно. Одна рассылка, которую пользователь внимательно прочитал или сохранил, даст более сильный сигнал интереса, чем десять рассылок, которые были проигнорированы или быстро закрыты.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.