Как Google анализирует личные данные (Email, Календарь, Контакты) для определения скрытого интента и персонализации выдачи

Google создает персонализированную «Модель пользователя» на основе его личного контента (письма, события, контакты). Эта модель хранит ключевые термины и их контекст. Система использует ее, чтобы понять «неявное намерение» запроса — ищет ли пользователь общую информацию в вебе или свои личные данные (например, свой рейс) — и соответствующим образом адаптирует выдачу, даже если запрос выглядит общим.

Описание

Какую задачу решает

Патент решает проблему неоднозначности запросов и определения истинного намерения пользователя (интента). Основная задача — распознать, когда пользователь ищет информацию в своих личных данных (Personal Intent), даже если он формулирует запрос в общем виде (например, вводит название авиакомпании, подразумевая поиск своего рейса). Система призвана понять это Implicit Intent (неявное намерение) автоматически, без явных команд пользователя, а также устранить неоднозначность (disambiguation) с использованием личного контекста.

Что запатентовано

Запатентована система создания и использования персонализированной User Model (Модели пользователя). Эта модель представляет собой структурированный профиль, построенный на основе контента, сгенерированного пользователем (User-Generated Content) в различных сервисах (почта, календарь, контакты, социальные сети). Модель хранит значимые термины (n-grams) и их контекстуальные аннотации (Annotations). Эта структура используется для определения, является ли интент запроса личным или общим (Web-based Intent).

Как это работает

Система работает в двух основных режимах:

Построение модели (Офлайн/Фоновый): User Model Generator анализирует личный контент пользователя, извлекает значимые n-grams (например, имена контактов, бронирования) и аннотирует их контекстом (например, «Max» используется как «Person»). Модель динамически обновляется и очищается от устаревших данных (Freshness).
Обработка запроса (Реальное время): При получении запроса Implicit Intent Trigger сравнивает его с User Model. Оцениваются совпадения, свежесть данных и близость к событиям (Interest Window). На основе этого вычисляется Intent Score. Если интент определен как личный, Query Annotator уточняет запрос, используя аннотации из модели, и поиск выполняется по индексу личного контента пользователя (User Content Index).

Актуальность для SEO

Крайне высокая. Описанные механизмы являются фундаментом для персонализированного поиска Google, позволяющего находить личные данные (например, авиабилеты из Gmail) через основную строку поиска, а также для работы Google Assistant и функций SGE. Понимание индивидуального контекста пользователя на основе его данных остается центральным элементом стратегии Google.

Важность для SEO

Влияние на SEO стратегически высокое (8.5/10). Хотя патент не описывает алгоритмы ранжирования публичных сайтов, он демонстрирует инфраструктуру глубокой персонализации, которая напрямую влияет на Query Understanding. Если система определяет сильный Personal Intent, стандартные органические результаты могут быть значительно понижены или полностью замещены ответами из личных данных пользователя. SEO-специалисты должны учитывать этот механизм и оптимизировать каналы, формирующие User Model (например, Email).

Детальный разбор

Термины и определения

Annotations (Аннотации): Контекстные метки, присваиваемые терминам в User Model. Указывают на тип сущности или контекст использования в исходном документе (например, Person, Location, Date, Sender). Критически важны для устранения неоднозначности (disambiguation).
Freshness (Свежесть): Метрика актуальности n-граммы, основанная на возрасте исходного контента. Используется для определения текущего интента и для очистки модели от устаревших данных при превышении порога (threshold freshness).
Implicit Intent (Неявное намерение): Истинная цель пользователя, не выраженная явно в запросе. В контексте патента — различие между Personal Intent (поиск в личных данных) и General/Web-based Intent (поиск в вебе).
Implicit Intent Trigger: Компонент системы, который анализирует запрос и User Model для определения неявного намерения. Рассчитывает Intent Score.
Intent Score (Оценка намерения): Агрегированная оценка, определяющая вероятность того, что запрос имеет персональный интент. Учитывает совпадения, свежесть, окно интереса.
Interest Window (Окно интереса): Период времени до или после события (например, авиарейса), в течение которого связанный запрос с высокой вероятностью указывает на персональный интент.
N-grams (N-граммы): Последовательности терминов, извлеченные из User-Generated Content, представляющие потенциальные интересы пользователя.
Query Annotator: Компонент, который модифицирует исходный запрос, добавляя аннотации из User Model для улучшения точности персонального поиска (создает Personal Query).
User-Generated Content (UGC): Все личные данные пользователя из различных сервисов (computer-implemented services): письма, посты в социальных сетях, контакты, события календаря, документы.
User Model (Модель пользователя): Специфичная для пользователя структура данных, содержащая аннотированные n-граммы, извлеченные из его UGC.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе создания и поддержания User Model.

Claim 1 (Независимый пункт): Описывает основной метод создания User Model. Это ядро изобретения.

Система получает множество документов, связанных с пользователем и сгенерированных в различных компьютерных сервисах.
Определяется информация из этих документов, представляющая потенциальный интерес.
Создается специфичная для пользователя User Model, включающая n-grams.
Термины в n-граммах ассоциируются с Annotations.
Аннотации указывают на контекст использования термина, основанный на информации из исходного документа.

Claim 2, 3, 4 (Зависимые): Детализируют динамическое обновление модели.

Модель обновляется на основе активности пользователя (событий).
Обновление включает добавление или удаление n-грамм.
Ключевой момент: Удаление n-граммы происходит, если пользователь удаляет исходный документ (например, письмо).

Claim 5 (Зависимый): Перечисляет источники данных.

Включают социальные сети, календарь, электронную почту, чат, управление контактами, обмен документами.

Claim 6 (Зависимый): Описывает механизм устаревания данных.

Система определяет, что Freshness n-граммы превысила пороговое значение (устарела), и удаляет ее из User Model.

Где и как применяется

Изобретение является ключевым элементом инфраструктуры персонализации и затрагивает несколько этапов поиска.

INDEXING – Индексирование (Персональных данных)
Происходит офлайн или в фоновом режиме. User Model Generator обрабатывает User-Generated Content из различных источников (Gmail, Calendar и т.д.). Извлекаются признаки (n-grams) и контекст (Annotations), которые сохраняются в базе данных User Models. Это аналог индексирования и извлечения признаков для личных данных.

QUNDERSTANDING – Понимание Запросов
Основной этап применения в реальном времени. Когда аутентифицированный пользователь вводит запрос:

Implicit Intent Trigger использует User Model для анализа запроса и расчета Intent Score (определения, является ли интент личным или общим).
Если интент личный, Query Annotator использует контекстные данные из модели для уточнения и переписывания запроса (Disambiguation), создавая Personal Query.

METASEARCH – Метапоиск и Смешивание
На основе решения этапа QUNDERSTANDING система определяет, какие индексы использовать: общий веб-индекс (Search Index) и/или индекс личного контента (User Content Index). Результаты смешиваются (Blending), причем при высокой уверенности в Personal Intent личные результаты получают приоритет.

Входные данные:

User-Generated Content (письма, контакты, события) (Офлайн).
Запрос пользователя (Онлайн).
User Model пользователя (Онлайн).

Выходные данные:

Определение Implicit Intent и Intent Score.
Аннотированный запрос (Personal Query).

На что влияет

Специфические запросы: Наибольшее влияние на неоднозначные запросы, которые пересекаются с личным контекстом пользователя (имена людей, названия компаний, с которыми он взаимодействовал, предстоящие события).
Типы контента: Влияет на отображение личного контента (письма, документы, события) в основной поисковой выдаче.
Пользовательские факторы: Влияет только на выдачу аутентифицированных пользователей.

Когда применяется

Условия работы: Применяется только для аутентифицированных пользователей, у которых построена User Model.
Триггеры активации (Персональный интент): Активируется, когда Intent Score превышает порог. Это происходит при выполнении условий:
- Термины запроса совпадают с n-grams в User Model.
- Совпадающие данные имеют высокую Freshness (недавние).
- Запрос попадает в Interest Window (близость по времени к событию, например, рейсу).

Пошаговый алгоритм

Процесс А: Построение и поддержка User Model (Фоновый/Непрерывный)

Сбор данных: Получение документов (UGC) из различных сервисов (почта, календарь и т.д.).
Извлечение информации: Определение потенциально интересной информации (например, сущностей). Фильтрация стоп-слов. Извлечение n-grams.
Анализ контекста и Аннотирование: Определение контекста использования терминов на основе источника (например, поле «Отправитель» письма). Присвоение Annotations (Person, Location, Date).
Создание/Обновление модели: Сохранение n-грамм и аннотаций в User Model. Присвоение метрики Freshness.
Управление актуальностью: Удаление n-грамм, если исходный документ удален пользователем или если Freshness превысила пороговое значение (данные устарели).

Процесс Б: Обработка запроса (Реальное время)

Получение запроса: Получение запроса от аутентифицированного пользователя.
Доступ к User Model: Загрузка соответствующей модели.
Определение неявного интента (Implicit Intent Trigger):
- Сравнение запроса с n-grams в модели.
- Расчет Intent Score на основе качества совпадения, Freshness и Interest Window.
Принятие решения: Сравнение Intent Score с порогами для классификации интента (Web-based, Personal или смешанный).
Аннотирование запроса (Query Annotator): Если определен Personal Intent, термины в запросе аннотируются на основе контекста из User Model для устранения неоднозначности (например, [Max] -> [Max (Person)]). Создается Personal Query.
Выполнение поиска: Выполнение поиска по соответствующим индексам (Веб и/или Личный контент).
Смешивание результатов: Объединение и ранжирование результатов в зависимости от уверенности в интенте.

Какие данные и как использует

Данные на входе

Система использует широкий спектр персональных данных пользователя для построения User Model.

Контентные факторы (Личные): Текст электронных писем (тема, тело), описания событий календаря, имена и данные контактов, содержание личных документов, посты в социальных сетях.
Структурные факторы (Контекст источника): Метаданные и структура документов (например, поля «Отправитель», «Получатель» в письме; «Местоположение», «Время» в календаре). Эти данные критичны для создания Annotations.
Временные факторы: Дата создания/получения контента (для Freshness). Даты запланированных событий (для Interest Window).
Поведенческие факторы: История кликов пользователя (упоминается, что предпочтение личных или публичных результатов в прошлом может влиять на определение текущего интента). Активность пользователя в сервисах (создание/удаление контента).

Какие метрики используются и как они считаются

Freshness Score: Оценка, основанная на возрасте исходного документа. Чем новее контент, тем выше оценка.
Threshold Freshness (Порог свежести): Пороговое значение времени, после которого n-грамма удаляется из модели. Порог может зависеть от типа данных (например, бронирование ужина устаревает быстрее, чем имя контакта).
Interest Window (Окно интереса): Предопределенный период времени, зависящий от типа события (например, 24 часа для рейса).
Intent Score: Агрегированная оценка для определения Implicit Intent. Рассчитывается как взвешенная комбинация:
- Качества совпадения запроса с n-граммами (точное совпадение оценивается выше синонимичного).
- Freshness Score совпадающих n-грамм.
- Попадания запроса в Interest Window.
- Исторических поведенческих данных.

Выводы

Глубокая персонализация на основе экосистемы: Google активно строит детализированные User Models, агрегируя данные из всех доступных личных сервисов (Email, Calendar, Contacts). Это позволяет понимать контекст пользователя далеко за пределами его истории поиска.
Неявный интент как ключевой триггер выдачи: Система спроектирована для распознавания ситуаций, когда пользователь ищет личную информацию без явного указания. Implicit Intent Trigger является центральным компонентом, определяющим логику поиска (личный vs публичный индекс).
Контекст и Аннотации (Структурирование личных данных): Модель пользователя — это не набор ключевых слов, а структурированный набор сущностей с контекстными Annotations. Это позволяет системе устранять неоднозначность (например, отличать контакт «Max» от функции «max»).
Временные факторы критичны (Freshness и Interest Window): Актуальность данных имеет решающее значение. Freshness определяет, хранится ли информация в модели, а Interest Window определяет, актуален ли личный интент в данный момент времени. Данные удаляются при устаревании или удалении источника.
Персонализация может переопределять веб-релевантность: Если система с высокой уверенностью определяет Personal Intent, личные результаты могут получить приоритет над стандартными органическими результатами, что стратегически важно для SEO.

Практика

Best practices (это мы делаем)

Хотя напрямую оптимизировать публичный сайт под личную модель пользователя нельзя, можно стратегически адаптироваться к этому механизму и оптимизировать каналы, формирующие User Model.

Использование структурированных данных в коммуникациях (Email Optimization): Это ключевая возможность влияния. Внедряйте микроразметку (например, Schema.org actions в Gmail) для транзакционных писем (заказы, билеты, регистрации, бронирования). Это напрямую поставляет структурированные данные в User Model пользователя, облегчая их обработку (Annotations) и улучшая видимость в персонализированном поиске в нужный момент (Interest Window).
Оптимизация сущностей (Entity Optimization): Убедитесь, что ваш бренд, продукты и услуги четко определены как сущности в публичном контенте и коммуникациях. Это поможет Google корректно интерпретировать контекст, когда они появляются в личных данных пользователя.
Присутствие в экосистеме пользователя (Email/CRM): Качественное взаимодействие с пользователем через email или календарь увеличивает вероятность того, что ваш бренд станет частью его User Model с корректными аннотациями.
Анализ персонализированного интента: При анализе семантики учитывайте, какие запросы могут иметь сильный Personal Intent (путешествия, недавние покупки). Понимайте, что реальная выдача у лояльных клиентов может сильно отличаться от выдачи в режиме инкогнито.

Worst practices (это делать не надо)

Игнорирование качества прямой коммуникации: Отправка неструктурированных писем или важных данных в виде изображений (например, билетов) без микроразметки. Это затрудняет парсинг и не позволяет Google эффективно добавить информацию в User Model.
Оценка эффективности только по неперсонализированной выдаче: Делать выводы о релевантности сайта или эффективности SEO-стратегии на основе выдачи, в которой активировались механизмы подмешивания персональных результатов. Это приведет к искаженному восприятию реальности.

Стратегическое значение

Патент подтверждает стратегию Google на переход от универсального поиска к роли глубоко персонализированного ассистента (что также видно в развитии SGE). Конкуренция в SERP происходит не только между публичными сайтами, но и между публичными сайтами и личными данными пользователя. Долгосрочная SEO-стратегия должна учитывать весь путь пользователя, включая пост-конверсионные коммуникации (Email), чтобы интегрироваться в User Model и оставаться видимыми.

Практические примеры

Сценарий 1: Оптимизация E-commerce для User Model

Задача: Обеспечить видимость информации о доставке в поиске пользователя.
Действие: Внедрить микроразметку Schema.org (Parcel Delivery) в письма о статусе доставки.
Механизм (по патенту): User Model Generator обрабатывает письмо, извлекает дату доставки и номер отслеживания (n-grams) и точно определяет их контекст (Annotations) благодаря разметке. Данные добавляются в User Model с высокой Freshness.
Результат: Когда пользователь вводит [когда доставка из Магазин X], Implicit Intent Trigger распознает личный интент. Google предоставляет прямой ответ о статусе заказа, приоритизируя его над общими ссылками.

Сценарий 2: Дисамбигуация и Interest Window

Контекст: У пользователя есть контакт «Jinan» и запланирована встреча с ним завтра в ресторане «Весна».
User Model: Содержит «Jinan» (Annotation: Person) и «Весна» (Annotation: Location/Restaurant), связанные событием (Event) с датой завтра.
Запрос: Пользователь ищет [весна].
Анализ: Система видит совпадение. Так как событие близко (Interest Window), Intent Score высок. Query Annotator понимает, что ищется ресторан, а не время года (Disambiguation).
Результат: В выдаче приоритет отдается информации о ресторане и предстоящей встрече, а не общей информации о весне.

Вопросы и ответы

Что такое User Model в контексте этого патента?

Это персонализированная база данных, которую Google создает для каждого пользователя на основе его личного контента (Gmail, Календарь, Контакты и т.д.). Она хранит важные термины (n-grams) и их контекст (Annotations). Эта модель помогает Google понять индивидуальный контекст пользователя и его текущие интересы.

Как Google определяет, ищу ли я личную информацию или общую (Implicit Intent)?

Система сравнивает ваш запрос с данными в вашей User Model. Она рассчитывает Intent Score, учитывая несколько факторов: наличие совпадений, свежесть (Freshness) этих данных в модели и близость по времени к связанным событиям (Interest Window). Если оценка высокая, система предполагает, что вы ищете личную информацию.

Что такое «Окно интереса» (Interest Window)?

Это период времени перед событием, когда вероятность поиска информации о нем максимальна. Например, если у вас рейс через 3 часа, и вы вводите название авиакомпании, система определит личный интент, так как запрос попадает в Interest Window. Если до рейса месяц, система скорее предположит общий интент.

Как этот патент влияет на стандартное SEO?

Влияние стратегически важное. Патент описывает механизм, который может полностью изменить выдачу для конкретного пользователя. Если Google определяет сильный Personal Intent, стандартные органические результаты могут быть понижены или замещены ответами из личных данных пользователя. Это снижает предсказуемость трафика и видимости.

Может ли SEO-специалист как-то повлиять на User Model пользователя?

Напрямую — нет, так как модель строится на личных данных. Однако косвенно повлиять можно через оптимизацию каналов прямой коммуникации. Основной способ — использование структурированных данных (Schema.org) в электронных письмах (подтверждения заказов, билеты). Это гарантирует, что информация о вашем бренде попадет в User Model в чистом и понятном для Google виде.

Что происходит, если я удалю письмо или событие в календаре?

Согласно патенту (Claim 4), User Model динамически обновляется. Если исходный контент удаляется пользователем, связанные с ним n-grams также должны быть удалены из Модели пользователя. Это обеспечивает актуальность модели и соблюдение приватности.

Что такое Аннотации (Annotations) и как они используются?

Аннотации — это метки, определяющие контекст термина (например, Person, Location, Date). Они используются для устранения неоднозначности (disambiguation). Если пользователь ищет [Max], и в его модели «Max» аннотирован как «Person», система поймет, что ищется человек, а не математическая функция, и уточнит запрос с помощью Query Annotator.

Насколько важна свежесть данных (Freshness)?

Свежесть критически важна. Более свежие данные имеют больший вес при определении текущего интента. Также патент описывает механизм удаления устаревших данных из модели (когда превышен Threshold Freshness), чтобы поддерживать ее актуальность.

Из каких источников Google берет данные для User Model?

Патент перечисляет (Claim 5): социальные сети, календарь, электронную почту (Email), чаты, сервис управления контактами и сервис обмена электронными документами. На практике это данные из экосистемы Google (Gmail, Calendar, Contacts, Drive и т.д.).

Связан ли этот патент с SGE (Search Generative Experience) или Google Assistant?

Да, патент описывает фундаментальную инфраструктуру, необходимую для их работы. Чтобы Ассистент или SGE могли давать ответы, основанные на личных данных пользователя (например, планировать поездку на основе писем в Gmail), им необходимы механизмы для понимания этого контента (User Model) и определения интента пользователя (Implicit Intent), описанные в этом патенте.