Как Google формирует персонализированные поисковые подсказки (Autocomplete) на основе контента пользователя (например, в Gmail)

Google использует механизм для улучшения поисковых подсказок (Autocomplete) в таких сервисах, как Gmail. Система анализирует корпус документов пользователя, распознает сущности (например, email-адреса, имена) и предлагает их в качестве подсказок. Это помогает пользователю быстрее находить нужный контент, предлагая контекстуализированные подсказки (например, полный контакт) вместо отдельных слов.

Описание

Какую задачу решает

Патент решает проблему неоднозначности и недостаточной информативности стандартных поисковых подсказок (Autocomplete) при поиске в персонализированном корпусе данных пользователя (например, в Gmail или при поиске на устройстве). Если пользователь вводит префикс (например, «Ro»), стандартная система может предложить слово «Robert». Если у пользователя несколько контактов с именем Robert, эта подсказка неинформативна. Изобретение улучшает пользовательский опыт, предоставляя более богатый контекст для подсказки.

Что запатентовано

Запатентована система генерации поисковых подсказок, которая различает Actual Suggestion (фактическую подсказку — слово) и Display Suggestion (отображаемую подсказку — сущность). Система анализирует текстовый корпус пользователя и извлекает структурированные паттерны (например, email-адреса) как Display Suggestions. Когда пользователь вводит префикс, система стремится показать более информативную Display Suggestion вместо отдельного слова.

Как это работает

Система работает в два основных этапа:

Индексирование (Офлайн): Анализируется корпус текстов пользователя. Текст токенизируется, и подсчитывается частота слов (Actual Suggestions). Одновременно Pattern Recognizer ищет предопределенные форматы (например, email, URI) и сохраняет их как Display Suggestions. Затем слова связываются с сущностями, в которые они входят.
Генерация подсказок (Рантайм): При вводе префикса система извлекает кандидатов и ранжирует их. Ранжирование использует частотность в корпусе и историю выбора пользователя (Popularity Score). Display Suggestions часто получают приоритет над отдельными словами для лучшей узнаваемости.

Актуальность для SEO

Высокая для внутреннего поиска в продуктах Google (Gmail, Drive, Поиск на устройстве). Описанный механизм является фундаментальным для работы персонализированного и контекстуального автодополнения в этих средах. Актуальность для традиционного Web SEO низкая, так как патент не описывает ранжирование в основном веб-индексе.

Важность для SEO

Влияние на традиционные SEO-стратегии минимальное (1/10). Патент описывает внутренние процессы Google, связанные с улучшением пользовательского интерфейса (UX) и функциональности автодополнения в персонализированных сервисах (например, поиск в Gmail), а не алгоритмы ранжирования для Google Web Search. Он не дает прямых рекомендаций для SEO-специалистов по оптимизации веб-сайтов для публичного индекса.

Детальный разбор

Термины и определения

Actual Suggestion (Фактическая подсказка): Термин (слово или фраза) из текстового корпуса, который завершает введенный пользователем префикс. Это то, что система может использовать для фактического выполнения поиска.
Display Suggestion (Отображаемая подсказка): Два или более последовательных термина из корпуса, которые идентифицированы как связанные. Часто представляет собой сущность, соответствующую определенному паттерну (например, email-адрес, имя, URI). Это то, что показывается пользователю в интерфейсе автодополнения.
Text Corpus / Resource (Текстовый корпус / Ресурс): Набор структурированных или неструктурированных текстовых ресурсов, связанных с пользователем (например, электронные письма).
Prefix (Префикс): Частичный ввод пользователя (например, первые несколько символов слова).
Pattern Recognizer (Распознаватель паттернов): Компонент системы, который идентифицирует Display Suggestions путем сопоставления последовательностей терминов с предопределенными форматами (например, RFC822 для email).
Actual Suggestion-Display Suggestion Pair (Пара Фактическая-Отображаемая подсказка): Связь между отдельным термином и сущностью, в которую он входит.
Frequency Score (Оценка частотности): Метрика, основанная на частоте появления Actual Suggestion или Display Suggestion в текстовом корпусе.
Popularity Score (Оценка популярности): Метрика, основанная на том, как часто пользователь выбирал конкретную подсказку в ответ на ввод определенного префикса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления подсказок.

Система получает доступ к ресурсу (например, письму), содержащему термины.
Система получает префиксы и соответствующие им Actual Suggestions (термины из ресурса, начинающиеся с этого префикса).
Система получает Display Suggestions (два или более связанных последовательных термина из ресурса).
В ответ на получение пользовательского ввода (префикса), система выводит представление Display Suggestion, которая включает термин, являющийся Actual Suggestion для этого префикса.

Claim 5 (Зависимый от 1): Уточняет, что каждая Display Suggestion включает два или более последовательных термина, которые соответствуют предопределенному паттерну или формату.

Claims 6-9 (Зависимые от 1): Приводят примеры того, что могут представлять собой Display Suggestions: email-адрес (6), физический адрес (7), имя собственное (8) или URI (9).

Claims 11-13 (Зависимые от 10): Описывают методы расчета оценок (Scoring) для пар.

Claim 11: Оценка присваивается на основе частоты (Frequency Score) появления Actual Suggestion в наборе ресурсов.
Claim 12: Оценка присваивается на основе популярности (Popularity Score) — количества раз, когда конкретная Display Suggestion была выведена и выбрана пользователем в ответ на ввод этого префикса.
Claim 13: Оценка присваивается на основе количества раз, когда Actual Suggestion встречается ВНЕ контекста Display Suggestion. Это ключевой механизм для определения того, стоит ли показывать слово отдельно, или лучше показать сущность, частью которой оно является.

Claims 15-16 (Зависимые): Описывают действие при выборе подсказки. При выборе Display Suggestion (Claim 15), система отправляет запрос, идентифицирующий Actual Suggestion. Важно, что запрос может НЕ идентифицировать саму Display Suggestion (Claim 16). (Т.е. система может показать пользователю сущность, но искать по ключевому слову).

Где и как применяется

Патент описывает систему, применяемую для внутреннего или персонализированного поиска (например, в Gmail, Google Drive или поиске на устройстве), а не для основного Google Web Search.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обработка персонализированного Text Corpus пользователя. Система выполняет токенизацию на уровне слов и символов, подсчитывает частотность и генерирует Actual Suggestions. Одновременно Pattern Recognizer извлекает сущности (Display Suggestions). Происходит связывание и предварительный расчет Frequency Score.

QUNDERSTANDING – Понимание Запросов (Слой Autocomplete)
Процесс активируется в реальном времени, когда пользователь вводит префикс в строку поиска. Система использует этот префикс для быстрого поиска в индексе предварительно рассчитанных подсказок.

RANKING – Ранжирование (Подсказок)
Система отбирает кандидатов (Actual и Display Suggestions) и ранжирует их для отображения в выпадающем списке автодополнения. Ранжирование использует Frequency Score и Popularity Score.

Входные данные:

Персонализированный Text Corpus пользователя (например, письма).
Префикс, вводимый пользователем в реальном времени.
Предопределенные паттерны (например, формат RFC822 для email).
История выбора подсказок пользователем (для Popularity Score).

Выходные данные:

Отсортированный список подсказок (сочетание Actual Suggestions и Display Suggestions) для отображения в интерфейсе автодополнения.

На что влияет

Конкретные типы контента: Влияет на контент, содержащий распознаваемые сущности и паттерны — электронные письма (основной пример в патенте), документы с именами, адресами, URI.
Специфические запросы: Влияет на запросы, направленные на поиск сущностей (например, контактов) в персонализированной среде.

Когда применяется

Условия работы алгоритма: Алгоритм работает в процессе автодополнения (Autocomplete) при поиске по корпусу данных пользователя.
Триггеры активации: Ввод пользователем любого префикса в строку поиска. Приоритезация Display Suggestion над Actual Suggestion происходит, если Actual Suggestion является частью распознанной Display Suggestion и удовлетворяет условиям скоринга.

Пошаговый алгоритм

Фаза 1: Индексирование и предварительная обработка (Офлайн/Фоновый режим)

Доступ к корпусу: Система получает доступ к Text Corpus (например, письмам).
Токенизация и подсчет частоты: Ресурсы обрабатываются (Word-Level Tokenizer) для создания списка слов и их частот.
Генерация Actual Suggestions: Используется Character-Level Tokenizer для создания списка пар Префикс-Actual Suggestion с данными о частоте.
Распознавание паттернов: Pattern Recognizer анализирует последовательности токенов и сопоставляет их с предопределенными форматами (например, email, URI). Идентифицированные паттерны сохраняются как Display Suggestions.
Связывание (Pairing): Система сопоставляет Actual Suggestions с Display Suggestions, в которые они входят.
Предварительный расчет оценок: Рассчитываются и сохраняются Frequency Scores. Также рассчитывается контекстуальная частота (Claim 13) – как часто слово встречается вне сущности.

Фаза 2: Обработка запроса (Рантайм)

Получение префикса: Система получает ввод пользователя.
Поиск кандидатов: Система ищет в индексе Actual Suggestions, соответствующие префиксу, и связанные с ними Display Suggestions.
Ранжирование подсказок: Рассчитывается итоговая оценка для каждой подсказки, комбинируя Frequency Score и Popularity Score. Применяется контекстуальная корректировка (понижение Actual Suggestion, если она редко встречается вне Display Suggestion).
Вывод списка: Отсортированный список подсказок отправляется в пользовательский интерфейс.

Фаза 3: Обучение (Пост-обработка)

Получение выбора пользователя: Пользователь выбирает подсказку из списка.
Обновление Popularity Score: Система увеличивает Popularity Score для выбранной подсказки в контексте введенного префикса.
Выполнение поиска: Система выполняет поиск, используя соответствующую Actual Suggestion (которая может отличаться от текста Display Suggestion, согласно Claim 16).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных из корпуса пользователя и его поведении:

Контентные факторы: Полный текст ресурсов в Text Corpus пользователя (например, заголовки и тело писем). Система анализирует последовательности терминов для распознавания паттернов.
Поведенческие факторы (Пользовательские факторы): История выбора пользователем конкретных подсказок в ответ на конкретные префиксы. Это используется для персонализации ранжирования подсказок (Popularity Score).
Структурные факторы: Используются предопределенные форматы и паттерны (например, RFC822, URI) для идентификации Display Suggestions.

Какие метрики используются и как они считаются

Frequency Score (Оценка частотности): Рассчитывается путем подсчета количества вхождений термина (Actual Suggestion) или паттерна (Display Suggestion) в Text Corpus.
Popularity Score (Оценка популярности): Рассчитывается на основе количества раз, когда пользователь выбирал данную подсказку. Эта оценка специфична для пары (Пользователь, Префикс, Подсказка).
Контекстуальная корректировка (Contextual Adjustment / Claim 13): Метрика, основанная на том, как часто Actual Suggestion встречается вне контекста Display Suggestion. Если слово «Jones» встречается 100 раз, и все 100 раз в составе email-адресов, то оценка отдельного слова «Jones» может быть понижена (вплоть до нуля), а оценки email-адресов повышены.

Выводы

Патент не относится к Web Search SEO: Это ключевой вывод. Патент описывает инфраструктуру и UX для улучшения автодополнения при поиске внутри персонализированных сервисов (таких как Gmail), а не алгоритмы ранжирования веб-сайтов в основном поиске Google.
Приоритет сущностей над словами: Система предпочитает показывать контекстуализированные сущности (Display Suggestions) вместо отдельных слов (Actual Suggestions), чтобы улучшить узнаваемость и снизить неоднозначность.
Контекстуальный анализ использования терминов: Система анализирует, как часто слово используется вне контекста сущности (Claim 13). Если слово редко используется самостоятельно, оно может быть исключено из подсказок в пользу сущности.
Извлечение сущностей на основе паттернов: Система использует Pattern Recognizer для извлечения сущностей (имена, адреса, URI) на основе предопределенных форматов (например, RFC822) непосредственно из корпуса текста.
Персонализированное ранжирование подсказок: Ранжирование подсказок адаптивно и основано на двух факторах: частоте в корпусе пользователя (Frequency Score) и истории его взаимодействий (Popularity Score).
Разделение отображения и поиска: Система разделяет то, что видит пользователь (Display Suggestion), и то, что используется для выполнения запроса (часто только Actual Suggestion, согласно Claim 16).

Практика

Best practices (это мы делаем)

Патент является инфраструктурным и описывает функциональность пользовательского интерфейса (Autocomplete) для внутреннего поиска (например, Gmail). Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в Google Web Search.

Единственный косвенный вывод — патент подтверждает способность Google эффективно распознавать стандартные паттерны и сущности (email, адреса, имена, URI) в неструктурированном тексте. Это подчеркивает общую важность использования четких, стандартных форматов данных на веб-сайтах (например, в контактах, микроразметке), хотя данный патент и применяет эти технологии в другом контексте.

Worst practices (это делать не надо)

Не применимо к Web SEO, так как патент не описывает механизмы борьбы с манипуляциями в веб-поиске.

Стратегическое значение

Стратегическое значение для Web SEO отсутствует. Патент демонстрирует, как Google использует данные пользователя для персонализации и улучшения UX внутри своей экосистемы. Он показывает уровень развития технологий извлечения сущностей (Pattern Recognition) и машинного обучения на основе поведения пользователей (Popularity Score) для задач, не связанных напрямую с ранжированием веб-страниц.

Практические примеры

Практических примеров для Web SEO нет. Ниже приведен пример работы системы в контексте поиска по Gmail.

Сценарий: Поиск контакта в Gmail

Текстовый корпус (Emails): У пользователя есть письма от «Robert Jones (bob@example.com)» (Частота 40) и «Robert Smith (r.smith@other.com)» (Частота 10).
Индексирование: Система проиндексировала письма.
- Actual Suggestion: «Robert» (Частота 50).
- Display Suggestions (распознаны по RFC822): «Robert Jones (bob@example.com)», «Robert Smith (r.smith@other.com)».
Ввод пользователя: Пользователь вводит префикс «Rob».
Генерация подсказок: Система находит Actual Suggestion «Robert» и связанные Display Suggestions.
Ранжирование: Система ранжирует подсказки.
- «Robert Jones (bob@example.com)» (Выше из-за большей частоты).
- «Robert Smith (r.smith@other.com)».
- Отдельное слово «Robert» может быть понижено (согласно Claim 13), так как все его вхождения были в составе email-адресов.
Обучение: Если пользователь часто выбирает «Robert Smith», несмотря на его низкую частоту, Popularity Score увеличится, и в следующий раз эта подсказка может оказаться выше.

Вопросы и ответы

Описывает ли этот патент, как работает автодополнение в основном поиске Google (Web Search)?

Нет. Патент сфокусирован на генерации подсказок на основе персонализированного корпуса данных пользователя (Text Corpus), такого как электронные письма в Gmail или документы в Google Drive. Механизмы автодополнения в основном поиске Google используют глобальные данные о популярных запросах, а не содержимое ваших личных документов.

Влияет ли этот патент на ранжирование моего сайта в Google?

Нет, этот патент не имеет отношения к алгоритмам ранжирования в Google Web Search. Он описывает технологию улучшения пользовательского интерфейса (Autocomplete) для внутреннего поиска в продуктах Google и не дает рекомендаций по SEO-оптимизации сайтов.

Что такое Actual Suggestion и Display Suggestion?

Actual Suggestion — это слово или фраза из корпуса, которая завершает введенный префикс (например, фамилия «Jones»). Display Suggestion — это более широкая сущность или паттерн, включающий это слово (например, полный контакт «Robert Jones (bob@example.com)»). Система стремится показать пользователю более информативную Display Suggestion.

Если пользователь выбирает Display Suggestion, что именно используется для поиска?

Патент (Claims 15 и 16) указывает, что при выборе Display Suggestion система может отправить запрос, используя только соответствующую Actual Suggestion. Например, если пользователь видит и выбирает «Robert Jones (bob@example.com)», система может выполнить поиск только по слову «Jones» или «Robert», а не по всей строке.

Как система решает, какую подсказку показать выше?

Ранжирование подсказок персонализировано и основано на двух ключевых метриках. Первая — Frequency Score, то есть как часто этот термин или сущность встречается в ваших документах. Вторая — Popularity Score, то есть как часто вы сами выбирали эту подсказку ранее при вводе того же префикса.

Может ли система скрыть слово из подсказок, если оно всегда является частью сущности?

Да. Патент описывает механизм (Claim 13), который оценивает, как часто Actual Suggestion встречается вне контекста Display Suggestion. Если слово почти всегда является частью сущности (например, фамилия всегда внутри email-адреса), система может понизить или удалить отдельное слово из списка подсказок, отдав приоритет отображению сущности.

Как система определяет, что является Display Suggestion (сущностью)?

Система использует Pattern Recognizer, который ищет последовательности слов, соответствующие предопределенным форматам или паттернам. В патенте явно упоминаются форматы для email-адресов (например, RFC822), физических адресов, имен собственных и URI.

Какое значение этот патент имеет для понимания технологий Google?

Он демонстрирует продвинутые возможности Google в области распознавания паттернов и извлечения сущностей из неструктурированного текста. Также он показывает, как Google использует машинное обучение на основе поведения пользователя (Popularity Score) для персонализации и улучшения пользовательского опыта в своих сервисах.

Использует ли система внешний список контактов для генерации этих подсказок?

Согласно патенту, система может генерировать подсказки непосредственно из Text Corpus (например, из текста писем), не обязательно обращаясь к отдельной базе данных контактов. Это позволяет находить сущности, которые пользователь мог не сохранить в контакты явным образом.

Применяется ли эта технология на мобильных устройствах?

Да, патент упоминает применение на мобильных устройствах (например, устройство 202 на FIG. 2). Обработка может происходить как на сервере, так и локально на устройстве (в оффлайн-режиме), если индекс подсказок был предварительно сгенерирован или загружен на устройство.