Как Google использует логи поисковых запросов и анализ ко-оккурентности (N-грамм) для создания динамических словарей (Google Suggest)

Патент раскрывает методы генерации словарей для предиктивного ввода и автодополнения (Google Suggest). Google анализирует популярность терминов и частоту их совместного использования (ко-оккурентность) в глобальных логах поисковых запросов и веб-документах. На основе этих данных система создает динамические, контекстно-зависимые словари, которые используются для ускорения ввода текста и предсказания запросов.

Описание

Какую задачу решает

Патент решает проблему повышения точности и скорости ввода текста, особенно на устройствах с ограниченными возможностями. Стандартные словари для предиктивного ввода статичны и не учитывают текущую популярность терминов, контекст пользователя или специфическую лексику (например, корпоративный жаргон или тренды). Изобретение направлено на создание динамических, персонализированных и контекстуально-релевантных словарей для предсказания намерений пользователя (predictive textual outcomes) и разрешения неоднозначностей ввода.

Что запатентовано

Запатентована система генерации и распространения данных для помощи при вводе текста (text entry assistance data). Суть изобретения заключается в использовании динамических источников информации, в первую очередь логов поисковых запросов (search requests) от множества пользователей, для создания словарей предиктивного ввода. Эти словари содержат не только термины, но и данные об их популярности (frequency information) и вероятности их совместного появления (co-concurrence или N-граммы). Система может динамически обновлять словари на удаленных устройствах.

Как это работает

Система работает путем сбора и анализа данных для создания актуальных языковых моделей.

Сбор данных: Система агрегирует логи поисковых запросов от множества пользователей. Также анализируются другие источники: корпоративные документы, электронная почта или просканированные веб-страницы.
Анализ частотности и ко-оккурентности: Определяется частота использования отдельных терминов (occurrence) и частота использования терминов совместно друг с другом (co-concurrence/N-граммы).
Генерация словаря: Создаются данные словаря (dictionary data), включающие термины и соответствующие им предиктивные веса (predictive weightings).
Распространение: Словарь или его обновление отправляется на устройство пользователя. Это часто происходит в ответ на поисковый запрос: система возвращает не только результаты поиска, но и дополнительный словарь с терминами, связанными с этим запросом.
Использование: Устройство использует обновленный словарь для предсказания последующего ввода текста (например, в Autocomplete/Suggest).

Актуальность для SEO

Высокая. Хотя патент подан в 2004 году, описанные в нем концепции являются фундаментальными для современных систем предиктивного ввода, автодополнения (Google Suggest/Autocomplete) и понимания естественного языка (NLP). Анализ популярности запросов и ко-оккурентности (N-грамм) остается центральным элементом того, как Google интерпретирует связи между терминами и актуальные тренды.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (7/10). Он не описывает алгоритмы ранжирования, но раскрывает инфраструктуру, лежащую в основе Google Suggest, и подтверждает, как Google анализирует язык на макроуровне. Патент демонстрирует детальное изучение логов запросов для определения популярности терминов и их совместного использования (co-concurrence). Это понимание критически важно для эффективного семантического SEO, анализа трендов, исследования ключевых слов и понимания пути пользователя (Search Journey).

Детальный разбор

Термины и определения

Concurrence Rater (Оценщик совместной встречаемости): Компонент системы (в составе dictionary generator), который вычисляет предсказанные оценки совместной встречаемости (concurrence scores) для множества терминов.
Co-concurrence / Concurrence (Ко-оккурентность / Совместная встречаемость): Метрика, отражающая вероятность того, что два или более термина появятся вместе или рядом друг с другом (N-граммы). В патенте упоминаются co-concurrence events.
Dictionary Data (Данные словаря): Информация, генерируемая системой для помощи при вводе текста. Включает термины и соответствующие им предиктивные веса (predictive weightings).
Disambiguation Engine (Механизм разрешения неоднозначности): Компонент на устройстве пользователя, который анализирует неоднозначный ввод и использует Dictionary Data для определения наиболее вероятного намерения пользователя.
Frequency Information / Occurrence (Информация о частотности / Встречаемость): Данные, указывающие на частоту использования отдельных терминов, например, в логах поисковых запросов. Отражает популярность термина (search term popularity).
Object Picker (Сборщик объектов): Модуль, который анализирует источник информации (например, документ или логи запросов) для идентификации терминов и данных об их использовании.
Predictive Textual Outcomes (Предиктивные текстовые результаты): Предполагаемые термины, которые пользователь намеревается ввести.
Supplemental Dictionary (Дополнительный словарь): Дополнительные данные (supplemental vocabulary usage information), которые загружаются динамически для обеспечения контекстно-зависимого опыта. Может включать временную информацию (тренды) или данные, релевантные текущей сессии поиска.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод предоставления помощи при вводе текста, основанный на анализе поисковых запросов.

Система получает информацию, характеризующую поисковые запросы (search requests), отправленные множеством пользователей на поисковые системы.
На основе этого генерируется информация о частотности (frequency information) терминов в этих запросах.
Система получает первый поисковый запрос от удаленного устройства.
Генерируются данные вероятности для словаря предиктивного ввода (predictive text entry dictionary probability data). Генерация основана на частотной информации (из п. 2) И на самом первом запросе (из п. 3). Эти данные отражают вероятность использования *других* терминов на этом устройстве.
Эти данные отправляются на удаленное устройство. Они включают термины и предиктивные веса, в том числе веса для событий ко-оккурентности (co-concurrence events).
Эти данные используются для предложения дополнений к последующему неоднозначному тексту, введенному на устройстве.

Система использует как глобальные данные о популярности запросов, так и текущий контекст пользователя (его недавний запрос), чтобы динамически сгенерировать словарь, предсказывающий его следующие действия. Это ключевой механизм контекстной адаптации.

Claim 11 (Независимый пункт): Описывает архитектуру системы сбора и распространения данных.

Система включает поисковые системы для приема запросов.
Генератор словарей (dictionary generator) создает данные о вероятности использования терминов на основе этих запросов. Он включает concurrence rater для расчета оценок совместной встречаемости.
Форматтер ответов (response formatter) получает результаты поиска и данные о вероятности для запроса.
Форматтер выводит И результаты поиска, И данные о вероятности обратно на устройство, отправившее запрос.

Это подтверждает, что обновление предиктивных данных интегрировано в процесс обработки поискового запроса и доставляется вместе с результатами поиска.

Claim 23 (Независимый пункт): Описывает метод специализации словаря для организаций.

Процесс аналогичен Claim 1.
Уточняется, что генерация данных основана на информации, полученной путем сканирования (crawling) интернет-доступных хранилищ информации.
Эти хранилища соответствуют предопределенной группе локаций для организации.
Сгенерированные данные отражают ожидаемое использование терминов этой организацией.

Система может создавать специализированные языковые модели, анализируя не только публичные логи поиска, но и специфические корпуса документов (например, корпоративные данные), чтобы изучить жаргон и терминологию конкретной группы.

Где и как применяется

Изобретение затрагивает инфраструктуру, обеспечивающую понимание языка и взаимодействие с пользователем, опираясь на данные из поисковой системы.

CRAWLING – Сканирование и Сбор данных
Система может сканировать веб-страницы, корпоративные документы или электронную почту для сбора исходных данных для генерации специализированных словарей (Claim 23).

INDEXING – Индексирование и извлечение признаков (Лингвистический анализ)
На этом этапе происходит обработка собранных данных (логов запросов или документов). Object Picker идентифицирует уникальные термины. Concurrence Rater анализирует эти данные для вычисления метрик occurrence (частотность) и co-concurrence (N-граммы). Эти данные формируют основу для языковых моделей.

QUNDERSTANDING – Понимание Запросов
Система анализирует логи поисковых запросов (Claim 1) для понимания глобальных трендов и паттернов. Эти механизмы анализа частотности и ко-оккурентности являются фундаментальными для QUnderstanding и напрямую питают системы вроде Google Autocomplete/Suggest.

RANKING / METASEARCH – Ранжирование / Метапоиск (Взаимодействие)
Когда пользователь отправляет поисковый запрос, система не только выполняет ранжирование, но и активирует Dictionary Generator. В ответ пользователю отправляются как результаты ранжирования, так и обновленные данные словаря (Supplemental Dictionary), релевантные этому запросу (Claim 11).

Входные данные:

Логи поисковых запросов от множества пользователей (основной источник).
Документы (веб-страницы, email, корпоративные данные).
Поисковый запрос от пользователя (как триггер и контекст для обновления словаря).

Выходные данные:

Метрики Occurrence и Co-concurrence (внутренние данные).
Dictionary Data (включая Supplemental Dictionary), отправляемые на устройство пользователя.
Результаты поиска (отправляемые вместе с данными словаря).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на ввод популярных, трендовых запросов (Google Suggest). Система помогает быстрее вводить актуальные термины и формулировки.
Конкретные ниши или тематики: Влияет на все ниши, где наблюдается высокая частотность запросов и четкие паттерны ко-оккурентности. Также позволяет создавать специализированные словари для организаций.
Типы устройств: Влияет на ввод текста на любых устройствах, использующих предиктивный ввод или автодополнение (смартфоны, десктопы).

Когда применяется

Генерация словарей (Офлайн): Происходит постоянно в фоновом режиме путем анализа логов запросов и сканирования документов.
Обновление словаря пользователя (Онлайн): Ключевой триггер — отправка пользователем поискового запроса. В этот момент система генерирует и отправляет контекстно-зависимое обновление словаря (Supplemental Dictionary).
Использование словаря (Клиент): Каждый раз, когда пользователь вводит текст и активируется система предиктивного ввода или автодополнения.
Временные рамки: Данные в дополнительном словаре могут быть временными, отражая недавние практики (recent usage practices), и могут устаревать (упоминается decay rate) или сбрасываться (reset).

Пошаговый алгоритм

Процесс А: Генерация данных словаря (на сервере)

Получение списка источников: Система определяет источники данных (например, логи поисковых запросов, список корпоративных сайтов, email-аккаунт).
Сканирование и парсинг: Object Picker сканирует источники, идентифицирует уникальные термины и собирает данные об их использовании.
Генерация оценок встречаемости: Concurrence Rater анализирует собранные данные. Вычисляются нормализованные показатели частотности (occurrence) для каждого термина и оценки ко-оккурентности (co-concurrence scores/N-граммы) между терминами.
Формирование словаря: Packager форматирует (и может сжимать) данные в структуру Dictionary Data, готовую к распространению.

Процесс Б: Обновление словаря при поиске (Сервер-Клиент)

Получение запроса (Клиент): Пользователь вводит и отправляет поисковый запрос.
Обработка запроса (Сервер): Сервер получает запрос и генерирует результаты поиска.
Генерация контекстных данных (Сервер): Одновременно система генерирует контекстные данные ко-оккурентности, релевантные данному запросу. Это могут быть термины, которые другие пользователи искали после этого запроса, или термины из найденных документов.
Передача данных (Сервер): Система отправляет клиенту и результаты поиска, и сгенерированные контекстные данные (Supplemental Dictionary).
Интеграция словаря (Клиент): Клиент интегрирует данные в свой локальный словарь, обновляя вероятности или добавляя новые термины.
Предиктивный ввод (Клиент): При последующем вводе текста Disambiguation Engine использует обновленный словарь для более точного предсказания (например, в Google Suggest).
Сброс словаря (Клиент): Дополнительный словарь может быть сброшен (reset) по истечении времени или при завершении сессии, чтобы избежать устаревания данных.

Какие данные и как использует

Данные на входе

Патент фокусируется на источниках данных для генерации языковых моделей:

Поведенческие факторы (Логи запросов): Основной источник данных. Анализируются search requests, отправленные множеством удаленных пользователей (Claim 1). Это позволяет определить популярность и совместное использование терминов.
Контентные факторы (Документы): Система сканирует различные хранилища информации (information storage locations):
- Веб-страницы (полученные через краулинг).
- Электронная почта (e-mail storage) для персонализации.
- Корпоративные документы для создания специализированных словарей (Claim 23).
- Документы, найденные в результатах поиска по запросу пользователя.
Пользовательские факторы (Контекст): Текущий поисковый запрос пользователя используется как контекст для генерации релевантного набора предиктивных данных.

Какие метрики используются и как они считаются

Система вычисляет следующие ключевые метрики:

Occurrence (Встречаемость / Популярность): Нормализованная частота появления отдельного термина в анализируемом корпусе данных (логах запросов или документах). Указывает на общую вероятность ввода этого термина.
Co-concurrence Scores (Оценки ко-оккурентности / N-граммы): Вероятность того, что термин B появится вместе с термином A (в том же документе, в той же сессии поиска или непосредственно рядом). Эта метрика используется для предсказания следующего слова на основе контекста.
Predictive Weightings (Предиктивные веса): Итоговые веса, присваиваемые терминам в словаре, основанные на occurrence и co-concurrence. Используются для ранжирования подсказок.
Decay Rate (Скорость затухания): Упоминается возможность уменьшения вероятности термина со временем, чтобы обеспечить актуальность словаря и удалять устаревшие данные.

Выводы

Фундаментальная роль N-грамм (Co-concurrence): Патент подчеркивает критическую важность анализа ко-оккурентности терминов. Google не просто знает, какие слова популярны, но и знает, какие слова часто используются вместе в запросах и документах. Это основа семантического понимания и предсказания поведения пользователей.
Логи запросов как основной источник языковых данных: Основным источником для понимания актуального языка, трендов и взаимосвязей между терминами являются глобальные логи поисковых запросов. Это динамичный и постоянно обновляемый корпус данных.
Механизм работы Autocomplete/Suggest: Патент описывает инфраструктуру, которая напрямую обеспечивает работу систем автодополнения. Он объясняет, откуда берутся предлагаемые варианты и как они ранжируются (на основе occurrence и co-concurrence).
Динамические и контекстные языковые модели: Google не полагается на статические словари. Система обновляет языковые модели динамически, учитывая контекст: время (тренды), организацию (специализированная лексика) и текущую сессию пользователя (термины, связанные с недавним поиском).
Персонализация и специализация: Система может быть высоко персонализирована путем анализа данных пользователя (email) или специализирована путем анализа корпоративных данных (Claim 23).

Практика

Best practices (это мы делаем)

Использование Google Suggest как основного инструмента Keyword Research: Патент подтверждает, что подсказки (Autocomplete) — это прямой результат анализа массивов реальных поисковых запросов. Необходимо тщательно анализировать подсказки для выявления реального спроса, популярных формулировок и трендов.
Оптимизация под ко-оккурентность (Семантическое ядро и N-граммы): Создавайте контент, который естественно включает термины, часто встречающиеся вместе в вашей нише. Если Google видит сильную связь между терминами A и B в логах запросов (co-concurrence), ваш контент должен отражать эту связь для лучшей релевантности.
Анализ пути пользователя (Search Journey): Понимая, какие запросы часто следуют друг за другом (co-concurrence в рамках сессии), можно создавать кластеры контента, которые отвечают на последовательные интенты пользователя, тем самым повышая Topical Authority.
Оптимизация под длинные запросы (Long-Tail): Поскольку система предиктивного ввода стимулирует использование более длинных и конкретных запросов, стратегия должна включать оптимизацию под эти развернутые формулировки, выявленные через Suggest.
Мониторинг трендов (Occurrence): Используйте Google Trends и отслеживайте изменения в подсказках. Быстро реагируйте на появление новых популярных терминов, так как они быстро попадают в динамические словари Google.

Worst practices (это делать не надо)

Игнорирование поисковых подсказок: Опираться только на статические данные из планировщиков ключевых слов недостаточно. Это приведет к упущению актуальных трендов и реальных формулировок, которые Google активно продвигает через предиктивный ввод.
Изолированная оптимизация под отдельные ключи: Фокусировка на одном ключевом слове без учета его связей с другими терминами (co-concurrence) противоречит тому, как Google строит языковые модели.
Keyword Stuffing (Переспам): Попытки манипулировать частотностью терминов на странице неэффективны, так как система анализирует частотность и ко-оккурентность на глобальном уровне (в логах запросов и общем корпусе документов).

Стратегическое значение

Этот патент подтверждает стратегический переход Google от анализа отдельных ключевых слов к пониманию сложных языковых паттернов и поведения пользователей. Для SEO это означает, что анализ интента, семантического контекста и пути пользователя важнее, чем плотность ключевых слов. Стратегия должна строиться вокруг понимания того, как пользователи ищут информацию, какие термины они используют совместно и как меняются их поисковые привычки. Понимание механизмов occurrence и co-concurrence является ключом к созданию релевантного контента.

Практические примеры

Сценарий: Использование данных ко-оккурентности из Suggest для оптимизации статьи о кофе

Анализ источников: SEO-специалист анализирует Google Autocomplete и Google Trends по запросу «приготовление кофе».
Выявление паттернов (Co-concurrence): Обнаруживаются высокие показатели совместной встречаемости между «приготовление кофе» и терминами «френч-пресс», «аэропресс», «температура воды», «помол зерна».
Применение в контенте: Специалист создает структурированный гид, который подробно освещает эти связанные темы. В текст естественно включаются N-граммы типа «оптимальная температура воды для френч-пресса» или «выбор помола для аэропресса».
Ожидаемый результат: Статья лучше соответствует языковой модели Google, основанной на реальном поведении пользователей (как описано в патенте), что повышает ее семантическую релевантность и потенциал ранжирования по широкому спектру связанных запросов.

Вопросы и ответы

Описывает ли этот патент работу Google Autocomplete (поисковых подсказок)?

Да, патент описывает фундаментальные механизмы, лежащие в основе Google Autocomplete (Suggest). Система использует анализ популярности (occurrence) и совместной встречаемости (co-concurrence) терминов в глобальных логах поисковых запросов для генерации словарей. Эти словари затем используются для предсказания и дополнения текста, который вводит пользователь.

Что такое Co-concurrence (Ко-оккурентность) и почему это важно для SEO?

Co-concurrence — это метрика, показывающая, насколько часто два или более термина появляются вместе (N-граммы) в логах запросов или документах. Для SEO это критически важно, так как подтверждает, что Google строит свои языковые модели на основе взаимосвязей между словами, а не только их популярности. Оптимизация контента должна учитывать эти связи для повышения семантической релевантности.

Насколько важен анализ Google Suggest для SEO согласно этому патенту?

Он критически важен. Патент подтверждает, что подсказки формируются на основе анализа реальных поисковых запросов огромного количества пользователей (Claim 1). Это делает Google Suggest одним из самых точных и актуальных инструментов для исследования ключевых слов и понимания того, как пользователи формулируют свои потребности.

Влияет ли этот патент на ранжирование сайтов?

Напрямую нет. Патент описывает методы помощи при вводе текста, а не алгоритмы ранжирования. Однако механизмы анализа языка (частотность и ко-оккурентность), описанные в патенте, используются Google и на этапах индексирования и понимания запросов, что косвенно влияет на то, как оценивается релевантность контента и как пользователи формируют запросы.

Могут ли подсказки меняться в зависимости от предыдущих действий пользователя?

Да. Патент описывает механизм, при котором в ответ на поисковый запрос пользователя система возвращает не только результаты поиска, но и обновленный набор данных словаря (Supplemental Dictionary), релевантный этому запросу (Claim 11). Это позволяет адаптировать последующие подсказки к текущему контексту поиска пользователя.

Что патент говорит о персонализации?

Патент описывает несколько уровней персонализации словарей. Это может быть персонализация на уровне группы (например, словарь для сотрудников компании путем сканирования корпоративных данных, Claim 23), на уровне отдельного пользователя (анализ его исходящих email) или контекстная персонализация на основе недавних поисковых запросов и поведения похожих пользователей.

Что такое Supplemental Dictionary и зачем он нужен?

Supplemental Dictionary — это дополнительный набор данных, который динамически загружается на устройство для улучшения точности предсказаний в текущем контексте. Например, он может содержать трендовые запросы или термины, связанные с недавним поиском пользователя. Он обеспечивает актуальность предиктивного ввода и может сбрасываться после завершения сессии.

Какие источники данных Google использует для генерации этих словарей?

Основным источником являются логи поисковых запросов от множества пользователей (Claim 1). Дополнительно упоминаются сканированные веб-страницы, корпоративные документы и электронная почта пользователей (Claim 23), а также контент из результатов поиска по текущему запросу.

Как использовать знание о ко-оккурентности при создании контента?

Необходимо анализировать, какие термины часто используются вместе в вашей нише (используя Autocomplete, блоки «Люди также ищут»). Создавайте контент, который естественно интегрирует эти связанные термины и N-граммы. Это поможет Google понять, что ваш контент глубоко раскрывает тему и соответствует реальным паттернам поиска пользователей.

Какое значение этот патент имеет для работы с трендовым контентом?

Патент показывает, насколько быстро Google может адаптироваться к новым трендам, анализируя логи запросов в реальном времени (recent usage practices). Система быстро выявляет всплеск популярности новых терминов и добавляет их в динамические словари. Для SEO это означает необходимость быстрого реагирования на тренды и создания контента под актуальные запросы, появляющиеся в Suggest.