Как Google обрабатывает неоднозначные запросы с устройств с ограниченным вводом, используя логическое "ИЛИ" и логи прошлых поисковых запросов

Система обрабатывает неоднозначные входные данные, например, цифровую последовательность с телефонной клавиатуры, преобразуя их во все возможные буквенные комбинации. Эти комбинации проверяются по лексикону (включая словарь и журнал прошлых запросов) и отправляются в поисковую систему как единый запрос с оператором «ИЛИ». Это позволяет поисковой системе вернуть релевантные результаты, отфильтровав неправдоподобные интерпретации.

Описание

Какую задачу решает

Патент решает проблему неэффективности и сложности ввода текста на устройствах с ограниченными возможностями ввода, таких как стандартная телефонная клавиатура (актуально для эпохи WAP-телефонов). На таких устройствах одна клавиша соответствует нескольким символам (например, клавиша «2» соответствует «A», «B», «C»). Традиционный ввод требовал многократных нажатий. Изобретение позволяет пользователю нажимать каждую клавишу только один раз, создавая неоднозначную последовательность (например, «227» для «CAR» или «BAR»), и использует поисковую систему для устранения этой неоднозначности.

Что запатентовано

Запатентован метод обработки неоднозначного поискового запроса (ambiguous search query). Система получает последовательность неоднозначных компонентов (например, цифр) и преобразует ее в набор потенциальных менее неоднозначных последовательностей (например, буквенных слов). Для этого используется информация о маппинге (соответствии клавиш символам) и lexicon (лексикон, включающий словарь и/или журнал предыдущих запросов). Эти потенциальные последовательности объединяются с помощью логического оператора «ИЛИ» (logical «OR») и отправляются в стандартную поисковую систему.

Как это работает

Механизм работает следующим образом:

Получение ввода: Пользователь вводит неоднозначную последовательность (например, «227»).
Генерация интерпретаций: Система определяет все возможные буквенные эквиваленты на основе маппинга устройства (например, «AAP», «BAP», «CAR», «BAR» и т.д.).
Фильтрация: Сгенерированные комбинации фильтруются с использованием lexicon (включая search query log), чтобы оставить только правдоподобные или ранее встречавшиеся слова.
Расширение запроса: Отобранные интерпретации формируются в один запрос с использованием логического «ИЛИ» («CAR» OR «BAR»).
Выполнение поиска и Дисамбигуация: Расширенный запрос отправляется в поисковую систему. Интерпретации, которых нет в индексе, игнорируются. При поиске фраз система полагается на стандартное ранжирование, которое отдает предпочтение документам с точным совпадением (exact match) одной из возможных фраз.

Актуальность для SEO

Низкая. Патент подан в 2000 году. Технология ввода, которую он описывает (ввод с цифровой клавиатуры телефона), устарела с появлением смартфонов с полноценными QWERTY-клавиатурами и голосовым поиском. Конкретная проблема, которую решал патент, в значительной степени неактуальна. Однако базовые принципы обработки неоднозначности и использования логов запросов для валидации интерпретаций остаются фундаментальными для этапа Понимания Запросов (Query Understanding).

Важность для SEO

Влияние на современные SEO-стратегии минимальное (2/10). Патент описывает инфраструктурное решение для устаревшей проблемы пользовательского интерфейса, а не алгоритмы ранжирования или оценки качества контента. Единственный значимый инсайт для SEO заключается в подтверждении того, что Google использует журналы прошлых поисковых запросов (search query log) в качестве lexicon для валидации и понимания возможных интерпретаций запросов пользователей.

Детальный разбор

Термины и определения

Ambiguous information components (Неоднозначные информационные компоненты): Элементы входной последовательности, которые могут соответствовать более чем одному значению. Например, цифры с телефонной клавиатуры («2»), фонемы или визуальная информация.
Less ambiguous information components (Менее неоднозначные информационные компоненты): Элементы, в которые преобразуются неоднозначные компоненты. Обычно это буквы или алфавитно-цифровые последовательности (например, «A», «B» или «C» для цифры «2»).
Lexicon (Лексикон): Набор данных, используемый для валидации возможных интерпретаций неоднозначного запроса. В Claims 1, 12 и 24 патент явно определяет его как включающий данные, которые «ранее обрабатывались поисковой системой как поисковые запросы» (т.е. search query log). Также может включать словари.
Logical «OR» (Логическое «ИЛИ»): Булев оператор, используемый для объединения всех валидных интерпретаций неоднозначного запроса в один запрос для поисковой системы.
Mapping information (Информация о маппинге): Правила, определяющие соответствие между неоднозначными и менее неоднозначными компонентами (например, стандартная раскладка телефонной клавиатуры).
Number Word / Letter Word (Числовое слово / Буквенное слово): Отдельное слово в запросе, представленное в виде последовательности цифр или букв соответственно.
Number Phrase / Letter Phrase (Числовая фраза / Буквенная фраза): Последовательность из нескольких числовых или буквенных слов, составляющая запрос.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод предоставления результатов поиска в ответ на неоднозначный запрос.

Система получает последовательность неоднозначных информационных компонентов от пользователя.
Получает информацию о маппинге.
Использует маппинг И lexicon для преобразования неоднозначной последовательности в как минимум две соответствующие менее неоднозначные последовательности. Критически важно: lexicon определяется как набор компонентов, которые ранее обрабатывались поисковой системой как поисковые запросы.
Предоставляет эти (как минимум две) последовательности в качестве входных данных для поисковой системы, причем каждая последовательность эффективно соединена оператором логического «ИЛИ» (logical «OR» operation request).
Получает результаты поиска и представляет их пользователю.

Claim 12 (Независимый пункт): Описывает метод обработки запроса, состоящего из нескольких слов (фразы).

Получение как минимум двух числовых слов (number words), составляющих числовую фразу (number phrase).
Преобразование каждого числового слова в одно или несколько буквенных слов (letter words) на основе маппинга и lexicon для генерации множества буквенных фраз (letter phrases). Лексикон снова определяется как список буквенных фраз, которые ранее обрабатывались поисковой системой как запросы.
Формирование поискового запроса, включающего как минимум одну из этих буквенных фраз.
Получение результатов и предоставление их пользователю.

Claim 15 (Зависимый от 12): Уточняет ранжирование результатов для фраз. Результаты ранжируются таким образом, что документы, содержащие точное совпадение (exact match) хотя бы одной из сгенерированных буквенных фраз, ранжируются выше, чем документы, которые не содержат точного совпадения ни одной из фраз.

Claim 24 (Независимый пункт): Описывает метод с акцентом на использовании логов запросов для фильтрации.

Получение неоднозначной последовательности и перевод ее во множество менее неоднозначных последовательностей.
Определение подмножества этих последовательностей путем сравнения их с терминами, использованными в прошлых поисковых запросах, хранящимися в журнале поисковых запросов (search query log).
Предоставление этого подмножества в качестве входных данных для поисковой системы.

Где и как применяется

Изобретение применяется на этапе понимания запроса и взаимодействует с этапом ранжирования для дисамбигуации.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система функционирует как препроцессор ввода.

Интерпретация и Расширение: Преобразует неоднозначный ввод (например, цифры) в расширенный запрос, содержащий возможные интерпретации (буквы), соединенные через «ИЛИ».
Валидация по Лексикону: Использует внешние данные — lexicon (словарь или search query log) — для фильтрации и определения правдоподобных интерпретаций.

RANKING – Ранжирование
Этап ранжирования используется для косвенной дисамбигуации.

Фильтрация через Индекс: Интерпретации, отсутствующие в индексе, эффективно игнорируются.
Ранжирование Фраз (Claim 15): При обработке многословных запросов система ранжирования отдает предпочтение документам с точным совпадением (exact match) одной из возможных фраз. Это помогает выбрать правильную интерпретацию (например, предпочтет «BAR ITEMS» вместо документа, содержащего только «CAR»).

Входные данные:

Неоднозначный поисковый запрос (например, последовательность цифр).
Информация о маппинге (раскладка клавиатуры устройства).
Lexicon (словарь и/или журнал предыдущих поисковых запросов).

Выходные данные:

Расширенный поисковый запрос (набор буквенных последовательностей, соединенных оператором «ИЛИ»), передаваемый в поисковую систему.

На что влияет

Патент описывает универсальный механизм обработки ввода и не делает различий по типам контента, тематикам или географии. Он влияет исключительно на:

Специфические запросы и устройства: Запросы, вводимые с устройств, генерирующих неоднозначный ввод (например, цифровые клавиатуры).

Когда применяется

Условия работы алгоритма: Алгоритм применяется, когда система получает ввод, классифицированный как неоднозначный (ambiguous information components). Это зависит от типа устройства ввода, используемого пользователем.
Триггеры активации: Получение запроса от устройства с известным неоднозначным маппингом (например, стандартная телефонная клавиатура).

Пошаговый алгоритм

Обработка неоднозначного запроса (на примере однословного запроса «227»)

Получение ввода: Система получает последовательность неоднозначных компонентов («227»).
Получение маппинга: Система загружает информацию о соответствии (например, 2={A,B,C}, 7={P,Q,R,S}).
Генерация кандидатов: Система генерирует все возможные комбинации (3x3x4 = 36 комбинаций: AAP, BAP, CAR, BAR, CCS и т.д.).
Фильтрация по Лексикону: Система сравнивает комбинации с lexicon (словарем или журналом прошлых запросов). Комбинации, отсутствующие в лексиконе (например, «AAP», «CCS»), отбрасываются. Остаются валидные интерпретации (например, «CAR», «BAR»).
Формирование запроса: Валидные интерпретации объединяются с помощью логического «ИЛИ» («CAR» OR «BAR»).
Выполнение поиска: Расширенный запрос отправляется в поисковую систему.
Получение и представление результатов: Система получает результаты, соответствующие любой из интерпретаций, и представляет их пользователю.

Обработка неоднозначного фразового запроса (на примере «227 48367»)

Получение ввода: Система получает числовую фразу («227 48367»).
Генерация и фильтрация слов: Для каждого числового слова генерируются и фильтруются буквенные слова (например, «227» -> {CAR, BAR}; «48367» -> {ITEMS, …}).
Генерация фраз: Система генерирует возможные буквенные фразы, комбинируя отфильтрованные слова (например, «CAR ITEMS», «BAR ITEMS», …).
Формирование запроса: Буквенные фразы объединяются с помощью логического «ИЛИ».
Выполнение поиска и Ранжирование: Запрос отправляется в поисковую систему. Система ранжирования отдает предпочтение документам с exact match одной из фраз. Документ с «BAR ITEMS» будет ранжироваться выше, чем документ, содержащий только «CAR».

Какие данные и как использует

Данные на входе

Патент сосредоточен исключительно на обработке ввода и не использует стандартные SEO-факторы (контентные, ссылочные и т.д.) для ранжирования. Он использует следующие данные:

Пользовательские факторы (Устройство): Тип устройства ввода и соответствующий ему маппинг (mapping information) критически важны для генерации возможных интерпретаций.
Поведенческие факторы (Системные данные):
- Журнал поисковых запросов (Search Query Log): Явно используется как lexicon для определения того, какие интерпретации являются правдоподобными запросами, которые пользователи вводили ранее (Claim 1, 12, 24).
Системные данные (Словари): Словари также могут использоваться как lexicon для валидации того, являются ли сгенерированные буквенные комбинации существующими словами.

Какие метрики используются и как они считаются

В патенте не вводятся новые метрики ранжирования. Процесс основан на булевой логике и использовании внешних лексиконов:

Соответствие маппингу: Бинарная проверка соответствия неоднозначного компонента его возможным менее неоднозначным эквивалентам.
Присутствие в Лексиконе: Бинарная проверка наличия сгенерированной последовательности в словаре или журнале запросов.
Точное совпадение фразы (Exact Match): Используется стандартной поисковой системой на этапе ранжирования для приоритизации документов, которые точно содержат одну из возможных сгенерированных фраз (Claim 15). Это ключевой механизм дисамбигуации.

Выводы

Этот патент описывает внутренние процессы Google, связанные с обработкой специфического типа пользовательского ввода, и имеет ограниченную практическую ценность для современных SEO-стратегий.

Инфраструктурное решение для устаревшей проблемы: Механизмы, описанные в патенте, были разработаны для решения проблем ввода на кнопочных телефонах. Эта технология ввода больше не актуальна в связи с развитием смартфонов.
Стратегия обработки неоднозначности через расширение запроса: Патент демонстрирует подход к дисамбигуации путем расширения запроса (используя «ИЛИ») для охвата всех возможных интерпретаций. Задача выбора наилучшего результата перекладывается на существующие механизмы индексации и ранжирования.
Критическая важность Журналов Поисковых Запросов (Search Query Logs): Ключевым элементом патента (Claims 1, 12, 24) является использование search query log в качестве lexicon для валидации интерпретаций. Это подтверждает, что данные о том, что пользователи искали в прошлом, активно используются для понимания и обработки текущих запросов.
Дисамбигуация через Ранжирование Фраз: При обработке многословных запросов система полагается на то, что стандартные алгоритмы ранжирования предпочитают точные совпадения фраз (exact match). Это позволяет выбрать правильную интерпретацию неоднозначного ввода.

Практика

Патент является инфраструктурным и описывает обработку устаревшего метода ввода. Прямых практических рекомендаций для улучшения SEO в 2025 году на его основе сделать нельзя. Однако он дает контекст для понимания того, как Google использует данные о поведении пользователей.

Best practices (это мы делаем)

Создание контента, соответствующего реальным запросам: Поскольку Google использует search query logs для валидации интерпретаций языка (как показано в этом патенте), крайне важно использовать в контенте те формулировки, термины и фразы, которые реально используются пользователями для поиска. Это повышает вероятность того, что контент будет соответствовать валидированным интерпретациям запросов.
Использование четких и естественных фраз: Патент подчеркивает, что предпочтение отдается точному совпадению фраз при дисамбигуации. Использование естественных, полных фраз в тексте и заголовках помогает поисковой системе точно сопоставить контент с намерением пользователя.

Worst practices (это делать не надо)

Ориентация на несуществующие или крайне редкие запросы: Попытки оптимизации под запросы, которые никогда не вводились пользователями (отсутствуют в search query log), могут быть менее эффективными. Как показывает патент, Google может использовать логи запросов для фильтрации неправдоподобных интерпретаций языка.

Стратегическое значение

Стратегическое значение патента для современного SEO низкое. Он интересен с исторической точки зрения (подан в 2000 году, среди авторов Сергей Брин) и как пример того, как Google решает проблемы UX/UI с помощью своей поисковой инфраструктуры. Он подтверждает долгосрочную стратегию Google по сбору и использованию данных о поведении пользователей (в частности, логов запросов) для улучшения понимания языка и намерений.

Практические примеры

Практических примеров применения данного патента в современной SEO-практике нет, так как он решает проблему, связанную с устаревшими устройствами ввода.

Вопросы и ответы

Использует ли Google этот патент сегодня?

Вероятнее всего, конкретная реализация для обработки ввода с цифровых клавиатур используется крайне редко, поскольку такие устройства устарели. Современные смартфоны используют гораздо более совершенные методы ввода. Однако базовый принцип использования лексиконов (включая логи запросов) для интерпретации неоднозначного ввода может сохраняться в других системах (например, при обработке голосовых запросов или опечаток).

Что такое «Lexicon» в контексте этого патента?

Lexicon — это база данных для проверки того, являются ли сгенерированные интерпретации неоднозначного ввода правдоподобными. Патент явно указывает (в Claims 1, 12, 24), что это может быть стандартный словарь или журнал предыдущих поисковых запросов (search query log). Использование лога запросов означает, что интерпретация считается валидной, если кто-то уже искал это ранее.

Что означает использование логического «ИЛИ» (Logical OR)?

Это означает, что система не пытается угадать единственно верную интерпретацию до начала поиска. Вместо этого она генерирует все валидные варианты (например, «CAR» и «BAR») и просит поисковую систему найти документы, соответствующие любому из них («CAR» OR «BAR»). Это перекладывает задачу финальной дисамбигуации на поисковый индекс и алгоритмы ранжирования.

Как система определяет, какая интерпретация лучше, если их несколько?

Для однословных запросов система полагается на стандартное ранжирование. Для многословных запросов (фраз) патент указывает (Claim 15), что предпочтение отдается документам, содержащим точное совпадение (exact match) одной из возможных фраз. Например, если ввод может означать «CAR ITEMS» или «BAR ITEMS», документ с точной фразой «BAR ITEMS» будет ранжироваться выше.

Влияет ли этот патент на SEO моего сайта?

Напрямую нет. Патент описывает инфраструктурное решение для устаревшей проблемы пользовательского интерфейса и не вводит новых факторов ранжирования или методов оценки качества контента. Он относится к этапу обработки ввода, а не к ранжированию.

Есть ли практическая польза для SEO от понимания этого патента?

Польза минимальна и концептуальна. Основной вывод для SEO-специалистов — это подтверждение того, что Google активно использует данные прошлых поисковых запросов (search query logs) для понимания и валидации языка. Это подчеркивает важность использования в контенте тех формулировок и фраз, которые реально используются целевой аудиторией.

Как этот патент связан с обработкой опечаток?

Концептуально связь есть. Как при обработке опечаток, так и здесь система генерирует альтернативные интерпретации ввода и использует lexicon или логи запросов для выбора наиболее вероятной интерпретации. Однако техническая реализация в этом патенте специфична для маппинга клавиатуры, а не для близости написания слов.

Может ли этот механизм применяться к другим типам ввода, кроме цифр?

Да, патент описывает механизм в общих терминах. Он упоминает, что может применяться к фонетическому вводу (Claim 5) или визуальной информации (Claim 7). Главное условие — наличие маппинга между неоднозначным вводом и менее неоднозначными интерпретациями.

Учитывает ли система контекст пользователя при дисамбигуации?

В патенте не упоминается использование контекста пользователя (например, местоположения или истории поиска) для выбора между возможными интерпретациями на этапе генерации. Однако упоминается возможность переупорядочивания финальных результатов поиска с учетом языка пользователя (Claim 17).

Нужно ли оптимизировать сайт под числовые последовательности (T9-ввод)?

Нет. Система преобразует числовые последовательности в буквенные слова перед выполнением поиска. Оптимизация должна проводиться под релевантные ключевые слова и интенты, а не под артефакты устаревшего метода ввода.

Как Google обрабатывает неоднозначные запросы с устройств с ограниченным вводом, используя логическое «ИЛИ» и логи прошлых поисковых запросов