Как Google предлагает прямые URL-адреса в адресной строке браузера на основе фонетического ввода (IME)

Google использует этот механизм для помощи пользователям, вводящим фонетический текст (например, Pinyin) в адресную строку браузера. Система преобразует ввод в иероглифы (например, Hanzi) и использует исторические данные из логов запросов и кликов, чтобы напрямую предложить наиболее популярные связанные URL-адреса, минуя страницу поиска.

Описание

Какую задачу решает

Патент решает проблему навигации для пользователей, чьи языки используют логографические системы письма (например, китайский, японский). Этим пользователям сложно запоминать и вводить URL-адреса, которые обычно представлены в формате ASCII (латиница). Стандартный процесс требует использования редактора метода ввода (Input Method Editor, IME) для ввода названия сайта, выполнения поиска в поисковой системе и выбора результата. Изобретение устраняет необходимость в промежуточном этапе поиска, предлагая URL напрямую в ответ на фонетический ввод в адресной строке браузера.

Что запатентовано

Запатентована система для генерации предложений URL-адресов (Resource Locations) непосредственно в адресной строке браузера на основе ввода латинских символов (Roman character inputs), обработанных через IME. Система использует предварительно созданные таблицы, которые связывают фонетический ввод с ключевыми словами на целевом языке, а эти ключевые слова — с популярными URL-адресами. Популярность URL определяется путем анализа логов запросов и кликов.

Как это работает

Система работает в двух режимах: офлайн и онлайн.

Офлайн (Подготовка данных): Система (Mining Engine) анализирует логи запросов (Query Logs) и кликов (Click Logs), чтобы определить, какие URL пользователи чаще всего выбирают после поиска по определенным ключевым словам. На основе этих данных создаются две таблицы: Keyword Resource Table (связь ключевых слов с URL и их рейтингом популярности) и Keyword Prefix Table (связь префиксов с полными ключевыми словами).
Онлайн (В браузере): Пользователь вводит латинские символы (например, Pinyin) в адресную строку. IME преобразует их в кандидатов на не-латинском языке (например, иероглифы Hanzi). Эти кандидаты используются как префиксы для поиска полных ключевых слов в Keyword Prefix Table. Затем система находит соответствующие URL в Keyword Resource Table и отображает их пользователю в качестве предложений.

Актуальность для SEO

Высокая. Описанная функциональность является стандартом в современных браузерах (например, Google Chrome Omnibox) и критически важна для удобства пользователей на рынках, где используются логографические системы письма (Китай, Япония, Корея). Интеграция IME и предсказание навигационных целей остается актуальной задачей UX.

Важность для SEO

Влияние на традиционные SEO-стратегии минимальное (3/10). Этот патент описывает функцию пользовательского интерфейса браузера, а не алгоритмы ранжирования поиска (SERP). Он не влияет на то, как Google оценивает или ранжирует контент. Однако он влияет на навигационный трафик и подчеркивает важность сильной ассоциации бренда и высокой кликабельности (CTR) по навигационным запросам на международных рынках, так как предлагаемые URL выбираются на основе анализа Click Logs.

Детальный разбор

Термины и определения

Click Log (Лог кликов): База данных, регистрирующая выбор пользователями локаторов ресурсов (URL) в ответ на поисковые запросы.
IME (Input Method Editor) (Редактор метода ввода): Программное обеспечение, позволяющее вводить символы, отсутствующие на клавиатуре. В контексте патента, преобразует ввод латинскими символами (например, Pinyin) в логографические символы (например, Hanzi).
Keyword Prefix Table (Таблица префиксов ключевых слов): Структура данных (например, префиксное дерево), связывающая префиксы (начала слов) с одним или несколькими полными ключевыми словами.
Keyword Resource Table (Таблица ресурсов ключевых слов): Структура данных, связывающая ключевые слова с соответствующими URL-адресами. Содержит рейтинг (Ranking Score) для каждого URL, основанный на частоте выбора (selection frequencies).
Mining Engine (Механизм анализа данных): Система для обработки Query Logs и Click Logs с целью генерации таблиц префиксов и ресурсов.
Non-Roman Characters (Не-латинские символы): Символы логографических систем письма (например, китайские иероглифы Hanzi, японская кана).
Query Log (Лог запросов): База данных, хранящая историю поисковых запросов, введенных пользователями.
Resource Locator (Локатор ресурса): Адрес ресурса в интернете, например, URL.
Roman Characters (Латинские символы): Символы, используемые для фонетического ввода (например, Pinyin) на стандартной клавиатуре.

Ключевые утверждения (Анализ Claims)

Анализ основан на публикации US20140258892A1.

Claim 1 (Независимый пункт): Описывает метод, выполняемый на сервере для генерации предложений URL.

Сервер получает ввод на исходном языке (source language, например, Pinyin) от вычислительного устройства. Ввод представляет собой часть URL желаемой веб-страницы.
Сервер получает кандидатов на целевом языке (target language, например, Hanzi). Кандидаты являются транслитерацией ввода.
Сервер идентифицирует ключевые слова для каждого кандидата, используя этот кандидат как префикс (prefix).
Сервер определяет кандидатов URL, связанных с ключевыми словами.
Сервер выводит кандидатов URL и кандидатов ввода на вычислительное устройство для отображения.

Это ядро изобретения: процесс преобразования фонетического ввода в URL-предложения через промежуточные этапы транслитерации и использования префиксов.

Claim 6 (Зависимый от 1): Детализирует процесс ранжирования.

Сервер ранжирует кандидатов URL для получения ранжированного списка (ranked candidate URLs).
Сервер выводит ранжированных кандидатов URL.

Claim 7 (Зависимый от 6): Уточняет метрику ранжирования.

Ранжирование основано на соответствующих количествах предыдущих пользовательских выборов (respective quantities of previous user selections). Это подтверждает использование данных о кликах (популярности) для определения порядка предложений.

Claim 10 (Зависимый от 1): Уточняет примеры языков: исходный язык — Pinyin, целевой язык — Chinese.

Где и как применяется

Этот патент не описывает работу основных компонентов поисковой системы Google для ранжирования веб-страниц. Он описывает работу системы предложений в пользовательском интерфейсе, например, в адресной строке браузера (Omnibox), и поддерживающую ее инфраструктуру.

Офлайн-обработка данных (Аналог QUNDERSTANDING / Анализ логов)
Система в значительной степени полагается на предварительную обработку данных. Mining Engine анализирует Query Logs и Click Logs для построения Keyword Prefix Table и Keyword Resource Table. Этот процесс определяет, какие URL являются наиболее популярными (часто выбираемыми) для конкретных ключевых слов.

Пользовательский Интерфейс (Browser UI / Omnibox)
Основное применение патента происходит в реальном времени в браузере пользователя.

Ввод и обработка IME: Пользователь вводит данные в адресную строку. IME преобразует латинские символы в не-латинские.
Генерация предложений: Система использует результаты работы IME (префиксы) для запроса к таблицам (локально или на сервере) и получения списка релевантных URL.
Отображение: Предложения отображаются в интерфейсе браузера.

Входные данные:

Ввод латинскими символами (например, Pinyin) в адресной строке.
Исторические данные: Query Logs и Click Logs (для офлайн-процесса).
Keyword Prefix Table и Keyword Resource Table (для онлайн-процесса).

Выходные данные:

Ранжированный список предложений (Кандидаты символов, Ключевые слова, URL), отображаемый в интерфейсе браузера.

На что влияет

Специфические запросы: Влияет исключительно на навигационные вводы в адресной строке браузера, а не на ранжирование поисковых запросов в SERP.
Конкретные типы контента и ниши: Наибольшее влияние оказывается на популярные веб-сайты, бренды и ресурсы, чьи названия часто вводятся пользователями фонетически для навигации.
Языковые и географические ограничения: Система разработана специально для языков с логографическим письмом (китайский, японский, корейский), которые для ввода полагаются на IME, использующие латинские символы.

Когда применяется

Триггеры активации: Когда пользователь вводит латинские символы в адресную строку браузера (address bar), и система активирует IME, распознавая ввод как фонетический (например, Pinyin), а не как прямой URL (например, «www.example.com»).

Пошаговый алгоритм

Процесс А: Обработка ввода в реальном времени

Получение ввода: Система получает ввод латинскими символами.
Проверка контекста: Определяется, что ввод осуществляется в адресной строке браузера.
Конвертация IME: Латинские символы преобразуются в один или несколько наборов кандидатов не-латинских символов (транслитерация).
Идентификация ключевых слов: Для каждого набора кандидатов система идентифицирует полные ключевые слова, используя Keyword Prefix Table (где кандидаты выступают в роли префиксов).
Идентификация ресурсов: Система ищет соответствия для найденных ключевых слов в Keyword Resource Table.
Ранжирование URL: Полученные URL ранжируются на основе их Ranking Score (популярности по кликам).
Отображение: Система предоставляет наборы кандидатов символов, ключевые слова и ранжированные URL для отображения в пользовательском интерфейсе.
(Опционально) Персонализация: Ранжирование может быть скорректировано на основе локальной истории выбора пользователя на данном устройстве.

Процесс Б: Офлайн-генерация таблиц (Data Mining)

Сбор данных: Mining Engine собирает данные из Query Log и Click Log.
Идентификация связей: Определяются связи между введенными ключевыми словами и URL, которые были выбраны пользователями после этого запроса.
Генерация Keyword Resource Table: Создается отображение ключевых слов на URL. Для каждого URL рассчитывается рейтинг (Ranking Score) на основе частоты его выбора (selection frequencies).
Фильтрация: Могут применяться пороговые значения частоты (frequency threshold) для исключения редко используемых ключевых слов или редко выбираемых URL.
Генерация Keyword Prefix Table: Создается отображение префиксов на полные ключевые слова (например, в виде префиксного дерева).
Предоставление данных: Таблицы предоставляются клиентскому устройству или серверу, обрабатывающему запросы предложений.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных для генерации предложений.

Поведенческие факторы: Являются основой изобретения.
- Query Logs: Исторические поисковые запросы пользователей. Используются для идентификации популярных ключевых слов.
- Click Logs: Данные о том, какие URL пользователи выбирали в ответ на конкретные запросы. Это основной источник для определения популярности URL для ключевого слова.
Пользовательские факторы:
- Ввод латинскими символами в адресной строке в реальном времени.
- Локальная история выбора пользователя (selection history). Патент упоминает, что рейтинги могут быть скорректированы на клиентском устройстве на основе истории выбора конкретного пользователя для персонализации предложений.

Какие метрики используются и как они считаются

Ranking Score (Рейтинг URL): Метрика, используемая в Keyword Resource Table для упорядочивания предложений URL. Рассчитывается на основе частоты (frequency) или количества предыдущих выборов (quantities of previous user selections), с которыми каждый URL выбирается в ответ на запрос, включающий данное ключевое слово.
Frequency Thresholds (Пороги частоты): Используются в процессе офлайн-анализа (Mining Engine). Ключевые слова или URL, используемые/выбираемые реже определенного порога, могут быть исключены из таблиц для уменьшения их размера и повышения качества предложений.

Выводы

Патент описывает UI/UX функцию, а не алгоритм ранжирования: Основной вывод для SEO-специалистов заключается в том, что этот патент не раскрывает механизмов ранжирования в поисковой выдаче (SERP). Он описывает систему улучшения навигации в адресной строке браузера для пользователей IME.
Использование агрегированных поведенческих данных: Система полагается на Query Logs и Click Logs для определения того, какой URL является наиболее релевантным и популярным пунктом назначения для заданного ключевого слова. Это подтверждает использование Google данных о кликах для установления популярности в навигационных целях.
Приоритет популярности для предложений: Рейтинг предложений URL напрямую зависит от частоты их выбора пользователями в прошлом. Чем чаще на сайт переходят по определенному запросу в поиске, тем выше вероятность его появления в предложениях адресной строки.
Двухэтапное отображение: Система использует эффективный механизм: Префикс -> Ключевое слово (через Keyword Prefix Table) и Ключевое слово -> URL (через Keyword Resource Table). Это позволяет быстро генерировать подсказки.
Персонализация предложений: Патент предусматривает возможность корректировки рейтингов на стороне клиента на основе локальной истории браузинга пользователя, делая предложения более персонализированными.

Практика

ВАЖНО: Патент является инфраструктурным и описывает функциональность браузера (UX). Он не дает прямых практических выводов для изменения стратегий SEO-ранжирования.

Best practices (это мы делаем)

Хотя прямого влияния на SEO-ранжирование нет, есть выводы для международного маркетинга и брендинга:

Укрепление узнаваемости бренда на целевом языке (International SEO): Система отдает предпочтение URL, которые часто выбираются по запросам, связанным с брендом. Необходимо обеспечить, чтобы ваш бренд имел четкое и узнаваемое написание на целевом языке (например, китайском) и чтобы пользователи искали именно его.
Доминирование в навигационных запросах в SERP: Данные для этой системы берутся из логов поиска (Query/Click Logs). Необходимо убедиться, что ваш сайт является доминирующим результатом и получает подавляющее большинство кликов (максимальный CTR) по навигационным запросам на целевом языке. Это увеличивает вероятность включения вашего URL в Keyword Resource Table с высоким рейтингом.
Стабильность канонических URL: Используйте стабильные канонические URL для главной страницы и ключевых разделов, так как они будут использоваться в системе предложений.

Worst practices (это делать не надо)

Использование запутанных или неоднозначных названий брендов: Если название вашего бренда на целевом языке сложно ввести фонетически, имеет много омофонов или не соответствует ожиданиям пользователей, это снизит эффективность данного механизма навигации.
Частая смена URL ключевых страниц: Частые изменения URL могут нарушить ассоциации, накопленные в Keyword Resource Table на основе исторических данных, и временно удалить ваш сайт из предложений.
Игнорирование CTR по брендовым запросам: Низкий CTR может привести к тому, что система предпочтет другой ресурс (например, агрегатор или конкурента) в качестве навигационной подсказки, если он собирает больше кликов по вашему брендовому запросу.

Стратегическое значение

Патент подтверждает важность доминирования бренда и удовлетворения навигационного интента на международных рынках. Он подчеркивает, как поведенческие данные (логи кликов) формируют пути навигации пользователей. Для крупных брендов на релевантных рынках (например, в Китае, Японии) этот механизм может служить значительным источником прямого трафика, уменьшая зависимость от переходов из поисковой выдачи.

Практические примеры

Сценарий: Навигация к популярному сайту в Китае

Контекст: Пользователь в Китае хочет зайти на популярный портал Sina.
Действие пользователя: Пользователь открывает браузер (например, Chrome) и начинает вводить фонетическое представление названия латиницей (Pinyin) в адресную строку: «xin lang».
Системный ответ (IME): IME предлагает варианты иероглифов, первым из которых является «新浪» (Sina).
Системный ответ (Предложения URL): Одновременно с этим, система, используя описанный в патенте механизм, запрашивает Keyword Resource Table для «新浪».
Результат: Система немедленно отображает под адресной строкой наиболее популярные URL, основанные на исторических кликах: www.sina.com.cn (главная), news.sina.com.cn (новости), mail.sina.com.cn (почта). Пользователь кликает на нужный URL напрямую, минуя SERP.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует сайты в поисковой выдаче (SERP)?

Нет. Этот патент не имеет отношения к алгоритмам ранжирования в SERP. Он описывает исключительно то, как браузер (например, Google Chrome) предлагает URL-адреса в адресной строке (Omnibox), когда пользователь вводит текст фонетически с использованием редактора метода ввода (IME).

Какие данные Google использует, чтобы решить, какие URL предлагать в адресной строке?

Система использует агрегированные данные из логов запросов (Query Logs) и логов кликов (Click Logs). В офлайн-режиме анализируется, какие URL пользователи чаще всего посещают после поиска по определенному ключевому слову. URL с наибольшей частотой кликов получают наивысший рейтинг в Keyword Resource Table.

Влияет ли этот патент на SEO для сайтов на русском или английском языках?

Практически нет. Механизм разработан специально для языков, использующих логографическое письмо (китайский, японский и т.д.) и требующих IME для ввода текста с помощью латинской клавиатуры. Для языков с алфавитными системами письма (как русский или английский) используются другие механизмы автодополнения.

Могу ли я оптимизировать свой сайт, чтобы он чаще появлялся в этих предложениях?

Прямая оптимизация невозможна, но косвенно повлиять можно. Поскольку данные берутся из логов поиска и кликов, необходимо быть наиболее популярным и кликабельным результатом для навигационных запросов, связанных с вашим брендом на целевом языке. Укрепление бренда и обеспечение максимального CTR по брендовым запросам в поиске увеличит ваши шансы.

Что такое Keyword Prefix Table и Keyword Resource Table?

Keyword Prefix Table помогает системе быстро находить полные ключевые слова по их началу (префиксу), введенному пользователем. Keyword Resource Table хранит связь между этими полными ключевыми словами и соответствующими им URL-адресами, а также рейтинг популярности этих URL.

Являются ли эти предложения персонализированными?

Да, патент предусматривает возможность персонализации. Изначально рейтинги основаны на глобальных данных о кликах, но система может отслеживать историю выбора пользователя на локальном устройстве и корректировать порядок предложений, отдавая предпочтение тем сайтам, которые данный пользователь посещает чаще.

Где выполняется обработка: на клиенте или на сервере?

Патент описывает варианты реализации как на сервере, так и на клиенте. Таблицы (Keyword Prefix/Resource Tables) генерируются на сервере офлайн. Обработка ввода IME и поиск по таблицам могут происходить локально на клиенте для скорости (если таблицы загружены) или на сервере для доступа к более актуальным данным.

Как система обрабатывает омофоны (слова с одинаковым звучанием, но разным написанием иероглифами)?

IME предлагает несколько вариантов написания иероглифами (candidate sets of non-Roman characters) для одного фонетического ввода. Система ищет ключевые слова и URL для каждого из этих вариантов. Пользователь видит все релевантные предложения и может выбрать нужный вариант написания и соответствующий ему URL.

Что делать, если система предлагает URL конкурента при вводе названия моего бренда?

Это означает, что исторические данные кликов (Click Logs) показывают, что пользователи чаще переходят на сайт конкурента по этому запросу. Необходимо срочно анализировать SERP по брендовым запросам на нативном языке, улучшать свои позиции, работать над привлекательностью сниппетов и повышать CTR вашего сайта.

Какова основная цель этого изобретения?

Основная цель — улучшить пользовательский опыт (UX) для носителей языков с логографическим письмом. Система позволяет им быстро переходить на нужные сайты, вводя их названия фонетически, минуя необходимость выполнять поиск в поисковой системе и выбирать результат из выдачи.