Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

Описание

Какую задачу решает

Патент решает проблему обработки языковой неопределенности в поисковых запросах. Пользователи часто вводят запросы без диакритических знаков (акцентов, умляутов и т.д.) из-за ограничений устройств ввода или неудобства. При этом ожидается получение результатов с правильной орфографией. Система должна определить истинный язык запроса и понять, какие именно варианты написания (с диакритическими знаками или лигатурами) следует искать. Проблема усугубляется тем, что правила замены символов различаются в разных языках (например, ‘ue’ может заменять ‘ü’ в немецком, но не в турецком), и тем, что язык запроса может отличаться от языка интерфейса пользователя.

Что запатентовано

Запатентована система и метод для определения языка поискового запроса путем анализа как самих терминов запроса, так и языка пользовательского интерфейса (Interface Language), через который запрос был получен. Изобретение включает механизм использования этого определенного языка (Query Language) для точного расширения запроса синонимами (вариантами написания). Это достигается за счет создания и использования Synonyms Map — базы данных, которая хранит статистику частотности различных вариантов слова в разных языках.

Как это работает

Система работает в двух режимах: офлайн (индексирование) и онлайн (обработка запроса).

Офлайн: Создается Synonyms Map. Документы в корпусе анализируются, определяется их язык. Слова приводятся к «общей форме» (Common Form) с помощью языкозависимых правил (например, удаление акцентов). Для каждой общей формы сохраняются все оригинальные варианты (Variants) и частота их встречаемости в каждом языке.

Онлайн: При получении запроса система определяет вероятный язык запроса, учитывая язык интерфейса и сами термины. Термины запроса упрощаются (Simplified Query Term). Затем система ищет варианты в Synonyms Map. Выбор конкретного варианта для добавления в запрос зависит от вероятности языка запроса и относительной частоты этого варианта в данном языке.

Актуальность для SEO

Высокая. Точное определение языка запроса критически важно для качества поиска, особенно в мультиязычном интернете и для языков с богатой диакритикой. Хотя методы определения языка могли эволюционировать (например, с использованием нейронных сетей), фундаментальный подход — использование контекста (интерфейс) и статистики по терминам для разрешения неоднозначности и правильного расширения запроса — остается центральным элементом международного поиска.

Важность для SEO

Патент имеет высокое значение для международного и локализованного SEO. Он раскрывает, как Google обрабатывает запросы с диакритическими знаками и без них, и подчеркивает важность контекстуальных сигналов (таких как язык интерфейса) для определения интента пользователя. Понимание этих механизмов критично для разработки стратегий таргетинга на пользователей в разных странах и с разными языковыми настройками, гарантируя, что контент будет найден независимо от того, как пользователь сформулировал запрос.

Детальный разбор

Термины и определения

Common Form (Общая форма): Ключ в Synonyms Map. Представляет собой упрощенную, стандартизированную или каноническую форму слова, полученную путем применения языкозависимых правил (например, удаление акцентов) к оригинальным словам из корпуса документов.
Interface Language (Язык интерфейса): Язык, на котором пользовательский интерфейс (например, страница поиска Google) отображает информацию пользователю. Является важным сигналом для определения вероятного языка запроса.
Query Language (Язык запроса): Определенный системой естественный язык, на котором, вероятнее всего, сформулирован поисковый запрос. Может отличаться от языка интерфейса.
Synonyms Map (Карта синонимов): Структура данных, созданная на основе анализа корпуса документов. Связывает Common Form (ключ) с одним или несколькими Variants (значения). Для каждого варианта хранится статистика его использования в разных языках.
Variant (Вариант): Оригинальное слово, найденное в корпусе документов, которое было приведено к определенной Common Form. Например, ‘éléphant’ и ‘eléphant’ могут быть вариантами для общей формы ‘elephant’.
Variant-Language Score (Оценка варианта для языка): Метрика, указывающая относительную частоту (Relative Frequency) данного варианта среди всех вариантов той же общей формы в конкретном языке.
Collapsible Digraphs (Сворачиваемые диграфы): Комбинации из двух символов, которые в некоторых языках могут быть представлены одним символом, часто с диакритикой (например, ‘ue’ и ‘ü’ в немецком языке).
Simplified Query Term (Упрощенный термин запроса): Форма термина из запроса пользователя, полученная после применения правил упрощения (удаление акцентов, транслитерация). Используется для поиска ключей в Synonyms Map.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод определения языка запроса.

Система получает поисковый запрос, состоящий из одного или нескольких терминов, через пользовательский интерфейс.
Определяется язык интерфейса (Interface Language).
Определяются языки, связанные с выбором результатов поиска для множества ранее отправленных запросов, которые совпадают с текущим запросом.
Для каждого идентифицированного языка определяется вероятность того, что текущий запрос написан на этом языке, основываясь на языках, связанных с выбором результатов предыдущих запросов.
Вероятность для языка, совпадающего с языком интерфейса, выбирается как вероятность того, что запрос написан на языке интерфейса.
Для каждого термина запроса определяется вектор вероятностей того, что этот термин принадлежит к различным языкам.
Векторы терминов перемножаются для получения результирующего вектора.
Результирующий вектор умножается на вероятность того, что запрос написан на языке интерфейса, для получения вектора вероятностей запроса (Query Probability Vector).
Язык запроса (Query Language) выбирается на основе этого вектора вероятностей.

Ядро изобретения — это метод определения языка запроса, который комбинирует три источника данных: (1) анализ самих терминов запроса (векторы вероятностей), (2) язык интерфейса пользователя и (3) анализ поведения пользователей по аналогичным запросам в прошлом (язык кликнутых результатов). Система вычисляет итоговый вектор вероятностей для запроса, объединяя эти сигналы.

Claim 2 (Зависимый от 1): Описывает использование определенного языка запроса для расширения запроса.

На основе языкозависимых правил (language-specific mapping) для терминов запроса определяется их общая форма (Common Form).
Для терминов запроса идентифицируются синонимы (Variants) на основе их общих форм.
Поисковый запрос переписывается (расширяется) с использованием идентифицированных синонимов.

После определения языка запроса система использует эту информацию для корректного выбора правил нормализации и последующего поиска релевантных вариантов написания (например, добавления правильных акцентов) для расширения запроса.

Claim 4 (Зависимый от 2): Детализирует процесс выбора синонимов.

Идентифицируются потенциальные синонимы для термина.
Для каждого потенциального синонима определяется относительная вероятность синонима (relative synonym probability) для каждого языка.
Синоним выбирается на основе этих вероятностей.

Claim 5 (Зависимый от 4): Детализирует расчет вероятности синонима.

Определяется относительная частота (Relative Frequency) синонима среди документов на каждом языке.
Для каждого языка вычисляется оценка (language estimate) на основе относительной частоты синонима в этом языке и вероятности того, что запрос написан на этом языке (из Claim 1).
Оценки для всех языков агрегируются для определения итоговой вероятности синонима.

Система не просто добавляет все возможные варианты написания. Она использует вероятностную модель, чтобы выбрать наиболее подходящие варианты. Выбор зависит от того, насколько вероятен данный язык для текущего запроса (из Claim 1) и насколько часто этот вариант используется в этом языке (статистика из Synonyms Map).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, функционируя как в офлайн, так и в онлайн режимах.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных для создания Synonyms Map:

Определение языка документов в тренировочном корпусе.
Применение языкозависимых правил (language-dependent mappings) для преобразования слов в Common Form.
Сбор статистики частотности слов (Variants) по языкам.
Построение и сохранение Synonyms Map.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента в онлайн режиме. При получении запроса система выполняет:

Определение языка запроса: Анализ терминов запроса, языка интерфейса и исторических данных о поведении пользователей для вычисления Query Probability Vector и выбора Query Language.
Упрощение запроса: Применение правил (которые могут отличаться от правил индексирования) для генерации Simplified Query Terms.
Расширение запроса (Query Augmentation): Поиск вариантов в Synonyms Map и вероятностный отбор наиболее подходящих синонимов на основе Query Language и частотных характеристик вариантов.

RANKING – Ранжирование
Система ранжирования получает на вход расширенный запрос (например, «(eléphant OR elephant OR éléphant) trunk») и использует его для поиска в основном индексе, который содержит документы в их оригинальной форме.

Входные данные (Онлайн):

Исходный запрос пользователя.
Язык интерфейса (Interface Language).
Synonyms Map (со статистикой частотности вариантов).
Исторические данные о языке кликнутых результатов для схожих запросов.

Выходные данные (Онлайн):

Определенный язык запроса (Query Language) и вектор вероятностей (Query Probability Vector).
Расширенный (аугментированный) поисковый запрос с добавленными релевантными вариантами написания.

На что влияет

Типы контента и ниши: Наибольшее влияние оказывается на контент на языках, активно использующих диакритические знаки, лигатуры или транслитерацию (например, французский, испанский, немецкий, скандинавские языки, транслитерированные индийские языки (Roman Indic)).
Специфические запросы: Влияет на запросы, где пользователи склонны опускать диакритику. Особенно важно для запросов, содержащих имена собственные, бренды или технические термины, где точное написание может быть критичным.
Языковые и географические ограничения: Механизм критичен для обеспечения качественного поиска в мультиязычных регионах и для пользователей, использующих интерфейс на одном языке, а ищущих контент на другом.

Когда применяется

Условия работы: Алгоритм применяется при обработке поисковых запросов, особенно когда термины запроса могут иметь различные варианты написания (с диакритикой или без) в разных языках.
Триггеры активации: Активируется, когда упрощенная форма термина запроса (Simplified Query Term) находит соответствие в Synonyms Map, для которого существует более одного варианта написания (Variant).
Исключения: В патенте упоминается, что для «малых языков» (языков, слабо представленных в корпусе документов) может применяться особая логика. Если язык интерфейса «малый», и исходный термин отличается от упрощенной формы, то используется исходный термин как есть, без синонимов. Если исходный термин идентичен упрощенной форме, то синонимы ищутся. Это делается для предотвращения «зашумления» выдачи результатами на других языках.

Пошаговый алгоритм

Процесс А: Создание Synonyms Map (Офлайн)

Сбор данных: Идентификация тренировочного корпуса документов.
Определение языка: Определение языка каждого документа в корпусе.
Создание словаря: Создание словаря всех уникальных слов в корпусе и запись частоты их встречаемости в разрезе языков.
Нормализация (Mapping to Common Form): Применение языкозависимых правил конвертации к каждому слову для получения его Common Form. Правила могут включать удаление акцентов, сворачивание диграфов и т.д.
Построение карты: Создание Synonyms Map, где ключи — это Common Form, а значения — оригинальные слова (Variants) с их статистикой по языкам.
Фильтрация и расчет метрик:
1. Удаление записей, где есть только один вариант, совпадающий с общей формой.
2. Удаление вариантов, частота которых ниже абсолютного порога для данного языка (фильтрация опечаток).
3. Расчет относительной частоты (Relative Frequency) каждого варианта внутри языка для данной общей формы.
4. Удаление вариантов, чья относительная частота ниже заданного порога.

Процесс Б: Обработка и расширение запроса (Онлайн)

Получение запроса и контекста: Получение поискового запроса и определение языка интерфейса (Interface Language).
Определение языка запроса:
1. Расчет вероятности того, что запрос написан на языке интерфейса (используя исторические данные о кликах).
2. Расчет векторов вероятностей для каждого термина запроса (в каких языках он встречается).
3. Комбинирование этих данных для получения Query Probability Vector и выбора наиболее вероятного Query Language.
Упрощение запроса (Simplification): Применение правил конвертации (обычно языконезависимых, но иногда зависящих от Query Language) к каждому термину для получения Simplified Query Term.
Поиск вариантов: Использование упрощенных терминов как ключей для поиска в Synonyms Map.
Оценка и отбор вариантов: Для каждого найденного варианта рассчитывается оценка (Estimate), которая является суммой по всем языкам произведения вероятности языка (из Query Probability Vector) и относительной частоты варианта в этом языке (из Synonyms Map).
$E s t i m a t e = \sum_{L a n g u a g e} (P (L a n g u a g e$

Выводы

Язык интерфейса — сильный сигнал контекста: Google активно использует язык интерфейса пользователя как ключевой сигнал для разрешения языковой неоднозначности запроса. Это влияет на определение Query Language и, следовательно, на то, какие варианты написания будут добавлены в запрос.
Вероятностное расширение запроса: Система не просто ищет все возможные варианты написания. Она использует сложную вероятностную модель, чтобы определить, какие варианты (например, с какими акцентами) наиболее релевантны для данного пользователя и контекста, основываясь на статистике использования слов в разных языках.
Нормализация при индексировании vs. Упрощение при запросе: Патент подчеркивает различие между тем, как контент нормализуется для создания Synonyms Map (языкозависимые правила), и тем, как упрощается запрос пользователя (часто языконезависимые правила). Это позволяет системе связывать разные орфографические конвенции.
Защита от некорректных замен: Система имеет механизмы защиты от нежелательных замен. Например, она учитывает Collapsible Digraphs (вроде ‘ue’ для ‘ü’) и может снижать вес (penalty) для таких вариантов, чтобы избежать ошибок, если такая замена не принята в определенном языке.
Особая обработка «малых языков»: Для языков, слабо представленных в индексе, система может ограничивать расширение запроса, чтобы избежать доминирования результатов на более распространенных языках и повысить точность выдачи на «малом языке».

Практика

Best practices (это мы делаем)

Обеспечение корректной идентификации языка контента: Критически важно, чтобы Google правильно определял язык ваших документов во время индексирования, так как это влияет на формирование Synonyms Map. Используйте чистый HTML, корректные атрибуты lang, и следуйте рекомендациям по hreflang для мультиязычных сайтов.
Использование канонической орфографии: Всегда используйте правильные диакритические знаки и орфографию для целевого языка (например, пишите ‘éléphant’ на французском). Этот патент описывает механизм, который помогает пользователям найти ваш контент, даже если они ищут без акцентов (‘elephant’), но полагается он на то, что в индексе присутствует каноническая форма.
Анализ международного трафика с учетом настроек интерфейса: При анализе эффективности ключевых слов учитывайте, что пользователи с интерфейсом на английском языке, ищущие на французском, могут получать иную выдачу, чем пользователи с интерфейсом на французском. Стратегия должна учитывать эти контекстуальные различия.
Создание контента для транслитерированных запросов: В нишах, где распространена транслитерация (например, Roman Indic), убедитесь, что ваш контент может быть корректно обработан системой. Понимание того, как Google применяет правила транслитерации (Conversion Maps), помогает оптимизировать контент под такие запросы.

Worst practices (это делать не надо)

Игнорирование диакритических знаков в контенте: Создание контента без правильных акцентов или умляутов в надежде, что он будет лучше ранжироваться по запросам без диакритики, является плохой практикой. Это снижает качество контента и может привести к тому, что система не сможет корректно связать неканоническую форму с запросами пользователей.
Смешивание языков на одной странице без четкого разделения: Это может затруднить корректное определение языка документа и привести к ошибкам при построении Synonyms Map, так как система применяет языкозависимые правила нормализации.
Манипуляции с орфографией для охвата вариантов: Не нужно создавать отдельные страницы или наполнять текст разными вариантами написания (например, с акцентами и без). Система Google предназначена для автоматического связывания этих вариантов через механизм, описанный в патенте.

Стратегическое значение

Этот патент подчеркивает стратегическую важность точного языкового таргетинга в SEO. Он демонстрирует, что Google не рассматривает язык как бинарный фактор, а использует вероятностную модель, учитывающую контекст пользователя (язык интерфейса) для интерпретации запроса. Для глобальных SEO-стратегий это означает, что оптимизация должна быть направлена на обеспечение четких и последовательных языковых сигналов на сайте, чтобы система могла корректно классифицировать контент и связать его с запросами пользователей, независимо от их локации и настроек интерфейса.

Практические примеры

Сценарий: Оптимизация для французского рынка с учетом английского интерфейса

Предположим, мы оптимизируем страницу о слонах на французском языке. Ключевое слово: ‘éléphant’.

Действие: Мы создаем качественный контент, используя правильное написание ‘éléphant’. Обеспечиваем, чтобы страница была четко идентифицирована как французская (HTML lang=»fr»).
Процесс Google (Индексирование): Google индексирует страницу, определяет язык как французский. Слово ‘éléphant’ нормализуется в Common Form ‘elephant’. В Synonyms Map записывается, что ‘elephant’ во французском языке часто встречается как ‘éléphant’.
Сценарий пользователя 1 (Французский интерфейс): Пользователь с французским интерфейсом ищет ‘elephant’. Google определяет высокую вероятность французского языка. Система проверяет Synonyms Map и видит, что ‘éléphant’ является высокочастотным вариантом во французском языке. Запрос расширяется до (elephant OR éléphant). Наша страница высоко ранжируется.
Сценарий пользователя 2 (Английский интерфейс): Пользователь с английским интерфейсом ищет ‘elephant’. Google определяет высокую вероятность английского языка. Система проверяет Synonyms Map. Хотя ‘éléphant’ существует и в английском (как заимствование), его относительная частота низка по сравнению с ‘elephant’. Запрос, скорее всего, не будет расширен или расширение получит низкий вес. Наша французская страница не будет мешать английской выдаче.
Результат: Мы обеспечили максимальную видимость на целевом рынке без ущерба для других языков, следуя орфографическим стандартам.

Вопросы и ответы

Как Google определяет язык документа для построения Synonyms Map?

Патент указывает на использование статистических теорий обучения, в частности, моделей классификации Naive Bayes. Эти модели вычисляют вероятность принадлежности документа к определенному классу (пара язык/кодировка) на основе текста и, опционально, URL документа (например, домена верхнего уровня). Система анализирует частотность слов в тексте и сравнивает ее с эталонными моделями языков, чтобы определить наиболее вероятный язык документа.

В чем разница между Common Form при индексировании и Simplified Query Term при обработке запроса?

Common Form создается во время индексирования с использованием языкозависимых правил (language-dependent mappings), так как язык документа известен. Simplified Query Term создается во время обработки запроса, часто с использованием языконезависимых правил, так как язык запроса еще точно не определен или может быть смешанным. В некоторых случаях правила для этих двух процессов могут отличаться, что позволяет системе связывать разные конвенции написания.

Насколько сильно язык интерфейса влияет на определение языка запроса?

Влияние значительно. Язык интерфейса используется как один из ключевых множителей при расчете итогового вектора вероятностей запроса (Query Probability Vector). Система рассчитывает вероятность того, что запрос написан на языке интерфейса (основываясь на исторических данных о поведении пользователей), и комбинирует ее с вероятностями, полученными из анализа самих терминов запроса.

Если я напишу контент без диакритических знаков, поможет ли это ранжироваться по запросам без них?

Нет, это плохая стратегия. Система предназначена для того, чтобы находить контент с правильной орфографией (с диакритикой), даже если пользователь ищет без нее. Google индексирует ваш контент и создает Synonyms Map, полагаясь на то, что контент написан правильно. Использование неканонической орфографии снижает качество контента и может ухудшить его обработку системой.

Как система решает, какие именно акценты добавить, если слово пишется по-разному в разных языках (например, в испанском и португальском)?

Это решается с помощью вероятностной модели. Система сначала определяет наиболее вероятный язык запроса (используя язык интерфейса и сами термины). Затем она проверяет Synonyms Map, чтобы увидеть, какой вариант написания (с какими акцентами) наиболее часто встречается в этом конкретном языке. Вариант с наибольшей взвешенной вероятностью будет использован для расширения запроса.

Что такое «малые языки» и как они обрабатываются?

«Малые языки» (Small Languages) — это языки, которые слабо представлены в общем корпусе документов (индексе). Для них система может ограничивать расширение запроса синонимами. Это делается для того, чтобы предотвратить ситуацию, когда результаты на более распространенном языке подавляют релевантные результаты на «малом языке» из-за автоматического добавления вариантов.

Учитывает ли система опечатки при создании Synonyms Map?

Система пытается фильтровать опечатки. В патенте описан механизм использования абсолютных порогов частотности (absolute threshold) на уровне языка. Если слово встречается очень редко в данном языке, оно, вероятно, является опечаткой и не включается в Synonyms Map как валидный вариант.

Как обрабатываются слова, которые выглядят одинаково, но имеют разное значение в разных языках (омографы)?

Патент предлагает использовать языкозависимые черные списки слов (blacklists). Если слово находится в черном списке для определенного языка, оно не может быть ассоциировано с этим языком в Synonyms Map. Например, если ‘the’ находится во французском черном списке, это предотвращает путаницу между английским ‘the’ (артикль) и французским ‘thé’ (чай).

Что такое сворачиваемые диграфы и как они влияют на SEO?

Сворачиваемые диграфы — это пары символов, заменяющие один символ с диакритикой (например, ‘ae’ вместо ‘æ’). Система умеет распознавать их и сворачивать в Common Form. При расширении запроса система может применять штраф (penalty) к относительной частоте таких вариантов, чтобы снизить риск некорректной замены, если она не принята в данном языке. SEO-специалистам важно знать о таких конвенциях на целевых рынках.

Влияет ли этот патент на работу Hreflang?

Прямого влияния нет, но оба механизма работают на улучшение международного поиска. Hreflang помогает Google понять структуру мультиязычного сайта и показать правильный URL в выдаче. Этот патент помогает Google правильно интерпретировать сам запрос пользователя и определить, на каком языке он ищет. Корректное использование Hreflang помогает гарантировать, что после того, как Google определил язык запроса и расширил его, он покажет пользователю наиболее подходящую версию страницы.