Как Google обрабатывает акценты, транслитерацию и синонимы, используя статистику и языковой контекст запроса

Google использует вероятностную систему для обработки лингвистических вариаций (акценты, диакритические знаки, транслитерация). Система определяет вероятный язык запроса и использует заранее созданную таблицу синонимов, которая хранит варианты написания и их частотность в разных языках. Это позволяет Google выбирать наиболее релевантные варианты для расширения запроса, учитывая контекст пользователя.

Описание

Какую задачу решает

Патент решает проблему языковой неопределенности и ограничений ввода символов в многоязычном поиске. Пользователи часто вводят упрощенные формы слов из-за ограничений клавиатуры или языковых конвенций (например, ‘AE’ вместо ‘Æ’, ‘ueber’ вместо ‘über’, или используют транслитерацию). Изобретение направлено на улучшение поиска путем распознавания намерения пользователя с учетом лингвистического контекста, вместо применения универсального удаления акцентов, которое игнорирует языковые различия.

Что запатентовано

Запатентована система для генерации и использования Таблицы соответствия синонимов (Synonym Mapping Table) с учетом языка. Система нормализует термины из документов и запросов, используя правила, специфичные для конкретного языка. Ключевой особенностью является вероятностный метод выбора синонимов (вариантов) на основе их частотности в конкретных языках (Variant-Language Score) и определенного языка запроса (Query Language).

Как это работает

Система работает в двух основных фазах:

Офлайн (Подготовка данных): Определяется язык каждого документа в корпусе. Слова нормализуются в ‘общие формы’ (ключи) с использованием правил, зависящих от языка документа. Создается Synonym Mapping Table, которая отслеживает все варианты написания для каждого ключа и их относительную частоту в каждом языке (Variant-Language Score).
Онлайн (Обработка запроса): Определяется вероятный язык запроса (Query Language), используя язык интерфейса (Interface Language) и сами термины. Запрос упрощается. Система ищет варианты в таблице и оценивает их, комбинируя вероятность языка запроса и Variant-Language Score. Запрос расширяется (augmented) за счет высокооцененных вариантов.

Актуальность для SEO

Высокая. Фундаментальные аспекты международного поиска, обработки диакритических знаков, транслитерации и генерации синонимов остаются критически важными для Google. Хотя конкретные модели (например, для определения языка) эволюционировали, основной принцип статистически обоснованного и зависимого от языка расширения запросов является неотъемлемой частью современного поиска.

Важность для SEO

Патент имеет критическое значение для международного SEO (9/10). Он описывает основополагающие механизмы того, как Google интерпретирует ключевые слова и сопоставляет их с контентом в разных языковых контекстах. Это напрямую влияет на то, как контент индексируется и извлекается, и подчеркивает, что нормализация и генерация синонимов сильно зависят от обнаруженного языка как контента, так и запроса пользователя.

Детальный разбор

Термины и определения

Common Form / Key (Общая форма / Ключ): Нормализованная (упрощенная, каноническая) версия слова, полученная офлайн из корпуса документов. Используется как ключ в Synonym Mapping Table.
Variant (Вариант): Оригинальное слово, найденное в документе, которое было нормализовано к определенному ключу. Является потенциальным синонимом для расширения запроса.
Simplified Query Term (Упрощенный термин запроса): Нормализованная версия термина из запроса пользователя, полученная онлайн. Используется для поиска в Synonym Mapping Table.
Synonym Mapping Table (Таблица соответствия синонимов): Структура данных, которая сопоставляет Ключи с Вариантами. Каждый вариант связан с языками и соответствующими Variant-Language Scores.
Document Language (Язык документа): Язык, определенный для документа в корпусе. Используется для выбора правил нормализации при индексировании.
Interface Language (Язык интерфейса): Язык пользовательского интерфейса (например, Google.fr). Сильный сигнал для определения Query Language.
Query Language (Язык запроса): Предполагаемый язык поискового запроса. Определяется на основе Interface Language и самих терминов.
Variant-Language Score (Оценка Вариант-Язык): Относительная частота (relative frequency) данного варианта среди всех вариантов для того же ключа в конкретном языке. P(Variant|Key, Language).
Query-Language Score (Оценка Запрос-Язык): Вероятность того, что запрос принадлежит к определенному языку. P(Query=Language).
Transliteration (Транслитерация): Преобразование текста из одной системы письма в другую (например, из кириллицы в латиницу). Является частью процесса нормализации.
Collapsible Ligature (Свертываемая лигатура): Комбинация символов, заменяющая один специальный символ (например, ‘ue’ для ‘ü’ в немецком).
Small-Scale Language (Маломасштабный язык): Язык, недостаточно представленный в корпусе документов. Требует особой обработки для предотвращения шума.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки термина запроса в онлайн-режиме.

Система получает поисковый запрос, которому приписывается Query Language.
Из термина запроса получается Simplified Query Term.
Система ищет этот упрощенный термин в Synonym Mapping Table. Таблица содержит ключи и варианты, причем каждый вариант имеет Variant-Language Score (относительную частоту) для ассоциированных языков.
Ключевой шаг: Система выбирает варианты для расширения (augmenting) запроса, используя (a) приписанный Query Language И (b) Variant-Language Scores этих вариантов.

Ядро изобретения — это контекстно-зависимый выбор синонимов. Выбор зависит не только от формы слова, но и от вероятностного сопоставления языка запроса с данными о частотности вариантов в этом языке.

Claim 3 (Зависимый от 1): Детализирует обработку неоднозначности языка запроса.

Поисковому запросу приписывается несколько Query Languages, каждый из которых имеет свою оценку вероятности (Query-Language Score). Выбор варианта основывается на использовании (a) этих Query-Language Scores и (b) Variant-Language Scores.

Claim 4 (Зависимый от 3): Определяет конкретный метод расчета для выбора варианта.

Использование оценок включает суммирование произведений для всех языков. Для каждого языка L перемножаются Query-Language Score(L) и Variant-Language Score(L). Это математически формализует процесс выбора: Score(V) = Σ_L (P(Query=L) * P(Variant|Key, L)).

Где и как применяется

Изобретение затрагивает два ключевых этапа поисковой архитектуры: индексирование (для офлайн-подготовки) и понимание запросов (для онлайн-обработки).

INDEXING – Индексирование и извлечение признаков (Офлайн)
На этом этапе происходит предварительная обработка корпуса для создания Synonym Mapping Table:

Определение языка документа: Анализ контента для определения Document Language.
Нормализация: Слова преобразуются в Common Forms (ключи) с использованием специфичных для языка правил (Transformation Mapping Tables).
Построение таблицы: Агрегация данных, подсчет частотности вариантов, расчет Variant-Language Scores и сохранение в Synonym Mapping Table.

QUNDERSTANDING – Понимание Запросов (Онлайн)
Основное применение патента в реальном времени:

Определение языка запроса: Анализ запроса и Interface Language для расчета Query-Language Scores.
Упрощение запроса: Нормализация терминов в Simplified Query Terms. Правила упрощения могут отличаться от правил, используемых при индексировании.
Выбор синонимов и Расширение запроса: Расчет итоговой оценки для каждого варианта по формуле (Claim 4) и добавление выбранных вариантов к запросу (Query Augmentation).

RANKING (L1 — Retrieval) – Ранжирование (Отбор кандидатов)
Расширенный запрос используется для поиска кандидатов в основном индексе.

На что влияет

Международное SEO: Критическое влияние на ранжирование в разных языковых контекстах, особенно для языков с диакритическими знаками (французский, немецкий, испанский) или лигатурами.
Транслитерация: Влияет на обработку запросов, написанных в альтернативной системе письма (например, запросы на хинди или русском, написанные латиницей).
Имена собственные и бренды: Позволяет связывать различные написания имен и названий в многоязычном контексте.

Когда применяется

Условия применения: Алгоритм применяется, когда для упрощенного термина запроса существуют записи в Synonym Mapping Table.
Пороги: Расширение активируется, если рассчитанная итоговая оценка для варианта превышает заданный порог (Synonym Probability Threshold, в патенте упоминается пример 50%).
Исключения (Small-Scale Languages): Описание упоминает особые правила для языков, недостаточно представленных в корпусе. Для них расширение запроса может быть ограничено, чтобы избежать переполнения выдачи результатами на более распространенных языках.

Пошаговый алгоритм

Процесс А: Офлайн-генерация Synonym Mapping Table

Сбор данных и определение языка: Анализ корпуса и определение Document Language для каждого документа.
Создание словаря: Создание словаря уникальных слов с подсчетом частоты для каждого языка. Применение ‘черных списков’ символов для фильтрации.
Нормализация (Генерация Common Form): Применение специфичных для языка правил маппинга к каждому слову для получения Ключа.
Агрегация Вариантов: Группировка оригинальных слов (Вариантов) под соответствующими Ключами.
Фильтрация: Удаление вариантов, не удовлетворяющих абсолютным (для удаления опечаток) или относительным (например, 10%) порогам частотности. Применение ‘черных списков’ слов.
Расчет оценок: Вычисление Variant-Language Score (относительной частоты) для каждого варианта в рамках каждого языка.
Сохранение: Запись данных в Synonym Mapping Table.

Процесс Б: Обработка запроса в реальном времени

Получение запроса: Получение запроса и Interface Language.
Определение языка запроса: Расчет вектора вероятностей (Query-Language Scores).
Упрощение запроса: Нормализация терминов запроса в Simplified Query Terms (с возможным применением транслитерации).
Поиск в таблице: Поиск Ключей в Synonym Mapping Table.
Расчет оценки вариантов (Variant Scoring): Для каждого варианта расчет итоговой оценки по формуле: Сумма по всем языкам (Query-Language Score(L) * Variant-Language Score(L)).
Применение порога: Выбор вариантов, чья оценка превышает порог (например, 50%).
Расширение запроса (Query Augmentation): Добавление выбранных вариантов к исходному запросу (например, через OR).
Поиск: Выполнение поиска по расширенному запросу.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов корпуса используется для построения Synonym Mapping Table и сбора статистики частотности.
Пользовательские факторы: Interface Language пользователя используется как критически важный сигнал для определения Query Language. Термины, введенные пользователем.
Лингвистические данные: Специфичные для языка правила нормализации (Transformation Mapping Tables). ‘Черные списки’ символов и слов для фильтрации.

Какие метрики используются и как они считаются

Variant-Language Score (Относительная частота): Рассчитывается офлайн. Формула: (Количество вхождений варианта V в языке L) / (Общее количество вхождений всех вариантов для того же ключа K в языке L).
Query-Language Score (Вероятность языка запроса): Рассчитывается онлайн. Вероятность того, что запрос написан на языке L, на основе Interface Language и анализа терминов (в патенте упоминаются модели Naïve Bayes).
Итоговая оценка варианта (Combined Score): Рассчитывается онлайн. Формула (Claim 4): Сумма по всем языкам L [ Query-Language Score(L) * Variant-Language Score(L) ].
Пороговые значения: Используются абсолютные и относительные пороги частотности при построении таблицы, а также порог итоговой оценки (Synonym Probability Threshold) при расширении запроса.

Выводы

Глубокая языковая осведомленность при генерации синонимов: Система не применяет универсальную нормализацию. Выбор синонима (варианта написания) строго зависит от лингвистического контекста — насколько вариант распространен в конкретном языке и насколько вероятно, что пользователь ищет именно на этом языке.
Разделение контекстов Контента и Запроса: Система отдельно определяет Document Language (при индексации) и Query Language (при поиске). Это позволяет корректно обрабатывать кросс-языковые поисковые сценарии.
Важность языка интерфейса: Interface Language является ключевым сигналом для интерпретации намерения пользователя, особенно при неоднозначности терминов.
Различия в правилах нормализации: Патент явно указывает, что правила трансформации, применяемые во время индексирования (к документу), могут отличаться от правил, применяемых во время поиска (к запросу).
Вероятностный подход к выбору: Использование формализованной математической модели (сумма произведений оценок) позволяет точно настроить баланс между различными языковыми сигналами для выбора наиболее релевантных вариантов.
Обработка сложных явлений: Система разработана для контекстной обработки транслитерации, диакритических знаков и лигатур, применяя специфические правила в зависимости от языка.

Практика

Best practices (это мы делаем)

Использование канонических и правильных вариантов написания: Всегда используйте грамматически корректное написание, включая диакритические знаки (акценты, умляуты), если они являются нормой для языка (например, ‘café’ во французском, ‘München’ в немецком). Система предназначена для того, чтобы связать упрощенные запросы пользователей (‘cafe’, ‘Munchen’) с вашим корректным контентом через Synonym Mapping Table.
Обеспечение четких языковых сигналов: Используйте чистый язык и соответствующую разметку (HTML lang атрибут, hreflang), чтобы помочь Google правильно определить Document Language. Это гарантирует корректное применение правил нормализации при индексировании и правильный расчет Variant-Language Scores для ваших терминов.
Понимание влияния языка интерфейса пользователя: При анализе международного трафика учитывайте, что Interface Language влияет на интерпретацию и расширение запроса. Пользователь с английским интерфейсом, ищущий французский термин, может получить иные результаты, чем пользователь с французским интерфейсом.
Стратегии транслитерации: Если вы таргетируетесь на аудиторию, использующую транслитерацию (например, Romanized Hindi или русский транслит), убедитесь, что вы используете распространенные варианты. Система будет учитывать их как отдельные варианты в Synonym Mapping Table.

Worst practices (это делать не надо)

Смешивание языков в одном документе: Это затрудняет определение основного Document Language и может привести к применению некорректных правил нормализации, ухудшая индексацию контента.
Использование некорректных диакритических знаков или псевдо-языкового написания: Не стоит использовать акценты там, где они не нужны. Система использует частотный анализ (Variant-Language Score) и отфильтрует редкие или неестественные варианты.
Keyword Stuffing вариантами написания: Не нужно перечислять все варианты написания слова в тексте. Система расширения запросов делает это автоматически на стороне Google.
Некорректное использование лигатур: Не используйте заменители лигатур там, где это не принято (например, ‘ue’ вместо ‘ü’ в турецком языке). Правила преобразования зависят от языка.

Стратегическое значение

Патент подтверждает стратегическую важность точного международного таргетинга и лингвистической корректности. Google не применяет универсальное ‘удаление акцентов’, а использует сложную, зависящую от языка систему нормализации и расширения запросов. Это демонстрирует стремление Google понять лингвистический контекст пользователя и контента по отдельности, а затем преодолеть разрыв между ними. Долгосрочная стратегия в международном SEO должна строиться на создании контента, который точно соответствует языковым нормам целевой аудитории.

Практические примеры

Сценарий 1: Обработка акцентов (Французский/Английский)

Контекст: Слово «Resume». В английском это «возобновить» или CV, во французском «Résumé» это «сводка».
Запрос 1 (Английский интерфейс): Пользователь ищет «resume template». Система определяет Query Language как английский. При оценке вариантов, английский «resume» получает высокий балл, а французский «résumé» (даже если он есть в таблице) — низкий (так как его частотность в английском мала). Запрос не расширяется вариантом «résumé».
Запрос 2 (Французский интерфейс): Пользователь ищет «resume template». Система определяет Query Language как французский. Вариант «résumé» получает высокий балл (P(Французский) * Высокая частотность во французском). Запрос расширяется как «(resume OR résumé) template».
Вывод: При оптимизации для Франции необходимо использовать «Résumé».

Сценарий 2: Обработка лигатур (Немецкий)

Контекст: Немецкое слово «über». На клавиатурах без умляутов его часто пишут как «ueber».
Действие системы: При построении таблицы для немецкого языка и «über», и «ueber» нормализуются к общему ключу и сохраняются как варианты с высокой частотностью в немецком.
Запрос: Пользователь с немецким интерфейсом ищет «ueber».
Результат: Система определяет язык как немецкий, находит варианты «über» и «ueber» и расширяет запрос, позволяя найти документы с любым из этих написаний.

Вопросы и ответы

Означает ли этот патент, что Google просто удаляет все акценты (диакритические знаки) при индексировании?

Нет. Google сохраняет оригинальные варианты написания в Synonym Mapping Table. При индексировании создается нормализованная ‘общая форма’ (Common Form), которая используется как ключ, но сами варианты и их лингвистический контекст (частотность в разных языках) сохраняются. Это позволяет системе динамически решать, когда акцентированная версия должна быть использована для расширения запроса.

Как система определяет язык документа и язык запроса?

Для документов система анализирует текст (в описании упоминаются статистические модели, такие как Naïve Bayes). Для запросов система использует комбинацию сигналов: язык интерфейса пользователя (Interface Language) и анализ самих терминов запроса, сравнивая их с частотностью слов в разных языках. Результатом является вектор вероятностей (Query-Language Scores).

Что такое Variant-Language Score и почему это важно?

Variant-Language Score — это относительная частота варианта написания в конкретном языке. Это критически важно, потому что одно и то же слово может иметь разные предпочтительные написания в разных языках. Например, во французском предпочтительный вариант — ‘café’, а в английском — ‘cafe’. Эта оценка позволяет системе предпочесть ‘café’ только тогда, когда контекст французский.

Как язык интерфейса пользователя влияет на результаты поиска?

Язык интерфейса является сильным сигналом для определения предполагаемого языка запроса (Query Language). Если пользователь с английским интерфейсом вводит неоднозначный термин, система с большей вероятностью интерпретирует его как английский, что повлияет на выбор синонимов для расширения запроса и, следовательно, на результаты выдачи.

Нужно ли мне создавать отдельные страницы для акцентированных и неакцентированных версий ключевых слов?

Нет, это неэффективно. Система разработана для того, чтобы автоматически связывать эти формы через Synonym Mapping Table. Лучшая практика — использовать грамматически правильное написание (с акцентами, если они необходимы) в вашем контенте. Google самостоятельно сопоставит неакцентированные запросы с вашим контентом, если лингвистический контекст будет соответствующим.

Как этот патент влияет на SEO для языков, использующих нелатинские алфавиты (например, русский, хинди)?

Патент напрямую затрагивает эти языки, включая механизмы транслитерации. Система может обрабатывать запросы, введенные латиницей, но предназначенные для поиска контента на другом языке (например, ‘vodka’ для поиска ‘водка’). Эти транслитерированные формы обрабатываются как варианты в Synonym Mapping Table с соответствующими языковыми оценками.

Что происходит, если мой сайт на ‘маломасштабном языке’ (small-scale language)?

В описании патента указано, что для языков, слабо представленных в корпусе, система может ограничивать расширение запросов синонимами. Это делается для того, чтобы предотвратить переполнение выдачи результатами на более распространенных языках. Это подчеркивает важность создания качественного контента на таких языках для улучшения их представленности.

Могут ли правила нормализации отличаться при индексировании и обработке запроса?

Да, патент явно указывает на эту возможность. Система может использовать первый набор зависящих от языка правил для генерации ключей из документов (офлайн) и второй набор для генерации упрощенных терминов из запросов (онлайн). Это дает Google гибкость в адаптации к поведению пользователей при поиске.

Как обрабатываются слова, которые выглядят одинаково, но имеют разное значение в разных языках (омографы)?

Описание патента предлагает использовать специфичные для языка ‘черные списки’ слов (word blacklists). Если вариант находится в черном списке для определенного языка (например, чтобы избежать путаницы между английским ‘the’ и французским ‘thé’), этот язык исключается из ассоциации с вариантом, предотвращая его использование в неправильном контексте.

Как система решает, какой синоним выбрать, если их несколько?

Система использует строгую математическую формулу (Claim 4) для расчета итоговой оценки каждого варианта. Она суммирует произведения вероятности языка запроса и относительной частоты варианта в этом языке по всем возможным языкам. Варианты, превысившие определенный порог (например, 50%), выбираются для расширения запроса.