
Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.
Патент решает проблему обработки языковой неопределенности в поисковых запросах. Пользователи часто вводят запросы без диакритических знаков (акцентов, умляутов и т.д.) из-за ограничений устройств ввода или неудобства. При этом ожидается получение результатов с правильной орфографией. Система должна определить истинный язык запроса и понять, какие именно варианты написания (с диакритическими знаками или лигатурами) следует искать. Проблема усугубляется тем, что правила замены символов различаются в разных языках (например, 'ue' может заменять 'ü' в немецком, но не в турецком), и тем, что язык запроса может отличаться от языка интерфейса пользователя.
Запатентована система и метод для определения языка поискового запроса путем анализа как самих терминов запроса, так и языка пользовательского интерфейса (Interface Language), через который запрос был получен. Изобретение включает механизм использования этого определенного языка (Query Language) для точного расширения запроса синонимами (вариантами написания). Это достигается за счет создания и использования Synonyms Map — базы данных, которая хранит статистику частотности различных вариантов слова в разных языках.
Система работает в двух режимах: офлайн (индексирование) и онлайн (обработка запроса).
Офлайн: Создается Synonyms Map. Документы в корпусе анализируются, определяется их язык. Слова приводятся к «общей форме» (Common Form) с помощью языкозависимых правил (например, удаление акцентов). Для каждой общей формы сохраняются все оригинальные варианты (Variants) и частота их встречаемости в каждом языке.
Онлайн: При получении запроса система определяет вероятный язык запроса, учитывая язык интерфейса и сами термины. Термины запроса упрощаются (Simplified Query Term). Затем система ищет варианты в Synonyms Map. Выбор конкретного варианта для добавления в запрос зависит от вероятности языка запроса и относительной частоты этого варианта в данном языке.
Высокая. Точное определение языка запроса критически важно для качества поиска, особенно в мультиязычном интернете и для языков с богатой диакритикой. Хотя методы определения языка могли эволюционировать (например, с использованием нейронных сетей), фундаментальный подход — использование контекста (интерфейс) и статистики по терминам для разрешения неоднозначности и правильного расширения запроса — остается центральным элементом международного поиска.
Патент имеет высокое значение для международного и локализованного SEO. Он раскрывает, как Google обрабатывает запросы с диакритическими знаками и без них, и подчеркивает важность контекстуальных сигналов (таких как язык интерфейса) для определения интента пользователя. Понимание этих механизмов критично для разработки стратегий таргетинга на пользователей в разных странах и с разными языковыми настройками, гарантируя, что контент будет найден независимо от того, как пользователь сформулировал запрос.
Synonyms Map. Представляет собой упрощенную, стандартизированную или каноническую форму слова, полученную путем применения языкозависимых правил (например, удаление акцентов) к оригинальным словам из корпуса документов.Common Form (ключ) с одним или несколькими Variants (значения). Для каждого варианта хранится статистика его использования в разных языках.Common Form. Например, 'éléphant' и 'eléphant' могут быть вариантами для общей формы 'elephant'.Relative Frequency) данного варианта среди всех вариантов той же общей формы в конкретном языке.Synonyms Map.Claim 1 (Независимый пункт): Описывает метод определения языка запроса.
Interface Language).Query Probability Vector).Query Language) выбирается на основе этого вектора вероятностей.Ядро изобретения — это метод определения языка запроса, который комбинирует три источника данных: (1) анализ самих терминов запроса (векторы вероятностей), (2) язык интерфейса пользователя и (3) анализ поведения пользователей по аналогичным запросам в прошлом (язык кликнутых результатов). Система вычисляет итоговый вектор вероятностей для запроса, объединяя эти сигналы.
Claim 2 (Зависимый от 1): Описывает использование определенного языка запроса для расширения запроса.
language-specific mapping) для терминов запроса определяется их общая форма (Common Form).Variants) на основе их общих форм.После определения языка запроса система использует эту информацию для корректного выбора правил нормализации и последующего поиска релевантных вариантов написания (например, добавления правильных акцентов) для расширения запроса.
Claim 4 (Зависимый от 2): Детализирует процесс выбора синонимов.
relative synonym probability) для каждого языка.Claim 5 (Зависимый от 4): Детализирует расчет вероятности синонима.
Relative Frequency) синонима среди документов на каждом языке.language estimate) на основе относительной частоты синонима в этом языке и вероятности того, что запрос написан на этом языке (из Claim 1).Система не просто добавляет все возможные варианты написания. Она использует вероятностную модель, чтобы выбрать наиболее подходящие варианты. Выбор зависит от того, насколько вероятен данный язык для текущего запроса (из Claim 1) и насколько часто этот вариант используется в этом языке (статистика из Synonyms Map).
Изобретение затрагивает несколько этапов поисковой архитектуры, функционируя как в офлайн, так и в онлайн режимах.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных для создания Synonyms Map:
language-dependent mappings) для преобразования слов в Common Form.Variants) по языкам.Synonyms Map.QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента в онлайн режиме. При получении запроса система выполняет:
Query Probability Vector и выбора Query Language.Simplified Query Terms.Synonyms Map и вероятностный отбор наиболее подходящих синонимов на основе Query Language и частотных характеристик вариантов.RANKING – Ранжирование
Система ранжирования получает на вход расширенный запрос (например, "(eléphant OR elephant OR éléphant) trunk") и использует его для поиска в основном индексе, который содержит документы в их оригинальной форме.
Входные данные (Онлайн):
Interface Language).Synonyms Map (со статистикой частотности вариантов).Выходные данные (Онлайн):
Query Language) и вектор вероятностей (Query Probability Vector).Simplified Query Term) находит соответствие в Synonyms Map, для которого существует более одного варианта написания (Variant).Процесс А: Создание Synonyms Map (Офлайн)
Common Form. Правила могут включать удаление акцентов, сворачивание диграфов и т.д.Synonyms Map, где ключи — это Common Form, а значения — оригинальные слова (Variants) с их статистикой по языкам.Relative Frequency) каждого варианта внутри языка для данной общей формы.Процесс Б: Обработка и расширение запроса (Онлайн)
Interface Language).Query Probability Vector и выбора наиболее вероятного Query Language.Query Language) к каждому термину для получения Simplified Query Term.Synonyms Map.Query Probability Vector) и относительной частоты варианта в этом языке (из Synonyms Map). Query Language и, следовательно, на то, какие варианты написания будут добавлены в запрос.Synonyms Map (языкозависимые правила), и тем, как упрощается запрос пользователя (часто языконезависимые правила). Это позволяет системе связывать разные орфографические конвенции.Collapsible Digraphs (вроде 'ue' для 'ü') и может снижать вес (penalty) для таких вариантов, чтобы избежать ошибок, если такая замена не принята в определенном языке.Synonyms Map. Используйте чистый HTML, корректные атрибуты lang, и следуйте рекомендациям по hreflang для мультиязычных сайтов.Conversion Maps), помогает оптимизировать контент под такие запросы.Synonyms Map, так как система применяет языкозависимые правила нормализации.Этот патент подчеркивает стратегическую важность точного языкового таргетинга в SEO. Он демонстрирует, что Google не рассматривает язык как бинарный фактор, а использует вероятностную модель, учитывающую контекст пользователя (язык интерфейса) для интерпретации запроса. Для глобальных SEO-стратегий это означает, что оптимизация должна быть направлена на обеспечение четких и последовательных языковых сигналов на сайте, чтобы система могла корректно классифицировать контент и связать его с запросами пользователей, независимо от их локации и настроек интерфейса.
Сценарий: Оптимизация для французского рынка с учетом английского интерфейса
Предположим, мы оптимизируем страницу о слонах на французском языке. Ключевое слово: 'éléphant'.
Common Form 'elephant'. В Synonyms Map записывается, что 'elephant' во французском языке часто встречается как 'éléphant'.Synonyms Map и видит, что 'éléphant' является высокочастотным вариантом во французском языке. Запрос расширяется до (elephant OR éléphant). Наша страница высоко ранжируется.Synonyms Map. Хотя 'éléphant' существует и в английском (как заимствование), его относительная частота низка по сравнению с 'elephant'. Запрос, скорее всего, не будет расширен или расширение получит низкий вес. Наша французская страница не будет мешать английской выдаче.Как Google определяет язык документа для построения Synonyms Map?
Патент указывает на использование статистических теорий обучения, в частности, моделей классификации Naive Bayes. Эти модели вычисляют вероятность принадлежности документа к определенному классу (пара язык/кодировка) на основе текста и, опционально, URL документа (например, домена верхнего уровня). Система анализирует частотность слов в тексте и сравнивает ее с эталонными моделями языков, чтобы определить наиболее вероятный язык документа.
В чем разница между Common Form при индексировании и Simplified Query Term при обработке запроса?
Common Form создается во время индексирования с использованием языкозависимых правил (language-dependent mappings), так как язык документа известен. Simplified Query Term создается во время обработки запроса, часто с использованием языконезависимых правил, так как язык запроса еще точно не определен или может быть смешанным. В некоторых случаях правила для этих двух процессов могут отличаться, что позволяет системе связывать разные конвенции написания.
Насколько сильно язык интерфейса влияет на определение языка запроса?
Влияние значительно. Язык интерфейса используется как один из ключевых множителей при расчете итогового вектора вероятностей запроса (Query Probability Vector). Система рассчитывает вероятность того, что запрос написан на языке интерфейса (основываясь на исторических данных о поведении пользователей), и комбинирует ее с вероятностями, полученными из анализа самих терминов запроса.
Если я напишу контент без диакритических знаков, поможет ли это ранжироваться по запросам без них?
Нет, это плохая стратегия. Система предназначена для того, чтобы находить контент с правильной орфографией (с диакритикой), даже если пользователь ищет без нее. Google индексирует ваш контент и создает Synonyms Map, полагаясь на то, что контент написан правильно. Использование неканонической орфографии снижает качество контента и может ухудшить его обработку системой.
Как система решает, какие именно акценты добавить, если слово пишется по-разному в разных языках (например, в испанском и португальском)?
Это решается с помощью вероятностной модели. Система сначала определяет наиболее вероятный язык запроса (используя язык интерфейса и сами термины). Затем она проверяет Synonyms Map, чтобы увидеть, какой вариант написания (с какими акцентами) наиболее часто встречается в этом конкретном языке. Вариант с наибольшей взвешенной вероятностью будет использован для расширения запроса.
Что такое «малые языки» и как они обрабатываются?
«Малые языки» (Small Languages) — это языки, которые слабо представлены в общем корпусе документов (индексе). Для них система может ограничивать расширение запроса синонимами. Это делается для того, чтобы предотвратить ситуацию, когда результаты на более распространенном языке подавляют релевантные результаты на «малом языке» из-за автоматического добавления вариантов.
Учитывает ли система опечатки при создании Synonyms Map?
Система пытается фильтровать опечатки. В патенте описан механизм использования абсолютных порогов частотности (absolute threshold) на уровне языка. Если слово встречается очень редко в данном языке, оно, вероятно, является опечаткой и не включается в Synonyms Map как валидный вариант.
Как обрабатываются слова, которые выглядят одинаково, но имеют разное значение в разных языках (омографы)?
Патент предлагает использовать языкозависимые черные списки слов (blacklists). Если слово находится в черном списке для определенного языка, оно не может быть ассоциировано с этим языком в Synonyms Map. Например, если 'the' находится во французском черном списке, это предотвращает путаницу между английским 'the' (артикль) и французским 'thé' (чай).
Что такое сворачиваемые диграфы и как они влияют на SEO?
Сворачиваемые диграфы — это пары символов, заменяющие один символ с диакритикой (например, 'ae' вместо 'æ'). Система умеет распознавать их и сворачивать в Common Form. При расширении запроса система может применять штраф (penalty) к относительной частоте таких вариантов, чтобы снизить риск некорректной замены, если она не принята в данном языке. SEO-специалистам важно знать о таких конвенциях на целевых рынках.
Влияет ли этот патент на работу Hreflang?
Прямого влияния нет, но оба механизма работают на улучшение международного поиска. Hreflang помогает Google понять структуру мультиязычного сайта и показать правильный URL в выдаче. Этот патент помогает Google правильно интерпретировать сам запрос пользователя и определить, на каком языке он ищет. Корректное использование Hreflang помогает гарантировать, что после того, как Google определил язык запроса и расширил его, он покажет пользователю наиболее подходящую версию страницы.

Мультиязычность
Семантика и интент
Индексация

Мультиязычность
Семантика и интент

Мультиязычность
Поведенческие сигналы

Мультиязычность
Поведенческие сигналы

Мультиязычность

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Семантика и интент
Поведенческие сигналы
SERP

Антиспам
Ссылки
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Свежесть контента
Поведенческие сигналы
SERP

Поведенческие сигналы
Мультимедиа
SERP

Ссылки
SERP
EEAT и качество

Поведенческие сигналы
Персонализация
Семантика и интент
