Патент Google описывает систему создания многоязычной карты синонимов (Synonyms Map), которая учитывает частоту использования вариантов слова (например, с ударениями, лигатурами или транслитерацией) в разных языках. При обработке запроса система определяет вероятный язык пользователя и использует эту карту для добавления к запросу статистически релевантных вариантов написания, улучшая полноту поиска с учетом языковых конвенций.
Описание
Какую задачу решает
Патент решает проблему обработки запросов и контента, содержащих символы, которые сложно воспроизвести на стандартных устройствах ввода (например, диакритические знаки, лигатуры типа Æ, символы Кириллицы). Пользователи часто вводят упрощенные заменители (например, ‘AE’ вместо ‘Æ’ или ‘ue’ вместо ‘ü’). Проблема усугубляется тем, что правила таких замен зависят от языка (например, замена ‘ü’ на ‘ue’ принята в немецком, но не в турецком). Традиционные подходы, такие как удаление всех акцентов при индексировании, теряют информацию и игнорируют языковые различия, что ухудшает релевантность поиска.
Что запатентовано
Запатентована система для генерации и использования Synonyms Map (Карты синонимов), которая учитывает языковой контекст. Система анализирует корпус документов на разных языках для построения статистической модели использования вариантов написания (variants). Эта карта связывает упрощенные формы слов (common forms или keys) с их оригинальными вариантами, сохраняя данные о частоте использования каждого варианта в конкретном языке. При получении запроса система использует эту карту для его дополнения (augmenting) наиболее вероятными вариантами, исходя из предполагаемого языка запроса.
Как это работает
Система работает в два этапа: офлайн-генерация карты и онлайн-обработка запроса.
Офлайн: Анализируется обучающий корпус. Определяется язык каждого документа. Все слова приводятся к common form с использованием правил, специфичных для языка документа. Создается Synonyms Map, где ключи — это common forms, а значения — оригинальные варианты. Для каждого варианта рассчитывается его относительная частота (relative frequency) в каждом языке.
Онлайн: При получении запроса система определяет язык интерфейса и вероятный язык запроса. Запрос упрощается (simplified query term). Система ищет упрощенный запрос в Synonyms Map. Затем она оценивает применимость каждого найденного варианта, комбинируя вероятность языка запроса и относительную частоту варианта в этом языке. Наиболее вероятные варианты добавляются к исходному запросу.
Актуальность для SEO
Высокая. Точное понимание языка запроса и учет лингвистических нюансов, включая диакритические знаки и транслитерацию, остаются критически важными для качества поиска, особенно на международном уровне. Описанные механизмы формируют основу для интеллектуальной обработки многоязычных запросов и являются актуальными для современных систем Information Retrieval.
Важность для SEO
Влияние на SEO значительно (7/10), особенно для неанглоязычных рынков. Патент демонстрирует, что Google не просто игнорирует диакритические знаки, а использует сложную статистическую модель для их интерпретации. Это означает, что использование правильных акцентов и орфографии в контенте важно для соответствия ожидаемым вариантам, которые Google может добавить к запросу пользователя. Также это влияет на стратегии таргетинга на транслитерированные запросы.
Детальный разбор
Термины и определения
- Synonyms Map (Карта синонимов)
- Структура данных, которая связывает ключи (keys или common forms) с одним или несколькими вариантами (variants). В контексте патента «синонимы» означают варианты написания, а не семантически близкие слова.
- Common Form / Key (Общая форма / Ключ)
- Упрощенная, стандартизированная форма слова, полученная путем применения правил нормализации (например, удаление акцентов, разделение лигатур). Используется как ключ в Synonyms Map.
- Variant (Вариант)
- Оригинальное написание слова, найденное в корпусе документов (например, «éléphant»). Является значением в Synonyms Map.
- Character Conversion Maps (Карты преобразования символов)
- Наборы правил, определяющие, как входные символы заменяются выходными. Эти карты могут быть специфичными для языка (language-dependent mappings).
- Collapsible Digraphs (Сворачиваемые диграфы)
- Двухсимвольные комбинации, которые могут заменять один акцентированный символ (например, ‘ue’ вместо ‘ü’ в немецком).
- Relative Frequency (Относительная частота)
- Метрика, показывающая, насколько часто конкретный вариант встречается в определенном языке по сравнению со всеми другими вариантами для того же ключа в этом же языке.
- Interface Language (Язык интерфейса)
- Язык, на котором пользователь взаимодействует с поисковой системой (например, google.fr).
- Query Language (Язык запроса)
- Вероятный язык, на котором сформулирован поисковый запрос. Определяется на основе языка интерфейса и самого текста запроса.
- Training Corpus (Обучающий корпус)
- Коллекция документов, используемая для построения Synonyms Map и сбора языковой статистики.
Ключевые утверждения (Анализ Claims)
Важное примечание: Предоставленные Claims (1-12) описывают метод генерации Synonyms Map, а не сам процесс дополнения запроса, который подробно описан в основной части патента (Description и FIG. 3).
Claim 1, 5, 9 (Независимые пункты): Описывают метод генерации Synonyms Map.
- Система генерирует Synonyms Map из корпуса документов, где каждый документ ассоциирован с языком (document language).
- Карта связывает множество ключей с соответствующими вариантами.
- Ключи (keys) определены как слова в общей форме (common form word), символы которых не содержат диакритических знаков.
- Варианты (variants) — это слова, найденные в корпусе, которые содержат диакритические знаки и определяются с помощью карт преобразования символов (character conversion maps).
- Ключевая особенность: Synonyms Map ассоциирует каждый вариант ключа с (i) двумя или более языками документа и (ii) соответствующей оценкой (score) для каждого из этих языков.
- Оценка (score) указывает на относительную частоту (relative frequency) варианта в документах, связанных с этим языком, среди всех вариантов ключа для этого языка.
Инновацией является статистическая, многоязычная осведомленность о вариантах написания. Система не просто фиксирует связь между упрощенным словом и его акцентированной версией, но и количественно определяет, насколько эта версия распространена в разных языках. Например, система знает, что для ключа «elephant» вариант «éléphant» имеет высокую относительную частоту во французском языке и низкую (например, как ошибка) в английском. Эта количественная оценка критически важна для последующего принятия интеллектуальных решений о том, следует ли включать этот вариант при расширении запроса.
Где и как применяется
Изобретение затрагивает два ключевых этапа поисковой архитектуры: Индексирование (для офлайн-обработки) и Понимание запросов (для онлайн-обработки).
INDEXING – Индексирование и извлечение признаков (Офлайн-процесс)
На этом этапе происходит генерация Synonyms Map. Система использует данные, полученные на этапе CRAWLING, для анализа Training Corpus. Процессы включают:
- Определение языка документа (Language Detection).
- Нормализация текста: Применение language-dependent mappings для преобразования слов в common forms.
- Статистический анализ: Вычисление абсолютных и относительных частот вариантов в разрезе языков.
- Построение и сохранение Synonyms Map.
QUNDERSTANDING – Понимание Запросов (Онлайн-процесс)
Это основная область применения патента в реальном времени. Система обрабатывает входящий запрос:
- Определение контекста: Идентификация Interface Language.
- Классификация запроса: Определение вероятного Query Language.
- Нормализация запроса: Генерация simplified query terms (ключей).
- Расширение запроса (Query Expansion/Rewriting): Консультация с Synonyms Map, расчет вероятности применимости вариантов и дополнение запроса.
Входные данные (Офлайн):
- Training Corpus документов.
- Language-dependent mappings (Карты преобразования символов).
- Пороги частот (абсолютные и относительные).
Выходные данные (Офлайн):
- Synonyms Map с ключами, вариантами и статистикой относительных частот по языкам.
Входные данные (Онлайн):
- Поисковый запрос.
- Interface Language.
- Synonyms Map.
Выходные данные (Онлайн):
- Дополненный запрос (Augmented Query), содержащий исходные термины и выбранные варианты в виде дизъюнкции (OR).
На что влияет
- Языки с диакритическими знаками: Наибольшее влияние оказывается на языки, где использование акцентов является нормой (французский, испанский, немецкий, скандинавские языки и т.д.). Система помогает пользователям, которые опускают акценты при вводе запроса.
- Транслитерация: Влияет на языки, где используются разные системы письма (например, Кириллица и Латиница в Сербском, или Roman Indic). Система может связывать транслитерированные формы с оригинальными.
- Специфические запросы: Влияет на информационные и навигационные запросы, где точное написание (например, имен собственных, брендов) имеет значение.
Когда применяется
Офлайн-генерация: Выполняется периодически для обновления Synonyms Map на основе актуального корпуса документов.
Онлайн-дополнение: Применяется при обработке запроса, если выполняются следующие условия:
- Система смогла определить вероятный Query Language.
- Упрощенный термин запроса найден в Synonyms Map.
- Найденные варианты превышают порог вероятности (synonyms probability threshold), рассчитанный на основе языка запроса и относительной частоты варианта.
- Исключения: Патент упоминает, что если язык интерфейса является «малым» (плохо представлен в корпусе), система может предпочесть не добавлять варианты, чтобы избежать риска показа нерелевантных результатов на других языках, за исключением случаев, когда исходный термин не содержит акцентов и диграфов.
Пошаговый алгоритм
Процесс А: Генерация Synonyms Map (Офлайн)
- Сбор данных: Идентификация обучающего корпуса документов.
- Определение языка: Определение языка каждого документа в корпусе.
- Построение словаря: Создание словаря всех уникальных слов с записью частоты их встречаемости в разрезе языков.
- Нормализация (Mapping to Common Form): Преобразование каждого слова в общую форму (ключ). Критически важно: используются правила преобразования, специфичные для языка документа, в котором найдено слово.
- Создание карты: Формирование Synonyms Map. Ключ — общая форма, значения — исходные слова (варианты) с их языковой статистикой.
- Фильтрация по абсолютной частоте: Удаление языков из варианта, если частота встречаемости ниже порогового значения для этого языка (отсев опечаток).
- Фильтрация диграфов: Удаление вариантов с диграфами (напр. ‘ue’), если их акцентированный эквивалент (напр. ‘ü’) также не является вариантом для этого ключа в данном языке.
- Расчет относительной частоты: Для каждого варианта в каждом языке вычисление его частоты относительно всех других вариантов того же ключа в этом языке.
- Фильтрация по относительной частоте: Удаление языков из варианта, если относительная частота ниже заданного порога.
- Финальная очистка: Удаление вариантов, которые потеряли ассоциацию со всеми языками.
Процесс Б: Дополнение запроса (Онлайн)
- Получение запроса и контекста: Получение запроса и определение языка интерфейса.
- Определение языка запроса: Расчет вероятностей того, что запрос принадлежит к различным языкам, на основе языка интерфейса и терминов запроса.
- Упрощение запроса (Simplification): Преобразование каждого термина запроса в упрощенную форму (ключ). Могут использоваться правила, отличные от Процесса А.
- Поиск в карте: Поиск вариантов для каждого упрощенного термина в Synonyms Map.
- Оценка вариантов: Расчет оценки применимости для каждого варианта. Оценка вычисляется путем суммирования по всем языкам произведения [Вероятность языка запроса] * [Относительная частота варианта в этом языке].
- Выбор вариантов: Выбор вариантов, чья оценка превышает заданный порог (synonyms probability threshold).
- Дополнение запроса: Создание Augmented Query путем добавления выбранных вариантов как дизъюнкции к исходному термину (например, «(eléphant OR elephant OR éléphant)»).
- Выполнение поиска: Использование дополненного запроса для поиска по индексу.
Какие данные и как использует
Данные на входе
Патент фокусируется на лингвистических и статистических данных, извлеченных из корпуса.
- Контентные факторы: Текст документов в Training Corpus. Система анализирует орфографию слов.
- Структурные/Лингвистические факторы:
- Идентифицированный язык документа (Document Language).
- Character Conversion Maps (правила нормализации и упрощения для разных языков).
- Блеклисты символов (для фильтрации слов, нарушающих правила языка).
- Пользовательские факторы (При обработке запроса):
- Язык интерфейса пользователя (Interface Language).
- Текст поискового запроса.
Какие метрики используются и как они считаются
- Абсолютная частота (Frequency): Количество вхождений варианта в документах определенного языка. Используется для первичной фильтрации редких слов/опечаток.
- Относительная частота (Relative Frequency): Рассчитывается как (Частота Варианта V в Языке L) / (Суммарная частота всех вариантов для Ключа K в Языке L). Это ключевая метрика для понимания языковых конвенций.
- Вероятность языка запроса (Query Language Probability): Вектор вероятностей, указывающий, насколько вероятно, что запрос принадлежит к тому или иному языку. Рассчитывается на основе языка интерфейса и частоты терминов запроса в разных языках корпуса.
- Оценка применимости варианта (Variant Applicability Score): Рассчитывается для выбора синонимов при дополнении запроса. Формула: Сумма по всем языкам L (Вероятность языка запроса L * Относительная частота варианта в языке L).
- Пороги (Thresholds): Используются абсолютные пороги частоты (для фильтрации опечаток), относительные пороги частоты (для фильтрации нетипичных вариантов) и порог вероятности синонима (synonyms probability threshold) для финального выбора вариантов при дополнении запроса.
Выводы
- Языкозависимая нормализация: Google использует разные правила нормализации (например, удаление акцентов или обработка диграфов) в зависимости от языка контента. Это позволяет системе учитывать лингвистические особенности (например, различать обработку ‘ü’ в немецком и турецком).
- Статистический подход к вариантам написания: Система не просто ищет возможные варианты, а опирается на статистику их использования (Relative Frequency) в реальных документах корпуса. Это позволяет отличать общепринятые варианты написания от опечаток или редких использований.
- Вероятностное дополнение запроса: Добавление вариантов к запросу не является детерминированным. Оно зависит от сложной оценки, комбинирующей вероятность языка запроса и относительную частоту варианта. Система стремится добавить только те варианты, которые статистически релевантны для предполагаемого языка пользователя.
- Важность контекста (Interface Language): Язык интерфейса пользователя является сильным сигналом для определения ожидаемого языка запроса и, следовательно, для выбора подходящих вариантов дополнения.
- Разделение процессов Индексирования и Понимания Запросов: Synonyms Map генерируется офлайн (на этапе, аналогичном Индексированию), что позволяет быстро применять сложную логику в реальном времени (на этапе Понимания Запросов). Правила упрощения запроса могут отличаться от правил нормализации контента.
Практика
Best practices (это мы делаем)
- Использование правильной орфографии и диакритических знаков: Необходимо использовать корректное написание слов согласно нормам целевого языка (например, использовать ‘ü’ в немецком, ‘é’ во французском). Это гарантирует, что ваш контент будет соответствовать вариантам с высокой Relative Frequency в Synonyms Map, которые Google добавит к упрощенному запросу пользователя.
- Корректная разметка языка контента: Убедитесь, что язык страниц (HTML lang attribute) и hreflang указаны верно. Это помогает Google правильно классифицировать язык документа (Document Language), что критично для корректного применения language-dependent mappings и расчета статистики вариантов.
- Анализ семантики с учетом вариантов написания: При сборе семантического ядра для неанглоязычных сайтов учитывайте как упрощенные (без акцентов), так и орфографически корректные запросы. Понимайте, что Google может автоматически связывать их, но приоритет будет отдаваться статистически доминирующим формам в данном языке.
- Стратегия для транслитерации: Если вы работаете на рынках, где распространена транслитерация (например, Восточная Европа, Индия), создавайте контент, который соответствует доминирующей практике. Если пользователи ищут латиницей, но основной контент в нише на кириллице (или наоборот), система будет использовать Synonyms Map для связывания этих форм. Оптимизация под обе формы может быть избыточной, но важно соответствовать доминирующей форме в корпусе.
Worst practices (это делать не надо)
- Игнорирование диакритических знаков в контенте: Создание контента без правильных акцентов в языках, где они обязательны (например, испанский, французский). Хотя Google может найти такой контент по акцентированному запросу, он может быть расценен как менее качественный или менее соответствующий языковым нормам.
- Использование нестандартных замен (Неправильные диграфы): Использование ‘ue’ вместо ‘ü’ в турецком языке. Патент прямо указывает на использование language-dependent mappings, которые фильтруют такие несоответствия.
- Смешивание языков и орфографий на одной странице без четкой структуры: Это может затруднить определение основного языка документа и привести к некорректному расчету статистики Relative Frequency для слов на странице.
Стратегическое значение
Этот патент подчеркивает стремление Google к глубокому лингвистическому анализу как контента, так и запросов. Стратегически это означает, что качество контента тесно связано с его лингвистической корректностью. Для SEO-специалистов важно понимать, что нормализация и расширение запросов — это не простое удаление акцентов, а сложный статистический процесс, учитывающий конвенции конкретного языка. Долгосрочная стратегия должна включать создание контента носителями языка или экспертами, владеющими всеми нюансами орфографии и словоупотребления.
Практические примеры
Сценарий: Оптимизация для французского рынка (Запрос о слонах)
- Анализ корпуса (Google): Google определяет, что во французских документах для ключа «elephant» вариант «éléphant» имеет относительную частоту 90%, а «eléphant» (ошибка) — 5%.
- Действие пользователя: Пользователь с французским интерфейсом (google.fr) вводит запрос «elephant» (без акцентов).
- Обработка запроса (Google): Система определяет высокую вероятность французского языка запроса. Она ищет варианты для «elephant» в Synonyms Map.
- Расчет оценки: Вариант «éléphant» получает высокую оценку (высокая вероятность языка * высокая относительная частота). Вариант «eléphant» получает низкую оценку.
- Дополнение запроса: Google переписывает запрос как «(elephant OR éléphant)».
- Действие SEO: Убедиться, что в контенте используется только корректная форма «éléphant». Это обеспечит максимальное соответствие дополненному запросу. Использование формы «eléphant» не принесет пользы, так как она отфильтровывается системой.
Вопросы и ответы
Означает ли этот патент, что Google считает слова с акцентами и без них полными синонимами?
Не совсем. Google рассматривает их как варианты (variants) одного ключа (common form), но не считает их взаимозаменяемыми во всех случаях. Система использует статистическую модель (Relative Frequency) и вероятный язык запроса, чтобы решить, когда именно стоит добавить акцентированный вариант к неакцентированному запросу (и наоборот). Если вариант редко встречается в данном языке, он не будет добавлен.
Как Google определяет, какой вариант написания является предпочтительным в конкретном языке?
Система анализирует большой корпус документов (Training Corpus) и рассчитывает относительную частоту (Relative Frequency) каждого варианта в рамках определенного языка. Вариант с наибольшей относительной частотой считается доминирующим или предпочтительным в этом языке (например, «éléphant» во французском).
Как система обрабатывает слова, которые выглядят одинаково, но имеют разное значение в разных языках (омографы)?
Патент упоминает использование специфичных для языка черных списков слов (blacklists of words). Если слово находится в черном списке для определенного языка, оно не может быть ассоциировано с этим языком в Synonyms Map. Например, английское «the» может быть добавлено в черный список для французского языка, чтобы избежать путаницы с французским «thé» (чай).
Влияет ли язык интерфейса пользователя (например, google.de или google.fr) на то, какие синонимы будут добавлены?
Да, очень сильно. Язык интерфейса (Interface Language) является одним из ключевых факторов для определения вероятного языка запроса (Query Language). Это, в свою очередь, напрямую влияет на расчет оценки применимости вариантов, определяя, какие из них будут добавлены к запросу.
Нужно ли оптимизировать страницу под варианты с опечатками или неправильными акцентами?
Нет. Патент описывает механизмы фильтрации (по абсолютной и относительной частоте), предназначенные для исключения вариантов, которые статистически редки в корпусе. Эти редкие варианты с большой вероятностью являются опечатками или ошибками, и Google не будет использовать их для дополнения запросов.
Как обрабатываются диграфы, например, ‘ue’ вместо ‘ü’ в немецком?
Система распознает их как Collapsible Digraphs. При генерации карты применяются специальные правила: вариант с диграфом (например, «ueber») сохраняется, только если его акцентированный эквивалент («über») также присутствует в корпусе для этого языка. При дополнении запроса относительная частота варианта с диграфом может быть пессимизирована (уменьшена), чтобы снизить риск неправильного дополнения.
Применяются ли одинаковые правила нормализации при индексировании контента и при обработке запроса?
Не обязательно. Патент указывает, что коллекция языкозависимых правил (language-dependent mappings) для генерации ключей из корпуса может отличаться от коллекции правил, используемых для генерации упрощенных терминов из запроса. Это дает системе гибкость в интерпретации контента и запросов.
Как этот патент влияет на SEO для сайтов на языках, использующих нелатинский алфавит (например, русский, греческий)?
Механизмы патента применимы и к ним. Они используются для обработки диакритических знаков в этих языках (например, ударений в греческом) и, что более важно, для обработки транслитерации. Система может связывать запросы, введенные латиницей, с вариантами на оригинальном алфавите (и наоборот), основываясь на статистике корпуса и языковых правилах.
Что произойдет, если мой сайт использует неправильную кодировку или не указывает язык контента?
Это может привести к проблемам. Система полагается на определение языка документа (Document Language) для применения корректных правил нормализации и расчета статистики. Неверное определение языка приведет к тому, что слова на вашем сайте будут обработаны по правилам другого языка, что исказит данные в Synonyms Map и может ухудшить ранжирование.
Стоит ли создавать отдельные страницы под варианты написания с акцентами и без?
Нет, это нецелесообразно. Цель описанной системы — автоматически связать эти варианты на этапе обработки запроса. Лучшая стратегия — использовать орфографически корректную форму (с акцентами) в контенте и позволить Google обработать запросы пользователей, которые опускают акценты, с помощью механизмов, описанных в патенте.