
Google использует механизмы Cross-Language Information Retrieval (CLIR) для поиска релевантного контента независимо от языка запроса. Система может перевести запрос пользователя на другие языки и искать в индексах этих языков (Query Translation), либо заранее перевести контент сайтов на язык пользователя (Document Translation). Это позволяет предоставлять пользователю лучшие результаты, даже если они изначально опубликованы на иностранном языке.
Патент решает проблему ограничения поиска контентом, написанным только на языке пользователя. Это создает барьер для доступа к информации, которая может существовать только на других языках. Цель изобретения — расширить объем доступного для поиска контента (volume of searched content), включив в него мультиязычные корпуса документов, и тем самым повысить полноту и качество поисковой выдачи.
Запатентована система (Expanded Language Search Engine, ELSE) и методы для осуществления кросс-языкового информационного поиска (Cross-Language Information Retrieval, CLIR). Изобретение описывает два основных архитектурных подхода: (1) Перевод запроса (Query Translation) — перевод исходного запроса на иностранные языки для поиска в соответствующих индексах; и (2) Перевод документа (Document Translation) — предварительный перевод иностранного контента на язык пользователя для поиска по унифицированному индексу.
Система реализует два ключевых механизма:
Система может определять языки для перевода на основе настроек пользователя, популярности языка или анализа содержания самого запроса.
Высокая. Кросс-языковой поиск является фундаментальной функцией глобальных поисковых систем. Хотя конкретные технологии машинного перевода значительно эволюционировали с момента подачи патента (например, переход на нейронный машинный перевод, NMT), описанные базовые стратегии (Query Translation и Document Translation) остаются центральными в архитектуре обработки мультиязычного контента Google.
Патент имеет высокое значение (8/10) для SEO, особенно для международного продвижения. Он описывает механизмы, которые позволяют контенту ранжироваться по запросам на языках, отличных от языка оригинала. Это означает, что высококачественный и авторитетный контент может преодолевать языковые барьеры. Понимание этих механизмов критически важно для планирования глобального охвата и оптимизации контента под машинный перевод.
Патент содержит две основные группы независимых пунктов, описывающих два разных метода реализации CLIR.
Группа 1: Перевод запроса (Query Translation)
Claim 1 (Независимый пункт): Описывает основной метод перевода запроса.
based on the content included in the search query).translated search query).Claim 3 (Зависимый от 1): Уточняет, что перевод может осуществляться через промежуточный язык (intermediate spoken language).
Группа 2: Перевод контента (Document Translation)
Claim 28 (Независимый пункт): Описывает метод перевода контента.
translated content). (Этот шаг может выполняться заранее).Claim 39 (Зависимый от 28): Уточняет, что первый язык (L1) может быть определен на основе типа символов (character type), используемых в запросе.
Изобретение затрагивает несколько этапов поиска, в зависимости от выбранного механизма.
INDEXING – Индексирование и извлечение признаков
Crawler собирает мультиязычный контент. Система идентифицирует язык контента (используя домен, набор символов, словарь).Translator может переводить контент с иностранных языков (L2) на целевые языки (L1) и сохранять переведенные версии в Index DB.QUNDERSTANDING – Понимание Запросов
Translator выполняет перевод запроса в реальном времени.RANKING – Ранжирование
Matcher сравнивает переведенный запрос (L2) с индексом контента на L2.Matcher сравнивает исходный запрос (L1) с индексом, который содержит переведенный контент (L2->L1).METASEARCH / RERANKING – Метапоиск и Переранжирование
Алгоритм А: Перевод запроса (Query Translation)
Intermediate language).Алгоритм Б: Перевод контента (Document Translation)
Офлайн-процесс (Индексирование):
Index DB.Онлайн-процесс (Обработка запроса):
Index DB, включающим переведенный контент (L2->L1).vocabulary) контента используется для определения языка. Содержание запроса используется для определения целевых языков перевода (Claim 1).domain name, например, .cn) и набор символов (character set) используются для идентификации языка контента. Тип символов в запросе также может использоваться для определения языка запроса (Claim 39).browser's language settings), домен поисковой системы (например, google.fr), пользовательский ввод (user input), история поиска (search history) и профиль пользователя могут использоваться для определения родного языка и выбора языков для перевода.Патент не детализирует конкретные метрики ранжирования, но упоминает ключевые методы обработки:
Translator. Упоминается возможность как буквального (literal translation), так и контекстуального (contextual translation) перевода слов и фраз.order of relevance) исходному запросу (Claim 9). Патент также ссылается на стандартные методы ранжирования, такие как PageRank (упоминая US Pat. No. 6,285,999).Query Translation (перевод запроса под индекс) и Document Translation (перевод индекса под запрос). Это дает Google гибкость в реализации в зависимости от языковой пары и доступных ресурсов.Document Translation, так и при обратном переводе результатов), что улучшает шансы на ранжирование в CLIR-сценариях.lang в HTML), чтобы помочь системе корректно обработать контент.Патент подтверждает глобальный характер поиска. Языковые границы стираются. Для SEO-стратегии это означает, что рынок не ограничивается одним языком, и конкуренция происходит на глобальном уровне. Долгосрочная стратегия должна включать создание контента, который обладает глобальной ценностью и оптимизирован для корректной интерпретации системами машинного перевода. Качество и ясность оригинала становятся факторами ранжирования в многоязычной среде.
Сценарий 1: Поиск узкоспециализированной информации (Query Translation)
Сценарий 2: Глобальный охват авторитетного контента (Document Translation)
Какие два основных метода кросс-языкового поиска (CLIR) описаны в патенте?
В патенте описаны два ключевых метода. Первый — Query Translation (Перевод запроса): запрос пользователя переводится на иностранные языки, и поиск ведется в индексах этих языков. Второй — Document Translation (Перевод документа): контент сайтов заранее переводится на разные языки, и поиск ведется по унифицированному или переведенному индексу на языке пользователя.
Означает ли этот патент, что мне не нужно переводить свой сайт вручную?
Не совсем. Хотя Google может автоматически переводить ваш контент или запросы пользователей для обеспечения видимости, качество автоматического перевода варьируется. Профессиональная локализация почти всегда обеспечивает лучший пользовательский опыт, более точную передачу смысла и лучшие конверсии. Механизмы CLIR скорее обеспечивают базовую видимость там, где локализация отсутствует или нерентабельна.
Как оптимизировать контент для машинного перевода Google (MTO)?
Используйте ясный, грамматически правильный и структурированный язык. Избегайте сложных конструкций, двусмысленностей, сленга и идиом. Сосредоточьтесь на четком изложении фактов и сущностей. Чем проще и понятнее текст для человека, тем точнее будет машинный перевод, что повысит шансы на корректное сопоставление в рамках CLIR.
Как Google решает, на какие языки переводить запрос?
Согласно патенту (Claim 1), система может определять целевой язык для перевода на основе содержания самого поискового запроса (based on the content included in the search query). Это означает, что система анализирует тематику, сущности или интент запроса, чтобы определить, в каких языковых корпусах может находиться лучшая информация. Также могут использоваться настройки пользователя и история поиска.
Что такое промежуточный язык (Intermediate Language) и как он используется?
Промежуточный язык — это язык-посредник в процессе перевода (Claim 3), часто английский. Вместо прямого перевода с Языка А на Язык Б, система переводит А на Английский, а затем с Английского на Б. Это может использоваться для упрощения архитектуры перевода или когда модель прямого перевода между А и Б отсутствует или имеет низкое качество.
Влияет ли этот патент на работу с hreflang?
Патент напрямую не упоминает hreflang. Hreflang помогает Google показать пользователю предпочитаемую локализованную версию сайта. Механизмы CLIR, описанные в патенте, скорее являются дополнением или запасным вариантом, который позволяет найти контент, когда предпочитаемая языковая версия отсутствует, нерелевантна или hreflang не настроен.
Может ли мой англоязычный сайт ранжироваться в Google.de по немецким запросам?
Да, это возможно благодаря описанным механизмам. Если Google определит, что ваш англоязычный контент является высокорелевантным ответу на немецкий запрос (после применения Query Translation или Document Translation), он может показать ваш сайт в выдаче Google.de. При этом заголовок и сниппет будут автоматически переведены на немецкий язык.
Актуален ли этот патент, учитывая развитие нейронного машинного перевода (NMT)?
Да, стратегии, описанные в патенте (Query Translation и Document Translation), абсолютно актуальны и лежат в основе современного кросс-языкового поиска. Развитие NMT значительно повысило качество и эффективность этих методов, сделав их еще более важными в архитектуре Google.
Как система идентифицирует язык документа или запроса?
Патент упоминает несколько сигналов для идентификации языка контента: доменное имя (например, .de), набор используемых символов (character set) и словарь (vocabulary) текста. Для запросов также может использоваться тип символов, языковые настройки браузера пользователя или домен поисковой системы.
Применяется ли этот механизм к поиску по картинкам или видео?
Хотя патент фокусируется на тексте, в описании упоминается, что система и методы могут быть использованы для поиска других форм контента (аудио, видео) на основе их переводов в текст или контент того же типа на другом языке. Это означает, что метаданные и текстовое сопровождение медиафайлов также участвуют в кросс-языковом поиске.

Мультиязычность
Семантика и интент

Мультиязычность
Семантика и интент
SERP

Мультиязычность
Персонализация
Семантика и интент

Мультиязычность

Мультиязычность
Поведенческие сигналы
Персонализация

Local SEO
Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Персонализация

Мультиязычность
Семантика и интент
Ссылки

Поведенческие сигналы
Ссылки

Ссылки
EEAT и качество
Антиспам

Поведенческие сигналы
Персонализация
EEAT и качество

Ссылки
Антиспам
Краулинг

Персонализация
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы
Персонализация

Персонализация
Поведенческие сигналы
Семантика и интент
