
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
Патент решает проблему дефицита качественного и релевантного контента в интернете для определенных языков. Пользователи, ищущие информацию на языке с ограниченным корпусом веб-документов, могут не найти нужные данные, даже если они в изобилии присутствуют на другом, более распространенном языке (например, английском). Система призвана предоставить доступ к лучшей информации, не требуя от пользователя знания иностранного языка.
Запатентована система кросс-языкового поиска (Cross-Language Search System), которая оценивает целесообразность перевода исходного запроса на другой язык для улучшения результатов поиска. Система использует многоступенчатый процесс оценки (Query Evaluation Module), включающий анализ локальных/иностранных сущностей, проверку качества перевода и сравнение оценок релевантности (Relevance Scores) между разными языковыми корпусами. Если результаты по переведенному запросу лучше, они предоставляются пользователю.
Система работает следующим образом:
Translation Confidence).Local Entities (что может заблокировать кросс-поиск) и Foreign Entities (что может его активировать).Relevance Scores результатов на Языке 1 и Языке 2. Также проверяется минимальный порог релевантности для Языка 2.Aggregate Results).Высокая. Хотя патент датирован 2009 годом и технологии перевода и оценки релевантности значительно эволюционировали (например, с помощью нейронных сетей и моделей типа MUM), описанные фундаментальные принципы кросс-языкового поиска (CLIR) остаются актуальными. Логика фильтрации запросов по сущностям и сравнение качества выдачи между языками по-прежнему лежат в основе глобального поиска Google.
Патент имеет значительное влияние на международное SEO (7.5/10). Он описывает механизм, который определяет, будет ли Google предпочитать локальный контент или заменять его более релевантным иностранным контентом. Это напрямую влияет на стратегию локализации: для глобальных тем критически важно иметь авторитетный контент на основном языке (часто английском), а для локальных тем — качественный контент на местном языке для защиты позиций.
IR scores (Information Retrieval scores), PageRank и поведенческие сигналы. Патент предполагает, что эти оценки сопоставимы (commensurable) между разными языковыми корпусами.Relevance Score, необходимый для того, чтобы результаты переведенного запроса рассматривались для показа.Translator), указывающая на вероятность корректности автоматического перевода запроса.Claim 1 (Независимый пункт): Описывает основной процесс сравнения релевантности.
Ядро изобретения — это возможность сравнивать метрики релевантности, полученные из разных языковых корпусов, и принимать решение о формировании выдачи.
Claim 16 (Независимый пункт): Описывает стратегию смешивания (Blending) результатов.
ordinal list).Этот пункт защищает метод формирования смешанной выдачи, где результаты из разных языков ранжируются вместе.
Claim 21 (Независимый пункт): Описывает стратегию выбора лучшего результата.
Этот пункт описывает бинарный выбор между лучшим результатом на исходном языке и лучшим результатом на иностранном языке.
Claim 42 (Независимый пункт): Описывает комбинацию предварительной оценки и сравнения.
candidate) на кросс-языковой поиск.Этот пункт интегрирует предварительную фильтрацию (которая может включать проверку сущностей, качества перевода и т.д.) с механизмом сравнения релевантности.
Изобретение задействовано на нескольких этапах поисковой архитектуры.
QUNDERSTANDING – Понимание Запросов
На этом этапе происходит основная работа по анализу запроса:
Translation Confidence Score.Local Entities и Foreign Entities.Query Evaluation Module для определения кандидатуры на кросс-языковой поиск.RANKING – Ранжирование
Если запрос признан кандидатом, система инициирует параллельное ранжирование: один процесс для исходного запроса в индексе L1, второй — для переведенного запроса в индексе L2. На выходе получаются два набора результатов с их Relevance Scores (S1 и S2).
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На этом этапе происходит сравнение S1 и S2 (Cross-Corpus Relevance Comparison). Система принимает решение о формировании финальной выдачи: использовать только R1, только R2 или смешивать их. Если используются результаты R2, они могут быть переведены на L1 для отображения пользователю.
Входные данные:
Translation Confidence Score).Выходные данные:
Алгоритм применяется выборочно при выполнении условий, оцениваемых Query Evaluation Module:
Local Entities. Если они есть, предполагается, что локальные результаты будут лучше.Foreign Entities является сильным сигналом для активации кросс-языкового поиска.Translation Confidence Score должен превышать порог.Relevance Scores (S2) результатов переведенного запроса должны превышать минимальный порог (Threshold Relevancy).Детальный процесс работы системы (на основе FIG. 2 и описания):
Local Entities. Foreign Entities. Translation Confidence Score.Local Entities и Foreign Entities. Источниками могут быть энциклопедии, location servers. Из списков удаляются общие термины (generic words).query frequency) запроса или сущности. Сущности, которые редко запрашиваются, могут быть исключены из баз данных.dwell time/время пребывания) по результатам предыдущих запросов как индикаторов удовлетворенности и релевантности.Translation Confidence Score: Метрика качества перевода запроса. Сравнивается с пороговым значением (Confidence Threshold).Relevance Scores (S1 и S2): Основные метрики ранжирования (IR-оценки, PageRank). Используются для сравнения с порогом (Threshold Relevancy) и для сравнения между корпусами.Relevance Scores для набора результатов. Используется для сравнения общего качества выдачи между двумя языками (Claim 3).Relevance Score иностранных результатов, чтобы учесть сложность чтения переведенного контента.Local Entities и Foreign Entities является критически важным механизмом для определения географического и языкового интента. Локальные сущности часто блокируют кросс-поиск, а иностранные — активируют его.Translation Confidence) и минимальная абсолютная релевантность результатов (Threshold Relevancy).Relevance Scores между документами в разных языковых индексах (Cross-Corpus Relevance).bias) или дисконт к релевантности переведенных результатов из-за потенциальных проблем с читаемостью, отдавая предпочтение родному языку при незначительной разнице в релевантности.Local Entities, необходимо создавать максимально авторитетный контент на местном языке. Это гарантирует, что Google распознает локальный интент и не будет пытаться заменить ваш контент иностранными источниками.Translation Confidence и улучшает читаемость контента после автоматического перевода, снижая потенциальный «штраф за читаемость» (readability bias).Local/Foreign Entity.Relevance Score выше.Патент подчеркивает, что конкуренция в SEO становится глобальной, независимо от языка сайта. Границы между языковыми индексами проницаемы. Для SEO-специалистов это означает необходимость кросс-языкового анализа конкуренции. Стратегия должна быть двунаправленной: защищать локальный интент качественной локализацией и атаковать глобальный интент авторитетным контентом на основном языке.
Сценарий 1: Активация кросс-поиска (Глобальная тема)
Foreign Entity (глобальная технология). Translation Confidence высокий.Relevance Scores, чем индонезийская.Сценарий 2: Блокировка кросс-поиска (Локальная тема)
Local Entity для русского языка.Query Evaluation Module блокирует кросс-языковой поиск, согласно логике фильтрации.Что такое Local Entity и Foreign Entity и почему они важны в этом патенте?
Local Entity — это сущность, тесно связанная с языком запроса (например, «Кремль» для русского). Если она обнаружена, кросс-языковой поиск часто блокируется, так как лучший контент ожидается на родном языке. Foreign Entity — сущность, связанная с другим языком (например, «Белый Дом» для русского). Ее обнаружение стимулирует кросс-языковой поиск, так как предполагается, что на языке оригинала информации больше и она качественнее.
Как Google сравнивает релевантность между результатами на разных языках?
Патент предполагает, что оценки релевантности (Relevance Scores) из разных языковых корпусов сопоставимы (commensurable). Система может сравнивать агрегированные оценки релевантности для двух наборов или сравнивать оценки топовых документов. Это позволяет напрямую сравнивать, например, релевантность английской страницы английскому запросу с релевантностью французской страницы французскому запросу.
Учитывает ли система плохое качество машинного перевода страниц при ранжировании?
Да. В патенте упоминается, что система может применять дисконт (уменьшение) к Relevance Scores переведенных результатов, чтобы учесть потенциальные трудности чтения автоматически переведенного контента. Это создает смещение (bias) в пользу родного языка, если разница в релевантности невелика.
Что произойдет, если автоматический перевод запроса будет неточным?
Патент предусматривает механизм защиты — Translation Confidence Score. Если система перевода не уверена в качестве перевода запроса (оценка ниже порога), кросс-языковой поиск не активируется. Это предотвращает выдачу нерелевантных результатов из-за ошибок машинного перевода запроса.
Может ли Google смешивать результаты на разных языках в одной выдаче?
Да. Патент описывает стратегию агрегации (Aggregated Results или Blending, Claim 16). В этом случае результаты из обоих языковых корпусов объединяются в единый список (ordinal list) и сортируются по их сопоставимым Relevance Scores, независимо от языка оригинала.
Что такое оптимизация под машинный перевод (MTO) и как ее применять?
MTO (Machine Translation Optimization) — это практика написания контента так, чтобы он корректно переводился автоматическими системами. Это включает использование ясных формулировок, стандартной грамматики, избегание идиом, сленга и двусмысленностей. Это повышает шансы вашего контента быть показанным в кросс-языковом поиске и снижает потенциальный «штраф за читаемость».
Использует ли система поведенческие факторы?
Да, в патенте упоминается использование поведенческих данных. Система анализирует статистику запросов (Query Frequency) для оценки популярности темы или сущности. Также упоминается анализ кликов (Click Analysis) и времени пребывания (dwell time) для оценки удовлетворенности пользователей результатами и корректировки Relevance Scores.
Стоит ли мне переводить свой сайт на множество языков или положиться на этот механизм Google?
Полагаться только на этот механизм не стоит. Он служит для заполнения пробелов в контенте, а не как замена полноценной локализации. Профессиональная локализация всегда предпочтительнее для выхода на новый рынок. Высококачественный локальный контент будет иметь приоритет при условии сопоставимой релевантности.
Как я могу помешать Google показывать иностранные сайты вместо моего локализованного сайта?
Если тема локальная, убедитесь, что Google распознает ее как Local Entity. Если тема глобальная, единственный способ — это гарантировать, что Relevance Score вашего локального контента выше, чем у иностранных конкурентов. Это требует создания авторитетного и качественного контента на местном языке.
Откуда Google берет списки Local и Foreign Entities?
Согласно патенту, эти списки могут быть получены из энциклопедий (например, Википедия), серверов местоположений (location servers), публичных документов или предоставлены третьими сторонами. Эти данные фильтруются: удаляются общие термины и сущности с низкой частотой запросов.

Мультиязычность
Индексация

Мультиязычность
Поведенческие сигналы
Персонализация

Мультиязычность
Персонализация
Семантика и интент

Мультиязычность

Мультиязычность
Персонализация
SERP

Персонализация
Поведенческие сигналы
SERP

Мультиязычность
Поведенческие сигналы
Персонализация

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Мультиязычность
Персонализация

Семантика и интент
Индексация
Структура сайта

SERP
Поведенческие сигналы
EEAT и качество

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
Ссылки
SERP
