Как Google автоматически определяет, на каких языках искать ответ на запрос пользователя (CLIR)

Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.

Описание

Какую задачу решает

Патент решает проблему доступа к релевантной информации, существующей на языках, отличных от языка запроса пользователя (Cross-Language Information Retrieval — CLIR). Основная задача — автоматизировать выбор целевых языков для поиска. Вместо того чтобы требовать от пользователя указать, на каких языках искать, система сама определяет наиболее релевантные языки для конкретного запроса, улучшая полноту и качество поисковой выдачи за счет доступа к глобальной базе знаний.

Что запатентовано

Запатентована система автоматического выбора релевантных целевых языков (Target Languages) для поискового запроса. Ядром изобретения является механизм оценки связи запроса с различными языками. Это достигается путем идентификации терминов, связанных с запросом (Related Terms), и использования заранее рассчитанной таблицы, которая сопоставляет эти термины с оценками их языковой принадлежности (Language Scores). Если совокупная оценка для языка превышает порог, этот язык выбирается для поиска.

Как это работает

Система работает в два этапа: офлайн-подготовка и онлайн-обработка.

Офлайн: Система анализирует структурированную коллекцию документов (например, Википедию), извлекает сущности и классифицирует документы по языкам на основе иерархии категорий. На основе этого создается Term-Language Score Table, связывающая термины и сущности с конкретными языками.
Онлайн: При получении запроса система идентифицирует Related Terms (термины, часто встречающиеся вместе с запросом). Для каждого связанного термина извлекаются Language Scores из таблицы. Оценки суммируются по языкам. Языки, чьи оценки превышают порог, выбираются как целевые. Запрос переводится на эти языки, выполняется поиск, результаты переводятся обратно на язык пользователя и подмешиваются в выдачу.

Актуальность для SEO

Высокая. Кросс-языковой поиск и понимание сущностей в глобальном контексте являются ключевыми направлениями развития Google. Механизмы, позволяющие автоматически расширять поиск за пределы одного языка, особенно для запросов о сущностях с сильной региональной или языковой привязкой (например, локальные новости, туризм), активно используются для улучшения полноты выдачи. Этот патент описывает фундаментальный подход к автоматизации CLIR.

Важность для SEO

Патент имеет высокое значение (7.5/10) для международного SEO и стратегий, ориентированных на сущности (Entity-Based SEO). Он описывает механизм, с помощью которого Google определяет языковую и культурную релевантность запроса. Понимание этого механизма позволяет оптимизировать контент так, чтобы он корректно ассоциировался с нужными языками в Term-Language Score Table, увеличивая вероятность его появления в кросс-языковой выдаче для пользователей в других регионах.

Детальный разбор

Термины и определения

Cross-Language Information Retrieval (CLIR) System (Система кросс-языкового информационного поиска): Система, которая принимает запрос на одном языке и извлекает релевантные документы на других языках.
Entity (Сущность): Термин, извлеченный из структурированной коллекции документов, часто являющийся именем собственным (человек, место, объект). Извлечение может основываться на капитализации или ссылках внутри коллекции.
Language Score (Оценка языковой принадлежности): Числовая метрика, указывающая, насколько сильно термин связан с определенным языком. Рассчитывается на основе анализа иерархии категорий в структурированной коллекции.
Related Terms (Связанные термины): Термины, которые часто встречаются совместно (co-occur) с терминами входного запроса. Используются для определения контекста и потенциальной языковой релевантности запроса.
Source Language (Исходный язык): Язык, на котором пользователь ввел запрос.
Structured Collection of Documents (Структурированная коллекция документов): База знаний с иерархической структурой категорий (например, Википедия), используемая для генерации Term-Language Score Table.
Target Language (Целевой язык): Язык, автоматически выбранный системой для выполнения поиска, отличный от исходного языка.
Term-Language Score Table (Таблица оценок языковой принадлежности терминов): Заранее рассчитанная база данных, которая сопоставляет термины (сущности и запросы) с их Language Scores для различных языков.
Translation System (Система перевода): Компонент, отвечающий за перевод исходного запроса на целевые языки и перевод найденных результатов обратно на исходный язык.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод кросс-языкового поиска с автоматическим выбором языка.

Система получает запрос на исходном языке.
Система автоматически определяет один или несколько целевых языков (Target Languages), релевантных запросу, используя Language Scores. Процесс определения включает:
1. Идентификацию Related Terms (терминов, связанных с запросом).
2. Определение Language Score для каждого связанного термина по отношению к множеству языков.
3. Комбинирование (суммирование) Language Scores для каждого языка.
4. Выбор целевых языков (отличных от исходного), чья комбинированная оценка превышает пороговое значение (threshold score).
Запрос переводится на выбранные целевые языки.
Выполняется поиск результатов по переведенным запросам.
Система предоставляет один или несколько найденных результатов.

Claim 3 (Зависимый от 1): Уточняет, что предоставление результатов включает их перевод на исходный язык запроса.

Claim 4 (Зависимый от 3): Описывает функцию пользовательского интерфейса. Система может предоставить результат поиска на оригинальном (целевом) языке для отображения под соответствующим переведенным результатом. Эта функция активируется пользователем независимо для каждого результата.

Claim 5 (Зависимый от 1): Уточняет, что определение Language Score для связанного термина включает поиск этого термина в таблице (Term-Language Score Table), которая содержит заранее рассчитанные оценки.

Claim 6 (Зависимый от 1): Определяет Related Terms как термины, которые с высокой вероятностью встречаются совместно (co-occur) с терминами запроса.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя предварительно обработанные данные для улучшения понимания запроса и смешивания результатов.

INDEXING – Индексирование / Анализ данных (Офлайн)
Основная часть работы по подготовке данных происходит офлайн. Система анализирует Structured Collection of Documents (например, Википедию) и логи запросов для создания Term-Language Score Table. Это включает извлечение сущностей (Entity Extraction) и классификацию контента по языкам на основе иерархии.

QUNDERSTANDING – Понимание Запросов (Онлайн)
Это основной этап применения патента в реальном времени. При получении запроса система анализирует его языковой контекст.

Расширение запроса: Идентифицируются Related Terms.
Определение языка: Используется Term-Language Score Table для расчета совокупных Language Scores для запроса.
Выбор целевых языков: Определяются языки, для которых оценка превышает порог.
Перевод запроса: Запрос переводится на целевые языки с помощью Translation System.

RANKING – Ранжирование (Параллельное)
Поисковая система выполняет параллельные поиски по соответствующим языковым индексам, используя переведенные запросы.

METASEARCH – Метапоиск и Смешивание
Результаты из разных языковых индексов агрегируются. Они переводятся обратно на Source Language и смешиваются (interleaved) в единый ранжированный список для представления пользователю.

Входные данные:

Исходный запрос пользователя (Source Language Query).
Term-Language Score Table (предварительно рассчитанная).
Данные о частоте совместной встречаемости терминов (для идентификации Related Terms).

Выходные данные:

Список целевых языков (Target Languages) и переведенные запросы.
Объединенный список результатов поиска, переведенных на исходный язык.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, касающиеся сущностей (имена собственные, бренды, географические названия), которые имеют сильную привязку к определенному языку или культуре, отличной от языка пользователя. Например, запрос о местном бизнесе в другой стране («bicycle rental brussels» — пример из патента) или о культурном явлении.
Конкретные ниши или тематики: Влияет на тематики, где знание не распределено равномерно по языкам (например, локальный туризм, история, специфические области науки, поп-культура).

Когда применяется

Триггеры активации: Алгоритм активируется, когда система обнаруживает, что запрос имеет значительную релевантность в других языках. Это происходит, когда комбинированный Language Score для целевого языка превышает заданный порог (threshold score).
Условия применения: Применяется, когда Related Terms запроса имеют сильные и недвусмысленные сигналы языковой принадлежности в Term-Language Score Table. Если термин слишком общий (например, «cooking»), он может иметь нейтральные или низкие оценки после нормализации и не вызовет активацию CLIR.

Пошаговый алгоритм

Процесс А: Онлайн-обработка запроса (CLIR)

Получение запроса: Система получает запрос на исходном языке.
Идентификация связанных терминов: Определяются Related Terms, которые часто встречаются вместе с запросом (возможно, после расширения синонимами).
Извлечение Language Scores: Для каждого связанного термина извлекаются Language Scores из Term-Language Score Table.
Комбинирование оценок: Language Scores суммируются для каждого языка. Применяется нормализация для устранения слишком общих терминов. Оценки могут быть повышены (boosted), если запрос связан с конкретной локацией.
Выбор языков: Комбинированные оценки сравниваются с порогом. Языки, превысившие порог, выбираются как Target Languages.
Перевод запроса: Исходный запрос переводится на целевые языки.
Параллельный поиск: Выполняется поиск по соответствующим индексам с использованием переведенных запросов.
Перевод результатов: Найденные результаты (заголовки и сниппеты) переводятся обратно на исходный язык.
Смешивание и предоставление: Результаты объединяются в единый ранжированный список.
Обработка уточнений: Пользователь может вручную добавить/удалить языки, отредактировать переведенный запрос или просмотреть оригинальный текст результата.

Процесс Б: Офлайн-генерация Term-Language Score Table

Выбор источника данных: Идентифицируется иерархически структурированная коллекция документов (например, Википедия).
Извлечение сущностей: Из документов извлекаются сущности (например, по капитализации или ссылкам).
Классификация по языкам: Документы классифицируются по языкам путем распространения Language Scores через иерархию категорий (например, Категория:Япония -> Японская культура -> Суши). Применяется функция затухания (decay function) при удалении от базовой категории (например, страны).
Ассоциация сущностей и языков: Сущностям присваиваются Language Scores на основе оценок документов, в которых они найдены.
Перевод сущностей: Извлеченные сущности и заголовки документов переводятся на поддерживаемые языки.
Анализ логов запросов (Опционально): Извлекаются запросы из логов, которые приводили к кликам на эти документы.
Объединение данных: Информация о сущностях, переводах и запросах объединяется для создания расширенной Term-Language Score Table.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных о языке и контексте запроса, а также предварительно обработанных структурированных данных.

Структурные факторы (Офлайн): Иерархия категорий из Structured Collection of Documents (например, Википедии). Ссылки внутри этой коллекции используются для идентификации сущностей. Это ключевой элемент для определения языковой принадлежности контента.
Контентные факторы (Офлайн): Текст документов в структурированной коллекции, в частности, капитализация текста для идентификации сущностей (имен собственных). Заголовки документов.
Поведенческие факторы (Офлайн): Анонимизированные логи запросов (query logs) используются для идентификации запросов, которые ведут к документам в структурированной коллекции, и для расширения Term-Language Score Table. Также используются для определения Related Terms (co-occurrence).
Географические факторы: Упоминается возможность повышения (boosting) Language Scores, если запрос связан с определенным местоположением (например, «restaurants in Bordeaux»).

Какие метрики используются и как они считаются

Language Score (для термина): Метрика, отражающая связь термина с языком. Рассчитывается офлайн на основе анализа структурированных данных. Учитывает, насколько часто термин встречается в документах, ассоциированных с определенным языком через иерархию категорий.
Decay Function (Функция затухания) (Офлайн): Метод снижения Language Score при распространении его по иерархии категорий по мере увеличения расстояния от базовой категории (например, страны).
Нормализация (Normalization): Процесс корректировки Language Scores. Оценки нормализуются, чтобы уменьшить влияние терминов, общих для многих языков (например, если термин встречается одинаково часто во всех языках).
Combined Language Score (для запроса): Агрегированная метрика, рассчитываемая онлайн путем суммирования Language Scores всех Related Terms запроса для каждого конкретного языка.
Threshold Score (Порог): Заданное значение, которое должен превысить Combined Language Score, чтобы язык был выбран в качестве целевого. Порог может быть общим или специфичным для каждого языка.

Выводы

Автоматизация кросс-языкового поиска: Google стремится устранить языковые барьеры без усилий со стороны пользователя. Система автоматически решает, когда и на каких языках искать, если запрос имеет международный контекст.
Критическая роль структурированных данных и сущностей: Механизм генерации Term-Language Score Table сильно зависит от анализа структурированных данных (таких как Википедия) и извлечения сущностей. То, как сущность представлена в этих источниках и с какими категориями (странами, культурами) она связана в иерархии, напрямую определяет ее Language Scores.
Контекст через Related Terms: Для определения языковой релевантности Google анализирует не только сам запрос, но и Related Terms (термины, часто встречающиеся вместе). Это позволяет уловить контекст и намерение, которые могут указывать на необходимость поиска на других языках.
Нормализация для точности: Система фильтрует универсальные термины, которые не указывают на конкретный язык. Нормализация Language Scores позволяет сосредоточиться на терминах с сильной культурной или языковой спецификой.
Приоритет нативного контента: Механизм CLIR предназначен для поиска качественного контента на языке оригинала с последующим переводом для пользователя, а не для поиска автоматически переведенных копий.

Практика

Best practices (это мы делаем)

Оптимизация сущностей и связь с Knowledge Graph: Это критически важно для международного SEO. Убедитесь, что ключевые сущности вашего бизнеса (бренд, продукты, локации) корректно представлены в структурированных источниках данных, которые Google использует (например, Википедия, Wikidata). Важно, чтобы эти сущности были четко связаны с соответствующими региональными и языковыми категориями в этих источниках, так как это напрямую влияет на расчет Language Scores.
Усиление сигналов совместной встречаемости (Co-occurrence): При создании контента на определенном языке убедитесь, что ваши ключевые термины естественно соседствуют с другими релевантными терминами и сущностями (Related Terms), имеющими сильную привязку к этому языку. Это поможет укрепить связь в Term-Language Score Table.
Тематическая авторитетность на нативном языке: Сосредоточьтесь на создании лучшего, наиболее авторитетного контента на основном языке вашего рынка. Если Google определит (через Language Scores), что ваш язык релевантен для иностранного запроса, он использует ваш высокоранжируемый нативный контент для показа через CLIR.
Локализация и культурная адаптация контента: При создании многоязычных версий не просто переводите текст, но адаптируйте его так, чтобы он включал локально значимые сущности и термины. Это повышает вероятность того, что контент будет признан релевантным в своем языковом индексе.

Worst practices (это делать не надо)

Игнорирование присутствия в глобальных базах знаний: Полагаться только на on-page SEO без учета того, как ваши сущности представлены в глобальных структурированных данных. Если ваши сущности не связаны с нужными языками в Knowledge Graph, они не получат высоких Language Scores.
Прямой перевод без локализации сущностей: Создание контента на нескольких языках путем буквального перевода без учета локальных названий сущностей или культурного контекста. Это снижает эффективность работы описанного механизма.
Использование низкокачественного машинного перевода для создания контента: Создание контента с помощью автоматического перевода в надежде на трафик. CLIR ищет качественный исходный контент, который должен хорошо ранжироваться в своем нативном индексе.

Стратегическое значение

Этот патент подчеркивает важность Entity-Based SEO в международном контексте. Стратегическое значение заключается в понимании того, что языковая релевантность определяется не только языком страницы, но и тем, как Google воспринимает культурный и языковой контекст сущностей, упомянутых на ней. Для глобальных брендов критически важно управлять своим представлением в Knowledge Graph, чтобы гарантировать, что система корректно ассоциирует их с релевантными языками и активирует CLIR, когда это необходимо.

Практические примеры

Сценарий 1: Оптимизация для локального туристического объекта (Музей в Киото)

Анализ сущности (Офлайн): SEO-команда убеждается, что статья о музее в Википедии четко классифицирована в иерархии: Japan -> Kyoto Prefecture -> Culture in Kyoto. Это гарантирует, что сущность (музей) получит высокий Language Score для японского языка.
Анализ Related Terms (Онлайн): Англоязычный пользователь ищет «traditional crafts kyoto». Система Google определяет Related Terms, такие как название музея, «Japan», «history».
Расчет Language Score: Related Terms имеют высокие Language Scores для японского языка. Совокупная оценка превышает порог.
Активация CLIR: Google переводит запрос на японский язык (например, «京都伝統工芸»).
Результат: Система находит официальный сайт музея на японском языке (который хорошо ранжируется локально), переводит сниппет на английский и показывает его в англоязычной выдаче.

Сценарий 2: Оптимизация сайта отеля в Брюсселе (Пример из патента)

Анализ запроса: Пользователь ищет [bicycle rental brussels] на английском.
Идентификация Related Terms и Scores: Связанные термины («Brussels», «Belgium») имеют высокие Language Scores для французского и голландского языков.
Активация CLIR: Google переводит запрос на французский («Bruxelles Location de vélos») и голландский («fietsverhuur brussel»).
Действия SEO-специалиста: Создать качественный контент на французском и голландском языках о прокате велосипедов, используя локальные термины (например, «Villo!»). Усилить связь сущности отеля с Брюсселем в структурированных данных.
Результат: Контент отеля на французском/голландском имеет высокие шансы быть найденным, переведенным и показанным пользователю.

Вопросы и ответы

Как Google решает, какие языки выбрать для кросс-языкового поиска?

Система идентифицирует Related Terms (термины, часто встречающиеся вместе с запросом) и проверяет их оценки языковой принадлежности (Language Scores) в заранее подготовленной таблице. Если совокупная оценка для определенного языка превышает порог, этот язык выбирается для поиска. Эта таблица строится на основе анализа структурированных данных, таких как Википедия.

Что такое Language Score и как он рассчитывается?

Language Score — это метрика, показывающая силу связи между термином (или сущностью) и языком. Она рассчитывается офлайн путем анализа иерархии категорий в базах знаний (например, Википедии). Если сущность находится в категории «Культура Франции», она получит высокую оценку для французского языка. Применяется функция затухания: чем дальше сущность от базовой категории страны/языка в иерархии, тем ниже может быть оценка.

Что такое Related Terms и почему они важны?

Related Terms — это термины, которые часто встречаются вместе с исходным запросом и помогают установить более широкий контекст. Именно Language Scores этих связанных терминов, а не только самого запроса, определяют, будет ли активирован кросс-языковой поиск. Это позволяет системе находить языковой контекст, даже если в самом запросе нет явных указаний на язык.

Как этот патент влияет на оптимизацию под сущности (Entity SEO)?

Влияние критическое. Генерация Language Scores напрямую зависит от того, как сущности представлены в структурированных данных и как они классифицированы в иерархии. Для международного SEO необходимо убедиться, что ваши ключевые сущности (бренды, продукты) корректно связаны с соответствующими языковыми и региональными категориями в Knowledge Graph (и источниках типа Википедии).

Означает ли это, что мне не нужно создавать контент на нескольких языках?

Нет, это не заменяет многоязычный контент. Этот механизм помогает пользователям найти ваш контент, даже если они ищут на другом языке, путем перевода вашего лучшего контента (например, оригинала). Однако наличие качественного локализованного контента на языке пользователя всегда предпочтительнее и обычно обеспечивает лучший пользовательский опыт и конверсию.

Как я могу повлиять на Language Scores моего сайта?

Вы не можете повлиять на них напрямую для сайта в целом. Language Scores рассчитываются для терминов и сущностей. Вы можете повлиять на это косвенно, управляя тем, как ваши сущности представлены в глобальных базах знаний и обеспечивая сильные сигналы совместной встречаемости релевантных терминов в вашем контенте.

Что произойдет, если термин релевантен для многих языков?

Патент описывает процесс нормализации оценок. Если термин является общим для многих языков (например, «телефон» или «еда»), его Language Scores будут снижены или нейтрализованы. Система ищет термины, которые имеют сильную и специфическую связь с одним или несколькими конкретными языками, чтобы активировать CLIR.

Может ли пользователь контролировать этот процесс?

Да. Хотя выбор языков происходит автоматически, патент описывает пользовательский интерфейс, где пользователь может увидеть, какие языки были выбраны и какие переведенные запросы использовались. Пользователь может вручную добавить или удалить языки, отредактировать автоматически переведенный запрос, а также выбрать просмотр оригинального (непереведенного) результата.

Использует ли система географическое положение пользователя или запроса?

Да, патент упоминает возможность повышения (boosting) Language Scores на основе местоположения, связанного с запросом. Например, если запрос содержит название города («рестораны в Бордо»), оценки для французского языка могут быть повышены, так как высока вероятность, что пользователь ищет локальную информацию.

Какова роль Википедии в этом патенте?

Википедия (или аналогичные структурированные иерархические коллекции документов) используется как основной источник данных для офлайн-генерации Term-Language Score Table. Иерархия категорий используется для определения того, насколько сильно сущности связаны с тем или иным языком.