
Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.
Патент решает проблему доступа к релевантной информации, существующей на языках, отличных от языка запроса пользователя (Cross-Language Information Retrieval - CLIR). Основная задача — автоматизировать выбор целевых языков для поиска. Вместо того чтобы требовать от пользователя указать, на каких языках искать, система сама определяет наиболее релевантные языки для конкретного запроса, улучшая полноту и качество поисковой выдачи за счет доступа к глобальной базе знаний.
Запатентована система автоматического выбора релевантных целевых языков (Target Languages) для поискового запроса. Ядром изобретения является механизм оценки связи запроса с различными языками. Это достигается путем идентификации терминов, связанных с запросом (Related Terms), и использования заранее рассчитанной таблицы, которая сопоставляет эти термины с оценками их языковой принадлежности (Language Scores). Если совокупная оценка для языка превышает порог, этот язык выбирается для поиска.
Система работает в два этапа: офлайн-подготовка и онлайн-обработка.
Term-Language Score Table, связывающая термины и сущности с конкретными языками.Related Terms (термины, часто встречающиеся вместе с запросом). Для каждого связанного термина извлекаются Language Scores из таблицы. Оценки суммируются по языкам. Языки, чьи оценки превышают порог, выбираются как целевые. Запрос переводится на эти языки, выполняется поиск, результаты переводятся обратно на язык пользователя и подмешиваются в выдачу.Высокая. Кросс-языковой поиск и понимание сущностей в глобальном контексте являются ключевыми направлениями развития Google. Механизмы, позволяющие автоматически расширять поиск за пределы одного языка, особенно для запросов о сущностях с сильной региональной или языковой привязкой (например, локальные новости, туризм), активно используются для улучшения полноты выдачи. Этот патент описывает фундаментальный подход к автоматизации CLIR.
Патент имеет высокое значение (7.5/10) для международного SEO и стратегий, ориентированных на сущности (Entity-Based SEO). Он описывает механизм, с помощью которого Google определяет языковую и культурную релевантность запроса. Понимание этого механизма позволяет оптимизировать контент так, чтобы он корректно ассоциировался с нужными языками в Term-Language Score Table, увеличивая вероятность его появления в кросс-языковой выдаче для пользователей в других регионах.
Term-Language Score Table.Language Scores для различных языков.Claim 1 (Независимый пункт): Описывает основной метод кросс-языкового поиска с автоматическим выбором языка.
Target Languages), релевантных запросу, используя Language Scores. Процесс определения включает: Related Terms (терминов, связанных с запросом).Language Score для каждого связанного термина по отношению к множеству языков.Language Scores для каждого языка.threshold score).Claim 3 (Зависимый от 1): Уточняет, что предоставление результатов включает их перевод на исходный язык запроса.
Claim 4 (Зависимый от 3): Описывает функцию пользовательского интерфейса. Система может предоставить результат поиска на оригинальном (целевом) языке для отображения под соответствующим переведенным результатом. Эта функция активируется пользователем независимо для каждого результата.
Claim 5 (Зависимый от 1): Уточняет, что определение Language Score для связанного термина включает поиск этого термина в таблице (Term-Language Score Table), которая содержит заранее рассчитанные оценки.
Claim 6 (Зависимый от 1): Определяет Related Terms как термины, которые с высокой вероятностью встречаются совместно (co-occur) с терминами запроса.
Изобретение затрагивает несколько этапов поиска, используя предварительно обработанные данные для улучшения понимания запроса и смешивания результатов.
INDEXING – Индексирование / Анализ данных (Офлайн)
Основная часть работы по подготовке данных происходит офлайн. Система анализирует Structured Collection of Documents (например, Википедию) и логи запросов для создания Term-Language Score Table. Это включает извлечение сущностей (Entity Extraction) и классификацию контента по языкам на основе иерархии.
QUNDERSTANDING – Понимание Запросов (Онлайн)
Это основной этап применения патента в реальном времени. При получении запроса система анализирует его языковой контекст.
Related Terms.Term-Language Score Table для расчета совокупных Language Scores для запроса.Translation System.RANKING – Ранжирование (Параллельное)
Поисковая система выполняет параллельные поиски по соответствующим языковым индексам, используя переведенные запросы.
METASEARCH – Метапоиск и Смешивание
Результаты из разных языковых индексов агрегируются. Они переводятся обратно на Source Language и смешиваются (interleaved) в единый ранжированный список для представления пользователю.
Входные данные:
Source Language Query).Term-Language Score Table (предварительно рассчитанная).Related Terms).Выходные данные:
Target Languages) и переведенные запросы.Language Score для целевого языка превышает заданный порог (threshold score).Related Terms запроса имеют сильные и недвусмысленные сигналы языковой принадлежности в Term-Language Score Table. Если термин слишком общий (например, "cooking"), он может иметь нейтральные или низкие оценки после нормализации и не вызовет активацию CLIR.Процесс А: Онлайн-обработка запроса (CLIR)
Related Terms, которые часто встречаются вместе с запросом (возможно, после расширения синонимами).Language Scores из Term-Language Score Table.Language Scores суммируются для каждого языка. Применяется нормализация для устранения слишком общих терминов. Оценки могут быть повышены (boosted), если запрос связан с конкретной локацией.Target Languages.Процесс Б: Офлайн-генерация Term-Language Score Table
Language Scores через иерархию категорий (например, Категория:Япония -> Японская культура -> Суши). Применяется функция затухания (decay function) при удалении от базовой категории (например, страны).Language Scores на основе оценок документов, в которых они найдены.Term-Language Score Table.Патент фокусируется на использовании данных о языке и контексте запроса, а также предварительно обработанных структурированных данных.
Structured Collection of Documents (например, Википедии). Ссылки внутри этой коллекции используются для идентификации сущностей. Это ключевой элемент для определения языковой принадлежности контента.query logs) используются для идентификации запросов, которые ведут к документам в структурированной коллекции, и для расширения Term-Language Score Table. Также используются для определения Related Terms (co-occurrence).Language Scores, если запрос связан с определенным местоположением (например, "restaurants in Bordeaux").Language Score при распространении его по иерархии категорий по мере увеличения расстояния от базовой категории (например, страны).Language Scores. Оценки нормализуются, чтобы уменьшить влияние терминов, общих для многих языков (например, если термин встречается одинаково часто во всех языках).Language Scores всех Related Terms запроса для каждого конкретного языка.Combined Language Score, чтобы язык был выбран в качестве целевого. Порог может быть общим или специфичным для каждого языка.Term-Language Score Table сильно зависит от анализа структурированных данных (таких как Википедия) и извлечения сущностей. То, как сущность представлена в этих источниках и с какими категориями (странами, культурами) она связана в иерархии, напрямую определяет ее Language Scores.Related Terms (термины, часто встречающиеся вместе). Это позволяет уловить контекст и намерение, которые могут указывать на необходимость поиска на других языках.Language Scores позволяет сосредоточиться на терминах с сильной культурной или языковой спецификой.CLIR предназначен для поиска качественного контента на языке оригинала с последующим переводом для пользователя, а не для поиска автоматически переведенных копий.Language Scores.Related Terms), имеющими сильную привязку к этому языку. Это поможет укрепить связь в Term-Language Score Table.Language Scores), что ваш язык релевантен для иностранного запроса, он использует ваш высокоранжируемый нативный контент для показа через CLIR.Language Scores.CLIR ищет качественный исходный контент, который должен хорошо ранжироваться в своем нативном индексе.Этот патент подчеркивает важность Entity-Based SEO в международном контексте. Стратегическое значение заключается в понимании того, что языковая релевантность определяется не только языком страницы, но и тем, как Google воспринимает культурный и языковой контекст сущностей, упомянутых на ней. Для глобальных брендов критически важно управлять своим представлением в Knowledge Graph, чтобы гарантировать, что система корректно ассоциирует их с релевантными языками и активирует CLIR, когда это необходимо.
Сценарий 1: Оптимизация для локального туристического объекта (Музей в Киото)
Language Score для японского языка.Related Terms, такие как название музея, "Japan", "history".Related Terms имеют высокие Language Scores для японского языка. Совокупная оценка превышает порог.Сценарий 2: Оптимизация сайта отеля в Брюсселе (Пример из патента)
Language Scores для французского и голландского языков.Как Google решает, какие языки выбрать для кросс-языкового поиска?
Система идентифицирует Related Terms (термины, часто встречающиеся вместе с запросом) и проверяет их оценки языковой принадлежности (Language Scores) в заранее подготовленной таблице. Если совокупная оценка для определенного языка превышает порог, этот язык выбирается для поиска. Эта таблица строится на основе анализа структурированных данных, таких как Википедия.
Что такое Language Score и как он рассчитывается?
Language Score — это метрика, показывающая силу связи между термином (или сущностью) и языком. Она рассчитывается офлайн путем анализа иерархии категорий в базах знаний (например, Википедии). Если сущность находится в категории "Культура Франции", она получит высокую оценку для французского языка. Применяется функция затухания: чем дальше сущность от базовой категории страны/языка в иерархии, тем ниже может быть оценка.
Что такое Related Terms и почему они важны?
Related Terms — это термины, которые часто встречаются вместе с исходным запросом и помогают установить более широкий контекст. Именно Language Scores этих связанных терминов, а не только самого запроса, определяют, будет ли активирован кросс-языковой поиск. Это позволяет системе находить языковой контекст, даже если в самом запросе нет явных указаний на язык.
Как этот патент влияет на оптимизацию под сущности (Entity SEO)?
Влияние критическое. Генерация Language Scores напрямую зависит от того, как сущности представлены в структурированных данных и как они классифицированы в иерархии. Для международного SEO необходимо убедиться, что ваши ключевые сущности (бренды, продукты) корректно связаны с соответствующими языковыми и региональными категориями в Knowledge Graph (и источниках типа Википедии).
Означает ли это, что мне не нужно создавать контент на нескольких языках?
Нет, это не заменяет многоязычный контент. Этот механизм помогает пользователям найти ваш контент, даже если они ищут на другом языке, путем перевода вашего лучшего контента (например, оригинала). Однако наличие качественного локализованного контента на языке пользователя всегда предпочтительнее и обычно обеспечивает лучший пользовательский опыт и конверсию.
Как я могу повлиять на Language Scores моего сайта?
Вы не можете повлиять на них напрямую для сайта в целом. Language Scores рассчитываются для терминов и сущностей. Вы можете повлиять на это косвенно, управляя тем, как ваши сущности представлены в глобальных базах знаний и обеспечивая сильные сигналы совместной встречаемости релевантных терминов в вашем контенте.
Что произойдет, если термин релевантен для многих языков?
Патент описывает процесс нормализации оценок. Если термин является общим для многих языков (например, "телефон" или "еда"), его Language Scores будут снижены или нейтрализованы. Система ищет термины, которые имеют сильную и специфическую связь с одним или несколькими конкретными языками, чтобы активировать CLIR.
Может ли пользователь контролировать этот процесс?
Да. Хотя выбор языков происходит автоматически, патент описывает пользовательский интерфейс, где пользователь может увидеть, какие языки были выбраны и какие переведенные запросы использовались. Пользователь может вручную добавить или удалить языки, отредактировать автоматически переведенный запрос, а также выбрать просмотр оригинального (непереведенного) результата.
Использует ли система географическое положение пользователя или запроса?
Да, патент упоминает возможность повышения (boosting) Language Scores на основе местоположения, связанного с запросом. Например, если запрос содержит название города ("рестораны в Бордо"), оценки для французского языка могут быть повышены, так как высока вероятность, что пользователь ищет локальную информацию.
Какова роль Википедии в этом патенте?
Википедия (или аналогичные структурированные иерархические коллекции документов) используется как основной источник данных для офлайн-генерации Term-Language Score Table. Иерархия категорий используется для определения того, насколько сильно сущности связаны с тем или иным языком.

Мультиязычность
Персонализация
Семантика и интент

Мультиязычность
Индексация

Мультиязычность
Семантика и интент
SERP

Мультиязычность
Семантика и интент
Ссылки

Мультиязычность
Семантика и интент

Ссылки
Поведенческие сигналы
Мультимедиа

Поведенческие сигналы
Персонализация
Семантика и интент

EEAT и качество
Антиспам
SERP

Структура сайта
SERP
Ссылки

Поведенческие сигналы
Индексация
Семантика и интент

Семантика и интент
SERP
Персонализация

Ссылки
EEAT и качество
Антиспам

Мультимедиа
EEAT и качество
Семантика и интент

Поведенческие сигналы
SERP
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы
