
Google применяет механизм кросс-язычного поиска (CLIR) для улучшения выдачи изображений и видео. Система автоматически переводит запрос пользователя на другие языки, выбирая наиболее подходящий на основе частотности терминов (IDF) в его корпусе. Результаты поиска по переведенному запросу подмешиваются в основную выдачу, а их ранжирование зависит от статистики качества (например, CTR) этого запроса.
Патент решает проблему ограниченного количества результатов при поиске визуального медиаконтента (изображений, видео), когда пользователь ищет концепцию на языке, где она слабо представлена, хотя на других языках доступно много релевантного контента. Изобретение улучшает полноту поисковой выдачи (Recall) за счет применения механизма кросс-язычного информационного поиска (Cross-Language Information Retrieval - CLIR).
Запатентован метод автоматического выбора релевантных языков для перевода запроса в контексте Visual Media Search. Ключевым является двухэтапный контроль: выбор языка основан на анализе частотности переведенных терминов (используя Inverse Document Frequency - IDF), а ранжирование полученных результатов основано на поведенческих метриках (Quality of Results Statistic, например, CTR или Dwell Time) для переведенного запроса.
Система работает итеративно:
Corpus).IDF переведенных терминов.IDF терминов попадает в допустимый диапазон (Acceptable Range) — не слишком частые и не слишком редкие.Quality of Results Statistic (например, CTR) переведенного запроса.Высокая. Кросс-язычный поиск (CLIR) является фундаментальной задачей для глобальных поисковых систем. Хотя методы машинного перевода и NLP (включая модели типа MUM) значительно эволюционировали с момента подачи патента (2009 г.), базовые принципы использования статистических мер (IDF) для оценки релевантности языка и поведенческих сигналов (CTR) для оценки качества результатов остаются крайне актуальными, особенно в поиске по картинкам и видео.
Патент имеет значительное влияние (7.5/10) на международное SEO и стратегии продвижения визуального контента (Image SEO, Video SEO). Он описывает конкретный механизм, позволяющий контенту на одном языке ранжироваться по запросам на других языках. Это подчеркивает важность качественной оптимизации медиаконтента на основном (доминирующем для темы) языке и достижения высоких поведенческих метрик (CTR) для обеспечения глобальной видимости.
Corpus. В патенте используется как основная метрика (score) для выбора языка перевода. Высокий IDF означает редкий термин, низкий IDF — частый термин.IDF, ограниченный двумя порогами. Термин должен быть не слишком частым и не слишком редким, чтобы язык был выбран для перевода.Quality of Results Statistic. Мера того, как часто пользователи кликают на результаты после ввода запроса, достаточно похожего на переведенный.Quality of Results Statistic. Время, которое пользователь тратит на просмотр результата поиска после клика.Quality of Results Statistic.Claim 1 (Независимый пункт): Описывает основной метод кросс-язычного поиска медиаконтента с выбором языка.
score), измеряющей распространенность каждого переведенного термина в корпусе этого языка.Acceptable Range).combined search query), использующий исходный и второй запросы.Quality of Results Statistic для второго (переведенного) запроса.Ядро изобретения — двухэтапная валидация: выбор языка через анализ частотности (IDF) и ранжирование через анализ качества (CTR).
Claim 5 (Зависимый от 1): Уточняет, что оценка распространенности (score) — это Inverse Document Frequency (IDF) термина в соответствующем корпусе.
Claim 2 и 3 (Зависимые от 1): Уточняют, что языки рассматриваются в определенном порядке. Этот порядок основан на убывании размера корпуса (descending size of the corpus), связанного с каждым языком. Система отдает приоритет языкам с большим объемом контента.
Claim 6 (Зависимый от 1): Описывает возможность выбора дополнительных языков (например, третьего языка) по тем же критериям и включения их результатов в выдачу с учетом их собственной Quality of Results Statistic.
Изобретение затрагивает несколько этапов поисковой архитектуры и применяется специфично в системах поиска визуального медиа (Image Search, Video Search).
INDEXING – Индексирование и извлечение признаков
На этом этапе выполняются предварительные вычисления, необходимые для работы системы:
IDF для всех терминов в каждом корпусе.CTR / Dwell Time для запросов на разных языках.QUNDERSTANDING – Понимание Запросов
Это основной этап применения. При получении Visual Media Search Query активируется механизм CLIR:
IDF для выбора наилучшего языка перевода.Quality of Results Statistic (CTR) для переведенного запроса.RANKING / METASEARCH – Ранжирование / Метапоиск и Смешивание
Генерируется и выполняется объединенный запрос. На этапе смешивания (Blending) и финального ранжирования система корректирует вес результатов, полученных через перевод, используя Quality of Results Statistic (или Confidence Bins).
Входные данные:
Visual Media Search Query.IDF для разных языковых корпусов.Quality of Results Statistic (CTR/Dwell Time) для запросов.Выходные данные:
Visual Media (поиск по картинкам, видео). Патент подчеркивает, что визуальный контент часто понятен вне зависимости от языка описания.Visual Media Search Queries.IDF в допустимом диапазоне (Acceptable Range).IDF: нижний порог отсекает слишком частые термины (стоп-слова), верхний порог отсекает слишком редкие термины (концепция не представлена в языке).Visual Media Search Query на Языке 1.IDF в корпусе Языка N.IDF в допустимом диапазоне (Acceptable Range). Quality of Results Statistic (например, CTR). Она может быть категоризирована в Confidence Bins.Quality of Results Statistic.IDF). Словари или модели машинного перевода.user search history). Данные о кликах (для расчета CTR). Данные о времени просмотра результатов (для расчета Dwell Time). Популярность запроса.CTR (например, учитывать CTR только от пользователей из региона, где говорят на языке перевода).Используется для выбора языка. Формула, описанная в патенте (Col 4, lines 10-14):
IDF(term)=log
Используются для валидации языка. Определяются эмпирически. Язык выбирается, если IDF переведенных терминов находится между нижним и верхним порогом (Claim 1).
Используется для ранжирования. Основная метрика — CTR. Формула (Col 6, line 65 - Col 7, line 4):
CTR(query)=Общее количество отправок запросаКоличество кликов по результатам
Также могут использоваться Dwell Time и популярность запроса.
Система может использовать дискретные значения вместо непрерывных значений QRS. Например, CTR может быть преобразован в категории: «очень низкая уверенность», «низкая», «средняя», «высокая» (Col 7, lines 58-67). Эти категории используются при ранжировании.
Visual Media Search, признавая, что ценность изображений и видео часто не зависит от языка описания.IDF. Перевод используется, только если концепция адекватно представлена в языке (термины не слишком редки) и различима (термины не слишком часты).Quality of Results Statistic (CTR, Dwell Time). Только если пользователи активно взаимодействуют с результатами на целевом языке, эти результаты получат высокий ранг в смешанной выдаче.Quality of Results Statistic, который напрямую влияет на ранжирование этого контента при кросс-язычном поиске.IDF термина попадет в "допустимый диапазон" (Acceptable Range), и система выберет этот язык для перевода.IDF). Система может не посчитать язык подходящим для перевода, так как концепция в нем слабо представлена.IDF). Система отфильтрует такой перевод, чтобы избежать нерелевантных результатов (шума).CTR, что приведет к понижению в ранжировании при кросс-язычном поиске из-за низкого Quality of Results Statistic.Патент демонстрирует, что в поиске визуального контента границы между языками стираются. Контент конкурирует глобально. Для Senior SEO-специалистов это подчеркивает стратегическую важность International SEO и механизмов CLIR. Анализ семантики и конкуренции должен учитывать, как ключевые концепции представлены на доминирующих языках, и выстраивать стратегию оптимизации с учетом потенциального глобального охвата через автоматический перевод запросов.
Сценарий: Оптимизация изображений для международного туристического сайта (на основе примера из патента FIG. 2 и FIG. 3)
CTR в итальянской выдаче (в патенте указан пример высокого CTR 0.935).IDF (термины находятся в Acceptable Range). Система видит высокий CTR для итальянского запроса (высокий Quality of Results Statistic).На какие типы поиска распространяется этот патент?
Патент сфокусирован исключительно на Visual Media Search — поиске изображений, видео и встроенного медиаконтента. В патенте подчеркивается, что визуальный контент часто понятен пользователям независимо от языка его описания, что делает его идеальным кандидатом для кросс-язычного поиска (CLIR).
Как система решает, на какой язык переводить запрос в первую очередь?
Патент предлагает упорядочивать языки для рассмотрения по убыванию размера их индексированного корпуса (descending size of the corpus) (Claim 3). Это означает, что система, скорее всего, сначала попытается перевести запрос на языки с наибольшим количеством контента (например, английский), при условии, что они удовлетворяют критериям IDF.
Что такое "допустимый диапазон" (Acceptable Range) IDF и почему он важен?
Система использует два порога для IDF (Claim 1). Если IDF слишком низкий (термин слишком частый, как стоп-слово), перевод может привести к нерелевантным результатам. Если IDF слишком высокий (термин крайне редок), концепция слабо представлена в языке. "Допустимый диапазон" гарантирует, что переведенный термин является значимым и достаточно распространенным для качественного поиска.
Что важнее для этого алгоритма: IDF или CTR?
Они выполняют разные функции и оба критичны. IDF используется как фильтр для выбора языка перевода (должен ли перевод вообще состояться). CTR (или другая Quality of Results Statistic) используется как фактор ранжирования для результатов, полученных после перевода (насколько высоко они должны стоять в выдаче).
Как Quality of Results Statistic влияет на ранжирование?
Эта метрика (например, CTR или Dwell Time) используется для корректировки оценки ранжирования результатов, полученных по переведенному запросу. Если у переведенного запроса высокий CTR на его родном языке, результаты получат повышение (boost) при смешивании с результатами исходного запроса. Это механизм контроля качества.
Означает ли это, что я должен оптимизировать весь визуальный контент на английском?
Это означает, что оптимизация метаданных (alt-тексты, заголовки) на английском или другом доминирующем языке в вашей нише является стратегически выгодной. Если ваш контент на этом языке качественный и имеет высокий CTR, он сможет эффективно ранжироваться по запросам пользователей, ищущих на других языках, через этот механизм CLIR.
Может ли система перевести запрос на несколько языков одновременно?
Да, патент (в частности, Claim 6) предусматривает возможность выбора дополнительных языков (третий язык и т.д.). Система может продолжить итерацию и добавить результаты поиска по дополнительным переведенным запросам в финальную выдачу, учитывая Quality of Results Statistic для каждого из них.
Как я могу повлиять на IDF терминов, описывающих мой контент?
Напрямую повлиять на IDF (глобальную статистику корпуса) нельзя. Однако вы можете выбирать для описания контента термины, которые являются общепринятыми — не слишком общими и не слишком редкими. Анализ семантики и стандартных фраз в нише помогает выбрать термины с оптимальным IDF.
Что такое Confidence Bins и как они используются?
Confidence Bins — это способ упростить использование CTR при ранжировании. Вместо использования точного значения CTR (например, 0.935), система классифицирует его в одну из категорий (например, «High Confidence»). Это позволяет применять стандартизированные коэффициенты повышения для разных уровней качества перевода.
Использует ли система информацию о местоположении пользователя при расчете CTR?
Да, патент упоминает такую возможность. CTR может быть рассчитан для определенной популяции пользователей, например, только для тех, кто находится в регионе, где говорят на целевом языке перевода. Для этого могут использоваться IP-адреса, доменные зоны или настройки пользователя.

Мультиязычность
Мультимедиа
EEAT и качество

Мультиязычность
Индексация

Мультиязычность

Мультиязычность
Персонализация
Семантика и интент

Мультиязычность
Поведенческие сигналы
Мультимедиа

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы

Поведенческие сигналы
SERP

Индексация
Ссылки
Техническое SEO

Ссылки
EEAT и качество
Антиспам

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Персонализация
EEAT и качество

Персонализация
EEAT и качество
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP
