Как Google использует IDF и CTR для выбора языка перевода запросов в поиске по картинкам и видео (CLIR)

Google применяет механизм кросс-язычного поиска (CLIR) для улучшения выдачи изображений и видео. Система автоматически переводит запрос пользователя на другие языки, выбирая наиболее подходящий на основе частотности терминов (IDF) в его корпусе. Результаты поиска по переведенному запросу подмешиваются в основную выдачу, а их ранжирование зависит от статистики качества (например, CTR) этого запроса.

Описание

Какую задачу решает

Патент решает проблему ограниченного количества результатов при поиске визуального медиаконтента (изображений, видео), когда пользователь ищет концепцию на языке, где она слабо представлена, хотя на других языках доступно много релевантного контента. Изобретение улучшает полноту поисковой выдачи (Recall) за счет применения механизма кросс-язычного информационного поиска (Cross-Language Information Retrieval — CLIR).

Что запатентовано

Запатентован метод автоматического выбора релевантных языков для перевода запроса в контексте Visual Media Search. Ключевым является двухэтапный контроль: выбор языка основан на анализе частотности переведенных терминов (используя Inverse Document Frequency — IDF), а ранжирование полученных результатов основано на поведенческих метриках (Quality of Results Statistic, например, CTR или Dwell Time) для переведенного запроса.

Как это работает

Система работает итеративно:

Получение запроса: Принимается запрос на поиск визуального медиа.
Выбор кандидатов: Идентифицируется список потенциальных языков для перевода, упорядоченный по размеру индекса/корпуса (Corpus).
Перевод и Оценка (IDF): Запрос переводится на язык-кандидат. Оценивается IDF переведенных терминов.
Фильтрация языка: Язык выбирается, только если IDF терминов попадает в допустимый диапазон (Acceptable Range) — не слишком частые и не слишком редкие.
Оценка Качества (CTR): Для выбранного языка извлекается Quality of Results Statistic (например, CTR) переведенного запроса.
Объединение и Ранжирование: Генерируется объединенная выдача. Результаты перевода ранжируются с учетом их статистики качества.

Актуальность для SEO

Высокая. Кросс-язычный поиск (CLIR) является фундаментальной задачей для глобальных поисковых систем. Хотя методы машинного перевода и NLP (включая модели типа MUM) значительно эволюционировали с момента подачи патента (2009 г.), базовые принципы использования статистических мер (IDF) для оценки релевантности языка и поведенческих сигналов (CTR) для оценки качества результатов остаются крайне актуальными, особенно в поиске по картинкам и видео.

Важность для SEO

Патент имеет значительное влияние (7.5/10) на международное SEO и стратегии продвижения визуального контента (Image SEO, Video SEO). Он описывает конкретный механизм, позволяющий контенту на одном языке ранжироваться по запросам на других языках. Это подчеркивает важность качественной оптимизации медиаконтента на основном (доминирующем для темы) языке и достижения высоких поведенческих метрик (CTR) для обеспечения глобальной видимости.

Детальный разбор

Термины и определения

Visual Media Search (Поиск по визуальным медиа): Поиск, ориентированный на нетекстовый контент: изображения, видео, интерактивные медиа. Патент фокусируется именно на этом типе поиска.
Corpus (Корпус документов): Коллекция документов и медиа, проиндексированная поисковой системой и ассоциированная с определенным языком.
Inverse Document Frequency (IDF) (Обратная частота документа): Статистическая мера, используемая для оценки распространенности термина в Corpus. В патенте используется как основная метрика (score) для выбора языка перевода. Высокий IDF означает редкий термин, низкий IDF — частый термин.
Acceptable Range (Приемлемый диапазон): Диапазон значений IDF, ограниченный двумя порогами. Термин должен быть не слишком частым и не слишком редким, чтобы язык был выбран для перевода.
Quality of Results Statistic (Статистика качества результатов): Метрика, оценивающая предполагаемую полезность или релевантность результатов для переведенного запроса. Используется для ранжирования.
Click Through Rate (CTR) (Показатель кликабельности): Основной пример Quality of Results Statistic. Мера того, как часто пользователи кликают на результаты после ввода запроса, достаточно похожего на переведенный.
Dwell Time (Время пребывания): Альтернативный пример Quality of Results Statistic. Время, которое пользователь тратит на просмотр результата поиска после клика.
Confidence Bins (Корзины уверенности): Дискретные категории (например, «высокая уверенность»), используемые для классификации качества переведенного запроса на основе его Quality of Results Statistic.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод кросс-язычного поиска медиаконтента с выбором языка.

Система получает первый поисковый запрос на первом языке.
Для каждого из множества разных языков выполняется: (i) перевод терминов исходного запроса; (ii) определение оценки (score), измеряющей распространенность каждого переведенного термина в корпусе этого языка.
Выбор второго языка происходит в ответ на определение того, что хотя бы одна из оценок находится между первым и вторым пороговыми значениями (т.е. термин не слишком частый и не слишком редкий – Acceptable Range).
Генерируется второй запрос (перевод на второй язык).
Генерируется объединенный поисковый запрос (combined search query), использующий исходный и второй запросы.
Получается финальная группа результатов. Ранжирование результатов основано частично на Quality of Results Statistic для второго (переведенного) запроса.

Ядро изобретения — двухэтапная валидация: выбор языка через анализ частотности (IDF) и ранжирование через анализ качества (CTR).

Claim 5 (Зависимый от 1): Уточняет, что оценка распространенности (score) — это Inverse Document Frequency (IDF) термина в соответствующем корпусе.

Claim 2 и 3 (Зависимые от 1): Уточняют, что языки рассматриваются в определенном порядке. Этот порядок основан на убывании размера корпуса (descending size of the corpus), связанного с каждым языком. Система отдает приоритет языкам с большим объемом контента.

Claim 6 (Зависимый от 1): Описывает возможность выбора дополнительных языков (например, третьего языка) по тем же критериям и включения их результатов в выдачу с учетом их собственной Quality of Results Statistic.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры и применяется специфично в системах поиска визуального медиа (Image Search, Video Search).

INDEXING – Индексирование и извлечение признаков
На этом этапе выполняются предварительные вычисления, необходимые для работы системы:

Формирование языковых корпусов и определение их размеров.
Расчет IDF для всех терминов в каждом корпусе.
Агрегация поведенческих данных и расчет CTR / Dwell Time для запросов на разных языках.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения. При получении Visual Media Search Query активируется механизм CLIR:

Система определяет порядок проверки языков (по размеру корпуса).
Выполняется итеративный процесс перевода и проверки IDF для выбора наилучшего языка перевода.
Извлекается Quality of Results Statistic (CTR) для переведенного запроса.

RANKING / METASEARCH – Ранжирование / Метапоиск и Смешивание
Генерируется и выполняется объединенный запрос. На этапе смешивания (Blending) и финального ранжирования система корректирует вес результатов, полученных через перевод, используя Quality of Results Statistic (или Confidence Bins).

Входные данные:

Исходный Visual Media Search Query.
Данные IDF для разных языковых корпусов.
Данные Quality of Results Statistic (CTR/Dwell Time) для запросов.

Выходные данные:

Объединенный набор результатов поиска (смешанная выдача на разных языках) с скорректированными оценками ранжирования.

На что влияет

Типы контента: Влияет строго на Visual Media (поиск по картинкам, видео). Патент подчеркивает, что визуальный контент часто понятен вне зависимости от языка описания.
Специфические запросы: Наибольшее влияние на запросы о сущностях, событиях или концепциях, которые имеют разную популярность в разных языках (например, поиск локальных достопримечательностей или специфических продуктов на неродном языке).

Когда применяется

Триггеры активации: Механизм активируется специфично для Visual Media Search Queries.
Условия работы: Ключевое условие — нахождение языка, в котором переведенные термины имеют IDF в допустимом диапазоне (Acceptable Range).
Пороговые значения: Критически важны два порога для IDF: нижний порог отсекает слишком частые термины (стоп-слова), верхний порог отсекает слишком редкие термины (концепция не представлена в языке).

Пошаговый алгоритм

Получение запроса: Система получает Visual Media Search Query на Языке 1.
Сортировка языков: Идентифицируется и упорядочивается список потенциальных языков для перевода по убыванию размера корпуса.
Итерация по языкам: Система начинает перебор языков (Язык N) по списку.
Перевод: Исходный запрос переводится на Язык N.
Оценка частотности (IDF): Для каждого переведенного термина определяется его IDF в корпусе Языка N.
Проверка порогов (Валидация языка): Система проверяет, находятся ли оценки IDF в допустимом диапазоне (Acceptable Range).
- Если ДА: Язык N выбирается. Процесс итерации останавливается (или продолжается для поиска дополнительных языков, согласно Claim 6). Переход к шагу 7.
- Если НЕТ: Система переходит к следующему языку (Шаг 3).
Получение статистики качества: Для переведенного запроса на Языке N извлекается Quality of Results Statistic (например, CTR). Она может быть категоризирована в Confidence Bins.
Генерация объединенного запроса: Создается финальный запрос, комбинирующий исходный и переведенный запросы с учетом статистики качества.
Выполнение поиска и Ранжирование: Генерируется финальная группа результатов. Ранжирование результатов, соответствующих переведенному запросу, корректируется на основе его Quality of Results Statistic.

Какие данные и как использует

Данные на входе

Контентные/Лингвистические факторы: Термины исходного запроса. Статистические данные корпусов документов на разных языках (для расчета IDF). Словари или модели машинного перевода.
Поведенческие факторы: История поисковых запросов пользователей (user search history). Данные о кликах (для расчета CTR). Данные о времени просмотра результатов (для расчета Dwell Time). Популярность запроса.
Географические/Пользовательские факторы: Местоположение пользователя (IP-адрес, настройки, доменная зона) может использоваться для сегментации данных при расчете CTR (например, учитывать CTR только от пользователей из региона, где говорят на языке перевода).

Какие метрики используются и как они считаются

Inverse Document Frequency (IDF):
Используется для выбора языка. Формула, описанная в патенте (Col 4, lines 10-14):
$IDF(term) = log\left(\frac{\text{Общее число документов в корпусе}}{\text{Число документов, содержащих термин}}\right)$
Пороги IDF (Acceptable Range):
Используются для валидации языка. Определяются эмпирически. Язык выбирается, если IDF переведенных терминов находится между нижним и верхним порогом (Claim 1).
Quality of Results Statistic (QRS):
Используется для ранжирования. Основная метрика — CTR. Формула (Col 6, line 65 — Col 7, line 4):
$CTR(query) = \frac{\text{Количество кликов по результатам}}{\text{Общее количество отправок запроса}}$
Также могут использоваться Dwell Time и популярность запроса.
Confidence Bins (Корзины уверенности):
Система может использовать дискретные значения вместо непрерывных значений QRS. Например, CTR может быть преобразован в категории: «очень низкая уверенность», «низкая», «средняя», «высокая» (Col 7, lines 58-67). Эти категории используются при ранжировании.

Выводы

CLIR как ключевой компонент визуального поиска: Google активно использует кросс-язычный поиск (CLIR) для Visual Media Search, признавая, что ценность изображений и видео часто не зависит от языка описания.
Выбор языка основан на статистике корпуса (IDF): Система не переводит запрос на случайные языки. Выбор целевого языка строго контролируется через IDF. Перевод используется, только если концепция адекватно представлена в языке (термины не слишком редки) и различима (термины не слишком часты).
Приоритет языков с большими корпусами: Система предпочитает проверять языки с большим объемом индекса (например, английский) в первую очередь (Claim 3), что увеличивает потенциальное количество найденных результатов.
Поведенческие факторы валидируют перевод и определяют ранжирование: Ранжирование результатов, найденных через перевод, критически зависит от Quality of Results Statistic (CTR, Dwell Time). Только если пользователи активно взаимодействуют с результатами на целевом языке, эти результаты получат высокий ранг в смешанной выдаче.
Глобальная видимость локального контента: Этот механизм позволяет контенту, оптимизированному на одном языке, достигать глобальной аудитории без прямой локализации, при условии высокого качества и вовлеченности.

Практика

Best practices (это мы делаем)

Оптимизация медиа на доминирующих языках: Обеспечьте качественную оптимизацию метаданных (alt-текст, заголовки, окружающий текст) визуального контента на языке, где ваша тематика наиболее популярна (часто это английский). Это увеличивает вероятность того, что ваш контент будет найден через механизм CLIR по запросам на других языках.
Фокус на повышении CTR и Dwell Time: Работайте над привлекательностью сниппетов изображений и видео. Высокие поведенческие метрики на основном языке служат сигналом Quality of Results Statistic, который напрямую влияет на ранжирование этого контента при кросс-язычном поиске.
Использование общепринятой терминологии: Описывайте контент, используя стандартные, четкие термины. Это повышает вероятность того, что IDF термина попадет в «допустимый диапазон» (Acceptable Range), и система выберет этот язык для перевода.
Точное описание глобальных сущностей: Если контент описывает глобально известные сущности (бренды, локации, события), используйте их общепринятые названия на ключевых языках, чтобы максимизировать охват через CLIR.

Worst practices (это делать не надо)

Игнорирование английского языка (если он доминирует в нише): Оптимизация медиа только на локальном языке. Это ограничивает охват, так как система часто предпочитает переводить на языки с большими корпусами и может не найти достаточного количества качественного локального контента.
Использование слишком редких или жаргонных терминов: Описание контента терминами, которые используются крайне редко (слишком высокий IDF). Система может не посчитать язык подходящим для перевода, так как концепция в нем слабо представлена.
Использование слишком общих слов: Описание контента только общими словами (слишком низкий IDF). Система отфильтрует такой перевод, чтобы избежать нерелевантных результатов (шума).
Манипуляции с метаданными (Keyword Stuffing): Переспам в описаниях и alt-текстах может снизить CTR, что приведет к понижению в ранжировании при кросс-язычном поиске из-за низкого Quality of Results Statistic.

Стратегическое значение

Патент демонстрирует, что в поиске визуального контента границы между языками стираются. Контент конкурирует глобально. Для Senior SEO-специалистов это подчеркивает стратегическую важность International SEO и механизмов CLIR. Анализ семантики и конкуренции должен учитывать, как ключевые концепции представлены на доминирующих языках, и выстраивать стратегию оптимизации с учетом потенциального глобального охвата через автоматический перевод запросов.

Практические примеры

Сценарий: Оптимизация изображений для международного туристического сайта (на основе примера из патента FIG. 2 и FIG. 3)

Задача: Сайт на итальянском языке публикует фотографии Пизанской башни. Необходимо привлечь трафик из других стран.
Действие на основе патента:
- Изображения оптимизируются под запрос «torretta di inclinazione famosa di Pisa» на итальянском языке.
- Проводится работа над качеством статьи и привлекательностью изображений для максимизации CTR в итальянской выдаче (в патенте указан пример высокого CTR 0.935).
Работа механизма Google: Пользователь в Португалии ищет «torre inclinada famosa de Pisa». Google анализирует языки. Итальянский язык (имеющий большой корпус) рассматривается. Перевод проходит проверку IDF (термины находятся в Acceptable Range). Система видит высокий CTR для итальянского запроса (высокий Quality of Results Statistic).
Ожидаемый результат: Итальянская страница сайта подмешивается с высоким ранжированием в португальскую выдачу поиска по картинкам.

Вопросы и ответы

На какие типы поиска распространяется этот патент?

Патент сфокусирован исключительно на Visual Media Search — поиске изображений, видео и встроенного медиаконтента. В патенте подчеркивается, что визуальный контент часто понятен пользователям независимо от языка его описания, что делает его идеальным кандидатом для кросс-язычного поиска (CLIR).

Как система решает, на какой язык переводить запрос в первую очередь?

Патент предлагает упорядочивать языки для рассмотрения по убыванию размера их индексированного корпуса (descending size of the corpus) (Claim 3). Это означает, что система, скорее всего, сначала попытается перевести запрос на языки с наибольшим количеством контента (например, английский), при условии, что они удовлетворяют критериям IDF.

Что такое «допустимый диапазон» (Acceptable Range) IDF и почему он важен?

Система использует два порога для IDF (Claim 1). Если IDF слишком низкий (термин слишком частый, как стоп-слово), перевод может привести к нерелевантным результатам. Если IDF слишком высокий (термин крайне редок), концепция слабо представлена в языке. «Допустимый диапазон» гарантирует, что переведенный термин является значимым и достаточно распространенным для качественного поиска.

Что важнее для этого алгоритма: IDF или CTR?

Они выполняют разные функции и оба критичны. IDF используется как фильтр для выбора языка перевода (должен ли перевод вообще состояться). CTR (или другая Quality of Results Statistic) используется как фактор ранжирования для результатов, полученных после перевода (насколько высоко они должны стоять в выдаче).

Как Quality of Results Statistic влияет на ранжирование?

Эта метрика (например, CTR или Dwell Time) используется для корректировки оценки ранжирования результатов, полученных по переведенному запросу. Если у переведенного запроса высокий CTR на его родном языке, результаты получат повышение (boost) при смешивании с результатами исходного запроса. Это механизм контроля качества.

Означает ли это, что я должен оптимизировать весь визуальный контент на английском?

Это означает, что оптимизация метаданных (alt-тексты, заголовки) на английском или другом доминирующем языке в вашей нише является стратегически выгодной. Если ваш контент на этом языке качественный и имеет высокий CTR, он сможет эффективно ранжироваться по запросам пользователей, ищущих на других языках, через этот механизм CLIR.

Может ли система перевести запрос на несколько языков одновременно?

Да, патент (в частности, Claim 6) предусматривает возможность выбора дополнительных языков (третий язык и т.д.). Система может продолжить итерацию и добавить результаты поиска по дополнительным переведенным запросам в финальную выдачу, учитывая Quality of Results Statistic для каждого из них.

Как я могу повлиять на IDF терминов, описывающих мой контент?

Напрямую повлиять на IDF (глобальную статистику корпуса) нельзя. Однако вы можете выбирать для описания контента термины, которые являются общепринятыми — не слишком общими и не слишком редкими. Анализ семантики и стандартных фраз в нише помогает выбрать термины с оптимальным IDF.

Что такое Confidence Bins и как они используются?

Confidence Bins — это способ упростить использование CTR при ранжировании. Вместо использования точного значения CTR (например, 0.935), система классифицирует его в одну из категорий (например, «High Confidence»). Это позволяет применять стандартизированные коэффициенты повышения для разных уровней качества перевода.

Использует ли система информацию о местоположении пользователя при расчете CTR?

Да, патент упоминает такую возможность. CTR может быть рассчитан для определенной популяции пользователей, например, только для тех, кто находится в регионе, где говорят на целевом языке перевода. Для этого могут использоваться IP-адреса, доменные зоны или настройки пользователя.