Google улучшает поиск визуального контента (картинки, видео), переводя исходный запрос пользователя на другие языки. Система рассчитывает «Статистику качества результатов» (например, CTR и время взаимодействия) для переведенного запроса. Если качество высокое, результаты на языке перевода подмешиваются в выдачу и ранжируются с учетом этой статистики, улучшая международную выдачу.
Описание
Какую задачу решает
Патент решает проблему дефицита релевантных результатов поиска, когда пользователь ищет информацию на языке, в котором искомый концепт не популярен. Например, поиск информации о достопримечательности США на голландском языке может дать мало результатов по сравнению с поиском на английском. Это особенно актуально для поиска визуального медиа (изображения, видео), контент которого часто не зависит от языка. Изобретение направлено на улучшение полноты (Recall) в кросс-языковом поиске (Cross-Lingual Information Retrieval — CLIR) для визуального контента.
Что запатентовано
Запатентована система для улучшения поиска визуального медиа путем автоматического расширения запроса его переводом на другой язык. Ключевым элементом является использование Статистики качества результатов (Quality of Results Statistic, QoRS) для оценки релевантности и качества переведенного запроса. QoRS основывается на поведенческих данных (например, CTR, Dwell Time) из истории поиска. Система объединяет результаты исходного запроса и переведенного запроса, используя QoRS для взвешивания и ранжирования результатов перевода.
Как это работает
Система работает следующим образом:
- Перевод: Исходный запрос (Язык A) переводится на другой язык (Язык B).
- Оценка качества перевода (QoRS): Система извлекает Статистику качества результатов (QoRS) для переведенного запроса (Язык B), анализируя исторические данные о том, как часто пользователи кликали на результаты по этому запросу (CTR) и как долго их просматривали (Dwell Time).
- Формирование финального запроса: Создается финальный запрос, объединяющий Язык A, Язык B и QoRS. QoRS может быть преобразована в дискретные корзины доверия (Confidence Bins).
- Ранжирование и смешивание: Поисковая система выполняет финальный запрос. Результаты, соответствующие переводу (Язык B), ранжируются с весом, основанным на QoRS или соответствующей корзине доверия. Затем результаты объединяются.
Актуальность для SEO
Высокая. Кросс-языковой поиск (CLIR) и поиск по визуальному контенту остаются критически важными направлениями для Google. Методы использования поведенческих данных для валидации автоматических переводов и расширений запросов являются фундаментальными в современном поиске. Хотя конкретная реализация могла эволюционировать (например, с использованием нейронных сетей), описанный принцип интеграции CTR и Dwell Time для оценки качества перевода остается актуальным.
Важность для SEO
Влияние на SEO значительное (7/10), но специфичное. Патент напрямую касается международного SEO и оптимизации визуального контента (Image Search, Video Search). Он объясняет механизм, позволяющий контенту на доминирующем для тематики языке (часто английском) появляться в результатах поиска на других языках. Это подчеркивает важность оптимизации визуальных активов под высокочастотные запросы с высоким CTR на наиболее релевантном для концепта языке, а не только на локальном языке пользователя.
Детальный разбор
Термины и определения
- Confidence Bins (Корзины доверия)
- Дискретные категории, используемые для классификации QoRS. Например, «очень низкое доверие» (QoRS 0-0.25), «низкое», «среднее» и «высокое доверие». Используются для определения веса результатов переведенного запроса при ранжировании.
- Click Through Rate (CTR)
- Основной пример QoRS в патенте. Рассчитывается как количество кликов по результатам после отправки запроса, деленное на общее количество отправок этого запроса.
- Dwell Time (Время взаимодействия)
- Время, которое пользователь проводит, просматривая результат поиска после клика. Используется как компонент QoRS. Может измеряться в секундах или дискретных интервалах (например, «короткие клики», «средние клики», «длинные клики»).
- Final Search Query (Финальный поисковый запрос)
- Скомбинированный запрос, созданный системой. Включает исходный запрос, переведенный запрос и информацию о QoRS (или Confidence Bin). Используется для выполнения поиска и ранжирования.
- Quality of Results Statistic (QoRS) (Статистика качества результатов)
- Ключевая метрика патента. Оценка ожидаемой релевантности результатов, отвечающих переведенному запросу. Измеряет частоту, с которой пользователи выбирают результат поиска после отправки запроса, похожего на переведенный.
- Search Histories (Истории поиска)
- Агрегированные данные о поведении пользователей, включающие последовательности запросов, выбранные результаты и Dwell Time. Являются источником данных для расчета QoRS.
- Visual Media (Визуальное медиа)
- Контент, на который сфокусирован патент: изображения, видео, изображения/видео, встроенные в файлы, интерактивные медиа (например, игры на Javascript).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод улучшения поиска визуального медиа.
- Система получает первый запрос (Язык 1) и второй запрос (Язык 2), который является переводом первого.
- Получается QoRS для второго запроса (оценка ожидаемой релевантности).
- Создается Final Search Query, включающий оба запроса и информацию о QoRS.
- Запрос отправляется поисковой системе, и получается финальная группа результатов, содержащая результаты для обоих языков.
- Каждому результату присваивается оценка (score) на основе QoRS.
- Критическое уточнение: Каждому результату присваивается одна из Confidence Bins на основе QoRS. Результаты, соответствующие второму (переведенному) запросу, получают оценку, основанную частично на этой Confidence Bin.
Ядром изобретения является использование поведенческой метрики (QoRS) для определения веса результатов, полученных через машинный перевод. Система использует дискретизацию (Confidence Bins) для применения этого веса при ранжировании. Это позволяет агрессивно продвигать результаты перевода только тогда, когда система уверена в его качестве, основываясь на исторических данных о кликах.
Claim 2, 3, 4 (Зависимые): Детализируют состав QoRS.
- QoRS может быть CTR для запросов, похожих на второй запрос (Claim 2) или идентичных ему (Claim 3).
- QoRS отражает Dwell Time для результатов, выбранных пользователями после отправки похожего запроса (Claim 4).
Подтверждается, что CTR и Dwell Time являются основными компонентами оценки качества перевода.
Где и как применяется
Изобретение применяется в основном на этапах понимания запроса и метапоиска/смешивания, специфично для вертикалей визуального поиска (Images, Video).
INDEXING – Индексирование и извлечение признаков
Система должна собирать и хранить Search Histories, включая данные о запросах, кликах и Dwell Time. Эти данные обрабатываются для предварительного расчета QoRS для различных запросов.
QUNDERSTANDING – Понимание Запросов
Это ключевой этап применения патента:
- Перевод: Translation Engine переводит исходный запрос.
- Извлечение QoRS: Quality of Results Statistic Obtainer получает (рассчитывает или извлекает из базы) QoRS для перевода.
- Создание запроса: Query Creator определяет Confidence Bin на основе QoRS и формирует Final Search Query.
METASEARCH – Метапоиск и Смешивание / RANKING – Ранжирование
Results Generator и Search Engine Backend выполняют Final Search Query. Происходит смешивание результатов на разных языках. Система применяет корректировку ранжирования: вес результатов переведенного запроса определяется на основе назначенной Confidence Bin.
Входные данные:
- Исходный запрос пользователя.
- Перевод запроса.
- Исторические данные поиска (Search Histories) или предварительно рассчитанные QoRS.
Выходные данные:
- Final Search Query (внутренний).
- Смешанный набор визуальных результатов поиска с ранжированием, скорректированным на основе QoRS.
На что влияет
- Конкретные типы контента: Патент строго ограничен Visual Media (изображения, видео, встроенный контент). Он не описывает применение к стандартному веб-поиску.
- Специфические запросы: Влияет на запросы, где наблюдается кросс-языковой интент или где концепт значительно более популярен (имеет больше контента и выше QoRS) на языке, отличном от языка запроса пользователя.
- Конкретные ниши или тематики: Глобальные темы, международные бренды, достопримечательности, знаменитости, продукты с универсальными названиями.
- Языковые и географические ограничения: Система специально разработана для преодоления языковых барьеров. Упоминается, что QoRS может рассчитываться для конкретной популяции пользователей (например, на основе местоположения, определяемого по IP или домену), что позволяет учитывать региональные особенности.
Когда применяется
Алгоритм применяется в системах поиска визуального медиа. Патент не указывает конкретных триггеров для активации перевода (например, дефицит результатов на исходном языке), но описывает, как система обрабатывает уже полученный перевод. Логично предположить, что он активируется, когда система CLIR идентифицирует потенциально полезный перевод запроса на другой язык.
Пошаговый алгоритм
Процесс обработки запроса визуального медиа:
- Получение запроса: Система получает первый поисковый запрос на Языке A.
- Получение перевода: Система получает (или генерирует с помощью Translation Engine) второй поисковый запрос на Языке B, который является переводом первого.
- Получение QoRS: Quality of Results Statistic Obtainer получает QoRS для второго запроса. Это может включать расчет CTR и анализ Dwell Time на основе Search Histories или извлечение предварительно рассчитанного значения.
- Определение доверия: Query Creator анализирует QoRS. В одном из вариантов реализации QoRS сопоставляется с одной из предопределенных Confidence Bins (например, Низкая, Средняя, Высокая).
- Создание финального запроса: Query Creator создает Final Search Query, который инструктирует поисковую систему искать результаты для Языка A и Языка B, указывая вес или доверие (Confidence Bin) для Языка B.
- Выполнение поиска: Search Engine Backend выполняет финальный запрос по индексу(ам) визуального медиа.
- Ранжирование и смешивание: Система получает результаты. Оценка (Score) результатов, соответствующих Языку B, корректируется на основе назначенной Confidence Bin. Результаты объединяются и ранжируются по итоговой оценке.
- Презентация: Results Presenter предоставляет смешанную выдачу пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на использовании поведенческих и географических данных для валидации перевода запроса.
- Поведенческие факторы: Критически важные данные. Используются Search Histories, которые включают:
- Последовательности отправленных запросов.
- Выбранные пользователями результаты (клики).
- Dwell Time (продолжительность просмотра выбранных результатов).
- Географические факторы: QoRS может быть рассчитана для определенной популяции пользователей, например, пользователей из местоположения, где часто используется язык перевода. Местоположение определяется через IP-адрес, специфичные для страны домены (например, .uk, .bg) или пользовательские настройки.
Контентные, технические, ссылочные и другие факторы в патенте не упоминаются.
Какие метрики используются и как они считаются
- Quality of Results Statistic (QoRS): Агрегированная метрика ожидаемого качества и релевантности переведенного запроса.
- Click Through Rate (CTR): Основной метод расчета QoRS. Формула: (Количество раз, когда пользователи выбрали результат после отправки запроса) / (Общее количество отправок запроса).
- Dwell Time: Используется для уточнения QoRS. Более длительное время взаимодействия ассоциируется с более высоким качеством результатов.
- Popularity of the query (Популярность запроса): Упоминается как возможное уточнение для QoRS. Определяется как процент запросов в Search Histories, которые достаточно похожи на данный запрос. Высокая популярность может повышать QoRS.
- Confidence Bins: Метод дискретизации QoRS. Например, QoRS масштабируется от 0 до 1 и распределяется по корзинам (например, 0-0.25, 0.25-0.5 и т.д.). Эти корзины используются вместо непрерывного значения QoRS при ранжировании.
Выводы
- Фокус на визуальном поиске и CLIR: Патент описывает конкретный механизм кросс-языкового поиска (CLIR), предназначенный исключительно для визуального медиа. Система стремится улучшить полноту выдачи, используя переводы запросов.
- Поведенческие сигналы как валидатор перевода: Ключевая идея — использование агрегированных поведенческих данных (CTR и Dwell Time) в качестве Статистики качества результатов (QoRS). Это позволяет системе оценить, насколько хорош перевод и насколько релевантны результаты по нему, не анализируя сам контент.
- QoRS определяет вес в ранжировании: Вес, который получают результаты переведенного запроса в финальной выдаче, напрямую зависит от QoRS. Если QoRS высока, переведенные результаты могут ранжироваться выше результатов на исходном языке.
- Использование Confidence Bins: Система может дискретизировать QoRS в Корзины доверия (например, низкое/высокое). Это упрощает механизм взвешивания при ранжировании и позволяет устанавливать четкие пороги для продвижения переведенных результатов.
- Глобальный охват доминирующего контента: Механизм способствует глобальному распространению визуального контента, созданного на языке, доминирующем в данной тематике. Контент, оптимизированный под запросы с высоким QoRS на английском языке, будет иметь преимущество в международном визуальном поиске.
Практика
Best practices (это мы делаем)
- Оптимизация под доминирующий язык концепта: Для визуального контента (изображения, видео) определите основной язык, на котором этот концепт наиболее популярен (часто английский). Оптимизируйте метаданные (Alt text, заголовки страниц, окружающий текст) под высокочастотные и релевантные запросы на этом доминирующем языке. Это обеспечит глобальный охват в Image/Video Search.
- Максимизация CTR и вовлеченности (Dwell Time): Поскольку QoRS основана на CTR и Dwell Time, критически важно стимулировать клики и длительное взаимодействие. Используйте высококачественные, привлекательные и релевантные миниатюры для изображений и видео. Убедитесь, что контент на целевой странице соответствует ожиданиям пользователя, чтобы избежать коротких кликов.
- Анализ международного спроса: При исследовании ключевых слов для визуального контента анализируйте спрос не только на локальном рынке, но и глобально. Фокусируйтесь на запросах, которые демонстрируют высокую вовлеченность в ключевых языковых сегментах.
- Техническая оптимизация визуального контента: Обеспечьте высокое качество и быструю загрузку визуальных активов. Хороший пользовательский опыт способствует увеличению Dwell Time, что положительно влияет на QoRS.
Worst practices (это делать не надо)
- Изолированная локальная оптимизация: Полагаться исключительно на оптимизацию визуального контента на локальном языке для глобально известных тем. Если QoRS для локальных запросов низка, система предпочтет контент на другом языке с высокой QoRS.
- Использование кликбейтных миниатюр: Использование вводящих в заблуждение миниатюр для искусственного повышения CTR. Это приведет к коротким кликам (низкий Dwell Time), что в итоге понизит QoRS для связанных запросов.
- Игнорирование Alt text и контекста на доминирующем языке: Размещение качественных изображений без соответствующей текстовой оптимизации на релевантном языке. Система не сможет сопоставить изображение с переведенным запросом.
Стратегическое значение
Патент подтверждает стратегическую важность поведенческих сигналов не только для прямого ранжирования, но и для процессов понимания и валидации запросов (Query Understanding). В контексте международного SEO для визуального контента, этот патент ставит во главу угла оптимизацию под интент и поведенческие метрики на доминирующем языке тематики. Стратегия должна быть направлена на создание лучшего визуального ответа на запрос в глобальном масштабе, что позволит воспользоваться механизмами CLIR для охвата международной аудитории.
Практические примеры
Сценарий: Оптимизация изображений для международного интернет-магазина кроссовок.
Задача: Обеспечить видимость фотографий модели «Nike Air Max 270» в поиске по картинкам в Испании, Германии и Японии.
- Анализ и Оптимизация: SEO-специалист определяет, что доминирующим языком для этого продукта является английский. Изображения оптимизируются (Alt text, названия файлов, контент страницы) под английские запросы с высокой вовлеченностью (например, «Nike Air Max 270 white on feet»).
- Повышение QoRS: Магазин использует высококачественные фотографии и обеспечивает отличный UX, что приводит к высокому CTR и Dwell Time по этим английским запросам. Google фиксирует высокую QoRS.
- Обработка международного запроса: Пользователь в Японии ищет «ナイキ エア マックス 270». Google переводит этот запрос на английский («Nike Air Max 270»).
- Применение механизма: Система обнаруживает высокую QoRS для английского перевода и присваивает ему высокую Confidence Bin.
- Результат: Фотографии из интернет-магазина (с английской оптимизацией) получают значительное повышение в ранжировании и показываются высоко в результатах поиска по картинкам японскому пользователю, даже если на сайте нет японской локализации для этих изображений.
Вопросы и ответы
Применяется ли этот патент к обычному веб-поиску (10 синих ссылок)?
Нет. Патент строго и неоднократно указывает, что описанный метод предназначен для поиска визуального медиа (Visual Media Search), такого как изображения и видео. Хотя Google может использовать схожие принципы CLIR в веб-поиске, данный патент описывает реализацию именно для визуальных вертикалей.
Что такое «Статистика качества результатов» (QoRS) и как она рассчитывается?
QoRS — это оценка ожидаемой релевантности и качества результатов для переведенного запроса. В патенте указаны два основных компонента для ее расчета: Click Through Rate (CTR) (отношение кликов к показам запроса) и Dwell Time (время, проведенное пользователем на странице результата). Высокие значения этих метрик повышают QoRS.
Как Google решает, на какой язык переводить исходный запрос?
Этот патент не описывает механизм выбора целевого языка для перевода. Он фокусируется на том, как оценить качество (валидировать) уже существующего перевода и как использовать эту оценку при ранжировании. Выбор языка для перевода, вероятно, определяется другими системами CLIR.
Что такое «Корзины доверия» (Confidence Bins) и зачем они нужны?
Confidence Bins — это способ дискретизации непрерывного значения QoRS. Например, вместо использования точного значения CTR 0.643, система может отнести его к категории «Среднее доверие». Это упрощает механизм ранжирования, позволяя применять предопределенные веса к результатам перевода в зависимости от уровня доверия (Низкое, Среднее, Высокое).
На каком языке мне следует оптимизировать изображения: на английском или на моем локальном языке?
Стратегически важнее оптимизировать визуальный контент на том языке, где искомый концепт наиболее популярен и имеет наибольший объем поиска и вовлеченность (высокий потенциальный QoRS). Для глобальных тем это часто английский. Если концепт сугубо локальный, следует сосредоточиться на локальном языке.
Насколько важен Dwell Time в этом патенте?
Dwell Time упоминается как важный компонент QoRS. Патент указывает, что более длительное время взаимодействия (long clicks) ассоциируется с более высоким качеством результатов. Это означает, что оптимизация пользовательского опыта на целевой странице и предотвращение «pogo-sticking» (коротких кликов) критичны для достижения высокого QoRS.
Означает ли это, что Google игнорирует результаты на исходном языке запроса?
Нет, система создает смешанную выдачу (blending), включающую результаты как на исходном языке, так и на языке перевода. Однако, если QoRS для перевода очень высока (высокая Confidence Bin), результаты перевода могут получить значительное повышение и занять более высокие позиции, чем результаты на исходном языке.
Как этот патент влияет на стратегию международного SEO?
Для визуального поиска он подчеркивает важность централизованной стратегии. Вместо того чтобы пытаться оптимизировать визуальные активы на десятках языков, эффективнее сосредоточиться на оптимизации под доминирующий язык тематики. Это позволит использовать механизмы CLIR для достижения глобальной видимости.
Является ли перевод запроса автоматическим?
Да, система предполагает использование Translation Engine для автоматического перевода запроса. Весь процесс (перевод, оценка QoRS, смешивание) происходит автоматически в момент обработки запроса пользователя без его участия в переводе.
Как я могу улучшить QoRS для моих целевых запросов?
Необходимо работать над повышением CTR и Dwell Time для этих запросов в поиске по картинкам/видео. Это достигается за счет использования высококачественных и привлекательных миниатюр, точной контекстуальной релевантности (соответствие изображения окружающему тексту и метаданным) и обеспечения положительного пользовательского опыта на целевой странице.