Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует поведение пользователей для автоматического перевода запросов в поиске по картинкам и видео

    QUERY TRANSLATION USING BILINGUAL SEARCH REFINEMENTS (Перевод запросов с использованием двуязычных уточнений поиска)
    • US8577909B1
    • Google LLC
    • 2013-11-05
    • 2009-06-09
    2009 Мультиязычность Патенты Google Поведенческие сигналы Семантика и интент

    Google улучшает поиск по визуальному контенту (картинки, видео), анализируя, как пользователи переформулируют запросы на других языках в рамках одной сессии. Если пользователь ввел запрос на одном языке, а затем его перевод на другом, система запоминает эту связь («двуязычное уточнение»). В дальнейшем система автоматически добавляет самый популярный перевод к исходному запросу, чтобы показать больше релевантных результатов на разных языках.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченного количества результатов в поиске по визуальным медиа (visual media search), когда язык запроса пользователя не совпадает с основным языком, на котором обсуждается искомый концепт. Например, при поиске «Golden Gate Bridge» на голландском языке результатов будет меньше, чем на английском. Изобретение направлено на увеличение полноты (recall) поисковой выдачи за счет включения релевантных результатов на других языках, учитывая, что визуальный контент часто не зависит от языка.

    Что запатентовано

    Запатентована система для автоматического расширения запросов в поиске по визуальным медиа с помощью перевода, основанного на анализе поведения пользователей. Система идентифицирует «двуязычные уточнения» (bilingual refinements) — ситуации, когда пользователь в рамках одной сессии вводит запрос на одном языке, а затем его перевод на другом. Система агрегирует эту информацию и использует наиболее частый перевод для автоматического дополнения исходного запроса пользователя, чтобы найти результаты на обоих языках.

    Как это работает

    Механизм работает в два этапа: анализ данных и обработка запроса.

    1. Идентификация уточнений (Офлайн/Непрерывно): Система анализирует истории поисковых сессий пользователей. Она ищет паттерны, где за исходным запросом (initial query) на Языке 1 следует последующий запрос (subsequent query) на Языке 2 в пределах определенного порога (threshold), и при этом второй запрос является переводом первого. Эта пара сохраняется как bilingual refinement.
    2. Обработка запроса (Онлайн): Когда поступает новый запрос для поиска по визуальным медиа, система ищет соответствующие ему сохраненные bilingual refinements.
    3. Выбор перевода: Из всех найденных уточнений выбирается одно, чаще всего на основе частотности (наиболее популярный перевод среди пользователей).
    4. Расширение и Поиск: Исходный запрос дополняется выбранным переводом (например, через оператор OR или путем слияния результатов двух отдельных поисков), и система генерирует комбинированную выдачу.

    Актуальность для SEO

    Высокая. Кросс-язычный информационный поиск (CLIR) критически важен для глобальных поисковых систем. Использование поведенческих данных (wisdom of the crowds) для понимания и переписывания запросов является стандартной практикой Google. Этот патент описывает конкретное применение этой стратегии для улучшения поиска по картинкам и видео, где язык контента менее критичен, чем его визуальное содержание.

    Важность для SEO

    Патент имеет значительное влияние (7.5/10) на стратегии в области поиска по картинкам и видео (Visual Search SEO). Он объясняет, как визуальный контент, оптимизированный на одном (доминирующем для темы) языке, может ранжироваться по запросам на других языках без специальной оптимизации под них. Это снижает необходимость в многоязычной оптимизации визуальных активов, если поведенческие данные подтверждают релевантность основного языка.

    Детальный разбор

    Термины и определения

    Bilingual Refinement (Двуязычное уточнение)
    Связь между исходным запросом на первом языке и последующим запросом на втором языке. Устанавливается, если второй запрос является переводом первого и был введен тем же пользователем в рамках одной сессии в пределах заданного порога.
    Visual Media Search Query (Поисковый запрос по визуальным медиа)
    Запрос, предназначенный для поиска визуального контента (изображения, видео, встроенные медиафайлы, интерактивные медиа).
    Session (Сессия)
    Период активности пользователя, в течение которого он выполняет поисковые запросы. Может измеряться временем, количеством запросов или периодом неактивности.
    Initial Query (Исходный запрос)
    Первый запрос в паре, составляющей bilingual refinement.
    Subsequent Query (Последующий запрос)
    Второй запрос в паре, являющийся переводом initial query на другой язык.
    Threshold (Порог)
    Критерий близости между initial query и subsequent query в рамках одной сессии. Может измеряться количеством промежуточных запросов (например, не более 5) или временем (например, в течение 5 минут).
    Combined Query (Комбинированный запрос)
    Новый запрос, сформированный путем объединения исходного запроса пользователя и перевода, полученного из выбранного bilingual refinement.
    User Search Histories (Истории поиска пользователей)
    Логи, хранящие последовательности запросов, введенных пользователями, используемые для идентификации Bilingual Refinements.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает полный цикл идентификации, хранения и использования двуязычных уточнений.

    1. Система получает первый запрос (Query 1) на первом языке.
    2. После этого система получает набор последующих запросов, каждый из которых получен в пределах заданного порога (predetermined threshold) от Query 1.
    3. Для каждого последующего запроса система выполняет проверку: переводит его термины на первый язык и сравнивает с терминами Query 1.
    4. Система определяет, что один из последующих запросов (Selected Query) является переводом Query 1 на второй язык.
    5. Система сохраняет термины Selected Query как bilingual refinement для Query 1.
    6. Позже система получает новый запрос от пользователя (Query 2) на первом языке (соответствующий Query 1).
    7. Система дополняет (augments) Query 2 с помощью терминов из Selected Query.
    8. Система получает результаты поиска, релевантные как Query 2 (Язык 1), так и Selected Query (Язык 2).

    Claim 2 и 3 (Зависимые): Уточняют, что метод применяется к поиску по визуальным медиа (visual media search query), и что дополнение (augmenting) включает генерацию комбинированного поискового запроса (combined visual media search query).

    Claim 4 (Зависимый): Определяет критерий выбора уточнения. Дополнение запроса включает выбор bilingual refinement, который является наиболее часто встречающимся (most frequently appearing) уточнением для данного запроса, и генерацию комбинированного запроса.

    Claim 5 и 6 (Зависимые): Определяют природу порога (threshold). Порог может быть задан как период времени (predetermined time period) или как количество запросов (predetermined number of queries).

    Где и как применяется

    Изобретение применяется на нескольких этапах поисковой архитектуры, затрагивая как офлайн-процессы анализа данных, так и онлайн-обработку запросов.

    CRAWLING & Data Acquisition (Сбор данных)
    На этом этапе собираются данные, необходимые для работы алгоритма, а именно — журналы поисковых запросов пользователей (user search histories), включая последовательность запросов и метки сессий.

    QUNDERSTANDING – Понимание Запросов (Офлайн-процесс)
    Основной этап для идентификации Bilingual Refinements. Система анализирует собранные журналы запросов, применяет лингвистический анализ (перевод) для валидации и фильтрует их по критериям сессии и порогов. Результаты сохраняются в базу данных (Bilingual Refinement Database).

    QUNDERSTANDING – Понимание Запросов (Онлайн-процесс)
    Во время получения запроса по визуальным медиа система обращается к базе данных Bilingual Refinements. Происходит выбор наиболее подходящего (наиболее частотного) уточнения и переписывание (расширение) исходного запроса в Combined Query.

    RANKING – Ранжирование
    Поисковый движок (Search Engine Backend) выполняет поиск на основе расширенного Combined Query. Система ранжирует результаты, которые могут быть на разных языках.

    Входные данные (Офлайн):

    • Журналы поисковых сессий пользователей (User Search Histories).
    • Лингвистические данные или инструменты для определения перевода между запросами.

    Входные данные (Онлайн):

    • Входящий Visual Media Search Query.
    • База данных Bilingual Refinements.

    Выходные данные:

    • Набор результатов поиска по визуальным медиа, включающий контент как на языке исходного запроса, так и на языке перевода.

    На что влияет

    • Конкретные типы контента: Влияет исключительно на поиск по визуальным медиа (Visual Media) — изображениям и видео. Патент подчеркивает, что этот тип контента хорошо подходит для кросс-язычного поиска, так как визуальная информация часто не зависит от языка.
    • Специфические запросы: Наибольшее влияние оказывается на запросы, относящиеся к концептам, популярность которых сильно варьируется в зависимости от языка (например, достопримечательности, знаменитости, локальные события).
    • Языковые ограничения: Механизм направлен на преодоление языковых барьеров, позволяя контенту на доминирующем языке (часто английском) ранжироваться по запросам на менее распространенных языках.

    Когда применяется

    • Условия работы алгоритма: Алгоритм применяется только при поиске по визуальным медиа (Images, Video Search).
    • Триггеры активации: Активируется, если для входящего запроса существует предварительно рассчитанное и сохраненное Bilingual Refinement в базе данных.
    • Ограничения: Не применяется, если пользователи не демонстрируют поведение по смене языка для данного концепта или если система не может надежно определить перевод в рамках сессии.

    Пошаговый алгоритм

    Процесс А: Идентификация двуязычных уточнений (Офлайн или в реальном времени)

    1. Сбор данных: Получение серии поисковых запросов от пользователя в рамках одной сессии.
    2. Определение Исходного Запроса: Выбор запроса на Языке 1 в качестве кандидата на Initial Query.
    3. Фильтрация Последующих Запросов: Выбор запросов, следующих за Initial Query в той же сессии и в пределах заданного порога (Threshold) по времени или количеству запросов.
    4. Лингвистический анализ (Валидация): Проверка, является ли какой-либо из последующих запросов (на Языке 2) переводом Initial Query. Это включает перевод последующего запроса обратно на Язык 1 и сравнение с Initial Query. Могут учитываться приблизительные переводы, сленг, синонимы.
    5. Идентификация: Если перевод найден и валидирован, пара {Initial Query, Subsequent Query} идентифицируется как Bilingual Refinement.
    6. Хранение: Сохранение Bilingual Refinement в базе данных для последующего использования.

    Процесс Б: Обработка запроса по визуальным медиа (Онлайн)

    1. Получение запроса: Получение Visual Media Search Query на Языке 1.
    2. Поиск уточнений: Идентификация всех сохраненных Bilingual Refinements, где Initial Query эквивалентен входящему запросу.
    3. Выбор уточнения: Выбор одного Bilingual Refinement на основе заданного критерия. Основной критерий — выбор наиболее часто встречающегося (most frequently appearing) уточнения.
    4. Генерация перевода: Извлечение Subsequent Query (перевод на Языке 2) из выбранного уточнения.
    5. Расширение запроса (Augmentation): Генерация результатов поиска на основе исходного запроса (Язык 1) и перевода (Язык 2). Это может быть реализовано через:
      • Формирование единого Combined Query (например, Язык 1 OR Язык 2) с равными или разными весами.
      • Выполнение двух отдельных поисков и последующее объединение результатов.
    6. Представление результатов: Предоставление пользователю объединенного набора визуальных медиа результатов.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на использовании поведенческих и лингвистических данных для переписывания запросов.

    • Поведенческие факторы: Это ключевые данные для изобретения. Используются истории поиска пользователей (user search histories) или потоки запросов в реальном времени. Анализируется последовательность запросов, границы сессий (session) и близость запросов друг к другу.
    • Лингвистические данные (Языковые факторы): Система использует механизмы перевода для валидации того, что один запрос является переводом другого. Упоминается, что перевод не обязательно должен быть точным; могут использоваться приблизительные переводы, сленг или синонимы.

    Какие метрики используются и как они считаются

    • Frequency (Частотность): Основная метрика для выбора наилучшего Bilingual Refinement. Подсчитывается, сколько раз конкретная пара {Query A, Query B} была идентифицирована в журналах поиска. Выбирается наиболее частотная пара.
    • Threshold (Порог близости): Метрика для определения валидности Bilingual Refinement. Измеряет расстояние между исходным и последующим запросом в сессии. Определяется как максимальное время или максимальное количество промежуточных запросов.
    • Session Boundary (Граница сессии): Метрика для группировки запросов. Определяется как максимальное время неактивности, фиксированный период времени или количество запросов.
    • Translation Equivalence (Эквивалентность перевода): Метрика, определяющая, является ли один запрос переводом другого, используемая на этапе валидации.

    Выводы

    1. Поведенческие данные как источник перевода: Ключевой вывод заключается в том, что Google использует анализ поведения пользователей (смену языка в рамках сессии) как надежный источник для определения наилучшего перевода запроса, вместо того чтобы полагаться исключительно на словари или машинный перевод.
    2. Фокус на Visual Media Search: Механизм специально разработан для поиска по картинкам и видео. В этой области кросс-язычный поиск особенно эффективен, так как визуальный контент понятен независимо от языка окружающего текста.
    3. Частотность как мера качества перевода: Система предполагает, что перевод, к которому пользователи прибегают чаще всего (most frequently appearing), является наиболее релевантным и полезным для расширения поиска.
    4. Увеличение полноты выдачи (Recall): Основная цель механизма — увеличить количество релевантных результатов для запросов на языках, которые не являются доминирующими для искомого концепта.
    5. Автоматическое расширение запроса: Пользователю не нужно знать о существовании перевода; система автоматически дополняет запрос наиболее вероятным переводом, основываясь на агрегированных данных других пользователей.
    6. Важность контекста сессии: Идентификация перевода зависит от контекста сессии и близости запросов (Threshold), что гарантирует связь запросов одной информационной потребностью.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под доминирующий язык концепта: Определите основной язык, на котором обсуждается объект или тема ваших визуальных материалов (часто это английский, но может быть и локальный язык). Убедитесь, что изображения и видео максимально оптимизированы на этом языке (Alt-тексты, заголовки, окружающий текст, имена файлов). Это повышает вероятность того, что ваш контент будет показан по запросам на других языках через механизм Bilingual Refinements.
    • Создание сильных сигналов релевантности: Используйте четкие и описательные тексты для визуального контента на основном языке страницы. Чем точнее система поймет содержание изображения, тем выше шанс, что оно будет сочтено релевантным для переведенного запроса.
    • Использование естественной лексики при локализации: Если сайт мультиязычный, используйте переводы, которые соответствуют реальной лексике пользователей. Поскольку Google учится на поведении пользователей, использование естественных терминов повышает релевантность вашего контента для расширенных запросов.

    Worst practices (это делать не надо)

    • Игнорирование основного языка темы: Оптимизация визуального контента только на локальном (не доминирующем) языке может привести к потере трафика. Например, оптимизация фото Эйфелевой башни только на русском языке менее эффективна, чем оптимизация на французском или английском, так как пользователи часто переключаются на эти языки.
    • Низкокачественный машинный перевод метаданных: Не стоит массово переводить Alt-тексты и описания на множество языков с низким качеством. Система предпочитает использовать переводы, подтвержденные поведением пользователей, а не автоматические.
    • Ключевой спам на разных языках: Добавление переводов ключевых слов в Alt-текст или скрытый текст вокруг изображения. Механизм генерирует переводы на основе поведения пользователей, а не контента вашей страницы.

    Стратегическое значение

    Патент подтверждает важность поведенческих сигналов в интерпретации запросов и демонстрирует конкретный механизм кросс-язычного поиска (CLIR) в Google Images и Video. Для SEO-стратегии это означает, что в поиске по визуальным медиа границы между языками размыты. Авторитетность и релевантность контента на доминирующем языке могут обеспечить глобальную видимость, так как система самостоятельно «переводит» запросы пользователей, опираясь на их же поведение.

    Практические примеры

    Сценарий: Оптимизация изображений достопримечательности

    Задача: Оптимизировать фотографии Эйфелевой башни на сайте туристического агентства.

    1. Анализ (Основываясь на патенте): Система Google анализирует логи. Она видит, что пользователи, ищущие «De Toren Van Eiffel» (голландский), часто затем ищут «Tour Eiffel» (французский) в той же сессии. «Tour Eiffel» становится самым частотным Bilingual Refinement.
    2. Действия SEO-специалиста: Специалист определяет, что французский («Tour Eiffel») и английский («Eiffel Tower») являются доминирующими языками для этого объекта. Он обеспечивает, чтобы все изображения были качественно оптимизированы на этих языках. Например, Alt-текст: «Photo of the Tour Eiffel in Paris at sunset».
    3. Ожидаемый результат: Когда новый пользователь ищет «De Toren Van Eiffel» в Google Images, система автоматически расширяет запрос до [«De Toren Van Eiffel» OR «Tour Eiffel»]. Изображения, оптимизированные под «Tour Eiffel», получают возможность ранжироваться по голландскому запросу и показываются в выдаче.

    Вопросы и ответы

    Применяется ли этот патент к обычному веб-поиску (синие ссылки)?

    Нет. Патент явно указывает, что описанный метод предназначен для поиска по визуальным медиа (Visual Media Search), таким как изображения и видео. Это связано с тем, что визуальный контент часто понятен без знания языка, что делает кросс-язычный поиск более приемлемым для пользователя, чем в веб-поиске, где язык документа критичен.

    Как система определяет, какой перевод использовать, если их несколько?

    Система выбирает перевод на основе частотности. Она анализирует, на какой язык пользователи чаще всего переключаются после ввода исходного запроса в рамках одной сессии. Тот перевод (Bilingual Refinement), который встречается наиболее часто (most frequently appearing), и будет использован для автоматического расширения запроса.

    Откуда система берет переводы? Используется ли Google Translate?

    Основной источник переводов в этом патенте — это поведение самих пользователей. Система идентифицирует перевод, когда пользователь вводит его самостоятельно в рамках той же сессии. Однако патент (Claim 1) указывает, что системе необходим механизм для валидации того, что второй запрос действительно является переводом первого (путем перевода обратно на первый язык и сравнения). Для этой валидации могут использоваться инструменты перевода.

    Что такое «порог» (Threshold) в контексте этого патента?

    Порог определяет максимальное расстояние между исходным запросом и его переводом в рамках одной сессии, чтобы они считались связанными. Если пользователь ввел запрос А, затем 10 других запросов, и только потом перевод запроса А, они могут не быть засчитаны как Bilingual Refinement. Порог может измеряться временем (например, 5 минут) или количеством промежуточных запросов (например, 3 запроса).

    Значит ли это, что мне не нужно оптимизировать изображения на разных языках?

    Это снижает необходимость в многоязычной оптимизации, но не устраняет ее полностью. Рекомендуется сосредоточиться на оптимизации визуального контента на доминирующем языке для данной темы. Если тема глобальна (например, «Mona Lisa»), оптимизация на английском или итальянском позволит охватить многие другие языки автоматически. Если тема строго локальна, следует использовать местный язык.

    Как этот механизм влияет на вес запросов? Перевод важнее оригинала?

    Патент описывает несколько вариантов реализации. Система может объединить исходный запрос и перевод в один комбинированный запрос (Combined Query) с равным весом (например, через оператор OR). Также упоминается возможность присвоения разных весов, например, с учетом статистики качества перевода.

    Учитывает ли система приблизительные переводы или сленг?

    Да. В патенте указано, что перевод не обязательно должен быть идентичным. Могут учитываться приблизительные переводы (approximate translations), которые используют сленг, синонимы или отличаются наличием стоп-слов. Главное условие — система должна распознать семантическую эквивалентность.

    Может ли система выбрать более одного перевода для расширения запроса?

    Да, такая возможность предусмотрена. Хотя основной механизм описывает выбор одного (наиболее частотного) уточнения, система может выбрать дополнительные Bilingual Refinements по тем же или другим критериям (например, второй по частотности перевод) и использовать их для дальнейшего расширения запроса.

    Идентифицируются ли Bilingual Refinements заранее или в момент запроса?

    Патент описывает оба варианта. Уточнения могут быть идентифицированы заранее (офлайн) путем анализа логов и сохранены в базе данных для быстрого доступа. Также они могут быть идентифицированы и выбраны «на лету» (on-the-fly) в ответ на запрос пользователя, хотя это более ресурсоемкий процесс.

    Что произойдет, если в выдаче будут результаты на языке, который я не знаю?

    В поиске по визуальным медиа это считается приемлемым. Пользователь увидит изображение или превью видео, которое релевантно запросу, даже если окружающий текст или ссылка ведут на страницу на другом языке. Патент предполагает, что визуальное содержание важнее языка в этом контексте.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.