Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google выборочно активирует кросс-языковой поиск на основе сущностей и популярности запросов

    CROSS-LANGUAGE SEARCH (Кросс-языковой поиск)
    • US8250046B2
    • Google LLC
    • 2012-08-21
    • 2008-09-22
    2008 Knowledge Graph Мультиязычность Патенты Google Семантика и интент

    Анализ патента Google, описывающего систему кросс-языкового поиска (CLIR). Система определяет, стоит ли автоматически переводить запрос пользователя на другой язык для поиска более релевантных результатов. Ключевыми факторами являются наличие в запросе локальных или иностранных сущностей, уверенность в качестве машинного перевода и популярность (частота) запроса в целевом языке.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему дисбаланса информации в интернете между разными языками. Релевантный и качественный контент часто существует только на доминирующих языках (например, английском), оставляя пользователей, ищущих на других языках, без доступа к этой информации. Система направлена на улучшение качества поиска путем автоматического выявления ситуаций, когда поиск по переведенному запросу может дать лучшие результаты, чем поиск на языке оригинала.

    Что запатентовано

    Запатентована система и метод для выборочного выполнения кросс-языкового поиска (Cross-Language Search). Изобретение фокусируется на модуле оценки запроса (Query Evaluation Module), который анализирует исходный запрос и его перевод, чтобы определить, является ли он хорошим кандидатом для CLIR. Это решение базируется на ряде фильтров, включая распознавание сущностей (Local/Foreign Entities), оценку качества перевода (Translation Confidence Score) и анализ популярности запроса (Query Frequency).

    Как это работает

    Система работает по следующей логике:

    • Получение и перевод: Система получает запрос на Языке 1 и переводит его на Язык 2 (например, с Арабского на Английский), получая также оценку уверенности в переводе.
    • Фильтрация по сущностям: Если запрос содержит Local Entity (сущность, связанную с регионом Языка 1), CLIR часто блокируется. Если запрос содержит Foreign Entity (сущность, связанную с регионом Языка 2), это является сильным сигналом для активации CLIR.
    • Проверка качества и популярности: Система проверяет, достаточно ли высока уверенность в переводе (Translation Confidence Score) и достаточно ли часто ищут переведенный запрос или связанную с ним сущность на Языке 2 (Query Frequency).
    • Оценка и сравнение релевантности: Система может сравнить релевантность результатов на Языке 1 и Языке 2 или проверить, достигают ли результаты на Языке 2 минимального порога качества.
    • Вывод результатов: Если CLIR активирован и признан полезным, пользователю предоставляются результаты поиска на Языке 2 (часто переведенные обратно на Язык 1).

    Актуальность для SEO

    Высокая. Кросс-языковой поиск является критически важным компонентом для глобальной поисковой системы, стремящейся предоставить наилучшую информацию независимо от языка запроса. Описанные механизмы, особенно использование сущностей и оценки качества перевода для управления CLIR, остаются актуальными в контексте развития NLP и машинного перевода.

    Важность для SEO

    Патент имеет высокое значение (8/10) для международного SEO. Он раскрывает логику, по которой Google решает, показывать ли контент сайта пользователям, вводящим запросы на других языках. Понимание триггеров (сущности, популярность запроса) позволяет SEO-специалистам оптимизировать контент так, чтобы он корректно распознавался и высоко ранжировался в сценариях кросс-языкового поиска.

    Детальный разбор

    Термины и определения

    Cross-Language Search (Кросс-языковой поиск)
    Процесс поиска информации в коллекции документов на языке, отличном от языка запроса (CLIR).
    Entity (Сущность)
    Слова или фразы, которые идентифицируют людей, места или вещи (имена собственные).
    Foreign Entity (Иностранная сущность)
    Сущность, указывающая на место происхождения (place of origin), где в основном говорят на втором языке (языке перевода). Например, «Yankee Stadium» для арабского запроса.
    Local Entity (Локальная сущность)
    Сущность, указывающая на место происхождения, где в основном говорят на первом языке (языке запроса). Например, Эйфелева башня для французского языка.
    Query Evaluation Module (Модуль оценки запроса)
    Центральный компонент системы, который определяет, следует ли использовать исходный запрос или переведенный запрос для генерации результатов, используя различные фильтры.
    Relevance Score (IR Score) (Оценка релевантности)
    Оценка релевантности документа запросу. Может включать стандартные метрики IR и сигналы качества (например, PageRank). Используется для сравнения результатов между разными языковыми корпусами.
    Translation Confidence Score (Оценка уверенности в переводе)
    Метрика, предоставляемая службой перевода, указывающая на вероятность того, что машинный перевод является корректным. Часто зависит от количества возможных вариантов перевода.
    Query Frequency (Частота запроса)
    Метрика популярности запроса или сущности, основанная на количестве предыдущих поисковых запросов в логах (Query Statistics).

    Ключевые утверждения (Анализ Claims)

    Патент содержит несколько независимых пунктов формулы (Claims 1, 16), которые определяют ядро изобретения, фокусируясь на использовании сущностей и частоты запросов для активации CLIR.

    Claim 1 (Независимый пункт): Метод кросс-языкового поиска, основанный на иностранных сущностях и их популярности.

    1. Система получает исходный запрос на первом языке.
    2. Определяется, что запрос включает сущность, указывающую на место происхождения, где говорят на втором языке (Foreign Entity).
    3. В ответ на это определение:
      1. Запрос переводится на второй язык.
      2. Определяется, является ли переведенный запрос кандидатом на CLIR. Это включает:
        • Идентификацию количества предыдущих запросов, включавших эту сущность (популярность сущности).
        • Сравнение этого количества с порогом.
        • Если порог превышен, запрос признается кандидатом.
      3. Генерируются результаты поиска, релевантные переведенному запросу.

    Ключевой аспект: CLIR активируется при обнаружении Foreign Entity, но только если эта сущность достаточно популярна (превышает порог частоты запросов).

    Claim 16 (Независимый пункт): Метод, схожий с Claim 1, но популярность оценивается для всего переведенного запроса, а не только для сущности.

    1. Система получает исходный запрос и определяет наличие Foreign Entity.
    2. В ответ на это:
      1. Запрос переводится.
      2. Определяется, является ли переведенный запрос кандидатом на CLIR. Это включает:
        • Получение количества предыдущих запросов, соответствующих переведенному запросу.
        • Сравнение этого количества с порогом.
        • Если порог превышен, запрос признается кандидатом.
      3. Генерируются результаты поиска.

    Ключевой аспект: CLIR активируется при наличии Foreign Entity, но только если сам переведенный запрос имеет достаточную частоту использования.

    Claim 4 (Зависимый от 1): Добавляет механизм блокировки CLIR.

    Система также определяет, включает ли исходный запрос Local Entity (сущность, указывающую на место происхождения первого языка). Если да, генерируются результаты для исходного запроса (CLIR не используется).

    Зависимые пункты (например, 5 и 6): Добавляют проверки качества.

    Переведенный запрос признается кандидатом на CLIR, только если его Translation Confidence Score превышает порог (Claim 5), и если Relevance Scores полученных результатов превышают порог релевантности (Claim 6).

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит сбор и индексация документов на разных языках. Также происходит извлечение и индексация сущностей, которые затем используются для формирования баз данных Local Entities и Foreign Entities. Система должна ассоциировать сущности с языками и регионами их происхождения.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Query Evaluation Module работает здесь для интерпретации интента и принятия решения о стратегии поиска (моноязычный или кросс-языковой).
    Процессы: Токенизация запроса, распознавание сущностей (NER), проверка локальности/иностранности сущностей, взаимодействие со службой перевода, оценка качества перевода (Translation Confidence Score), оценка популярности запроса (Query Frequency).
    Выходные данные: Решение о том, какой запрос использовать (Q или Q’), и передача выбранного запроса(ов) на этап ранжирования.

    RANKING – Ранжирование
    Система может выполнять параллельные поиски по исходному запросу (Q) и переведенному (Q’) в соответствующих языковых индексах (Document Corpora). Генерируются Relevance Scores для результатов.

    METASEARCH / RERANKING – Метапоиск и Переранжирование
    На этом этапе может использоваться Relevancy Comparison Filter для сравнения Relevance Scores результатов R_Q и R_Q’ и принятия финального решения о том, какие результаты показать (Search Results) или как их смешать (Aggregate Results, Partitioned Results). Если выбраны результаты R_Q’, они могут быть переведены (Translated Results).

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на информационные и транзакционные запросы, содержащие имена собственные (бренды, названия продуктов, имена людей, локации), которые имеют четкую географическую или языковую принадлежность (Entities).
    • Конкретные ниши: Туризм, образование за рубежом, международный e-commerce, новости о знаменитостях, импортные товары, наука и технологии.
    • Языковые пары: Система особенно важна для языковых пар, где наблюдается значительный дисбаланс в количестве и качестве контента (например, Арабский -> Английский).

    Когда применяется

    Алгоритм применяется при обработке запроса в реальном времени, но использует строгие условия и триггеры для активации кросс-языкового поиска:

    • Триггеры активации (Claims 1, 16):
      1. Обнаружение в запросе Foreign Entity.
      2. Превышение порога популярности (Query Frequency) для этой сущности ИЛИ для переведенного запроса в целевом языке.
    • Условия блокировки:
      • Обнаружение в запросе Local Entity (Claim 4).
      • Translation Confidence Score ниже порогового значения (Claim 5).
      • Relevance Scores результатов переведенного запроса ниже минимального порога качества (Claim 6).

    Пошаговый алгоритм

    Описание процесса работы Query Evaluation Module (на основе Фигуры 2 и общего описания патента):

    1. Получение запроса: Система получает исходный запрос (Q) на Языке 1.
    2. Проверка локальных сущностей (Local Entity Filter): Запрос анализируется на наличие токенов, соответствующих Local Entities для Языка 1.
      • Если найдено: Выбирается стратегия использования исходного запроса. Процесс CLIR останавливается.
    3. Проверка иностранных сущностей (Foreign Entity Filter): Запрос анализируется на наличие токенов, соответствующих Foreign Entities (связанных с Языком 2).
      • Если найдено: Может быть выбрана стратегия немедленного использования переведенного запроса (как описано в некоторых вариантах реализации) или продолжение оценки (например, проверка частоты по Claims 1/16).
    4. Перевод запроса: Исходный запрос отправляется в службу перевода для получения переведенного запроса (Q’) на Языке 2 и соответствующего Translation Confidence Score.
    5. Оценка качества перевода (Translation Quality Filter): Translation Confidence Score сравнивается с порогом.
      • Если ниже порога: Выбирается стратегия использования исходного запроса. Процесс CLIR останавливается.
    6. Оценка релевантности результатов (Threshold Relevancy Filter): Переведенный запрос Q’ отправляется в поисковую систему для получения результатов R_Q’ и их Relevance Scores.
      • Если Scores ниже порога (результаты низкого качества): Выбирается стратегия использования исходного запроса. Процесс CLIR останавливается.
    7. Сравнение релевантности (Relevancy Comparison Filter): Исходный запрос Q также обрабатывается поисковой системой для получения результатов R_Q и их Relevance Scores. Система сравнивает Scores(R_Q) и Scores(R_Q’).
      • Если R_Q лучше: Выбирается исходный запрос.
      • Если R_Q’ лучше (с учетом возможного дисконтирования за перевод): Выбирается переведенный запрос.
    8. Финальное решение: Система предоставляет результаты, основанные на выбранной стратегии (R_Q или R_Q’). Результаты R_Q’ могут быть переведены обратно на Язык 1 перед показом.

    Какие данные и как использует

    Данные на входе

    • Контентные/Семантические факторы:
      • Сущности (Entities): Использование баз данных Local Entities и Foreign Entities. Эти базы данных составляются на основе энциклопедий, серверов местоположений (location servers) и т.д. При составлении из них удаляются общие термины (generic terms).
    • Поведенческие факторы:
      • Логи запросов (Query Statistics): Используются для определения Query Frequency (популярности) сущностей и переведенных запросов. Это используется как триггер для активации поиска (Claims 1, 16) и для валидации включения сущностей в базы данных.
      • Анализ кликов (Click Analysis): В описании упоминается возможность использования статистики кликов и времени пребывания на странице (dwell time) для оценки удовлетворенности пользователей результатами предыдущих аналогичных запросов.
    • Системные данные:
      • Данные службы перевода: Переведенный текст запроса и Translation Confidence Score.
      • Relevance Scores (IR Scores): Оценки ранжирования, полученные от поисковой системы для исходного и переведенного запросов.

    Какие метрики используются и как они считаются

    • Наличие Local/Foreign Entity: Бинарная метрика (Да/Нет), основанная на сравнении n-грамм запроса с базами данных сущностей.
    • Translation Confidence Score: Числовая метрика, рассчитываемая системой машинного перевода. Сравнивается с порогом (threshold confidence score).
    • Query Frequency: Числовая метрика (количество запросов за период). Сравнивается с порогом (threshold frequency). Используется для оценки популярности и вероятности наличия качественного контента.
    • Relevance Score Threshold: Проверка того, превышают ли Relevance Scores результатов переведенного запроса минимальный порог качества.
    • Relevance Comparison: Сравнение агрегированных Relevance Scores между двумя наборами результатов. Патент упоминает, что оценки должны быть соизмеримы (commensurable) между разными языковыми корпусами. Также упоминается возможность применения дисконта (readability factor или biasing) к результатам переведенного запроса, чтобы отдать предпочтение результатам на родном языке из-за потенциальных трудностей чтения переведенного контента.

    Выводы

    1. Сущности как ключевой индикатор интента: Патент подчеркивает центральную роль сущностей (Entities) в определении языкового и географического интента запроса. Наличие Local Entity является сильным стоп-сигналом для CLIR, в то время как Foreign Entity является триггером для его активации.
    2. Критичность популярности контента (Query Frequency): Система консервативна и не будет активировать CLIR для иностранных сущностей или запросов, если они не популярны в целевом языке (Claims 1, 16). Google предполагает, что низкая частота запросов коррелирует с отсутствием качественного контента.
    3. Многоуровневая проверка качества: Система использует несколько фильтров для предотвращения ошибок: качество самого перевода (Translation Confidence) и качество результатов поиска (Relevance Thresholds). Низкое качество на любом этапе блокирует CLIR.
    4. Предпочтение родному языку (Readability Factor): В патенте признается, что переведенный контент может быть труднее читать. При сравнении релевантности система может применять дисконт к результатам CLIR, отдавая предпочтение результатам на языке оригинала, если разница в релевантности незначительна.
    5. Соизмеримость оценок: Для прямого сравнения результатов поиска на разных языках Google должен иметь механизм нормализации Relevance Scores, чтобы они были соизмеримы между разными языковыми индексами.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под сущности (Entity Optimization): Убедитесь, что ключевые сущности вашего бизнеса (название бренда, продуктов) четко определены и последовательно используются. Это поможет системе корректно классифицировать их как Local или Foreign в зависимости от языка запроса пользователя. Используйте Schema.org для укрепления этих связей.
    • Создание авторитетного контента на основном языке: Для международных брендов (которые будут классифицированы как Foreign Entities для многих рынков) критически важно иметь высококачественный контент на основном языке (например, Английском). Этот контент будет использоваться для ответов на запросы пользователей из других стран через CLIR.
    • Повышение популярности и спроса (Query Frequency): Поскольку частота запросов является условием для активации CLIR (Claims 1, 16), необходимо работать над узнаваемостью бренда и спросом в целевых регионах. Если пользователи не ищут ваш бренд или связанные с ним темы, система CLIR может не активироваться.
    • Использование однозначной терминологии: Пишите контент, используя четкие и стандартизированные термины. Это повышает Translation Confidence Score при машинном переводе запросов, связанных с вашим контентом, увеличивая вероятность активации CLIR.

    Worst practices (это делать не надо)

    • Неоднозначное использование сущностей: Использование названий брендов или продуктов, которые совпадают с общими терминами (generic terms) или локальными сущностями в других регионах, может привести к ошибкам классификации в Query Evaluation Module и потере видимости.
    • Игнорирование локализации для локальных брендов: Если ваш бизнес является Local Entity, нельзя полагаться на то, что Google покажет ваш контент иностранным пользователям через CLIR. Для привлечения иностранной аудитории необходим качественный перевод и локализация контента на их языки.
    • Создание низкокачественного контента: Если контент на целевом языке имеет низкие Relevance Scores, он будет отфильтрован (Claim 6). В нишах с дефицитом информации Google предпочтет показать качественный контент на другом языке через CLIR, чем ранжировать низкокачественный локальный контент.

    Стратегическое значение

    Патент подтверждает стратегию Google, направленную на предоставление наилучшего доступного контента, даже если для этого требуется пересечь языковые границы. Для SEO это означает, что авторитетность в одной языковой версии может напрямую влиять на видимость в других языках без необходимости прямой локализации, при условии, что тематика является международной (Foreign Entity) и популярной. Это подчеркивает важность построения сильных сущностей в Knowledge Graph.

    Практические примеры

    Сценарий 1: Активация CLIR для международного бренда

    1. Ситуация: Пользователь в России ищет информацию об американском университете.
    2. Запрос (Язык 1 — Русский): «Стэнфордский университет стипендии».
    3. Анализ: Система идентифицирует «Стэнфордский университет» как Foreign Entity (происхождение США, Язык 2 — Английский).
    4. Перевод (Язык 2 — Английский): «Stanford University scholarships». Translation Confidence Score высокий.
    5. Проверка популярности: Система проверяет Query Frequency для этого запроса/сущности в английском индексе. Частота высокая (порог превышен).
    6. Результат: CLIR активируется. Пользователю показываются результаты из английского индекса (например, страница stanford.edu), переведенные на русский язык, так как они более релевантны, чем локальные результаты.

    Сценарий 2: Блокировка CLIR из-за локальной сущности

    1. Ситуация: Пользователь во Франции ищет информацию о Лувре.
    2. Запрос (Язык 1 — Французский): «Musée du Louvre billets».
    3. Анализ: Система идентифицирует «Musée du Louvre» как Local Entity (происхождение Франция).
    4. Результат: Фильтр Local Entity срабатывает (Claim 4). CLIR блокируется. Пользователю показываются результаты из французского индекса. Система предполагает, что лучший контент будет на языке оригинала.

    Сценарий 3: Блокировка CLIR из-за низкой популярности

    1. Ситуация: Пользователь в Германии ищет информацию о маленьком нишевом американском продукте.
    2. Запрос (Язык 1 — Немецкий): [Название нишевого продукта] купить.
    3. Анализ: Система идентифицирует продукт как Foreign Entity (США).
    4. Перевод (Язык 2 — Английский): [Niche Product Name] buy.
    5. Проверка популярности: Система проверяет Query Frequency. Запрос очень редкий даже в английском индексе. Порог не достигнут.
    6. Результат: CLIR блокируется (согласно Claims 1 или 16). Пользователю показываются результаты из немецкого индекса, даже если они не очень релевантны.

    Вопросы и ответы

    Что такое Local Entity и Foreign Entity в контексте этого патента?

    Local Entity — это сущность (человек, место, вещь), связанная с регионом происхождения языка запроса (например, «Кремль» для русского). Foreign Entity — сущность, связанная с регионом происхождения другого языка (например, «Белый дом» для русского запроса). Эта классификация критична: наличие локальной сущности обычно блокирует кросс-языковой поиск, а наличие иностранной — активирует его.

    Как Google определяет, является ли сущность локальной или иностранной?

    Патент указывает, что базы данных сущностей составляются на основе энциклопедий, серверов местоположений (location servers) и других авторитетных источников. Система анализирует, указывает ли сущность на «место происхождения» (Place of Origin), где преимущественно говорят на определенном языке. На практике это соответствует данным в Knowledge Graph.

    Почему важна частота запросов (Query Frequency) для активации кросс-языкового поиска?

    Согласно Claims 1 и 16, даже если система распознала Foreign Entity, кросс-языковой поиск не будет активирован, если эта сущность или переведенный запрос недостаточно популярны (имеют низкую частоту) в целевом языке. Google использует это как прокси для оценки наличия качественного контента: если тему никто не ищет, вероятно, по ней нет хороших публикаций.

    Что такое Translation Confidence Score и как он влияет на SEO?

    Это оценка уверенности системы машинного перевода в корректности выполненного перевода запроса. Если оценка низкая, кросс-языковой поиск будет заблокирован (Claim 5). Для SEO это означает, что использование четких, легко переводимых терминов в контенте повышает шансы на корректную обработку связанных запросов системой CLIR.

    Сравнивает ли Google качество результатов на разных языках напрямую?

    Да, в патенте описан механизм (Relevancy Comparison Filter), который сравнивает Relevance Scores результатов исходного и переведенного запросов. Для этого система должна иметь соизмеримые (commensurable) оценки релевантности между разными языковыми индексами. Система выберет тот набор результатов, который имеет более высокие оценки.

    Отдает ли система предпочтение результатам на языке пользователя?

    Да. В патенте упоминается возможность применения дисконта (readability factor или biasing) к оценкам релевантности результатов кросс-языкового поиска. Поскольку переведенный контент может быть труднее читать, система отдает предпочтение результатам на языке оригинала, если разница в релевантности невелика.

    Что делать международному бренду, чтобы его контент показывался через CLIR?

    Необходимо обеспечить выполнение трех условий. Во-первых, бренд должен быть четко идентифицирован как сущность с определенной страной происхождения (Foreign Entity для пользователей из других стран). Во-вторых, необходимо иметь высококачественный контент на основном языке. В-третьих, бренд и связанные с ним запросы должны быть достаточно популярны (Query Frequency) в основном языке, чтобы пройти порог активации CLIR.

    Что делать локальному бренду для привлечения иностранной аудитории в свете этого патента?

    Локальный бренд будет классифицирован как Local Entity для запросов на родном языке, что блокирует CLIR для этих запросов. Для привлечения иностранцев необходимо создавать качественный локализованный контент на их языках и оптимизировать его под прямые запросы на этих языках. Полагаться на автоматический перевод вашего основного сайта системой Google для привлечения иностранцев рискованно.

    Если мой сайт переведен на несколько языков, как это взаимодействует с системой CLIR?

    Если у вас есть качественная версия страницы на языке пользователя, Google, скорее всего, предпочтет показать ее напрямую (особенно при корректной настройке hreflang). Система CLIR предназначена в первую очередь для ситуаций, когда релевантного контента на языке пользователя недостаточно, и система ищет его в других индексах.

    Что произойдет, если запрос не содержит явных сущностей?

    Если ни Local Entity, ни Foreign Entity не обнаружены, система переходит к другим фильтрам: оценивает Translation Confidence Score и сравнивает релевантность результатов на обоих языках. Решение принимается на основе того, какой язык предоставляет более качественные результаты для данного общего запроса.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.