Патент Google, описывающий систему улучшения качества машинного перевода с помощью правок пользователей (краудсорсинг). Система предоставляет машинный перевод, принимает исправления, автоматически проверяет их приемлемость и обновляет версию для следующих пользователей. Улучшенные переводы могут индексироваться поисковыми системами и связываться с оригинальным ресурсом.
Описание
Какую задачу решает
Патент решает проблему качества и естественности машинного перевода (Machine-Translated Text). Автоматический перевод часто уступает по качеству тексту, написанному носителем языка. Изобретение направлено на улучшение машинного перевода путем привлечения пользователей (краудсорсинг) для итеративного редактирования. Также решается проблема потери человеческих правок при обновлении исходного контента.
Что запатентовано
Запатентована система уточнения перевода (Translation Refinement System), которая итеративно улучшает машинный перевод с помощью краудсорсинга. Система принимает модификации от пользователей, автоматически верифицирует эти изменения (используя Machine Translation System или правила) и, в случае их приемлемости, предоставляет улучшенную версию последующим пользователям. Также система управляет версиями перевода и оценивает надежность пользователей (Reliability Score).
Как это работает
Система работает по итеративной схеме:
- Генерация: Система машинного перевода создает исходный перевод («нулевую версию»).
- Модификация: Пользователи вносят правки (добавление, удаление, перестановка текста).
- Верификация: Система автоматически проверяет модифицированный текст (Modified Translated Text) на приемлемость, используя контекстуальный анализ, черные списки и ограничения по длине.
- Обновление и Версионирование: Если перевод приемлем, он сохраняется как новая версия и показывается последующим пользователям.
- Оценка надежности: Система отслеживает, как долго правки пользователя остаются неизменными, и рассчитывает Reliability Score.
- Обработка обновлений оригинала: Если исходный текст меняется, система объединяет существующие пользовательские правки для неизмененных частей с новым машинным переводом измененных частей.
Актуальность для SEO
Средне-высокая. Хотя технологии нейронного машинного перевода (NMT) и LLM значительно улучшили качество с момента подачи заявки (2010 г.), человеческая валидация остается эталоном качества. Концепции использования пользовательского ввода для улучшения моделей (аналогично RLHF) и описанные инфраструктурные механизмы валидации, управления версиями и индексации переведенного контента остаются высоко актуальными в 2025 году.
Важность для SEO
Патент имеет среднее значение для SEO (5/10), но критически важен для международного SEO. Он не описывает алгоритмы ранжирования, но раскрывает инфраструктуру генерации, контроля качества и индексации многоязычного контента. Он подтверждает, что Google стремится индексировать качественный переведенный контент и подчеркивает важность технической реализации мультиязычности (связывание версий).
Детальный разбор
Термины и определения
- Machine Translation System (Система машинного перевода)
- Система, выполняющая автоматический перевод. В патенте она также используется как инструмент для верификации пользовательских правок.
- Machine-Translated Text (Машинно-переведенный текст)
- Результат работы Machine Translation System. Рассматривается как «нулевая версия» перевода.
- Modified Translated Text (Модифицированный переведенный текст)
- Переведенный текст после внесения правок пользователем (добавления, удаления или перестановки текста).
- Reliability Score (Оценка надежности)
- Метрика, присваиваемая пользователю на основе качества его вклада. Рассчитывается по тому, как долго его правки остаются неизменными другими пользователями.
- Source Text (Исходный текст)
- Оригинальный текст на исходном языке.
- Translation Refinement System (Система уточнения перевода)
- Основная система патента, которая управляет получением пользовательского ввода, верификацией правок и предоставлением обновленных версий.
- Unchanged text (Неизмененный текст)
- Фрагменты исходного текста, которые не были изменены издателем при обновлении ресурса.
- Verification Subsystem (Подсистема верификации)
- Компонент, отвечающий за проверку того, является ли Modified Translated Text допустимым переводом Source Text.
- Versions of translated text (Версии переведенного текста)
- Хранилище итеративных улучшений перевода. Система предоставляет пользователям самую последнюю одобренную версию.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной цикл работы системы.
- Получение машинно-переведенного текста.
- Предоставление этого текста пользователю.
- Обнаружение модификации текста пользователем (результат: Modified Translated Text).
- Определение того, является ли модифицированный текст допустимым переводом, используя Machine Translation System. Условие приемлемости: система машинного перевода ранее встречала слова/фразы в модифицированном тексте в контексте смысла, передаваемого исходным текстом.
- Если ДА, предоставление модифицированного текста последующим пользователям (которые также могут его модифицировать).
Claim 3 и 4 (Зависимые): Детализируют использование данных о поведении пользователей.
- Отслеживание последующих модификаций правок пользователя.
- Расчет Reliability Score пользователя на основе этого отслеживания.
- Если Reliability Score выше порога, использование правок пользователя в качестве обучающих данных (training data) для Machine Translation System.
Claim 5 (Зависимый): Описывает критически важный механизм сохранения качества при обновлении исходного контента.
- Обнаружение модификации исходного текста.
- Идентификация неизмененных фрагментов (unchanged text).
- Получение нового машинного перевода всего обновленного исходного текста.
- Замена фрагментов нового машинного перевода, соответствующих unchanged text, ранее сохраненными пользовательскими правками (Modified Translated Text). Это гарантирует, что улучшения, сделанные пользователями, не теряются при обновлении оригинала.
Claim 7 (Зависимый): Описывает аспект индексации.
- Включение Modified Translated Text в ресурс.
- Хранение ресурса так, чтобы он мог быть просканирован (crawl) поисковой системой.
- Включение метаданных, связывающих переведенный ресурс с исходным текстом.
Claim 9 (Зависимый): Описывает один из методов валидации.
- Отклонение модификации, если разница в количестве слов между машинным переводом и модифицированным текстом не удовлетворяет пороговому значению (слишком длинный или короткий перевод).
Где и как применяется
Этот патент описывает инфраструктуру генерации и улучшения контента, которая функционирует до того, как контент будет ранжироваться.
CRAWLING – Сканирование и Сбор данных
Поисковые системы сканируют как исходные ресурсы, так и сгенерированные системой улучшенные переведенные ресурсы. Патент явно указывает (Claim 7), что Modified Translated Text сохраняется в виде ресурсов, доступных для сканирования.
INDEXING – Индексирование и извлечение признаков
Улучшенные переведенные ресурсы индексируются. На этом этапе обрабатываются метаданные (Claim 7), связывающие перевод с оригиналом. Это критически важно для установления взаимосвязей между языковыми версиями (аналогично обработке hreflang).
Система генерации контента (Вне стандартного real-time поиска)
Основная логика реализуется в Translation Refinement System. Она взаимодействует с Machine Translation System для генерации базовых переводов и для валидации пользовательских правок.
Входные данные:
- Исходный текст (Source Text).
- Базовый машинный перевод.
- Пользовательские правки.
- Данные для расчета Reliability Scores.
Выходные данные:
- Улучшенный и проверенный перевод (Modified Translated Text), доступный пользователям и краулерам.
- Новые обучающие данные для Machine Translation System.
На что влияет
- Типы контента и ниши: Влияет на любой контент, который переводится автоматически и где пользователи могут внести правки (веб-страницы, документация, субтитры). Наибольшее влияние на популярный контент, так как он чаще просматривается и улучшается.
- Международное SEO: Патент напрямую влияет на объем и качество контента, доступного в индексах на разных языках.
Когда применяется
- Триггеры активации: Механизм активируется, когда пользователь просматривает машинно-переведенный контент через соответствующий интерфейс и решает внести правку.
- Временные рамки: Процесс улучшения непрерывный и итеративный. Валидация правок происходит в реальном времени или почти в реальном времени.
- Обработка обновлений источника: Активируется при обнаружении изменений в исходном тексте.
Пошаговый алгоритм
Процесс А: Итеративное улучшение перевода
- Генерация базовой версии: Machine Translation System переводит Source Text. Создается «нулевая версия».
- Предоставление пользователю: Пользователю показывается текущая лучшая версия перевода.
- Получение модификации: Пользователь предлагает правку через интерфейс.
- Валидация (Verification Subsystem): Система проверяет правку:
- NLP-анализ: Запрос к Machine Translation System для оценки контекстуальной релевантности (Claim 1).
- Правила: Проверка по черным спискам, проверка ограничений по длине (Claim 9).
- Репутация: Учет Reliability Score пользователя.
- Принятие или Отклонение: Если правка принята, система создает новую версию перевода.
- Публикация: Новая версия становится текущей и предоставляется последующим пользователям и краулерам (Claim 7).
- Обновление репутации: Система отслеживает, как долго принятая правка остается неизменной, и корректирует Reliability Score автора.
Процесс Б: Обработка обновления исходного текста (Claim 5)
- Обнаружение обновления: Система обнаруживает, что издатель изменил Source Text.
- Сравнение версий источника: Идентифицируются измененные и неизмененные фрагменты (unchanged text).
- Генерация нового MT: Запрашивается машинный перевод всего обновленного исходного текста.
- Слияние (Merging): Система заменяет фрагменты нового MT, соответствующие unchanged text, на соответствующие фрагменты из последней улучшенной пользователями версии.
- Публикация обновленного перевода: Результат слияния (новый MT для измененных частей + сохраненные пользовательские правки для неизмененных частей) становится новой текущей версией.
Какие данные и как использует
Данные на входе
- Контентные факторы: Исходный текст (Source Text), базовый машинный перевод и текст, предложенный пользователем (Modified Translated Text). Анализируются различия между ними.
- Пользовательские факторы: История правок пользователя и данные о взаимодействии других пользователей с этими правками используются для расчета Reliability Score.
- Системные данные: Черные списки слов (для валидации), обучающие данные и статистические модели Machine Translation System (для контекстуальной валидации).
Какие метрики используются и как они считаются
- Reliability Score: Метрика качества пользователя. Рассчитывается на основе «долговечности» его правок. Если правка пользователя не изменяется другими в течение длительного времени или большого количества просмотров (упоминаются примеры 10,000 просмотров для высокого score и 50-100 для низкого), оценка повышается.
- Контекстуальная релевантность: Оценка, предоставляемая Machine Translation System. Проверяется, встречались ли слова или фразы из пользовательской правки в контексте значения, передаваемого исходным текстом (Claim 1).
- Пороги длины (Claim 9): Сравнение количества слов в Modified Translated Text и базовом MT. Правка отклоняется, если разница превышает установленный порог (число слов или соотношение).
Выводы
- Краудсорсинг как механизм валидации качества: Google рассматривает вклад сообщества как эффективный способ улучшения машинного перевода до уровня качества, пригодного для индексации поисковыми системами.
- Автоматизированная проверка качества правок: Система не полагается слепо на краудсорсинг. Она использует многофакторную валидацию: NLP-анализ (через Machine Translation System), формальные правила (длина, черные списки) и репутацию пользователя (Reliability Score).
- Итеративное улучшение и версионирование: Система разработана для постоянного улучшения качества. Поддерживается версионирование, позволяющее откатиться к предыдущим версиям в случае неприемлемых правок.
- Ценность пользовательского вклада и его сохранение: Механизм слияния (Claim 5) активно защищает улучшения, сделанные пользователями, даже при обновлении исходного контента издателем.
- Генерация индексируемого контента: Явной целью системы является создание качественных, адресуемых (URL) и индексируемых ресурсов на разных языках, которые связаны с оригиналом метаданными (Claim 7).
- Улучшение базовых моделей MT: Качественные правки от надежных пользователей используются как training data для улучшения самой Machine Translation System (Claim 4).
Практика
Best practices (это мы делаем)
- Приоритет качественной локализации (Постредактура): Подтверждается необходимость человеческого ревью машинного перевода. Для ключевых страниц инвестиции в профессиональный перевод или качественную вычитку (Post-Editing) оправданы. Не полагайтесь на сырой MT.
- Корректная настройка мультиязычности: Патент указывает на необходимость связи перевода с оригиналом метаданными (Claim 7). Это подтверждает критическую важность правильной технической реализации мультиязычности (например, использование hreflang), чтобы помочь поисковым системам корректно интерпретировать связи между языковыми версиями.
- Обеспечение качества исходного контента: Чем яснее и структурированнее оригинал, тем лучше будет базовый машинный перевод, и тем проще его будет улучшить до высокого уровня.
- Выбор CMS/TMS с умным управлением обновлениями: При выборе систем управления переводами следует отдавать предпочтение тем, которые поддерживают инкрементальные обновления (логика Claim 5) — то есть обновляют перевод только для измененных сегментов оригинала, не перезаписывая существующие человеческие правки в неизмененных сегментах.
Worst practices (это делать не надо)
- Публикация сырого машинного перевода без редактуры: Патент подтверждает, что сам Google считает базовый машинный перевод недостаточно качественным. Публикация сырого MT может негативно сказаться на пользовательском опыте и восприятии качества сайта.
- Игнорирование связи между языковыми версиями: Создание локализованных страниц без указания их связи с оригиналом (отсутствие hreflang) противоречит рекомендациям патента (Claim 7) и ухудшает индексацию.
- Блокировка инструментов перевода: Попытки помешать автоматическому переводу страниц могут снизить доступность контента для международной аудитории и помешать его потенциальному улучшению через механизмы, подобные описанному.
Стратегическое значение
Патент демонстрирует инфраструктурный подход Google к решению языковой проблемы в вебе. Стратегическое значение заключается в том, что Google стремится сделать весь мировой контент доступным и качественным на всех языках. Для SEO-специалистов это означает, что в долгосрочной перспективе конкуренция в локальных выдачах может усиливаться за счет качественно переведенного глобального контента. Успешная международная стратегия требует сочетания масштабируемости (MT), качества (человеческая валидация) и технической реализации.
Практические примеры
Сценарий: Управление обновлением мультиязычного блога (Использование логики Claim 5)
Компания ведет блог на английском и публикует статьи на испанском. Испанская версия изначально создана с помощью MT, но затем вычитана носителем языка.
- Исходное состояние: Статья на английском (Source) и вычитанная статья на испанском (Modified Translated Text).
- Обновление оригинала: Автор добавляет новый абзац в английскую статью.
- Действие (Как НЕ надо делать): Система управления переводами заново переводит всю английскую статью с помощью MT и полностью перезаписывает испанскую версию. Результат: Все предыдущие правки носителя языка потеряны.
- Действие (Как надо делать, согласно патенту): Система идентифицирует измененные части (новый абзац) и неизмененные части (unchanged text).
- Слияние: Система генерирует MT только для нового абзаца. Затем она объединяет этот новый MT с существующим качественным переводом неизмененных частей.
- Результат: Новая версия испанской статьи содержит качественный перевод старого контента и машинный перевод нового абзаца. Человеческие усилия сохранены.
Вопросы и ответы
Влияет ли этот патент напрямую на алгоритмы ранжирования?
Нет, патент не описывает сигналы ранжирования. Он описывает инфраструктуру для генерации, улучшения и валидации контента. Однако целью этой системы является создание высококачественного контента на разных языках, который затем будет индексироваться и ранжироваться стандартными алгоритмами Google.
Индексируется ли контент, улучшенный пользователями по этому патенту?
Да. В патенте (Claim 7) явно указано, что модифицированный переведенный текст сохраняется в виде ресурса, который может быть просканирован (crawl) поисковой системой. Также указывается на включение метаданных, связывающих его с источником.
Как именно система проверяет, что пользовательская правка корректна?
Используется несколько методов. Основной (Claim 1) — это использование самой Machine Translation System для проверки контекстуальной релевантности (встречались ли эти фразы в контексте значения оригинала). Дополнительно используются проверка длины перевода (Claim 9), черные списки недопустимых слов и учет репутации пользователя (Reliability Score).
Что такое Reliability Score и как он влияет на SEO?
Это внутренняя метрика Google для оценки надежности пользователя, вносящего правки. Она рассчитывается на основе того, как долго его переводы остаются неизменными. Напрямую на SEO это не влияет, но влияет на качество контента, попадающего в индекс: правки надежных пользователей принимаются быстрее и используются для обучения Google Translate.
Что происходит с улучшенными переводами, если издатель обновляет оригинальную статью?
Система старается сохранить пользовательские улучшения (Claim 5). Она определяет, какие части статьи не изменились (unchanged text), и сохраняет для них ранее улучшенный перевод. Новый машинный перевод запрашивается только для измененных фрагментов. Затем все части объединяются.
Подтверждает ли этот патент, что использование машинного перевода на сайте вредно для SEO?
Патент подтверждает, что базовый машинный перевод часто требует улучшения качества. Если вы публикуете сырой машинный перевод без редактуры, вы рискуете предоставить пользователям низкокачественный контент. Система, описанная в патенте, как раз направлена на решение этой проблемы.
Как этот патент связан с использованием атрибута hreflang?
Патент (Claim 7) требует включения метаданных, связывающих переведенный ресурс с исходным текстом. Это подчеркивает важность четкого указания взаимосвязей между языковыми версиями контента. Для SEO-специалистов это служит напоминанием о критической важности корректного внедрения hreflang для управления собственными мультиязычными сайтами.
Может ли издатель оригинального контента контролировать эти переводы?
Да, в патенте упоминается, что система может предоставить издателю возможность просмотреть все версии переводов, откатить неприемлемые версии или внести собственные правки. Причем правки издателя могут приниматься без дополнительной верификации.
Использует ли Google эти пользовательские правки для обучения Google Translate?
Да, это явно указано в патенте (Claim 4). Если пользователь имеет высокий Reliability Score, его правки используются в качестве обучающих данных (training data) для улучшения Machine Translation System.
Какова главная рекомендация для SEO-специалистов, исходя из этого патента?
Главная рекомендация — не полагаться на сырой машинный перевод для международного SEO. Необходимо сочетать масштабируемость (MT) с качеством (человеческая вычитка или профессиональный перевод) и корректной технической реализацией (индексируемые ресурсы, правильная связь версий через hreflang).