Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google маркирует собственные результаты поиска и переводы для борьбы с загрязнением данных

    WATERMARKING OF STRUCTURED RESULTS AND WATERMARK DETECTION (Водяные знаки структурированных результатов и обнаружение водяных знаков)
    • US8812517B1
    • Google LLC
    • 2014-08-19
    • 2011-11-15
    2011 Мультиязычность Патенты Google

    Google использует скрытые водяные знаки в своих структурированных результатах (таких как SERP или машинный перевод), чтобы позже идентифицировать их как контент, созданный машиной. Это позволяет исключать такой контент из обучающих данных для ИИ-моделей, гарантируя, что модели обучаются на данных, созданных человеком, а не на результатах работы других машин.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «загрязнения» интернета контентом, сгенерированным самими машинами (например, результатами машинного перевода или опубликованными списками поисковой выдачи). Системы машинного обучения (ML) должны обучаться на данных, созданных человеком. Если они обучаются на контенте, созданном другими машинами, качество будущих моделей снижается. Изобретение позволяет отличать machine-generated content от human-generated content при сборе обучающих данных.

    Что запатентовано

    Запатентована система для встраивания статистически обнаруживаемых водяных знаков (watermarks) в структурированные результаты (structured results), такие как поисковая выдача или машинный перевод, и метод их последующего обнаружения. Водяной знак встраивается путем выбора одной из альтернативных версий результата (например, немного измененного порядка ранжирования), хэш которого обладает статистически маловероятными свойствами.

    Как это работает

    Система работает в двух режимах:

    Встраивание водяного знака:

    • Генерируются альтернативные варианты структурированного результата (например, разные порядки SERP).
    • Для каждого варианта вычисляется хэш-значение (bit sequence).
    • Система выбирает тот вариант, чей хэш значительно отклоняется от случайного распределения (например, содержит аномально много единиц или нулей), при условии, что потеря качества результата не превышает порог (maximum loss in quality threshold).

    Обнаружение водяного знака:

    • При анализе контента вычисляется его хэш.
    • Проводится статистический тест (null hypothesis test) для оценки вероятности случайного возникновения такого хэша.
    • Если вероятность низкая (ниже уровня значимости), результат идентифицируется как маркированный (т.е. созданный машиной).

    Актуальность для SEO

    Высокая. В 2025 году проблема чистоты данных для обучения больших языковых моделей (LLM) стоит острее, чем когда-либо. Способность отличать оригинальный человеческий контент от контента, сгенерированного ИИ (включая собственный контент Google), критически важна для поддержания качества ИИ-систем.

    Важность для SEO

    Влияние на практическое SEO минимальное (15/100). Патент описывает внутренние инфраструктурные процессы Google, направленные на защиту целостности обучающих данных для ИИ. Он не описывает алгоритмы ранжирования сайтов или факторы качества контента. Единственное косвенное влияние — это подтверждение того, что Google может незначительно изменять порядок выдачи (выбирать альтернативный SERP) по причинам, не связанным с релевантностью, например, для встраивания водяного знака.

    Детальный разбор

    Термины и определения

    Bit Sequence (Битовая последовательность)
    Последовательность нулей и единиц, полученная в результате применения функции (например, хэширования) к структурированному результату. Является основой водяного знака.
    Binomial Distribution (Биномиальное распределение)
    Статистическое распределение, используемое как эталон случайности. В патенте часто используется распределение с параметром p=0.5 (вероятность появления 1 или 0 одинакова).
    Hash Function (Хэш-функция)
    Односторонняя функция, преобразующая входные данные (структурированный результат) в битовую строку фиксированного размера (например, MD-5, SHA-1). Используется для генерации Bit Sequence.
    Machine-generated content (Контент, созданный машиной)
    Контент, созданный автоматизированными системами (поисковыми движками, системами перевода), который необходимо идентифицировать, чтобы не использовать его для обучения других машин.
    Null Hypothesis (Нулевая гипотеза)
    Статистическое предположение о том, что битовая последовательность была сгенерирована случайным образом (например, согласно Binomial Distribution с p=0.5). Цель водяного знака — сделать это предположение маловероятным.
    p-value (p-значение)
    Результат статистического теста. Показывает вероятность наблюдения полученной Bit Sequence при условии истинности Null Hypothesis. Низкий p-value указывает на наличие водяного знака.
    Significance Level (Alpha) (Уровень значимости)
    Пороговое значение для p-value. Если p-value ниже этого уровня, Null Hypothesis отвергается, и результат признается маркированным. Определяет частоту ложных срабатываний.
    Structured Result (Структурированный результат)
    Выходные данные системы, где порядок и/или идентичность элементов важны. Примеры: поисковая выдача (SERP), машинный перевод, автоматическая суммаризация текста.
    Sub-results (Подрезультаты)
    Части, на которые делится Structured Result (например, группы ссылок в SERP или n-граммы в тексте) для обеспечения устойчивости водяного знака к редактированию.
    Watermark (Водяной знак)
    Скрытый статистический сигнал, встроенный в Structured Result для его последующей идентификации как Machine-generated content.

    Ключевые утверждения (Анализ Claims)

    Патент включает Claims, описывающие как процесс встраивания, так и процесс обнаружения водяных знаков.

    Claim 1 (Независимый пункт): Описывает метод обнаружения водяного знака в результате поиска.

    1. Получение результата поиска.
    2. Вычисление хэша на основе порядка (order) как минимум части результата поиска для получения bit sequence.
    3. Проведение null hypothesis test: проверка последовательности на соответствие нулевой гипотезе о том, что она сгенерирована случайной величиной с биномиальным распределением с параметром p=0.5.
    4. Сравнение результата теста с желаемым significance level.
    5. Определение того, что результат поиска был сгенерирован с водяным знаком, если результат теста ниже уровня значимости.

    Это определяет статистический метод для идентификации того, был ли порядок результатов поиска намеренно изменен (маркирован) системой, которая его сгенерировала. Ключевым моментом является то, что хэш порядка создает статистически маловероятную последовательность битов (например, слишком много единиц или нулей) по сравнению со случайным порядком.

    Claim 2 (Независимый пункт): Обобщает Claim 1 для любого structured result.

    1. Получение структурированного результата.
    2. Вычисление функции (не обязательно хэша) на основе порядка как минимум части результата для получения bit sequence.
    3. Проведение null hypothesis test против гипотезы, что последовательность сгенерирована случайной величиной в соответствии с предопределенным распределением вероятностей (не обязательно p=0.5).
    4. Сравнение результата теста с significance level.
    5. Определение наличия водяного знака на основе сравнения.

    Claim 8 (Зависимый от 2): Описывает механизм обеспечения устойчивости (Robustness).

    1. Отображение структурированного результата в набор sub-results.
    2. Вычисление функции для каждого подрезультата для получения их битовых последовательностей.
    3. Конкатенация (объединение) битовых последовательностей подрезультатов для получения итоговой последовательности для всего результата.

    Чтобы предотвратить разрушение водяного знака при незначительном редактировании контента, система разбивает результат (например, на группы ссылок или n-граммы), хэширует их по отдельности и объединяет хэши.

    Claims 16-20 (Зависимые): Определяют назначение водяного знака.

    • Водяной знак указывает на то, что результат включает machine-generated content (Claim 17, 19).
    • Водяной знак указывает на то, что контент «не подходит для машинного обучения моделью языкового перевода» (Claim 16, 18, 20).

    Цель водяного знака четко определена: пометить контент как созданный машиной, чтобы его можно было исключить из наборов обучающих данных для других систем ИИ.

    Где и как применяется

    Патент описывает чисто технический инфраструктурный механизм, который применяется на разных этапах жизненного цикла данных в Google.

    Этапы встраивания водяного знака:

    RANKING – Ранжирование / RERANKING – Переранжирование
    В контексте поиска встраивание происходит на финальных этапах формирования выдачи. Система генерирует несколько альтернативных конфигураций SERP (разные порядки ранжирования). Затем она оценивает эти альтернативы не только по качеству/релевантности, но и по пригодности для встраивания водяного знака (Watermark Detectability). Система может выбрать чуть менее оптимальный порядок ранжирования, если он позволяет встроить более четкий водяной знак.

    Примечание: Для других типов контента (например, машинного перевода) встраивание происходит в момент генерации результата соответствующим движком.

    Этапы обнаружения водяного знака:

    CRAWLING – Сканирование и Сбор данных / INDEXING – Индексирование
    Обнаружение происходит, когда Google сканирует веб для сбора данных, которые потенциально могут быть использованы для обучения ML-моделей. Система проверяет собранный контент на наличие водяных знаков, чтобы отфильтровать machine-generated content и использовать только human-generated content для обучения.

    Входные данные (Встраивание):

    • Набор альтернативных структурированных результатов (alternative structured results).
    • Оценки качества для каждого альтернативного результата.
    • Параметры хэш-функции.
    • Порог допустимой потери качества (maximum loss in quality threshold).

    Выходные данные (Встраивание):

    • Единственный выбранный структурированный результат с встроенным водяным знаком, готовый к публикации.

    Входные данные (Обнаружение):

    • Структурированный результат, проверяемый на наличие водяного знака.
    • Параметры хэш-функции (те же, что и при встраивании).
    • Уровень значимости (Significance Level Alpha).

    Выходные данные (Обнаружение):

    • Определение: является ли результат маркированным (созданным машиной) или нет.

    На что влияет

    • Конкретные типы контента: Влияет только на структурированные результаты, генерируемые самой системой (Google). В патенте явно упоминаются поисковая выдача (SERP) и машинные переводы.
    • Влияние на ранжирование сторонних сайтов: Патент не описывает использование этого механизма для оценки качества или ранжирования сторонних веб-сайтов.

    Когда применяется

    • Встраивание: Применяется в момент генерации и перед публикацией структурированных результатов, если система считает необходимым маркировать этот вывод как машинный.
    • Обнаружение: Применяется при сборе и обработке данных из интернета для целей машинного обучения, чтобы отфильтровать контент, ранее сгенерированный машинами.

    Пошаговый алгоритм

    Процесс А: Встраивание водяного знака (Watermarking)

    1. Получение альтернатив: Система генерирует или получает набор альтернативных структурированных результатов в ответ на входные данные (например, запрос).
    2. Хэширование: Для каждого альтернативного результата вычисляется хэш (Bit Sequence). Для устойчивости результат может быть разделен на sub-results, которые хэшируются отдельно, а затем конкатенируются.
    3. Оценка обнаруживаемости: Для каждой битовой последовательности оценивается ее отклонение от случайного распределения (например, соотношение 1 и 0). Чем больше отклонение, тем выше обнаруживаемость (Watermark Detectability).
    4. Оценка качества: Оценивается потеря качества каждого альтернативного результата по сравнению с оптимальным (например, с использованием метрик loss_rank или loss_cost).
    5. Ранжирование и выбор: Вычисляется итоговый рейтинг (Ranking Score) для каждой альтернативы, который балансирует обнаруживаемость водяного знака и потерю качества (например, с помощью функции, интерполирующей gain и loss).
    6. Публикация: Выбирается результат с наилучшим рейтингом, который удовлетворяет пороговым значениям качества.

    Процесс Б: Обнаружение водяного знака (Watermark Detection)

    1. Получение результата: Система получает структурированный результат для анализа (например, из краулера).
    2. Хэширование: Вычисляется хэш-значение (Bit Sequence) с использованием того же метода и разделения на sub-results, что и при встраивании.
    3. Статистический тест: Проводится Null Hypothesis Test. Система проверяет, насколько вероятно, что полученная битовая последовательность была сгенерирована случайным образом (например, по биномиальному распределению с p=0.5).
    4. Вычисление p-value: Рассчитывается p-value — вероятность получения такой или еще более экстремальной битовой последовательности случайно.
    5. Сравнение с уровнем значимости: p-value сравнивается с заданным уровнем значимости (Alpha).
    6. Принятие решения: Если p-value меньше Alpha (например, меньше 0.05), нулевая гипотеза отвергается, и результат идентифицируется как содержащий водяной знак (machine-generated content).

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на структуре и порядке самих генерируемых результатов, а не на внешних факторах ранжирования.

    • Структурные факторы: Порядок элементов в структурированном результате (например, порядок ссылок в SERP, порядок слов или n-грамм в переводе) является ключевыми данными, которые хэшируются.
    • Системные данные: Внутренние оценки качества (Quality Scores) альтернативных результатов используются для обеспечения того, чтобы выбранный маркированный результат не был слишком низкого качества.

    Другие традиционные SEO-факторы (контентные, ссылочные, поведенческие и т.д.) в этом патенте не упоминаются.

    Какие метрики используются и как они считаются

    • Watermark Ranking Function (w): Функция для оценки пригодности результата для маркировки. Может рассчитываться как доля единиц (или нулей) в хэше (Equation 2) или как максимальная доля единиц или нулей (Equation 6).
    • p-value: Вероятность того, что хэш результата случаен. Рассчитывается на основе биномиального распределения (Equations 3, 4, 8).
    • Gain (Выигрыш в сигнале): Метрика, показывающая улучшение обнаруживаемости водяного знака при выборе данного результата. Может определяться через p-value (Equation 5).
    • Loss (Потеря качества): Метрика, отражающая ухудшение качества при выборе альтернативного результата по сравнению с оптимальным.
      • loss_rank: Основана на изменении ранга альтернативы в списке кандидатов (Equation 10).
      • loss_cost: Основана на относительном увеличении «стоимости» результата согласно генерирующей модели (Equation 11).
    • Итоговая оценка (Interpolation): Функция, которая интерполирует Gain и Loss для выбора оптимального баланса (Equation 9).

    Выводы

    Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Он дает следующее понимание инфраструктуры:

    1. Борьба с загрязнением данных: Google активно работает над тем, чтобы отличать контент, созданный человеком, от контента, созданного машинами (включая свои собственные системы). Это критически важно для качества обучения ИИ.
    2. Водяные знаки на основе статистики: Описанный метод использует статистическую невероятность хэша результата, а не криптографические методы для создания скрытого водяного знака.
    3. Готовность жертвовать качеством ради маркировки: Система допускает незначительное снижение качества публикуемого результата (например, выбор чуть менее оптимального порядка ранжирования в SERP), если это позволяет встроить более обнаруживаемый водяной знак. Это подтверждает, что порядок SERP может меняться по инфраструктурным причинам.
    4. Устойчивость к редактированию: Механизм разделения на sub-results и их отдельного хэширования разработан для того, чтобы водяной знак сохранялся даже при частичном копировании или редактировании контента.
    5. Фокус на собственный контент: Патент описывает маркировку структурированных результатов, генерируемых самой системой (поиск, перевод). Он не описывает методы обнаружения контента, сгенерированного сторонними ИИ-инструментами на внешних сайтах.

    Практика

    Best practices (это мы делаем)

    Поскольку патент инфраструктурный и не касается ранжирования внешних сайтов, прямых SEO-рекомендаций из него не следует. Однако можно сделать стратегические выводы:

    • Приоритет человеческого контента: Патент подчеркивает, что Google критически важно идентифицировать и использовать human-generated content для обучения своих моделей. Это косвенно подтверждает стратегическую важность создания оригинального, качественного контента, созданного людьми, так как именно его ищет Google.

    Worst practices (это делать не надо)

    Патент не делает какие-либо SEO-тактики неэффективными или опасными, так как он направлен на маркировку собственного вывода Google.

    Стратегическое значение

    Стратегическое значение патента заключается в понимании того, насколько серьезно Google относится к проблеме «ИИ, обучающегося на ИИ». В эпоху генеративного ИИ способность различать происхождение контента является фундаментальной задачей. Хотя этот патент описывает только маркировку собственного вывода Google, он демонстрирует технические возможности и вектор развития систем идентификации машинного контента. Это подтверждает долгосрочный тренд на повышение ценности уникального человеческого опыта и экспертизы (E-E-A-T).

    Практические примеры

    Практических примеров применения для SEO нет, так как механизм используется внутри инфраструктуры Google. Можно привести пример того, как этот механизм может работать для Google.

    Сценарий: Незначительное изменение порядка SERP для встраивания водяного знака

    1. Входной запрос: Пользователь вводит запрос.
    2. Генерация альтернатив (RANKING): Система ранжирования генерирует два оптимальных варианта SERP:
      • SERP A (Оптимальный): Сайт 1, Сайт 2, Сайт 3, Сайт 4.
      • SERP B (Альтернативный): Сайт 1, Сайт 3, Сайт 2, Сайт 4.
    3. Оценка качества: Потеря качества при выборе SERP B минимальна (Loss = 0.01).
    4. Хэширование и Оценка Водяного знака:
      • Хэш SERP A: 10110101 (Случайный, Gain низкий).
      • Хэш SERP B: 11111101 (Статистически маловероятный, Gain высокий).
    5. Выбор: Система выбирает SERP B, так как он обеспечивает высокий Gain при минимальном Loss.
    6. Результат: Пользователю показывается SERP B. Если кто-то скопирует этот порядок результатов, Google сможет позже статистически доказать, что этот список был сгенерирован его системой.

    Вопросы и ответы

    Описывает ли этот патент, как Google обнаруживает контент, созданный сторонними ИИ (например, ChatGPT)?

    Нет. Патент описывает исключительно то, как Google маркирует свои собственные структурированные результаты (поисковую выдачу, машинный перевод) и как он позже обнаруживает эти конкретные водяные знаки. Методы обнаружения контента, сгенерированного сторонними ИИ, в этом документе не рассматриваются.

    Влияет ли этот механизм на ранжирование моего сайта?

    Прямого влияния нет, так как это не алгоритм оценки качества сайтов. Однако патент указывает, что Google может выбрать альтернативный порядок ранжирования (SERP), если он лучше подходит для встраивания водяного знака, при условии минимальной потери качества. Это может вызывать незначительные флуктуации в позициях, не связанные с изменениями релевантности.

    Зачем Google маркирует свои собственные результаты поиска?

    Чтобы предотвратить загрязнение данных для машинного обучения. Если результаты поиска копируются и публикуются в интернете, Google хочет иметь возможность идентифицировать их как machine-generated content и исключить из обучающих выборок. ИИ-модели должны обучаться на человеческих данных, а не на выводе других машин.

    Как именно встраивается водяной знак в поисковую выдачу?

    Патент предполагает, что водяной знак встраивается путем манипуляции порядком (order) элементов в выдаче. Система выбирает такой порядок результатов, хэш которого является статистически маловероятным (например, содержит аномально много единиц), но при этом сохраняет высокое качество выдачи.

    Может ли пользователь или SEO-специалист увидеть этот водяной знак?

    Нет. Водяной знак, хэш-функция и битовая последовательность невидимы для пользователя. Это статистический сигнал, скрытый в структуре результата, который может быть обнаружен только с помощью специального статистического теста при знании используемой хэш-функции.

    Что такое «Структурированный результат» (Structured Result) в контексте патента?

    Это любой вывод системы, где важен порядок элементов. В патенте явно упоминаются результаты поиска (SERP), машинные переводы и автоматические суммаризации текста или мультимедиа. Это не то же самое, что «структурированные данные» (Schema.org) на веб-странице.

    Что произойдет, если я скопирую результаты поиска Google и немного их изменю?

    Патент предусматривает механизм устойчивости (Robustness). Результат делится на части (sub-results), которые хэшируются отдельно. Если вы измените небольшую часть, большинство хэшей останутся прежними, и водяной знак, скорее всего, все равно будет обнаружен.

    Что означает «Нулевая гипотеза» (Null Hypothesis) в этом патенте?

    Это статистическое предположение, что порядок результатов случаен, и, следовательно, хэш этого порядка также выглядит случайным (например, примерно равное количество нулей и единиц). Если система обнаруживает хэш, который сильно отклоняется от этого предположения, она считает результат маркированным.

    Каково основное значение этого патента для SEO-стратегии?

    Основное значение — стратегическое. Патент демонстрирует, насколько для Google важно отличать человеческий контент от машинного для целей обучения ИИ. Это подтверждает долгосрочную ставку на ценность оригинального контента, созданного людьми (E-E-A-T), поскольку именно такой контент Google стремится изолировать и использовать.

    Актуален ли этот патент 2011 года в эпоху современных LLM?

    Концептуально он более актуален, чем когда-либо. Проблема чистоты обучающих данных и предотвращения коллапса моделей из-за обучения на ИИ-контенте является одной из центральных в развитии ИИ в 2025 году. Технические методы могли эволюционировать, но сама задача идентификации происхождения контента остается критически важной.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.