Как Google использует искажение изображений для защиты контента от копирования при предварительном просмотре (например, в Google Books)

IMAGE DISTORTION FOR CONTENT SECURITY (Искажение изображений для защиты контента)

US7561755B2
Google LLC
2004-09-22
2009-07-14

Индексация

Патент описывает технологию защиты авторских прав при просмотре контента. Чтобы пользователь мог оценить релевантность, но не мог скопировать весь текст, Google показывает релевантный фрагмент (Region of Interest) четко, а остальную часть страницы — в искаженном виде (размытие, пикселизация). Это инфраструктурный патент, не влияющий на SEO продвижение обычных сайтов.

Какую проблему решает

Патент решает проблему баланса между необходимостью предоставить пользователю достаточно информации для оценки релевантности найденного контента (особенно платного или защищенного авторским правом) и необходимостью защитить этот контент от несанкционированного копирования. Он позволяет индексировать и искать по защищенному контенту (например, книгам), не предоставляя полный доступ к документу.

Что запатентовано

Запатентован метод генерации составного изображения (composite image) для предварительного просмотра документа. Суть изобретения в том, чтобы отобразить часть документа, релевантную запросу (Region of Interest или ROI), в четком виде, а остальную часть документа или страницы — в намеренно искаженном виде (distorted representation). Это позволяет пользователю понять контекст, но предотвращает копирование всего документа.

Как это работает

Система работает на этапе отображения результата пользователю. После выбора документа из результатов поиска система определяет Region of Interest (ROI) на основе запроса. Генерируются два изображения: четкое изображение ROI и искаженное изображение всей страницы (например, путем пикселизации или размытия). Затем эти два изображения объединяются. Это может быть реализовано либо путем наложения (overlay) четкого ROI поверх искаженного фона в соответствующем месте, либо с помощью «выноски» (callout), где четкий ROI показан рядом с искаженной страницей с указателем.

Актуальность для SEO

Высокая (для специфических сервисов). Технология, описанная в патенте, активно используется в таких продуктах, как Google Books, для предоставления предварительного просмотра защищенного контента. Для общего веб-поиска и стандартных веб-сайтов патент не актуален.

Важность для SEO

Влияние минимальное (1/10). Патент является чисто техническим и описывает внутренние процессы Google по обработке и отображению изображений для защиты контента (DRM). Он не описывает механизмы ранжирования, индексирования или оценки качества контента в веб-поиске. Он не дает никаких практических рекомендаций для SEO-специалистов, продвигающих стандартные веб-сайты.

Термины и определения

Bounding Box (Ограничивающий прямоугольник): Минимальный прямоугольник, охватывающий слово или элемент в документе. Используется для определения точных координат (x, y) и размеров ROI, необходимых для генерации превью.
Callout (Выноска): Один из способов компоновки итогового изображения. ROI показан отдельно от искаженной страницы и сопровождается указателем (например, стрелкой), связывающим его с местоположением на странице.
Composite Image / Combined Image (Составное/Объединенное изображение): Итоговое изображение, которое видит пользователь. Оно объединяет четкое представление ROI и искаженное представление контекста.
Distorted Image Portion / Second Image (Искаженная часть изображения / Второе изображение): Искаженное представление документа или страницы. Используется для показа контекста при одновременной защите от копирования. Искажение может включать пикселизацию, размытие, изменение яркости.
Document (Документ): Любой контент (текст, графика, PDF, сканы книг), для которого можно создать визуальное представление.
Overlay (Наложение): Один из способов компоновки итогового изображения. Четкое изображение ROI накладывается поверх искаженного изображения страницы в соответствующем месте.
Region of Interest (ROI) (Область интереса): Часть документа, которая признана релевантной поисковому запросу пользователя (например, слово, предложение, абзац или графический элемент).
Undistorted Image Portion / First Image (Неискаженная часть изображения / Первое изображение): Четкое визуальное представление Region of Interest.

Ключевые утверждения (Анализ Claims)

Важное примечание: В патенте присутствует "Certificate of Correction" (Сертификат об исправлении), который удалил слова "менее" (less) и "более" (more) из формулировки Claim 1, которые присутствовали в исходном тексте. Анализ ниже учитывает исправленную версию.

Claim 1 (Независимый пункт): Описывает основной метод генерации защищенного изображения документа.

Определение первого изображения (first image). Это изображение представляет Region of Interest (ROI), который является частью документа, релевантной поисковому запросу.
Определение второго изображения (second image). Это изображение является искаженным представлением (distorted representation) документа, включающим как релевантную часть (ROI), так и нерелевантные части.
Автоматическая генерация составного изображения (composite image) с использованием первого и второго изображений.

Claim 9 и 10 (Зависимые): Уточняют возможность модификации изображений.

Система может модифицировать первое или второе изображение в ответ на поисковый запрос. Конкретные примеры модификации включают подчеркивание (underlining), обводку (outlining) или выделение (highlighting) поискового термина на изображении.

Claim 11 (Зависимый): Описывает один из способов компоновки.

Генерация составного изображения происходит путем наложения (overlaid) первого изображения на второе.

Claim 14 (Зависимый): Описывает альтернативный способ компоновки.

Генерация составного изображения включает первое изображение, второе изображение и выноску (callout), указывающую на первое и второе изображения.

Claim 34 (Независимый пункт): Описывает конкретный способ реализации наложения.

Составное изображение генерируется путем наложения первого изображения (ROI) на второе (искаженное) таким образом, что первое изображение закрывает (obscures) только ту часть второго изображения, которая соответствует области интереса.

Где и как применяется

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Он не относится к основным этапам архитектуры веб-поиска, таким как сканирование или ранжирование. Он относится исключительно к уровню представления данных в специфических вертикалях, где требуется защита контента (например, Google Books).

INDEXING – Индексирование и извлечение признаков
Хотя сам механизм применяется позже, на этапе индексирования система должна подготовить необходимые данные. Для печатных материалов применяется сканирование и оптическое распознавание символов (OCR). Критически важно извлечение и сохранение точных координат (bounding boxes) всех слов на странице. Эти данные необходимы для последующего точного определения и вырезания ROI.

Уровень представления результатов (Presentation Layer)
Механизм применяется после того, как ранжирование завершено и пользователь выбрал для просмотра результат из защищенного корпуса. Вместо того чтобы отдавать пользователю полный текст или полный образ страницы, система генерирует безопасное составное изображение.

Входные данные:

Исходный электронный документ или его предварительно сгенерированный образ.
Поисковый запрос пользователя (для определения ROI и подсветки).
Данные о местоположении слов (координаты Bounding Box).

Выходные данные:

Составное изображение (Composite Image), готовое для отображения пользователю.

На что влияет

Конкретные типы контента: Влияет исключительно на способ отображения контента, защищенного авторским правом — книги, журналы, научные статьи. Не влияет на отображение стандартных общедоступных веб-страниц.
Конкретные ниши или тематики: Применим в вертикалях Google Books и Google Scholar.

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь запрашивает предварительный просмотр документа, который система идентифицирует как требующий защиты от полного копирования.
Условия работы: В предпочтительном варианте реализации генерация композитного изображения происходит на сервере, и клиент (браузер пользователя) никогда не получает полную неискаженную копию документа.

Пошаговый алгоритм

Процесс А: Подготовка данных (Офлайн / Индексирование)

Сбор и Обработка: Получение документов, сканирование и применение OCR (при необходимости).
Извлечение Признаков: Определение и сохранение координат (bounding boxes) и размеров всех слов на каждой странице.
Предварительная генерация (Опционально): Генерация и сохранение в репозитории неискаженных и/или искаженных образов страниц для ускорения работы.

Процесс Б: Обработка запроса на просмотр (Реальное время)

Предпосылка: Пользователь выбрал документ. Система определила релевантный ROI и страницу.

Генерация искаженного изображения (Контекст): Система создает искаженное представление страницы.
1. Проверка репозитория на наличие готового искаженного изображения.
2. Если его нет, проверка наличия неискаженного изображения. Если оно есть, применяется искажение (например, pixelation, blurring).
3. Если изображений нет, генерация изображения из исходного документа и его последующее искажение.
Генерация неискаженного изображения (ROI): Система создает четкое представление ROI.
1. Получение неискаженного изображения страницы (из репозитория или генерация на лету).
2. Обрезка (cropping) изображения по границам ROI, используя координаты Bounding Box.
3. Опциональная модификация для выделения поисковых терминов (highlighting).
Генерация составного изображения: Система объединяет два изображения.
- Метод наложения (Overlay): Четкий ROI помещается поверх искаженного фона в соответствии с его координатами.
- Метод выноски (Callout): Четкий ROI помещается рядом с искаженной страницей, и добавляется указатель.
Отображение: Составное изображение передается пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке изображений и не использует стандартные SEO-факторы.

Технические факторы: Формат исходного документа (упоминаются PDF, текстовые процессоры, файлы изображений), который определяет способ конвертации документа в изображение.
Структурные факторы: Данные о точном местоположении слов и элементов в документе. Критически важны координаты ограничивающего прямоугольника (bounding box) для слов, которые могут быть получены в процессе оптического распознавания символов (OCR).
Пользовательские факторы: Поисковый запрос используется для определения ROI и опциональной подсветки терминов.

Какие метрики используются и как они считаются

Патент не использует метрики для ранжирования или оценки качества. Он использует методы обработки и генерации изображений.

Методы искажения: Для генерации защищенного контекста применяются различные техники искажения изображений:
- Пикселизация (pixelation).
- Изменение яркости (change of brightness) или контраста.
- Размытие (blurring).
- Фильтрация изображений (image filtering).
- Понижение разрешения/Даунсемплинг (downsampling).
Вычисление координат: Система рассчитывает координаты для точного позиционирования ROI, основываясь на данных bounding box.

Патент чисто технический и инфраструктурный: Он описывает конкретное интерфейсное решение (UI) и механизм защиты контента (DRM) для отображения материалов в условиях ограничений на копирование.
Нулевое влияние на веб-поиск: Описанные механизмы не имеют отношения к алгоритмам ранжирования, индексирования или оценки качества сайтов в стандартном веб-поиске Google.
Фокус на защите контента и контексте: Основная цель — предотвратить получение пользователем полной копии документа, сохранив при этом возможность оценить его релевантность (через четкий ROI) и контекст расположения (через искаженный фон).
Применение в специализированных вертикалях: Технология предназначена для использования в сервисах, работающих с защищенным контентом, наиболее очевидный пример — Google Books.
Зависимость от глубокой индексации: Реализация требует продвинутых технологий обработки документов (включая OCR) для извлечения точных координат слов (Bounding Box).
Отсутствие практической ценности для SEO: Для SEO-специалистов, занимающихся продвижением обычных веб-сайтов, данный патент не несет никакой практической информации или рекомендаций.

ВАЖНО: Патент является инфраструктурным, описывает механизмы отображения и защиты контента и не дает практических выводов для SEO-продвижения сайтов.

Best practices (это мы делаем)

Информация в патенте отсутствует. Патент не предлагает никаких действий для владельцев сайтов или SEO-специалистов по оптимизации контента для веб-поиска.

Worst practices (это делать не надо)

Информация в патенте отсутствует. Патент не направлен против каких-либо SEO-манипуляций или тактик.

Стратегическое значение

Патент демонстрирует технические и юридические решения Google, позволившие индексировать и предоставлять доступ к огромным массивам информации за пределами общедоступного веба (например, к книгам). Он показывает способность Google глубоко анализировать структуру документов вплоть до координат отдельных слов. Однако для стратегии SEO продвижения стандартных сайтов это значения не имеет.

Практические примеры

Практических примеров для SEO нет.

Пример использования технологии (не SEO):

Пользователь ищет цитату в Google Books. Он нажимает на результат и видит страницу книги. Абзац, содержащий искомую цитату (Region of Interest), отображается четким текстом с выделенными ключевыми словами (модификация). Вся остальная часть страницы сильно размыта (Distorted Image), что не позволяет прочитать или скопировать остальной текст, но дает понять, в какой части страницы (контекст) находится цитата.

Влияет ли этот патент на ранжирование моего сайта в Google?

Нет, этот патент не имеет никакого отношения к ранжированию сайтов в веб-поиске. Он описывает исключительно способ отображения контента для его защиты от копирования (DRM), например, при предварительном просмотре книг в Google Books. Он не затрагивает алгоритмы оценки качества или релевантности.

Может ли мой сайт быть «искажен» в результатах поиска согласно этому патенту?

Если ваш сайт находится в общедоступном вебе, этот механизм к нему не применяется. Патент предназначен для контента, требующего защиты от копирования (платный контент, книги). Стандартные веб-страницы отображаются в поиске обычным образом, и их сниппеты на SERP формируются иначе.

Что такое Region of Interest (ROI) в контексте этого патента?

Region of Interest — это та часть документа, которая наиболее релевантна запросу пользователя (например, предложение или абзац). Согласно патенту, именно эта часть показывается пользователю в четком виде, чтобы он мог оценить релевантность находки, в то время как остальной контент искажается.

Какие методы искажения использует Google?

В патенте упоминается несколько возможных методов для того, чтобы сделать контент нечитаемым или непригодным для копирования. К ним относятся пикселизация (pixelation), размытие (blurring), изменение яркости или контраста, а также понижение разрешения (downsampling).

Зачем Google показывает остальную часть страницы в искаженном виде, а не только сниппет?

Искаженное изображение остальной части страницы используется для демонстрации контекста. Это помогает пользователю понять, где именно в документе находится релевантный фрагмент (Region of Interest) — в начале, в конце, в таблице и т.д., что улучшает пользовательский опыт при оценке результата.

В патенте описаны два метода отображения: Overlay и Callout. В чем разница?

При методе Overlay (наложение) четкий фрагмент (ROI) накладывается поверх искаженной страницы точно в том месте, где он расположен. При методе Callout (выноска) четкий фрагмент показывается отдельно (например, сбоку от искаженной страницы) и соединяется с местом его расположения указателем или стрелкой.

Есть ли в этом патенте хоть что-то полезное для SEO-специалиста?

Для специалиста, занимающегося продвижением стандартных веб-сайтов (e-commerce, контент-проекты), практической пользы нет. Патент полезен только для общего понимания того, как работают специфические вертикали Google, такие как Google Books, и как они решают проблемы защиты авторских прав.

Упоминается ли в патенте подсветка ключевых слов?

Да, патент предусматривает возможность модификации изображения Region of Interest. В качестве примеров модификации приводятся выделение (highlighting), подчеркивание (underlining) или обводка (outlining) поисковых терминов, чтобы помочь пользователю быстрее найти их в тексте.

Как система определяет точное местоположение текста на странице?

Система использует данные о структуре документа, в частности, координаты ограничивающих прямоугольников (bounding box) для слов. Эти данные генерируются в процессе индексации, часто с помощью оптического распознавания текста (OCR) или извлекаются из формата электронного документа (например, PDF).

Патент подан в 2004 году. Актуален ли он сейчас?

Да, технология актуальна и по сей день. Механизмы, описанные в патенте, лежат в основе систем предварительного просмотра защищенного контента. Любой, кто пользовался Google Books для просмотра фрагментов книг, видел реализацию этих принципов на практике.

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google проектирует интерфейс и навигацию для поиска внутри оцифрованных документов (Google Books)

Патент описывает дизайн пользовательского интерфейса для поиска по оцифрованным печатным материалам (книги, журналы). Он включает механизмы отображения результатов с выдержками (excerpts), навигацию к следующим релевантным фрагментам внутри документа (пропуская нерелевантные страницы), агрегацию связанной веб-информации и отслеживание истории просмотров.

US8364668B2
2013-01-29

SERP
Ссылки

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга

Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.

US11409812B1
2022-08-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google генерирует визуальные превью страниц в выдаче, используя "разрывы страницы" и масштабирование релевантного контента

Google использует систему для создания визуальных превью страниц (Page Previews) в результатах поиска. Система оценивает релевантность контента, учитывая близость ключевых слов и тип контента (например, пессимизируя сноски). Для показа наиболее важных, но разрозненных участков используются "разрывы страницы" (Page Tears). Ключевой контент также может отображаться в увеличенном масштабе для читаемости, помогая пользователю оценить формат страницы до клика.

US8954427B2
2015-02-10

SERP
Семантика и интент

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR

Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).

US9183224B2
2015-11-10

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска

Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.

US8959083B1
2015-02-17

Персонализация
Поведенческие сигналы
SERP

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи

Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.

US8874570B1
2014-10-28

Поведенческие сигналы
Персонализация
SERP

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность

Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.

US7870147B2
2011-01-11

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы