Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует OCR и анализ структуры для поиска оригинала по фотографии текста

    IDENTIFYING MATCHING CANONICAL DOCUMENTS CONSISTENT WITH VISUAL QUERY STRUCTURAL INFORMATION (Идентификация совпадающих канонических документов, соответствующих структурной информации визуального запроса)
    • US9087235B2
    • Google LLC
    • 2015-07-21
    • 2011-12-01
    2011 Индексация Мультимедиа Патенты Google Семантика и интент

    Google использует технологию визуального поиска для идентификации исходного (канонического) документа по изображению (например, фотографии страницы). Система анализирует не только распознанный текст (OCR), но и структурную информацию (верстку, шрифты, расположение), чтобы точно найти оригинальный источник и вернуть его пользователю.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему точной идентификации исходного (canonical document) документа, когда пользователь отправляет визуальный запрос (изображение текста), который может быть низкого качества (размытым, искаженным). Система улучшает пользовательский опыт, предоставляя чистую версию оригинального документа вместо неточных результатов OCR. Ключевая задача — гарантировать возврат нужной версии документа, различая разные издания или форматы одного и того же текста, используя анализ структуры.

    Что запатентовано

    Запатентована система для обработки визуальных запросов, которая комбинирует распознавание текста (OCR) с анализом structural information (верстка, шрифты, относительные размеры и позиции символов) в изображении. Система идентифицирует надежно распознанные фрагменты текста (high quality textual strings) и ищет canonical document, который совпадает как по содержанию этих фрагментов, так и по их структурному расположению.

    Как это работает

    Система работает следующим образом:

    • Получение запроса: Принимается визуальный запрос (изображение).
    • OCR и анализ структуры: Выполняется OCR для извлечения текста и одновременно анализируется structural information (расположение, размеры символов, шрифты).
    • Оценка качества: Система оценивает качество распознанного текста, часто используя языковые модели.
    • Идентификация надежных строк: Выделяются high quality textual strings.
    • Поиск канонического документа: Система ищет в базе данных canonical document, который содержит эти строки и чья структура соответствует структуре визуального запроса.
    • Ответ: Пользователю возвращается соответствующая часть канонического документа (в виде текста или изображения).

    Актуальность для SEO

    Высокая. Технологии визуального поиска (например, Google Lens) активно развиваются. Точное сопоставление изображений, снятых пользователями, с каноническими источниками остается ключевой задачей, особенно с ростом использования камер мобильных устройств для захвата и поиска информации.

    Важность для SEO

    Влияние на традиционное SEO низкое (3/10). Патент описывает механизм визуального поиска и улучшения OCR, а не алгоритмы ранжирования веб-страниц в основном поиске. Однако он важен для понимания того, как Google идентифицирует канонические источники контента, представленного в виде изображений (например, в PDF или инфографике), и подчеркивает стратегическую важность наличия индексируемой, машиночитаемой текстовой версии любого контента.

    Детальный разбор

    Термины и определения

    Canonical Document (Канонический документ)
    Исходный документ из установленного источника (например, издателя, веб-хоста). Часто это оригинальное авторское произведение, обычно хранящееся в формате, который позволяет индексировать его содержимое (текст), а не только как изображение.
    High Quality Textual Strings (Высококачественные текстовые строки)
    Строки распознанного текста, которые были идентифицированы как точные на основе оценки Text Quality Score. Они используются как анкоря для поиска канонического документа.
    Language-Conditional Character Probability (Вероятность символа, обусловленная языком)
    Метрика, указывающая, насколько символ и предшествующий ему набор символов соответствуют определенной языковой модели. Используется для оценки качества OCR.
    OCR (Optical Character Recognition / Оптическое распознавание символов)
    Процесс преобразования изображений текста в машиночитаемый текст. В контексте патента OCR также извлекает структурную информацию.
    Structural Information (Структурная информация)
    Данные, описывающие верстку и форматирование текста в визуальном запросе. Включает относительные позиции символов, относительные размеры, порядок символов, количество символов и категорию шрифта.
    Text Quality Score (Оценка качества текста)
    Числовая оценка, присваиваемая распознанным символам или строкам, отражающая уверенность системы в точности OCR.
    Text Recognition Data (Данные распознавания текста)
    Результат процесса OCR, включающий как сами текстовые символы, так и связанную с ними Structural Information.
    Visual Query (Визуальный запрос)
    Изображение (например, фотография, скан, скриншот), отправленное в поисковую систему в качестве запроса.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса.

    1. Система получает визуальный запрос от клиентской системы.
    2. Выполняется OCR для получения данных распознавания текста, включающих текстовые символы и structural information, связанную с этими символами в запросе.
    3. Производится оценка (scoring) каждого текстового символа.
    4. На основе оценки идентифицируются одна или несколько high quality textual strings.
    5. Извлекается (retrieving) canonical document, который включает эти высококачественные строки И который соответствует (consistent with) structural information.
    6. По крайней мере часть канонического документа отправляется клиентской системе.

    Ядро изобретения заключается в требовании соответствия не только тексту (high quality textual strings), но и structural information для идентификации правильного canonical document.

    Claim 3 (Зависимый от 1, в патенте US9087235B2 это Claim 4): Уточняет состав structural information.

    Структурная информация включает один или несколько параметров из списка: относительные позиции текстовых символов, относительные размеры символов, порядок символов, количество символов и категорию шрифта.

    Claim 5 (Зависимый от 4, в патенте US9087235B2 это Claim 6): Детализирует процесс оценки качества текста.

    Оценка качества текста (Text Quality Score) для конкретного символа зависит от оценки качества соседних символов.

    Где и как применяется

    Изобретение применяется в системах визуального поиска (таких как Google Lens или поиск по Google Книгам) и затрагивает несколько этапов поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе canonical documents должны быть проиндексированы. Важно, что для работы механизма система должна хранить не только текст этих документов, но и их structural information (данные о верстке, шрифтах, расположении элементов), чтобы впоследствии можно было провести сравнение со структурой визуального запроса.

    QUNDERSTANDING – Понимание Запросов
    В данном случае это этап интерпретации визуального ввода. Система должна распознать, что запрос содержит текст, и запустить процесс OCR для извлечения Text Recognition Data (текста и структуры).

    RANKING / RETRIEVAL – Ранжирование / Извлечение
    Основное применение патента. Происходит процесс поиска соответствия. Система использует high quality textual strings как запрос к индексу канонических документов, но затем применяет фильтр или оценку соответствия (Consistency Check) на основе structural information, чтобы выбрать наиболее подходящий документ среди кандидатов.

    Входные данные:

    • Визуальный запрос (изображение).
    • Опционально: географическое положение клиента (используется для выбора языковой модели).

    Выходные данные:

    • Часть идентифицированного canonical document (в виде машиночитаемого текста или изображения).
    • Опционально: веб-результаты, релевантные содержанию документа и местоположению пользователя.

    На что влияет

    • Типы контента: В первую очередь влияет на контент, который существует в фиксированном каноническом формате и часто потребляется через визуальный захват: книги, журналы, газеты, научные статьи, PDF-документы, возможно, инфографика с текстом.
    • Специфические запросы: Визуальные запросы, целью которых является идентификация источника текста или получение чистой копии текста по изображению.
    • Ниши: Издательское дело, библиотеки, академические исследования.

    Когда применяется

    • Условия работы: Алгоритм применяется, когда система получает визуальный запрос, содержащий текст.
    • Триггеры активации: Обнаружение текста в изображении и запуск процесса OCR.
    • Условия успеха: Механизм успешен, если система может идентифицировать достаточное количество high quality textual strings и если соответствующий canonical document присутствует в базе данных системы (Data Store) вместе с его структурной информацией.

    Пошаговый алгоритм

    Процесс работы системы поиска канонического документа по визуальному запросу:

    1. Получение данных: Система получает визуальный запрос и, опционально, географическое положение клиента.
    2. OCR и извлечение структуры: Выполняется оптическое распознавание символов для получения текстовых символов и связанной с ними structural information (относительные позиции, размеры, порядок, шрифты).
    3. Оценка качества символов: Каждый распознанный символ оценивается. Оценка может включать генерацию Language-Conditional Character Probability (с использованием языковой модели, возможно, выбранной на основе местоположения) и расчет Text Quality Score. Оценка символа зависит от оценок соседних символов.
    4. Идентификация высококачественных строк: На основе оценок символов (и/или слов) система идентифицирует high quality textual strings — фрагменты текста, в точности которых система уверена.
    5. Поиск канонического документа: Система ищет в базе данных canonical document, который содержит эти высококачественные строки.
    6. Проверка структурного соответствия: Среди документов-кандидатов система выбирает тот, который наиболее консистентен (consistent with) со structural information, извлеченной из визуального запроса. Это позволяет различить разные версии или издания одного текста.
    7. Формирование ответа: Система выбирает соответствующую часть канонического документа.
    8. Отправка результата: Выбранная часть отправляется пользователю (в виде изображения или машиночитаемого текста). Опционально, генерируются и отправляются дополнительные релевантные веб-результаты.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Визуальный запрос (изображение) является основным вводом.
    • Структурные факторы (извлекаемые): Система извлекает Structural Information из изображения: относительные позиции символов, относительные размеры, порядок символов (включая порядок слов и переносы строк), количество символов, категорию шрифта.
    • Географические факторы: Опционально используется географическое положение клиентского устройства для выбора соответствующей языковой модели при оценке качества текста (например, для учета региональных различий в орфографии).

    Какие метрики используются и как они считаются

    • Language-Conditional Character Probability: Метрика соответствия символа и его контекста (предшествующих символов) языковой модели.
    • Text Quality Score: Оценка уверенности в точности распознавания символа, слова или строки. В патенте упоминается, что эта оценка может быть бинарной (высокое/низкое качество) и что она зависит от оценок соседних символов (используя механизм типа transition cost).
    • Consistency Score (Оценка соответствия структуры): Метрика, определяющая, насколько structural information канонического документа соответствует structural information визуального запроса. Патент не дает формулы, но указывает, что извлечение документа зависит от этого соответствия.

    Выводы

    1. Структура так же важна, как и содержание (для визуального поиска): Ключевой вывод патента — Google использует не только распознанный текст (OCR), но и визуальную структуру (Structural Information) для точной идентификации источника. Это позволяет системе различать разные издания или форматы одного и того же текста.
    2. Фокус на канонические источники: Система ориентирована на поиск Canonical Document — авторитетного оригинала, а не просто любого совпадения текста в интернете.
    3. Сложная оценка качества OCR: Google не доверяет результатам OCR слепо. Используется многоуровневая оценка качества (Text Quality Score, Language-Conditional Probability), чтобы полагаться только на надежно распознанные фрагменты (High Quality Textual Strings).
    4. Визуальный поиск — это не просто OCR + текстовый поиск: Этот патент демонстрирует, что визуальный поиск текста является отдельным сложным процессом, включающим глубокий анализ визуальных и структурных признаков, выходящий за рамки простого распознавания символов.
    5. Локализация влияет на распознавание: Географическое положение пользователя может использоваться для выбора языковой модели, что повышает точность распознавания и оценки качества текста с учетом региональных особенностей языка.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает внутренние механизмы визуального поиска и OCR, он дает важные стратегические инсайты для SEO:

    • Обеспечение наличия Canonical-версии контента: Для любого контента, особенно публикуемого в виде PDF, изображений или инфографики, критически важно иметь каноническую, машиночитаемую текстовую версию (например, HTML). Это гарантирует, что Google сможет идентифицировать ваш сайт как canonical document, когда пользователи ищут его через визуальный поиск.
    • Использование текста вместо изображений текста: Всегда предпочитайте использование HTML-текста и CSS для стилизации вместо встраивания текста в изображения. Это упрощает индексацию и гарантирует точное сопоставление.
    • Оптимизация PDF: Убедитесь, что PDF-документы содержат текстовый слой, а не являются просто сканами. Структура и верстка PDF должны быть чистыми, чтобы structural information могла быть корректно извлечена и сопоставлена.
    • Консистентность форматирования (для издателей): Для издателей контента (книги, статьи) важно поддерживать консистентность форматирования в цифровых версиях, чтобы облегчить их идентификацию как канонических источников при сравнении структуры.

    Worst practices (это делать не надо)

    • Публикация важного контента только в виде изображений: Размещение ключевой информации (текста статей, данных) исключительно в виде растровых изображений без текстовой альтернативы мешает Google идентифицировать ваш контент как canonical document.
    • Использование сканированных PDF без текстового слоя: Это заставляет Google полагаться исключительно на OCR низкого качества для понимания содержания, снижая шансы на корректную идентификацию и ранжирование.
    • Игнорирование семантической структуры в документах: Создание документов (HTML, PDF) с запутанной структурой может помешать извлечению корректной structural information.

    Стратегическое значение

    Патент подтверждает глобальное стремление Google к каноникализации всех форм контента, не только веб-страниц. Он показывает, что Google инвестирует в технологии, позволяющие связывать физический мир (через визуальные запросы) с цифровыми каноническими источниками. В долгосрочной перспективе, по мере развития визуального поиска (Google Lens), наличие машиночитаемого, структурированного canonical document станет необходимым условием для получения трафика от пользователей, которые ищут информацию с помощью камеры.

    Практические примеры

    Сценарий: Идентификация источника статьи по фотографии

    1. Ситуация: Пользователь делает фотографию интересного абзаца в печатном журнале с помощью Google Lens. Фотография немного размыта.
    2. Действие SEO-специалиста (заранее): SEO-специалист сайта журнала убедился, что все статьи публикуются на сайте в виде чистого HTML-текста с версткой, близкой к печатному изданию. Эта HTML-версия проиндексирована Google как canonical document.
    3. Работа алгоритма: Google Lens выполняет OCR. Несмотря на размытость, система идентифицирует несколько high quality textual strings. Она также анализирует structural information (переносы строк, шрифт).
    4. Результат: Система находит HTML-статью на сайте журнала, которая соответствует и тексту, и структуре. Пользователю возвращается ссылка на эту статью или ее чистый текст. Сайт получает целевой трафик.

    Вопросы и ответы

    Что такое «Structural Information» в контексте этого патента?

    Это данные о визуальной верстке текста в изображении. Патент явно указывает, что они включают относительные позиции символов, их относительные размеры, порядок следования, общее количество и категорию шрифта. Эта информация используется для того, чтобы отличить одну версию текста от другой (например, разные издания книги), даже если сам текст идентичен.

    Что патент понимает под «Canonical Document»?

    Это исходный, авторитетный документ из установленного источника, например, от издателя или официального веб-хоста. Обычно это машиночитаемый документ (например, HTML, PDF с текстовым слоем), содержание и структура которого проиндексированы Google. Цель системы — найти именно этот оригинал по фотографии.

    Влияет ли этот патент на ранжирование в обычном поиске Google?

    Прямого влияния на ранжирование в традиционном веб-поиске (10 синих ссылок) этот патент не оказывает. Он описывает механизм обработки визуальных запросов (как в Google Lens или поиске по книгам) и идентификации точного источника по изображению. Он не дает указаний о том, как оптимизировать ваш сайт для лучшего ранжирования.

    Как это влияет на SEO для изображений или инфографики?

    Если вы публикуете инфографику или изображения, содержащие текст, этот патент подчеркивает необходимость предоставления текстовой альтернативы. Чтобы Google мог связать визуальный запрос с вашим сайтом как источником, у вас должна быть индексируемая каноническая версия этого текста, в идеале с похожей структурой.

    Что такое «High Quality Textual Strings» и почему они важны?

    Это фрагменты текста, распознанные с высокой степенью уверенности, несмотря на возможное низкое качество исходного изображения. Система использует их как надежные анкоря для поиска совпадений в базе канонических документов. Без них сопоставление было бы неточным.

    Как система определяет качество распознанного текста?

    Используется Text Quality Score, который рассчитывается для каждого символа. Он учитывает Language-Conditional Character Probability (соответствие языковой модели) и оценки соседних символов. Это позволяет системе понять, какие части OCR надежны, а какие нет.

    Имеет ли значение, в каком формате хранится канонический документ (HTML, PDF, Word)?

    Патент не специфицирует формат, но указывает, что документ должен быть таким, чтобы его содержание и структура могли быть проанализированы и сопоставлены. Для этого лучше всего подходят форматы, сохраняющие текст и структуру: HTML или PDF с текстовым слоем. Сканированные изображения без текстового слоя не подходят на роль canonical document.

    Может ли система вернуть пользователю текст, если он отправил фотографию?

    Да. Патент явно предусматривает, что часть канонического документа может быть отправлена клиенту либо как сегмент изображения (image segment), либо как текстовый сегмент (text segment). Это позволяет пользователю получить чистый, копируемый текст по фотографии.

    Используется ли местоположение пользователя в этом алгоритме?

    Да, в патенте описан вариант, когда географическое положение клиента используется для выбора соответствующей языковой модели. Это помогает улучшить оценку качества текста (Text Quality Score), учитывая региональные различия в языке и орфографии (например, британский английский против американского).

    Каков главный вывод для владельцев контента и SEO специалистов?

    Главный вывод — необходимо гарантировать, что любая важная информация на вашем ресурсе доступна в виде индексируемого, машиночитаемого текста. Если вы полагаетесь на визуальное представление (PDF, изображения), убедитесь, что существует четкая текстовая каноническая версия, чтобы системы визуального поиска могли идентифицировать ваш ресурс как источник.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.