Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует OCR, геолокацию и структуру текста для сопоставления изображений с каноническими документами

    IDENTIFYING MATCHING CANONICAL DOCUMENTS IN RESPONSE TO A VISUAL QUERY (Идентификация совпадающих канонических документов в ответ на визуальный запрос)
    • AU2017272149B2
    • Google LLC
    • 2019-01-24
    • 2011-12-01
    2011 Мультимедиа Мультиязычность Патенты Google

    Google обрабатывает визуальные запросы (изображения с текстом), выполняя OCR и оценивая качество распознавания с помощью языковых моделей, адаптированных к географическому положению пользователя. Система идентифицирует надежные текстовые строки и сопоставляет их с базой данных авторитетных («канонических») документов, учитывая также структуру верстки. Это позволяет вернуть пользователю оригинальный цифровой текст или изображение источника.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему точной идентификации авторитетной цифровой версии документа (Canonical Source Document), когда пользователь предоставляет только его изображение (например, фотографию страницы книги или скриншот). Он устраняет неточности стандартного OCR, внедряя механизм детальной оценки качества текста и используя контекст географического местоположения пользователя для применения специфических языковых моделей (например, для учета региональных различий в орфографии). Также решается задача идентификации конкретного издания текста путем анализа его структуры (Structural Information).

    Что запатентовано

    Запатентована система обработки визуальных запросов, которая сопоставляет текст, распознанный на изображении, с каноническими документами. Ключевым элементом является механизм оценки качества OCR (Quality Score) на уровне символов, который использует языковые модели, выбранные на основе географического положения пользователя. Система идентифицирует высококачественные текстовые строки и ищет документ, соответствующий как тексту, так и его структуре. В результате система может вернуть канонический текст, изображение или наложить его поверх исходного запроса.

    Как это работает

    Система работает следующим образом:

    • Получение данных: Принимается визуальный запрос и информация о географическом местоположении клиента.
    • OCR и Структурный анализ: Выполняется оптическое распознавание текста и извлекается структурная информация (разметка, шрифты, переносы строк).
    • Оценка качества с учетом локации: Для каждого символа рассчитывается Quality Score. Этот расчет использует языковую модель, выбранную в соответствии с местоположением пользователя, для оценки вероятности символа в контексте (Language-Conditional Character Probability).
    • Идентификация строк: Определяются высококачественные текстовые строки.
    • Поиск канонического источника: Система ищет в базе данных канонический документ, который содержит эти строки и соответствует извлеченной структурной информации.
    • Ответ: Клиенту отправляется часть канонического документа. Формат (текст или изображение) может зависеть от итогового Quality Score. Система также может сгенерировать комбинацию, наложив канонический текст поверх исходного изображения.

    Актуальность для SEO

    Высокая. Описанные механизмы лежат в основе работы технологий визуального поиска, таких как Google Lens, которые активно используют камеру для распознавания текста в реальном мире и сопоставления его с цифровыми источниками. Акцент на поиске канонических источников и учете региональных языковых особенностей остается крайне актуальным для повышения точности поиска.

    Важность для SEO

    Влияние на SEO умеренное (6/10). Патент критически важен для понимания работы визуального поиска (Google Lens, Image Search), но имеет ограниченное прямое влияние на ранжирование традиционных веб-страниц. Однако он подчеркивает стратегическую важность наличия канонического, машиночитаемого текста, доступного для индексации, поскольку именно этот текст формирует базу канонических документов, с которой сопоставляются изображения. Также патент подтверждает важность точного таргетинга контента на региональные языковые особенности.

    Детальный разбор

    Термины и определения

    Canonical Source Document (Канонический исходный документ)
    Документ из установленного, авторитетного источника (например, издателя или автора). Обычно содержит текст, хранящийся в виде машиночитаемого текста, а не изображения. Является эталонным представлением контента.
    High Quality Textual Strings (Высококачественные текстовые строки)
    Сегменты текста, распознанные с помощью OCR, которые получили высокий Quality Score на основе оценки на уровне символов и соответствия языковой модели.
    Language Model (Языковая модель)
    Статистическая модель языка, используемая для оценки вероятности последовательностей символов. В патенте модель выбирается в соответствии с географическим положением клиента.
    Language-Conditional Character Probability/Likelihood (Вероятность/правдоподобие символа, обусловленная языком)
    Метрика, указывающая, насколько символ и предшествующий ему набор символов соответствуют определенной языковой модели.
    OCR Module (Модуль OCR)
    Компонент, конвертирующий исходные изображения в текст (OCR’ed text) и генерирующий позиционную и структурную информацию.
    Quality Score (Оценка качества)
    Числовое значение, измеряющее общее качество текстового сегмента или отдельного символа. Рассчитывается на основе Language-Conditional Character Probability и уровней уверенности OCR.
    Structural Information (Структурная информация)
    Данные о макете, размере, позиционировании текста в визуальном запросе. Включает относительные позиции символов, размеры, порядок слов, разрывы строк, категорию шрифта. Используется для идентификации конкретных изданий документа.
    Text Evaluation Engine (Механизм оценки текста)
    Компонент в Text Match Application, который генерирует Quality Scores для текстовых сегментов и символов.
    Text Match Application (Приложение для сопоставления текста)
    Часть системы OCR поиска, которая оценивает качество распознанного текста и сопоставляет его с каноническими документами, хранящимися в Data Store.
    Visual Query (Визуальный запрос)
    Изображение (фотография, скан), отправленное в поисковую систему в качестве запроса.

    Ключевые утверждения (Анализ Claims)

    Анализ сосредоточен на независимых пунктах 1 и 11 патента AU2017272149B2, которые определяют ядро изобретения.

    Claim 1 (Независимый пункт): Описывает метод обработки визуального запроса с акцентом на использование географического положения для оценки текста.

    1. Система получает визуальный запрос И информацию о географическом местоположении клиентской системы.
    2. Выполняется OCR для получения текстовых данных.
    3. Производится оценка (scoring) каждого текстового символа. Ключевой аспект: оценка выполняется в соответствии с географическим положением клиента.
    4. Механизм оценки включает генерацию language-conditional character likelihood (вероятности символа), которая показывает, насколько символ и предшествующие ему символы соответствуют языковой модели, выбранной в соответствии с географическим положением клиента.
    5. На основе оценок идентифицируются одна или несколько высококачественных текстовых строк.
    6. Извлекается канонический документ, содержащий эти строки.
    7. Часть канонического документа отправляется клиенту.

    Система использует местоположение пользователя для выбора подходящей языковой модели (например, американский английский или британский английский). Это позволяет более точно оценить качество распознанного текста, учитывая региональные различия в языке и орфографии, и, следовательно, точнее идентифицировать канонический источник.

    Claim 11 (Независимый пункт): Описывает метод с акцентом на выборе формата ответа в зависимости от оценки качества.

    1. Система получает визуальный запрос и геолокацию, выполняет OCR и оценку с учетом геолокации.
    2. Идентифицируются высококачественные текстовые строки.
    3. Извлечение канонического документа включает:
      • Расчет Quality Score для высококачественных строк.
      • Извлечение версии в виде изображения (image version) канонического документа, если оценка качества НИЖЕ порогового значения.
      • Извлечение версии в виде машиночитаемого текста (machine readable text version), если оценка качества ВЫШЕ или равна пороговому значению.
    4. Часть канонического документа (в выбранном формате) отправляется клиенту.

    Система динамически решает, в каком формате предоставить результат. Если уверенность в точности распознавания высока, предоставляется чистый текст. Если уверенность ниже, предоставляется изображение канонического документа, что снижает риск предоставления некорректного текста.

    Где и как применяется

    Изобретение применяется в рамках системы визуального поиска (например, Google Lens или Image Search) и задействует несколько этапов архитектуры поиска.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит предварительная обработка канонических документов. Система должна проиндексировать не только текст этих документов, но и их структурную информацию (разметку, шрифты, разрывы строк), чтобы впоследствии можно было идентифицировать конкретные издания. Эти данные сохраняются в хранилище (Data Store).

    QUNDERSTANDING – Понимание Запросов (Визуальных)
    Система получает визуальный запрос и метаданные, включая критически важную информацию о географическом местоположении клиента. Запрос направляется в систему визуального поиска.

    RANKING (в рамках OCR Search System)
    Основное применение патента происходит внутри специализированной системы поиска OCR (OCR Search System). Этот компонент выполняет OCR, выбирает языковую модель на основе местоположения, рассчитывает Quality Scores и выполняет сопоставление (Ranking/Retrieval) найденных строк с индексом канонических документов.

    RERANKING / METASEARCH – Переранжирование и Метапоиск
    После идентификации канонического документа система (Document Generation Module) выполняет финальные действия:

    • Форматирование результата: Выбор формата (текст или изображение) на основе Quality Score или генерация комбинированного результата (наложение канонического текста на визуальный запрос).
    • Инициирование веб-поиска (Опционально): Система может использовать распознанный текст для запуска дополнительных веб-поисков. При этом географическое положение используется для уточнения результатов (например, для разрешения неоднозначности географических названий, найденных в тексте – Claim 3).

    Входные данные:

    • Визуальный запрос (изображение).
    • Географическое местоположение клиента.
    • База данных канонических документов (текст и структурная информация).
    • Набор языковых моделей для разных регионов.

    Выходные данные:

    • Часть канонического документа (в виде изображения или машиночитаемого текста).
    • Опционально: Комбинированный результат (визуальный запрос с наложенным каноническим контентом).
    • Опционально: Связанные веб-результаты, уточненные по геолокации.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на изображения печатных материалов: книг, газет, журналов, документов, меню, вывесок.
    • Специфические запросы: Визуальные запросы, целью которых является идентификация источника текста или получение его цифровой копии.
    • Языковые и географические ограничения: Патент напрямую затрагивает обработку запросов в регионах с различными языковыми особенностями (например, различия в орфографии между UK и US English). Механизм улучшает точность для пользователей в этих регионах.

    Когда применяется

    • Триггеры активации: Алгоритм активируется, когда пользователь отправляет визуальный запрос, и система OCR обнаруживает на нем текст.
    • Условия работы: Для работы механизма требуется наличие информации о географическом местоположении клиента (для Claims 1 и 11) и наличие соответствующих канонических документов в базе данных Google. Система должна быть способна выделить High Quality Textual Strings.
    • Пороговые значения: Используются пороги для определения качества строк и порог для выбора формата вывода (Claim 11).

    Пошаговый алгоритм

    Процесс работы системы по идентификации канонического документа на основе визуального запроса и геолокации.

    1. Получение данных: Система получает визуальный запрос и географическое местоположение клиента.
    2. OCR и Извлечение структуры: OCR Module обрабатывает изображение, генерируя распознанный текст (OCR’ed text) и извлекая структурную информацию (позиции символов, размеры, разрывы строк, шрифты).
    3. Выбор языковой модели: Text Evaluation Engine выбирает соответствующую языковую модель на основе полученного географического местоположения.
    4. Расчет вероятностей символов: Для каждого распознанного символа рассчитывается Language-Conditional Character Probability. Эта метрика определяет, насколько вероятно появление символа в контексте предшествующих ему символов согласно выбранной языковой модели.
    5. Расчет оценок качества: На основе вероятностей генерируется Quality Score для каждого символа. Оценка может учитывать оценки соседних символов.
    6. Идентификация высококачественных строк: Символы агрегируются в слова и строки. Идентифицируются высококачественные текстовые строки, чьи оценки превышают пороговые значения.
    7. Поиск соответствия: Text Match Application ищет в Data Store канонический документ, который содержит идентифицированные высококачественные строки.
      • (Опционально, согласно FIG. 23) Поиск также проверяет, что расположение строк в каноническом документе соответствует структурной информации, извлеченной из визуального запроса (для идентификации издания).
    8. Определение формата вывода (Claim 11): Система рассчитывает общий Quality Score для найденного соответствия.
      • Если Score >= Порог: Выбирается формат машиночитаемого текста.
      • Если Score < Порог: Выбирается формат изображения канонического документа.
    9. Генерация и отправка результата: Document Generation Module извлекает соответствующую часть канонического документа в выбранном формате.
      • (Опционально, согласно FIG. 21) Система может сгенерировать комбинацию, накладывая канонический текст/изображение на визуальный запрос, выравнивая его по ориентации запроса.
    10. Генерация веб-результатов (Опционально, Claim 3): Система идентифицирует веб-результаты, релевантные тексту и географическому положению. Если в тексте найдены географические термины, они уточняются с использованием местоположения клиента.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на обработке визуальных запросов и использовании контекстных данных для их сопоставления с каноническими источниками.

    • Географические факторы: Местоположение клиентской системы. Это ключевой фактор, используемый для выбора соответствующей языковой модели при оценке качества OCR и для уточнения связанных веб-результатов.
    • Контентные/Мультимедиа факторы: Визуальный запрос (изображение). Анализируются пиксели для распознавания текста.
    • Структурные факторы (извлекаемые): Structural Information, извлеченная из визуального запроса: относительное расположение символов и слов, размеры, порядок слов, количество слов в строке, разрывы строк, категория шрифта.

    Какие метрики используются и как они считаются

    • Language-Conditional Character Probability (Вероятность символа, обусловленная языком): Статистическая метрика, показывающая вероятность символа с учетом предшествующих символов на основе языковой модели, выбранной по геолокации.
    • Quality Score (Оценка качества на уровне символа): Рассчитывается для каждого символа. Основана на Language-Conditional Character Probability и может включать уровни уверенности OCR. Оценка одного символа может зависеть от оценок соседних символов (упоминаются Transition Costs).
    • Quality Score (Оценка качества на уровне сегмента/строки): Агрегация оценок качества символов в сегменте. Используется для идентификации высококачественных текстовых строк.
    • Пороговое значение качества (Quality Threshold): Предопределенное значение Quality Score, используемое для принятия решения о формате вывода (текст или изображение – Claim 11).
    • Соответствие структурной информации (Structural Information Consistency): Метрика, оценивающая, насколько структура текста в визуальном запросе соответствует структуре в каноническом документе.

    Выводы

    1. Приоритет канонических источников в визуальном поиске: Google активно стремится связать контент, найденный на изображениях (визуальных запросах), с его авторитетными (каноническими) текстовыми версиями. Система поддерживает базу данных эталонных документов для сопоставления.
    2. Геолокация как фактор интерпретации текста: Географическое положение пользователя напрямую влияет на то, как Google интерпретирует и оценивает текст на изображениях. Система использует специфические для региона языковые модели для учета локальных языковых особенностей и орфографии.
    3. Идентификация на уровне издания (Structural Matching): Google анализирует не только текст на изображении, но и его структуру (разметку, переносы строк, шрифты). Это позволяет системе отличать разные издания одного и того же текста (например, разные тиражи книги).
    4. Оценка качества определяет формат ответа: Система использует внутреннюю метрику Quality Score для динамического определения формата ответа. При высокой уверенности возвращается чистый текст, при низкой — изображение оригинала.
    5. «Восстановление» изображений: Описан механизм «очистки» низкокачественных визуальных запросов путем наложения на них высококачественного канонического текста или изображения, совпадающего по ориентации.
    6. Синергия визуального и веб-поиска: Идентификация текста в визуальном запросе может служить триггером для запуска связанных веб-поисков, при этом геолокация используется для разрешения неоднозначностей (например, географических названий) в распознанном тексте.

    Практика

    Best practices (это мы делаем)

    • Обеспечение индексации канонического текста: Убедитесь, что основной контент вашего сайта представлен в виде машиночитаемого текста (HTML), а не изображений. Этот текст должен быть доступен для индексации, чтобы Google мог идентифицировать его как канонический источник. Это позволит вашему контенту появляться в результатах визуального поиска (например, Google Lens), когда пользователи фотографируют его.
    • Соблюдение региональных языковых стандартов (International SEO): Используйте корректную орфографию и лексику для целевого региона. Патент подтверждает, что Google использует языковые модели, специфичные для местоположения пользователя. Соответствие этим моделям повышает вероятность правильной идентификации контента.
    • Корректная реализация Hreflang и локализации: Для мультиязычных и мультирегиональных сайтов критически важно правильно реализовать локализацию. Это помогает Google понять, какая версия контента является канонической для пользователей в определенном географическом положении.
    • Сохранение консистентной структуры (для издателей): Если важно, чтобы пользователи могли идентифицировать конкретные версии или издания вашего контента (например, PDF-отчеты, электронные книги), поддерживайте консистентную и чистую структуру документов. Google использует структурную информацию для дифференциации изданий.

    Worst practices (это делать не надо)

    • Публикация текста в виде изображений: Размещение важного контента исключительно в виде изображений затрудняет его индексацию как канонического источника. Хотя Google может распознать текст через OCR, он предпочитает машиночитаемые источники для формирования базы канонических документов.
    • Использование неоднозначных географических терминов без контекста: Если вы упоминаете географические названия, которые могут быть неоднозначными (например, «Лондон»), предоставляйте уточняющий контекст. Хотя Google может использовать геолокацию пользователя для разрешения неоднозначности, отсутствие контекста в самом документе усложняет его интерпретацию.
    • Игнорирование локальных языковых норм: Использование орфографии или терминологии, не соответствующей целевому региону (например, использование американской орфографии для британской аудитории), может снизить Quality Score при оценке контента системами, использующими локализованные языковые модели.

    Стратегическое значение

    Патент подтверждает стратегическое направление Google на глубокую интеграцию визуального поиска, текстового анализа и контекстуальных сигналов, таких как геолокация. Для SEO это означает, что оптимизация охватывает не только веб-страницы; любой контент, который может быть сфотографирован (печатная продукция, скриншоты), становится точкой входа в поиск. Стратегия должна включать обеспечение того, чтобы контент был легко идентифицируем и представлен в каноническом виде в индексе Google. Это также подчеркивает важность локализации контента на уровне языка и орфографии, а не только на уровне страны.

    Практические примеры

    Сценарий 1: Локализация и языковые модели

    • Ситуация: Пользователь в Канаде фотографирует страницу книги, где используется канадская орфография (например, «centre», «honour»).
    • Действие системы: Google определяет местоположение пользователя (Канада) и выбирает соответствующую языковую модель (Канадский Английский).
    • Обработка: При расчете Quality Score система считает слова «centre» и «honour» высоковероятными согласно этой модели.
    • Результат: Текст распознается точно, и пользователю возвращается правильный канонический документ. Если бы использовалась модель Американского Английского, эти слова могли бы снизить Quality Score.

    Сценарий 2: Разрешение географической неоднозначности

    • Ситуация: Пользователь в Иллинойсе (США) фотографирует газетную вырезку, содержащую текст о городе «Спрингфилд» без указания штата.
    • Действие системы: Google распознает текст и определяет местоположение пользователя (Иллинойс).
    • Обработка: При генерации связанных веб-результатов система использует геолокацию для разрешения неоднозначности термина «Спрингфилд».
    • Результат: В дополнение к каноническому тексту статьи, пользователю показываются веб-результаты, относящиеся к Спрингфилду, Иллинойс, а не к Спрингфилду, Массачусетс.

    Вопросы и ответы

    Что такое «канонический документ» в контексте этого патента?

    В данном патенте канонический документ — это авторитетная версия документа из установленного источника (например, от издателя или автора), которая обычно хранится в виде машиночитаемого текста. Это эталон, с которым Google сравнивает текст, распознанный на изображениях (визуальных запросах), чтобы предоставить пользователю точную и авторитетную информацию.

    Как именно географическое положение влияет на распознавание текста (OCR)?

    Географическое положение используется для выбора специфической языковой модели. Например, если пользователь находится в Великобритании, будет выбрана модель Британского Английского. Это влияет на оценку качества (Quality Score) распознанного текста, так как система будет ожидать увидеть орфографию и лексику, характерную для этого региона (например, «colour» вместо «color»).

    Что такое «структурная информация» и зачем она нужна Google?

    Структурная информация включает данные о макете текста: разрывы строк, шрифты, относительное расположение слов и абзацев. Google использует эту информацию для того, чтобы отличить разные издания одного и того же текста. Если две книги содержат одинаковый текст, но имеют разную верстку, система сможет определить, какую именно версию фотографирует пользователь.

    Как система решает, вернуть ли мне текст или изображение в ответ на визуальный запрос?

    Решение принимается на основе рассчитанного Quality Score распознанного текста. Если оценка качества высока (выше порогового значения), система уверена в точности распознавания и возвращает машиночитаемый текст. Если оценка низкая, система возвращает изображение из канонического документа, чтобы избежать предоставления некорректного текста.

    Что означает «комбинация» или «наложение» канонического документа на визуальный запрос?

    Это функция «очистки» или «восстановления» изображения. Если пользователь сделал нечеткую фотографию текста, система может найти каноническую версию и наложить чистый текст или изображение поверх исходной фотографии, сохраняя при этом ее ориентацию. Это создает иллюзию улучшенной версии исходного изображения.

    Влияет ли этот патент на традиционное SEO для веб-страниц?

    Прямое влияние на ранжирование веб-страниц минимально. Однако он подчеркивает важность наличия индексируемого машиночитаемого текста на сайте. Чтобы ваш контент считался каноническим источником и появлялся в результатах визуального поиска (например, Google Lens), он должен быть доступен в текстовом формате.

    Как этот патент связан с локальным поиском (Local SEO)?

    Патент описывает механизм использования геолокации пользователя для разрешения неоднозначностей в распознанном тексте. Если на изображении упоминается название места (например, название ресторана или города), которое существует в нескольких локациях, система использует текущее местоположение пользователя, чтобы определить, какая именно локация имеется в виду, и предоставить релевантные веб-результаты.

    Что такое «Language-Conditional Character Probability»?

    Это технический термин для метрики, которая оценивает вероятность появления определенного символа с учетом предшествующих ему символов, основываясь на статистике конкретной языковой модели. Это позволяет системе оценивать качество OCR не по отдельным буквам, а в контексте слов и фраз, что значительно повышает точность идентификации текста.

    Стоит ли мне беспокоиться о структуре моих веб-страниц из-за этого патента?

    Для большинства веб-сайтов анализ структурной информации для идентификации «изданий» не является критичным. Это более актуально для оцифровки печатных материалов, таких как книги или журналы, где верстка отличается между изданиями. Для веба важнее чистый HTML и семантическая разметка.

    Какое значение этот патент имеет для международного SEO?

    Он подтверждает, что системы Google, включая OCR, глубоко интегрированы с геолокацией и используют региональные языковые модели. Это критически важный инсайт, подчеркивающий необходимость тщательной локализации контента (орфография, лексика) и корректной технической реализации (например, hreflang) для соответствия ожиданиям алгоритмов в целевом регионе.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.