
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.
Патент решает проблему низкого качества или сложности чтения текста в визуальных запросах (например, размытых или искаженных фотографиях документов). Традиционный поиск по такому контенту затруднен. Изобретение улучшает пользовательский опыт, предоставляя чистую, авторитетную версию распознанного текста путем сопоставления его с каноническим документом (canonical document) и комбинирования результатов с исходным изображением.
Запатентована система обработки визуальных запросов, которая выполняет оптическое распознавание символов (OCR) и использует сложный механизм оценки качества распознанного текста. Система идентифицирует строки текста высокого качества (high quality textual strings) и ищет их в индексе канонических документов. При обнаружении совпадения система генерирует комбинацию исходного визуального запроса и соответствующей части канонического документа (текста или изображения), часто накладывая каноническую версию поверх исходного изображения для улучшения читаемости.
Система работает в несколько этапов:
language-conditional character probability).канонического документа в базе данных.Высокая. Технология напрямую связана с функциональностью Google Lens и обработкой изображений в поиске. Возможность распознавать текст в сложных условиях, сопоставлять его с авторитетными источниками и предоставлять улучшенную версию изображения является ключевым компонентом современных систем визуального поиска.
Патент имеет среднее стратегическое значение для SEO. Он не описывает алгоритмы ранжирования веб-страниц, но критически важен для понимания того, как Google извлекает информацию из изображений (Image SEO) и связывает ее с каноническими документами (веб-страницами). Патент подтверждает, что текст внутри изображений индексируется и используется для генерации стандартных веб-результатов. Для SEO-специалистов это подчеркивает важность обеспечения того, чтобы их контент выступал в качестве канонического источника для информации, содержащейся в изображениях (например, инфографике, фотографиях продуктов).
Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса для генерации комбинированного результата.
scoring) каждого текстового символа. Ключевой аспект: оценка символа основана как на качестве OCR самого символа, так и на качестве OCR одного или нескольких соседних символов.high quality textual strings.canonical document, содержащий эти строки.Claim 2 (Зависимый от 1): Уточняет механизм генерации комбинации.
Генерация комбинации включает наложение (superimposing) части канонического документа на визуальный запрос.
Claim 3 (Зависимый от 1): Уточняет ориентацию при генерации комбинации.
Часть канонического документа ориентируется в комбинации в соответствии с ориентацией визуального запроса (т.е. если исходное фото было под углом, наложенный текст также будет под углом).
Claim 9 (Зависимый от 1): Детализирует механизм оценки символов.
Оценка символа включает генерацию language-conditional character probability, которая показывает, насколько символ и предшествующий ему набор символов соответствуют определенной языковой модели.
Claim 12 (Независимый пункт): Описывает метод выбора типа возвращаемого канонического контента на основе качества.
quality score (оценка качества) для этих строк.image version).machine readable text version).Патент описывает процессы внутри специализированной системы Visual Query Server System, которая функционирует параллельно основному веб-поиску (Term Query Server System). Он затрагивает этапы, аналогичные стандартной архитектуре поиска, но применяемые к визуальным данным.
CRAWLING / INDEXING (Канонических документов)
Система полагается на существующую базу данных или индекс канонических документов (например, индекс веб-страниц, Google Books). Эти документы должны быть предварительно проиндексированы.
INDEXING (Извлечение признаков из визуального запроса)
Основная часть работы происходит здесь, в частности в подсистеме OCR Search System. Визуальный запрос анализируется, выполняется OCR, извлекается текст и структурная информация (Structural Information). Происходит сложная оценка качества символов и строк.
RANKING / RETRIEVAL (Поиск соответствий)
Идентифицированные high quality textual strings используются как запрос к базе данных канонических документов для поиска соответствий. В некоторых вариантах также учитывается Structural Information для выбора наиболее подходящего документа (например, правильного издания книги).
METASEARCH / RERANKING (Генерация и смешивание результатов)
На этом этапе система генерирует финальный результат. Ключевым моментом является создание «комбинации» — наложение канонического контента на исходный визуальный запрос. Также система может использовать извлеченный текст для генерации дополнительных веб-результатов (Web Results) через Term Query Server System и смешивать их с визуальными результатами.
Входные данные:
Выходные данные:
high quality textual strings, достаточные для поиска соответствия в базе канонических документов.Процесс обработки визуального запроса и генерации комбинации
language-conditional character probability для каждого символа с учетом контекста (предшествующих символов) и выбранной языковой модели.text quality score для каждого символа. Эта оценка зависит как от качества распознавания самого символа, так и от оценок соседних символов.high quality textual strings.canonical document, который содержит эти высококачественные строки. В некоторых вариантах поиск также требует соответствия структурной информации визуального запроса и канонического документа.Structural Information: относительные позиции, размеры, порядок символов, категорию шрифта.language models).high quality textual strings. Используется для принятия решения о том, возвращать ли текстовую или графическую версию канонического документа (Claim 12).canonical document. Это подчеркивает важность наличия четкого, индексируемого текстового контента на сайте, который может служить авторитетным источником для информации, распространяемой в графическом формате.high quality textual strings. Это позволяет системе работать даже с искаженными или размытыми изображениями.Structural Information (макет, шрифты) и может использовать это для различения разных версий одного и того же текста (например, разных изданий книги).canonical document для этого контента.high quality textual strings.Этот патент подтверждает стратегию Google по извлечению и пониманию информации из любых форматов, включая сложные визуальные данные. Для SEO это означает, что граница между текстовым и визуальным контентом стирается. Стратегия должна включать оптимизацию изображений не только через alt-тексты и имена файлов, но и через обеспечение читаемости и каноничности контента, содержащегося внутри самих изображений. Это особенно важно в контексте роста популярности визуального поиска (например, Google Lens).
Сценарий: Оптимизация инфографики для идентификации канонического источника
high quality textual strings и сопоставляет их с текстовой расшифровкой в блоге. Сайт компании идентифицируется как canonical document, что повышает вероятность показа этого сайта в результатах визуального поиска или в связанных веб-результатах.Сценарий: Использование локализации в визуальном поиске (E-commerce)
Что такое «канонический документ» в контексте этого патента?
Canonical document — это авторитетный источник контента, хранящийся в базе данных Google (например, проиндексированная веб-страница, книга из Google Books). Когда система распознает текст в визуальном запросе, она пытается найти этот же текст в своей базе канонических документов, чтобы подтвердить точность распознавания и получить чистую версию контента.
Как Google оценивает качество распознанного текста (OCR)?
Оценка качества сложная и не полагается только на уверенность OCR для отдельных символов. Ключевым аспектом (Claim 1) является то, что оценка символа зависит от оценок его соседей. Также используется language-conditional character probability — метрика, проверяющая, насколько последовательность символов соответствует языковой модели. Это позволяет системе идентифицировать надежные строки (high quality textual strings) даже в искаженных изображениях.
Что такое «комбинация» визуального запроса и канонического документа?
Это ключевая часть изобретения. Вместо того чтобы просто показать распознанный текст, система генерирует новый визуальный результат, накладывая чистый текст или изображение из канонического документа поверх исходного (возможно, размытого или искаженного) визуального запроса. Это создает эффект «исправления» или улучшения исходного изображения для пользователя.
Влияет ли этот патент на ранжирование моего сайта в обычном поиске?
Напрямую нет, так как он описывает обработку визуальных запросов. Однако патент показывает, что текст, извлеченный из изображений с помощью OCR, используется для генерации стандартных веб-результатов (Web Results). Если система сможет распознать текст в изображении и идентифицировать ваш сайт как канонический источник этого текста, ваш сайт может быть показан в этих результатах.
Как SEO-специалисту использовать информацию из этого патента на практике?
Основное применение — обеспечение каноничности вашего контента. Если вы публикуете изображения, содержащие текст (например, инфографику), убедитесь, что этот же текст присутствует на вашем сайте в формате HTML. Это поможет Google связать визуальный контент с вашим сайтом как авторитетным источником.
Учитывает ли система форматирование текста при поиске канонического документа?
Да. Патент описывает извлечение Structural Information (шрифт, размер, расположение, порядок слов). Система может использовать эту информацию, чтобы найти канонический документ, который не только содержит тот же текст, но и имеет схожую структуру. Это помогает, например, различать разные издания одной и той же книги.
Как местоположение пользователя влияет на этот процесс?
Местоположение используется двумя способами. Во-первых, оно помогает выбрать правильную языковую модель для OCR (например, для учета различий в написании между американским и британским английским). Во-вторых, оно используется для уточнения географических названий, найденных в тексте (например, чтобы понять, имеется ли в виду Париж во Франции или в Техасе).
Должен ли я оптимизировать текст в изображениях для лучшего распознавания?
Да. Хотя система Google разработана для работы со сложными случаями, использование четких, контрастных шрифтов и простого макета повышает вероятность того, что OCR сгенерирует high quality textual strings. Это, в свою очередь, увеличивает шансы на успешное сопоставление с вашим каноническим документом.
Что происходит, если Google уверен в качестве распознанного текста?
Патент (Claim 12) описывает сценарий, когда система принимает решение на основе оценки качества. Если оценка качества высока (выше порога), система предпочитает использовать машиночитаемую текстовую версию канонического документа для генерации комбинации. Если оценка ниже порога, она может использовать версию в виде изображения.
Является ли это описанием работы Google Lens?
Хотя патент не упоминает Google Lens по имени, описанные технологии — обработка визуальных запросов, параллельное использование OCR и других систем распознавания, сопоставление с каноническими источниками и улучшение изображения — тесно связаны с функциональностью, наблюдаемой в Google Lens и современных системах визуального поиска.


Мультимедиа
EEAT и качество

Мультиязычность
Local SEO
EEAT и качество

Мультимедиа
Индексация
Семантика и интент

Индексация

Local SEO
Семантика и интент
Поведенческие сигналы

SERP
Поведенческие сигналы

Персонализация
SERP
Семантика и интент

EEAT и качество
Поведенческие сигналы
SERP

Семантика и интент
Техническое SEO
EEAT и качество

Персонализация
EEAT и качество
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
Структура сайта

Knowledge Graph
Свежесть контента
Семантика и интент

SERP
Семантика и интент
Поведенческие сигналы

Ссылки
EEAT и качество
Антиспам
