Google использует передовые методы для интерпретации изображений, содержащих диаграммы (например, задачи по геометрии, физике, химии). Система преобразует визуальную информацию либо в формальное языковое представление, либо в мультимодальный эмбеддинг для генерации текстового запроса. Это позволяет пользователям получать решения, пошаговые инструкции и похожие задачи, просто загрузив фотографию диаграммы.
Описание
Какую задачу решает
Патент решает проблему неспособности традиционных поисковых систем эффективно обрабатывать диаграммы (например, изображения математических уравнений, геометрических фигур, физических схем, химических формул) в качестве поисковых запросов. Система устраняет разрыв между визуальным вводом пользователя (фотографией задачи) и способностью поисковой системы предоставить релевантные результаты, такие как решения, объяснения или похожие примеры.
Что запатентовано
Запатентована система для интерпретации диаграмм, представленных в виде изображений, как поисковых запросов. Изобретение описывает два основных метода: (1) Парсинг диаграммы (Diagram Parsing) для преобразования изображения в структурированное формальное языковое представление (Formal Language Representation). (2) Использование мультимодальных эмбеддингов (Multimodal Embedding), объединяющих текстовую и визуальную информацию из изображения для генерации концептуального текстового поискового запроса. Оба метода направлены на семантическое понимание содержания диаграммы.
Как это работает
Система обрабатывает визуальный запрос (изображение диаграммы) одним из двух способов:
- Метод 1: Парсинг диаграммы. Система анализирует изображение для распознавания геометрических объектов (линии, точки) и символов (например, математические обозначения с помощью Math OCR). Эти элементы преобразуются в Formal Language Representation, описывающее структуру и правила диаграммы. Это представление затем используется как поисковый запрос для нахождения или вычисления решения.
- Метод 2: Мультимодальный эмбеддинг. Текстовый и графический энкодеры обрабатывают входные данные, создавая отдельные эмбеддинги. Они объединяются в единый Multimodal Embedding. Классификатор концепций (Concept Classifier) анализирует этот эмбеддинг, чтобы определить намерение пользователя (например, «найти площадь параллелограмма») и генерирует соответствующий текстовый запрос для поисковой системы.
Актуальность для SEO
Критически высокая. Патент опубликован в мае 2024 года и отражает самые современные направления развития Google в области мультимодального поиска (например, интеграция с моделями типа Gemini) и функциональности Google Lens и Circle to Search, особенно в контексте помощи с домашними заданиями (Homework features). Описанные технологии лежат в основе обработки сложных визуальных запросов.
Важность для SEO
Значительное влияние (85/100). Этот патент критически важен для понимания эволюции визуального поиска. Он показывает, что Google способен семантически интерпретировать сложные изображения, такие как схемы и диаграммы, преобразуя их в структурированные данные или текстовые запросы. Для SEO-специалистов в образовательных, технических (STEM) и How-To нишах это означает, что оптимизация визуального контента для машинного понимания становится ключевым фактором для захвата трафика из мультимодальных поисковых интерфейсов.
Детальный разбор
Термины и определения
- Concept Classification Network / Concept Classifier (Сеть классификации концепций)
- Машинно-обученная модель (например, нейронная сеть), которая принимает на вход Multimodal Embedding и определяет основную концепцию или намерение запроса (например, «периметр треугольника»). Используется для генерации текстового поискового запроса. Обучается с использованием методов контролируемого обучения (supervised training).
- Contrastive Loss (Контрастивная функция потерь)
- Метод обучения, используемый для энкодеров в мультимодальной модели (self-supervised training). Он направлен на то, чтобы эмбеддинги похожих объектов (например, текста и изображения из одной диаграммы) были близки друг к другу в векторном пространстве, а эмбеддинги непохожих объектов — далеки.
- Diagram Parsing Model (Модель парсинга диаграмм)
- Система, которая обрабатывает изображение диаграммы для извлечения структурированной информации. Включает компоненты для распознавания геометрических сущностей и символов.
- Formal Language Representation (Представление на формальном языке)
- Структурированное, машиночитаемое описание диаграммы. Включает определение объектов, их свойств и взаимосвязей (например, Parallelogram (A, B, C, D); LengthOf (Line(A, B)), 32).
- Geometric Entity Detection (Распознавание геометрических сущностей)
- Процесс идентификации геометрических элементов на диаграмме, таких как линии, точки, фигуры. Может выполняться с помощью преобразования Хафа (Hough transform) или ML-детекторов объектов.
- Image Encoder (Графический энкодер)
- Компонент мультимодальной модели, который обрабатывает визуальную часть диаграммы и преобразует ее в Image Embedding (векторное представление).
- Multimodal Embedding (Мультимодальный эмбеддинг)
- Единое векторное представление, созданное путем объединения (например, конкатенации) Textual Embedding и Image Embedding. Инкапсулирует смысл всего содержимого диаграммы.
- Symbolic Detection / Math OCR (Символическое распознавание)
- Процесс идентификации известных символов, математических обозначений и текста на диаграмме.
- Textual Encoder (Текстовый энкодер)
- Компонент мультимодальной модели, который обрабатывает текстовую часть диаграммы (например, вопрос к задаче) и преобразует ее в Textual Embedding.
Ключевые утверждения (Анализ Claims)
Патент описывает два независимых механизма для обработки диаграмм.
Механизм 1: Парсинг диаграммы (Claim 1, Независимый пункт)
- Система получает поисковый запрос, включающий изображение диаграммы и связанный с ней вопрос.
- Запрос обрабатывается с помощью Diagram Parsing Model.
- Результатом обработки является Formal Language Representation диаграммы.
- Это формальное представление отправляется в поисковую систему в качестве поискового запроса.
- Система получает в ответ решение на поставленный вопрос.
Claim 2, 3, 6 (Зависимые): Детализируют работу Diagram Parsing Model. Уточняется, что модель использует Geometric Entity Recognition (с помощью преобразования Хафа или ML-детектора) и Symbolic Detection для генерации формального представления.
Claim 8 (Зависимый): Уточняет, что полученное решение может включать пошаговое руководство (step-by-step guide).
Механизм 2: Мультимодальный эмбеддинг (Claim 11, Независимый пункт)
- Система получает поисковый запрос, включающий изображение диаграммы.
- Запрос обрабатывается с помощью моделей эмбеддингов (Textual Encoder и Image Encoder) для получения Textual Embedding и Image Embedding.
- Генерируется единый Multimodal Embedding путем объединения текстового и графического эмбеддингов.
- На основе Multimodal Embedding определяется текстовый поисковый запрос (используя Concept Classification Network).
- Этот текстовый запрос отправляется в поисковую систему.
- Система получает поисковые результаты, основанные на этом текстовом запросе.
Claim 13 (Зависимый): Уточняет, что энкодеры обучаются совместно с использованием самоконтролируемого обучения (self-supervised training) с Contrastive Loss.
Claim 20 (Зависимый): Уточняет, что результаты поиска могут включать уравнения, практические задачи, релевантные видео или похожие изображения.
Где и как применяется
Изобретение применяется в основном на этапе интерпретации ввода пользователя, трансформируя визуальные данные в формат, понятный поисковой системе.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система функционирует как препроцессор для визуальных запросов (например, поступающих через Google Lens или Circle to Search).
- Интерпретация ввода: Система анализирует входное изображение, определяя, содержит ли оно диаграмму.
- Трансформация запроса (Query Transformation): Вместо того чтобы пытаться ранжировать результаты напрямую по изображению, система преобразует визуальный ввод в промежуточное представление:
- (A) Formal Language Representation, которое может быть использовано специализированными решателями (solvers) или поисковыми системами, понимающими формальные языки.
- (B) Textual Search Query, который генерируется на основе концептуального понимания диаграммы и может быть обработан стандартной поисковой системой.
RANKING – Ранжирование
Основные системы ранжирования используют результаты работы этапа QUNDERSTANDING (текстовый запрос или формальное представление) для поиска и сортировки релевантного контента в индексе. Эмбеддинги также могут использоваться для поиска похожих изображений (embedding-based retrieval).
METASEARCH – Метапоиск и Смешивание
Результаты, полученные с помощью этих методов (например, пошаговое решение задачи), могут быть представлены в виде специализированных блоков или функций SERP (например, блок «Homework Help»).
Входные данные:
- Изображение, предоставленное пользователем, содержащее диаграмму (геометрия, физика, химия, графики и т.д.).
- Текст, содержащийся на изображении (например, условия задачи, подписи).
Выходные данные:
- Для Механизма 1: Formal Language Representation диаграммы.
- Для Механизма 2: Textual Search Query и Multimodal Embedding.
- Финальный выход для пользователя: Решение задачи, пошаговая инструкция, связанные видео, уравнения или похожие задачи.
На что влияет
- Конкретные типы контента: Наибольшее влияние на образовательный контент, техническую документацию, руководства (How-To), страницы с инструкциями, содержащие схемы, графики, уравнения и диаграммы.
- Специфические запросы: Визуальные запросы, направленные на решение задач или понимание концепций, изображенных графически.
- Конкретные ниши или тематики: STEM (Science, Technology, Engineering, Mathematics), образование, химия, физика, инженерия.
Когда применяется
- Триггеры активации: Алгоритм активируется, когда пользователь инициирует визуальный поиск (например, через Google Lens) и система идентифицирует, что входные данные содержат диаграмму и/или связанный с ней вопрос (например, учебную задачу).
- Условия применения: Применяется, когда необходимо понять семантическое содержание диаграммы для предоставления ответа, а не просто найти визуально похожие изображения.
Пошаговый алгоритм
Патент описывает два альтернативных алгоритма.
Алгоритм 1: На основе парсинга диаграммы (FIG. 5, FIG. 6)
- Получение и предобработка: Получение изображения диаграммы. Предобработка для удаления артефактов (блики, пометки).
- Параллельное распознавание:
- Geometric Entity Detection: Идентификация линий, точек, фигур с помощью ML-детектора или преобразования Хафа.
- Symbol Detection + Math OCR: Идентификация символов, текста, математических обозначений.
- Генерация формального представления: Объединение результатов распознавания для создания структурированного Formal Language Representation (определение объектов, свойств, правил).
- Формулирование запроса: Предоставление Formal Language Representation поисковой системе (или специализированному решателю) в качестве запроса.
- Получение результата: Получение решения задачи (опционально с пошаговой инструкцией).
Алгоритм 2: На основе мультимодальных эмбеддингов (FIG. 3A, FIG. 7)
- Получение запроса: Получение изображения диаграммы (включая текст задачи).
- Кодирование (Encoding): Параллельная обработка ввода:
- Text Encoder генерирует Textual Embedding.
- Image Encoder генерирует Image Embedding.
(Энкодеры обучены с использованием Contrastive Loss).
- Генерация мультимодального эмбеддинга: Конкатенация текстового и графического эмбеддингов в единый Multimodal Embedding.
- Классификация концепции: Ввод Multimodal Embedding в Concept Classification Network.
- Генерация текстового запроса: Сеть классификации определяет концепцию и генерирует текстовый запрос (например, «периметр параллелограмма»).
- Поиск: Предоставление текстового запроса и эмбеддинга поисковой системе (для поиска текста и похожих изображений).
- Получение результата: Получение релевантных результатов (уравнения, видео, похожие задачи).
Какие данные и как использует
Данные на входе
- Мультимедиа факторы (Изображения): Основной источник данных. Система анализирует пиксельные данные для идентификации структур, форм, линий и символов на диаграмме.
- Контентные факторы (Текст на изображении): Текст, присутствующий на изображении (условия задачи, подписи, значения), извлекается (например, с помощью OCR) и используется как Textual Encoder, так и Symbolic Detection модулем.
Какие метрики используются и как они считаются
Патент не предоставляет конкретных метрик ранжирования или формул, но описывает используемые модели и методы обучения:
- Алгоритмы машинного обучения:
- Детекторы объектов (Object Detectors): Используются для распознавания геометрических сущностей и символов (Механизм 1).
- Нейронные сети (Энкодеры): Textual Encoder и Image Encoder используются для создания векторных представлений (Механизм 2).
- Классификаторы: Concept Classification Network используется для интерпретации мультимодального эмбеддинга (Механизм 2).
- Методы обучения:
- Self-supervised training with Contrastive Loss: Используется для обучения энкодеров, чтобы они могли эффективно сопоставлять текстовую и визуальную информацию без разметки данных.
- Supervised training: Используется для обучения Concept Classification Network на размеченных данных (labeled data).
- Альтернативные методы: Упоминается Hough transform (преобразование Хафа) как возможный метод для распознавания геометрических элементов.
Выводы
- Семантическое понимание визуального контента: Это ключевой вывод. Google не просто распознает объекты на изображении или извлекает текст через OCR. Система стремится понять смысл диаграммы, будь то через преобразование в формальный язык (структурированные данные) или через генерацию концептуального мультимодального эмбеддинга.
- Два пути к пониманию диаграмм: Google патентует два разных подхода: структурированный парсинг (для точности и решения задач) и мультимодальное векторное представление (для понимания концепций и поиска информации). Это указывает на гибкость системы в выборе метода в зависимости от типа диаграммы и интента пользователя.
- Мультимодальность как стандарт: Патент подтверждает переход к мультимодальному поиску. Способность объединять текстовые и визуальные сигналы (Multimodal Embedding) и обучать модели с использованием Contrastive Loss является фундаментальной для современных поисковых систем.
- Генерация текстовых запросов из изображений: Механизм 2 демонстрирует, как Google может интерпретировать изображение и сгенерировать релевантный текстовый запрос («Query Formulation»), который затем используется для поиска в стандартном индексе. Это критически важно для SEO, так как показывает, по каким текстовым запросам может ранжироваться визуальный контент.
- Фокус на образовании и STEM (Zero-Click потенциал): Примеры в патенте (геометрия, физика, химия) явно указывают на приоритетные области применения. Технология парсинга диаграмм позволяет предоставлять прямые решения и пошаговые инструкции (Claim 8), что увеличивает потенциал Zero-Click выдач в образовательных нишах.
Практика
Best practices (это мы делаем)
- Обеспечение максимальной четкости диаграмм: Используйте высококачественные изображения с четкими линиями, стандартными символами и разборчивым текстом. Это критично для того, чтобы Diagram Parsing Model могла корректно распознать геометрические элементы и символы (Механизм 1). Векторная графика (SVG) предпочтительна.
- Использование стандартных обозначений: При создании диаграмм (например, схем электрических цепей или геометрических фигур) придерживайтесь общепринятых стандартов и нотаций. Это облегчает работу Symbolic Detection модуля.
- Оптимизация под концептуальные запросы: Понимайте, что Google может сгенерировать текстовый запрос на основе вашей диаграммы (Механизм 2). Убедитесь, что ваш контент оптимизирован под концепции, которые иллюстрирует диаграмма (например, если это диаграмма параллелограмма, оптимизируйте страницу под «площадь параллелограмма», «периметр параллелограмма»).
- Создание сильного текстового контекста вокруг диаграмм: Текстовое окружение помогает поисковой системе валидировать интерпретацию диаграммы. Согласованность между текстом страницы и содержанием диаграммы улучшает общее понимание контента и его релевантность сгенерированным запросам.
- Оптимизация для функций SERP (например, Homework Help): Создавайте контент, который предоставляет четкие, пошаговые решения для задач, иллюстрируемых диаграммами. Используйте структурированные данные (например, HowTo, MathSolver, если применимо) и MathML для уравнений. Патент явно упоминает предоставление пошаговых руководств как цель системы.
Worst practices (это делать не надо)
- Использование сложных или нестандартных визуализаций: Использование уникальных, но непонятных символов или запутанных структур диаграмм может привести к ошибкам в Geometric Entity Recognition и Symbolic Detection.
- Низкое качество изображений: Размытые, низкоконтрастные изображения или изображения с артефактами (бликами, водяными знаками, закрывающими важные элементы) будут плохо интерпретированы системой.
- Разрыв между визуальным и текстовым контентом: Размещение диаграмм, которые нерелевантны или противоречат основному тексту страницы, ухудшит общее восприятие качества и релевантности контента.
- Игнорирование визуального поиска: Рассматривать SEO только как оптимизацию текста. В нишах STEM и образования игнорирование оптимизации диаграмм приведет к потере значительного трафика из Google Lens и аналогичных интерфейсов.
Стратегическое значение
Этот патент имеет высокое стратегическое значение, подтверждая, что мультимодальный поиск является настоящим и будущим Google. Способность системы семантически интерпретировать сложные визуальные данные открывает новые возможности для ранжирования контента, который ранее был недоступен для анализа. SEO-стратегия должна включать оптимизацию визуальных активов не просто как изображений, а как носителей структурированной информации. Для образовательных и технических сайтов это становится критически важным элементом стратегии, учитывая потенциал Google предоставлять прямые ответы на основе визуального ввода.
Практические примеры
Сценарий: Оптимизация страницы учебника по геометрии (Теорема Пифагора)
- Задача: Создать страницу, объясняющую теорему Пифагора, которая будет хорошо ранжироваться по визуальным запросам в Google Lens.
- Действия (Механизм 1 — Парсинг):
- Разместить четкую SVG или высококачественную PNG диаграмму прямоугольного треугольника.
- Использовать стандартные обозначения (a, b, c для сторон, символ прямого угла).
- Убедиться, что линии прямые и четко соединяются в вершинах. Это позволит Diagram Parsing Model корректно сгенерировать Formal Language Representation: TRIANGLE(A,B,C), RIGHTANGLE(C).
- Действия (Механизм 2 — Эмбеддинг):
- Включить на изображение или рядом с ним формулу a²+b²=c².
- Текст страницы должен подробно объяснять концепцию «Теорема Пифагора».
- Это поможет Multimodal Embedding Model связать визуальные элементы и текст, а Concept Classifier сгенерирует текстовый запрос «Теорема Пифагора».
- Ожидаемый результат: Когда пользователь фотографирует похожую задачу в своем учебнике, система Google интерпретирует запрос (используя один или оба механизма) и ранжирует оптимизированную страницу как высокорелевантный результат, потенциально отображая ее в блоке пошагового решения.
Вопросы и ответы
Означает ли этот патент, что Google теперь понимает содержание любой диаграммы?
Да, патент описывает механизмы, позволяющие Google семантически интерпретировать содержание диаграмм, а не просто распознавать объекты. Система может преобразовать диаграмму в структурированные данные (Formal Language Representation) или определить основную концепцию через Multimodal Embedding. Это значительный шаг вперед по сравнению с традиционным распознаванием изображений или OCR.
Патент описывает два разных метода. Использует ли Google оба одновременно?
Патент представляет их как два независимых метода (Claim 1 и Claim 11). На практике Google может использовать их параллельно для извлечения разных типов информации или выбирать один метод, который лучше подходит для конкретного типа диаграммы. Например, геометрия может лучше обрабатываться через парсинг (Метод 1), в то время как поиск объяснений или похожих задач может эффективнее использовать эмбеддинги (Метод 2).
Как Механизм 2 (Мультимодальный эмбеддинг) генерирует текстовый запрос из изображения?
Система использует Textual Encoder и Image Encoder для создания объединенного Multimodal Embedding, который инкапсулирует смысл всего изображения. Этот эмбеддинг затем подается в обученную Concept Classification Network. Эта сеть классифицирует намерение и выводит соответствующий текстовый запрос (например, «найти производную уравнения»), который затем используется для поиска в индексе.
Что такое Formal Language Representation в Механизме 1?
Это структурированное, машиночитаемое описание диаграммы. Например, если на входе изображение параллелограмма со сторонами 32 и 40, то Formal Language Representation может выглядеть как: PARALLELOGRAM (A, B, C, D), EQUALS (LENGTHOF (LINE(A, B)), 32), EQUALS (LENGTHOF (LINE(A, C)), 40). Это позволяет системе точно понять структуру и параметры задачи для ее решения.
Как SEO-специалисту оптимизировать диаграммы для лучшего распознавания?
Ключевые факторы — это четкость, контрастность и использование стандартных обозначений. Диаграммы должны быть легко читаемыми как для человека, так и для машины (предпочтительно векторные). Избегайте артефактов, перекрытия элементов или нестандартных символов. Это облегчит работу модулей Geometric Entity Recognition и Symbolic Detection.
Влияет ли этот патент на обычный поиск изображений?
Да, влияет. Хотя основная цель — это решение задач и ответы на вопросы, Механизм 2 также использует Multimodal Embedding для поиска похожих изображений (Embedding-based retrieval / Visual Matches). Это означает, что поиск изображений также становится более семантическим, ориентируясь на содержание диаграммы, а не только на визуальное сходство пикселей.
Для каких ниш этот патент наиболее важен?
Наибольшее влияние патент оказывает на образовательные ресурсы, сайты в тематиках STEM (наука, технологии, инженерия, математика), техническую документацию и любые ресурсы, использующие схемы, графики или формулы для объяснения концепций. Это напрямую связано с функционалом Google Lens для помощи в обучении.
Что такое обучение с Contrastive Loss и почему это важно?
Contrastive Loss — это метод обучения, который позволяет моделям (в данном случае Textual Encoder и Image Encoder) научиться создавать схожие векторные представления для связанных данных (текст и изображение из одной задачи) и различные представления для несвязанных без ручной разметки. Это критически важно для эффективного мультимодального поиска, так как позволяет системе точно сопоставлять визуальную и текстовую информацию.
Увеличит ли этот механизм количество Zero-Click выдач?
Да, особенно реализация через парсинг диаграмм (Механизм 1). Если система может успешно преобразовать диаграмму в формальное представление и решить задачу с помощью внутреннего решателя (solver), предоставляя пошаговое руководство (Claim 8), она покажет ответ напрямую в выдаче, снижая трафик на внешние сайты.
Какова связь этого патента с Google Lens и Circle to Search?
Этот патент описывает базовые технологии, лежащие в основе этих функций визуального поиска, особенно в контексте помощи с домашними заданиями. Когда пользователь выделяет задачу на экране или фотографирует ее, описанные модели (парсинг или мультимодальные эмбеддинги) используются для понимания запроса и предоставления решения или релевантной информации.