
Google использует передовые методы для интерпретации изображений, содержащих диаграммы (например, задачи по геометрии, физике, химии). Система преобразует визуальную информацию либо в формальное языковое представление, либо в мультимодальный эмбеддинг для генерации текстового запроса. Это позволяет пользователям получать решения, пошаговые инструкции и похожие задачи, просто загрузив фотографию диаграммы.
Патент решает проблему неспособности традиционных поисковых систем эффективно обрабатывать диаграммы (например, изображения математических уравнений, геометрических фигур, физических схем, химических формул) в качестве поисковых запросов. Система устраняет разрыв между визуальным вводом пользователя (фотографией задачи) и способностью поисковой системы предоставить релевантные результаты, такие как решения, объяснения или похожие примеры.
Запатентована система для интерпретации диаграмм, представленных в виде изображений, как поисковых запросов. Изобретение описывает два основных метода: (1) Парсинг диаграммы (Diagram Parsing) для преобразования изображения в структурированное формальное языковое представление (Formal Language Representation). (2) Использование мультимодальных эмбеддингов (Multimodal Embedding), объединяющих текстовую и визуальную информацию из изображения для генерации концептуального текстового поискового запроса. Оба метода направлены на семантическое понимание содержания диаграммы.
Система обрабатывает визуальный запрос (изображение диаграммы) одним из двух способов:
Formal Language Representation, описывающее структуру и правила диаграммы. Это представление затем используется как поисковый запрос для нахождения или вычисления решения.Multimodal Embedding. Классификатор концепций (Concept Classifier) анализирует этот эмбеддинг, чтобы определить намерение пользователя (например, "найти площадь параллелограмма") и генерирует соответствующий текстовый запрос для поисковой системы.Критически высокая. Патент опубликован в мае 2024 года и отражает самые современные направления развития Google в области мультимодального поиска (например, интеграция с моделями типа Gemini) и функциональности Google Lens и Circle to Search, особенно в контексте помощи с домашними заданиями (Homework features). Описанные технологии лежат в основе обработки сложных визуальных запросов.
Значительное влияние (85/100). Этот патент критически важен для понимания эволюции визуального поиска. Он показывает, что Google способен семантически интерпретировать сложные изображения, такие как схемы и диаграммы, преобразуя их в структурированные данные или текстовые запросы. Для SEO-специалистов в образовательных, технических (STEM) и How-To нишах это означает, что оптимизация визуального контента для машинного понимания становится ключевым фактором для захвата трафика из мультимодальных поисковых интерфейсов.
Multimodal Embedding и определяет основную концепцию или намерение запроса (например, "периметр треугольника"). Используется для генерации текстового поискового запроса. Обучается с использованием методов контролируемого обучения (supervised training).Hough transform) или ML-детекторов объектов.Image Embedding (векторное представление).Textual Embedding и Image Embedding. Инкапсулирует смысл всего содержимого диаграммы.Textual Embedding.Патент описывает два независимых механизма для обработки диаграмм.
Механизм 1: Парсинг диаграммы (Claim 1, Независимый пункт)
Diagram Parsing Model.Formal Language Representation диаграммы.Claim 2, 3, 6 (Зависимые): Детализируют работу Diagram Parsing Model. Уточняется, что модель использует Geometric Entity Recognition (с помощью преобразования Хафа или ML-детектора) и Symbolic Detection для генерации формального представления.
Claim 8 (Зависимый): Уточняет, что полученное решение может включать пошаговое руководство (step-by-step guide).
Механизм 2: Мультимодальный эмбеддинг (Claim 11, Независимый пункт)
Textual Encoder и Image Encoder) для получения Textual Embedding и Image Embedding.Multimodal Embedding путем объединения текстового и графического эмбеддингов.Multimodal Embedding определяется текстовый поисковый запрос (используя Concept Classification Network).Claim 13 (Зависимый): Уточняет, что энкодеры обучаются совместно с использованием самоконтролируемого обучения (self-supervised training) с Contrastive Loss.
Claim 20 (Зависимый): Уточняет, что результаты поиска могут включать уравнения, практические задачи, релевантные видео или похожие изображения.
Изобретение применяется в основном на этапе интерпретации ввода пользователя, трансформируя визуальные данные в формат, понятный поисковой системе.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система функционирует как препроцессор для визуальных запросов (например, поступающих через Google Lens или Circle to Search).
Formal Language Representation, которое может быть использовано специализированными решателями (solvers) или поисковыми системами, понимающими формальные языки.Textual Search Query, который генерируется на основе концептуального понимания диаграммы и может быть обработан стандартной поисковой системой.RANKING – Ранжирование
Основные системы ранжирования используют результаты работы этапа QUNDERSTANDING (текстовый запрос или формальное представление) для поиска и сортировки релевантного контента в индексе. Эмбеддинги также могут использоваться для поиска похожих изображений (embedding-based retrieval).
METASEARCH – Метапоиск и Смешивание
Результаты, полученные с помощью этих методов (например, пошаговое решение задачи), могут быть представлены в виде специализированных блоков или функций SERP (например, блок "Homework Help").
Входные данные:
Выходные данные:
Formal Language Representation диаграммы.Textual Search Query и Multimodal Embedding.Патент описывает два альтернативных алгоритма.
Алгоритм 1: На основе парсинга диаграммы (FIG. 5, FIG. 6)
Formal Language Representation (определение объектов, свойств, правил).Formal Language Representation поисковой системе (или специализированному решателю) в качестве запроса.Алгоритм 2: На основе мультимодальных эмбеддингов (FIG. 3A, FIG. 7)
Text Encoder генерирует Textual Embedding.Image Encoder генерирует Image Embedding.Contrastive Loss).Multimodal Embedding.Multimodal Embedding в Concept Classification Network.Textual Encoder, так и Symbolic Detection модулем.Патент не предоставляет конкретных метрик ранжирования или формул, но описывает используемые модели и методы обучения:
Textual Encoder и Image Encoder используются для создания векторных представлений (Механизм 2).Concept Classification Network используется для интерпретации мультимодального эмбеддинга (Механизм 2).Concept Classification Network на размеченных данных (labeled data).Hough transform (преобразование Хафа) как возможный метод для распознавания геометрических элементов.Multimodal Embedding) и обучать модели с использованием Contrastive Loss является фундаментальной для современных поисковых систем.Diagram Parsing Model могла корректно распознать геометрические элементы и символы (Механизм 1). Векторная графика (SVG) предпочтительна.Symbolic Detection модуля.HowTo, MathSolver, если применимо) и MathML для уравнений. Патент явно упоминает предоставление пошаговых руководств как цель системы.Geometric Entity Recognition и Symbolic Detection.Этот патент имеет высокое стратегическое значение, подтверждая, что мультимодальный поиск является настоящим и будущим Google. Способность системы семантически интерпретировать сложные визуальные данные открывает новые возможности для ранжирования контента, который ранее был недоступен для анализа. SEO-стратегия должна включать оптимизацию визуальных активов не просто как изображений, а как носителей структурированной информации. Для образовательных и технических сайтов это становится критически важным элементом стратегии, учитывая потенциал Google предоставлять прямые ответы на основе визуального ввода.
Сценарий: Оптимизация страницы учебника по геометрии (Теорема Пифагора)
Diagram Parsing Model корректно сгенерировать Formal Language Representation: TRIANGLE(A,B,C), RIGHTANGLE(C).Multimodal Embedding Model связать визуальные элементы и текст, а Concept Classifier сгенерирует текстовый запрос "Теорема Пифагора".Означает ли этот патент, что Google теперь понимает содержание любой диаграммы?
Да, патент описывает механизмы, позволяющие Google семантически интерпретировать содержание диаграмм, а не просто распознавать объекты. Система может преобразовать диаграмму в структурированные данные (Formal Language Representation) или определить основную концепцию через Multimodal Embedding. Это значительный шаг вперед по сравнению с традиционным распознаванием изображений или OCR.
Патент описывает два разных метода. Использует ли Google оба одновременно?
Патент представляет их как два независимых метода (Claim 1 и Claim 11). На практике Google может использовать их параллельно для извлечения разных типов информации или выбирать один метод, который лучше подходит для конкретного типа диаграммы. Например, геометрия может лучше обрабатываться через парсинг (Метод 1), в то время как поиск объяснений или похожих задач может эффективнее использовать эмбеддинги (Метод 2).
Как Механизм 2 (Мультимодальный эмбеддинг) генерирует текстовый запрос из изображения?
Система использует Textual Encoder и Image Encoder для создания объединенного Multimodal Embedding, который инкапсулирует смысл всего изображения. Этот эмбеддинг затем подается в обученную Concept Classification Network. Эта сеть классифицирует намерение и выводит соответствующий текстовый запрос (например, "найти производную уравнения"), который затем используется для поиска в индексе.
Что такое Formal Language Representation в Механизме 1?
Это структурированное, машиночитаемое описание диаграммы. Например, если на входе изображение параллелограмма со сторонами 32 и 40, то Formal Language Representation может выглядеть как: PARALLELOGRAM (A, B, C, D), EQUALS (LENGTHOF (LINE(A, B)), 32), EQUALS (LENGTHOF (LINE(A, C)), 40). Это позволяет системе точно понять структуру и параметры задачи для её решения.
Как SEO-специалисту оптимизировать диаграммы для лучшего распознавания?
Ключевые факторы — это четкость, контрастность и использование стандартных обозначений. Диаграммы должны быть легко читаемыми как для человека, так и для машины (предпочтительно векторные). Избегайте артефактов, перекрытия элементов или нестандартных символов. Это облегчит работу модулей Geometric Entity Recognition и Symbolic Detection.
Влияет ли этот патент на обычный поиск изображений?
Да, влияет. Хотя основная цель — это решение задач и ответы на вопросы, Механизм 2 также использует Multimodal Embedding для поиска похожих изображений (Embedding-based retrieval / Visual Matches). Это означает, что поиск изображений также становится более семантическим, ориентируясь на содержание диаграммы, а не только на визуальное сходство пикселей.
Для каких ниш этот патент наиболее важен?
Наибольшее влияние патент оказывает на образовательные ресурсы, сайты в тематиках STEM (наука, технологии, инженерия, математика), техническую документацию и любые ресурсы, использующие схемы, графики или формулы для объяснения концепций. Это напрямую связано с функционалом Google Lens для помощи в обучении.
Что такое обучение с Contrastive Loss и почему это важно?
Contrastive Loss — это метод обучения, который позволяет моделям (в данном случае Textual Encoder и Image Encoder) научиться создавать схожие векторные представления для связанных данных (текст и изображение из одной задачи) и различные представления для несвязанных без ручной разметки. Это критически важно для эффективного мультимодального поиска, так как позволяет системе точно сопоставлять визуальную и текстовую информацию.
Увеличит ли этот механизм количество Zero-Click выдач?
Да, особенно реализация через парсинг диаграмм (Механизм 1). Если система может успешно преобразовать диаграмму в формальное представление и решить задачу с помощью внутреннего решателя (solver), предоставляя пошаговое руководство (Claim 8), она покажет ответ напрямую в выдаче, снижая трафик на внешние сайты.
Какова связь этого патента с Google Lens и Circle to Search?
Этот патент описывает базовые технологии, лежащие в основе этих функций визуального поиска, особенно в контексте помощи с домашними заданиями. Когда пользователь выделяет задачу на экране или фотографирует её, описанные модели (парсинг или мультимодальные эмбеддинги) используются для понимания запроса и предоставления решения или релевантной информации.

Мультимедиа
Семантика и интент

Мультимедиа
EEAT и качество
Ссылки

Мультимедиа
Семантика и интент

Мультимедиа
Индексация
Семантика и интент

Мультимедиа
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы
Персонализация

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
EEAT и качество

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Ссылки

Local SEO
Поведенческие сигналы

Антиспам
Ссылки
SERP

Поведенческие сигналы
SERP

Свежесть контента
Ссылки
Техническое SEO
