SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует мультимодальные модели и парсинг диаграмм для понимания визуальных запросов и решения задач по фото

PROCESSING DIAGRAMS AS SEARCH INPUT (Обработка диаграмм в качестве поискового ввода)
  • US20240152546A1
  • Google LLC
  • 2023-11-06
  • 2024-05-09
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует передовые методы для интерпретации изображений, содержащих диаграммы (например, задачи по геометрии, физике, химии). Система преобразует визуальную информацию либо в формальное языковое представление, либо в мультимодальный эмбеддинг для генерации текстового запроса. Это позволяет пользователям получать решения, пошаговые инструкции и похожие задачи, просто загрузив фотографию диаграммы.

Описание

Какую проблему решает

Патент решает проблему неспособности традиционных поисковых систем эффективно обрабатывать диаграммы (например, изображения математических уравнений, геометрических фигур, физических схем, химических формул) в качестве поисковых запросов. Система устраняет разрыв между визуальным вводом пользователя (фотографией задачи) и способностью поисковой системы предоставить релевантные результаты, такие как решения, объяснения или похожие примеры.

Что запатентовано

Запатентована система для интерпретации диаграмм, представленных в виде изображений, как поисковых запросов. Изобретение описывает два основных метода: (1) Парсинг диаграммы (Diagram Parsing) для преобразования изображения в структурированное формальное языковое представление (Formal Language Representation). (2) Использование мультимодальных эмбеддингов (Multimodal Embedding), объединяющих текстовую и визуальную информацию из изображения для генерации концептуального текстового поискового запроса. Оба метода направлены на семантическое понимание содержания диаграммы.

Как это работает

Система обрабатывает визуальный запрос (изображение диаграммы) одним из двух способов:

  • Метод 1: Парсинг диаграммы. Система анализирует изображение для распознавания геометрических объектов (линии, точки) и символов (например, математические обозначения с помощью Math OCR). Эти элементы преобразуются в Formal Language Representation, описывающее структуру и правила диаграммы. Это представление затем используется как поисковый запрос для нахождения или вычисления решения.
  • Метод 2: Мультимодальный эмбеддинг. Текстовый и графический энкодеры обрабатывают входные данные, создавая отдельные эмбеддинги. Они объединяются в единый Multimodal Embedding. Классификатор концепций (Concept Classifier) анализирует этот эмбеддинг, чтобы определить намерение пользователя (например, "найти площадь параллелограмма") и генерирует соответствующий текстовый запрос для поисковой системы.

Актуальность для SEO

Критически высокая. Патент опубликован в мае 2024 года и отражает самые современные направления развития Google в области мультимодального поиска (например, интеграция с моделями типа Gemini) и функциональности Google Lens и Circle to Search, особенно в контексте помощи с домашними заданиями (Homework features). Описанные технологии лежат в основе обработки сложных визуальных запросов.

Важность для SEO

Значительное влияние (85/100). Этот патент критически важен для понимания эволюции визуального поиска. Он показывает, что Google способен семантически интерпретировать сложные изображения, такие как схемы и диаграммы, преобразуя их в структурированные данные или текстовые запросы. Для SEO-специалистов в образовательных, технических (STEM) и How-To нишах это означает, что оптимизация визуального контента для машинного понимания становится ключевым фактором для захвата трафика из мультимодальных поисковых интерфейсов.

Детальный разбор

Термины и определения

Concept Classification Network / Concept Classifier (Сеть классификации концепций)
Машинно-обученная модель (например, нейронная сеть), которая принимает на вход Multimodal Embedding и определяет основную концепцию или намерение запроса (например, "периметр треугольника"). Используется для генерации текстового поискового запроса. Обучается с использованием методов контролируемого обучения (supervised training).
Contrastive Loss (Контрастивная функция потерь)
Метод обучения, используемый для энкодеров в мультимодальной модели (self-supervised training). Он направлен на то, чтобы эмбеддинги похожих объектов (например, текста и изображения из одной диаграммы) были близки друг к другу в векторном пространстве, а эмбеддинги непохожих объектов — далеки.
Diagram Parsing Model (Модель парсинга диаграмм)
Система, которая обрабатывает изображение диаграммы для извлечения структурированной информации. Включает компоненты для распознавания геометрических сущностей и символов.
Formal Language Representation (Представление на формальном языке)
Структурированное, машиночитаемое описание диаграммы. Включает определение объектов, их свойств и взаимосвязей (например, Parallelogram (A, B, C, D); LengthOf (Line(A, B)), 32).
Geometric Entity Detection (Распознавание геометрических сущностей)
Процесс идентификации геометрических элементов на диаграмме, таких как линии, точки, фигуры. Может выполняться с помощью преобразования Хафа (Hough transform) или ML-детекторов объектов.
Image Encoder (Графический энкодер)
Компонент мультимодальной модели, который обрабатывает визуальную часть диаграммы и преобразует ее в Image Embedding (векторное представление).
Multimodal Embedding (Мультимодальный эмбеддинг)
Единое векторное представление, созданное путем объединения (например, конкатенации) Textual Embedding и Image Embedding. Инкапсулирует смысл всего содержимого диаграммы.
Symbolic Detection / Math OCR (Символическое распознавание)
Процесс идентификации известных символов, математических обозначений и текста на диаграмме.
Textual Encoder (Текстовый энкодер)
Компонент мультимодальной модели, который обрабатывает текстовую часть диаграммы (например, вопрос к задаче) и преобразует ее в Textual Embedding.

Ключевые утверждения (Анализ Claims)

Патент описывает два независимых механизма для обработки диаграмм.

Механизм 1: Парсинг диаграммы (Claim 1, Независимый пункт)

  1. Система получает поисковый запрос, включающий изображение диаграммы и связанный с ней вопрос.
  2. Запрос обрабатывается с помощью Diagram Parsing Model.
  3. Результатом обработки является Formal Language Representation диаграммы.
  4. Это формальное представление отправляется в поисковую систему в качестве поискового запроса.
  5. Система получает в ответ решение на поставленный вопрос.

Claim 2, 3, 6 (Зависимые): Детализируют работу Diagram Parsing Model. Уточняется, что модель использует Geometric Entity Recognition (с помощью преобразования Хафа или ML-детектора) и Symbolic Detection для генерации формального представления.

Claim 8 (Зависимый): Уточняет, что полученное решение может включать пошаговое руководство (step-by-step guide).

Механизм 2: Мультимодальный эмбеддинг (Claim 11, Независимый пункт)

  1. Система получает поисковый запрос, включающий изображение диаграммы.
  2. Запрос обрабатывается с помощью моделей эмбеддингов (Textual Encoder и Image Encoder) для получения Textual Embedding и Image Embedding.
  3. Генерируется единый Multimodal Embedding путем объединения текстового и графического эмбеддингов.
  4. На основе Multimodal Embedding определяется текстовый поисковый запрос (используя Concept Classification Network).
  5. Этот текстовый запрос отправляется в поисковую систему.
  6. Система получает поисковые результаты, основанные на этом текстовом запросе.

Claim 13 (Зависимый): Уточняет, что энкодеры обучаются совместно с использованием самоконтролируемого обучения (self-supervised training) с Contrastive Loss.

Claim 20 (Зависимый): Уточняет, что результаты поиска могут включать уравнения, практические задачи, релевантные видео или похожие изображения.

Где и как применяется

Изобретение применяется в основном на этапе интерпретации ввода пользователя, трансформируя визуальные данные в формат, понятный поисковой системе.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система функционирует как препроцессор для визуальных запросов (например, поступающих через Google Lens или Circle to Search).

  • Интерпретация ввода: Система анализирует входное изображение, определяя, содержит ли оно диаграмму.
  • Трансформация запроса (Query Transformation): Вместо того чтобы пытаться ранжировать результаты напрямую по изображению, система преобразует визуальный ввод в промежуточное представление:
    • (A) Formal Language Representation, которое может быть использовано специализированными решателями (solvers) или поисковыми системами, понимающими формальные языки.
    • (B) Textual Search Query, который генерируется на основе концептуального понимания диаграммы и может быть обработан стандартной поисковой системой.

RANKING – Ранжирование
Основные системы ранжирования используют результаты работы этапа QUNDERSTANDING (текстовый запрос или формальное представление) для поиска и сортировки релевантного контента в индексе. Эмбеддинги также могут использоваться для поиска похожих изображений (embedding-based retrieval).

METASEARCH – Метапоиск и Смешивание
Результаты, полученные с помощью этих методов (например, пошаговое решение задачи), могут быть представлены в виде специализированных блоков или функций SERP (например, блок "Homework Help").

Входные данные:

  • Изображение, предоставленное пользователем, содержащее диаграмму (геометрия, физика, химия, графики и т.д.).
  • Текст, содержащийся на изображении (например, условия задачи, подписи).

Выходные данные:

  • Для Механизма 1: Formal Language Representation диаграммы.
  • Для Механизма 2: Textual Search Query и Multimodal Embedding.
  • Финальный выход для пользователя: Решение задачи, пошаговая инструкция, связанные видео, уравнения или похожие задачи.

На что влияет

  • Конкретные типы контента: Наибольшее влияние на образовательный контент, техническую документацию, руководства (How-To), страницы с инструкциями, содержащие схемы, графики, уравнения и диаграммы.
  • Специфические запросы: Визуальные запросы, направленные на решение задач или понимание концепций, изображенных графически.
  • Конкретные ниши или тематики: STEM (Science, Technology, Engineering, Mathematics), образование, химия, физика, инженерия.

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда пользователь инициирует визуальный поиск (например, через Google Lens) и система идентифицирует, что входные данные содержат диаграмму и/или связанный с ней вопрос (например, учебную задачу).
  • Условия применения: Применяется, когда необходимо понять семантическое содержание диаграммы для предоставления ответа, а не просто найти визуально похожие изображения.

Пошаговый алгоритм

Патент описывает два альтернативных алгоритма.

Алгоритм 1: На основе парсинга диаграммы (FIG. 5, FIG. 6)

  1. Получение и предобработка: Получение изображения диаграммы. Предобработка для удаления артефактов (блики, пометки).
  2. Параллельное распознавание:
    • Geometric Entity Detection: Идентификация линий, точек, фигур с помощью ML-детектора или преобразования Хафа.
    • Symbol Detection + Math OCR: Идентификация символов, текста, математических обозначений.
  3. Генерация формального представления: Объединение результатов распознавания для создания структурированного Formal Language Representation (определение объектов, свойств, правил).
  4. Формулирование запроса: Предоставление Formal Language Representation поисковой системе (или специализированному решателю) в качестве запроса.
  5. Получение результата: Получение решения задачи (опционально с пошаговой инструкцией).

Алгоритм 2: На основе мультимодальных эмбеддингов (FIG. 3A, FIG. 7)

  1. Получение запроса: Получение изображения диаграммы (включая текст задачи).
  2. Кодирование (Encoding): Параллельная обработка ввода:
    • Text Encoder генерирует Textual Embedding.
    • Image Encoder генерирует Image Embedding.
    (Энкодеры обучены с использованием Contrastive Loss).
  3. Генерация мультимодального эмбеддинга: Конкатенация текстового и графического эмбеддингов в единый Multimodal Embedding.
  4. Классификация концепции: Ввод Multimodal Embedding в Concept Classification Network.
  5. Генерация текстового запроса: Сеть классификации определяет концепцию и генерирует текстовый запрос (например, "периметр параллелограмма").
  6. Поиск: Предоставление текстового запроса и эмбеддинга поисковой системе (для поиска текста и похожих изображений).
  7. Получение результата: Получение релевантных результатов (уравнения, видео, похожие задачи).

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы (Изображения): Основной источник данных. Система анализирует пиксельные данные для идентификации структур, форм, линий и символов на диаграмме.
  • Контентные факторы (Текст на изображении): Текст, присутствующий на изображении (условия задачи, подписи, значения), извлекается (например, с помощью OCR) и используется как Textual Encoder, так и Symbolic Detection модулем.

Какие метрики используются и как они считаются

Патент не предоставляет конкретных метрик ранжирования или формул, но описывает используемые модели и методы обучения:

  • Алгоритмы машинного обучения:
    • Детекторы объектов (Object Detectors): Используются для распознавания геометрических сущностей и символов (Механизм 1).
    • Нейронные сети (Энкодеры): Textual Encoder и Image Encoder используются для создания векторных представлений (Механизм 2).
    • Классификаторы: Concept Classification Network используется для интерпретации мультимодального эмбеддинга (Механизм 2).
  • Методы обучения:
    • Self-supervised training with Contrastive Loss: Используется для обучения энкодеров, чтобы они могли эффективно сопоставлять текстовую и визуальную информацию без разметки данных.
    • Supervised training: Используется для обучения Concept Classification Network на размеченных данных (labeled data).
  • Альтернативные методы: Упоминается Hough transform (преобразование Хафа) как возможный метод для распознавания геометрических элементов.

Выводы

  1. Семантическое понимание визуального контента: Это ключевой вывод. Google не просто распознает объекты на изображении или извлекает текст через OCR. Система стремится понять смысл диаграммы, будь то через преобразование в формальный язык (структурированные данные) или через генерацию концептуального мультимодального эмбеддинга.
  2. Два пути к пониманию диаграмм: Google патентует два разных подхода: структурированный парсинг (для точности и решения задач) и мультимодальное векторное представление (для понимания концепций и поиска информации). Это указывает на гибкость системы в выборе метода в зависимости от типа диаграммы и интента пользователя.
  3. Мультимодальность как стандарт: Патент подтверждает переход к мультимодальному поиску. Способность объединять текстовые и визуальные сигналы (Multimodal Embedding) и обучать модели с использованием Contrastive Loss является фундаментальной для современных поисковых систем.
  4. Генерация текстовых запросов из изображений: Механизм 2 демонстрирует, как Google может интерпретировать изображение и сгенерировать релевантный текстовый запрос ("Query Formulation"), который затем используется для поиска в стандартном индексе. Это критически важно для SEO, так как показывает, по каким текстовым запросам может ранжироваться визуальный контент.
  5. Фокус на образовании и STEM (Zero-Click потенциал): Примеры в патенте (геометрия, физика, химия) явно указывают на приоритетные области применения. Технология парсинга диаграмм позволяет предоставлять прямые решения и пошаговые инструкции (Claim 8), что увеличивает потенциал Zero-Click выдач в образовательных нишах.

Практика

Best practices (это мы делаем)

  • Обеспечение максимальной четкости диаграмм: Используйте высококачественные изображения с четкими линиями, стандартными символами и разборчивым текстом. Это критично для того, чтобы Diagram Parsing Model могла корректно распознать геометрические элементы и символы (Механизм 1). Векторная графика (SVG) предпочтительна.
  • Использование стандартных обозначений: При создании диаграмм (например, схем электрических цепей или геометрических фигур) придерживайтесь общепринятых стандартов и нотаций. Это облегчает работу Symbolic Detection модуля.
  • Оптимизация под концептуальные запросы: Понимайте, что Google может сгенерировать текстовый запрос на основе вашей диаграммы (Механизм 2). Убедитесь, что ваш контент оптимизирован под концепции, которые иллюстрирует диаграмма (например, если это диаграмма параллелограмма, оптимизируйте страницу под "площадь параллелограмма", "периметр параллелограмма").
  • Создание сильного текстового контекста вокруг диаграмм: Текстовое окружение помогает поисковой системе валидировать интерпретацию диаграммы. Согласованность между текстом страницы и содержанием диаграммы улучшает общее понимание контента и его релевантность сгенерированным запросам.
  • Оптимизация для функций SERP (например, Homework Help): Создавайте контент, который предоставляет четкие, пошаговые решения для задач, иллюстрируемых диаграммами. Используйте структурированные данные (например, HowTo, MathSolver, если применимо) и MathML для уравнений. Патент явно упоминает предоставление пошаговых руководств как цель системы.

Worst practices (это делать не надо)

  • Использование сложных или нестандартных визуализаций: Использование уникальных, но непонятных символов или запутанных структур диаграмм может привести к ошибкам в Geometric Entity Recognition и Symbolic Detection.
  • Низкое качество изображений: Размытые, низкоконтрастные изображения или изображения с артефактами (бликами, водяными знаками, закрывающими важные элементы) будут плохо интерпретированы системой.
  • Разрыв между визуальным и текстовым контентом: Размещение диаграмм, которые нерелевантны или противоречат основному тексту страницы, ухудшит общее восприятие качества и релевантности контента.
  • Игнорирование визуального поиска: Рассматривать SEO только как оптимизацию текста. В нишах STEM и образования игнорирование оптимизации диаграмм приведет к потере значительного трафика из Google Lens и аналогичных интерфейсов.

Стратегическое значение

Этот патент имеет высокое стратегическое значение, подтверждая, что мультимодальный поиск является настоящим и будущим Google. Способность системы семантически интерпретировать сложные визуальные данные открывает новые возможности для ранжирования контента, который ранее был недоступен для анализа. SEO-стратегия должна включать оптимизацию визуальных активов не просто как изображений, а как носителей структурированной информации. Для образовательных и технических сайтов это становится критически важным элементом стратегии, учитывая потенциал Google предоставлять прямые ответы на основе визуального ввода.

Практические примеры

Сценарий: Оптимизация страницы учебника по геометрии (Теорема Пифагора)

  1. Задача: Создать страницу, объясняющую теорему Пифагора, которая будет хорошо ранжироваться по визуальным запросам в Google Lens.
  2. Действия (Механизм 1 - Парсинг):
    • Разместить четкую SVG или высококачественную PNG диаграмму прямоугольного треугольника.
    • Использовать стандартные обозначения (a, b, c для сторон, символ прямого угла).
    • Убедиться, что линии прямые и четко соединяются в вершинах. Это позволит Diagram Parsing Model корректно сгенерировать Formal Language Representation: TRIANGLE(A,B,C), RIGHTANGLE(C).
  3. Действия (Механизм 2 - Эмбеддинг):
    • Включить на изображение или рядом с ним формулу a²+b²=c².
    • Текст страницы должен подробно объяснять концепцию "Теорема Пифагора".
    • Это поможет Multimodal Embedding Model связать визуальные элементы и текст, а Concept Classifier сгенерирует текстовый запрос "Теорема Пифагора".
  4. Ожидаемый результат: Когда пользователь фотографирует похожую задачу в своем учебнике, система Google интерпретирует запрос (используя один или оба механизма) и ранжирует оптимизированную страницу как высокорелевантный результат, потенциально отображая ее в блоке пошагового решения.

Вопросы и ответы

Означает ли этот патент, что Google теперь понимает содержание любой диаграммы?

Да, патент описывает механизмы, позволяющие Google семантически интерпретировать содержание диаграмм, а не просто распознавать объекты. Система может преобразовать диаграмму в структурированные данные (Formal Language Representation) или определить основную концепцию через Multimodal Embedding. Это значительный шаг вперед по сравнению с традиционным распознаванием изображений или OCR.

Патент описывает два разных метода. Использует ли Google оба одновременно?

Патент представляет их как два независимых метода (Claim 1 и Claim 11). На практике Google может использовать их параллельно для извлечения разных типов информации или выбирать один метод, который лучше подходит для конкретного типа диаграммы. Например, геометрия может лучше обрабатываться через парсинг (Метод 1), в то время как поиск объяснений или похожих задач может эффективнее использовать эмбеддинги (Метод 2).

Как Механизм 2 (Мультимодальный эмбеддинг) генерирует текстовый запрос из изображения?

Система использует Textual Encoder и Image Encoder для создания объединенного Multimodal Embedding, который инкапсулирует смысл всего изображения. Этот эмбеддинг затем подается в обученную Concept Classification Network. Эта сеть классифицирует намерение и выводит соответствующий текстовый запрос (например, "найти производную уравнения"), который затем используется для поиска в индексе.

Что такое Formal Language Representation в Механизме 1?

Это структурированное, машиночитаемое описание диаграммы. Например, если на входе изображение параллелограмма со сторонами 32 и 40, то Formal Language Representation может выглядеть как: PARALLELOGRAM (A, B, C, D), EQUALS (LENGTHOF (LINE(A, B)), 32), EQUALS (LENGTHOF (LINE(A, C)), 40). Это позволяет системе точно понять структуру и параметры задачи для её решения.

Как SEO-специалисту оптимизировать диаграммы для лучшего распознавания?

Ключевые факторы — это четкость, контрастность и использование стандартных обозначений. Диаграммы должны быть легко читаемыми как для человека, так и для машины (предпочтительно векторные). Избегайте артефактов, перекрытия элементов или нестандартных символов. Это облегчит работу модулей Geometric Entity Recognition и Symbolic Detection.

Влияет ли этот патент на обычный поиск изображений?

Да, влияет. Хотя основная цель — это решение задач и ответы на вопросы, Механизм 2 также использует Multimodal Embedding для поиска похожих изображений (Embedding-based retrieval / Visual Matches). Это означает, что поиск изображений также становится более семантическим, ориентируясь на содержание диаграммы, а не только на визуальное сходство пикселей.

Для каких ниш этот патент наиболее важен?

Наибольшее влияние патент оказывает на образовательные ресурсы, сайты в тематиках STEM (наука, технологии, инженерия, математика), техническую документацию и любые ресурсы, использующие схемы, графики или формулы для объяснения концепций. Это напрямую связано с функционалом Google Lens для помощи в обучении.

Что такое обучение с Contrastive Loss и почему это важно?

Contrastive Loss — это метод обучения, который позволяет моделям (в данном случае Textual Encoder и Image Encoder) научиться создавать схожие векторные представления для связанных данных (текст и изображение из одной задачи) и различные представления для несвязанных без ручной разметки. Это критически важно для эффективного мультимодального поиска, так как позволяет системе точно сопоставлять визуальную и текстовую информацию.

Увеличит ли этот механизм количество Zero-Click выдач?

Да, особенно реализация через парсинг диаграмм (Механизм 1). Если система может успешно преобразовать диаграмму в формальное представление и решить задачу с помощью внутреннего решателя (solver), предоставляя пошаговое руководство (Claim 8), она покажет ответ напрямую в выдаче, снижая трафик на внешние сайты.

Какова связь этого патента с Google Lens и Circle to Search?

Этот патент описывает базовые технологии, лежащие в основе этих функций визуального поиска, особенно в контексте помощи с домашними заданиями. Когда пользователь выделяет задачу на экране или фотографирует её, описанные модели (парсинг или мультимодальные эмбеддинги) используются для понимания запроса и предоставления решения или релевантной информации.

Похожие патенты

Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM
Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.
  • US20250061146A1
  • 2025-02-20
  • Мультимедиа

  • Семантика и интент

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google использует несколько изображений в одном запросе для уточнения визуального поиска через общие атрибуты и проекции эмбеддингов
Google использует механизм поиска, принимающий на вход два или более изображения. Система анализирует их для выявления общих атрибутов (стиль, цвет, тип объекта) и генерирует векторные представления (эмбеддинги). Если изображения вводятся последовательно, система вычисляет «траекторию» интереса пользователя в векторном пространстве и проецирует поиск в этом направлении, чтобы найти результаты, соответствующие эволюционирующему визуальному интенту.
  • US12271417B2
  • 2025-04-08
  • Мультимедиа

  • Семантика и интент

Как Google использует единый Image Embedding для параллельного поиска по разным вертикалям (Web, Shopping, Local) при визуальном запросе
Google патентует механизм для улучшения визуального поиска (например, Google Lens). Система генерирует единое векторное представление (Image Embedding) для изображения-запроса и использует его для одновременного поиска визуально похожих результатов в нескольких разных базах данных (например, в общем веб-индексе и специализированном индексе товаров или локаций). Контекст пользователя (местоположение, история) помогает системе выбрать, какие специализированные базы активировать для поиска.
  • US20240311421A1
  • 2024-09-19
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google объединяет изображения и текст в мультимодальном поиске для уточнения визуальных запросов
Google использует модель уточнения запросов для мультимодального поиска (например, в Google Lens). Система принимает эмбеддинг исходного изображения и текстовое уточнение от пользователя. Модель генерирует новый, уточненный эмбеддинг изображения, который объединяет визуальные данные с текстовым интентом. Этот новый эмбеддинг используется для поиска релевантных изображений в общем пространстве эмбеддингов, позволяя пользователям итеративно уточнять визуальный поиск текстом.
  • US20240370487A1
  • 2024-11-07
  • Мультимедиа

  • Семантика и интент

Популярные патенты

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи
Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.
  • US9256685B2
  • 2016-02-09
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах
Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.
  • US20180113919A1
  • 2018-04-26
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам
Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.
  • US8326826B1
  • 2012-12-04
  • Семантика и интент

  • Поведенческие сигналы

  • EEAT и качество

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

seohardcore