SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов

VISUAL AND AUDIO MULTIMODAL SEARCHING SYSTEM (Система визуального и аудио мультимодального поиска)
  • US12346386B2
  • Google LLC
  • 2023-04-25
  • 2025-07-01
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.

Описание

Какую проблему решает

Патент решает проблему ограниченности традиционного текстового и голосового поиска, когда пользователю сложно или невозможно описать словами то, что он ищет. Это особенно актуально при идентификации объектов, поиске товаров с определенными атрибутами или диагностике проблем, требующих визуального контекста или анализа звука (например, шум неисправной техники). Система устраняет необходимость формулировать сложные текстовые запросы, позволяя пользователю искать интуитивно, используя то, что он видит и слышит одновременно.

Что запатентовано

Запатентована система мультимодального поиска, которая принимает на вход изображение (Image Data) с камеры и связанный с ним аудиопоток (Audio Data) с микрофона. Система обрабатывает изображение для извлечения визуальных признаков (Visual Features) и обрабатывает аудио для генерации транскрибированного текста (Plurality of Words) и, в ключевых вариантах, аудиосигнатуры (Audio Signature). Эти элементы объединяются через механизм уточнения запроса (Query Refinement) для формирования итогового поискового запроса, который затем используется для получения результатов из различных источников (веб-поиск, поиск по картинкам, LLM).

Как это работает

Система работает по следующей схеме:

  • Мультимодальный ввод: Одновременный захват изображения и аудио (речи пользователя или окружающих звуков).
  • Обработка изображения: Извлечение Visual Features, таких как эмбеддинги изображения (Image Embeddings) или идентификация объектов.
  • Обработка аудио: Транскрибация речи в текст и/или генерация Audio Signature (звукового отпечатка).
  • Уточнение запроса (Query Refinement): Система объединяет визуальные и аудио данные. Ключевой механизм — замена слов в транскрибированном тексте (например, местоимения «этот») на термины, полученные из визуальных признаков (например, «розмарин»).
  • Выполнение поиска: В зависимости от категории запроса (например, поиск информации, покупка, действие), система направляет уточненный запрос в соответствующую систему: Image Search (используя комбинированные эмбеддинги), Web Search или Large Language Models (LLMs).
  • Мультимодальный вывод: Предоставление результатов в виде изображений, веб-ссылок или генеративных ответов.

Актуальность для SEO

Критически высокая. Патент подан в 2023 году и описывает технологии, лежащие в основе самых передовых функций поиска Google, таких как Multisearch (Google Lens + Text) и будущих итераций ИИ-ассистентов (например, Project Astra/Gemini). Мультимодальность является центральным направлением развития поиска, и этот патент описывает конкретную реализацию интеграции визуального и аудио режимов в реальном времени.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент сигнализирует о фундаментальном сдвиге в том, как пользователи взаимодействуют с поиском. Текстовые ключевые слова уступают место мультимодальным запросам, основанным на визуальном контексте и голосовых уточнениях. Для SEO это означает необходимость комплексной оптимизации контента (особенно изображений и видео) для распознавания визуальных признаков и соответствия интентам, которые могут быть выражены через комбинацию «покажи и спроси». Сайты, чей контент легко интерпретируется мультимодальными системами, получат значительное преимущество.

Детальный разбор

Термины и определения

Audio Data / Audio Input (Аудиоданные / Аудиовход)
Данные, полученные с микрофона пользовательского устройства, связанные с Image Data. Могут включать речь пользователя или окружающие звуки.
Audio Signature (Аудиосигнатура)
Звуковой отпечаток или характеристика аудиоданных. Используется для идентификации или сравнения звуков (например, для диагностики проблемы по характерному шуму устройства), а не только для распознавания речи.
Generative Results (Генеративные результаты)
Ответы, сгенерированные с помощью Large Language Models (LLMs) в ответ на мультимодальный запрос, часто в ответ на запросы, требующие выполнения действий (Action seeking queries).
Image Data / Image Input (Изображение / Визуальный ввод)
Визуальные данные, полученные с камеры пользовательского устройства.
Image Embeddings (Эмбеддинги изображения)
Низкоразмерное векторное представление визуальных признаков изображения. Используется для задач классификации и поиска похожих изображений.
Multimodal Input/Output (Мультимодальный ввод/вывод)
Ввод или вывод, использующий несколько модальностей одновременно (в данном патенте — изображение и аудио).
Plurality of Words (Транскрибированный текст)
Текстовое представление речи, полученное в результате обработки Audio Data.
Query Refinement (Уточнение запроса)
Процесс переформулирования исходного запроса. Включает интеграцию данных из разных модальностей, например, замену слов в тексте на основе визуальных данных или комбинирование эмбеддингов.
Search Terms (Поисковые термины)
Итоговый набор терминов или данных (включая эмбеддинги), сгенерированный после Query Refinement, который используется для выполнения поиска.
Visual Features (Визуальные признаки)
Характеристики, извлеченные из Image Data. Могут включать Image Embeddings, названия объектов, данные о местоположении и т.д.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод мультимодального поиска с использованием аудиосигнатур.

  1. Система получает Image Data (с камеры) и связанный Audio Data (с микрофона).
  2. Обрабатывает Image Data для генерации Visual Features.
  3. Обрабатывает Audio Data для генерации ДВУХ элементов: Plurality of Words (транскрипция) И Input Audio Signature (звуковой отпечаток), связанный с объектом на изображении.
  4. Генерирует Search Terms. Это включает механизм замены: слово в тексте заменяется на Updated Word, полученное из визуальных признаков.
  5. Определяет результаты поиска, основываясь на сгенерированных Search Terms И на Input Audio Signature.
  6. Предоставляет результаты.

Ядро изобретения по Claim 1 — это не просто комбинация изображения и речи, а специфический механизм обработки, включающий замену слов на основе визуального контекста, и, что критически важно, использование Input Audio Signature (анализ самого звука, а не только транскрипции) для определения результатов поиска. Это указывает на сценарии диагностики или идентификации по звуку.

Claim 2 (Зависимый от 1): Детализирует использование аудиосигнатур для повышения эффективности.

Для определения результатов система выполняет:

  1. Доступ к базе данных аудиосигнатур для получения набора известных сигнатур (Known Audio Signatures). Этот доступ фильтруется на основе извлеченного Visual Feature.
  2. Выбор совпадающей сигнатуры (Matching Audio Signature), если оценка сравнения (Comparison Score) между входной и известной сигнатурой превышает порог.

Это описывает механизм оптимизации: система использует изображение, чтобы сузить область поиска в базе звуков (например, идентифицирует модель устройства), а затем сравнивает звук, записанный пользователем, только с известными звуками для этой конкретной модели.

Claim 4, 5, 6 (Зависимые): Описывают сценарий поиска по изображениям.

Если аудио является уточняющим запросом (Refinement/Pivot query), система генерирует Text Embeddings и Image Embeddings. Эти эмбеддинги комбинируются и вводятся в модели поиска изображений для получения результатов в виде изображений.

Claim 7 (Зависимый от 1): Описывает сценарий информационного поиска.

Если аудио является информационным запросом (Information seeking query), система обрабатывает Search Terms с помощью веб-поисковой системы (Web Search Engine) для получения веб-результатов.

Claim 10 (Зависимый от 1): Описывает сценарий запроса на действие.

Если аудио является запросом на действие (Action seeking query), система обрабатывает Search Terms с помощью Больших Языковых Моделей (LLMs) для получения генеративных результатов.

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поиска, интегрируя обработку ввода и понимание запроса с выполнением поиска.

CRAWLING & INDEXING (Сканирование и Индексирование)
Система должна иметь доступ к обширным индексам, которые поддерживают мультимодальный поиск. Это включает индексацию изображений с генерацией Image Embeddings и, что важно, индексацию Audio Signatures, связанных с конкретными объектами или сущностями (как описано в Claim 2), для поддержки функций диагностики.

QUNDERSTANDING (Понимание Запросов)
Это основной этап применения патента. Система выполняет сложную обработку мультимодального ввода в реальном времени:

  • Извлечение признаков: Параллельная обработка изображения (Visual Features) и аудио (Transcribed Text, Audio Signature).
  • Классификация интента: Определение категории запроса на основе аудиоввода (Refinement, Pivot, Information seeking, Action seeking).
  • Query Refinement: Ключевой процесс слияния модальностей. Система использует ML-модели для интеграции визуального контекста в текстовый запрос (замена слов) или для генерации комбинированных эмбеддингов.

RANKING & METASEARCH (Ранжирование и Метапоиск)
Уточненный запрос направляется в соответствующую поисковую вертикаль или систему генерации:

  • Image Search: Если интент связан с поиском похожих изображений или товаров.
  • Web Search: Если интент информационный или диагностический.
  • LLMs: Если интент связан с выполнением действия или генерацией контента.

Система действует как метапоисковый механизм, определяя, какой источник лучше всего ответит на мультимодальный запрос.

Входные данные:

  • Image Data (с камеры).
  • Audio Data (с микрофона).
  • Метаданные (например, местоположение пользователя).

Выходные данные:

  • Мультимодальный вывод (Image Results, Web Results, или Generative Results).

На что влияет

  • Конкретные типы контента: Наибольшее влияние на контент, где визуальная составляющая критична: товары (eCommerce), локальные объекты, инструкции (DIY), контент по устранению неполадок (Troubleshooting).
  • Специфические запросы: Трансформирует подход к поиску по длинному хвосту (long-tail queries), которые сложно сформулировать текстом, но легко показать и спросить. Также влияет на запросы, связанные с диагностикой (по звуку и виду).
  • Конкретные ниши или тематики: eCommerce, Ремонт и обслуживание (диагностика техники, автомобилей), Кулинария (идентификация ингредиентов и поиск рецептов), Садоводство, Локальный бизнес.

Когда применяется

  • Триггеры активации: Активируется пользователем при запуске режима мультимодального поиска на устройстве (например, через приложение камеры или поискового ассистента), когда одновременно поступают и визуальные, и аудио данные.
  • Условия работы алгоритма: Система должна успешно извлечь Visual Features и обработать Audio Data. Эффективность зависит от качества входных данных и способности системы связать аудио и визуальный контекст.

Пошаговый алгоритм

Процесс обработки мультимодального запроса

  1. Получение входных данных: Система получает Image Data, захваченные камерой, и Audio Data, захваченные микрофоном.
  2. Параллельная обработка изображения: Image Data обрабатывается для генерации Visual Features (например, Image Embeddings, идентификация объектов).
  3. Параллельная обработка аудио: Audio Data обрабатывается для генерации Plurality of Words (транскрибированного текста). В некоторых реализациях также генерируется Input Audio Signature.
  4. Уточнение запроса (Query Refinement): Система генерирует итоговые Search Terms на основе визуальных признаков и обработанного аудио. Это может включать:
    • Замена слов: Идентификация слов в тексте (например, «это») и их замена на термины, полученные из Visual Features (например, название объекта).
    • Генерация эмбеддингов: Создание Text Embeddings из текста и комбинирование их с Image Embeddings.
  5. Классификация интента и маршрутизация: Система определяет категорию запроса (например, Information seeking, Action seeking, Refinement) для выбора механизма поиска.
  6. Определение результатов поиска:
    • Для веб-поиска: Search Terms направляются в Web Search Engine.
    • Для поиска изображений: Комбинированные эмбеддинги направляются в Image Search System.
    • Для генеративных ответов: Search Terms направляются в LLMs.
    • С использованием аудиосигнатуры: Если используется Audio Signature, система сначала использует Visual Features для доступа к релевантному подмножеству Known Audio Signatures в базе данных, затем сравнивает входную сигнатуру с известными (проверяя превышение Comparison Score порога) для уточнения результатов.
  7. Предоставление вывода: Система предоставляет один или несколько результатов (Web Results, Image Results, Generative Results) пользователю.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы (Изображения): Image Data, полученные с камеры. Это основной источник для извлечения Visual Features и Image Embeddings.
  • Мультимедиа факторы (Аудио): Audio Data, полученные с микрофона. Используются для транскрибации речи и генерации Audio Signature.
  • Географические факторы: Патент упоминает, что Visual Features могут включать данные о местоположении (Location Data), которые могут быть использованы для уточнения локальных запросов.
  • Пользовательские факторы: Исторические данные пользователя (Historical Data) могут использоваться на этапе Query Refinement для лучшего понимания интента.

Какие метрики используются и как они считаются

Патент не детализирует конкретные формулы ранжирования, но описывает следующие ключевые метрики и процессы обработки:

  • Векторные представления (Embeddings): Используются Image Embeddings и Text Embeddings. Генерируются с использованием ML-моделей (например, CNN, Трансформеры).
  • Комбинированные Эмбеддинги: Система комбинирует Text Embeddings и Image Embeddings для выполнения поиска в общем семантическом пространстве.
  • Comparison Score (Оценка сравнения аудиосигнатур): Метрика схожести между входной Input Audio Signature и известными Known Audio Signatures.
  • Пороговые значения (Threshold Value): Используется при сравнении аудиосигнатур. Если Comparison Score превышает порог, сигнатура считается совпадающей. Патент упоминает, что порог может динамически обновляться.
  • Методы анализа текста (NLP): Используются для транскрибации аудио в текст (Speech-to-Text) и для понимания интента запроса.
  • Алгоритмы машинного обучения: Используются на всех этапах: для обработки изображений, аудио/текста, классификации интента и генерации ответов (LLMs).

Выводы

  1. Мультимодальность как новый стандарт поиска: Патент подтверждает, что будущее поиска лежит в интеграции различных типов ввода (изображение + аудио). Это не просто две отдельные функции, а единая система, где одна модальность дополняет и уточняет другую.
  2. Визуальный контекст для голосовых запросов: Ключевой механизм — использование изображения для понимания контекста голосового запроса. Система буквально «видит», о чем говорит пользователь, что позволяет ей заменять неопределенные термины (например, «этот») конкретными названиями объектов из кадра (Механизм замены слов в Claim 1).
  3. Использование звука (Audio Signature) помимо речи: Патент описывает продвинутый сценарий, где анализируется не только речь, но и характеристики звука (Audio Signature). Это позволяет решать задачи, ранее недоступные для поиска, например, диагностику неисправностей по звуку и внешнему виду устройства (Claims 1, 2).
  4. Классификация интента определяет источник ответа: Система динамически определяет интент пользователя (найти похожее изображение, получить информацию, выполнить действие) и на основе этого выбирает источник для ответа: поиск по картинкам, веб-поиск или генеративную модель (LLM) (Claims 4, 7, 10).
  5. Эффективность за счет фильтрации: Система оптимизирует анализ Audio Signature, сужая базу данных сравнения только до звуков, релевантных визуально идентифицированному объекту. Это позволяет проводить диагностику быстро.

Практика

Best practices (это мы делаем)

  • Комплексная оптимизация изображений (Visual Search Optimization): Обеспечьте высокое качество, четкость и разнообразие изображений товаров и объектов. Оптимизация должна быть нацелена на то, чтобы ML-модели могли легко извлекать корректные Visual Features. Используйте структурированные данные (Schema.org) для предоставления атрибутов (цвет, бренд, модель), которые пользователи могут запрашивать голосом.
  • Оптимизация под визуально-голосовые интенты: Анализируйте, как пользователи могут спрашивать о вашем контенте, видя его. Создавайте контент, отвечающий на запросы типа «Как это использовать?», «Где купить это рядом?», «Какого ухода это требует?». Убедитесь, что ваш контент является релевантным ответом на такие мультимодальные запросы.
  • Развитие контента для диагностики и решения проблем (Troubleshooting): Учитывая способность системы анализировать звук и изображение для диагностики проблем (например, шум техники), создание качественного контента (включая видео) по устранению неполадок для конкретных моделей становится критически важным для ниш ремонта и обслуживания.
  • Локальное SEO и доступность товаров: Для eCommerce и локального бизнеса важно поддерживать актуальность данных о наличии товаров в локальных точках, так как система поддерживает запросы типа «[Фото товара] + где купить это рядом?», используя Location Data.

Worst practices (это делать не надо)

  • Игнорирование Image SEO: Рассматривать изображения только как элемент дизайна, а не как точку входа для поиска. Использование стоковых, нерелевантных или некачественных изображений снизит вероятность их идентификации системой.
  • Фокус только на текстовых ключевых словах: Стратегии, основанные исключительно на текстовом поиске, будут терять эффективность по мере роста популярности мультимодального поиска. Нельзя игнорировать оптимизацию под интенты, выраженные через изображение и голос.
  • Усложнение визуальной идентификации: Использование изображений с сильным брендингом, водяными знаками или множеством отвлекающих объектов может затруднить извлечение Visual Features основного объекта.
  • Создание поверхностного контента: Если пользователь ищет решение проблемы, диагностированной системой (например, по звуку неисправности), поверхностный контент не будет соответствовать его интенту и не будет ранжироваться высоко.

Стратегическое значение

Этот патент имеет огромное стратегическое значение, так как он описывает интерфейс и механизм поиска будущего. Он подтверждает переход от «поиска по ключевым словам» к «поиску по контексту» (визуальному и звуковому). Для SEO это означает необходимость глубокого понимания технологий компьютерного зрения и обработки естественного языка. Долгосрочная стратегия должна включать создание богатого мультимедийного контента, оптимизированного для распознавания и интерпретации мультимодальными системами Google, фокусируясь на решении реальных задач пользователя.

Практические примеры

Сценарий 1: eCommerce (Refinement Query)

  • Действие пользователя: Пользователь делает фото понравившегося стула в кафе и говорит: «Найди такой же, но зеленого цвета».
  • Работа системы: Система идентифицирует стул (Visual Feature), транскрибирует речь. Query Refinement генерирует комбинированные эмбеддинги, где Image Embedding стула сочетается с Text Embedding «зеленого цвета». Система выполняет Image Search.
  • SEO-действие: Оптимизировать карточки товаров, имея качественные изображения стула во всех доступных цветах и указывая цвета в метаданных и структурированных данных (Product Schema), чтобы соответствовать этому интенту.

Сценарий 2: Ремонт и обслуживание (Information Seeking с Audio Signature)

  • Действие пользователя: Пользователь направляет камеру на свою кофемашину и записывает странный шипящий звук, спрашивая: «Почему она так шумит?».
  • Работа системы: Система идентифицирует модель кофемашины (Visual Feature). Она генерирует Input Audio Signature шума. Система обращается к базе данных звуков для этой модели (Known Audio Signatures) и находит совпадение, соответствующее «засорению фильтра». Система выполняет Web Search.
  • SEO-действие: Создать страницу или видео на сайте поддержки с заголовком «Устранение шипящего звука в кофемашине [Модель]», демонстрируя проблему и решение. Это позволит сайту ранжироваться по результатам такого диагностического поиска.

Сценарий 3: Генеративный ответ (Action Seeking Query)

  • Действие пользователя: Пользователь фотографирует страницу книги и говорит: «Резюмируй эту страницу».
  • Работа системы: Система распознает текст на странице (Visual Feature через OCR), транскрибирует команду. Интент классифицируется как Action Seeking. Система направляет распознанный текст и команду в LLM.
  • SEO-действие: Это напрямую не влияет на ранжирование сайта, но показывает, как Google использует контент для генерации прямых ответов. Важно создавать авторитетный контент, который может быть использован LLM в качестве источника.

Вопросы и ответы

Что такое мультимодальный поиск, описанный в этом патенте?

Это система, которая позволяет пользователю искать информацию, используя одновременно два типа ввода: изображение с камеры и аудио с микрофона. Система объединяет эти данные, чтобы понять запрос пользователя. Например, можно сфотографировать растение и спросить голосом: «Как часто его поливать?». Система поймет, о каком растении идет речь, и найдет ответ.

Что такое «Audio Signature» и почему это важно?

Audio Signature — это звуковой отпечаток. Патент описывает, что система может анализировать не только речь, но и характеристики звука. Это позволяет решать сложные задачи, например, диагностировать поломку техники по шуму (Claim 1, 2). Система идентифицирует устройство по фото, а затем сравнивает записанный звук с базой известных звуков для этого устройства, что значительно повышает точность диагностики.

Как работает механизм уточнения запроса (Query Refinement)?

Модуль Query Refinement объединяет визуальные данные и транскрибированный текст. Если пользователь говорит «как использовать это?», указывая камерой на объект, система сначала идентифицирует объект визуально (например, «мультиметр»), а затем переписывает запрос в «как использовать мультиметр?» (Claim 1). Это позволяет системе точно понять интент пользователя, даже если голосовой запрос был неоднозначным.

Как система решает, использовать ли веб-поиск, поиск по картинкам или LLM?

Система классифицирует интент запроса. Если пользователь хочет найти похожий товар с другими атрибутами (Refinement/Pivot Query), используется Image Search (Claim 4). Если пользователь задает вопрос (Information Seeking Query), используется Web Search (Claim 7). Если пользователь просит выполнить действие, например, «резюмируй этот текст» (Action Seeking Query), запрос направляется в LLM (Claim 10).

Какие основные действия нужно предпринять SEO-специалисту в связи с этим патентом?

Необходимо сфокусироваться на трех направлениях. Первое — усиление Image SEO: качественные изображения и полные структурированные данные о продуктах. Второе — создание контента для решения задач: подробные инструкции, руководства по ремонту и устранению неполадок для конкретных сущностей/моделей (особенно важно в свете Audio Signature). Третье — оптимизация под локальный поиск, обеспечивая актуальность информации о наличии товаров.

Влияет ли этот патент на ранжирование в традиционном веб-поиске?

Напрямую нет, так как он описывает этап QUNDERSTANDING (понимание запроса), а не RANKING. Однако, изменяя формулировку запроса (Query Refinement) и лучше понимая интент, система будет искать другой набор документов. Это косвенно меняет ландшафт выдачи, отдавая предпочтение контенту, релевантному мультимодальному контексту.

Насколько быстро работает анализ Audio Signature?

Патент подчеркивает эффективность процесса (Claim 2). Вместо сравнения входного звука со всеми известными звуками, система сначала визуально идентифицирует объект (например, модель посудомоечной машины), а затем сравнивает звук только с базой данных звуков для этой конкретной модели. Это значительно ускоряет диагностику и позволяет предоставлять результаты в реальном времени.

Какое значение этот патент имеет для E-commerce?

Огромное. Он упрощает процесс поиска и покупки товаров, увиденных в офлайне. Пользователи могут мгновенно уточнять визуальные характеристики («хочу такой же, но с другим узором») или запрашивать наличие («где купить это рядом?»). Это требует от магазинов максимальной интеграции с инструментами визуального и локального поиска Google.

Использует ли система эмбеддинги для этого типа поиска?

Да, это основа механизма поиска по изображениям (Claims 5, 6). Система генерирует Image Embeddings из фото пользователя и Text Embeddings из его голосового уточнения (например, «синий цвет»). Затем она комбинирует эти эмбеддинги и ищет совпадения в индексе изображений. Это позволяет находить релевантные результаты, учитывая и визуальное сходство, и текстовые атрибуты.

Нужно ли оптимизировать аудио в моих видео в связи с этим патентом?

Хотя патент описывает анализ аудио, полученного с микрофона пользователя, он демонстрирует растущие возможности Google в области анализа звука. Улучшение качества и четкости аудио в вашем контенте (например, в видеоуроках по ремонту) поможет системам Google лучше понять его содержание и, возможно, использовать его для обучения своих моделей Audio Signature или для предоставления в качестве ответа на диагностические запросы.

Похожие патенты

Как Google использует мультимодальный поиск (изображение + голос) для более точного понимания запросов и ранжирования результатов
Google использует механизм мультимодального поиска, обрабатывая запросы, которые одновременно содержат изображение (например, фото) и аудио (например, голосовое описание или уточнение). Система анализирует визуальные признаки и конвертирует речь в текст, используя совместную модель релевантности для поиска ресурсов (таких как товары или веб-страницы), которые соответствуют обоим типам входных данных.
  • US8788434B2
  • 2014-07-22
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google использует одновременный ввод видео и аудио (Multimodal Search) для понимания сложных запросов
Google разрабатывает систему мультимодального поиска, позволяющую пользователям записывать видео и одновременно задавать вопрос голосом или записывать звук. Система использует продвинутые ML-модели для генерации видео-эмбеддингов, анализа временной информации и аудиосигнатур. Это позволяет поиску понимать сложные запросы, требующие визуального и аудиального контекста (например, диагностика поломок, обучение действиям), и находить релевантные ответы в виде видео, веб-страниц или AR.
  • US20240403362A1
  • 2024-12-05
  • Мультимедиа

  • Семантика и интент

  • Индексация

Как Google использует мультимодальный поиск (текст + изображение) для уточнения запросов и фильтрации видеоконтента
Google использует механизм мультимодального поиска, позволяющий пользователям дополнять текстовые запросы визуальным вводом (например, фотографией). Система анализирует изображение с помощью моделей машинного обучения для распознавания объектов и генерации семантической информации. Эта информация используется либо для создания уточненного составного запроса (composite query), либо для фильтрации исходных результатов поиска путем сопоставления метаданных изображения с метаданными проиндексированного видеоконтента.
  • US20210064652A1
  • 2021-03-04
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM
Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.
  • US20250061146A1
  • 2025-02-20
  • Мультимедиа

  • Семантика и интент

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Популярные патенты

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов
Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.
  • US9009153B2
  • 2015-04-14
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP
Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.
  • US9275421B2
  • 2016-03-01
  • Семантика и интент

  • SERP

  • Ссылки

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика
Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.
  • US7716225B1
  • 2010-05-11
  • Ссылки

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)
Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.
  • US8650196B1
  • 2014-02-11
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента
Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.
  • US8412699B1
  • 2013-04-02
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

seohardcore