Google использует естественный язык (например, разговоры с Ассистентом) для идентификации значимых событий. Система анализирует фотографии, сделанные в этот период, и использует поведенческие сигналы (время просмотра, редактирование, пересылка) и распознавание объектов, чтобы определить, какие фото связаны с событием. Эти данные используются для аннотирования изображений и обучения ML-моделей.
Описание
Какую задачу решает
Патент решает проблему ограниченности и отсутствия контекста в традиционном распознавании объектов (Object Recognition). Вместо генерации обобщенных меток (например, «торт», «шары»), система улучшает поисковый функционал, автоматически генерируя персонализированные и контекстуально богатые аннотации (например, «Третий день рождения Дили»). Это позволяет перейти от поиска по объектам к поиску по событиям и семантическому контексту.
Что запатентовано
Запатентована система автоматического аннотирования изображений, которая связывает контекст, извлеченный из естественно-языкового ввода (Natural Language Input), часто направленного Automated Assistant, с цифровыми изображениями, снятыми во время этого события. Для определения релевантности изображения событию система использует комбинацию сигналов взаимодействия пользователя (просмотры, редактирование, шеринг) и смещенного распознавания образов (Biased Image Recognition).
Как это работает
Механизм активируется, когда пользователь упоминает событие в диалоге с ассистентом (например, «Завтра Дили исполняется три года»).
- Извлечение контекста: Анализируется ввод для определения события, даты и описательных токенов.
- Идентификация кандидатов: Находятся все изображения (включая видео), снятые в указанную дату.
- Анализ релевантности: Оценивается связь изображений с событием с использованием двух типов сигналов:
- Сигналы взаимодействия: Изображения, которые пользователь дольше просматривал, редактировал (image manipulation) или чаще делился ими (measure of sharing), считаются более релевантными.
- Визуальные сигналы: Выполняется распознавание образов, смещенное (biased) в сторону объектов, связанных с извлеченными токенами или сущностями из Knowledge Graph.
- Классификация и аннотирование: Релевантные изображения помечаются токенами события в поисковой базе данных.
- Обучение моделей: Аннотированные изображения используются как обучающие данные для ML-моделей, чтобы улучшить распознавание контекста событий в будущем (Holistic Classification).
Актуальность для SEO
Высокая. Патент опубликован в конце 2023 года (является продолжением более ранних заявок) и полностью соответствует стратегическим направлениям Google в области мультимодального понимания (например, MUM) и интеграции сервисов (Google Photos, Assistant). Использование сигналов взаимодействия пользователя как индикатора значимости контента является ключевой темой в современных поисковых системах.
Важность для SEO
Патент имеет умеренно высокое значение (6.5/10) для SEO-стратегии, особенно в области Image SEO и Visual Search. Хотя он фокусируется на персонализированных медиа, он раскрывает критически важные механизмы: использование поведенческих сигналов (вовлеченности) для оценки значимости контента и обучение моделей ИИ для целостного понимания контекста изображений. Это подтверждает стратегический переход от распознавания объектов к глубокому семантическому пониманию визуального контента.
Детальный разбор
Термины и определения
- Automated Assistant (Автоматизированный ассистент)
- Интерактивное ПО (например, Google Assistant), способное вести диалог и обрабатывать естественно-языковой ввод.
- Biased Image Recognition (Смещенное распознавание изображений)
- Процесс распознавания, в котором система отдает предпочтение идентификации объектов, связанных с известным контекстом (например, поиск тортов, если контекст — «день рождения»).
- Event of Significance (Значимое событие)
- Событие, связанное с пользователем, идентифицированное на основе его Natural Language Input.
- Holistic Classification (Холистическая классификация)
- Метод классификации изображений на основе общего сходства с другими изображениями в аналогичном контексте, а не только по отдельным объектам. Упоминается как цель обучения ML-моделей.
- Image Annotation Engine (Система аннотирования изображений)
- Компонент, отвечающий за анализ изображений, определение их релевантности событию и присвоение аннотаций.
- Natural Language Input (Естественно-языковой ввод)
- Текстовый или голосовой ввод пользователя в свободной форме.
- Tokens (Токены)
- Слова или фразы, извлеченные из Natural Language Input, которые описывают событие. Используются как аннотации.
- User-controlled computing interactions (Взаимодействия пользователя с изображениями)
- Записи о действиях пользователя с изображениями. Включают: время отображения (Amount of time displayed), степень манипуляции (Measure/Degree of image manipulation – редактирование, фильтры) и меру шеринга (Measure of sharing).
Ключевые утверждения (Анализ Claims)
Патент US11836183B2 является продолжением (Continuation) более ранних заявок. Claims сфокусированы на использовании поведенческих сигналов, в частности, сравнении степени манипуляций.
Claim 1 (Независимый пункт): Описывает метод классификации изображений с акцентом на сигналы редактирования.
- Система получает Natural Language Input, направленный Automated Assistant.
- Ввод анализируется для определения События, Токенов и Даты.
- Идентифицируются изображения, снятые в эту Дату.
- Система сравнивает «степень манипуляции изображением» (degree of image manipulation), примененную к каждому изображению через приложения для редактирования, относительно других изображений, снятых в тот же день.
- На основе этого сравнения подмножество изображений классифицируется как связанное с событием.
- Токены сохраняются в поисковой базе данных в ассоциации с этим подмножеством.
Ядро изобретения — использование сравнительной степени пользовательских манипуляций (редактирования) как ключевого сигнала для определения значимости изображения и его связи с упомянутым событием. Пользователи чаще редактируют важные для них фотографии.
Claim 3 и Claim 9 (Зависимые от 1): Расширяют типы поведенческих сигналов.
- Сравнение (из пункта 1) также включает определение «меры шеринга» (measure of sharing) (Claim 3).
- Сравнение также включает сравнение «времени отображения» (amount of time displayed) на графических интерфейсах (Claim 9).
Это подтверждает использование аналогов Dwell Time и социального распространения как индикаторов значимости контента.
Claim 8 (Зависимый от 1): Добавляет использование визуальных сигналов.
- Выполняется распознавание изображений для идентификации объектов/сущностей.
- Процесс распознавания смещается (biasing) в сторону токенов, связанных с событием.
- Классификация дополнительно основывается на идентифицированных объектах.
Это описывает мультимодальный подход, где текстовый контекст используется для улучшения точности визуального распознавания.
Claim 7 (Зависимый от 1): Описывает использование результатов для машинного обучения.
- Аннотированные изображения подаются на вход ML-классификатора.
- Выход сравнивается с токенами (метками) для генерации ошибки.
- Классификатор обучается на основе этой ошибки.
Это механизм для автоматического создания датасетов и обучения моделей для холистического понимания контекста изображений.
Где и как применяется
Изобретение применяется в экосистеме управления персональными медиа (Google Photos) и интегрировано с Google Assistant. Используемые технологии затрагивают общие этапы обработки поисковых данных.
QUNDERSTANDING – Понимание Запросов
Система обрабатывает Natural Language Input пользователя, направленный ассистенту. Natural Language Processor анализирует ввод для идентификации Event of Significance, определения даты и извлечения описательных Tokens.
INDEXING – Индексирование и извлечение признаков (Image Indexing)
Этот этап включает:
- Извлечение визуальных признаков: Обработка изображений для распознавания объектов (Image Recognition Processing).
- Сбор данных о взаимодействии: Система индексирует User-controlled computing interactions (время просмотра, редактирование, шеринг).
- Контекстуальное аннотирование (Применение патента): Image Annotation Engine использует данные из QUNDERSTANDING и извлеченные признаки (визуальные и поведенческие) для генерации новых контекстуальных аннотаций и связывания их с изображениями.
RANKING / RETRIEVAL – Ранжирование и Поиск (Image Search)
Сгенерированные аннотации используются на этапе поиска. Когда пользователь вводит запрос (например, «Покажи фото с дня рождения Дили»), система эффективно находит изображения, помеченные соответствующими токенами.
Входные данные:
- Natural Language Input пользователя.
- Цифровые изображения и их метаданные (дата съемки, геотеги).
- Записи о взаимодействии пользователя с изображениями.
- Данные из Knowledge Graph (для смещения распознавания).
Выходные данные:
- Аннотированные изображения в поисковой базе данных.
- Обучающие данные (изображение + метка) для ML-моделей.
На что влияет
- Конкретные типы контента: В первую очередь влияет на цифровые изображения и видео (в патенте указано, что «digital images» включает видео) в личных библиотеках.
- Специфические запросы: Улучшает обработку запросов, связанных с событиями и сущностями в контексте поиска по изображениям.
- Точность Image Search: Повышает точность за счет добавления семантического контекста. Также косвенно влияет на публичный поиск через обучение общих ML-моделей.
- Распознавание сущностей: Патент описывает использование контекста события для идентификации анонимных кластеров лиц (например, связывание имени, упомянутого пользователем, с лицом на фото этого дня).
Когда применяется
- Триггеры активации: Алгоритм активируется, когда пользователь предоставляет Natural Language Input ассистенту, из которого можно извлечь событие и дату, и существуют изображения, снятые в эту дату.
- Временные рамки: Анализ может происходить ретроспективно (событие в прошлом) или после наступления даты (событие в будущем). Ввод пользователя и съемка могут быть разделены во времени (дни, недели, месяцы).
Пошаговый алгоритм
- Получение естественно-языкового ввода: Система получает ввод от пользователя, направленный ассистенту.
- Анализ ввода и извлечение контекста: Обработка ввода для определения события, токенов и даты.
- Идентификация изображений-кандидатов: Поиск всех изображений, снятых в указанную дату.
- Анализ релевантности изображений событию: Определение связи изображений с событием через два процесса:
- Анализ взаимодействий пользователя:
- Изучение записей User-controlled computing interactions.
- Оценка метрик: время отображения, степень манипуляции, мера шеринга.
- Сравнение этих метрик с другими фото того же дня для выявления наиболее значимых (как указано в Claim 1).
- Анализ визуального контента:
- Выполнение Image Recognition Processing.
- Процесс смещается (biased) для поиска объектов, связанных с токенами события. Используется Knowledge Graph для поиска связанных концептов.
- Агрегация и классификация: Система может использовать комбинацию сигналов для расчета агрегированной меры уверенности (aggregate measure of confidence). Изображения, превысившие порог, классифицируются как связанные с событием.
- Аннотирование и сохранение: Токены события сохраняются в поисковой базе данных в ассоциации с классифицированными изображениями.
- Обучение ML-моделей (Опционально): Аннотированные изображения используются для тренировки классификаторов для Holistic Classification.
Какие данные и как использует
Данные на входе
- Контентные факторы (Текстовые): Natural Language Input пользователя (текст или STT-обработка голоса).
- Мультимедиа факторы (Визуальные): Пиксельные данные цифровых изображений и видео.
- Технические факторы (Метаданные): Дата и время съемки. Геотеги (geotags) также упоминаются в описании как возможный сигнал (для группировки по пространственной близости).
- Поведенческие факторы (User Interactions): Ключевые данные для патента.
- Данные о просмотре (время отображения на экране).
- Данные о редактировании (применение фильтров, обрезка, масштабирование/zoom).
- Данные о шеринге (количество отправок, получателей).
Какие метрики используются и как они считаются
- Amount of time displayed (Время отображения): Метрика, измеряющая, как долго изображение было показано. Может быть кумулятивным временем на одном или нескольких устройствах.
- Degree/Measure of image manipulation (Степень манипуляции изображением): Метрика, оценивающая объем или интенсивность редактирования. Claim 1 подчеркивает сравнение этой метрики между фото одного дня.
- Measure of sharing (Мера шеринга): Метрика распространения (количество отправок пользователем или общее количество пересылок).
- Aggregate Measure of Confidence (Агрегированная мера уверенности): Комбинированная оценка на основе поведенческих и визуальных сигналов.
Методы анализа и вычислений:
- Методы анализа текста (NLP): Используются для анализа Natural Language Input и извлечения сущностей (Entity Extraction) и токенов.
- Алгоритмы машинного обучения (Image Recognition): Упоминаются Convolutional Neural Networks (CNN). Система генерирует эмбеддинги (embeddings) объектов в семантическом пространстве и оценивает их близость к эмбеддингам, связанным с событием.
- Biasing (Смещение/Приоритезация): Механизм, при котором распознавание образов смещается в сторону токенов события. Если объект неоднозначен (например, «шары» могут относиться к «дню рождения» или «карнавалу»), контекст из NLP используется для выбора правильной интерпретации.
Выводы
- Контекст критичен для Image Understanding: Патент демонстрирует переход Google от распознавания объектов к пониманию контекста изображения. Система стремится понять событие на фото, а не только объекты. Это фундаментально для Image SEO.
- Поведенческие сигналы как индикаторы значимости: Патент явно использует сигналы взаимодействия (время просмотра, редактирование, шеринг) как индикаторы значимости контента для пользователя. Это подтверждает способность и намерение Google использовать поведенческие метрики для оценки качества и релевантности.
- Мультимодальная интеграция (NLU и Зрение): Google активно использует NLU для улучшения компьютерного зрения. Текстовый контекст (токены) используется для смещения (biasing) и уточнения результатов визуального распознавания.
- Генерация данных для холистического ML-обучения: Система автоматически создает высококачественные обучающие данные (изображение + контекст). Это позволяет обучать ML-модели для Holistic Classification — распознавания тем и событий на изображениях. Эти модели могут применяться в общем поиске Google Images.
- Сущности и Knowledge Graph: Аннотации основаны на сущностях и событиях. Патент также описывает механизм деанонимизации лиц на фото, что усиливает связь визуального контента с Knowledge Graph.
Практика
Best practices (это мы делаем)
Хотя патент фокусируется на персональных фото, он дает критические инсайты о том, как Google обучает свои модели, применяемые в публичном поиске, и как оценивает значимость визуального контента.
- Обеспечение четкого контекста для изображений: Для Image SEO критически важно предоставлять полный контекст. Используйте окружающий текст, структурированные данные (ImageObject) и атрибуты (alt-text), чтобы четко указать, что происходит на изображении (событие) и какие сущности присутствуют.
- Фокус на сущностях и связи с Knowledge Graph: Оптимизируйте изображения под сущности (люди, продукты, места) и события. Убедитесь, что Google может распознать сущности на изображении и связать их с контекстом страницы и Knowledge Graph.
- Создание визуального контента, стимулирующего вовлечение: Создавайте высококачественные, уникальные изображения, которые пользователи захотят изучать (аналог Amount of time displayed) и распространять (аналог Measure of sharing).
- Улучшение UX взаимодействия с изображениями: Используйте интерактивные элементы, такие как масштабирование (zoom) или 360-градусные обзоры. Это может быть интерпретировано как форма «манипуляции» (image manipulation в терминах патента), что является сигналом значимости контента для пользователя.
Worst practices (это делать не надо)
- Использование стоковых изображений без контекста: Размещение обобщенных стоковых фото, слабо связанных с содержанием страницы. Системам сложнее присвоить им релевантный контекст и они не вызывают вовлеченности.
- Оптимизация только под объекты: Описание только объектов (alt=»красный торт») менее эффективно, чем описание контекста (alt=»Празднование дня рождения компании X»). Google ищет более глубокий уровень понимания.
- Игнорирование связи изображений с Knowledge Graph: Не использовать возможности связать изображение с узлами в Knowledge Graph через структурированные данные — упущенная возможность для семантической классификации.
Стратегическое значение
Патент подтверждает стратегию Google на мультимодальное понимание контента и важность сигналов вовлеченности. Google не рассматривает текст и изображения изолированно. Системы используют текстовый контекст для обучения визуальных моделей и наоборот. SEO-стратегия должна быть направлена на создание консистентного семантического сообщения через все типы контента, обеспечивая четкую связь между текстом, изображениями и сущностями.
Практические примеры
Сценарий 1: Оптимизация изображений для E-commerce (Детализированный товар)
- Применение инсайтов патента: Патент указывает, что взаимодействие (манипуляция, время просмотра) сигнализирует о значимости.
- Действие: Для страницы товара (например, сложной электроники) реализовать функционал глубокого масштабирования (zoom) высокого разрешения.
- Ожидаемый результат: Пользователи будут активно использовать zoom (сигнал image manipulation) и проводить больше времени, изучая детали (сигнал Amount of time displayed). Это повышает сигналы вовлеченности, что может способствовать лучшему ранжированию изображений как высокорелевантных.
Сценарий 2: Оптимизация изображений для статьи о событии (Запуск продукта)
- Применение инсайтов патента: Google стремится понять контекст события и связать его с сущностями (Holistic Classification).
- Действие: Использовать фото с презентации. В alt-тексте указать: «CEO Джон Доу (сущность) представляет Смартфон X (сущность) на конференции (событие)». Использовать разметку Schema.org (Product, Event).
- Ожидаемый результат: Google классифицирует изображение не просто как «смартфон», а как «Презентация Смартфона X Джоном Доу», улучшая ранжирование в Image Search по запросам, связанным с этими сущностями и событием.
Вопросы и ответы
Влияет ли этот патент на публичный поиск Google Images или только на Google Photos?
В первую очередь механизм описан для персонализированных результатов (Google Photos/Assistant). Однако в патенте (Claim 7) прямо указано, что эти аннотированные данные используются для обучения моделей машинного обучения (Holistic Classification). Эти обученные модели могут быть развернуты в публичном Google Images для лучшего понимания контекста и тематики изображений без доступа к личным данным.
Означает ли этот патент, что Google использует Dwell Time для ранжирования в веб-поиске?
Нет. Патент описывает использование Amount of time displayed исключительно в контексте оценки значимости персональных фотографий. Хотя это показывает, что Google считает время взаимодействия важным индикатором, не следует спекулировать о применении этих конкретных метрик в ранжировании публичного веб-поиска.
Какие именно сигналы вовлеченности пользователей упоминаются в патенте?
В патенте явно упоминаются три ключевых сигнала: 1) Degree/Measure of image manipulation (степень редактирования изображения, включая обрезку, фильтры, zoom); 2) Measure of sharing (показатель распространения изображения); и 3) Amount of time displayed (продолжительность просмотра изображения на экране).
Что такое «Холистическая классификация» (Holistic Classification) и почему это важно для SEO?
Holistic Classification — это метод, при котором изображение классифицируется на основе его общего вида и сходства с другими изображениями в аналогичном контексте, а не только по наличию конкретных объектов. Для SEO это означает, что уникальные и качественные изображения, которые хорошо передают атмосферу или суть темы (а не просто содержат ключевые объекты), могут ранжироваться лучше в Image Search.
Что подразумевается под «смещением» (biasing) распознавания изображений?
Это механизм, при котором система использует внешний контекст для уточнения результатов распознавания. Если контекст — «день рождения», система будет активнее искать торты и шары. Если объект неоднозначен, контекст помогает выбрать правильную интерпретацию. В SEO это подчеркивает критическую важность текстового окружения для правильной интерпретации изображения.
Использует ли система данные из Knowledge Graph?
Да, в описании патента упоминается возможность использования Knowledge Graph для смещения распознавания. Например, система может знать, что «16-й день рождения» в США часто связан с вождением, и поэтому классифицировать фото автомобиля как связанное с этим событием. Это подчеркивает важность связи контента на сайте с сущностями.
Может ли эта система помочь в идентификации сущностей на фотографиях?
Да. Патент описывает сценарий, где контекст события используется для присвоения идентификатора (имени) ранее анонимным кластерам лиц. Например, если пользователь говорит «Редмонд сделал первые шаги», система может связать имя «Редмонд» с лицом ребенка на фото. Это демонстрирует способность Google связывать визуальные образы с конкретными сущностями.
Как SEO-специалист может использовать информацию о важности «манипуляции изображением» (image manipulation)?
Хотя пользователи не будут редактировать изображения на вашем сайте, термин «манипуляция» может включать взаимодействие, например, масштабирование (zoom). Предоставление высококачественных изображений с возможностью глубокого зума (особенно в e-commerce) стимулирует такое взаимодействие, что является сигналом значимости контента для пользователя.
Как лучше всего оптимизировать alt-текст, учитывая этот патент?
Alt-текст должен описывать не только объекты, но и контекст или событие. Вместо обобщенного описания (например, «люди за столом») используйте описание, включающее сущности и действие (например, «Команда маркетинга Google обсуждает патент US11836183B2»). Это предоставляет системам тот тип контекстуальных токенов, который они ищут.
Применяется ли этот механизм только к фотографиям, снятым одновременно с разговором с Ассистентом?
Нет. Патент четко указывает, что ввод пользователя и получение изображений не должны быть одновременными (могут быть разделены днями, неделями, месяцами, годами). Пользователь может сообщить ассистенту о событии в прошлом или в будущем, и система проанализирует изображения, снятые в указанную дату.