
Google использует анализ естественного языка (например, из Google Assistant) для определения значимых событий. Система анализирует поведенческие сигналы (время просмотра, редактирование, шеринг) и контент изображений, сделанных в этот период, чтобы автоматически аннотировать релевантные фотографии. Эти данные критически важны для обучения моделей машинного обучения целостному (holistic) пониманию контекста и тематики изображений, выходя за рамки простого распознавания объектов.
Патент решает проблему ограничений традиционного распознавания объектов (object recognition), которое генерирует общие аннотации, лишенные персонального контекста (например, «торт» вместо «Третий день рождения Делии»). Изобретение направлено на автоматическое обогащение изображений контекстуальными аннотациями путем анализа сигналов, генерируемых пользователем (естественный язык и поведение), для улучшения организации и поиска в больших массивах цифровых изображений.
Запатентована система автоматического аннотирования цифровых изображений на основе идентификации значимых для пользователя событий. Система анализирует ввод на естественном языке (natural language input), часто направленный Автоматизированному Ассистенту (Automated Assistant), чтобы определить событие, дату и описательные токены. Затем она анализирует изображения, сделанные в эту дату, используя поведенческие сигналы (взаимодействие пользователя с изображением) и/или распознавание контента. Ключевым аспектом является использование этих аннотированных изображений как обучающих данных (training data) для machine learning models.
Система работает в несколько этапов:
natural language input (например, «Вчера Делия сделала первые шаги») для извлечения события, даты и токенов (tokens).record of user-controlled computing interactions). Изображения, которые дольше просматривали, редактировали или которыми делились, считаются более значимыми.image recognition processing для поиска связанных объектов, с возможным смещением (biasing) в сторону токенов события.Высокая. Понимание контекста изображений и использование ИИ являются ключевыми направлениями развития Google. Хотя патент фокусируется на персональных данных (Google Photos/Assistant), описанный механизм генерации обучающих данных для machine learning models имеет прямое отношение к улучшению технологий (таких как convolutional neural networks), используемых в публичном поиске изображений (Google Image Search).
Патент имеет важное стратегическое значение для SEO (7.5/10). Он не описывает алгоритм ранжирования веб-поиска, но раскрывает, как Google обучает свои модели пониманию изображений. Он демонстрирует переход от простого распознавания объектов к пониманию целостного контекста (holistic context) и подтверждает использование сигналов вовлеченности (engagement signals) для оценки значимости контента. Это критически важно для стратегии Image SEO.
natural language input.amount of time displayed), мера манипуляции (measure of image manipulation – редактирование) и мера обмена (measure of sharing).natural language input, которые описывают событие и используются для аннотирования.Claim 1 (Независимый пункт): Описывает метод классификации изображений, основанный на поведенческом сигнале (манипуляция изображением).
natural language input, направленный automated assistant.degree of image manipulation), примененную к каждому изображению через приложения для редактирования, относительно других изображений из набора.Claim 3 и Claim 9 (Зависимые): Расширяют набор поведенческих сигналов.
measure of sharing (меру обмена).amount of time displayed (времени отображения) на графических интерфейсах.Это подтверждает использование сигналов вовлеченности (редактирование, обмен, просмотр) как метода классификации значимости контента.
Claim 8 (Зависимый): Добавляет анализ контента к основному методу.
image recognition processing.biasing) в сторону распознавания токенов или связанных объектов.Claim 7 (Зависимый): Описывает конвейер обучения ML.
machine learning classifier.error).Изобретение применяется в основном на этапах индексирования и в конвейере обучения ML, влияя на то, как Google понимает изображения.
INDEXING – Индексирование и извлечение признаков
Основной этап применения в контексте персональных данных (например, Google Photos). Система обрабатывает изображения и связанные с ними данные.
Image Recognition Processing. Собираются и анализируются поведенческие данные (User-Controlled Computing Interactions).Natural Language Input (например, из истории Assistant) для определения событий и токенов.Стратегический слой: Конвейер обучения ML (ML Training Pipeline)
Наиболее значимое применение для SEO. Система генерирует высококачественные training data (изображения с контекстными метками). Эти данные используются для обучения моделей, которые впоследствии применяются на этапах Индексирования и Ранжирования публичного поиска (Google Images) для лучшего целостного понимания изображений.
RANKING – Ранжирование (Image Search)
Модели, обученные с помощью этого метода, используются для оценки релевантности и контекста изображений в публичном поиске.
Входные данные:
Natural Language Input).Выходные данные:
Machine Learning Models.holistically — на основе общего сходства сцены, а не только отдельных объектов.Natural Language Input (например, через Assistant, социальные сети), из которого можно определить значимое событие и дату (в прошлом, настоящем или будущем).Этап 1: Получение и анализ ввода
natural language input от пользователя.Этап 2: Идентификация изображений-кандидатов
Этап 3: Анализ и классификация изображений (Выполняется одним или несколькими способами)
Вариант А: Анализ поведенческих сигналов
User-Controlled Computing Interactions).Вариант Б: Анализ контента изображения
Image Recognition Processing.Knowledge Graph. Использование embeddings для оценки семантического сходства.Вариант В: Комбинированный подход
aggregate measure of confidence) на основе сигналов из Вариантов А и Б.threshold), изображение классифицируется.Этап 4: Аннотирование и хранение
Этап 5: Обучение моделей (ML Training)
Machine Learning Classifier на основе ошибки между выходом модели и метками для улучшения его способности к целостной классификации.Система использует комбинацию поведенческих, контентных и текстовых данных.
Amount of time displayed), включая кумулятивное время на разных устройствах и у разных пользователей.Image manipulation) — фильтры, обрезка, зум.Measure of sharing), включая количество отправок исходным пользователем и распространение среди других пользователей.Image Recognition Processing (включая распознавание объектов и лиц).embeddings объектов на изображении и embeddings концепций, связанных с событием (например, с использованием Евклидова расстояния или косинусного сходства).embeddings и Knowledge Graph для установления семантической связи между визуальными элементами (включая объекты и лица) и текстовыми концепциями.Патент подтверждает стратегический переход Google от анализа отдельных объектов к пониманию сложных сцен и контекстов (Holistic Understanding). Для долгосрочной SEO-стратегии это означает, что инвестиции в создание уникального визуального контента, который точно отражает тематику сайта и вызывает вовлеченность пользователей, будут окупаться. Способность Google понимать изображения целостно снижает эффективность простых манипуляций и повышает требования к качеству и контекстуальной релевантности.
Сценарий: Оптимизация изображений для статьи «Как собрать игровой компьютер» (Принцип целостного понимания и контекстуального смещения)
Сценарий: Улучшение вовлеченности для E-commerce (Принцип сигналов значимости)
time displayed и manipulation), потенциально улучшая ранжирование.Описывает ли этот патент работу публичного Google Image Search или только персональных библиотек (Google Photos)?
Патент в первую очередь описывает механизм для аннотирования персональных фотографий. Однако он явно указывает (Claim 7), что эти аннотированные изображения используются для обучения общих моделей машинного обучения (machine learning classifiers). Эти обученные модели затем применяются для классификации других изображений, что означает, что технологии, улучшенные за счет этих данных, используются и в публичном поиске.
Что означает «целостная» (holistic) классификация изображений?
Целостная классификация означает, что система оценивает изображение не только по наличию отдельных объектов, но и по общему контексту или событию. Модель распознает тему на основе общего визуального сходства с другими изображениями той же тематики. Например, фото может быть распознано как «выпускной», даже если ключевые объекты (мантии) отсутствуют, но общая сцена похожа на другие фото выпускных.
Как поведенческие сигналы (просмотры, редактирование) влияют на классификацию?
Патент описывает их как ключевые индикаторы значимости изображения для пользователя. Если пользователь долго просматривал, редактировал или делился определенными фотографиями, снятыми в день значимого события, система классифицирует их как связанные с этим событием. Это основано на предположении, что пользователи уделяют больше внимания важному контенту.
Подтверждает ли это, что Google использует поведенческие факторы (например, CTR, время на сайте) в ранжировании веб-поиска?
Патент подтверждает, что Google технологически способен измерять и использовать детальные поведенческие сигналы (время просмотра, взаимодействие) для оценки значимости контента в закрытых экосистемах. Это усиливает понимание того, что вовлеченность пользователя (Engagement) является критически важным показателем качества для Google в целом, и логично предположить, что аналогичные метрики используются в веб-поиске.
Что такое «смещение» (biasing) распознавания изображений и как это влияет на SEO?
Смещение означает, что система активнее ищет определенные объекты, основываясь на внешнем контексте (например, тексте). Если текст задает тему, система будет искать визуальное подтверждение этой темы в изображении. Для SEO это критически важно: текст на странице должен точно соответствовать изображению, чтобы помочь системе правильно интерпретировать визуальный контент.
Как этот патент влияет на использование стоковых фотографий?
Патент косвенно снижает ценность общих стоковых фотографий. Поскольку система стремится к целостному пониманию контекста и ищет сигналы значимости, уникальные и контекстуально релевантные изображения будут иметь преимущество. Стоковые фото часто лишены уникального контекста и могут не соответствовать визуальным паттернам конкретной темы.
Что важнее для классификации согласно патенту: контент изображения или поведение пользователя?
Патент описывает оба подхода как валидные. Независимый пункт 1 фокусируется на поведении пользователя (манипуляции). Однако описание и другие пункты подчеркивают важность комбинированного подхода, где оба типа сигналов используются для расчета совокупной меры уверенности (aggregate measure of confidence).
Использует ли система распознавание лиц для аннотирования?
Да, в описании патента упоминается, что технологии могут использоваться для автоматического распознавания и тегирования людей. Если пользователь говорит: "Редмонд сделал свои первые шаги", система может проанализировать фото за этот день, идентифицировать повторяющееся лицо ребенка (даже если оно ранее было анонимным кластером) и присвоить ему идентификатор "Редмонд".
Как система использует Embeddings и Knowledge Graph в этом процессе?
Knowledge Graph помогает понять, какие объекты связаны с событием (например, торт связан с днем рождения). Embeddings используются для измерения семантического сходства. Система измеряет расстояние между векторным представлением объекта на фото и векторным представлением концепции события, чтобы определить релевантность.
Как обеспечить, чтобы мои изображения правильно классифицировались целостным образом?
Изображение должно визуально соответствовать общепринятым паттернам для вашей темы. Изучите, какие изображения уже ранжируются в Google Images по целевым запросам, и создавайте уникальный контент, который соответствует этому визуальному и тематическому кластеру. Обеспечьте также полное соответствие окружающего текста контексту изображения.

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Персонализация
Мультимедиа

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Мультимедиа
Персонализация

Индексация
Поведенческие сигналы
Семантика и интент

Local SEO
SERP
Ссылки

Local SEO
Ссылки
SERP

Техническое SEO
Поведенческие сигналы
SERP

SERP
Поведенческие сигналы
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
Поведенческие сигналы
Мультимедиа

Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Knowledge Graph
Поведенческие сигналы
Персонализация
