Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует анализ фотографий из соцсетей для выявления трендов в реальном времени и улучшения понимания запросов

    ADJUSTING CONTENT DELIVERY BASED ON USER SUBMISSIONS OF PHOTOGRAPHS (Корректировка доставки контента на основе пользовательских фотографий)
    • US8990194B2
    • Google LLC
    • 2015-03-24
    • 2012-11-02
    2012 Мультимедиа Патенты Google Свежесть контента Семантика и интент

    Google анализирует фотографии, загружаемые пользователями (например, в социальные сети), для выявления трендовых событий в реальном времени. Система распознает объекты на фото, определяет тематику и местоположение, а затем ищет кластеры похожих фотографий. Обнаружение значительного кластера сигнализирует о важном событии и используется для корректировки доставки контента (новости, тренды) и лучшего понимания актуальных поисковых запросов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему выявления важных, новостных или трендовых событий среди огромного объема пользовательского контента (UGC), генерируемого в сетях (например, социальных сетях). Большая часть UGC тривиальна и интересна лишь узкому кругу лиц. Изобретение предлагает метод фильтрации этого шума для идентификации событий, представляющих интерес для широкой аудитории, используя фотографии как более сильный индикатор интереса по сравнению с текстом.

    Что запатентовано

    Запатентована система для анализа пользовательских публикаций (user submissions), содержащих фотографии или видео. Суть изобретения заключается в кластеризации этих публикаций на основе времени, географического положения и тематики (определяемой через распознавание объектов на фото) для выявления трендов в реальном времени. Эти данные затем используются для корректировки доставки контента (adjusting delivery of content) участникам сети.

    Как это работает

    Система работает следующим образом:

    • Анализ публикаций: Система анализирует входящие пользовательские публикации, содержащие фотографии.
    • Извлечение данных: Для каждой публикации определяются время, объекты на фотографии (с помощью методов распознавания изображений), тематика (на основе объектов) и географическое положение (с помощью геотегов, IP или распознавания ориентиров).
    • Кластеризация: Публикации группируются в кластеры (clusters) на основе сходства по времени, тематике и местоположению.
    • Оценка значимости: Система определяет, превышает ли объем или скорость поступления публикаций в кластере пороговое значение (Cluster Threshold Value).
    • Корректировка контента: При обнаружении значимого кластера система корректирует доставку контента — например, увеличивает объем новостей по этой теме, выделяет ее как трендовую или использует эти данные для лучшего семантического понимания поисковых запросов.

    Актуальность для SEO

    Высокая. Анализ пользовательского контента, особенно визуального, для выявления трендов и новостных событий является критически важным для таких сервисов, как Google News, Discover и механизмов QDF (Query Deserves Freshness). Технологии распознавания объектов значительно продвинулись, что делает описанные механизмы крайне актуальными для понимания текущей информационной повестки.

    Важность для SEO

    Патент имеет значительное влияние на SEO (7.5/10). Он не описывает алгоритмы ранжирования основного веб-поиска, но раскрывает критически важные механизмы того, как Google может идентифицировать тренды и новостные события в реальном времени (QDF). Это напрямую влияет на видимость в Google News и Discover. Кроме того, патент детально описывает методы связывания визуальных объектов с текстовыми тематиками через анализ поисковых запросов, что имеет прямое отношение к Image SEO и семантическому пониманию контента.

    Детальный разбор

    Термины и определения

    Cluster (Кластер)
    Группа пользовательских публикаций, схожих между собой по одному или нескольким параметрам: времени публикации, тематике или географическому положению.
    Cluster Threshold Value (Пороговое значение кластера)
    Пороговый показатель объема или скорости поступления публикаций, который должен быть превышен, чтобы группа считалась значимым кластером. Это значение может варьироваться в зависимости от тематики.
    Geographic Location (Географическое положение)
    Местоположение, связанное с тематикой публикации. Определяется на основе геотегов, IP-адреса пользователя или распознавания объектов (ориентиров) на фотографии.
    Object (Объект)
    Видимый элемент, запечатленный на фотографии (человек, здание, транспортное средство и т.д.), идентифицируемый системой распознавания изображений.
    Reference Image (Эталонное изображение)
    Изображение или характеристики объекта с известной тематикой, с которым сравнивается фотография из пользовательской публикации для идентификации объектов.
    Subject Matter (Тематика)
    Основная тема или содержание пользовательской публикации, определяемая на основе идентифицированных объектов на фотографии.
    User Submission (Пользовательская публикация)
    Контент (фотография, видео, текст или их комбинация), размещенный пользователем в сети (например, в социальной сети).

    Ключевые утверждения (Анализ Claims)

    Claim 1 и Claim 2 (Независимые пункты): Описывают основной процесс анализа и корректировки контента.

    1. Система анализирует пользовательские публикации в сети (Claim 1 уточняет: в онлайн социальной сети), содержащие фотографию.
    2. Для каждой публикации система выполняет:
      • Идентификацию времени публикации.
      • Идентификацию объектов на фотографии.
      • Определение тематики (Subject Matter) на основе идентифицированных объектов.
      • Определение географического положения (Geographic Location), связанного с тематикой.
    3. Система определяет кластеры (Clusters) публикаций. Публикации в одном кластере схожи по времени, тематике и географическому положению.
    4. Система корректирует доставку контента (Adjusting delivery of content) участникам сети на основе одного или нескольких определенных кластеров.

    Claim 4 (Зависимый): Детализирует критически важный метод определения тематики публикации на основе объектов.

    1. Идентифицируются поисковые запросы, по которым были выбраны (кликнуты) результаты поиска, ссылающиеся на эти объекты (или похожие эталонные изображения).
    2. Один или несколько терминов из этих поисковых запросов идентифицируются как тематика пользовательской публикации.

    Система связывает визуальный объект с текстовой тематикой, анализируя, по каким запросам пользователи ранее искали и находили этот объект. Это ключевой механизм для семантического понимания изображений.

    Claim 5 (Зависимый): Детализирует механизм корректировки доставки контента.

    1. Идентифицируются кластеры, количество публикаций в которых превышает соответствующее пороговое значение (Cluster Threshold Value).
    2. Корректировка заключается в увеличении объема доставки (delivery volume) контента в сеть, тематика которого схожа с тематикой публикаций в этих значимых кластерах.

    Claims 6 и 7 (Зависимые): Уточняют, что Cluster Threshold Value может быть динамическим, основываясь на тематике (Claim 6) или на объеме публикаций и периоде времени, т.е. интенсивности (Claim 7).

    Claim 9 (Зависимый): Детализирует метод определения географического положения на основе географической информации для одного или нескольких объектов (например, распознавание ориентиров на фото).

    Где и как применяется

    Изобретение применяется на нескольких этапах обработки данных, связанных с анализом пользовательского контента и корректировкой выдачи в реальном времени.

    CRAWLING/INDEXING – Сбор данных и Индексирование
    Система требует наличия базы данных эталонных изображений (Reference Images) и индекса веб-ресурсов (Indexed Cache). Основной сбор данных происходит через получение потока пользовательских публикаций (User Submissions) из сети.

    QUNDERSTANDING – Понимание Запросов
    Патент явно указывает, что результаты анализа кластеров могут использоваться для обеспечения лучшего семантического понимания поисковых запросов. Если система знает о текущем событии (например, пожаре в Сан-Франциско, выявленном через кластеры фотографий), она может лучше интерпретировать неоднозначные запросы, связанные с этим событием.

    RANKING/RERANKING – Ранжирование (Доставка контента)
    Основное применение патента. Система использует обнаруженные кластеры для корректировки доставки контента (Adjusting delivery of content). Это может означать переранжирование новостной ленты, выделение трендовых тем или увеличение объема (delivery volume) контента, связанного с обнаруженным событием (например, в Google News, Discover).

    Входные данные:

    • Поток пользовательских публикаций (фотографии, видео).
    • Временные метки и метаданные (EXIF).
    • Геолокационные данные (геотеги, IP-адреса).
    • База данных эталонных изображений.
    • Логи поисковых запросов и кликов.

    Выходные данные:

    • Сигналы о трендовых темах или важных событиях (Кластеры).
    • Скорректированная доставка контента (например, новостные заголовки).
    • Сигналы для улучшения семантического контекста поисковых запросов.

    На что влияет

    • Специфические запросы и тематики: Наибольшее влияние на запросы, связанные с текущими событиями, трендами и новостями (QDF). Влияет на выявление как внезапных событий (чрезвычайные ситуации), так и постепенных (сезонные явления).
    • Конкретные типы контента: Влияет на ранжирование и отображение свежего контента, новостей, а также контента в лентах рекомендаций (Discover).
    • Географические факторы: Система способна выявлять локализованные события благодаря анализу географического положения публикаций.

    Когда применяется

    • Условия работы: Алгоритм работает в режиме реального времени или близком к нему, постоянно анализируя входящий поток пользовательских публикаций.
    • Триггеры активации: Корректировка контента активируется, когда кластер публикаций превышает пороговое значение (Cluster Threshold Value).
    • Временные рамки и пороги: Пороговые значения динамические. Для внезапных событий используются короткие временные окна и высокие пороги интенсивности, для постепенных — более длинные окна и низкие пороги.

    Пошаговый алгоритм

    1. Сбор данных: Получение потока пользовательских публикаций, содержащих фотографии, из сети.
    2. Анализ времени: Идентификация времени публикации (по метке времени сервера или данным EXIF фотографии).
    3. Распознавание объектов: Использование методов обработки изображений (например, SIFT, edge detection, pixel matching) для идентификации объектов на фотографии путем сравнения с эталонными изображениями (Reference Images).
    4. Определение тематики (Subject Matter): Определение тематики на основе распознанных объектов. Ключевой метод:
      • Анализ поисковых запросов, по которым пользователи переходили на эталонное изображение (Claim 4). Термины из этих запросов присваиваются как тематика.
      • Дополнительно: извлечение ключевых слов из метаданных эталонного изображения или анализ текста самой публикации.
    5. Определение местоположения (Geographic Location): Определение местоположения с использованием геотега публикации, EXIF данных, IP-адреса пользователя или распознавания ориентиров на фото (Claim 9).
    6. Кластеризация: Группировка публикаций в кластеры на основе сходства по времени, тематике и местоположению (используя методы вроде k-means или density-based clustering).
    7. Оценка порогов: Сравнение объема или интенсивности публикаций в кластере с Cluster Threshold Value. Порог динамический и зависит от тематики.
    8. Корректировка доставки контента: Если порог превышен, система увеличивает объем доставки релевантного контента (новости, тренды).
    9. Обратная связь с поиском: Предоставление данных о выявленных кластерах поисковой системе для улучшения семантического контекста при обработке запросов.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Фотографии и видео из пользовательских публикаций. Являются основным источником данных для анализа.
    • Временные факторы: Метки времени публикации, данные EXIF о времени съемки. Используются для кластеризации и определения интенсивности.
    • Географические факторы: Геотеги публикаций, данные EXIF о месте съемки, IP-адреса устройств пользователей, распознанные географические ориентиры (Landmarks) на фото.
    • Поведенческие факторы: Логи поисковых запросов и логи кликов. Критически важны для определения тематики объектов путем анализа того, как пользователи искали эти объекты ранее (Claim 4).
    • Контентные факторы: Текстовый контент публикаций (если есть) может использоваться дополнительно для определения тематики.

    Какие метрики используются и как они считаются

    • Метрики схожести изображений (Similarity Threshold Value): Используются при распознавании объектов для сравнения с эталонными изображениями (например, процент совпадения пикселей, косинусное сходство векторов признаков).
    • Частота терминов: Используется при определении тематики для выбора наиболее релевантных ключевых слов из связанных поисковых запросов.
    • Метрики кластеризации: Используются алгоритмы кластеризации для группировки публикаций по времени, тематике и локации.
    • Cluster Threshold Value (Пороговое значение кластера): Ключевая метрика для определения значимости события. Основана на объеме публикаций или интенсивности (объем за период времени). Патент подчеркивает, что этот порог динамический и зависит от тематики.
    • Метрики отклонения от нормы: Упоминается возможность использования статистического анализа для выявления «необычных» (unusual) событий, которые отклоняются от базового уровня для данной категории (например, пожарная машина на мосту, а не у станции).

    Выводы

    1. Фотографии как сильный сигнал интереса: Google рассматривает пользовательские фотографии как более сильный индикатор интереса к событию, чем текстовые публикации, поскольку они требуют больших усилий от пользователя.
    2. Выявление трендов в реальном времени (QDF): Патент описывает конкретный механизм для обнаружения локализованных и глобальных трендовых событий путем анализа кластеров визуального UGC. Это напрямую связано с механизмами QDF (Query Deserves Freshness).
    3. Связывание объектов и тематик (Object-to-Text Mapping): Раскрыт критически важный механизм того, как Google определяет тематику визуального объекта: анализируя поисковые запросы, по которым пользователи ранее кликали на результаты, содержащие этот объект (Claim 4). Это фундаментальный принцип для понимания работы Image Search.
    4. Динамическая оценка значимости событий: Система использует динамические пороги (Cluster Threshold Value) для оценки значимости кластеров. Пороги адаптируются в зависимости от типа события (внезапное или постепенное), что позволяет эффективно выявлять разные типы трендов.
    5. Интеграция данных UGC и Поиска: Выявленные тренды используются не только для корректировки новостных лент, но и для улучшения семантического понимания запросов в основной поисковой системе, например, для разрешения неоднозначности.

    Практика

    Best practices (это мы делаем)

    • Стратегия Real-Time контента (News SEO и QDF): Для новостных сайтов и сайтов, освещающих события, критически важна скорость реакции. Google обладает механизмами для мгновенного выявления трендов из визуальных источников. Необходимо оперативно создавать качественный контент по возникающим инфоповодам, чтобы конкурировать в свежей выдаче (News, Discover).
    • Оптимизация визуального контента под распознавание: Используйте четкие, высококачественные изображения, на которых легко идентифицировать ключевые объекты, связанные с событием или тематикой. Патент подтверждает, что распознавание объектов (Object Identification) является первым шагом к пониманию тематики.
    • Усиление связи «Объект-Запрос» (Image SEO): Оптимизируйте контекст вокруг изображений (текст на странице, заголовки, alt-атрибуты, подписи). Так как Google использует анализ поисковых запросов для определения тематики объекта (Claim 4), работа над Image SEO помогает усилить эту связь и улучшить релевантность ваших изображений.
    • Локализация контента о событиях: При освещении событий четко указывайте местоположение. Система активно использует Geographic Location для кластеризации и выявления локальных трендов.

    Worst practices (это делать не надо)

    • Использование нерелевантных или кликбейтных изображений: Попытки привлечь трафик с помощью изображений, объекты на которых не соответствуют основной тематике контента, будут неэффективны, так как система определяет Subject Matter именно на основе объектов.
    • Игнорирование трендов и свежести: Полагаться исключительно на вечнозеленый контент в динамичных нишах рискованно. Системы выявления трендов будут продвигать более свежий и актуальный контент.
    • Использование только общих стоковых фотографий для новостей: Использование слишком общих стоковых изображений может затруднить привязку контента к конкретным событиям или специфическим объектам интереса пользователей, снижая эффективность в QDF сценариях.

    Стратегическое значение

    Патент подтверждает стратегическую важность интеграции различных источников данных (UGC, логи поиска, индекс изображений) для понимания текущей картины мира и интересов пользователей в реальном времени. Для SEO это подчеркивает смещение фокуса в сторону анализа интента и трендов, а не только статических ключевых слов. Также патент демонстрирует глубокую проработку механизмов понимания визуального контента и его связи с текстовыми запросами, что делает Image SEO неотъемлемой частью общей стратегии продвижения.

    Практические примеры

    Сценарий: Оптимизация новостной статьи о локальном событии

    1. Событие: В городе открылся новый парк (локальный тренд).
    2. Анализ Google: Google обнаруживает кластер фотографий пользователей из этой локации с объектами, которые он ассоциирует с тематикой «парк» (скамейки, детская площадка). Cluster Threshold Value превышен. Google начинает активнее доставлять контент по этой теме.
    3. Действия SEO-специалиста новостного сайта:
      • Скорость: Максимально быстро опубликовать статью.
      • Визуальный контент: Добавить в статью уникальные, четкие фотографии ключевых объектов нового парка. Не использовать стоковые фото парков.
      • Image SEO: Оптимизировать alt-атрибуты и подписи, например: «Детская площадка в новом парке [Название] в [Город]». Это поможет системе связать объекты на фото с конкретным событием и локацией (усиление связи Объект-Запрос).
      • Текстовая оптимизация: Использовать в заголовке и тексте точное название и местоположение, чтобы соответствовать выявленному тренду.
    4. Ожидаемый результат: Статья имеет высокие шансы попасть в Google News и Discover для пользователей в этом регионе, так как она соответствует контенту, доставку которого Google увеличил на основе анализа UGC.

    Вопросы и ответы

    Как Google определяет тематику фотографии, если на ней изображен совершенно новый объект?

    Если объект не может быть сопоставлен с эталонным изображением (Reference Image), система может полагаться на другие сигналы, упомянутые в патенте. К ним относятся анализ текстового контента, сопровождающего фотографию в публикации, и анализ группы связанных публикаций. Если множество пользователей одновременно публикуют фото этого объекта с похожими текстовыми описаниями, система сможет определить тематику на основе этого общего контекста.

    Какое значение этот патент имеет для Image SEO?

    Он имеет фундаментальное значение, так как раскрывает один из ключевых механизмов связывания визуального контента с текстовыми запросами (Claim 4). Google определяет тематику объекта, анализируя, по каким поисковым запросам пользователи ранее находили и кликали на этот объект. Это подтверждает, что поведение пользователей в поиске по картинкам напрямую влияет на понимание Google тематики изображений.

    Означает ли это, что Google активно сканирует социальные сети?

    Патент описывает анализ «пользовательских публикаций в сети» и прямо упоминает онлайн социальные сети как пример. Это подразумевает, что система получает доступ к потоку этих данных. Независимо от того, сканирует ли Google сторонние соцсети или применяет этот механизм к собственным продуктам (например, YouTube, Google Maps UGC), принцип использования UGC для выявления трендов остается неизменным.

    Как система различает важные события и повседневные фотографии?

    Для этого используется механизм кластеризации и пороговое значение (Cluster Threshold Value). Повседневные фотографии обычно не образуют больших кластеров с высокой интенсивностью публикаций в короткий промежуток времени. Событие считается важным, только если количество схожих публикаций (по времени, месту и теме) превышает установленный порог.

    Что такое динамические пороги (Cluster Threshold Value) и как они работают?

    Патент указывает, что пороги зависят от тематики и ожидаемой продолжительности события. Для внезапных событий (например, землетрясение) ожидается высокая интенсивность публикаций в короткий срок, поэтому порог будет высоким. Для постепенных событий (например, цветение сакуры) интенсивность ниже и растянута во времени, поэтому порог будет ниже. Это позволяет адаптировать чувствительность системы к разным типам трендов.

    Как этот патент связан с QDF (Query Deserves Freshness)?

    Это один из механизмов, который может обеспечивать работу QDF. Алгоритм QDF направлен на повышение свежего контента для актуальных запросов. Описанная система предоставляет Google мощный инструмент для определения того, какие темы являются актуальными прямо сейчас, анализируя активность пользователей в реальном времени через их фотографии.

    Влияет ли этот механизм на ранжирование моего сайта в основном поиске?

    Напрямую на ранжирование по стандартным факторам — нет. Однако патент указывает, что данные о кластерах используются для лучшего семантического понимания поисковых запросов. Если ваш сайт релевантен текущему событию, а Google благодаря этой системе лучше понял связанные с ним запросы (например, разрешил неоднозначность), это может косвенно улучшить ваше ранжирование по этим актуальным запросам.

    Как система определяет местоположение, если геотеги отключены?

    Патент предусматривает несколько альтернативных методов. Во-первых, распознавание объектов может идентифицировать известные ориентиры (например, Эйфелеву башню) и определить местоположение по ним (Claim 9). Во-вторых, система может использовать IP-адрес устройства, с которого была сделана публикация, для определения приблизительного местоположения.

    Что подразумевается под «корректировкой доставки контента»?

    Это означает изменение того, какой контент видят пользователи в сети. На практике это может быть увеличение объема (delivery volume) новостей по теме, отображение темы в блоке «Тренды», отправка push-уведомлений или создание автоматического заголовка, который ссылается на агрегацию фотографий из обнаруженного кластера.

    Может ли система выявлять «необычные» события?

    Да, патент упоминает возможность идентификации кластеров «необычных» (unusual) событий. Это события, которые отклоняются от нормы для данной категории. Например, если обычно фотографии пожарных машин делаются у станции, то кластер фотографий пожарной машины на мосту будет идентифицирован как необычное событие с помощью статистического анализа.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.