Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует краудсорсинг, репутацию пользователей и анализ комментариев для создания и проверки структурированных метаданных медиаконтента

    UPDATEABLE METADATA FOR MEDIA CONTENT (Обновляемые метаданные для медиаконтента)
    • US8543582B1
    • Google LLC
    • 2013-09-24
    • 2011-08-26
    2011 EEAT и качество Knowledge Graph Мультимедиа Патенты Google

    Google использует систему для обогащения пользовательского медиаконтента (например, видео) структурированными метаданными. Система позволяет зрителям предлагать или подтверждать данные (теги в формате ключ-значение), извлекая их также из комментариев. На основе агрегированных ответов и репутации пользователей вычисляется оценка достоверности (Confidence Score), чтобы определить наиболее точную информацию о контенте.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему отсутствия, неточности или неструктурированности метаданных для пользовательского контента (UGC), загружаемого на контент-платформы (например, YouTube). Часто загружаемый медиаконтент (видео, аудио) не содержит информации о ключевых характеристиках (исполнитель, место, дата записи), что затрудняет его поиск, категоризацию и понимание. Существующие неструктурированные данные (описания, комментарии) сложны для машинной обработки.

    Что запатентовано

    Запатентована система для краудсорсинга и валидации структурированных метаданных для медиаконтента. Система ассоциирует контент с набором тегов (пары ключ-значение) и позволяет потребителям контента предлагать значения для этих тегов или предлагать новые теги. Ключевым элементом является механизм оценки достоверности (Confidence Score), который анализирует агрегированный пользовательский ввод для определения наиболее вероятного и точного значения метаданных.

    Как это работает

    Система работает следующим образом:

    • Ассоциация тегов: При загрузке медиаконтент классифицируется, и с ним ассоциируется набор релевантных метаданных-тегов (ключей, например, «Год», «Исполнитель»).
    • Сбор данных: Потребители контента предлагают значения для этих ключей. Ввод может осуществляться через прямой интерфейс метаданных или путем парсинга неструктурированных комментариев (Parsing Component).
    • Агрегация и Взвешивание: Система агрегирует все предложенные значения. Ввод может взвешиваться по-разному: либо демократически (все голоса равны), либо по модели специалиста (голоса экспертов или пользователей с хорошей историей весят больше).
    • Расчет достоверности: Для каждого предложенного значения вычисляется Confidence Score.
    • Отображение: Значение с наивысшим Confidence Score отображается как текущее структурированное метаданное для контента.

    Актуальность для SEO

    Высокая. Патент напрямую связан с управлением огромными объемами пользовательского контента (UGC) на платформах типа YouTube. Точные и структурированные метаданные критически важны для работы рекомендательных систем, поиска внутри платформы и монетизации контента. Механизмы краудсорсинга данных, извлечения фактов из текста (комментариев) и оценки их достоверности остаются актуальными задачами.

    Важность для SEO

    Влияние на SEO значительное (7.5/10), особенно для Video SEO и оптимизации на UGC-платформах. Патент демонстрирует, как Google решает проблему некачественных метаданных для видео, используя пользовательский ввод и анализ комментариев. Для SEO-специалистов это подчеркивает критическую важность предоставления точных, структурированных данных, поскольку это напрямую влияет на то, как поисковая система понимает и классифицирует медиаконтент.

    Детальный разбор

    Термины и определения

    Aggregate Input (Агрегированный ввод)
    Совокупность всех данных, полученных от пользователей (потребителей и источника контента) относительно конкретного тега. Включает предложенные значения, голоса за и против.
    Confidence Score / Confidence Metric (Оценка достоверности / Метрика достоверности)
    Числовое значение, определяющее уверенность системы в точности предложенного значения (Suggested Value) для данного ключа. Рассчитывается на основе анализа Aggregate Input.
    Content Consumer (Потребитель контента)
    Пользователь или устройство, которое получает доступ (просматривает, прослушивает) к медиаконтенту.
    Content Source (Источник контента)
    Пользователь или устройство, загружающее медиаконтент на сервер.
    Democratic Model (Демократическая модель)
    Модель расчета Confidence Score, при которой ввод от всех пользователей имеет одинаковый вес (equal weighting).
    Key-Value Pair (Пара ключ-значение)
    Формат структурированных метаданных (тега). Состоит из Key (Ключ, например, «Год:») и Value (Значение, например, «1997»).
    Parsing Component (Компонент парсинга)
    Компонент системы, который анализирует неструктурированный текст (например, комментарии) для извлечения потенциальных метаданных (пар ключ-значение).
    Specialist Model (Модель специалиста)
    Модель расчета Confidence Score, при которой ввод от разных пользователей имеет разный вес (unequal weighting), например, на основе экспертизы или истории пользователя.
    Tag (Тег)
    Единица структурированных метаданных, описывающая медиаконтент. Обычно реализуется как Key-Value Pair.
    Updateable Suggested Value (Обновляемое предложенное значение)
    Значение (Value) в паре ключ-значение, которое может быть изменено на основе пользовательского ввода и пересчета Confidence Score.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основную систему ассоциации метаданных.

    1. Система получает и сохраняет медиаконтент от источника.
    2. Tagging component выбирает набор тегов (структурированных метаданных) для этого контента.
    3. Тег реализуется как пара ключ-значение, где значение является Updateable Suggested Value.
    4. Population component обновляет это значение на основе двух факторов: ввода, полученного от потребителя контента, И Confidence Metric, связанной с этим вводом.

    Ядро изобретения — обновление структурированных метаданных не просто по факту ввода, а с обязательным учетом метрики достоверности этого ввода.

    Claim 6 (Зависимый от 1): Вводит Ranking component, который определяет Confidence Metric на основе анализа Aggregate Input от множества потребителей контента.

    Claims 7 и 8 (Зависимые от 6): Уточняют методы расчета Confidence Metric. Он может быть основан на равном взвешивании (Claim 7, Democratic Model) или неравном взвешивании (Claim 8, Specialist Model) пользовательского ввода.

    Claims 9, 10, 11 (Зависимые): Детализируют механизмы взвешивания голосов (vote weight) в модели специалиста:

    • Вес может быть увеличен на основе истории подтвержденных вводов пользователя (history of validated input) (Claim 9).
    • Вес может быть уменьшен на основе истории оспариваемых вводов пользователя (history of disputed input) (Claim 10).
    • Вес может быть увеличен на основе релевантной экспертизы пользователя (relevant expertise) (Claim 11).

    Claim 12 (Независимый пункт): Описывает систему с точки зрения интерфейса и валидации.

    1. Interface component представляет тег (ключ-значение).
    2. Receiving component получает предложенное значение от потребителя.
    3. Vetting component определяет Confidence Score для этого значения.
    4. Система способствует представлению первого предложенного значения, которое ассоциировано с наивысшим Confidence Score.

    Claim 15 (Зависимый от 14): Вводит Parsing component, который извлекает предложенное значение из списка комментариев (listing of comments), связанных с медиаконтентом.

    Где и как применяется

    Этот патент описывает инфраструктурный механизм для создания и управления данными на UGC-платформах (например, YouTube), который влияет на этапы индексирования и ранжирования контента на этой платформе.

    CRAWLING – Сканирование и Сбор данных (Data Acquisition)
    Система не сканирует внешний интернет, а собирает данные от пользователей платформы (краудсорсинг). Это основной механизм сбора структурированных метаданных для UGC.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит основная работа системы. Полученный пользовательский ввод (Aggregate Input) обрабатывается, вычисляются Confidence Scores, и выбираются наиболее достоверные значения. Parsing Component извлекает данные из комментариев. Эти структурированные метаданные (Tags) сохраняются в индексе и ассоциируются с медиаконтентом. Это обогащает представление контента в базе данных.

    RANKING – Ранжирование
    Сгенерированные и валидированные структурированные метаданные используются как признаки ранжирования. Контент с точными и полными метаданными может ранжироваться выше по соответствующим запросам (как внутри платформы, так и потенциально в веб-поиске).

    Входные данные:

    • Медиаконтент (видео, аудио).
    • Классификация контента.
    • Пользовательский ввод: прямые предложения значений/тегов, голоса за/против существующих значений.
    • Неструктурированные данные: комментарии пользователей.
    • Данные о пользователях: история ввода, предполагаемая экспертиза.

    Выходные данные:

    • Набор структурированных метаданных (Key-Value Pairs) для медиаконтента.
    • Confidence Scores для различных предложенных значений.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на пользовательский контент (UGC) – видео, аудиозаписи, изображения на хостинговых платформах. Особенно актуально для контента, где важны детали: записи концертов, исторические кадры, обучающие материалы.
    • Специфические запросы: Улучшает видимость контента по запросам, связанным с конкретными атрибутами (например, поиск видео по исполнителю, дате или месту события).

    Когда применяется

    • Триггеры активации: Система активируется при загрузке нового контента (для ассоциации начальных тегов) и каждый раз, когда пользователь взаимодействует с метаданными или оставляет комментарий, содержащий потенциальные метаданные.
    • Частота применения: Расчет и обновление Confidence Scores происходит непрерывно или периодически по мере накопления нового Aggregate Input.

    Пошаговый алгоритм

    Процесс А: Инициализация контента

    1. Получение и хранение: Медиаконтент загружается источником и сохраняется на сервере.
    2. Классификация: Контент анализируется для определения его типа (например, «классическая музыка», «обучающее видео»).
    3. Ассоциация тегов: На основе классификации с контентом ассоциируется набор релевантных тегов (ключей). Значения могут быть пустыми или заполнены источником контента.

    Процесс Б: Сбор и обработка ввода

    1. Отображение: Контент и текущие метаданные (значения с наивысшим Confidence Score) представляются потребителю. Могут также отображаться альтернативные значения с более низкими оценками.
    2. Получение ввода: Система получает ввод от потребителя. Это может быть предложение нового значения, голос за/против существующего или предложение нового тега (ключа).
    3. Парсинг (Опционально): Если ввод осуществляется через комментарии, Parsing Component анализирует текст и извлекает потенциальные пары ключ-значение.
    4. Агрегация: Новый ввод добавляется в Aggregate Input для соответствующего тега.
    5. Взвешивание ввода: Система определяет вес (vote weight) текущего пользователя.
      • Демократическая модель: Вес стандартный.
      • Модель специалиста: Вес корректируется на основе истории пользователя (history of validated/disputed input) или его экспертизы (expertise).
    6. Пересчет достоверности: Ranking/Vetting Component пересчитывает Confidence Scores для всех предложенных значений данного тега с учетом нового взвешенного ввода.
    7. Обновление метаданных: Значение, набравшее наивысший Confidence Score, устанавливается как текущее Updateable Suggested Value.
    8. Обновление интерфейса: Интерфейс пользователя обновляется для отображения нового значения.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Медиа): Сам медиаконтент используется для определения его классификации, что влияет на выбор начального набора тегов.
    • Пользовательские факторы (UGC):
      • Прямой ввод: Предложения значений и тегов, голоса (ассент/диспут).
      • Комментарии: Неструктурированный текст (listing of comments), который парсится для извлечения метаданных.
    • Поведенческие/Профильные факторы (User History):
      • History of validated input: История подтвержденных (точных) вводов пользователя.
      • History of disputed input: История оспариваемых (неточных) вводов пользователя.
      • Expertise: Определенная экспертиза пользователя в релевантной области.
    • Технические факторы (Implicit): В патенте упоминается возможность использования данных с устройства источника контента (например, GPS для определения местоположения или временные метки), которые могут получать высокий Confidence Score.

    Какие метрики используются и как они считаются

    • Confidence Score / Confidence Metric: Основная метрика достоверности значения. Рассчитывается путем анализа Aggregate Input. Формула не приводится, но описаны два подхода к расчету:
    • Democratic Model: Суммирование голосов с равным весом.
    • Specialist Model: Суммирование голосов с неравным весом.
    • Vote Weight (Вес голоса): Метрика, присваиваемая вводу конкретного пользователя. Может быть стандартной или модифицированной на основе истории и экспертизы пользователя.

    Выводы

    1. Структурированные данные критичны для UGC: Google признает проблему отсутствия качественных метаданных в пользовательском контенте и предлагает масштабируемое решение для их генерации. Это подтверждает важность структурированных данных для понимания и ранжирования медиаконтента.
    2. Краудсорсинг как механизм валидации: Система полагается на «мудрость толпы» для определения точности информации, что позволяет обрабатывать контент в масштабах, недоступных для ручной модерации.
    3. Важность авторитетности источника ввода (Trust): Наличие «Модели специалиста» (Specialist Model) указывает на то, что Google не просто считает голоса, но и оценивает авторитетность и историю пользователей, предоставляющих данные. Это механизм защиты от спама и неточного ввода.
    4. Извлечение данных из неструктурированного текста: Включение Parsing Component для анализа комментариев демонстрирует способность Google извлекать структурированные данные (ключ-значение) из обычного пользовательского текста (UGC).
    5. Приоритет достоверности: Система всегда стремится отображать значение с наивысшим Confidence Score, ставя достоверность данных во главу угла.

    Практика

    Best practices (это мы делаем)

    Для SEO-специалистов, управляющих UGC-платформами:

    • Внедрение структурированных тегов: Если на сайте есть UGC (обзоры, видео, комментарии), необходимо внедрять системы структурированного тегирования и классификации контента. Не полагайтесь только на свободный текст.
    • Стимулирование валидации данных: Поощряйте пользователей подтверждать или оспаривать информацию, предоставленную другими. Это повышает общее качество данных на платформе.
    • Разработка системы репутации: Внедряйте механизмы оценки авторитетности пользователей (аналог Specialist Model). Доверяйте больше тем, кто постоянно предоставляет качественный контент или точную информацию.

    Для Video SEO и контент-стратегии (например, на YouTube):

    • Предоставление точных метаданных при загрузке: При загрузке контента максимально точно заполняйте все доступные поля метаданных. Патент предполагает, что ввод от источника контента (Content Source) может иметь больший вес по умолчанию.
    • Использование четких пар ключ-значение в описаниях и комментариях: Поскольку система может парсить комментарии (Parsing Component), использование формата «Ключ: Значение» (например, «Исполнитель: Jörg Baumann») в описаниях или закрепленных комментариях может помочь системе быстрее структурировать данные о вашем контенте.
    • Стимулирование содержательных комментариев: Поощряйте зрителей оставлять фактическую информацию о контенте в комментариях. Качественные комментарии могут служить источником данных для системы.
    • Акцент на E-E-A-T для авторов: Развивайте экспертизу авторов контента. Система может учитывать экспертизу (Expertise) пользователя при оценке достоверности введенных им данных.

    Worst practices (это делать не надо)

    • Игнорирование метаданных: Загрузка контента без метаданных или с минимальным описанием. Это заставляет систему полагаться на краудсорсинг, что может привести к неточностям и снижает discoverability.
    • Манипуляции и спам метаданными: Попытки массово вводить ложные метаданные через комментарии или ботов. Механизмы Confidence Score и взвешивания на основе истории пользователя (History of disputed input) направлены на борьбу с такими манипуляциями и могут привести к снижению веса голоса (Vote Weight) аккаунта.
    • Нечеткие формулировки в UGC: Полагаться на то, что система сама поймет сложные или двусмысленные комментарии. Чем четче формулировки, тем выше вероятность корректного парсинга.

    Стратегическое значение

    Патент подчеркивает стратегическую важность структурированных данных для организации больших массивов информации, особенно медиаконтента. Для Google это способ повысить качество данных на своих платформах (YouTube), что напрямую влияет на пользовательский опыт и эффективность рекламы. Для SEO-специалистов это напоминание о том, что точность, структура и достоверность данных, а также сигналы авторитетности источников (даже на уровне пользователей платформы), являются ключевыми факторами для успешного продвижения любого типа контента.

    Практические примеры

    Сценарий: Уточнение метаданных исторического видео на YouTube

    Ситуация: Пользователь загрузил старую видеозапись концерта, указав примерный год (1997) и не указав место проведения.

    1. Начальное состояние: Метаданные: «Год: 1997» (Низкий Confidence Score, т.к. ввод только от загрузчика), «Место: [пусто]».
    2. Взаимодействие пользователей (Демократическая модель):
      • Пользователь А предлагает: «Место: Duckburg Town Hall».
      • Пользователь Б предлагает: «Место: Albert Hall».
      • Пользователь В подтверждает «Год: 1997».
    3. Пересчет: «Год: 1997» получает более высокий Confidence Score. «Место» имеет два варианта с равными низкими оценками.
    4. Взаимодействие (Модель специалиста):
      • Пользователь Г (имеет статус эксперта по музыке этого периода с хорошей history of validated input) комментирует: «Я знаю, эта запись не из Albert Hall. Это точно Duckburg Town Hall, 1997 год».
    5. Парсинг и Взвешивание: Parsing Component извлекает данные из комментария. Система применяет высокий вес к вводу Пользователя Г.
    6. Результат: Confidence Score для «Duckburg Town Hall» значительно возрастает и превышает оценку для «Albert Hall». Метаданные обновляются: «Год: 1997», «Место: Duckburg Town Hall». Это видео теперь будет лучше ранжироваться по запросам, связанным с этим местом и датой.

    Вопросы и ответы

    Как этот патент влияет на SEO для YouTube?

    Он напрямую влияет на то, как YouTube определяет и проверяет метаданные видео. Точные метаданные улучшают discoverability видео через поиск на YouTube и рекомендации. Если метаданные вашего видео имеют высокий Confidence Score (благодаря точному вводу при загрузке и подтверждению зрителями), это повышает вероятность того, что система будет считать его релевантным для соответствующих запросов.

    Могут ли конкуренты испортить метаданные моего видео?

    Теоретически да, но система разработана для защиты от этого. Механизм Confidence Score требует консенсуса для изменения данных. Кроме того, используется «Модель специалиста»: если система идентифицирует пользователей как спамеров или тех, кто постоянно вводит неверные данные (History of disputed input), вес их голоса (Vote Weight) будет снижен.

    Что такое «Модель специалиста» (Specialist Model) и как она работает?

    Это модель, при которой голоса разных пользователей имеют разный вес. Система может давать больший вес пользователям, которые имеют подтвержденную экспертизу в теме или историю предоставления точной информации (History of validated input). Также в патенте упоминается, что загрузчику контента (Content Source) может быть предоставлен более высокий вес по умолчанию.

    Система действительно читает комментарии, чтобы найти метаданные?

    Да, патент описывает Parsing Component, задачей которого является анализ списка комментариев для извлечения предложенных значений метаданных. Например, если пользователь напишет в комментарии «Год записи: 1998», система может распознать это как предложение для тега «Год» со значением «1998» и учесть это при расчете Confidence Score.

    Что важнее: метаданные, которые я ввожу при загрузке, или те, что предлагают зрители?

    Важны оба источника. Данные, введенные при загрузке, формируют начальное состояние. Если они точны, зрители, скорее всего, подтвердят их, что приведет к высокому Confidence Score. Если они неточны или отсутствуют, система будет полагаться на краудсорсинг. Лучшая стратегия — предоставить максимально точные данные с самого начала.

    Как SEO-специалисту использовать знание этого патента при управлении сайтом с UGC?

    Необходимо внедрять механизмы структурирования пользовательского контента и его валидации. Нельзя полагаться только на то, что пользователи сами все правильно заполнят. Нужно разработать систему репутации пользователей и использовать ее для взвешивания достоверности предоставляемой ими информации, как описано в Specialist Model.

    Влияет ли этот механизм на ранжирование в основном поиске Google (Web Search)?

    Прямого влияния нет, так как патент описывает управление метаданными внутри контент-платформы. Однако косвенное влияние значительно. Сгенерированные и проверенные структурированные метаданные помогают Google лучше понять содержание медиаконтента (например, видео на YouTube), что улучшает его шансы на ранжирование в Google Search и Google Videos.

    Что происходит, если мнения пользователей разделились поровну?

    Если два разных значения имеют одинаковый или близкий Confidence Score, система может продолжить отображать предыдущее значение или выбрать одно из них по другим критериям (например, если одно из них было предложено источником контента). Патент также предусматривает отображение альтернативных значений с более низкими оценками в интерфейсе (например, через элемент «more…»).

    Могут ли пользователи предлагать новые типы метаданных (новые ключи)?

    Да, патент предусматривает возможность для потребителей предлагать новые теги (New Tag), которые они считают релевантными для данного контента или категории контента (Claim 5, Claim 19). Это позволяет структуре метаданных эволюционировать на основе потребностей пользователей.

    Как система определяет классификацию медиаконтента?

    Патент упоминает, что Tagging Component выбирает набор тегов на основе классификации медиаконтента (Classification). Хотя методы классификации не детализированы, это подразумевает, что система анализирует сам контент (аудио, видеоряд, существующий текст) для определения его типа (например, музыка, спорт, новости), чтобы предложить релевантные поля метаданных.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.