
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
Патент решает проблему нехватки, низкого качества или неструктурированности метаданных (unstructured metadata), предоставляемых пользователями при загрузке контента (например, видео или аудио) на платформу. Недостаток качественных структурированных метаданных (structured metadata) затрудняет эффективный поиск, организацию и идентификацию контента, особенно для платформ, обрабатывающих огромные объемы данных (например, YouTube).
Запатентована система для автоматического сбора и улучшения метаданных о единицах контента (content items) путем анализа внешних ресурсов, которые на них ссылаются. Система идентифицирует ссылки (links) или встраивания (embedded representations) контента на сторонних веб-страницах и извлекает описательные данные из контекста этих страниц. Затем эти данные обрабатываются, фильтруются на основе частоты их упоминания на разных ресурсах и используются для улучшения понимания контента и его идентификации.
Система функционирует следующим образом:
requests to access/play).frequency) повторения терминов на разных ресурсах, ссылающихся на один и тот же контент. Также оцениваются близость текста к встраиванию (proximity), капитализация и соответствие известным сущностям. Признакам присваиваются оценки уверенности (confidence score values).reference database), что сужает круг кандидатов для более ресурсоемких методов сравнения контента (например, цифровых отпечатков).Высокая. Понимание контента, особенно медиафайлов, через контекстный анализ является ключевым элементом современных поисковых систем. Этот патент описывает фундаментальный механизм того, как Google использует данные из веба для обогащения своего понимания индексируемых объектов (видео, аудио). Процессы, описанные здесь, критически важны для работы систем типа YouTube Content ID и улучшения поиска медиаконтента.
Патент имеет высокое значение для SEO (8.5/10), особенно для стратегий продвижения видео и аудио контента (Video SEO). Он подтверждает, что контекст страниц, на которых размещается или встраивается контент, напрямую влияет на то, как Google интерпретирует этот контент. Оптимизация не только собственных метаданных видео, но и контекста на страницах, где оно встраивается (как на своем сайте, так и на внешних), является важным фактором ранжирования и видимости.
links) и встроенные представления (embedded representations, например, через iframe).confidence score values.Reference Content Items), которые уже имеют ассоциированные структурированные метаданные и используются для сравнения.Анализ проводится на основе текста финальной версии формулы изобретения (Claims), представленной в PDF документе.
Claim 1 (Независимый пункт): Описывает основной процесс получения и использования метаданных для идентификации контента, с акцентом на валидацию через множество источников.
content provider system) получает загруженный медиаконтент (uploaded media content item).plurality of network resources), каждый из которых содержит ссылку (reference) на этот контент.descriptive metadata).frequency) на этом множестве сетевых ресурсов.reference metadata) идентифицируется одна или несколько эталонных единиц контента (reference content items).Ключевой аспект: использование частоты повторения термина на разных сайтах как механизма валидации и выбора наиболее достоверных метаданных.
Claim 3 (Зависимый): Уточняет, как идентифицируются внешние ресурсы.
Ресурс идентифицируется пассивно, на основе получения системой запроса на воспроизведение контента. Этот запрос генерируется при клике по ссылке или при начале воспроизведения встроенного контента на внешнем ресурсе.
Claim 4 (Зависимый): Уточняет источники извлечения метаданных.
Метаданные извлекаются из: URI ресурса, URL ресурса, заголовка ресурса (title), медиаконтента на ресурсе или текстового контента на ресурсе.
Claim 6 (Зависимый): Уточняет местоположение извлекаемого текста (Proximity).
Метаданные извлекаются из текста, расположенного в пределах определенной области (defined region) относительно ссылки или встроенного представления контента.
Claim 9 (Зависимый): Описывает процесс оценки метаданных.
Система определяет оценки уверенности (confidence score values) для признаков (features) извлеченных метаданных, основываясь на их взаимосвязи со ссылкой на контент.
Изобретение применяется на этапах сбора данных и индексирования для обогащения информации о контенте.
CRAWLING – Сканирование и Сбор данных
Система использует краулинг для активного обнаружения внешних ресурсов, содержащих ссылки или встраивания. Также используется пассивный анализ входящих запросов (incoming requests) на доступ к контенту для идентификации ссылающихся ресурсов (referral sources).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.
confidence scores) и фильтрация этих данных. Ключевую роль играет анализ частоты (frequency) упоминаний на разных ресурсах.Вспомогательные системы (Content Identification)
Патент также описывает применение этого механизма для идентификации контента (аналог Content ID). Извлеченные метаданные используются для поиска совпадений в Reference Database. Это позволяет сузить набор кандидатов перед применением более ресурсоемких методов сравнения (например, аудио/видео отпечатков).
RANKING / QUNDERSTANDING
Улучшенные метаданные, полученные в результате этого процесса, впоследствии используются поисковой системой для лучшего понимания содержания медиафайла и его релевантности поисковым запросам.
Входные данные:
uploaded media content item).Выходные данные:
Процесс А: Сбор и обработка метаданных
defined region) от ссылки/встраивания.frequency) встречаемости терминов на разных ресурсах.confidence score value). Оценка повышается, если: proximity).Процесс Б: Использование метаданных для идентификации контента
match confidence score values) для кандидатов. Могут использоваться статистические методы, такие как Inverse Document Frequency (IDF), чтобы оценить уникальность совпадающих терминов.Система использует разнообразные данные, извлеченные из внешних ресурсов:
title of the resource).text content at the resource).defined region).feed item), если ссылка находится в ленте новостей/соцсети.embedded media item title).media content at the resource) – например, анализ аудиодорожки, играющей на странице, которая также встраивает видео.frequency) повторения терминов на разных ресурсах как основной механизм валидации достоверности извлеченных метаданных (Claim 1). Консистентное описание контента в интернете усиливает его метаданные.defined region), имеет больший вес при определении релевантности (proximity).Этот патент подчеркивает стратегию Google по использованию всего веба как источника аннотаций для контента. Для SEO-специалистов это означает, что оптимизация медиа-активов выходит за пределы платформы их загрузки. Стратегия Video SEO должна включать не только оптимизацию на YouTube, но и оптимизацию всех точек контакта с этим видео в интернете. Контекст становится ключевым фактором в том, как поисковая система интерпретирует и классифицирует нетекстовый контент.
Сценарий: Оптимизация статьи в блоге со встроенным видео-обзором
frequency), система присвоит им высокий confidence score и ассоциирует их с медиафайлом.Как Google определяет, какой текст на странице относится к встроенному видео?
Система использует анализ близости (proximity). Текст, находящийся в пределах определенной области (defined region) от кода встраивания – как визуально, так и в структуре HTML-кода – получает более высокую оценку уверенности (confidence score). Также анализируются структурные элементы, такие как локальные заголовки или подписи к встроенному объекту.
Что произойдет, если разные сайты описывают одно и то же видео по-разному или противоречиво?
Система агрегирует данные со всех источников и использует частоту (frequency) повторения терминов как ключевой сигнал доверия (Claim 1). Термины, которые используются большинством сайтов для описания видео, получат более высокий confidence score и будут выбраны. Противоречивые или редко встречающиеся термины, скорее всего, будут отфильтрованы как шум.
Влияет ли авторитетность сайта, на котором встроено видео, на этот процесс?
Патент прямо не упоминает авторитетность домена, но упоминает оценку надежности ресурса на основе истории (history of relevance). Если система ранее определяла, что метаданные, извлеченные с определенного ресурса, были ненадежными или нерелевантными, будущие данные с этого ресурса могут получать более низкий вес.
Может ли этот механизм навредить моему видео, если его встроят на спамных или нерелевантных сайтах (Негативное SEO)?
Теоретически, да, если видео массово встраивается в нерелевантном контексте. Однако механизм фильтрации, основанный на частоте и консистентности сигналов с разных ресурсов, призван минимизировать этот риск. Если качественные сайты предоставляют правильный контекст, он, вероятно, перевесит шум от низкокачественных сайтов.
Как этот патент влияет на SEO для изображений?
Хотя в примерах патента часто упоминаются видео и аудио, изобретение описывает общие content items, к которым относятся и изображения. Механизм применим и к ним: контекст страницы, текст вокруг изображения и подписи используются для понимания содержания изображения аналогичным образом.
Использует ли система только текст для извлечения метаданных?
Нет. Патент упоминает возможность извлечения метаданных из media content at the resource. Например, если на веб-странице проигрывается аудиодорожка (песня) и одновременно встроено видео, система может распознать песню и использовать ее метаданные (название трека, исполнителя) как неструктурированные метаданные для встроенного видео.
Как система отличает полезные термины от шума в тексте?
Помимо близости и частоты, патент упоминает использование капитализации (заглавных букв) как индикатора имен собственных и сравнение с базой данных известных терминов (known terms), таких как имена артистов или названия фильмов. Это помогает выделить ключевые сущности из общего потока текста.
Какова роль этого механизма в системе Content ID?
Он играет роль эффективного предварительного фильтра. Вместо того чтобы сравнивать цифровые отпечатки нового видео с миллионами эталонных файлов, система сначала использует извлеченные метаданные для поиска совпадений по тексту. Это значительно сужает набор кандидатов, которые затем подвергаются более дорогостоящему сравнению отпечатков.
Нужно ли мне теперь меньше заботиться об оптимизации метаданных на YouTube, если Google все равно извлекает их извне?
Нет. Метаданные, предоставленные владельцем контента, остаются важными прямыми сигналами. Описанный механизм предназначен для дополнения этих данных, особенно когда они отсутствуют или низкого качества. Лучшая стратегия – предоставить точные метаданные на платформе загрузки и обеспечить качественный контекст на страницах встраивания для максимальной консистентности сигналов.
Использует ли система машинное обучение для определения релевантности контекста?
Да. В патенте упоминается использование различных схем на основе искусственного интеллекта (AI-based schemes), включая автоматические системы классификации (например, SVM, Байесовские сети), для определения релевантности и полезности признаков метаданных (Feature Evaluation) и расчета Confidence Score Values.

Knowledge Graph
Мультимедиа
Краулинг

Ссылки
Поведенческие сигналы
Мультимедиа

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Персонализация
Краулинг

Мультимедиа
SERP
Семантика и интент

Персонализация
SERP
Семантика и интент

Персонализация
Семантика и интент
Мультимедиа

Индексация
Краулинг
Ссылки

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Local SEO

Семантика и интент
Поведенческие сигналы
EEAT и качество

Персонализация
Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы
SERP

Структура сайта
Техническое SEO
Ссылки

Антиспам
Ссылки
SERP
