Google использует автоматизированную систему для наполнения детских интерфейсов безопасным и интересным контентом. Система определяет темы, интересующие детей, через Knowledge Graph и внешние источники, рассчитывает «Оценку детской близости» (Children’s Affinity Score) для этих тем, учитывая качество и популярность связанного контента. Затем эти оценки используются для отбора и ранжирования каналов и плейлистов.
Описание
Какую задачу решает
Патент решает проблему масштабирования курирования контента на крупных платформах (Content Sharing Platforms, например, YouTube) для детской аудитории. Учитывая огромный объем загружаемого пользовательского контента (UGC), ручная модерация и создание «белых списков» неэффективны. Изобретение предлагает алгоритмический метод для автоматической идентификации контента, который является одновременно безопасным (safe/appropriate) и интересным/релевантным (relevant/entertaining) для детей.
Что запатентовано
Запатентована система алгоритмического отбора контента для детей без ручного вмешательства. Ядром системы является расчет метрики Children’s Affinity Score (Оценка детской близости) для сущностей (entities) из Knowledge Graph. Эта оценка вычисляется на основе анализа качества, популярности и паттернов потребления (co-watch signals) контента, связанного с этими сущностями. Затем система использует эти оценки для ранжирования и отбора целых блоков контента (каналов, плейлистов) для детского интерфейса.
Как это работает
Система функционирует в три основных этапа:
- Идентификация тем (Seeding): Создается исходный список сущностей (Entity Seed List), интересных детям. Для этого используются данные Knowledge Graph, выводы на его основе и данные из внешних доверенных источников.
- Расчет Affinity Score: Система находит контент, аннотированный этими сущностями, и расширяет этот набор, добавляя связанный контент на основе сигналов совместного просмотра (co-watch) и совместного появления (co-occurrence). Затем рассчитывается Children’s Affinity Score для каждой сущности, учитывая качество и популярность контента.
- Курирование контента (Curation): Система оценивает кандидатов (например, каналы), агрегируя Children’s Affinity Scores всего контента внутри кандидата (с учетом веса просмотров). Кандидаты ранжируются по этой агрегированной оценке для показа в детском интерфейсе.
Актуальность для SEO
Высокая. Платформы, такие как YouTube Kids, критически зависят от алгоритмического курирования для обеспечения безопасности и релевантности контента в огромных масштабах. Описанные методы, использующие сущности из Knowledge Graph и сигналы вовлеченности для оценки контента, остаются фундаментальными для вертикального поиска и рекомендательных систем.
Важность для SEO
Патент имеет значительное влияние (7.5/10) на SEO для контент-платформ (особенно YouTube VSEO) и понимание того, как Google оценивает контент на основе сущностей и вовлеченности. Хотя он не описывает ранжирование в общем веб-поиске, он демонстрирует, как метрики вовлеченности (popularity, quality, co-watch) используются для определения ценности entity. Эта оценка сущности затем определяет видимость связанного контента и целых каналов в специализированных интерфейсах.
Детальный разбор
Термины и определения
- Annotation Score (Оценка аннотации)
- Числовое значение (например, от 0 до 1), указывающее, насколько центральной (annotation centrality) или релевантной (annotation relevance) является аннотированная сущность для данного элемента контента.
- Children’s Affinity Score (Оценка детской близости)
- Метрика, рассчитываемая для сущности, канала или элемента контента, указывающая на его релевантность и интерес для детской аудитории. Рассчитывается на основе агрегации сигналов вовлеченности и качества.
- Co-occurrence signals (Сигналы совместного появления)
- Сигналы, указывающие на то, что элементы контента часто появляются вместе, например, в одних и тех же плейлистах.
- Co-watch signals (Сигналы совместного просмотра)
- Поведенческие сигналы, указывающие на то, что пользователи часто смотрят определенные элементы контента вместе или последовательно.
- Entity (Сущность)
- Человек, место или вещь (например, ТВ-шоу, фильм, животное, тема), идентифицированная в Knowledge Graph.
- Entity Seed List (Список исходных сущностей)
- Начальный набор сущностей, идентифицированных как интересные или релевантные для детей, используемый для запуска процесса оценки.
- External Data Source (Внешний источник данных)
- Доверенные веб-сайты или приложения, которые публикуют рейтинги и обзоры безопасного и интересного для детей контента.
- Knowledge Graph (KG) (Граф знаний)
- База знаний, содержащая структурированную информацию о сущностях и связях между ними. Элементы контента аннотируются сущностями из KG.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает автоматизированный метод идентификации контента, подходящего для детей, на платформе с большим объемом контента.
- Система получает доступ к Knowledge Graph (KG).
- Идентифицируются сущности из KG, соответствующие темам, релевантным для детей. Темы включают как заранее отобранный список (curated list), так и темы, выведенные на основе запросов к сущностям KG (inferred topics).
- Для каждой идентифицированной сущности генерируется Children Affinity Score.
- На основе этих оценок выбирается контент с платформы.
- Выбранный контент добавляется в систему детского контента (children content system).
Claim 4 (Зависимый): Уточняет процесс идентификации сущностей (Шаг 2 в Claim 1).
Процесс может включать доступ к внешнему источнику данных (external source of data) о детском контенте, извлечение тем из этого источника, сопоставление (reconciling) этих тем с сущностями в Knowledge Graph и добавление сопоставленных сущностей к исходному набору.
Claim 6 (Зависимый от 1): Детализирует расчет Children Affinity Score.
- Идентифицируются элементы контента, аннотированные сущностями.
- Идентифицируются другие связанные элементы контента на основе co-watch signals и co-occurrence signals.
- Оригинальные и связанные элементы объединяются в единый набор.
- Набор группируется по аннотированным сущностям (формируются группы сущностей).
- Для каждой сущности рассчитывается Children Affinity Score на основе как минимум одного из следующих параметров контента в группе: центральность аннотации, релевантность аннотации, среднее качество (average quality), популярность (popularity) или средний вес связанности (average relatedness weight).
Claim 8 (Зависимый от 1): Детализирует процесс выбора контента (например, каналов).
- Идентифицируется набор кандидатов на основе категории, статуса загрузки (upload state) или количества элементов.
- Для каждого кандидата:
- Идентифицируются аннотации сущностей для каждого элемента контента.
- Определяется средний рейтинг (average rating) и количество просмотров (view count) для каждого элемента.
- Рейтинг и количество просмотров агрегируются для всех элементов кандидата, взвешенные по аннотациям сущностей, чтобы сгенерировать агрегированную оценку (aggregate score) для кандидата.
- Агрегированные оценки нормализуются и кандидаты ранжируются.
Где и как применяется
Изобретение применяется в рамках специализированной системы курирования контента (Children’s Content System), например, для платформы YouTube Kids, а не в основном веб-поиске Google.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит анализ контента и его аннотирование сущностями из Knowledge Graph. Также собираются и индексируются базовые метрики: количество просмотров (popularity), пользовательские рейтинги (quality), а также сигналы co-watch и co-occurrence.
CRAWLING – Сканирование и Сбор данных
Система может взаимодействовать с внешними источниками данных (External Data Sources) — доверенными сайтами с обзорами детского контента — для сбора информации о темах, интересных детям.
RANKING / RERANKING (Вертикальный поиск и Рекомендации)
Основное применение патента. Алгоритм работает для периодического расчета Children’s Affinity Scores (вероятно, офлайн) и формирования ранжированного списка контента (каналов, плейлистов) для отображения в детском интерфейсе (например, на главном экране приложения).
Входные данные:
- Данные Knowledge Graph (сущности, типы, коллекции).
- Данные об элементах контента (аннотации сущностей, Annotation Scores, просмотры, рейтинги, язык, возрастные ограничения).
- Сигналы связи контента (co-watch, co-occurrence).
- Внешние доверенные источники данных.
Выходные данные:
- Children’s Affinity Scores для сущностей.
- Ранжированный список отобранного контента (каналы, плейлисты) для детского интерфейса.
На что влияет
- Конкретные типы контента: Влияет на видимость видеоконтента, плейлистов и каналов на платформах обмена контентом, в частности в специализированных детских интерфейсах.
- Конкретные ниши или тематики: Влияет на контент, тематически связанный с детскими интересами (мультфильмы, образование, игры, хобби, наука для детей и т.д.).
Когда применяется
- Временные рамки и частота применения: Алгоритм применяется периодически для обновления пула отобранного контента и пересчета Children’s Affinity Scores.
- Условия применения: Применяется для генерации рекомендаций и наполнения категорий (например, «Шоу», «Музыка», «Обучение») в интерфейсе, предназначенном для детей.
Пошаговый алгоритм
Процесс состоит из трех основных фаз: выявление сущностей, расчет оценок и отбор контента.
Фаза 1: Выявление сущностей (Entity Seeding)
- Использование KG (Прямое): Идентификация сущностей и коллекций в Knowledge Graph, помеченных как детские темы (например, «Детские ТВ-программы»).
- Использование KG (Вывод/Inference): Выполнение запросов к KG для вывода сущностей, потенциально интересных детям (например, анализ тем в жанре «Детская литература»).
- Использование внешних данных (Опционально): Идентификация доверенных внешних источников. Извлечение тем, рейтингов и возрастных групп. Сопоставление (Reconciliation) извлеченных тем с сущностями в KG.
- Использование рейтингов платформы (Опционально): Идентификация контента на платформе с детским рейтингом (например, TV-Y) и извлечение аннотированных сущностей из него.
- Формирование списка: Объединение всех идентифицированных сущностей в Entity Seed List.
Фаза 2: Расчет Children’s Affinity Score для сущностей
- Идентификация контента: Поиск всех элементов контента, аннотированных сущностями из Entity Seed List.
- Фильтрация контента: Удаление контента, не соответствующего требованиям (например, по языку, возрастному рейтингу (Mature/X), порогу популярности или качества).
- Расширение контента (Relatedness): Идентификация дополнительного контента, связанного с отфильтрованным набором, на основе co-watch signals и co-occurrence signals. Связанный контент также может быть отфильтрован.
- Группировка: Объединение оригинального и связанного контента и группировка элементов по их аннотированным сущностям.
- Расчет оценки: Для каждой группы сущностей расчет Children’s Affinity Score. Функция учитывает: Annotation Scores (центральность сущности), среднее качество (рейтинги), среднюю популярность (просмотры) и средний вес связанности (average relatedness weight) контента в группе.
Фаза 3: Отбор и ранжирование контента (Curation) (На примере Каналов)
- Идентификация кандидатов: Выбор набора каналов-кандидатов на основе начальных квалификаций (например, категория, активность загрузок (upload state), количество видео, статус проверки).
- Расчет оценки элемента контента: Для каждого видео в канале рассчитывается средний Children’s Affinity Score на основе всех его аннотированных сущностей. Эта оценка взвешивается по количеству просмотров (view count) видео.
- Расчет оценки канала: Агрегация взвешенных оценок всех видео в канале. Эта агрегированная оценка присваивается каналу как его Children’s Affinity Score.
- Ранжирование и Выбор: Нормализация оценок каналов, их ранжирование и выбор Топ-N каналов для отображения в детском интерфейсе.
Какие данные и как использует
Данные на входе
Патент описывает использование следующих типов данных:
- Структурные/Семантические факторы (Knowledge Graph): Данные KG (сущности, типы, коллекции, связи) используются для идентификации тем и аннотирования контента. Annotation Score (оценка центральности сущности).
- Поведенческие факторы (Вовлеченность):
- Popularity (Количество просмотров/View Count). Используется как весовой коэффициент и для фильтрации.
- Quality (Пользовательские рейтинги/User Ratings). Используется для расчета среднего качества и фильтрации.
- Co-watch signals и Co-occurrence signals. Используются для поиска связанного контента и расчета веса связанности.
- Технические факторы и Метаданные:
- Content Rating (возрастной рейтинг, например, Y, G, Mature). Используется для фильтрации безопасности.
- Язык контента.
- Upload state (свежесть/активность загрузок на канале).
- Категория контента/канала.
- Внешние данные: Данные из доверенных внешних источников (сайты с рейтингами и обзорами детского контента).
Какие метрики используются и как они считаются
- Children’s Affinity Score (для Сущности): Рассчитывается как функция, агрегирующая сигналы по группе контента, связанного с сущностью. Учитывает Annotation Scores, среднее качество (average quality), среднюю популярность (average popularity) и средний вес связанности (average relatedness weight).
- Average Relatedness Weight (Средний вес связанности): Метрика, указывающая, насколько тесно связаны элементы контента внутри группы (на основе co-watch и co-occurrence).
- Children’s Affinity Score (для Элемента Контента): Среднее значение Children’s Affinity Scores всех сущностей, аннотированных для данного элемента. Взвешивается по количеству просмотров (view count) при агрегации на уровне канала.
- Children’s Affinity Score (для Канала/Плейлиста): Агрегированная оценка взвешенных Children’s Affinity Scores всех элементов контента внутри канала.
Выводы
- Зависимость от Knowledge Graph для понимания тем: Алгоритмическое курирование в значительной степени полагается на Knowledge Graph для идентификации и валидации тем и сущностей, релевантных для целевой аудитории. Четкая ассоциация контента с сущностями критически важна для видимости в специализированных вертикалях.
- Вовлеченность и Качество определяют ценность сущности: Сигналы вовлеченности (просмотры, совместные просмотры) и качества (рейтинги) являются фундаментальными для определения Affinity Score сущности. Популярность и качество контента напрямую влияют на оценку связанных с ним тем.
- Каскадная модель оценки: Патент описывает четкую иерархию: вовлеченность с отдельными элементами контента определяет оценки сущностей; оценки сущностей, в свою очередь, определяют оценки более крупных контейнеров (каналов, плейлистов).
- Важность связанности контента (Co-Watch): Сигналы co-watch и co-occurrence играют ключевую роль в расширении набора релевантного контента за пределы прямых аннотаций, позволяя системе обнаруживать контент, связанный по поведению пользователей.
- Использование внешних доверенных источников: Google может использовать данные из авторитетных внешних источников для инициализации (bootstrapping) и валидации понимания системой того, какой контент является подходящим и интересным для определенной аудитории.
Практика
Best practices (это мы делаем)
Хотя патент сфокусирован на курировании детского контента (например, YouTube Kids), он раскрывает общие механизмы оценки контента на основе сущностей и вовлеченности, применимые к SEO на контент-платформах (YouTube SEO) и вертикальном поиске.
- Четкое выравнивание с сущностями (Entity Alignment): Обеспечьте, чтобы контент был четко и недвусмысленно связан с распознаваемыми сущностями в Knowledge Graph. Это помогает системе корректно аннотировать контент и получить высокий Annotation Score (центральность). Для веб-сайтов это включает использование разметки Schema.org (например, about, mentions).
- Оптимизация под вовлеченность и качество: Сосредоточьтесь на создании контента, который генерирует положительные сигналы: высокое количество просмотров (popularity) и положительные рейтинги (quality). Эти сигналы напрямую влияют на расчет Affinity Score.
- Стимулирование связанности (Co-Watching и Плейлисты): Создавайте серии контента и организуйте его в тематические плейлисты. Это увеличивает вероятность совместного просмотра (co-watch) и совместного появления (co-occurrence), что усиливает сигналы связанности (relatedness weight) и помогает системе обнаружить больше вашего контента.
- Поддержание качества на уровне канала/сайта: Система оценивает каналы путем агрегации оценок отдельных элементов. Необходимо поддерживать стабильно высокое качество и релевантность всего контента, так как низкокачественные элементы снизят общую оценку.
- Культивирование внешних сигналов авторитетности: Так как система может использовать внешние доверенные источники для идентификации релевантных тем, работа над получением упоминаний и обзоров на авторитетных тематических ресурсах может положительно влиять на классификацию вашего контента.
Worst practices (это делать не надо)
- Вводящие в заблуждение аннотации (Entity/Tag Stuffing): Попытки манипулировать метаданными для связи контента с популярными, но нерелевантными сущностями. Система использует Annotation Score (центральность), поэтому нерелевантные сущности будут иметь низкий вес или могут привести к негативным сигналам качества.
- Низкое качество или неконсистентный контент: Публикация контента, который получает плохие рейтинги или низкую вовлеченность. Это негативно скажется на Affinity Score как сущностей, так и всего канала/сайта.
- Игнорирование структуры и связности: Размещение несвязанного контента без четкой организации в плейлисты или серии. Это ослабляет тематическую направленность и снижает сигналы co-watch.
- Смешивание аудиторий: Публикация контента для разных аудиторий (например, взрослого и детского) на одном канале. Это приведет к фильтрации нерелевантного контента и может снизить общий Affinity Score.
Стратегическое значение
Патент подтверждает стратегию Google по использованию ассоциации с сущностями и метрик вовлеченности для оценки качества и релевантности контента в рамках специфических вертикалей. Для долгосрочного успеха на платформах типа YouTube критически важно не только создавать релевантный контент, но и добиваться высокого уровня вовлеченности аудитории, встраиваться в существующие паттерны потребления (co-watch) и обеспечивать четкую семантическую связь контента с Knowledge Graph.
Практические примеры
Сценарий: Оптимизация YouTube-канала по образовательной тематике (например, Динозавры) для YouTube Kids
- Действие (Entity Alignment): Создание видео о конкретных видах динозавров (например, «Тираннозавр Рекс», «Трицератопс»). Четкое упоминание этих сущностей в названии, описании и самом видео для обеспечения корректной аннотации и высокого Annotation Score.
- Действие (Engagement и Quality): Создание качественных, информативных видео, которые получают много просмотров и лайков (положительные рейтинги).
- Результат (Entity Scoring): Высокая вовлеченность и качество этих видео повышают Children’s Affinity Score для сущностей «Тираннозавр Рекс» и «Динозавры» в контексте этого контента.
- Действие (Co-Watch и Playlist): Организация видео в плейлист «Эра Динозавров». Пользователи смотрят несколько видео подряд.
- Результат (Relatedness): Система фиксирует сильные сигналы co-watch и co-occurrence, увеличивая relatedness weight и расширяя охват канала.
- Итоговый результат (Channel Ranking): Система агрегирует высокие взвешенные Affinity Scores всех видео на канале. Канал получает высокую общую оценку и ранжируется высоко в рекомендациях или в категории «Обучение» на платформе YouTube Kids.
Вопросы и ответы
Что такое «Children’s Affinity Score» и как он рассчитывается?
Это оценка, указывающая, насколько сущность, видео или канал интересны и релевантны для детей. Для сущности она рассчитывается путем анализа связанного с ней контента, учитывая его популярность (просмотры), качество (рейтинги), центральность сущности (Annotation Score) и связанность контента (co-watch signals). Для канала это агрегированная оценка всех его видео, взвешенная по просмотрам.
Насколько важна связь контента с Knowledge Graph согласно этому патенту?
Она критически важна. Весь процесс начинается с идентификации сущностей в Knowledge Graph (Entity Seed List). Контент обнаруживается и оценивается на основе его аннотаций этими сущностями. Если контент не связан с KG или связан некорректно, он не будет эффективно обработан этой системой курирования.
Что такое сигналы «co-watch» и «co-occurrence» и почему они важны?
Co-watch (совместный просмотр) указывает, что пользователи часто смотрят контент вместе. Co-occurrence (совместное появление) указывает, что контент часто находится в одних плейлистах. Эти сигналы используются системой для обнаружения связанного контента и расширения набора релевантных материалов, а также влияют на вес связанности (relatedness weight) при расчете Affinity Score.
Использует ли Google внешние сайты для определения качества или релевантности контента?
Да, патент явно упоминает использование внешних источников данных (external data sources), таких как доверенные веб-сайты, публикующие рейтинги и обзоры безопасного и интересного для детей контента. Эти данные используются на этапе инициализации (seeding) для определения списка релевантных тем и сущностей.
Что важнее для ранжирования канала: популярность отдельных видео или общее качество?
Важны оба фактора. Популярность (количество просмотров) используется как весовой коэффициент при агрегации оценок видео для расчета оценки канала. Однако само качество (рейтинги) и релевантность (Affinity Score) каждого видео также играют роль. Контент низкого качества может быть отфильтрован еще до этапа ранжирования.
Как SEO-специалисту повлиять на «Annotation Score»?
Annotation Score указывает, насколько центральной является сущность для контента. SEO-специалистам следует сосредоточиться на том, чтобы их контент был максимально сфокусирован на целевых сущностях. Это гарантирует высокий Annotation Score. Используйте точные метаданные и, если применимо, структурированные данные, чтобы помочь системам понять основную тему контента.
Применяется ли этот алгоритм ко всем запросам или только в специальных интерфейсах?
Патент описывает этот механизм конкретно для наполнения Children’s Content Interface (специализированного детского интерфейса или приложения, например, YouTube Kids). Он не описывает алгоритмы ранжирования в основном поиске Google или стандартном интерфейсе YouTube.
Может ли этот алгоритм отфильтровать мой контент, даже если он популярен?
Да. Патент описывает этап фильтрации, на котором контент может быть удален, если он не соответствует определенным критериям, таким как язык, возрастной рейтинг (например, контент для взрослых) или порог качества (например, низкие пользовательские рейтинги), даже если порог популярности пройден.
Как этот патент влияет на стратегию создания контента на YouTube?
Он подчеркивает необходимость создания серийного, тематически связанного контента, организованного в плейлисты для усиления сигналов co-watch. Стратегия должна быть направлена на построение авторитетности канала вокруг конкретных сущностей и максимизацию положительной вовлеченности аудитории для повышения Affinity Scores.
Может ли этот алгоритм применяться не только к детскому контенту?
Да, методология универсальна. Google может использовать аналогичный подход для алгоритмического курирования контента в любой специализированной вертикали (например, здоровье, финансы), заменяя Children’s Affinity Score на оценку близости к другой теме или аудитории, и используя соответствующие доверенные источники для валидации.