Как Google вычисляет связанность сущностей, используя данные о поведении пользователей при взаимодействии с разными типами контента (видео, веб-страницы)

Google использует систему для определения степени связанности между сущностями путем анализа поведения пользователей (co-interaction data) в разных типах медиа (видео, веб-страницы, покупки). Этот механизм агрегирует поведенческие данные для расчета «оценки связанности» (Relatedness Score), что позволяет генерировать релевантные рекомендации даже для нового контента (решение проблемы «холодного старта»).

Описание

Какую задачу решает

Патент решает две основные проблемы в рекомендательных системах:

Проблема «холодного старта» (Cold Start): Невозможность генерировать качественные рекомендации для нового контента, так как у него отсутствует история пользовательских взаимодействий (co-watch, co-click). Это особенно критично для времязависимого контента, популярного сразу после публикации.
Ограниченность данных одного типа: Анализ взаимодействий только внутри одного типа медиа (например, только видео с видео) ограничивает понимание семантических связей.

Изобретение улучшает рекомендации, используя существующие данные о взаимодействиях с другим контентом (даже других типов), который связан с теми же сущностями.

Что запатентовано

Запатентован метод определения степени связанности (Relatedness Score) между сущностями (Entities) путем агрегации данных о совместном взаимодействии пользователей (co-interaction data) с медиа-элементами разных типов (например, видео, веб-страницы, покупки). Система использует поведенческие сигналы из разных источников, чтобы понять, как пользователи связывают различные темы и объекты в своем поведении.

Как это работает

Механизм работает через призму сущностей:

Идентификация: Для медиа-элемента (например, видео) определяются его первичные сущности (Primary Entities).
Кросс-медийный сбор: Система находит другие медиа-элементы (веб-страницы, аудио и т.д.), также связанные с этими первичными сущностями.
Анализ взаимодействий: Анализируется, с какими вторичными элементами пользователи взаимодействовали до или после взаимодействия с первичными элементами (Co-interaction Scores).
Расчет связанности сущностей: Система определяет вторичные сущности (Secondary Entities) и агрегирует Co-interaction Scores для вычисления общего Relatedness Score между первичной и вторичными сущностями.
Рекомендация: Сущности с наивысшим Relatedness Score используются для генерации рекомендаций.

Актуальность для SEO

Высокая. Понимание связей между сущностями является фундаментом Knowledge Graph и современных поисковых систем. Использование поведенческих сигналов для определения связанности контента критически важно для рекомендательных платформ (YouTube, Google Discover). Кроме того, кросс-модальный анализ (анализ разных типов контента), лежащий в основе этого патента, активно развивается Google (например, в модели MUM).

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (7.5/10). Хотя он описывает систему рекомендаций, а не алгоритм веб-поиска, он раскрывает ключевую технологию, которую Google использует для понимания семантических связей между сущностями на основе поведения пользователей. Это критически важно для понимания того, как строится тематический авторитет и как контент попадает в рекомендательные блоки. Для YouTube SEO и оптимизации под Discover этот патент имеет первостепенное значение.

Детальный разбор

Термины и определения

Entity (Сущность): Текстовый дескриптор для имен существительных, представляющий реальные объекты, идеи или концепции, имеющие значение (например, «Барак Обама», «Сан-Франциско»). Используется как метаданные для медиа-элементов.
Media Content Item / Media Item (Медиа-элемент): Единица контента определенного типа (видео, аудиофайл, документ, веб-страница, товар).
Co-interaction (Совместное взаимодействие): Действие пользователя, включающее взаимодействие с двумя медиа-элементами в течение определенного периода или сессии. Включает co-click, co-watch, co-purchase. Может быть прямым или косвенным.
Co-interaction Score (Оценка совместного взаимодействия): Метрика, отражающая частоту или вес совместных взаимодействий между двумя конкретными медиа-элементами.
Relatedness Score (Оценка связанности): Агрегированная метрика, определяющая степень связи между двумя сущностями. Рассчитывается путем агрегации Co-interaction Scores медиа-элементов, связанных с этими сущностями.
Primary Entity (Первичная сущность): Сущность, связанная с запрошенным (просматриваемым в данный момент) медиа-элементом.
Secondary Entity (Вторичная сущность): Сущность, связанная с медиа-элементами, с которыми пользователи взаимодействовали в связке с первичными элементами.
Cross Media Type (Различные типы медиа): Использование данных из нескольких форматов контента (видео, аудио, веб-страницы, покупки) в одном анализе.
Relatedness Engine (Механизм определения связанности): Компонент системы, отвечающий за расчет оценок связанности и генерацию рекомендаций.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения связанности сущностей с использованием как минимум двух разных типов медиа (в примере: видео и веб-страницы).

Система хранит сущности, видео и веб-страницы.
Первичная сущность сопоставляется с подмножеством первичных видео (primary video subset) И подмножеством первичных веб-страниц (primary web page subset).
Определяется первый набор co-interaction scores между первичными и вторичными видео.
Определяется второй набор co-interaction scores между первичными и вторичными веб-страницами.
Вторичные видео и веб-страницы сопоставляются с Вторичными сущностями.
Определяется Relatedness Score между Первичной и Вторичными сущностями на основе ОБОИХ наборов (первого и второго) co-interaction scores.
Вторичные сущности ранжируются по Relatedness Score.

Ключевой аспект Claim 1 — обязательное использование данных о взаимодействии из разных источников (видео + веб-страницы) для вычисления итоговой оценки связанности сущностей.

Claim 7 и 8 (Зависимые): Детализируют расчет Co-interaction Score.

Оценка пропорциональна количеству отслеживаемых взаимодействий пользователей с обоими медиа-элементами (Claim 7).
Взаимодействия могут быть прямыми (direct user interaction) и косвенными (indirect user interaction).
Прямое взаимодействие вносит больший вклад в Co-interaction Score, чем косвенное (Claim 8).

Система учитывает близость взаимодействия. Переход напрямую с Видео А на Видео Б дает больший вес связи, чем переход Видео А -> Видео В -> Видео Б.

Claim 10 (Зависимый): Уточняет расчет Relatedness Score.

Определение Relatedness Score включает агрегацию первого и второго наборов co-interaction scores (т.е. данных от видео и веб-страниц).

Где и как применяется

Изобретение применяется в рамках рекомендательных систем (например, YouTube, Google Discover) и затрагивает несколько этапов обработки данных.

CRAWLING & INDEXING – Сканирование, Индексирование и Извлечение признаков
На этом этапе система обрабатывает медиа-элементы различных типов. Происходит извлечение и идентификация Сущностей (Entities) из контента и метаданных (теги, описания, транскрипции). Устанавливаются ассоциации между медиа-элементами и сущностями.

Data Acquisition / Analytics (Сбор и анализ поведенческих данных)
Система непрерывно отслеживает взаимодействия пользователей с контентом. Эти данные записываются в Co-interaction Database, формируя основу для анализа поведения.

RANKING / RERANKING (В контексте рекомендательных систем)
Основное применение патента. Когда пользователь просматривает медиа-элемент, Relatedness Engine активируется для генерации списка рекомендаций.

Анализ Сущностей: Определяются Первичные сущности запрошенного элемента.
Расчет Связанности: Выполняется co-interaction analysis по разным типам медиа для расчета Relatedness Scores между Первичными и Вторичными сущностями. Это может происходить офлайн или в реальном времени.
Отбор и Ранжирование: Выбираются и ранжируются медиа-элементы, связанные с топовыми Вторичными сущностями.

Входные данные:

Запрошенный медиа-элемент.
База данных медиа-элементов с ассоциированными Сущностями.
Co-interaction Database (история поведения пользователей).

Выходные данные:

Ранжированный список рекомендуемых медиа-элементов.

На что влияет

Конкретные типы контента: Влияет на любой контент в рекомендательных системах (видео, статьи, товары).
Кросс-медийный контент: Ключевая особенность — влияние распространяется между форматами. Поведение пользователей на веб-сайтах влияет на рекомендации видео, и наоборот.
Новый контент (Cold Start): Особенно сильно влияет на видимость нового контента, позволяя ему получать показы на основе связанных сущностей, даже без собственной истории просмотров.

Когда применяется

Триггеры активации: Запрос пользователя на просмотр медиа-элемента, для которого система должна сгенерировать блок рекомендаций (например, загрузка страницы просмотра видео на YouTube).
Условия работы: Наличие достаточного количества данных о совместных взаимодействиях для контента, связанного с теми же сущностями. Требуется корректное распознавание сущностей.

Пошаговый алгоритм

Процесс генерации рекомендаций для запрошенного медиа-элемента.

Получение запроса: Система получает запрос на предоставление медиа-элемента.
Идентификация Первичных Сущностей: Из метаданных запрошенного элемента извлекается список Первичных Сущностей (PE).
Анализ связанности (Co-interaction Analysis): Для каждой PE выполняется следующий подалгоритм:
1. Поиск Первичных Медиа-Элементов (PMI): Система находит другие медиа-элементы разных типов (например, видео И веб-страницы), которые также связаны с этой PE.
2. Расчет Co-interaction Scores: Определяются оценки совместного взаимодействия между PMI и Вторичными медиа-элементами (SMI) на основе исторических данных о поведении пользователей. Учитывается вес взаимодействия (прямое > косвенное).
3. Идентификация Вторичных Сущностей (SE): Определяются сущности, связанные с SMI.
4. Расчет Relatedness Scores: Для каждой пары (PE, SE) рассчитывается Оценка Связанности путем агрегации Co-interaction Scores всех соответствующих медиа-элементов разных типов.
5. Ранжирование Сущностей: SE ранжируются на основе их Relatedness Scores по отношению к PE.
Отбор Рекомендаций: Выбираются медиа-элементы, ассоциированные с наиболее высоко ранжированными SE. Отбор может быть ограничен тем же типом медиа, что и запрошенный элемент.
Предоставление Результатов: Отобранные медиа-элементы предоставляются пользователю в качестве рекомендаций.

Какие данные и как использует

Данные на входе

Система использует несколько ключевых типов данных:

Контентные и Структурные факторы (для идентификации сущностей): Метаданные медиа-элементов (заголовки, описания, теги). Также используются результаты анализа контента (например, транскрипция аудио для видео, NLP для текста) для извлечения сущностей. Упоминаются внешние базы знаний (Freebase, Wikipedia).
Поведенческие факторы (Ключевые данные): Данные из Co-interaction Database. Логи взаимодействий пользователей (co-click, co-watch, co-purchase). Система отслеживает последовательности действий: какой элемент пользователь просматривал до и после текущего.
Мультимедиа факторы: Тип медиа-элемента (видео, веб-страница, аудио) используется для сегментации анализа и агрегации данных из разных источников.

Какие метрики используются и как они считаются

В патенте описаны две основные метрики:

Co-interaction Score (Оценка совместного взаимодействия):
- Что измеряет: Связь между двумя медиа-элементами (Item A и Item B).
- Как считается: Подсчет количества раз, когда пользователи взаимодействовали с Item A и Item B в непосредственной близости.
- Весовые коэффициенты: Используется взвешивание. Прямые взаимодействия (переход от A к B) имеют больший вес (например, 1.0). Косвенные взаимодействия (A -> X -> B) имеют меньший вес (например, 0.8), который может уменьшаться с увеличением степени разделения (количества промежуточных кликов) или времени между взаимодействиями.
Relatedness Score (Оценка связанности):
- Что измеряет: Связь между двумя сущностями (Entity 1 и Entity 2).
- Как считается: Агрегация (например, суммирование) всех Co-interaction Scores между медиа-элементами, связанными с Entity 1, и медиа-элементами, связанными с Entity 2.
- Ключевая особенность: Агрегация происходит по разным типам медиа (например, сумма Co-interaction Scores от видео + сумма Co-interaction Scores от веб-страниц).

Выводы

Связь сущностей определяется поведением пользователей: Патент подтверждает, что Google активно использует поведенческие данные (co-interaction) для понимания того, как связаны сущности в реальном мире. Это не только анализ текста или ссылок, но и анализ того, как пользователи потребляют контент по связанным темам.
Кросс-медийный анализ (Cross Media Analysis) критически важен: Система специально разработана для агрегации сигналов из разных типов контента. Поведение пользователей на веб-сайте может влиять на рекомендации видео на YouTube, и наоборот. Это предвестник современных кросс-модальных систем (MUM).
Решение проблемы «холодного старта»: Механизм позволяет генерировать рекомендации для абсолютно нового контента. Если система знает сущность нового контента, она может использовать историю взаимодействий с другими (старыми) элементами, связанными с этой же сущностью.
Важность идентификации сущностей: Для работы системы необходимо, чтобы контент был четко ассоциирован с конкретными сущностями. Это подчеркивает важность семантической оптимизации и структурированных данных для всех типов контента.
Взвешивание взаимодействий: Не все взаимодействия одинаковы. Прямые переходы между связанным контентом являются более сильным сигналом связанности, чем косвенные (с задержкой по времени или промежуточными кликами).

Практика

Best practices (это мы делаем)

Оптимизация всех активов вокруг сущностей (Entity-Based SEO): Обеспечьте четкую и последовательную ассоциацию с ключевыми сущностями во всех типах контента (веб-сайт, YouTube-канал). Используйте согласованные метаданные, семантическую разметку (Schema.org) и однозначные термины.
Построение тематического авторитета (Topical Authority): Создавайте контент, покрывающий не только основную сущность, но и связанные с ней вторичные сущности, которые интересуют вашу аудиторию. Это увеличивает вероятность того, что ваш контент будет рекомендован, когда пользователи взаимодействуют с контентом по смежным темам.
Стимулирование положительных паттернов Co-interaction: Проектируйте пользовательский путь (User Journey) так, чтобы стимулировать прямые переходы между связанным контентом. Используйте внутреннюю перелинковку, плейлисты, серии статей. Прямые взаимодействия имеют больший вес.
Кросс-канальное продвижение и связывание: Активно связывайте контент разных типов. Встраивайте релевантные видео в статьи на сайте, ставьте ссылки из описаний видео на подробные материалы на сайте. Это помогает Google агрегировать Co-interaction Scores из разных источников.

Worst practices (это делать не надо)

Изолированная работа с каналами: Рассмотрение SEO для веб-сайта и YouTube SEO как отдельных, не связанных процессов. Патент доказывает, что данные о поведении агрегируются между ними.
Кликбейт и обман ожиданий: Создание контента, который привлекает клик, но не удовлетворяет интент. Это приводит к быстрым отказам и негативным паттернам co-interaction (пользователь быстро уходит искать другой контент), что может ослабить сигналы связанности.
Нечеткая семантика и Keyword Stuffing: Фокусировка на ключевых словах без четкой ассоциации с конкретными сущностями. Если система не может идентифицировать основные сущности контента, она не сможет использовать его в этом механизме рекомендаций.

Стратегическое значение

Этот патент подчеркивает стратегический переход Google к семантическому пониманию контента через призму сущностей и поведения пользователей. Он демонстрирует, что для Google важно не только содержание страницы или видео, но и то, как этот контент вписывается в общую картину потребления информации пользователем. Долгосрочная SEO-стратегия должна фокусироваться на создании экосистемы качественного контента разных форматов, объединенного общими сущностями и удовлетворяющего связанные интенты пользователя.

Практические примеры

Сценарий: Рекомендации для нового видео (Cold Start)

Ситуация: Кулинарный блогер публикует новое видео «Как приготовить идеальный Рамен» (Item A). У видео 0 просмотров.
Идентификация Сущности: Система идентифицирует основную сущность: «Рамен» (Entity 1).
Анализ Истории Сущности (Кросс-медиа): Система анализирует другие медиа-элементы, связанные с «Рамен». Она находит популярные статьи (Item B, веб-тип) и другие видео (Item C, видео-тип) на эту тему.
Анализ Co-interaction: Система видит, что пользователи, которые читали статьи (Item B) и смотрели видео (Item C) о Рамене, часто затем взаимодействовали с контентом о «Маринованных яйцах для Рамена» (Item D, E).
Расчет Связанности: Система агрегирует Co-interaction Scores от видео и веб-страниц и определяет высокую Relatedness Score между сущностью «Рамен» (Entity 1) и сущностью «Маринованные яйца» (Entity 2).
Рекомендация: Когда пользователь смотрит новое видео (Item A), система рекомендует существующие популярные видео о «Маринованных яйцах» (связанные с Entity 2), несмотря на то, что с самим Item A еще не было взаимодействий.

Вопросы и ответы

Влияет ли этот патент на ранжирование в основном веб-поиске Google (10 синих ссылок)?

Патент напрямую описывает работу рекомендательных систем (например, YouTube, Discover). Однако механизм, лежащий в его основе — расчет связанности сущностей (Relatedness Score) на основе поведения пользователей (Co-interaction) — имеет фундаментальное значение для построения и уточнения Графа Знаний (Knowledge Graph). А Граф Знаний критически важен для современного семантического поиска.

В чем разница между Co-interaction Score и Relatedness Score?

Co-interaction Score измеряет связь между двумя конкретными единицами контента (например, между Видео А и Видео Б) на основе того, как часто пользователи просматривают их друг за другом. Relatedness Score измеряет связь между двумя сущностями (например, между «Apple» и «iPhone»). Он рассчитывается путем агрегации всех Co-interaction Scores между всеми медиа-элементами, связанными с этими двумя сущностями, из разных типов медиа.

Как именно этот механизм решает проблему «холодного старта» для нового контента?

Новый контент не имеет собственной истории взаимодействий. Вместо этого система идентифицирует сущности, связанные с этим новым контентом. Эти сущности уже имеют историю, основанную на взаимодействиях с другим, более старым контентом (даже других типов). Система использует эту историю сущности для генерации рекомендаций, эффективно обходя отсутствие истории у самого нового элемента.

Что такое «Cross Media Type» анализ и что он значит для SEO?

Это означает, что система агрегирует данные о поведении пользователей как из видео, так и из веб-страниц (и других типов) для расчета связанности сущностей. Для SEO это значит, что поведение пользователей на вашем сайте может напрямую влиять на то, как и где будут рекомендованы ваши видео на YouTube, и наоборот. Стратегия должна быть комплексной.

Что важнее: прямое или косвенное взаимодействие (direct vs indirect interaction)?

Патент явно указывает (Claim 8), что прямое взаимодействие (пользователь перешел от Элемента А сразу к Элементу Б) вносит больший вклад в Co-interaction Score, чем косвенное (переход через несколько промежуточных кликов или с задержкой по времени). Это подчеркивает важность создания прямых и очевидных путей для пользователя между связанным контентом.

Как SEO-специалист может повлиять на Co-interaction Scores?

Путем оптимизации пользовательского опыта и управления путем пользователя. Используйте эффективную внутреннюю перелинковку, создавайте серии контента, плейлисты, предлагайте релевантные следующие шаги (Call to Action). Цель состоит в том, чтобы удержать пользователя в рамках вашей экосистемы контента, проводя его по связанным темам и стимулируя прямые взаимодействия.

Как убедиться, что Google правильно идентифицирует сущности моего контента?

Используйте четкий и недвусмысленный язык в заголовках, описаниях и основном тексте. Применяйте структурированные данные (Schema.org) для веб-страниц, чтобы явно указать на основные сущности. Для видео используйте релевантные теги, подробные описания и транскрипцию/субтитры.

Если у меня есть популярный сайт, поможет ли это моему новому YouTube-каналу?

Да, потенциально. Если и сайт, и канал связаны с одними и теми же сущностями, система может использовать данные о co-interaction с вашего популярного сайта для расчета Relatedness Scores. Эти оценки затем могут быть использованы для генерации рекомендаций для ваших новых видео, помогая им преодолеть проблему «холодного старта».

Учитывает ли система взаимодействия между разными типами контента (например, клик с веб-страницы на видео)?

Патент описывает разные варианты. В основном варианте (Claim 1) взаимодействия отслеживаются внутри одного типа (веб-веб, видео-видео), а затем агрегируются на уровне сущностей. Однако в описании патента упоминается возможность отслеживания взаимодействий напрямую между разными типами (веб-видео). В любом случае, финальная оценка связанности сущностей учитывает данные из разных источников.

Ограничивается ли система только видео и веб-страницами?

Нет. В Claims 1 для примера используются видео и веб-страницы, но в описании патента упоминается, что система может применяться к любым типам медиа-элементов, включая аудиофайлы (музыка, подкасты), документы, мультимедийные презентации и цифровые покупки товаров и услуг. Ключевым является принцип агрегации данных из разных источников.