Как Google персонализирует поиск медиаконтента, определяя его доступность на основе подписок и покупок пользователя

Google индексирует медиаконтент (фильмы, сериалы) из разных источников (стриминги, ТВ-каналы) и определяет, к чему у конкретного пользователя есть доступ (подписки, покупки). При поиске система фильтрует результаты, показывая только доступный контент, и предоставляет агрегированную информацию (например, количество доступных эпизодов или оставшееся время аренды).

Описание

Какую задачу решает

Патент решает проблему фрагментации медиаконтента в условиях множества источников (стриминговые сервисы, кабельное/спутниковое ТВ, локальные устройства). Пользователю сложно быстро определить, доступен ли искомый контент (фильм, сериал) через его текущие подписки, покупки или устройства. Система улучшает пользовательский опыт, предоставляя персонализированную и агрегированную информацию о доступности медиа.

Что запатентовано

Запатентована система для агрегации, индексации и персонализированного поиска медиаконтента. Система создает централизованный индекс медиа-объектов (Search Index) и базу данных их доступности на разных платформах (Availability Database). Ключевая функция — фильтрация результатов поиска на основе того, к каким источникам контента (Content Sources) у конкретного пользователя есть доступ (например, подписки, купленные права).

Как это работает

Система работает в двух режимах:

Офлайн-обработка (Индексирование): Система собирает метаданные от провайдеров и через веб-краулинг. Модуль Content Mapping Module анализирует данные, идентифицирует уникальные медиа-объекты (дедупликация), присваивает им идентификаторы (Content Identifiers) и формирует Search Index и Availability Database.
Онлайн-обработка (Поиск): Система получает запрос и определяет список источников, доступных пользователю (на основе его профиля или данных устройства). Модуль Availability Module ищет контент в Search Index, а затем фильтрует его через Availability Database, оставляя только доступные объекты. Система также вычисляет сводную информацию (Aggregate Information), например, количество доступных эпизодов, и возвращает ее пользователю.

Актуальность для SEO

Высокая. В условиях фрагментации рынка стриминговых сервисов агрегаторы (такие как Google TV, Chromecast) активно используют подобные механизмы для централизации поиска. Функции типа «Смотреть сейчас» (Watch Now) в Панелях Знаний Google Поиска также опираются на эту инфраструктуру. Хотя приоритетная дата заявки 2011 год, патент был выдан в 2024 году как продолжение (continuation), что подчеркивает сохраняющуюся актуальность этой технологии.

Важность для SEO

Влияние на традиционное SEO (ранжирование веб-страниц) минимально. Однако этот патент имеет высокое значение для Video SEO, Entity SEO и оптимизации контента для провайдеров (стриминговые сервисы, ТВ-каналы). Он описывает инфраструктуру, которую Google использует для понимания, организации и отображения медиа-сущностей. Понимание этого механизма критически важно для обеспечения видимости медиаконтента в вертикальном поиске Google и на платформах типа Google TV.

Детальный разбор

Термины и определения

Accessible Content Sources (Доступные источники контента): Источники контента, к которым у пользователя есть доступ. Определяется наличием подписки, купленных прав или соответствующих устройств.
Aggregate Information (Агрегированная информация): Сводная информация о доступности медиа-объекта или серии, рассчитанная на основе всех доступных пользователю экземпляров. Примеры: количество доступных эпизодов, самый новый/старый эпизод, полнота серии, количество источников, статус аренды/покупки.
Availability Database (База данных доступности): Хранилище, индексируемое по Content Identifiers и источникам контента. Содержит информацию о том, где, когда и как доступен конкретный экземпляр медиа-объекта.
Availability Module (Модуль доступности): Компонент, отвечающий за обработку запроса, фильтрацию доступных медиа-объектов и расчет Aggregate Information.
Content Identifier (Content ID) (Идентификатор контента): Уникальный идентификатор, присваиваемый системой медиа-объекту (например, эпизоду) или серии (например, сериалу) после дедупликации.
Content Mapping Module (Модуль сопоставления контента): Компонент, отвечающий за обработку входящих метаданных, идентификацию уникальных медиа-объектов (Entity Resolution), присвоение Content Identifiers и наполнение индексов.
Content Source (Источник контента): Конкретный источник медиа-объектов (например, ТВ-канал, веб-сайт, стриминговый сервис, локальный DVR).
Instance of a Media Item (Экземпляр медиа-объекта): Конкретная версия медиа-объекта, доступная в определенное время на определенном источнике (например, «Симпсоны С1Э1 на Hulu» или «Симпсоны С1Э1 в 20:00 на канале FOX»).
Search Index (Поисковый индекс): Индекс, содержащий метаданные медиа-объектов, используемый для быстрого поиска контента по запросу.
Web Crawler Module (Модуль веб-краулера): Компонент для сбора метаданных о медиа-объектах с веб-страниц.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс персонализированного поиска медиа.

Система получает информацию об источниках контента, доступных пользователю (определяются как источники, на которые есть подписка или куплены права).
Получается поисковый запрос.
Идентифицируются экземпляры медиа-объектов, соответствующие запросу (путем запроса к индексу медиа-объектов).
Выполняется фильтрация этих экземпляров для определения подмножества, которое доступно на разрешенных источниках. Фильтрация происходит путем запроса к Availability Database с использованием Content Identifiers для определения источников, к которым у пользователя есть доступ (подписка/права).
Информация об этом подмножестве доступных экземпляров передается на клиентское устройство.

Claim 3 и 5 (Зависимые): Детализируют офлайн-процесс создания баз данных.

Claim 3 описывает создание Search Index: получение метаданных, идентификация уникальных медиа-объектов (дедупликация), присвоение Content Identifier и сохранение в индексе. Claim 5 описывает создание Availability Database: для каждого экземпляра сохраняется его источник, Content Identifier и метаданные о доступности.

Claim 6 (Зависимый): Описывает способ получения информации о доступных источниках.

Информация о доступных источниках получается из профиля пользователя, хранящегося на сервере.

Claim 7 (Зависимый от 1): Вводит понятие агрегированной информации.

Система определяет Aggregate Information для медиа-объектов на основе их доступных экземпляров и передает ее на клиентское устройство.

Claims 8-17 (Зависимые от 7): Детализируют типы Aggregate Information.

Для серий (Claims 8-11): количество доступных уникальных эпизодов, самый новый/старый эпизод, полнота серии (completeness). Для отдельных объектов (Claims 12-17): количество уникальных источников, наиболее популярный источник (most frequently selected), временные рамки доступности (текущие и будущие), статус аренды (и оставшееся время) или статус покупки.

Где и как применяется

Изобретение описывает инфраструктуру для специализированного вертикального поиска медиаконтента (например, Google TV) и затрагивает несколько этапов.

CRAWLING – Сканирование и Сбор данных
Система использует Metadata Importer Modules для получения данных от провайдеров и Web Crawler Module для сбора метаданных с веб-страниц.

INDEXING – Индексирование и извлечение признаков
Основной этап офлайн-обработки. Content Mapping Module выполняет разрешение сущностей (Entity Resolution), чтобы идентифицировать уникальные медиа-объекты. Присваиваются Content Identifiers. Создаются два ключевых хранилища: Search Index (для поиска по метаданным) и Availability Database (для отслеживания доступности).

QUNDERSTANDING / RANKING (в контексте медиа-поиска)
Система обрабатывает запрос и использует Search Index для первичного поиска релевантных медиа-объектов (Retrieval). Также на этом этапе критично получение контекста пользователя — информации о его Accessible Content Sources (часто из профиля пользователя).

RERANKING / METASEARCH (Персонализация и Агрегация)
Ключевой этап применения патента. Availability Module использует данные о пользователе (Accessible Content Sources) для фильтрации результатов через Availability Database. После фильтрации система генерирует Aggregate Information и формирует финальную персонализированную выдачу.

Входные данные:

Поисковый запрос пользователя.
Информация о доступных пользователю источниках контента (Accessible Content Sources).
Метаданные от провайдеров и из веба (для индексации).

Выходные данные:

Отфильтрованный список медиа-объектов, доступных пользователю.
Aggregate Information для этих объектов.

На что влияет

Конкретные типы контента: Влияет исключительно на медиаконтент (фильмы, сериалы, музыка, игры). Не влияет на ранжирование веб-страниц.
Специфические запросы: Информационные и транзакционные запросы, связанные с поиском медиаконтента.
Форматы выдачи: Влияет на формирование выдачи в специализированных интерфейсах (Google TV) и в блоках основного поиска (Knowledge Panel с функциями «Смотреть сейчас»).

Когда применяется

Триггеры активации: Поисковый запрос, интерпретированный как намерение найти медиаконтент.
Условия применения: Алгоритм фильтрации применяется, когда у системы есть данные о доступе пользователя к источникам контента (полученные из профиля пользователя или переданные клиентским устройством).

Пошаговый алгоритм

Процесс А: Офлайн-индексация контента

Сбор метаданных: Система получает метаданные об экземплярах медиа-объектов от поставщиков контента или через веб-краулер.
Дедупликация и Маппинг (Entity Resolution): Content Mapping Module анализирует метаданные для идентификации уникальных медиа-объектов.
Присвоение идентификаторов: Каждому уникальному медиа-объекту присваивается Content Identifier.
Индексация Сущностей: Уникальные медиа-объекты и их общие метаданные сохраняются в Search Index.
Индексация Доступности: Информация о каждом конкретном экземпляре (включая источник контента, время доступности и Content Identifier) сохраняется в Availability Database.

Процесс Б: Обработка запроса в реальном времени

Получение Запроса и Данных Пользователя: Система получает поисковый запрос и определяет список Accessible Content Sources для данного пользователя (например, из профиля пользователя).
Поиск Сущностей (Retrieval): Система выполняет запрос к Search Index для нахождения релевантных медиа-объектов и их Content Identifiers.
Фильтрация Доступности: Система выполняет запрос к Availability Database, используя найденные Content Identifiers и список доступных источников пользователя. Определяется набор экземпляров, которые пользователь может воспроизвести.
Агрегация Информации: Система генерирует Aggregate Information на основе набора доступных экземпляров (например, подсчитывает количество доступных эпизодов сериала).
Формирование Выдачи: Система передает клиенту результаты поиска и агрегированную информацию.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке метаданных медиаконтента и данных пользователя.

Контентные факторы (Метаданные медиа): Название, описание (synopsis), список актеров, режиссеров, жанр, дата первого показа (first air date), принадлежность к сериалу. Эти данные используются для дедупликации и поиска.
Временные факторы: Даты и время доступности конкретного экземпляра (расписание вещания, срок действия лицензии в стриминге), оставшееся время аренды.
Пользовательские факторы: Профиль пользователя или данные с устройства, определяющие Accessible Content Sources (наличие подписок, история покупок или аренды).
Коммерческие факторы: Стоимость экземпляра (Cost), условия доступа.

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования. Он фокусируется на метриках для генерации Aggregate Information, которые вычисляются путем анализа доступных экземпляров:

Метрики агрегации сериалов:
- Количество уникальных экземпляров (Number of unique instances): Подсчет доступных эпизодов.
- Самый новый/старый экземпляр (Most recent/Oldest instance).
- Полнота (Completeness): Определение, все ли эпизоды сериала доступны пользователю.
Метрики агрегации медиа-объектов:
- Количество уникальных источников (Number of unique content sources).
- Наиболее часто выбираемый источник (Most frequently selected content source): Определение предпочтительной платформы (популярной среди пользователей).
Метрики доступности:
- Периоды доступности (Time periods) и будущее время доступности (Future time).
- Оставшееся время аренды (Remaining time) и дата покупки (Date purchased).

Выводы

Персонализация доступности в медиа-поиске: Основная цель патента — не ранжирование контента по качеству, а фильтрация по доступности для конкретного пользователя. Система гарантирует, что пользователь видит только тот контент, который он может воспроизвести через свои подписки или устройства.
Критическая роль Entity Resolution: Успех системы зависит от способности Content Mapping Module точно идентифицировать уникальные медиа-объекты из фрагментированных метаданных разных источников. Это подчеркивает важность разрешения сущностей в архитектуре поиска Google.
Инфраструктура для вертикального поиска: Патент описывает создание специализированной инфраструктуры (Search Index и Availability Database), отделенной от основного веб-индекса, для эффективной обработки медиаконтента.
Важность агрегированной информации (Aggregate Information): Система не просто показывает список доступных элементов, но и предоставляет сводную информацию (например, «Доступно 24 эпизода, включая 1 новый на этой неделе»), что значительно улучшает UX.
Зависимость от качества метаданных: Эффективность системы напрямую зависит от полноты и точности метаданных, получаемых от провайдеров и собираемых веб-краулером.

Практика

ВАЖНО: Патент описывает инфраструктуру медиа-поиска. Применение в традиционном веб-SEO ограничено. Рекомендации ниже предназначены для SEO-специалистов, работающих с поставщиками медиаконтента (стриминговые сервисы, онлайн-кинотеатры) и агрегаторами.

Best practices (это мы делаем)

Предоставление полных и точных метаданных (для провайдеров): Критически важно предоставлять Google (через фиды, например, Media Actions, или структурированную разметку) максимально полные метаданные. Это необходимо для корректной работы Content Mapping Module и попадания контента в Availability Database.
Передача точных данных о доступности: Необходимо передавать актуальную информацию о времени доступности (лицензионные окна), стоимости и условиях доступа. Это гарантирует корректное отображение данных в Aggregate Information.
Использование детальной микроразметки Schema.org (для SEO): Для веб-сайтов, публикующих информацию о медиаконтенте, необходимо внедрять точную разметку (Movie, TVSeries, TVEpisode). Это помогает Web Crawler Module собирать корректные данные и улучшает процесс Entity Resolution.
Обеспечение консистентности сущностей: Поддерживайте консистентность в названиях, нумерации эпизодов и идентификации персонала на всех платформах. Использование стандартных идентификаторов (например, EIDR) может помочь Google более точно дедуплицировать контент.

Worst practices (это делать не надо)

Предоставление противоречивых или неполных метаданных: Если данные о контенте в разных источниках или фидах противоречат друг другу, это приведет к ошибкам в маппинге. Контент не будет корректно агрегирован.
Задержка в обновлении данных о доступности: Если контент перестал быть доступен, но данные в Availability Database не обновились (из-за задержек в обновлении фидов), это приведет к негативному пользовательскому опыту.
Игнорирование структурированных данных для медиа: Полагаться только на неструктурированный текст на странице неэффективно для систем, описанных в патенте.

Стратегическое значение

Патент подтверждает стратегию Google по организации информации о сущностях и созданию специализированных вертикалей поиска. Он демонстрирует, как Google стремится стать центральным хабом для обнаружения медиаконтента, интегрируясь с экосистемой подписок пользователя. Для SEO это подчеркивает стратегическую важность работы с сущностями (Entity SEO), предоставления структурированных данных и оптимизации под специализированные интерфейсы поиска (Knowledge Panels, Google TV).

Практические примеры

Сценарий: Оптимизация видимости нового сериала на стриминговой платформе

Задача: Гарантировать, что Google корректно индексирует все эпизоды сериала и показывает их доступность подписчикам платформы.
Действия (Технические):
1. Подготовить детальный фид метаданных (например, Google Media Actions Feed), включающий уникальные идентификаторы, точные названия, нумерацию сезонов/эпизодов и точные окна доступности.
2. На веб-сайте платформы внедрить микроразметку TVSeries и TVEpisode, используя @id для связи сущностей. Указать доступность через potentialAction (WatchAction) и offers.
Действия (Контентные): Обеспечить консистентность названий и метаданных в фиде, на сайте и в маркетинговых материалах.
Ожидаемый результат: Content Mapping Module корректно идентифицирует сериал. Availability Database содержит точную информацию о доступности. При поиске сериала подписчики платформы увидят в результатах (Google TV или Knowledge Panel) корректную Aggregate Information («Доступно 10 эпизодов на [Платформа]») и смогут перейти к просмотру.

Вопросы и ответы

Влияет ли этот патент на ранжирование веб-страниц в основном поиске Google?

Нет, напрямую не влияет. Патент описывает систему для специализированного вертикального поиска медиаконтента (фильмы, сериалы) и фокусируется на фильтрации результатов по доступности для конкретного пользователя, а не на ранжировании веб-страниц. Это инфраструктура для платформ типа Google TV или медиа-блоков в Knowledge Panels.

Как Google узнает, на какие сервисы я подписан или где я купил фильм?

Система определяет Accessible Content Sources несколькими способами. Она может получать эту информацию напрямую от клиентского устройства (например, Google TV знает, какие приложения активны) или из централизованного профиля пользователя Google (Claim 6), где хранятся данные о подписках, связанных аккаунтах и покупках.

Что такое Content Mapping Module и какова его роль в SEO?

Content Mapping Module — это система разрешения сущностей (Entity Resolution). Его задача — понять, что данные из разных источников относятся к одному и тому же медиа-объекту (например, что фильм на Netflix и тот же фильм на HBO Max — это одна сущность). Для SEO это подчеркивает важность предоставления консистентных и точных структурированных данных (Schema.org или фиды), чтобы помочь Google корректно идентифицировать сущность.

Как я могу использовать этот патент для улучшения Video SEO?

Ключевой вывод — важность точных метаданных. Убедитесь, что ваши видео и информация о них размечены с помощью детальной микроразметки (VideoObject, Movie, TVEpisode). Консистентность названий, дат выпуска и описаний помогает Web Crawler Module собирать точные данные, что улучшает шансы на корректную индексацию и отображение в медиа-ориентированных результатах поиска.

Что такое Aggregate Information в контексте этого патента?

Это сводная информация о доступности контента, персонализированная для пользователя. Например, система покажет одну запись о сериале с пометкой: «Доступно 24 эпизода, включая 1 новый на этой неделе» или для фильма «Доступно на 2 источниках». Это результат анализа всех доступных пользователю экземпляров контента.

В чем разница между Search Index и Availability Database?

Search Index хранит общие метаданные о медиа-сущностях (фильмах, сериалах) и используется для определения того, соответствует ли элемент поисковому запросу. Availability Database хранит информацию о конкретных экземплярах (Instances) — где, когда и на каких условиях доступна эта сущность. Система сначала ищет в Search Index, а затем фильтрует результаты через Availability Database.

Использует ли система данные о популярности контента или источников?

Да, патент упоминает определение «наиболее часто выбираемого источника» (most frequently selected content source) как один из видов Aggregate Information (Claim 13). Это предполагает, что система анализирует поведенческие данные, чтобы определить, какие источники пользователи предпочитают, и может подсвечивать эти источники в выдаче.

Как обрабатывается контент, который доступен только в определенное время?

Availability Database хранит информацию о временных метках. Система может определять текущие временные периоды доступности (например, «Доступно еще 3 дня») и будущую доступность (например, «Доступно со следующего вторника»). Эта информация также включается в Aggregate Information.

Может ли эта система отслеживать арендованный или купленный контент?

Да. Система может определять, что медиа-объект был ранее куплен пользователем или находится в аренде. Для арендованного контента система рассчитывает оставшееся время доступности и отображает эту информацию пользователю (например, «Арендовано на YouTube, доступно еще 24 часа»).

Насколько важен этот патент, учитывая его возраст (приоритет 2011 года)?

Несмотря на возраст исходной заявки, патент имеет высокую актуальность. Он описывает базовую архитектуру для агрегации медиаконтента. Тот факт, что Google подал заявку на продолжение (continuation) и получил патент в 2024 году, указывает на то, что описанные механизмы по-прежнему являются ключевой частью их стратегии в области медиа-поиска (например, Google TV).