Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует историю просмотра фильмов и прослушивания музыки для персонализации поиска и ответов на контекстные запросы

    QUERY RESPONSE USING MEDIA CONSUMPTION HISTORY (Ответ на запрос с использованием истории потребления медиаконтента)
    • US20240248927A1
    • Google LLC
    • 2024-07-25
    • 2013-10-07
    2013 Matthew Sharifi Мультимедиа Патенты Google Персонализация Поведенческие сигналы

    Google патентует систему, которая создает детальную историю потребления медиаконтента пользователем (фильмы, музыка, ТВ) из разных источников (чеки, история просмотров, распознавание аудио). Эта история используется для персонализации результатов поиска по сущностям (например, актерам) и для ответов на неоднозначные запросы во время просмотра контента (например, «Где я видел этого актера раньше?»), используя данные окружающей среды для понимания контекста.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неоднозначности запросов, связанных с медиаконтентом, и разрыва между общими результатами поиска и персональной историей взаимодействия пользователя с контентом. Система позволяет отвечать на контекстно-зависимые вопросы (например, «Где я видел этого актера раньше?» во время просмотра фильма), на которые невозможно ответить без понимания того, что пользователь смотрит сейчас и что он смотрел в прошлом. Также улучшается релевантность стандартных поисковых запросов о сущностях (актерах, музыкантах) за счет добавления персонального контекста потребления.

    Что запатентовано

    Запатентована система для создания и использования детализированной Media Consumption History (Истории потребления медиаконтента) пользователя. Система агрегирует данные о просмотренных фильмах, прослушанной музыке и т.д. из множества источников (история браузера, чеки, социальные сети, распознавание аудио). Эта история используется для персонализации ответов на запросы. Ключевым элементом является механизм обработки естественных языковых запросов с использованием Environmental Data (данных окружающей среды, например, ambient audio) для определения текущего контекста пользователя и идентификации сущностей, о которых он спрашивает.

    Как это работает

    Система работает в двух основных режимах:

    • Сбор данных и построение истории: Consumption Analysis Engine постоянно собирает сигналы из разных источников (Netflix history, email receipts, audio recognition apps) и строит профиль потребления, включающий контент, связанные сущности (актеры, режиссеры), время и место потребления.
    • Обработка запросов:
      • Стандартный поиск: При поиске сущности (например, «Джастин Тимберлейк») система проверяет Media Consumption History и дополняет выдачу персональными данными (например, «Вы видели его концерт 3 марта»).
      • Контекстный поиск: При получении неоднозначного запроса (например, «Где я видел этого актера?») система анализирует Environmental Data для идентификации текущего контента (например, фильма «World War Z») и сущности (например, «Брэд Питт»). Затем она ищет эту сущность в истории потребления и формирует персонализированный ответ (например, «Вы также видели Брэда Питта в “Moneyball”»).

    Актуальность для SEO

    Высокая. Хотя эта публикация 2024 года является продолжением заявок, поданных начиная с 2013 года (многие из которых уже стали выданными патентами, например, US9477709), описанные технологии лежат в основе современных систем персонализации, контекстного понимания и работы голосовых ассистентов (Google Assistant) и платформ (Google TV). Сбор данных о потреблении контента для персонализации является ключевой стратегией Google.

    Важность для SEO

    Влияние на SEO оценивается как среднее-высокое (6.5/10), особенно для ниш медиа, развлечений и электронной коммерции. Патент не описывает алгоритмы ранжирования органической выдачи, но критически важен для понимания персонализации и сущностей (Entities). Он описывает механизмы, которые могут удовлетворять интент пользователя напрямую через персонализированные блоки (например, в Knowledge Panel), потенциально снижая CTR органических результатов. Это подчеркивает важность оптимизации под сущности и использования структурированных данных для медиаконтента.

    Детальный разбор

    Термины и определения

    Media Consumption History (История потребления медиаконтента)
    База данных, хранящая записи о медиаконтенте (фильмы, музыка, ТВ-шоу, книги), который пользователь потребил. Включает метаданные: время, место, источник данных и связанные сущности.
    Environmental Data (Данные окружающей среды)
    Данные, полученные с устройства пользователя в реальном времени для определения контекста. Включают ambient audio (окружающий звук), видео или изображения. Используются для идентификации контента, воспроизводимого в данный момент.
    Entity (Сущность)
    Идентифицируемый объект, связанный с медиаконтентом. Примеры: актеры, музыканты, режиссеры, писатели, продюсерские компании, саундтреки. В контексте патента сам медиа-элемент также может рассматриваться как сущность.
    Entity Type (Тип сущности)
    Категоризация сущности (например, «актер», «певец», «режиссер»). Используется для disambiguation (разрешения неоднозначности) запросов.
    Natural Language Query (Запрос на естественном языке)
    Запрос, введенный пользователем в свободной форме (голосом или текстом), часто неоднозначный и зависящий от контекста (например, «Кто этот актер?»).
    Consumption Analysis Engine / Classifier Engine (Механизм анализа потребления / Классификатор)
    Компонент системы, который обрабатывает данные из различных источников, идентифицирует потребленный контент, извлекает связанные сущности и метаданные для сохранения в Media Consumption History.
    Content Recognition Engine (Механизм распознавания контента)
    Компонент, анализирующий Environmental Data (например, с помощью audio fingerprinting) для идентификации контента, воспроизводимого в окружении пользователя в данный момент.
    Query Disambiguation Engine (Механизм разрешения неоднозначности запросов)
    Компонент, который анализирует Natural Language Query, часто в сочетании с Environmental Data, для определения конкретной сущности (Queried Entity), которую имел в виду пользователь.

    Ключевые утверждения (Анализ Claims)

    Анализ основан на Claims публикации US20240248927A1.

    Claim 1 (Независимый пункт): Описывает метод ответа на контекстный запрос с использованием истории потребления.

    1. Система получает запрос от пользователя через устройство, который запрашивает сущность, но не содержит терминов, уникально ее идентифицирующих (например, «этот актер»).
    2. Система получает Environmental Data из окружения устройства.
    3. Запрос разрешается (disambiguated) с использованием Environmental Data для идентификации конкретной сущности, связанной с определенным типом контента.
    4. На основе типа контента сущности извлекается история потребления пользователя, связанная с этой сущностью.
    5. Идентифицируются другие элементы контента, связанные с этой сущностью, на основе истории потребления.
    6. Предоставляется ответ на запрос, включающий эти другие элементы контента и их соответствующие местоположения (Location Consumed).

    Ядро изобретения — это использование данных окружающей среды для разрешения неоднозначности запроса и последующее использование персональной истории потребления для формирования ответа.

    Claim 3 (Зависимый от 2): Детализирует обработку голосового запроса (spoken utterance).

    1. Используется Speech Recognition Engine.
    2. Генерируется транскрипция с помощью ASR (автоматического распознавания речи).
    3. Анализируется текст транскрипции для определения типа сущности (Entity Type).

    Claim 4 (Зависимый от 3): Детализирует определение типа сущности.

    1. Термины транскрипции сравниваются с ключевыми фразами (keyword phrases), связанными с типами сущностей.
    2. Тип сущности определяется, если термины транскрипции совпадают с определенной ключевой фразой.

    Claim 6 (Зависимый от 1): Уточняет содержание ответа.

    Ответ на запрос также включает соответствующие временные данные (Time Consumed) для других элементов контента.

    Claim 7 (Зависимый от 1): Уточняет источник Environmental Data.

    Environmental Data включают медиа-элемент, который воспроизводится в окружении пользовательского устройства.

    Где и как применяется

    Изобретение затрагивает несколько этапов работы поисковой системы и сбора данных.

    CRAWLING – Сканирование и Сбор данных (Data Acquisition)
    Это ключевой этап для данного патента. Система активно собирает данные не из публичного веба, а из персональных источников пользователя для построения Media Consumption History. Источники включают API стриминговых сервисов (Netflix, Spotify), анализ электронной почты (чеки, билеты), историю браузера, данные приложений аудио-распознавания и активность в социальных сетях.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит обработка собранных данных потребления. Consumption Analysis Engine классифицирует контент, извлекает и связывает сущности (актеров, режиссеров) с потребленными единицами контента, нормализует данные о времени и месте. Также, для работы системы, Google должен иметь проиндексированный и размеченный медиаконтент (например, в Knowledge Graph), чтобы знать, какие сущности связаны с какими фильмами или песнями.

    QUNDERSTANDING – Понимание Запросов
    Основное применение патента. Система обрабатывает как стандартные запросы о сущностях, так и сложные контекстные Natural Language Queries. Для контекстных запросов используется Query Disambiguation Engine, который привлекает Environmental Data для определения контекста (что пользователь смотрит сейчас) и использует Speech Recognition и NLP для определения типа запрашиваемой сущности.

    METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
    На финальном этапе формирования выдачи система дополняет стандартные результаты (например, Knowledge Panel или результаты поиска) персонализированной информацией, извлеченной из Media Consumption History.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на медиаконтент: фильмы, ТВ-шоу, музыку, концерты, книги, подкасты.
    • Специфические запросы: Влияет на информационные запросы о сущностях (имена актеров, музыкантов, режиссеров) и на неоднозначные контекстные запросы, задаваемые через голосовых ассистентов во время потребления контента.
    • Определенные форматы контента: Влияет на отображение SERP Features, таких как Knowledge Panels, которые могут быть дополнены персональными данными о потреблении.

    Когда применяется

    • Триггеры активации (Стандартный поиск): Когда пользователь выполняет поиск по сущности (например, имени актера), и в его Media Consumption History есть записи, связанные с этой сущностью.
    • Триггеры активации (Контекстный поиск): Когда пользователь задает Natural Language Query, который система классифицирует как запрос о сущности, связанной с текущим контекстом (например, по наличию ключевых слов типа «актер», «песня»), и система имеет доступ к Environmental Data.

    Пошаговый алгоритм

    Процесс А: Построение Media Consumption History (Офлайн/Фоновый режим)

    1. Сбор данных: Система получает данные из различных источников (Television History Engine, Receipt History Engine, Audio Recognition Engine и др.).
    2. Анализ и Классификация: Classifier Engine обрабатывает данные. Идентифицируется конкретный медиа-элемент (например, фильм «The Social Network»).
    3. Извлечение метаданных: Определяются время, место потребления и источник данных.
    4. Извлечение сущностей: Идентифицируются связанные сущности (например, актеры Джастин Тимберлейк, Джесси Айзенберг) и им присваиваются уникальные идентификаторы (коды).
    5. Сохранение: Данные сохраняются в Media Consumption History в виде записей, связывающих пользователя, контент, сущности и метаданные.

    Процесс Б: Обработка контекстного запроса (Реальное время)

    1. Получение ввода: Система получает данные, кодирующие (i) Natural Language Query и (ii) Environmental Data (например, waveform data).
    2. Сегментация ввода: Disambiguation Engine Front-End разделяет запрос и данные окружающей среды.
    3. Идентификация текущего контента (Параллельно): Content Recognition Engine анализирует Environmental Data (например, через audio fingerprinting) и идентифицирует воспроизводимый медиа-элемент (например, фильм «World War Z»). Может быть также определен таймстамп.
    4. Определение типа сущности (Параллельно): Speech Recognition Engine транскрибирует запрос. Entity Disambiguation Engine анализирует транскрипцию (например, «Когда я видел этого актера раньше?») и определяет запрашиваемый тип сущности (например, «Актер»).
    5. Выбор конкретной сущности (Разрешение неоднозначности): Система сопоставляет тип сущности («Актер») с идентифицированным контентом («World War Z») и таймстампом. Выбирается конкретная сущность, соответствующая контексту (например, актер на экране в данный момент – «Брэд Питт»).
    6. Запрос к истории потребления: Content Consumption Engine ищет выбранную сущность («Брэд Питт») в Media Consumption History пользователя.
    7. Выбор потребленного контента: Идентифицируются другие медиа-элементы, потребленные пользователем и связанные с этой сущностью (например, «Moneyball», «Ocean’s Eleven»).
    8. Формирование ответа: Система формирует ответ, включающий идентифицированные медиа-элементы и метаданные (время/место потребления), и отправляет его на устройство пользователя.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на сборе и использовании персональных данных пользователя и контекстных данных.

    • Поведенческие факторы (История потребления): История просмотра стриминговых сервисов (Netflix, YouTube), история кабельного ТВ, история прослушивания музыки (Spotify), история покупок/аренды контента (Google Play, iTunes).
    • Финансовые данные (Косвенно): Электронные чеки (email receipts), данные о транзакциях по кредитным картам, билеты на концерты или в кино, подтверждающие факт потребления контента.
    • Социальные данные: Посты в социальных сетях о контенте, «check-ins» в местах потребления контента (кинотеатры, концертные залы), отметки (endorsements) контента.
    • Пользовательские факторы (Контекст): Natural Language Query (голосовой или текстовый ввод).
    • Сенсорные данные (Контекст): Environmental Data – ambient audio, видео или изображения, полученные с микрофона или камеры устройства в реальном времени.
    • Географические факторы: Местоположение пользователя в момент потребления контента (Location Consumed).
    • Временные факторы: Время и дата потребления контента (Time Consumed).

    Какие метрики используются и как они считаются

    Патент упоминает использование оценок для приоритизации результатов, но не детализирует их расчет.

    • Confidence Score (Оценка уверенности): Метрика, указывающая на вероятность того, что идентифицированный контент был действительно потреблен пользователем, и вероятность того, что он был потреблен полностью. Зависит от источника данных (например, чек надежнее, чем распознавание аудио).
    • Relevance Score (Оценка релевантности): Метрика, указывающая на степень заинтересованности пользователя в контенте или сущности, или степень связи между сущностью и контентом (например, главная роль актера имеет больший вес, чем эпизодическая). Используется для ранжирования (ranking) потребленного контента при ответе на запрос.

    Выводы

    1. Глубокая персонализация через историю потребления: Google активно строит детализированные профили потребления медиаконтента (Media Consumption History) для каждого пользователя, агрегируя данные из множества персональных источников, включая электронную почту, историю просмотров и социальные сети.
    2. Контекст как ключ к пониманию запроса: Система использует Environmental Data (окружающий звук/видео) для разрешения неоднозначности запросов в реальном времени. Это позволяет Google понимать, о чем именно спрашивает пользователь, даже если запрос не содержит явных идентификаторов (например, «этот актер»).
    3. Сущности как основа связи: Система функционирует на основе связи Сущностей (Entities) с медиаконтентом. Потребление контента рассматривается как взаимодействие с набором сущностей (актеры, режиссеры, музыканты).
    4. Влияние на SERP Features, а не на ранжирование: Описанные механизмы в первую очередь направлены на генерацию прямых ответов и обогащение SERP Features (таких как Knowledge Panels) персонализированной информацией, а не на изменение порядка «синих ссылок».
    5. Зависимость от структурированных данных: Для эффективной работы системы необходимо, чтобы медиаконтент был корректно размечен и связан с сущностями в базе знаний Google (Knowledge Graph).

    Практика

    Best practices (это мы делаем)

    • Максимально полное использование структурированных данных для медиа: Для сайтов с медиаконтентом (кинотеатры, стриминговые сервисы, музыкальные порталы, СМИ) критически важно использовать релевантную разметку Schema.org (Movie, TVSeries, MusicAlbum, MusicRecording). Необходимо четко указывать все связанные сущности через свойства actor, director, author, musicBy и связывать их с идентификаторами (например, через sameAs ссылки на Wikipedia/IMDb/MusicBrainz). Это помогает Google корректно ассоциировать контент с сущностями.
    • Оптимизация страниц сущностей: Создавайте авторитетные страницы для ключевых сущностей (актеров, режиссеров, групп). Если система Google идентифицирует сущность, ваш сайт должен быть релевантным ответом на запросы о ней.
    • Стимулирование идентификации потребления (для платформ): Если вы являетесь платформой распространения контента, убедитесь, что факты потребления легко идентифицируются Google (например, отправка структурированных email-подтверждений о покупке/просмотре, интеграция с Google TV). Это увеличит вовлеченность пользователей через поисковые продукты Google.

    Worst practices (это делать не надо)

    • Игнорирование разметки сущностей: Публикация медиаконтента без четкого указания связанных с ним людей и организаций затрудняет его обработку системами, подобными описанной в патенте.
    • Недооценка персонализации в медиа-нишах: Полагаться только на традиционные факторы ранжирования в нишах, где сильна персонализация. Необходимо учитывать, что часть интента может быть удовлетворена персонализированными блоками, основанными на истории потребления пользователя.

    Стратегическое значение

    Патент подтверждает стратегический фокус Google на гипер-персонализации и развитии контекстного поиска (Ambient Computing). Для SEO это означает дальнейшее усиление роли Сущностей (Entities) и Knowledge Graph как основы для связи контента с персональным опытом пользователя. В медиа-нишах конкуренция смещается от простого ранжирования к обеспечению видимости контента и связанных с ним сущностей в персонализированных функциях поиска и ассистентах. Понимание того, как Google собирает и интерпретирует данные о потреблении, критически важно для долгосрочной стратегии.

    Практические примеры

    Сценарий: Оптимизация страницы фильма на сайте кинотеатра

    1. Задача: Обеспечить корректную индексацию фильма и его связь с актерами для использования в системах персонализации.
    2. Действия: На странице фильма внедряется разметка Schema.org/Movie. В свойстве actor перечисляются все ключевые актеры, причем для каждого актера используется вложенный тип Person с указанием имени и ссылкой sameAs на авторитетный источник (например, IMDb).
    3. Ожидаемый результат: Google корректно идентифицирует связь между фильмом и актерами. Если пользователь купит билет на этот фильм (и Google узнает об этом, например, из email-чека), эта связь будет зафиксирована в его Media Consumption History. Когда пользователь впоследствии будет искать этого актера, Google сможет использовать эту информацию для персонализации ответа, подтверждая, что оптимизация страницы фильма прошла успешно.

    Вопросы и ответы

    Описывает ли этот патент новый алгоритм ранжирования?

    Нет, этот патент не описывает алгоритмы ранжирования органической выдачи (L1-L3 Ranking). Он фокусируется на механизмах сбора данных о потреблении контента, понимании контекстных запросов и персонализации результатов поиска. Это влияет на то, какие данные отображаются пользователю (часто в специальных блоках SERP), а не на порядок стандартных веб-результатов.

    Как Google получает доступ к моей истории просмотра Netflix или прослушивания Spotify?

    Патент перечисляет возможные источники данных (content consumption sources). Это может происходить через прямые API интеграции (например, с Google TV/Android TV), анализ истории браузера пользователя (если он вошел в аккаунт Google), анализ электронной почты на наличие чеков и уведомлений от сервисов, а также через данные приложений для распознавания музыки, установленных на устройстве пользователя.

    Что такое «Environmental Data» и как они используются?

    Environmental Data – это данные окружающей среды, получаемые с сенсоров устройства (микрофон, камера) в реальном времени, например, окружающий звук (ambient audio). Они используются для определения контекста пользователя. Если пользователь задает вопрос во время просмотра фильма, система анализирует звук фильма, чтобы понять, что именно смотрит пользователь и о ком он спрашивает.

    Какое значение этот патент имеет для сайтов, не связанных с медиа (например, B2B)?

    Для сайтов, далеких от медиа и развлечений, прямое влияние минимально. Однако патент важен для понимания общих трендов: Google стремится к глубокой персонализации и использует все доступные источники данных для построения профиля пользователя. Это подтверждает важность работы с сущностями (Entities) и структурированными данными в любой нише.

    Как SEO-специалист может повлиять на Media Consumption History пользователя?

    Напрямую SEO-специалист не может повлиять на историю потребления. Однако он может гарантировать, что контент на его сайте корректно размечен и связан с сущностями. Это обеспечивает точность данных, если Google зафиксирует факт потребления этого контента пользователем. Четкая идентификация сущностей помогает Google связать потребление с Knowledge Graph.

    Какие типы Schema.org наиболее релевантны для этого патента?

    Наиболее релевантны типы, связанные с медиаконтентом: Movie, TVSeries, TVEpisode, MusicRecording, MusicAlbum, Book, PodcastEpisode. Также критически важен тип Person и свойства для связи сущностей с контентом, такие как actor, director, musicBy, author.

    Влияет ли этот механизм на отображение Knowledge Panel?

    Да, это одно из основных применений. Патент описывает, как стандартная информация о сущности в панели (например, биография актера) может быть дополнена персонализированным блоком, содержащим информацию из истории потребления пользователя («Вы видели в: [Название фильма]»).

    Что такое «Relevance Score», упоминаемый в патенте?

    Relevance Score используется для ранжирования контента из истории потребления при ответе на запрос. Он может отражать как важность сущности для контента (например, главная роль против эпизодической), так и предполагаемый интерес пользователя к этому контенту (например, недавно просмотренный или высоко оцененный пользователем контент).

    Может ли система ошибочно определить контент, который я не потреблял?

    Да, патент учитывает это и упоминает использование Confidence Score. Источники данных имеют разную надежность. Например, покупка билета не гарантирует просмотр, а распознавание аудио может быть неточным. Система использует эти оценки для определения вероятности факта потребления.

    Является ли этот патент частью Google Assistant?

    Хотя Google Assistant явно не упоминается, описанные технологии обработки естественного языка (Natural Language Query) и использования контекста (Environmental Data) являются фундаментальными для работы современных голосовых ассистентов. Этот патент описывает инфраструктуру, которую Google Assistant может использовать для ответов на вопросы о медиаконтенте.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.