Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google распознает запросы о фильмах и сериалах и формирует специализированную выдачу с расписанием

    IDENTIFYING MEDIA CONTENT IN QUERIES (Идентификация медиаконтента в запросах)
    • US8713002B1
    • Google LLC
    • 2014-04-29
    • 2007-04-30
    2007 Мультимедиа Патенты Google Поведенческие сигналы Семантика и интент

    Google использует комбинацию методов для определения того, ищет ли пользователь информацию о медиаконтенте (ТВ-шоу, фильмы). Система анализирует запросы на наличие медиа-терминов, временных указателей, префиксов и использует машинное обучение (включая анализ контекстных векторов) для разрешения неоднозначности. При обнаружении медиа-интента Google формирует специализированную выдачу, включающую списки эпизодов и сетку телепрограммы, вместо стандартных синих ссылок.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неоднозначности поисковых запросов, которые могут относиться как к медиаконтенту (фильмы, ТВ-шоу), так и к общим темам. Например, запрос [lost] может относиться к сериалу «Lost» или к концепции потери чего-либо. Изобретение призвано точно классифицировать интент пользователя и определить, когда запрос направлен на получение информации о медиаконтенте, чтобы предоставить специализированные, структурированные результаты (например, расписание показов), а не только общие веб-ссылки.

    Что запатентовано

    Запатентована система и метод для идентификации запросов, относящихся к медиаконтенту (media-related objects). Система анализирует запрос на наличие медиа-терминов и временных указателей (time-based terms). Если они обнаружены, система транслирует временные указатели в конкретные диапазоны и предоставляет медиа-специфичные результаты в особом формате. Этот формат включает структурированный список эпизодов и сетку телепрограммы (schedule grid), отображаемую одновременно со списком.

    Как это работает

    Система использует комбинацию методов для классификации запроса как медиа-ориентированного:

    • Списки терминов: Сравнение терминов запроса с «белыми списками» (whitelists) известных медиа-терминов (названия шоу, актеры, жанры) и «черными списками» (blacklists) для исключения ложных срабатываний.
    • Машинное обучение: Использование моделей (machine learning system), обученных на медиа-данных, для оценки семантической близости запроса к медиа-концепциям. Это может включать анализ контекстных векторов (context vector) для разрешения неоднозначности.
    • Анализ формата: Распознавание временных форматов в запросе (например, «8pm», даты, дни недели, «primetime»).
    • Явные триггеры: Учет префиксов, добавленных пользователем (например, «tv:» или «movie:»).

    Если интент классифицирован как медийный, система запрашивает данные из медиа-специфичных корпусов и форматирует ответ в виде специализированных блоков или целевой страницы с программой передач.

    Актуальность для SEO

    Высокая. Классификация интента и предоставление специализированных, структурированных результатов являются ключевыми направлениями развития поиска. Базовые механизмы идентификации медиа-интента, описанные в патенте, включая использование ML для разрешения неоднозначности, остаются крайне актуальными и лежат в основе формирования современных SERP-фич для фильмов, сериалов и видеоконтента.

    Важность для SEO

    Патент имеет высокое значение для SEO, особенно для сайтов в развлекательной нише. Он раскрывает механизмы, которые Google использует для классификации интента и триггеринга специализированных результатов (media-specific results), которые могут иметь приоритет над традиционными синими ссылками. Это подчеркивает важность оптимизации под сущности (программы, актеры) и необходимость предоставления структурированных данных для интеграции в эти специализированные блоки.

    Детальный разбор

    Термины и определения

    Blacklist (Черный список)
    Список терминов, присутствие которых в запросе указывает на то, что запрос НЕ является медиа-ориентированным, даже если присутствуют другие медиа-триггеры. Пример: термин «plasma» в запросе [plasma tv].
    Context Vector (Вектор контекста)
    Упоминается в описании. Представление запроса, созданное на основе результатов поиска по его отдельным частям. Содержит слова, которые часто встречаются в контексте исходных терминов запроса. Используется для разрешения неоднозначности с помощью ML.
    Head End
    Конкретный источник медиапрограммирования для пользователя (например, локальный кабельный провайдер). Используется для определения доступных каналов и локального расписания.
    Machine Learning System (Система машинного обучения)
    Система (упоминаются методы: логистическая регрессия, байесовский вывод, finite state automata, kernel function), обученная на известных медиа-данных для классификации будущих запросов.
    Media-related objects (Объекты, связанные с медиа)
    Сущности, такие как телевизионные программы, фильмы, эпизоды, актеры, режиссеры, жанры.
    Media-specific results (Медиа-специфичные результаты)
    Специализированный формат поисковой выдачи. Включает структурированную информацию (время показа, список эпизодов, сетку вещания) и отличается от стандартного списка URL.
    One box
    Специально отформатированный блок результатов поиска, предоставляющий структурированную информацию в ответ на специфический тип запроса.
    Schedule Grid / Program Guide Grid (Сетка расписания / Сетка телепрограммы)
    Элемент интерфейса, отображающий список каналов и программы, транслируемые на этих каналах в определенный период времени.
    Time-based terms (Термины, основанные на времени)
    Слова или форматы в запросе, указывающие на время или дату (например, «8 PM», «tonight»).
    Whitelist (Белый список)
    Список предварительно определенных терминов, которые известны как связанные с медиа.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод реагирования на запросы и формирования специфического интерфейса в зависимости от типа запроса.

    1. Система получает первый запрос. Если он НЕ идентифицирован как медиа-запрос (не содержит media-related terms), предоставляются стандартные результаты (список URL-ссылок).
    2. Система получает второй запрос.
    3. Во втором запросе идентифицируются media-related terms.
    4. Во втором запросе идентифицируются time-based terms.
    5. Если оба типа терминов найдены, система выполняет следующие действия:
      • Транслирует time-based terms (например, «сегодня вечером») в конкретный временной диапазон (time range).
      • Предоставляет media-specific results в формате, отличном от стандартного.
    6. Формат медиа-специфичных результатов должен включать:
      • (a) Список эпизодов, которые релевантны запросу И попадают во временной диапазон, сгруппированные по названию и времени показа.
      • (b) Schedule grid (сетка программы), показывающая множество программ на разных каналах в этот период времени.
    7. Сетка программы должна включать индикаторы (подсветку) для тех программ, которые соответствуют критериям поиска.
    8. Список (a) и сетка (b) отображаются одновременно, рядом друг с другом.

    Ядром изобретения, согласно Claim 1, является не просто распознавание медиа-запроса, а специфическая обработка запросов, содержащих одновременно и медиа-сущность, и временное ограничение, что приводит к генерации сложного комбинированного интерфейса.

    Claim 2 (Зависимый от 1): Уточняет метод идентификации.

    Идентификация media-related terms включает сравнение слов или наборов слов из запроса с whitelists или blacklists медиа-терминов.

    Claim 3 и 4 (Зависимые от 1 и 3): Уточняют альтернативный метод идентификации.

    Идентификация включает отправку слов из запроса в machine learning system, обученную на медиа-релевантной информации. Это может включать определение расстояния (distance) между терминами запроса и терминами в системе машинного обучения (вероятно, семантическая близость).

    Claim 7 (Зависимый от 6): Описывает механизм интеграции данных и модификации запроса.

    Система получает информацию из структурированной базы медиаконтента И из не-медиа-ориентированной базы данных (например, общего веб-индекса). При поиске в не-медиа-ориентированной базе данных запрос модифицируется путем добавления термина, описывающего медиа (например, добавление слова «television» или «actor»), чтобы ограничить результаты медиа-тематикой.

    Где и как применяется

    Изобретение применяется на этапах понимания запроса и формирования поисковой выдачи.

    QUNDERSTANDING – Понимание Запросов
    Это основной этап применения патента. Компоненты системы (Request processor, Query Reformatter) анализируют входящий запрос для классификации его интента.

    1. Классификация интента: Система определяет, является ли запрос медиа-ориентированным, используя префиксы, анализ формата (время), whitelists/blacklists и machine learning systems.
    2. Извлечение параметров: Идентифицируются медиа-сущности и временные параметры (time-based terms).
    3. Трансляция параметров: Временные термины транслируются в конкретные временные диапазоны.
    4. Переписывание запроса: Запрос может быть дополнен терминами (например, добавление слова «movie») для улучшения результатов из общего индекса (Claim 7).

    METASEARCH – Метапоиск и Смешивание
    На этом этапе принимается решение о том, какие вертикали активировать и как форматировать результаты.

    1. Триггеринг вертикали: Если запрос классифицирован как медиа-ориентированный, система запускает поиск в специализированных медиа-базах.
    2. Формирование SERP: Если выполнены условия Claim 1 (медиа-термин + временной термин), система (Page Formatter, Grid Builder) генерирует специализированный UI (one box или отдельную страницу), включающий список эпизодов и schedule grid.

    Входные данные:

    • Исходный запрос пользователя.
    • Whitelists и Blacklists медиа-терминов.
    • Обученные модели Machine Learning System.
    • Данные о местоположении пользователя (для определения Head End и локального расписания).

    Выходные данные:

    • Классификация запроса (медиа-ориентированный или нет).
    • Извлеченные медиа-сущности и временные диапазоны.
    • Специализированные media-specific results или стандартные веб-результаты (список URL).

    На что влияет

    • Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (например, [lost], [matrix]), а также на запросы, содержащие временные маркеры (например, [movies 8pm]).
    • Конкретные ниши или тематики: Влияет исключительно на нишу развлечений, ТВ, кино и стримингового видео.

    Когда применяется

    • Триггеры активации:
      • Наличие явного префикса (например, «tv:», «movie:»).
      • Совпадение термина запроса с whitelist медиа-сущностей с высокой степенью уверенности.
      • Наличие медиа-специфичного формата, особенно временных указателей (time-based terms).
      • Высокая оценка релевантности от machine learning system.
    • Исключения: Система не активируется, если в запросе присутствуют термины из blacklist, указывающие на немедийный интент.
    • Условия для специализированного UI (Claim 1): Активируется строго при одновременном наличии идентифицированного media-related term И time-based term в запросе.

    Пошаговый алгоритм

    Процесс идентификации медиа-запроса (на основе описания и FIG. 4):

    1. Парсинг запроса: Система получает и разбирает запрос на компоненты (слова, группы слов, туплы). Может включать нормализацию регистра и удаление стоп-слов.
    2. Определение контекста: Система определяет источник запроса. Если запрос пришел со страницы медиа-поиска, он предварительно считается медиа-ориентированным.
    3. Проверка явных флагов/префиксов: Проверяется наличие «жестких триггеров» (например, «tv:», «movie:»). Если найдены, запрос классифицируется как медиа-ориентированный.
    4. Проверка медиа-специфичного формата: Система ищет в запросе форматы, указывающие на время (например, «x:xx», «pm/am», дни недели, даты, «primetime»).
    5. Проверка по спискам (Whitelists/Blacklists): Термины запроса сравниваются с белыми списками медиа-сущностей и жанров. Упоминается использование finite state automata для эффективного поиска подстрок. Также проверяются черные списки.
    6. Применение машинного обучения (Параллельный процесс): Запрос обрабатывается machine learning system.
      • Система может использовать web-based kernel function для измерения схожести.
      • Может генерироваться context vector на основе веб-документов, связанных с терминами запроса.
      • Оценивается схожесть вектора запроса с векторами медиа-концепций.
    7. Принятие решения и генерация результатов: На основе собранных сигналов система классифицирует запрос.
      • Если НЕ медиа: Предоставить стандартные веб-результаты.
      • Если медиа: Идентифицировать программы/эпизоды. Если также присутствуют временные термины (Claim 1), транслировать их во временной диапазон и сгенерировать комбинированный результат (Список эпизодов + Сетка программы).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (в запросе): Термины запроса, их капитализация (может указывать на имена собственные), наличие префиксов («tv:», «movie:»).
    • Структурные факторы (в запросе): Формат запроса, в частности наличие временных указателей (time-based terms).
    • Географические факторы: Наличие идентификаторов локации в запросе (например, ZIP-коды). Также используется сохраненная локация пользователя для определения Head End.
    • Пользовательские факторы (Контекст): Страница, с которой был отправлен запрос. История поиска и кликов (используется для офлайн-обучения ML-моделей).
    • Системные данные: Whitelists, Blacklists, структурированные медиа-базы данных (для расписаний), общий веб-индекс.

    Какие метрики используются и как они считаются

    • Measure of similarity (Мера схожести): Используется для сравнения context vector запроса с другими концепциями. Упоминается косинусное расстояние (cosine coefficient).
    • Confidence Score (Оценка уверенности): Вероятностная оценка того, что запрос является медиа-ориентированным. Упоминается, что термины в whitelist могут быть взвешены в зависимости от того, как часто они относятся к медиа (например, если 50% поисков по [lost] приводят к кликам на медиа-сайты, уверенность может быть 0.5).
    • Distance (Расстояние): Метрика в системе машинного обучения, определяющая расстояние (семантическую близость) между терминами запроса и терминами в обученной модели (Claim 4).
    • Алгоритмы машинного обучения: Упоминаются логистическая регрессия (logistic regression), байесовский вывод (Bayesian inference) и finite state automata (для быстрого сравнения со списками).
    • Web-based Kernel Function: Специфический метод измерения схожести коротких текстовых сниппетов (описанный в цитируемой статье Sahami et al.), который использует веб-поиск для генерации контекста и оценки связи между терминами.

    Выводы

    1. Идентификация медиа-интента многофакторна: Google не полагается на один метод. Система комбинирует явные сигналы (префиксы, время), предварительно составленные списки (whitelists/blacklists) и сложные методы машинного обучения для классификации запросов.
    2. Разрешение неоднозначности через ML и контекст: Для неоднозначных запросов система активно использует машинное обучение. Упоминаются методы генерации context vector и использования web-based kernel function для анализа связанных веб-документов, чтобы определить наиболее вероятный интент пользователя.
    3. Важность временных сигналов в запросах: Наличие time-based terms является сильным индикатором медиа-интента, связанного с расписанием. Claim 1 особо выделяет, что комбинация медиа-термина и временного термина запускает генерацию сложного специализированного интерфейса (Список + Сетка).
    4. Использование «Белых списков» сущностей: Система активно использует списки известных медиа-сущностей. Попадание в эти списки (т.е. становление известной сущностью в Knowledge Graph) критично для запуска специализированных медиа-результатов.
    5. Модификация запросов для улучшения релевантности: Патент подтверждает, что Google может переписывать запросы, добавляя классификаторы (например, слово «movie» или «tv»), чтобы сузить результаты из общего веб-индекса до нужной тематики (Claim 7).

    Практика

    Best practices (это мы делаем)

    • Обеспечение распознавания сущностей (Entity Optimization): Критически важно, чтобы контент (названия шоу, фильмов, имена актеров) был распознан Google как медиа-сущность и попал в whitelists (Knowledge Graph). Это достигается через последовательное использование структурированных данных (Schema.org для TVSeries, Movie, Person), наличие страниц на авторитетных ресурсах (Wikipedia, IMDB).
    • Использование временных и локальных маркеров: При продвижении контента, связанного с расписанием, важно четко указывать эту информацию в тексте и метаданных. Это помогает Google коррелировать контент с запросами, содержащими time-based terms, и правильно определять локальный контекст (Head End).
    • Создание авторитета в медиа-вертикали: Поскольку система использует машинное обучение и анализ контекста (context vector) для определения интента, важно развивать сайт как авторитетный источник медиа-информации. Это повышает вероятность того, что контент сайта будет сочтен релевантным при обработке медиа-запросов.
    • Оптимизация под связанные сущности и жанры: Создание контента, который устанавливает связи между сущностями (например, «Фильмы Тома Хэнкса в жанре драма»), помогает системе лучше классифицировать ваш контент как медиа-ориентированный, используя данные о жанрах и связях.

    Worst practices (это делать не надо)

    • Неоднозначное именование контента: Создание медиапродукта с общим названием без сильных сигналов бренда затруднит системе классификацию запросов о нем как медиа-ориентированных, так как Confidence Score будет низким.
    • Игнорирование структурированных данных для расписаний: Предоставление расписаний показов только в виде изображений или неструктурированного текста не позволяет поисковой системе извлечь данные для формирования schedule grid или списка эпизодов.
    • Использование медиа-терминов для не-медиа контента (Clickbait): Попытка манипулировать классификатором интента путем использования популярных медиа-терминов для нерелевантного контента может привести к попаданию в blacklists или понижению ранжирования из-за плохих поведенческих факторов.

    Стратегическое значение

    Этот патент подчеркивает стратегическую важность Понимания Запросов (Query Understanding) в архитектуре Google. Для SEO-специалистов это подтверждает необходимость смещения фокуса с ключевых слов на сущности (Entities) и интент (Intent). В медиа-нише стратегическое преимущество получают те сайты, которые предоставляют полные, структурированные данные о медиа-объектах, позволяя Google использовать их для заполнения специализированных блоков выдачи (one box, schedule grid) и обеспечивая попадание этих объектов в систему знаний Google.

    Практические примеры

    Сценарий: Оптимизация страницы нового фильма для запуска специализированной выдачи

    1. Задача: Убедиться, что запросы о новом фильме «Project Alpha» вызывают медиа-результаты, а не результаты о других проектах с таким названием.
    2. Действия (Основанные на патенте):
      • (Whitelists/Entities): Создать страницы фильма на Wikipedia и IMDB. Внедрить разметку Schema.org/Movie на официальном сайте, четко указав название, режиссера и актеров.
      • (Time-based terms): Внедрить разметку Event для премьеры и расписания показов. В контенте использовать фразы типа «Дата выхода Project Alpha».
      • (Query Reformation — Помощь системе): Убедиться, что в Title и H1 на официальном сайте используется дескриптор, например, «Project Alpha — Фильм (2025)». Это помогает системе при внутреннем переписывании запросов (Claim 7).
      • (Machine Learning Context): Публиковать пресс-релизы и статьи, связывающие название фильма с медиа-терминами (жанр, имена актеров, сравнение с другими фильмами), чтобы повлиять на context vector, связанный с этим названием.
    3. Ожидаемый результат: При запросах [Project Alpha] или [Project Alpha tonight] Google классифицирует интент как медиа-ориентированный и показывает Knowledge Panel фильма, расписание сеансов или другие специализированные медиа-блоки, используя данные с оптимизированного сайта.

    Вопросы и ответы

    Как Google определяет, что запрос [matrix] относится к фильму, а не к математике?

    Патент описывает несколько механизмов. Во-первых, проверяется наличие дополнительных слов: [matrix movie] или [matrix 8pm] содержат явные триггеры. Во-вторых, для голого запроса [matrix] используется машинное обучение и Confidence Score, основанный на истории запросов. В-третьих, используется метод (web-based kernel function) для генерации context vector: если контекст, связанный со словом «matrix» в вебе, чаще содержит слова о кино (например, «Keanu Reeves», «sci-fi»), система склонится к медиа-интерпретации.

    Что такое Whitelists и Blacklists в контексте этого патента?

    Whitelist — это база данных известных медиа-сущностей (фильмы, шоу, актеры) и жанров. Совпадение с этим списком — сильный сигнал медиа-интента. Blacklist содержит термины, которые вызывают ложные срабатывания. Например, если в запросе есть слово «tv», но также есть слово из черного списка, например «plasma» (запрос [plasma tv]), система поймет, что пользователь ищет товар, а не телепрограмму.

    Какую роль играют временные указатели в запросе?

    Time-based terms (например, «tonight», «8pm») являются мощными индикаторами того, что пользователь ищет расписание. Согласно Claim 1, наличие одновременно медиа-термина и временного термина является обязательным условием для запуска специфического интерфейса, включающего сетку телепрограммы (schedule grid) и список релевантных эпизодов на это время.

    Как этот патент связан с Knowledge Graph?

    Патент описывает компоненты, которые сегодня интегрированы в Knowledge Graph. Whitelists медиа-сущностей и структурированные медиа-базы данных, упомянутые в патенте, по сути являются частью базы знаний Google. Чтобы механизмы этого патента работали, медиа-объект должен быть распознан как сущность.

    Что такое «web-based kernel function» и «context vector», упомянутые в описании?

    Это методы машинного обучения для разрешения неоднозначности. Context vector — это набор слов, часто встречающихся рядом с исходным термином в вебе. Web-based kernel function — это метод измерения семантической схожести коротких текстов (запросов) путем анализа этих контекстных векторов. Это помогает понять, например, что запрос [lost] ближе к контексту сериала, чем к контексту ориентирования на местности.

    Патент упоминает модификацию запроса (Claim 7). Что это значит для SEO?

    Это подтверждает, что Google активно переписывает запросы для уточнения интента. Если пользователь ищет [Tom Hanks], система может внутренне добавить слово «actor» или «movies» при поиске в общем индексе. Для SEO это означает, что важно использовать четкие классификаторы (например, «фильм», «сериал», «актер») на страницах, чтобы соответствовать этим внутренним модификациям.

    Актуален ли интерфейс с сеткой программы (Schedule Grid), описанный в патенте?

    Специфический UI (показанный на FIG. 1B) сегодня редко встречается в таком виде. Однако функциональность, которую он предоставлял (показ расписания в ответ на запрос с временным ограничением), интегрирована в современные SERP-фичи, такие как Knowledge Panels, карусели сеансов кинотеатров или блоки расписания трансляций. Механизмы идентификации интента остаются актуальными.

    Как я могу помочь Google классифицировать мой контент как медиа-ориентированный?

    Ключевым является использование структурированных данных (Schema.org для Movie, TVSeries, Episode). Также важно последовательно использовать медиа-терминологию (жанры, роли, даты выхода) и обеспечивать связь вашего контента с уже известными медиа-сущностями (актеры, студии). Это повышает вероятность попадания в whitelists и помогает ML-моделям правильно интерпретировать контекст.

    Влияет ли этот патент на локальный поиск?

    Да. Система использует информацию о местоположении пользователя для определения локального поставщика услуг (Head End) и соответствующего расписания программ или сеансов в кинотеатрах. Это критически важно для корректного отображения локализованных media-specific results.

    Что важнее для срабатывания этого механизма: Whitelist или Машинное обучение?

    Патент описывает их как взаимодополняющие методы (Claims 2 и 3). Совпадение с Whitelist (известной сущностью) является быстрым и надежным способом идентификации. Машинное обучение используется для более сложных, неоднозначных случаев, для идентификации новых медиа-объектов и для оценки общей уверенности (Confidence Score) в интенте пользователя.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.