Как Google использует машинное обучение для автоматического расширения запросов о фильмах и сериалах и показа связанного контента

Google использует систему для распознавания запросов, связанных с медиа (фильмы, сериалы). Если запрос идентифицирован как медийный, система автоматически расширяет его, добавляя семантически связанные термины (например, похожие шоу, актеров, жанры), найденные с помощью обученной модели машинного обучения. Это позволяет возвращать более широкий и релевантный набор результатов, даже если исходный запрос был узким.

Описание

Какую задачу решает

Патент решает проблему слишком узких или неоднозначных запросов в вертикали медиа (ТВ, фильмы, видео). Пользователи, ищущие конкретное шоу (например, малоизвестное или с неоднозначным названием), часто заинтересованы в семантически связанном контенте (похожие шоу, актеры, жанры), но их исходный запрос этого не отражает. Система улучшает поисковый опыт, автоматически выявляя этот более широкий интерес и предоставляя соответствующий контент.

Что запатентовано

Запатентован метод автоматического расширения (Search Broadening) медиа-запросов. Система идентифицирует, что запрос относится к медиаконтенту, и генерирует новый, более широкий запрос, добавляя связанные медиа-термины, которые пользователь не указывал. Это расширение осуществляется с использованием системы машинного обучения (machine learning system), обученной на медиа-данных, которая определяет семантическую близость между терминами.

Как это работает

Механизм работает следующим образом:

Классификация запроса: Система определяет, является ли запрос медиа-ориентированным, используя «белые списки» (whitelist) медиа-терминов или машинное обучение.
Идентификация связанных терминов: Термины запроса передаются в machine learning system, содержащую граф взаимосвязей медиа-сущностей. Система находит близкие по смыслу термины, используя такие методы, как анализ context vectors (контекстных векторов).
Расширение запроса (Query Broadening): Query Reformatter создает новый, более широкий запрос, добавляя найденные связанные термины к исходному, часто через нестрогие булевы операторы (например, OR).
Поиск и форматирование: Расширенный запрос отправляется в поисковую систему. Результаты форматируются в специализированном виде, например, в виде сетки программы передач (electronic program guide grid) или one box.

Актуальность для SEO

Высокая. Автоматическое расширение запросов и понимание семантической близости между сущностями (шоу, актеры, жанры) является фундаментальной частью современного поиска (Knowledge Graph, BERT, MUM). Описанные методы, такие как использование обученных моделей, графов связей и context vectors для расширения запросов, крайне актуальны для понимания того, как Google интерпретирует и обогащает пользовательский интент в специализированных вертикалях.

Важность для SEO

Патент имеет существенное значение для SEO-специалистов, работающих в нише медиа и развлечений. Он описывает конкретный механизм, с помощью которого Google активно расширяет узкие запросы до более широких тем. Это подчеркивает критическую важность сильных семантических ассоциаций между сущностями (шоу, актеры, жанры) на сайте, чтобы контент мог ранжироваться не только по прямым запросам, но и по автоматически расширенным запросам, включающим связанные концепции.

Детальный разбор

Термины и определения

Context Vector (Вектор контекста): Представление запроса, сгенерированное системой обучения. Оно отражает взаимосвязь слов запроса с медиа-связанными словами в графе. Может создаваться путем анализа документов, найденных по терминам запроса, и использоваться для определения семантической близости.
Electronic Program Guide (EPG) grid (Сетка электронной программы передач): Специализированный формат отображения результатов медиапоиска, показывающий каналы и время трансляции программ.
Graph (Граф): Структура данных в системе машинного обучения, которая отображает связи между медиа-связанными словами или группами слов. Связи могут быть взвешены нормализованными оценками (normalized scores).
Machine learning system (Система машинного обучения): Компонент, обученный на медиа-контенте для определения взаимосвязей между терминами и классификации запросов.
Normalized score (Нормализованная оценка): Метрика (например, от 0 до 1), представляющая силу связи или степень корреляции между терминами в графе системы машинного обучения.
One box: Специально отформатированный блок результатов поиска для определенного типа информации, который отличается от стандартных веб-результатов.
Query Reformatter (Преобразователь запросов): Компонент системы, который анализирует запросы и добавляет к ним медиа-связанные термины для генерации более широких запросов.
Whitelist (Белый список): База данных запросов или терминов, которые ранее были определены как связанные с медиа. Используется для классификации входящих запросов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод расширения медиа-поиска и представления результатов.

Система получает поисковый запрос от пользователя.
Идентифицируются медиа-термины в запросе, и определяется, что запрос соответствует первой медиа-категории.
Идентифицируется вторая, отличная от первой, медиа-категория, основанная на первой.
Определяются дополнительные медиа-термины на основе второй категории.
Без дополнительного ввода пользователя генерируется новый запрос, включающий исходные и дополнительные термины (которые пользователь не вводил). Этот запрос шире исходного.
Запрос отправляется в поисковую систему.
Генерируется код для специализированного отображения результатов (список рядом с сеткой EPG).
Результаты передаются на устройство пользователя.

Система активно определяет медиа-интент (Категория 1) и находит связанные концепции (Категория 2). Запрос автоматически расширяется терминами из Категории 2 для извлечения более широкого набора результатов.

Claim 3 (Зависимый от 2): Уточняет метод идентификации медиа-терминов.

Идентификация включает определение расстояния (distance) между терминами запроса и терминами в графе взаимосвязей слов (graph of word and word group relationships) в системе машинного обучения.

Сходство и связанность терминов рассчитываются с использованием пространственного расстояния в рамках обученной модели.

Claim 4 (Зависимый от 1): Уточняет структуру расширенного запроса.

Сгенерированный запрос включает термины, соединенные открытыми булевыми коннекторами (open-ended Boolean connectors), что подразумевает использование оператора OR для расширения поиска и увеличения полноты выдачи (Recall).

Claim 6 (Зависимый от 1): Уточняет процесс генерации запроса.

Генерация включает предоставление слов или групп слов системе машинного обучения, которая была обучена на медиа-контенте. Механизм расширения специализирован для медиа-вертикали.

Claim 8 (Зависимый от 7): Описывает использование вектора контекста.

Генерация запроса включает отправку слов из запроса в систему обучения для генерации context vector. Этот вектор указывает на взаимосвязь между словами запроса и медиа-словами в графе.

Где и как применяется

Изобретение в первую очередь применяется на этапе понимания запроса и влияет на этап формирования выдачи.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система выполняет следующие действия:

Классификация запроса: Определяет, является ли запрос медиа-ориентированным, используя whitelists или ML-модели.
Расширение запроса (Query Broadening): Query Reformatter использует machine learning system (граф взаимосвязей, context vector) для поиска семантически связанных терминов.
Переписывание запроса: Создание нового, более широкого запроса с использованием булевых операторов.

RANKING – Ранжирование
Расширенный запрос передается поисковой системе. Система ранжирования обрабатывает этот более широкий запрос, что приводит к извлечению большего количества кандидатов, связанных как с исходным, так и с расширенным намерением.

METASEARCH – Метапоиск и Смешивание
Патент явно описывает специальное форматирование результатов. Система агрегирует результаты расширенного поиска и форматирует их для отображения в специализированных блоках (One box) или вертикальных интерфейсах (сетка EPG grid).

Входные данные:

Исходный запрос пользователя.
Данные machine learning system (граф взаимосвязей, обученный на медиа-контенте).
Whitelists медиа-терминов.
Данные веб-поиска (используемые для генерации context vectors).

Выходные данные:

Расширенный поисковый запрос (передается в Search Engine).
Отформатированный код для отображения медиа-результатов (например, EPG grid).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на короткие, неоднозначные запросы (например, «Lost») или запросы по узким темам/малоизвестным произведениям, где требуется дополнительный контекст.
Конкретные ниши или тематики: Влияет исключительно на вертикаль медиа и развлечений (ТВ-шоу, фильмы, актеры, видео).
Форматы контента: Влияет на формирование специализированных блоков выдачи (SERP Features), таких как карусели видео, панели знаний и, как описано в патенте, EPG grid.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система с достаточной степенью уверенности классифицирует запрос как медиа-связанный (media-related). Это может быть основано на наличии терминов в whitelist или на близости к медиа-концепциям в обученной модели.
Условия работы: Применяется, когда система машинного обучения может найти дополнительные термины, которые имеют высокую степень корреляции (normalized score) с терминами исходного запроса, что позволяет расширить поиск без потери релевантности.

Пошаговый алгоритм

Процесс обработки и расширения медиа-запроса

Получение и парсинг запроса: Система получает запрос и разбирается на составные части (слова или группы слов).
Классификация запроса (Опционально): Система определяет, является ли запрос медиа-связанным (проверка по whitelist или оценка уверенности ML-модели).
Идентификация поисковых терминов: Выделяются ключевые термины из запроса.
Поиск похожих терминов (Расширение):
- Термины передаются в machine learning system.
- Система может генерировать context vector для запроса (например, анализируя результаты поиска по этим терминам).
- Определяется расстояние (distance) между терминами запроса и терминами в графе взаимосвязей.
- Выбираются термины, которые находятся близко к терминам запроса в графе (семантически похожи).
Конструирование расширенного запроса: Создается новый запрос, включающий исходные и похожие термины, соединенные с помощью open-ended Boolean connectors (например, OR).
Выполнение поиска: Расширенный запрос отправляется в поисковую систему.
Форматирование и предоставление результатов: Полученные медиа-результаты форматируются (например, в EPG grid) и передаются пользователю.

Какие данные и как использует

Данные на входе

Системные данные (Модели и Списки):
- Whitelist: Списки терминов для классификации запроса как медиа-связанного.
- Trained Data: Данные machine learning system, включающие граф связей между медиа-терминами и normalized scores.
Внешние данные (для Context Vectors): Упоминается использование результатов веб-поиска (dynamic search results) для генерации context vectors. Система анализирует документы, возвращаемые по частям исходного запроса, чтобы понять контекст.
Поведенческие факторы (Косвенно): Логи прошлых поисков и поведение пользователей могут использоваться для обучения ML-системы и определения оценок уверенности (Confidence Scores) медиа-интента.

Какие метрики используются и как они считаются

Normalized Score (Нормализованная оценка): Метрика (например, 0-1), используемая в графе машинного обучения для количественной оценки силы связи между двумя терминами или концепциями.
Distance (Расстояние): Метрика близости между терминами запроса и терминами в графе машинного обучения. Используется для идентификации медиа-интента и поиска связанных терминов.
Confidence Score (Оценка уверенности): Вероятностная оценка того, что запрос является медиа-связанным. Может основываться на анализе прошлых поисков и поведении пользователей.
Context Vector Similarity (Сходство контекстных векторов): Метрика (например, косинусное расстояние или результат функции ядра, упомянутой в описании), используемая для сравнения context vector исходного запроса с векторами других терминов для определения семантической близости.

Выводы

Автоматическое расширение запросов — ключевой механизм Query Understanding: Google может автоматически и прозрачно для пользователя переписывать узкие запросы в более широкие в специфических вертикалях (как медиа). Это делается для улучшения полноты выдачи (Recall) и удовлетворения более широкого интента.
Использование специализированных ML-моделей для вертикалей: Патент описывает machine learning system, специально обученную на медиа-контенте. Это указывает на то, что Google использует разные модели или графы знаний для разных вертикалей для более точного понимания контекста и взаимосвязей сущностей внутри них.
Семантическая близость определяется через графы и Context Vectors: Связь между концепциями определяется не по ключевым словам, а по расстоянию (distance) в семантическом графе и схожести context vectors. Это позволяет системе справляться с неоднозначностью и находить концептуально близкие сущности.
Ранжирование за пределами ключевых слов: Благодаря расширению запросов контент может ранжироваться по запросам, для которых он напрямую не оптимизирован, если он релевантен добавленным системой терминам.
Идентификация интента как триггер: Точная классификация запроса как медиа-ориентированного критически важна, так как она запускает как механизм расширения, так и специализированное форматирование выдачи (EPG grid, One box).

Практика

Best practices (это мы делаем)

Рекомендации наиболее актуальны для сайтов в медиа-вертикали (ТВ, кино, стриминг, обзоры, базы данных актеров).

Укрепление связей между сущностями (Entity Association): Необходимо убедиться, что контент четко связывает медиа-сущности. Страница о фильме должна содержать структурированную информацию об актерах, режиссере, жанре и связанных фильмах (через перелинковку, категоризацию). Это поможет Google распознать эти связи и включить ваш контент в результаты по расширенным запросам.
Комплексное покрытие темы (Topical Authority): Создавайте хабы контента, которые полностью охватывают медиа-франшизу или жанр. Если Google расширяет запрос от конкретного шоу до более широкого жанра, авторитетный ресурс по этой теме имеет больше шансов ранжироваться.
Оптимизация под семантическое сходство (Context Vectors): Используйте язык и терминологию, которые естественно встречаются в контексте обсуждаемой темы. Убедитесь, что страница о сериале также содержит упоминания ключевых актеров и создателей, так как эти термины могут быть добавлены системой при расширении запроса.
Использование микроразметки: Внедряйте максимально подробную разметку Schema.org (Movie, TVSeries, Person), чтобы явно указать поисковым системам на сущности и их взаимосвязи. Это облегчает экстракцию данных и может способствовать попаданию в специализированные форматы выдачи (современные аналоги EPG grid – карусели, панели знаний).

Worst practices (это делать не надо)

Изолированный контент (Thin Content Silos): Создание отдельных страниц для каждой сущности без четких связей между ними. Если страница об актере не связана с фильмами, в которых он играл, система может не установить сильную ассоциацию, и страница не будет ранжироваться при расширении запроса о фильме.
Фокус только на основном ключевом слове: Оптимизация страницы исключительно под название фильма/шоу. Поскольку система активно расширяет запрос, игнорирование связанных сущностей и контекстуальных терминов снижает потенциальный охват.
Игнорирование неоднозначности: Не предоставлять достаточный контекст для неоднозначных названий. Если контекст неясен (например, не указано, что это фильм или сериал), система может не классифицировать запрос как медийный или расширить его неправильно.

Стратегическое значение

Этот патент подтверждает стратегическую важность семантического поиска и понимания связей между сущностями, что является основой Knowledge Graph. Для SEO в медиа-нише стратегия должна строиться не вокруг ключевых слов, а вокруг сущностей и их взаимосвязей. Google стремится отвечать на интент пользователя, даже если он не был явно выражен в запросе. Понимание механизмов Query Broadening позволяет SEO-специалистам создавать контент, который соответствует этой расширенной интерпретации запроса.

Практические примеры

Сценарий: Оптимизация сайта обзоров сериалов для Query Broadening

Ситуация: Пользователь ищет «Freaks and Geeks» (старый, но культовый сериал).
Действие Google (согласно патенту): Google классифицирует запрос как медиа. Machine learning system определяет, что сериал «Square Pegs» тесно связан с ним по жанру и тематике (используя граф связей – это пример из описания патента). Google расширяет запрос.
Расширенный запрос (внутренний): (Упрощенно) [«Freaks and Geeks» OR «Square Pegs»].
Действия SEO-специалиста:
- На странице обзора «Freaks and Geeks» создать блок «Похожие сериалы», где явно упоминается и ссылается «Square Pegs».
- Использовать общую категорию или тег (например, «Школьные драмеди») для обоих сериалов.
- Убедиться, что оба сериала размечены через TVSeries Schema.org.
Ожидаемый результат: Страница сайта о «Square Pegs» получает шанс ранжироваться по запросу «Freaks and Geeks» (в рамках расширенного поиска), так как Google видит сильную семантическую связь, подтвержденную структурой сайта.

Вопросы и ответы

Что такое «Media Search Broadening» и зачем это нужно Google?

Это механизм автоматического расширения поисковых запросов, связанных с фильмами или сериалами. Google использует его, чтобы улучшить результаты поиска по слишком узким или неоднозначным запросам. Вместо того чтобы показывать мало результатов, система добавляет связанные термины (актеры, жанры, похожие шоу), чтобы предоставить пользователю более полный ответ в интересующей его теме.

Как Google определяет, какие термины добавить для расширения запроса?

Система использует модель машинного обучения (machine learning system), обученную на медиа-контенте. Эта модель содержит граф связей между сущностями. Добавляются те термины, которые находятся на минимальном расстоянии (distance) или имеют высокую оценку связи (normalized score) с исходными терминами запроса в этом графе.

Что такое «Context Vector» (Вектор контекста) и как он используется?

Context Vector — это способ понять смысл короткого или неоднозначного запроса. Система анализирует слова, которые часто встречаются рядом с терминами запроса в веб-документах. Например, для [Miami Vice] контекстный вектор может включать «Don Johnson» и «television series». Затем этот вектор используется для поиска других медиа-сущностей с похожим контекстом.

Как система определяет, что запрос вообще относится к медиа?

Патент упоминает несколько методов. Во-первых, используются «белые списки» (whitelists) — базы данных известных медиа-терминов. Во-вторых, используются системы машинного обучения, которые могут классифицировать запрос на основе его содержания и, возможно, предыдущего поведения пользователей (анализ логов поиска).

Как этот патент влияет на SEO стратегию для сайта о кино?

Он подчеркивает критическую важность построения сильных семантических связей между сущностями на вашем сайте. Недостаточно иметь страницу о фильме; она должна быть тесно связана со страницами актеров, режиссеров и жанров. Это увеличивает вероятность того, что ваш контент будет признан релевантным для автоматически расширенных запросов.

Применяются ли принципы этого патента только к медиа-поиску?

Патент специфичен для медиа-вертикали. Однако базовые принципы — классификация вертикального интента, использование графов связей и контекстных векторов для расширения запроса — являются фундаментальными и, вероятно, применяются Google в других вертикалях (например, в товарном или локальном поиске) для улучшения релевантности.

Как используются булевы операторы при расширении?

Патент упоминает использование open-ended Boolean connectors. На практике это означает, что система добавляет связанные термины через оператор OR. Это позволяет искать документы, содержащие любой из терминов (исходный ИЛИ добавленный), делая общий набор результатов шире.

Какую роль играет микроразметка (Schema.org) в контексте этого патента?

Использование микроразметки (Movie, TVSeries, Person) является лучшей практикой. Она помогает поисковым системам четко идентифицировать сущности и их взаимосвязи, что может улучшить данные, используемые для обучения моделей, упомянутых в патенте, и повысить эффективность расширения запросов.

Влияет ли этот патент на отображение результатов в SERP?

Да, патент явно описывает, что результаты расширенного поиска форматируются специальным образом, например, в виде сетки программы передач (EPG grid) или специализированных блоков (One box). Это подчеркивает связь между пониманием запроса и формированием SERP Features.

Насколько важен этот патент, учитывая дату его подачи (2007 год)?

Несмотря на возраст, патент описывает фундаментальные концепции IR, которые со временем эволюционировали. Использование графов связей и контекстных векторов для понимания запросов — это прямые предшественники современных технологий, таких как Knowledge Graph и нейросетевые модели (BERT, MUM). Понимание этих основ критически важно для Senior SEO.