
Система анализирует мультимедийные потоки (например, ТВ-трансляции) в реальном времени, преобразует их в текст и автоматически генерирует поисковые запросы. Используются классические методы IR (TF-IDF, стемминг, анализ контекста). Ключевой особенностью является механизм пост-обработки "Boosting", который переранжирует результаты поиска на основе дополнительного контекста, не вошедшего в исходный запрос.
Патент решает задачу автоматического дополнения информационного потока (например, телевизионной или радио трансляции, видео или создаваемого текстового документа) релевантными внешними документами (веб-страницами) в реальном времени. Цель — предоставить пользователю контекстуально релевантную информацию без ручного формирования запросов и без необходимости для создателя исходного контента встраивать ссылки вручную.
Запатентована система и метод для автоматического поиска документов, релевантных мультимедийному потоку. Система преобразует поток в текст и периодически генерирует поисковые запросы на основе извлеченных ключевых тем. Ключевым элементом изобретения, согласно Claims, является этап пост-обработки (Post Processing), который переранжирует результаты с помощью механизма Boosting — повышения рейтинга документов на основе дополнительных релевантных терминов из текста, не включенных в исходный запрос.
Система работает следующим образом:
Text Segment T) (например, каждые 15 секунд).TF-IDF, стемминг, учет истории контекста) для выбора наиболее весомых терминов.Boosting (использование дополнительных весомых терминов для перевзвешивания), переранжирование по сходству с сегментом T и фильтрация (удаление нерелевантных/дублирующихся документов).Средняя. Патент подан в 2003 году. Описанные алгоритмы (TF-IDF, простые векторные модели, базовый стемминг) архаичны по сравнению с современными NLP-технологиями (нейронные сети, эмбеддинги). Однако фундаментальные задачи — извлечение ключевых тем из потока, автоматическая генерация запросов, учет контекста и оценка релевантности — остаются актуальными. Описанные принципы (например, придание большего веса редким терминам) по-прежнему лежат в основе современных систем.
Патент имеет умеренное значение для SEO (6/10). Он не описывает алгоритмы ранжирования основного веб-поиска. Однако он дает ценное представление о фундаментальных принципах того, как Google может анализировать контент (особенно мультимедийный) для извлечения ключевых тем и оценки релевантности с использованием классических IR-техник. Понимание этих механизмов (важность IDF, составных терминов, заголовков и контекста) полезно для Мультимедийного SEO (Video/Audio SEO) и общей контент-стратегии.
Boost Terms) из исходного текста, которые не были включены в поисковый запрос.Boosting.IDF.Claim 1 (Независимый пункт): Определяет ядро изобретения, фокусируясь на механизме переранжирования (Boosting).
Boost Terms), извлеченных из текста, которые не использовались в исходном поисковом запросе (механизм Boosting).TF) дополнительных терминов в документе и их IDF.TF) дополнительных терминов в документе.re-ranking) на основе этих вычисленных весов.Ключевой аспект — использование части контекста (основные термины) для первоначального поиска и другой части контекста (дополнительные термины) для уточнения и переранжирования результатов.
Claim 8 и 9 (Зависимые): Детализируют методы генерации запросов.
Описывается использование классических методов взвешивания терминов: tf⋅idf (Claim 8) или tf⋅idf2 (Claim 9). Запрос формируется из терминов с наивысшими значениями произведения. Использование idf2 подчеркивает важность редких слов (например, именованных сущностей).
Claim 10, 11, 12 (Зависимые): Детализируют использование стемминга и истории.
Термины назначаются группам (Claim 10) на основе их основ (stems) (Claim 11). При генерации запросов могут использоваться предыдущие сегменты текста (History Technique) (Claim 12).
Это изобретение описывает отдельную систему, которая взаимодействует с основной поисковой системой.
QUNDERSTANDING – Понимание Запросов (Интерпретация потока)
Query Generation Component выполняет функцию понимания контекста мультимедийного потока и преобразует его в структурированные поисковые запросы. Это включает анализ истории, определение ключевых терминов (TF-IDF, стемминг) и обнаружение смены темы.
RANKING – Ранжирование (Взаимодействие)
Сгенерированные запросы отправляются во внешнюю поисковую систему (Search Engine), которая выполняет стандартное ранжирование.
RERANKING – Переранжирование
Основная часть изобретения. Post Processing Component выполняет переранжирование полученных результатов с использованием техник Boosting (описано в Claim 1), Similarity Re-Ranking и фильтрации для адаптации их к контексту потока.
Входные данные:
IDF из индекса поисковой системы.Boost Terms) из текстового сегмента.Выходные данные:
A5-HIST, если текущий сегмент сильно отличается от предыдущих (сходство s ниже порога a2), история игнорируется. Если сходство высокое (выше a1) или среднее, история учитывается с понижающим коэффициентом (Aging).Ниже приведен алгоритм, основанный на наиболее продвинутой технике с историей (A5-HIST) и постобработке.
Этап 1: Генерация запроса с учетом истории (A5-HIST)
Stem Vector для T: Compounds.stems).StemVectorOld.StemVectorOld и текущим вектором (скалярное произведение).StemVectorOld "состаривается" (умножается на константу, например, 0.9).StemVectorOld состаривается сильнее (умножается на меньший фактор).StemVectorOld обнуляется (история игнорируется).StemVectorOld.Boost Terms (например, следующие 3 термина).Этап 2: Поиск и Постобработка
Boost Terms в тексте и заголовке. Документы сортируются по новым весам.Titles) полученных веб-документов.A5-HIST).Compounds).Система использует классические метрики Information Retrieval:
Патент описывает алгоритмы 2003 года для конкретного приложения. Прямое влияние на стандартное веб-SEO минимально. Однако он имеет значение для Мультимедийного SEO (Video/Audio SEO) и понимания базовых принципов IR.
IDF) для генерации точных запросов.A5-HIST) и затруднить системе понимание материала. Плавное развитие темы помогает накапливать релевантный контекст.Boosting придает значительно больший вес терминам в заголовке (8x против 4x). Заголовки должны точно отражать ключевые сущности контента.Boosting показывает, что система использует широкий набор терминов для оценки релевантности документа, а не только те слова, которые попали в сгенерированный запрос.IDF). Это приведет к генерации слишком широких запросов или невозможности определить тему.Стратегическое значение патента заключается в демонстрации ранних усилий Google по интерпретации мультимедийного контента и интеграции его с веб-поиском. Он подтверждает фундаментальную важность тематической релевантности и контекстного анализа в IR. Хотя TF-IDF заменен нейросетями, базовые задачи — идентификация ключевых сущностей, понимание контекста и измерение сходства — остаются краеугольными камнями поиска. Понимание этих классических методов дает SEO-специалистам основу для интерпретации работы современных систем.
Сценарий: Оптимизация веб-страницы для показа рядом с YouTube-видео (Предполагая, что используется современный аналог системы)
Задача: Показать статью "Рецепт пасты Карбонара" рядом с кулинарным видео.
Boost Terms. Рецепт, который содержит все эти ингредиенты в тексте или заголовке, будет повышен в ранжировании.Boosting (который дает больший вес терминам в заголовке).Что такое механизм "Boosting", описанный в Claim 1, и почему он важен?
Boosting — это процесс переранжирования результатов поиска. Система генерирует базовый запрос из самых важных слов, получает результаты, а затем использует дополнительные слова из исходного контекста (Boost Terms), чтобы повысить рейтинг документов, содержащих эти дополнительные слова. Это важно, так как показывает механизм, при котором Google может использовать широкий контекст для уточнения выдачи, даже если сам запрос был простым.
Насколько сильно повышается вес терминов в заголовке по сравнению с текстом при Boosting?
Согласно описанию патента, терминам в заголовке придается значительно больший вес. Приведены конкретные формулы, где множитель для терминов в заголовке составляет
Патент активно использует TF-IDF и стемминг. Актуальны ли эти методы сейчас?
Конкретные реализации, описанные в патенте 2003 года (например, стемминг по первым 5 буквам или классический TF-IDF), устарели. Современный Google использует нейросетевые модели (BERT, MUM) и векторные эмбеддинги. Однако базовые принципы — определение важности термина (аналог IDF) и группировка связанных понятий (аналог стемминга) — остаются фундаментальными в информационном поиске.
Как работает техника истории (History Technique) и обнаружение смены темы?
Система хранит векторы терминов (Stem Vectors) предыдущих сегментов. Она сравнивает сходство текущего вектора с историческим (StemVectorOld). Если сходство высокое, история учитывается для формирования запроса (с понижающим коэффициентом "старения"). Если сходство низкое, система фиксирует смену темы и сбрасывает историю, чтобы старый контекст не влиял на новые запросы.
Патент предлагает возводить IDF в квадрат (idf²). Что это значит для SEO?
Использование
Что такое "Compounds" и как они обрабатываются?
Compounds — это составные термины из двух слов (например, "поисковая система"), которые обрабатываются как единое целое. В патенте указано, что им присваивается повышенный коэффициент веса (например, c=1.2) по сравнению с обычными существительными (c=1.0). Это подчеркивает важность использования устоявшихся фраз в контенте.
Как SEO-специалист может применить эти знания для оптимизации видеоконтента (Video SEO)?
Для Video SEO важно обеспечить четкое произношение ключевых сущностей и терминов в видео, поддерживать логическую структуру повествования (чтобы система не теряла контекст из-за частой смены тем) и предоставлять качественные транскрипции. Это помогает системам, анализирующим аудио/видео, правильно определить тематику и сгенерировать релевантные связанные запросы.
Как система обеспечивает релевантность и разнообразие результатов?
На этапе фильтрации система сначала удаляет документы, которые недостаточно похожи на текущий контекст потока (Similarity S1). Затем она сравнивает топовые результаты между собой (Similarity S2). Если они сильно отличаются (S2 низкое), но при этом не обладают очень высокой индивидуальной релевантностью (S1 низкое), они могут быть отброшены, чтобы избежать показа нерелевантного контента.
Используется ли этот патент в стандартном веб-поиске Google?
Нет, этот патент описывает специализированную систему для сопровождения мультимедийных потоков. Однако методы информационного поиска (IR), описанные в нем (TF-IDF, Boosting, Vector Space Model, учет контекста), являются фундаментальными и использовались или послужили основой для алгоритмов стандартного веб-поиска.
Применяется ли этот патент только к ТВ и радио?
Нет. Хотя ТВ-передачи используются как основной пример, в патенте указано, что система может применяться к любым аудио/видео потокам, а также к локальным документам, например, для предоставления дополнительной информации пользователю, работающему в текстовом редакторе (контекстный поиск).

Свежесть контента
Мультимедиа
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Мультимедиа
SERP

Семантика и интент
Персонализация
Мультимедиа

Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
EEAT и качество
Свежесть контента

Поведенческие сигналы
SERP
Семантика и интент

Поведенческие сигналы
Мультимедиа
SERP

EEAT и качество
SERP
Knowledge Graph

Семантика и интент
Поведенческие сигналы

Индексация
Поведенческие сигналы
Семантика и интент

Свежесть контента
Антиспам
Ссылки

Поведенческие сигналы
SERP
