Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google оценивает качество и контекст видео для использования клипов в словарных определениях и ответах Ассистента

    USING VIDEO CLIPS AS DICTIONARY USAGE EXAMPLES (Использование видеоклипов в качестве примеров словарного употребления)
    • US20250173509A1
    • Google LLC
    • 2025-05-29
    • 2019-11-04
    2019 EEAT и качество Мультимедиа Патенты Google

    Google автоматически анализирует видео для поиска клипов, где слово (n-gram) четко произносится в правильном контексте. Система рассчитывает оценку пригодности (SDUE), сравнивая ручные субтитры с автоматической расшифровкой (ASR) для оценки качества аудио, а также анализируя видимость говорящего, фоновый шум и историю просмотров пользователя. Лучшие клипы используются для демонстрации произношения и употребления в Поиске и Ассистенте.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности традиционных текстовых словарных примеров, которые не передают нюансы произношения, интонации и живой речи. Использование синтеза речи (Text-to-Speech, TTS) для озвучивания примеров часто звучит неестественно. Изобретение направлено на улучшение пользовательского опыта, особенно при взаимодействии с автоматизированными ассистентами, путем предоставления аутентичных видеоклипов с человеческой речью в качестве примеров употребления слов.

    Что запатентовано

    Запатентована система автоматического поиска (mining), оценки и отбора видеоклипов из корпуса электронных видеофайлов для использования в качестве словарных примеров. Ядром системы является механизм расчета метрики SDUE (Suitability as a Dictionary Usage Example – Пригодность в качестве словарного примера). Эта метрика комплексно оценивает, насколько хорошо клип подходит для демонстрации употребления целевого слова или фразы (target n-gram).

    Как это работает

    Система сканирует корпус видео и идентифицирует клипы, содержащие целевой n-gram в правильном контексте (target context), используя NLP и ML. Для оценки качества рассчитывается SDUE. Ключевой механизм оценки — сравнение существующих ручных субтитров (pre-existing manual subtitles) с текстом, сгенерированным системой распознавания речи (ASR/STT). Высокое сходство указывает на чистоту аудиосигнала и разборчивость речи. Дополнительно учитываются аудиовизуальные факторы (видимость говорящего, фоновый шум), популярность и сигналы персонализации (например, видел ли пользователь это видео ранее). Лучшие клипы индексируются и показываются по запросу.

    Актуальность для SEO

    Высокая. Интеграция мультимодального контента в Поиск и функциональность автоматизированных ассистентов является стратегическим направлением развития Google. Предоставление видеопримеров произношения и контекста соответствует современным тенденциям обогащения SERP-функций. Методы оценки качества видео, описанные в патенте, актуальны для современных систем анализа данных.

    Важность для SEO

    Влияние на традиционное веб-SEO минимально, но патент имеет существенное значение для Video SEO. Он описывает новый способ попадания видеоконтента в высокочастотные элементы поисковой выдачи (словарные определения, ответы Ассистента). Патент детально раскрывает сигналы качества для этой функции: чистота звука, наличие и точность ручных субтитров, видимость спикера. Оптимизация под эти критерии становится ключевой задачей для Video SEO-специалистов, стремящихся повысить видимость своего контента.

    Детальный разбор

    Термины и определения

    ASR (Automatic Speech Recognition) / STT (Speech-to-Text)
    Автоматическое распознавание речи. Технология преобразования аудиосигнала в текст. Используется для генерации транскриптов и как инструмент оценки качества аудио.
    N-gram (Н-грамма)
    Слово или фраза, для которой система ищет пример употребления.
    Pre-existing manual subtitles (Существующие ручные субтитры)
    Текстовые данные, связанные с видеофайлом, созданные вручную. Используются как эталон (ground truth) для оценки качества аудио.
    SDUE (Suitability as a Dictionary Usage Example)
    Мера пригодности в качестве словарного примера употребления. Ключевая метрика для ранжирования и отбора видеоклипов.
    Target Context (Целевой контекст)
    Конкретное значение или часть речи многозначного слова, в котором должен быть употреблен n-gram в видеоклипе.
    Text Embeddings (Текстовые эмбеддинги)
    Векторные представления текста. Используются для определения контекста и для сравнения сходства между субтитрами и выводом ASR.
    Video Crawler (Видеокраулер)
    Компонент, который сканирует репозитории видеофайлов для поиска, извлечения и анализа потенциальных видеоклипов-примеров.

    Ключевые утверждения (Анализ Claims)

    Анализ основан на пунктах формулы изобретения (Claims 21-40), представленных в данной заявке (US20250173509A1).

    Claim 21 (Независимый пункт): Описывает персонализированный метод предоставления видеопримеров.

    1. Идентификация набора видеоклипов-кандидатов, где целевой n-gram произносится в целевом контексте.
    2. Отбор одного или нескольких клипов на основе метрик пригодности (SDUE).
    3. Ключевое условие: Метрики пригодности определяются на основе того, что кандидатский видеоклип ранее просматривался пользователем (previously viewed by a user).
    4. Связывание отобранных клипов с n-gram в базе данных.
    5. Получение поискового запроса от этого пользователя, содержащего n-gram.
    6. Вывод отобранного видеоклипа пользователю вместе с определением.

    Этот пункт описывает механизм глубокой персонализации. Пригодность клипа (SDUE) повышается, если пользователь, запрашивающий определение, уже видел это видео ранее, что предполагает интеграцию истории просмотров пользователя в процесс ранжирования словарных примеров.

    Claim 26 (Зависимый от 21): Добавляет к расчету SDUE ключевой механизм оценки качества аудио.

    • Метрики пригодности также основываются на сравнении существующих ручных субтитров (pre-existing manual subtitles) с текстом, сгенерированным на основе распознавания речи (ASR/STT).

    Качество и чистота аудиосигнала оцениваются путем проверки того, насколько точно автоматическое распознавание речи совпадает с эталонными ручными субтитрами.

    Claims 22-25, 32-35 (Зависимые): Детализируют другие факторы, влияющие на расчет SDUE:

    • Detected pose (Обнаруженная поза спикера) и Detected gaze (Направление взгляда спикера).
    • Detected background noise level (Уровень фонового шума).
    • Pace of dialog / speech rate (Темп диалога / Скорость речи).
    • Определение того, поется ли n-gram (sung).
    • Identity of a speaker (Личность говорящего) и Accent of a speaker (Акцент говорящего).

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, в основном связанные с обработкой видеоконтента и формированием обогащенных ответов.

    CRAWLING – Сканирование и Сбор данных
    Video Crawler сканирует внешние видеосистемы и их базы данных (corpus of electronic video files). Собираются видеофайлы и метаданные, включая ручные субтитры.

    INDEXING – Индексирование и извлечение признаков
    Ключевой этап офлайн-обработки:

    1. Обработка аудио и текста: Применение ASR/STT для генерации автоматических транскриптов. Извлечение ручных субтитров.
    2. Контекстуальный анализ: Использование NLP и ML-моделей (включая Text Embeddings) для определения контекста (target context) употребления n-grams.
    3. Расчет SDUE (Базовый): Вычисление метрики пригодности на основе сравнения субтитров/STT, анализа аудиовизуальных признаков (шум, темп речи, поза спикера) и популярности.
    4. Индексирование: Сохранение лучших клипов в Video Clip Index или Dictionary Index в связке с соответствующими n-grams.

    QUNDERSTANDING – Понимание Запросов
    Система распознает интент пользователя, связанный с поиском определения или примера употребления слова.

    RERANKING – Переранжирование
    В реальном времени система отбирает лучший клип для показа, применяя сигналы персонализации. Согласно Claim 21, SDUE может быть повышена, если пользователь ранее уже видел этот видеоклип. Также может учитываться локация пользователя для подбора акцента.

    METASEARCH – Метапоиск и Смешивание
    Отобранный видеоклип встраивается в интерфейс словарного определения (например, в SERP-функцию Dictionary Box или ответ Ассистента).

    На что влияет

    • Типы контента: Видео с четкой дикцией и высоким качеством продакшена (интервью, презентации, образовательные видео). Видео, где спикер находится в кадре и смотрит в камеру, получают приоритет.
    • Специфические запросы: Запросы, связанные с определениями, произношением или использованием слов в контексте.
    • Ниши: Языковое обучение, тематики со сложной терминологией.

    Когда применяется

    • Условия работы: Алгоритм применяется, когда пользователь запрашивает словарное определение через Поиск или Ассистент.
    • Триггеры активации: Наличие в индексе предварительно обработанных и высоко оцененных (по SDUE) видеоклипов для запрошенного n-gram.
    • Персонализация: Механизм персонализации (Claim 21) активируется, если у системы есть доступ к истории просмотров пользователя и эта история содержит релевантные видеоклипы.

    Пошаговый алгоритм

    Этап 1: Офлайн-обработка (Индексирование)

    1. Сбор данных: Video Crawler собирает видеофайлы и ручные субтитры.
    2. Идентификация кандидатов: Анализ текстовых данных для поиска видео, содержащих целевые n-grams.
    3. Анализ контекста: Применение NLP или ML-моделей (например, на основе эмбеддингов) для фильтрации клипов, где n-gram используется в нужном значении (target context).
    4. Генерация STT: Обработка аудиодорожки клипов-кандидатов с помощью ASR/STT для получения автоматического транскрипта.
    5. Расчет SDUE (Базовый уровень):
      • Оценка чистоты аудио: Сравнение ручных субтитров и STT-транскрипта. Вычисление меры сходства (similarity measure).
      • Аудиовизуальный анализ: Оценка уровня фонового шума, темпа речи, определение позы и направления взгляда спикера, видимости рта.
      • Анализ популярности: Учет популярности видео и авторитетности спикера.
    6. Фильтрация и Индексирование: Отбор клипов, превышающих пороговое значение SDUE. Сохранение их в базе данных в связке с n-gram.

    Этап 2: Обработка запроса (Реальное время)

    1. Получение запроса: Пользователь запрашивает определение n-gram.
    2. Извлечение кандидатов: Система извлекает предварительно отобранные клипы для этого n-gram.
    3. Персонализация и Переранжирование: Система проверяет историю просмотров пользователя. Если пользователь видел клип ранее, его SDUE может быть повышен (Claim 21). Также могут учитываться предпочтения пользователя по акценту или диалекту.
    4. Выбор и Вывод: Выбор клипа с наивысшим итоговым SDUE и его отображение пользователю.

    Какие данные и как использует

    Данные на входе

    • Мультимедиа факторы: Электронные видеофайлы (аудио- и видеодорожки). Видео анализируется на предмет видимости спикера; аудио — для ASR и анализа шума/темпа.
    • Контентные/Структурные факторы: Pre-existing manual subtitles (ручные субтитры). Критически важны как эталон для оценки качества аудио.
    • Пользовательские факторы: История просмотров пользователя (viewed the video clip previously) используется для персонализации ранжирования (Claim 21). Местоположение и демография могут использоваться для подбора акцента/диалекта.
    • Поведенческие факторы (Популярность): Метрики популярности видео (просмотры, лайки). Популярные видео могут получать более высокий SDUE.

    Какие метрики используются и как они считаются

    • SDUE (Suitability as a Dictionary Usage Example): Агрегированная метрика пригодности клипа. Рассчитывается на основе комбинации нижеперечисленных сигналов.
    • Similarity Measure (Мера сходства): Сравнение ручных субтитров и STT-вывода. Может рассчитываться через edit distance (редакционное расстояние), расстояния между эмбеддингами или различия между bags-of-words. Высокое сходство указывает на высокое качество аудио.
    • Audio Quality Metrics: Уровень фонового шума (background noise level), темп речи (speech rate), обнаружение пения.
    • Visual Quality Metrics: Обнаружение взгляда (detected gaze), позы (detected pose) спикера, видимость рта спикера. Клипы, где спикер смотрит в камеру, оцениваются выше.
    • Contextual Relevance Score: Оценка соответствия контекста использования n-gram целевому значению. Вычисляется с помощью NLP или ML-моделей.
    • Методы анализа текста и ML: NLP, text embeddings, обученные модели машинного обучения (упоминаются DNN, RNN, LSTM, Transformer network) используются для классификации контекста.

    Выводы

    1. Мультимедиа в SERP-функциях: Google активно использует видеоконтент для обогащения традиционно текстовых функций, таких как словарные определения, улучшая понимание произношения и контекста.
    2. Техническая оценка качества аудио: Патент раскрывает конкретный механизм оценки чистоты аудиосигнала: сравнение результатов автоматического распознавания речи (ASR/STT) с эталонными ручными субтитрами. Это ключевой компонент метрики SDUE.
    3. Критичность ручных субтитров: Наличие точных ручных субтитров является не просто фактором доступности, но и прямым сигналом качества, используемым для оценки пригодности видео.
    4. Важность контекста и ML: Система использует сложные NLP и ML модели (включая Трансформеры и эмбеддинги) для гарантии того, что слово используется в правильном значении (target context).
    5. Аудиовизуальные сигналы ранжирования: Видимость спикера, направление взгляда (gaze), поза (pose), низкий фоновый шум и умеренный темп речи являются факторами ранжирования для этой функции.
    6. Персонализация как фактор ранжирования: Система явно предпочитает контент, с которым пользователь уже знаком. История просмотров видео (Claim 21) напрямую влияет на ранжирование клипов в словарных определениях для данного пользователя.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на оптимизацию видеоконтента (Video SEO) для повышения его качества в глазах Google и вероятности использования в SERP-функциях.

    • Предоставлять точные ручные субтитры: Это критически важно. Ручные субтитры служат эталоном (ground truth) для расчета SDUE. Необходимо всегда загружать выверенные субтитры, а не полагаться на автоматическую генерацию.
    • Обеспечивать кристально чистый звук: Минимизировать фоновый шум и музыку во время диалогов. Качество аудио напрямую влияет на точность ASR/STT и, следовательно, на SDUE.
    • Оптимизировать визуальный ряд для спикеров: Предпочтительны форматы, где спикер смотрит в камеру (презентации, интервью, образовательный контент), и его рот хорошо виден. Это повышает SDUE.
    • Контролировать темп речи: Спикеры должны говорить четко, разборчиво и в умеренном темпе.
    • Использовать лексику в четком контексте: Создание контента, где естественно и понятно используются различные термины в рамках полных предложений, увеличивает шансы на правильную классификацию контекста системой.
    • Стимулировать просмотры и вовлеченность: Популярность видео является фактором SDUE. Кроме того, чем больше пользователей посмотрят видео, тем выше вероятность активации механизма персонализации (Claim 21).

    Worst practices (это делать не надо)

    • Игнорирование субтитров или использование только автогенерации: Отсутствие ручных субтитров или использование неточных автоматических субтитров значительно снижает шансы на высокое SDUE.
    • Перекрытие диалогов громкой музыкой или шумом: Это ухудшает распознавание речи (ASR) и снижает оценку пригодности клипа.
    • Использование форматов с закадровым голосом (без видимого спикера): Хотя такие клипы могут быть использованы, они получат более низкий SDUE по сравнению с клипами, где спикер виден.
    • Быстрая или невнятная речь: Это делает контент непригодным для использования в качестве словарного примера.
    • Пение вместо разговора: Система может определять пение и понижать такие клипы, предпочитая разговорную речь для словарных примеров.

    Стратегическое значение

    Патент подтверждает стратегическую важность качества продакшена и технической оптимизации в Video SEO. Он демонстрирует, как Google использует перекрестные сигналы (текст субтитров, аудио, видеоряд) и машинное обучение для глубокой оценки качества и релевантности мультимедийного контента на гранулярном уровне. Также он подчеркивает глубокую интеграцию данных между сервисами Google (например, история просмотров видео влияет на результаты веб-поиска), что усиливает роль персонализации.

    Практические примеры

    Сценарий: Оптимизация видео для образовательного канала

    1. Задача: Повысить видимость видео, объясняющего сложный термин (например, «Квантовая запутанность»).
    2. Действия по патенту:
      • Во время записи убедиться, что эксперт смотрит прямо в камеру, когда дает определение термина.
      • Использовать профессиональное аудиооборудование для записи голоса без эха и фонового шума.
      • Создать и загрузить вручную абсолютно точные субтитры (manual subtitles) для всего видео.
      • Продвигать видео для увеличения охвата и просмотров.
    3. Ожидаемый результат: Система Google анализирует видео. Сравнение ручных субтитров и ASR/STT дает высокое сходство благодаря чистому звуку. Визуальный анализ подтверждает видимость спикера. Видео получает высокий SDUE. Клип начинает отображаться в Dictionary Box или ответах Ассистента по запросу термина, привлекая дополнительный трафик и повышая авторитетность канала.

    Вопросы и ответы

    Являются ли ручные субтитры обязательными для того, чтобы видео попало в словарные примеры?

    Наличие точных ручных субтитров критически важно. Патент фокусируется на сравнении ручных субтитров с автоматической расшифровкой (ASR/STT) как основном методе оценки качества аудио. Ручные субтитры дают системе эталон (ground truth), что значительно повышает надежность оценки SDUE.

    Как Google определяет, что аудио в видео достаточно чистое?

    Основной метод – это оценка точности работы системы автоматического распознавания речи (ASR/STT). Если сгенерированный текст близок к эталонным ручным субтитрам (используется similarity measure), система делает вывод, что аудиосигнал чистый и речь разборчива. Также напрямую анализируются уровень фонового шума и темп речи.

    Как система определяет контекст, в котором используется слово?

    Система использует методы обработки естественного языка (NLP) и машинное обучение. Упоминается использование текстовых эмбеддингов (text embeddings) и обученных нейронных сетей (включая Трансформеры) для анализа субтитров и транскриптов. Это позволяет системе различать разные значения многозначных слов и выбирать клипы только с нужным контекстом (target context).

    Что означает механизм персонализации, описанный в Claim 21?

    Это означает, что Google учитывает историю просмотров пользователя при выборе видеопримера. Если пользователь ранее уже смотрел определенное видео, система с большей вероятностью выберет клип именно из этого видео в качестве словарного примера для данного пользователя. Считается, что это повышает эффективность обучения.

    Может ли видео с закадровым голосом (без видимого спикера) быть использовано?

    Да, может. Однако патент указывает, что видео, где рот говорящего виден и говорящий смотрит в камеру (анализ gaze и pose), считаются более подходящими и получают более высокий SDUE. Видео с закадровым голосом будут ранжироваться ниже при прочих равных условиях.

    Влияет ли популярность видео или канала на выбор клипа?

    Да, влияет. Патент явно упоминает popularity measure видеоклипа как один из факторов при расчете SDUE. Также может учитываться личность (и авторитетность) говорящего. Популярные видео и авторитетные спикеры повышают шансы на выбор клипа.

    Как обрабатываются разные акценты и диалекты?

    Патент учитывает акцент спикера при расчете SDUE. Система может использовать данные о местоположении или языковых настройках пользователя, чтобы предпочесть видеоклипы с соответствующим региональным акцентом или диалектом, делая примеры более релевантными.

    Что делать, если в видео слово поется, а не произносится?

    Патент предусматривает обнаружение пения (например, по вариативности высоты тона или ритмическому совпадению с музыкой). В Claim 25 указано, что факт пения n-gram учитывается при расчете SDUE. Вероятно, для словарных примеров предпочтение отдается разговорной речи, а не пению.

    Какое значение этот патент имеет для традиционного SEO?

    Прямое влияние на ранжирование веб-страниц минимально. Однако он важен для понимания того, как Google развивает SERP-функции и интегрирует мультимедийный контент. Это может привести к снижению CTR на органические текстовые результаты по дефиниционным запросам, если пользователи получают исчерпывающий ответ с видео прямо в выдаче.

    Какие типы видео имеют наибольшие шансы попасть в этот блок?

    Образовательные видео, интервью, презентации и любой другой контент, где термины используются в четком контексте, звук записан чисто, спикер хорошо виден (формат «говорящая голова»), и предоставлены точные ручные субтитры.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.