Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.
Описание
Какую задачу решает
Патент решает задачу оценки внутреннего качества ресурсов (в первую очередь видео) независимо от поискового запроса. Основная проблема — как надежно интерпретировать «шумные» и подверженные спаму (например, накруткам) данные о поведении пользователей (время просмотра, рейтинги, просмотры) и преобразовать их в единый, устойчивый сигнал качества. Изобретение направлено на подавление шума и спама, а также позволяет рассчитывать оценку качества даже на небольших выборках данных.
Что запатентовано
Запатентована система и метод для генерации независимого от запроса сигнала качества (Query-Independent Quality Signal, Q). Метод основан на анализе корреляций между различными метриками взаимодействия пользователей (например, как Watch Time коррелирует с User Ratings). Для моделирования этих данных выводятся две ключевые функции: Predictor Function (P), которая оценивает качество на основе сигнала, и Voting/Variance Function (V), которая оценивает достоверность (вес) этого сигнала. Итоговый сигнал Q является взвешенной комбинацией этих функций.
Как это работает
Система работает в двух основных режимах:
- Офлайн-анализ (Derivation): Система анализирует большие массивы исторических данных о взаимодействии пользователей. Она строит корреляции между разными сигналами (например, время просмотра и оценки). На основе этих корреляций выводятся математические модели (обычно сигмоидные функции): Predictor Function (P) и Voting Function (V).
- Расчет и Применение (Evaluation & Ranking): Для конкретного видео система оценивает значения P и V на основе его текущих метрик. Применяются анти-спам механизмы (например, анализ Raters per view). Затем значения P и V комбинируются (взвешиваются) для расчета итогового Quality Signal Q. Этот сигнал Q используется как независимый фактор качества при ранжировании видео в поиске.
Актуальность для SEO
Высокая. Оценка качества контента на основе вовлеченности и поведенческих факторов (особенно времени просмотра) является фундаментальным аспектом современных поисковых и рекомендательных систем, в первую очередь YouTube и Google Video Search. Методы борьбы со спамом в рейтингах и оценки достоверности данных остаются критически важными в 2025 году.
Важность для SEO
Патент имеет высокое значение (8.5/10), особенно для Video SEO. Он детально описывает механизм, как именно поведенческие факторы (время просмотра, рейтинги) преобразуются в конкретный сигнал качества, напрямую влияющий на ранжирование. Это подтверждает, что оптимизация вовлеченности и удержания аудитории является более приоритетной задачей для ранжирования видео, чем простая оптимизация метаданных.
Детальный разбор
Термины и определения
- Quality Signal (Q) (Сигнал качества)
- Независимая от запроса оценка качества ресурса (видео). Рассчитывается на основе взвешенной суммы функций P и V. Используется в ранжировании.
- Predictor Function (P) (Функция предиктора)
- Математическая функция (обычно сигмоидная), которая моделирует корреляцию между входным сигналом (например, Watch Time) и эталоном качества (Ground Truth, например, User Rating).
- Voting Function (V) / Variance Function (Функция голосования / Дисперсии)
- Математическая функция (обычно сигмоидная), которая измеряет дисперсию (variance) или достоверность функции P. Действует как вес (weight) и часто зависит от размера выборки (например, количества просмотров или оценок).
- Ground Truth (Эталон истины)
- Сигнал, используемый как целевая переменная при построении корреляций. Например, User Rating может выступать как Ground Truth для оценки Watch Time.
- Watch Time (Время просмотра)
- Время, которое пользователи тратят на просмотр видео. В патенте упоминается использование медианного времени просмотра (Median Watch Time).
- Raters per view (Отношение числа оценивших к числу посмотревших)
- Метрика для обнаружения спама. Высокое значение может указывать на накрутку рейтингов (click spam).
- Rank (Ранг)
- Независимый от запроса показатель авторитетности видео, основанный на ссылочной структуре (аналог PageRank), где ссылка на видео интерпретируется как голос за него.
- Provider Credit (Кредит поставщика/автора)
- Сигнал авторитетности автора, основанный на среднем рейтинге всех видео, загруженных этим автором (иногда с исключением самых высоких оценок для борьбы со спамом).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод расчета и использования сигнала качества на основе корреляции времени просмотра и рейтингов.
- Система определяет корреляцию между временами просмотра (watch times) и пользовательскими рейтингами (user ratings) для первого набора видео.
- Выводится функция предиктора (prediction function, P), моделирующая эту корреляцию.
- Выводится функция дисперсии (variance function, V), моделирующая дисперсию (достоверность) функции P.
- Выводится функция сигнала качества (quality signal function, Q), основанная на P и V.
- Сигнал качества Q рассчитывается для второго набора видео (тех, что нужно ранжировать).
- Сигналы Q предоставляются процессу ранжирования для использования при сортировке видео в ответ на запрос.
Claim 2 (Зависимый): Уточняет, что могут использоваться медианное время просмотра (median watch time) и средний пользовательский рейтинг.
Claim 3 и 4 (Зависимые): Указывают, что функция Q может дополнительно использовать корреляции между другими сигналами: количеством просмотров (view counts) и рейтингами (Claim 3), а также рангом видео (video rankings) и рейтингами (Claim 4).
Claim 5 (Зависимый): Уточняет механизм комбинирования: функция предиктора (P) взвешивается функцией дисперсии (V).
Claim 6 и 7 (Зависимые): Указывают, что и P, и V могут быть реализованы как сигмоидные функции (sigmoid function).
Где и как применяется
Изобретение применяется на этапах индексирования и ранжирования, используя данные о поведении пользователей.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор данных о взаимодействии пользователей (просмотры, время, рейтинги) в логи (Tracking Logs). Ключевые процессы:
- Офлайн-анализ (Analysis System/Analyzer): Система анализирует логи, выявляет корреляции между сигналами и выводит (derive) или обновляет функции P и V. Это ресурсоемкий процесс, выполняемый периодически.
- Расчет Quality Signal (Quality Signal Engine): Сигнал Q рассчитывается для видео. Это может происходить заранее (во время индексации) или на лету (on the fly) во время запроса. Q сохраняется как независимый от запроса признак качества.
RANKING – Ранжирование
Ranking Engine использует рассчитанный Quality Signal Q как один из факторов для определения итогового порядка видео в результатах поиска.
Входные данные:
- Поведенческие данные: Watch Times, User Ratings, View Counts, Number of Raters.
- Ссылочные данные: Rank.
- Метаданные: Total Running Time, данные для Provider Credit.
Выходные данные:
- Набор функций P и V для различных входных сигналов.
- Значение Quality Signal Q для конкретного видео.
На что влияет
- Конкретные типы контента: В первую очередь — видеоконтент (YouTube, Google Video Search). Патент также упоминает применимость к другим ресурсам, где важны оценки и время взаимодействия: аудиоконтент (музыка, подкасты), стриминговый контент, электронные игры и веб-страницы.
- Все типы запросов: Поскольку сигнал Q является Query-Independent, он влияет на ранжирование видео по любым запросам, к которым это видео релевантно.
Когда применяется
- Вывод функций P и V: Периодически в офлайн-режиме по мере накопления новых данных.
- Расчет и применение Q: При каждом ранжировании видеоресурсов.
- Триггеры анти-спама: Активируются при обнаружении аномалий, например, когда метрика Raters per view превышает заданный порог (упоминается пример 1/400 или 0.0025).
Пошаговый алгоритм
Процесс А: Вывод функций (Офлайн-анализ)
- Сбор и подготовка данных: Из Tracking Logs извлекаются данные о взаимодействиях (Watch Time, Ratings, Views и т.д.) для большого набора видео.
- Построение корреляций: Анализируются взаимосвязи между сигналами. Например, строится график зависимости Avg. User Rating (Ground Truth) от ln(Median Watch Time). Данные могут кластеризоваться (binning).
- Вывод Функции Предиктора (P): Подбираются константы для общей сигмоидной функции P(s), чтобы она наилучшим образом соответствовала кривой корреляции (curve fitting).
- Вывод Функции Голосования/Дисперсии (V): Подбираются константы для сигмоидной функции V(s), которая моделирует достоверность функции P, обычно на основе размера выборки (например, ln(Number of Raters)).
- Повторение: Шаги 2-4 повторяются для других пар сигналов (например, Views vs Rating, Rank vs Rating).
Процесс Б: Расчет Quality Signal Q и Ранжирование
- Получение метрик видео: Для данного видео извлекаются его текущие метрики (сигналы ).
- Применение анти-спам механизмов: Проверка Raters per view. Если значение слишком высокое, применяется пенальти (penalty), и количество оценок искусственно снижается. Также могут игнорироваться рейтинги при коротком времени просмотра.
- Оценка функций: Рассчитываются значения и для каждого сигнала.
- Комбинирование (Расчет Q): Рассчитывается взвешенная сумма результатов для получения итогового Quality Signal Q.
- Ранжирование: Сигнал Q предоставляется процессу ранжирования.
Какие данные и как использует
Данные на входе
Система использует преимущественно поведенческие факторы, но также учитывает ссылочные, мультимедийные и авторские данные.
- Поведенческие факторы:
- Watch Time: Время просмотра (медианное или среднее).
- View Count: Общее количество просмотров.
- User Ratings: Оценки пользователей (средний рейтинг).
- Number of Raters: Количество пользователей, оставивших оценку.
- Ссылочные факторы:
- Rank: Ранг видео, основанный на ссылках с других ресурсов.
- Мультимедиа факторы:
- Total Running Time: Общая длительность видео.
- Данные об авторе:
- Provider Credit: Агрегированные данные о рейтингах других видео того же автора.
Какие метрики используются и как они считаются
Ключевым аспектом патента является математический аппарат для обработки этих данных.
1. Нормализация входных данных
Для многих сигналов используется натуральный логарифм (ln) в качестве входного значения (x) для функций P и V. Например: ln(Watch Time), ln(View Count), ln(Number of Raters). Это помогает нормализовать распределение данных и учесть эффект убывающей отдачи.
2. Quality Signal (Q)
Рассчитывается как взвешенная сумма функций P и V для k входных сигналов (). представляет базу выборки.
3. Predictor Function (P) и Voting Function (V)
Описываются как общие сигмоидные функции. C1, C2, C3, C4 — константы, подбираемые в процессе анализа (curve fitting). x — значение входного сигнала (для P) или размер выборки (для V).
4. Анти-спам метрика (Raters per view adjustment)
Система рассчитывает Raters per view (число оценивших / число просмотров). Если это значение слишком велико (например, > 0.0025), это считается признаком спама. Количество оценивших искусственно снижается (raters’). Формула, подтвержденная примером в патенте:
Где penalty (штраф) может быть равен 2. Также упоминается игнорирование рейтингов, если время просмотра было коротким.
Выводы
- Поведенческие факторы — основа статического качества: Патент детально описывает механизм, в котором Watch Time, Ratings и View Counts являются основой для расчета независимого от запроса сигнала качества (Q). Это подтверждает критическую важность оптимизации контента под удержание аудитории.
- Время просмотра (Watch Time) — ключевой сигнал: Watch Time используется как основной сигнал для корреляции с качеством (Claim 1). Длительное время просмотра, подтвержденное положительной обратной связью, является сильным индикатором качества.
- Математическое моделирование достоверности (Voting Function): Система не просто усредняет метрики, но и оценивает их достоверность с помощью Voting Function (V). Эта функция зависит от объема данных (например, количества оценок). Видео с большим количеством взаимодействий получают более надежный сигнал Q.
- Использование сигмоидных функций и логарифмов: Применение сигмоидных функций и логарифмической шкалы для входных данных позволяет моделировать нелинейные зависимости и эффект насыщения (убывающую отдачу). Например, разница между 10 и 100 просмотрами значительнее, чем между 100,000 и 100,100.
- Встроенные механизмы борьбы со спамом: Патент явно описывает методы борьбы с накруткой рейтингов. Анализ Raters per view позволяет выявлять аномалии и применять штрафы (penalty) для снижения веса подозрительных данных.
- Авторитетность автора (Provider Credit): Качество видео оценивается также в контексте автора. Метрика Provider Credit (среднее качество других видео автора) может использоваться как входной сигнал для Q, подчеркивая важность общей репутации канала.
Практика
Best practices (это мы делаем)
- Оптимизация под удержание и время просмотра (Watch Time): Это ключевая стратегия для Video SEO. Создавайте контент, который максимально долго удерживает внимание. Анализируйте моменты оттока аудитории и корректируйте структуру видео. Высокий Watch Time напрямую влияет на Quality Signal Q.
- Стимулирование органического взаимодействия: Поощряйте пользователей ставить оценки, но делайте это органично. Система использует Voting Function для оценки достоверности, поэтому важен объем реальных взаимодействий, но без аномалий в Raters per view.
- Повышение качества канала (Provider Credit): Работайте над общим качеством всех видео на канале. Патент упоминает Provider Credit. Стабильно высокое качество контента повышает авторитет источника.
- Применение принципов к веб-контенту: Поскольку механизм универсален (применим к веб-страницам), следует оптимизировать веб-контент для увеличения времени взаимодействия (Time on Page, Dwell Time). Контент должен быть полезным и вовлекающим.
- Внешнее продвижение (для Rank): Поскольку Rank (основанный на ссылках) упоминается как входной сигнал для Q, получение качественных ссылок и встраиваний (embeds) вашего видео на авторитетных ресурсах положительно влияет на его оценку качества.
Worst practices (это делать не надо)
- Накрутка рейтингов и оценок (Click Spam): Это крайне опасно. Механизм анализа Raters per view обнаруживает аномально высокое количество оценок относительно просмотров и применяет штрафы (penalty), нивелируя эффект накрутки.
- Покупка просмотров низкого качества: Покупка трафика с низким Watch Time негативно скажется на Quality Signal Q, так как снизит средние/медианные показатели времени просмотра.
- Использование кликбейта: Заголовки и превью, обманывающие ожидания зрителя, приведут к быстрому закрытию видео. Это снижает Watch Time и, как следствие, обрушит Quality Signal Q.
- Игнорирование качества отдельных видео: Размещение низкокачественного контента на авторитетном канале может снизить общий Provider Credit и негативно повлиять на ранжирование других видео.
Стратегическое значение
Патент подтверждает стратегию Google по использованию анализа поведения пользователей для оценки качества контента. Для Video SEO это означает, что техническая оптимизация (метаданные) важна для определения релевантности, но именно вовлеченность аудитории определяет качество (Quality Signal Q). Долгосрочная стратегия должна фокусироваться на создании контента, который действительно ценен для зрителя и стимулирует длительное взаимодействие.
Практические примеры
Сценарий 1: Борьба с накруткой рейтингов (Raters per view penalty)
- Ситуация: Видео А имеет 4000 просмотров и 20 оценок (средний рейтинг 5.0). Соотношение Raters per view = 20/4000 = 0.005.
- Анализ системы: Система определяет, что 0.005 превышает пороговое значение (0.0025), что указывает на потенциальный спам.
- Применение пессимизации: Система пересчитывает эффективное количество оценивших (raters’). Используя формулу из патента (при penalty=2): .
- Результат: При расчете Quality Signal Q система будет учитывать только 5 оценок вместо 20, что значительно снизит достоверность (Voting Function V) высокого рейтинга и уменьшит его влияние на ранжирование.
Сценарий 2: Влияние объема данных на достоверность (Voting Function)
- Ситуация: Видео Б и Видео В имеют одинаковое медианное время просмотра (Watch Time) — 5 минут. Однако Видео Б имеет 100 просмотров, а Видео В — 10000 просмотров.
- Расчет Predictor Function (P): Так как Watch Time одинаковый, значение P(Watch Time) будет одинаковым для обоих видео.
- Расчет Voting Function (V): Функция V зависит от размера выборки, например, ln(View Count). Для Видео В значение V будет значительно выше (ln(10000) > ln(100)).
- Расчет Q: Итоговый Quality Signal Q рассчитывается с учетом веса V (P * V). Поскольку V у Видео В выше, его оценка качества более достоверна.
- Результат: Система более уверена в качестве Видео В, и оно получит преимущество в ранжировании по сравнению с Видео Б при прочих равных условиях.
Вопросы и ответы
Что является наиболее важным фактором качества видео согласно этому патенту?
Хотя система использует комбинацию сигналов, Watch Time (время просмотра) играет центральную роль. В основном пункте патента (Claim 1) именно корреляция между Watch Time и User Ratings (которые часто служат эталоном качества или Ground Truth) используется как основа для расчета качества. Это подчеркивает, что удержание аудитории является критически важным показателем.
Как система определяет, можно ли доверять данным о взаимодействии (например, если просмотров мало)?
Для этого используется Voting Function (V) или Variance Function. Эта функция оценивает достоверность данных на основе размера выборки (количества просмотров или оценок). Если данных мало, функция V выдаст низкий вес, и влияние этих данных на итоговый сигнал качества (Q) будет минимальным. Система больше доверяет статистически значимым данным.
Как патент предлагает бороться с накруткой рейтингов (спамом)?
Патент описывает конкретный механизм: анализ соотношения Raters per view (количество оценивших к просмотрам). Если это соотношение аномально высокое (например, > 0.0025), система активирует формулу штрафа (penalty) и искусственно снижает эффективное количество учитываемых оценок. Также упоминается возможность игнорирования рейтингов, если время просмотра было слишком коротким.
Влияет ли качество других видео автора (канала) на ранжирование конкретного видео?
Да, влияет. В патенте упоминается сигнал Provider Credit. Он рассчитывается как средний рейтинг всех видео, загруженных автором. Этот сигнал может использоваться как один из входов для расчета Quality Signal Q, что подчеркивает важность поддержания стабильно высокого качества на всем канале.
Что такое сигмоидные функции и зачем они используются?
Сигмоидные функции (S-образные кривые) используются для моделирования Predictor (P) и Voting (V) функций, так как позволяют учитывать нелинейные зависимости и эффект насыщения (убывающую отдачу). Например, рост времени просмотра с 1 до 2 минут сильно влияет на качество, а рост с 50 до 51 минуты — слабо. Сигмоида позволяет это смоделировать.
Применяется ли этот механизм только к видео?
Хотя патент в основном описывает применение к видео, в тексте указано, что механизм может быть применен к другим ресурсам, где доступны пользовательские рейтинги и данные о времени взаимодействия. К ним относятся аудиоконтент, электронные игры и веб-страницы. Это означает, что аналогичные принципы могут использоваться для оценки качества сайтов в веб-поиске.
Как влияют внешние ссылки на Quality Signal Q?
Внешние ссылки влияют через сигнал Rank. Патент упоминает, что Rank (аналог PageRank, основанный на ссылочной структуре интернета) может быть одним из входных сигналов для расчета Q. Таким образом, получение качественных обратных ссылок или встраиваний видео повышает его независимую оценку качества.
Что произойдет, если у видео высокий рейтинг, но низкое время просмотра?
Система анализирует корреляции. Если общий тренд показывает, что качественные видео имеют высокое время просмотра, то видео с низким Watch Time получит низкую оценку от соответствующей Predictor Function (P). Высокий рейтинг может быть частично нивелирован, особенно если система заподозрит спам (например, если оценки были поставлены при коротком просмотре).
Зачем используется натуральный логарифм (ln) для входных данных?
Использование натурального логарифма (ln) для таких сигналов, как Watch Time и View Count, позволяет нормализовать распределение данных и учесть закон убывающей отдачи. Это означает, что прирост с 10 до 100 просмотров считается более значимым, чем прирост с 1,000,000 до 1,000,090.
Что означает «независимый от запроса» сигнал качества для SEO?
Это оценка качества самого видео, которая не зависит от того, что ищет пользователь. Работа над улучшением Quality Signal (Q) (через улучшение вовлеченности) повысит производительность видео по всем запросам, по которым оно ранжируется. Усилия направляются на улучшение самого актива, а не только на оптимизацию под конкретный запрос.