Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

WATCH TIME BASED RANKING (Ранжирование на основе времени просмотра)

US9098511B1
Google LLC
2013-03-06
2015-08-04

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

Какую проблему решает

Патент решает проблему оценки качества и релевантности результатов поиска, особенно мультимедийного контента (например, видео), когда традиционных сигналов (таких как клики) недостаточно. Цель — отличать контент, который просто кликают (например, кликбейт), от контента, который фактически потребляют и который удерживает внимание пользователя. Система улучшает выдачу, продвигая ресурсы с высоким уровнем вовлеченности (Watch Time).

Что запатентовано

Запатентована система и метод корректировки оценок ранжирования (Ranking Scores) на основе исторических данных о времени просмотра (Watch Time). Система агрегирует данные о том, как долго пользователи смотрели ресурсы в рамках сессий, инициированных определенным запросом. На основе этих данных вычисляются различные сигналы (Watch Time Signals), которые затем используются для модификации исходной оценки ранжирования ресурса.

Как это работает

Система работает в несколько этапов:

Сбор данных: Отслеживаются пользовательские сессии (Viewing Sessions), начинающиеся с клика по результату поиска. Фиксируется время просмотра (Watch Time) для каждого ресурса в сессии, включая переходы по ссылкам на связанный контент (например, рекомендованные видео).
Вычисление сигналов: На основе агрегированных данных вычисляются Watch Time Signals для пары Запрос-Ресурс. Примеры сигналов: доля ресурса в общем времени просмотра по запросу, среднее время просмотра ресурса, соотношение кликов к показам.
Корректировка ранжирования: Когда поступает новый запрос, система получает исходные оценки ранжирования (S). Сигналы времени просмотра объединяются в множитель (Watch Time Multiplier, M). Исходная оценка корректируется (например, S' = S * M) для повышения ресурсов с высоким Watch Time и понижения ресурсов с низким.

Актуальность для SEO

Критически высокая. Время просмотра (Watch Time) и вовлеченность пользователя являются центральными метриками для оценки качества контента на видеоплатформах (например, YouTube) и все чаще интегрируются в основной поиск Google. Патент описывает фундаментальный механизм использования поведенческих данных для оценки удовлетворенности пользователя, что является основой современных поисковых систем.

Важность для SEO

Патент имеет критическое значение для SEO, особенно в области видеоконтента и мультимедиа. Он демонстрирует, что оптимизация под клики (высокий CTR) недостаточна и может быть вредна, если контент не удерживает пользователя. Стратегия должна быть направлена на максимизацию времени просмотра и продолжительности сессии. Это напрямую влияет на то, как создается, структурируется и оптимизируется контент.

Термины и определения

Watch Time (Время просмотра): Общее время, которое пользователь тратит на потребление контента ресурса (например, просмотр видео, прослушивание аудио, просмотр веб-страницы). Для видео это может превышать длительность самого ролика, если пользователь перематывает и смотрит повторно.
Viewing Session (Сессия просмотра): Цепочка ресурсов, просмотренных пользователем. Сессия начинается с первого ресурса, идентифицированного результатом поиска по запросу, и включает последующие ресурсы, на которые пользователь перешел по ссылкам (например, рекомендованное или связанное видео) с предыдущих ресурсов в этой же сессии.
Pings (Пинги): Механизм сбора данных о Watch Time. Периодические запросы (например, HTTP-запросы) от клиентского устройства к системе, указывающие, какую точку в контенте достиг пользователь.
Watch Time Signals (Сигналы времени просмотра): Статистические индикаторы, вычисляемые на основе данных Watch Time для пары Запрос-Ресурс. Используются для определения тенденций вовлеченности пользователей.
Watch Time Multiplier (M) (Множитель времени просмотра): Коэффициент, вычисляемый на основе одного или нескольких Watch Time Signals. Используется для корректировки исходной оценки ранжирования (S).
Utility Functions (Функции полезности): Математические функции (например, convexity curve, low-data backoff, scaling function), используемые для преобразования необработанных статистических данных в множители. Они обеспечивают плавность корректировок и обработку случаев с недостаточным количеством данных.
Document-Query Fraction (dqf): Сигнал, измеряющий, какая часть от общего времени просмотра по данному запросу приходится на конкретный ресурс.
Relative Document Performance (rdp): Сигнал, измеряющий отношение среднего времени просмотра сессии для данного ресурса к среднему времени просмотра сессии для всех ресурсов по данному запросу.
Clicks Per Impression (cpi): Сигнал, измеряющий отношение количества кликов по ресурсу к количеству его показов (Impressions) по данному запросу.
Watch Time Per Watch (wtpw): Сигнал, измеряющий среднее время просмотра сессии для данного ресурса в рамках сессий по данному запросу (например, среднее геометрическое).
Variant Penalty Parameter (Параметр штрафа за вариант): Коэффициент (от 0 до 1), представляющий степень соответствия варианта термина, использованного для извлечения ресурса по запросу. Может использоваться для снижения влияния Watch Time Signals.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования на основе времени просмотра.

Система идентифицирует одну или несколько исторических сессий (sessions) для запроса. Каждая сессия — это цепочка просмотренных ресурсов, начавшаяся с результата поиска по этому запросу и продолженная через переходы по ссылкам.
Система ассоциирует общее время просмотра (total of watch times) ресурсов в этих сессиях с данным запросом.
Вычисляются один или несколько сигналов времени просмотра (watch time signals) для первого ресурса и запроса на основе ассоциированных времен просмотра.
После завершения этих сессий, когда система получает этот же запрос от пользователя:
Получается результат поиска, идентифицирующий первый ресурс, с исходной оценкой S.
Вычисляется обновленная оценка S' на основе S и функции времени просмотра (watch time function), которая зависит от вычисленных сигналов.
Обновленная оценка S' предоставляется процессу ранжирования.

Claim 5 (Зависимый от 1): Определяет конкретную реализацию функции времени просмотра.

Обновленная оценка S' вычисляется по формуле: $S' = S \times M_{Q,D_i}$ , где $M_{Q,D_i}$ — это Watch Time Multiplier.

Claim 6 (Зависимый от 5): Уточняет, как вычисляется множитель.

Если используется несколько Watch Time Signals, то Watch Time Multiplier основан на произведении двух или более из этих сигналов.

Claims 7-10 (Зависимые от 1): Определяют конкретные Watch Time Signals, которые могут использоваться:

Claim 7: Document-Query Fraction (dqf) — доля от общего времени просмотра по запросу, приходящаяся на данный ресурс.
Claim 8: Relative Document Performance (rdp) — отношение среднего времени просмотра сессии для ресурса к среднему времени просмотра сессии для всех ресурсов по запросу.
Claim 9: Clicks Per Impression (cpi) — отношение кликов к показам.
Claim 10: Watch Time Per Watch (wtpw) — среднее время просмотра сессии для ресурса.

Где и как применяется

Изобретение применяется в основном на финальных этапах обработки запроса, используя данные, собранные и обработанные офлайн.

Офлайн-процессы (Сбор данных и Аналитика)
Система непрерывно собирает данные о пользовательских сессиях (session logs database). Watch Time Engine периодически обрабатывает эти логи для вычисления Watch Time Signals (dqf, rdp, cpi, wtpw) для пар Запрос-Ресурс. Эти сигналы сохраняются для использования в реальном времени.

RANKING – Ранжирование
На этом этапе Search Engine генерирует начальный набор результатов с исходными оценками ранжирования (S).

RERANKING – Переранжирование
Основное применение патента. Watch Time Engine получает запрос и начальные результаты. Он извлекает предварительно рассчитанные Watch Time Signals и вычисляет Watch Time Multiplier (M). Затем он рассчитывает скорректированные оценки (S' = S * M) и передает их обратно в Search Engine или финальному процессу ранжирования для пересортировки результатов.

Входные данные:

Исходный запрос пользователя.
Начальные результаты поиска с их оценками (S).
Исторические данные о сессиях просмотра (session logs).
Предварительно рассчитанные Watch Time Signals.

Выходные данные:

Скорректированные оценки ранжирования (S').
Переранжированный набор результатов поиска.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на видеоконтент. Однако патент отмечает, что Watch Time может быть рассчитан и использован для ранжирования других типов контента, где измеряется время потребления (например, аудиофайлы, веб-страницы).
Специфические запросы: Влияет на запросы, где вовлеченность является ключевым индикатором качества и удовлетворенности пользователя (например, развлекательные, образовательные, информационные запросы, связанные с мультимедиа).

Когда применяется

Условия применения: Алгоритм применяется во время процесса ранжирования/переранжирования для ресурсов, для которых доступна и релевантна статистика Watch Time (преимущественно видео).
Частота применения: Сбор данных происходит непрерывно. Вычисление сигналов происходит периодически (например, ежедневно, еженедельно). Корректировка ранжирования происходит в реальном времени при обработке запроса.

Пошаговый алгоритм

Процесс состоит из трех основных фаз: сбор данных, расчет сигналов и корректировка ранжирования.

Фаза А: Сбор данных (Непрерывный/Фоновый)

Мониторинг сессий: Система отслеживает действия пользователей после ввода запроса и клика по результату.
Идентификация сессии просмотра: Определяется цепочка просмотренных ресурсов (например, Видео 1 -> Рекомендованное Видео 2 -> Рекомендованное Видео 3).
Сбор Watch Time: Для каждого ресурса в сессии фиксируется время просмотра. Это делается с помощью периодических Pings от клиента, указывающих прогресс просмотра.
Завершение сессии: Сессия завершается (например, из-за тайм-аута, нового запроса или ухода с сайта).
Ассоциация данных с запросом: Время просмотра всех ресурсов в сессии ассоциируется с исходным запросом, который инициировал сессию.

Фаза Б: Расчет сигналов и множителей (Периодический/Офлайн)

Агрегация данных: Данные из множества сессий агрегируются. Для каждой пары Запрос-Ресурс собирается статистика просмотров (n), общее время просмотра (W), клики (C) и показы (N).
Вычисление Watch Time Signals: Система рассчитывает ключевые метрики:
- dqf (доля в общем времени).
- rdp (относительная производительность).
- cpi (клики на показ).
- wtpw (время на просмотр).
Преобразование в множители (Utility Functions): Необработанные сигналы преобразуются в индивидуальные множители (M1-M4) с помощью функций полезности. Например, low-data backoff используется для снижения влияния сигналов, если данных недостаточно.
Комбинирование: Индивидуальные множители объединяются (например, путем перемножения) в итоговый Watch Time Multiplier $M_{Q,D}$ .
Сохранение: Множители сохраняются для использования в реальном времени.

Фаза В: Ранжирование (Онлайн)

Получение запроса: Система получает запрос от пользователя.
Генерация исходных результатов: Поисковая система генерирует начальный набор результатов с оценками S.
Применение множителя: Для каждого результата извлекается соответствующий $M_{Q,D}$ . Вычисляется новая оценка $S' = S \times M_{Q,D}$ .
Переранжирование: Результаты сортируются по оценке S' и предоставляются пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Являются основой изобретения.
- Watch Time: Длительность потребления контента.
- Clicks (Клики): Выбор результата поиска, инициирующий запрос ресурса.
- Impressions (Показы): Случаи, когда результат был показан пользователю (был выбран или находился выше выбранного результата).
- Session Data (Данные сессии): Последовательность посещенных ресурсов, переходы по ссылкам (например, на рекомендованный контент).
Технические факторы:
- Pings: Технические данные для определения прогресса просмотра.
Системные данные:
- Исходные оценки ранжирования (S).
- Variant Penalty Parameter: Данные о степени соответствия терминов запроса и ресурса.
Пользовательские факторы: Данные могут быть агрегированы по географическому региону или языку пользователя.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик (Watch Time Signals), которые преобразуются с помощью функций полезности (Utility Functions).

Функции полезности (Utility Functions):

Кривая выпуклости (Convexity Curve): $conv(x) = \frac{x}{c+x(1-c)}$ . Используется для сглаживания роста множителя.
Кривая для недостаточных данных (Low-data backoff): $low(n) = \frac{n}{n+b}$ . Снижает влияние сигналов, если количество просмотров (n) мало. b — эмпирический параметр.
Функция масштабирования (Scaling Function): $scale(x) = 1 + \sigma(x-1)$ . σ — параметр масштабирования (наклон кривой).

Сигналы (Watch Time Signals):

dqf (Document-Query Fraction): $dqf(Q, D_i) = \frac{\sum_{j=1}^{n_i} W_{i,j}}{\sum_{k=1}^{N} \sum_{l=1}^{n_k} W_{k,l}}$ . Доля времени просмотра ресурса $D_i$ от общего времени просмотра всех ресурсов N по запросу Q.
rdp (Relative Document Performance): $rdp(Q, D_i) = \frac{\left[\prod_{j=1}^{n_i} W_{i,j}\right]^{\frac{1}{n_i}}}{\left[\prod_{k=1}^{N} \prod_{l=1}^{n_k} W_{k,l}\right]^{\frac{1}{\sum_{k=1}^{N} n_k}}}$ . Отношение среднего геометрического времени просмотра ресурса $D_i$ к среднему геометрическому времени просмотра всех ресурсов.
cpi (Clicks Per Impression): $cpi(Q, D_i) = \frac{C_i}{N_i}$ . Отношение кликов ( $C_i$ ) к показам ( $N_i$ ).
wtpw (Watch Time Per Watch): $wtpw(Q, D_i) = \left[\prod_{j=1}^{n_i} W_{i,j}\right]^{\frac{1}{n_i}}$ . Среднее геометрическое время просмотра ресурса $D_i$ за сессию.

Итоговый расчет:

Сигналы комбинируются в Watch Time Multiplier $M_{Q,D}$ (например, как произведение индивидуальных множителей, полученных из сигналов). Новая оценка рассчитывается как $S' = S \times M_{Q,D}$ .

Приоритет вовлеченности над кликами: Патент подтверждает, что Google рассматривает время, затраченное на потребление контента (Watch Time), как мощный сигнал качества и релевантности. Простого привлечения клика недостаточно; важно удержание внимания.
Комплексная оценка вовлеченности: Система использует не один, а комбинацию из четырех ключевых сигналов (dqf, rdp, cpi, wtpw) для всесторонней оценки того, как пользователи взаимодействуют с контентом по конкретному запросу.
Важность относительной производительности (rdp): Ресурс должен не просто иметь хорошее абсолютное время просмотра (wtpw), но и показывать результаты лучше, чем в среднем другие ресурсы по этому запросу (rdp). Это создает конкурентную среду, ориентированную на качество.
Ценность сессии: Анализ не ограничивается взаимодействием с одним ресурсом, а охватывает всю Viewing Session, включая переходы на связанный контент. Это подчеркивает важность построения связного пользовательского пути.
Обработка новых данных: Система включает защитные механизмы (low-data backoff), чтобы не пессимизировать новый или нишевый контент, по которому еще не накоплено достаточно статистики просмотров.
Множительный эффект: Корректировка применяется как множитель к исходной оценке ранжирования. Это означает, что высокое или низкое время просмотра может привести к значительным изменениям позиций в выдаче.

Best practices (это мы делаем)

Оптимизация удержания (Retention): Для видеоконтента критически важно оптимизировать первые секунды/минуты, чтобы заинтересовать пользователя и предотвратить его уход. Анализируйте кривые удержания аудитории, чтобы выявить моменты оттока и улучшить контент. Это напрямую влияет на wtpw и rdp.
Создание контента, превосходящего конкурентов по вовлеченности: Анализируйте контент конкурентов по вашим целевым запросам. Ваша цель — создать контент, который пользователи будут смотреть дольше, чем контент конкурентов, чтобы максимизировать rdp (Relative Document Performance).
Стимулирование длительных сессий: Используйте эффективные внутренние ссылки, плейлисты, блоки "рекомендуем также" или "читать далее", чтобы побудить пользователя продолжить потребление контента на вашем сайте. Увеличение общего времени сессии положительно влияет на восприятие качества ресурса.
Точное соответствие интенту (Anti-Clickbait): Убедитесь, что заголовки, описания и миниатюры (thumbnails) точно отражают содержание. Это позволяет поддерживать высокий cpi (CTR) без ущерба для wtpw. Если пользователь кликает, но сразу уходит, система понизит результат.
Увеличение доли в общем времени просмотра (dqf): Стремитесь стать доминирующим источником информации по теме. Чем больше пользователей выбирают ваш контент и чем дольше его смотрят по сравнению с другими источниками по данному запросу, тем выше будет dqf.

Worst practices (это делать не надо)

Использование кликбейта: Создание сенсационных заголовков или вводящих в заблуждение миниатюр для привлечения кликов. Хотя это может временно повысить cpi, низкое время просмотра (низкий wtpw и rdp) приведет к пессимизации результата.
Искусственное раздувание контента без ценности: Создание излишне длинных видео или статей, наполненных "водой", в надежде увеличить Watch Time. Если пользователи проматывают или покидают контент, не найдя ценности, это будет зафиксировано и негативно повлияет на ранжирование.
Игнорирование аналитики вовлеченности: Фокусировка только на трафике и позициях без анализа того, как пользователи потребляют контент (время на странице, глубина просмотра, показатели отказов, удержание аудитории для видео).

Стратегическое значение

Этот патент подчеркивает стратегический сдвиг в оценке качества контента от статических факторов к динамическим поведенческим сигналам. Для SEO-стратегии это означает, что качество контента напрямую измеряется его способностью удовлетворять и вовлекать пользователя. Особенно это критично для мультимедийного контента, где измерение Watch Time является основным индикатором успеха. Долгосрочная стратегия должна быть направлена на создание глубокого, полезного и увлекательного контента, который стимулирует длительное взаимодействие.

Практические примеры

Сценарий: Оптимизация обучающего видео по запросу "Как настроить гитару"

Анализ текущей ситуации: Ваше видео имеет высокий cpi (хорошая миниатюра), но низкий wtpw (среднее время просмотра 1 минута из 10) и низкий rdp (конкуренты имеют среднее время 3 минуты).
Действия по оптимизации:
- Анализ удержания показывает, что пользователи уходят на 45 секунде во время длинного вступления.
- Перемонтируйте видео: уберите длинное вступление, сразу перейдите к настройке первого струны, добавьте четкую навигацию по таймкодам.
- Добавьте в конце видео ссылку на связанный контент ("Первые аккорды для начинающих"), чтобы увеличить время сессии.
Ожидаемый результат: Увеличение среднего времени просмотра до 3.5 минут. Это повысит wtpw и rdp. Система пересчитает Watch Time Multiplier в сторону увеличения, что приведет к росту позиций видео в поиске (например, YouTube или Google Search).

Чем описанный в патенте Watch Time отличается от Dwell Time?

Dwell Time обычно определяется как время между кликом по результату поиска и возвратом пользователя на страницу выдачи (SERP). Watch Time, как описано в патенте, — это фактическое время, потраченное на активное потребление контента, измеряемое с помощью Pings от плеера или браузера. Watch Time не зависит от возврата на SERP и может включать время просмотра нескольких связанных ресурсов в рамках одной Viewing Session.

Применяется ли этот патент только к YouTube или также к обычному поиску Google?

Хотя патент в первую очередь фокусируется на видеоконтенте (что делает его крайне актуальным для YouTube), в нем прямо указано, что Watch Time может рассчитываться и использоваться для ранжирования других типов контента, включая веб-страницы и аудиофайлы. Следовательно, описанные принципы могут применяться для ранжирования статей и другого контента в основном поиске Google, если система может измерить время активного взаимодействия.

Что такое rdp (Relative Document Performance) и почему это важно?

rdp сравнивает среднее время просмотра вашего контента со средним временем просмотра всех других ресурсов по тому же запросу. Это критически важная метрика, так как она оценивает ваш контент в контексте конкурентов. Недостаточно иметь хорошее абсолютное время просмотра; нужно быть более вовлекающим, чем альтернативы, доступные пользователю.

Как система обрабатывает новые видео или статьи, по которым еще нет статистики Watch Time?

Патент описывает механизм low-data backoff (функция low(n)). Если количество просмотров (n) мало, влияние Watch Time Signals на ранжирование снижается. Это дает новому контенту шанс ранжироваться на основе других факторов и начать собирать данные о вовлеченности, не получая немедленной пессимизации.

Что такое dqf (Document-Query Fraction) и как его можно улучшить?

dqf измеряет, какую долю от общего времени, которое все пользователи потратили на просмотр контента по данному запросу, занимает ваш ресурс. Чтобы улучшить dqf, нужно не только увеличивать время просмотра вашего контента (высокий wtpw), но и привлекать большую долю аудитории по этому запросу (высокий cpi). По сути, это показатель доминирования на рынке по данному запросу с точки зрения вовлеченности.

Влияет ли на ранжирование просмотр связанного контента (например, рекомендуемых видео)?

Да. Патент определяет Viewing Session как цепочку просмотров, начиная с результата поиска и далее по связанным ссылкам. Время просмотра всех ресурсов в сессии агрегируется. Стимулирование пользователей к просмотру дополнительного контента на вашем сайте увеличивает общее время сессии, что положительно влияет на оценку качества.

Может ли Watch Time быть больше, чем фактическая длина видео?

Да. В патенте указано, что если пользователь перематывает видео или пересматривает определенные фрагменты, система продолжает накапливать Watch Time. Это означает, что система измеряет общее время вовлечения, а не только прогресс воспроизведения от начала до конца.

Как система использует cpi (Clicks Per Impression) в этом алгоритме?

cpi (или CTR) используется как один из сигналов, который вносит вклад в общий Watch Time Multiplier. Он помогает оценить привлекательность результата в выдаче. Однако высокий cpi должен подкрепляться высоким временем просмотра (wtpw, rdp). Если cpi высок, а время просмотра низкое (кликбейт), итоговый множитель может оказаться понижающим.

Используются ли среднее арифметическое или среднее геометрическое для расчета средних значений?

В патенте упоминается использование среднего геометрического (geometric mean) для расчета средних значений в сигналах rdp и wtpw. Среднее геометрическое менее чувствительно к экстремальным выбросам (например, очень длинным или очень коротким сессиям), чем среднее арифметическое, что делает оценку более стабильной.

Что произойдет, если пользователь открыл видео, но не начал его смотреть?

В патенте указано, что в некоторых реализациях система считает видео просмотренным, только если Ping указывает на начало воспроизведения. Если пользователь посещает страницу с видео, но не инициирует воспроизведение, соответствующее время просмотра может быть не записано или записано как ноль.

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")

Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

US10346417B2
2019-07-09

Мультимедиа
Поведенческие сигналы
SERP

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google (YouTube) использует последовательность просмотров и общее время просмотра для определения и ранжирования похожих видео

Google использует поведенческие сигналы для определения похожих видео на платформах типа YouTube. Система анализирует, какие видео пользователи смотрят одно за другим в течение короткого времени (ко-просмотры). Если пользователи положительно взаимодействуют (например, долго смотрят) с Видео А и сразу после этого с Видео Б, система считает их связанными. Финальный список рекомендаций ранжируется с учетом временной близости просмотров и общего времени просмотра (Total Watch Time).

US9088808B1
2015-07-21

Поведенческие сигналы
Мультимедиа
Персонализация

Как Google использует сигналы вовлеченности пользователей для ранжирования контента в системах без поискового запроса (например, Google Discover)

Патент описывает механизм генерации рекомендаций контента на основе того, что пользователь просматривает в данный момент, без ввода поискового запроса. Система анализирует текущий контент, находит связанные ресурсы и ранжирует их, основываясь преимущественно на метриках вовлеченности пользователей (трендовость, частота просмотров, совместные просмотры), а не только на текстовой релевантности.

US10152521B2
2018-12-11

Поведенческие сигналы
Персонализация

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов

Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.

US9268820B2
2016-02-23

Knowledge Graph
SERP
Семантика и интент

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента

Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.

US9268880B2
2016-02-23

Персонализация
Семантика и интент
Мультимедиа

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует временной распад и анализ трендов кликов для корректировки ранжирования и борьбы со стагнацией выдачи

Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.

US9092510B1
2015-07-28

Свежесть контента
Поведенческие сигналы
SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы