Как Google динамически выбирает лучший кадр из видео (thumbnail) и точку воспроизведения под конкретный запрос пользователя

SELECTING REPRESENTATIVE VIDEO FRAMES FOR VIDEOS (Выбор репрезентативных видеокадров для видео)

US20160378863A1
Google LLC
2015-06-24
2016-12-29

Google использует систему для динамического выбора thumbnail для видео в результатах поиска. Система анализирует запрос пользователя и содержание каждого кадра видео, преобразуя их в числовые векторы в общем семантическом пространстве. Кадр, наиболее близкий по смыслу к запросу, выбирается в качестве репрезентативного (thumbnail). Ссылка в выдаче может вести непосредственно к этому моменту в видео (Deep Linking).

Какую проблему решает

Патент решает проблему неоптимального представления видеоконтента в поисковой выдаче. Статичные, заранее выбранные обложки (thumbnails) часто не отражают ту часть видео, которая наиболее релевантна конкретному запросу пользователя. Это ухудшает пользовательский опыт, снижает CTR и вынуждает пользователя искать нужный момент вручную. Система улучшает взаимодействие, динамически подбирая наиболее релевантный кадр под запрос и предлагая начать воспроизведение с этого момента.

Что запатентовано

Запатентована система выбора репрезентативных кадров для видео, работающая в ответ на поисковый запрос. Суть изобретения заключается в использовании общего многомерного векторного пространства (high-dimensional space) для представления как текстовых запросов, так и видеокадров. Система динамически выбирает тот кадр видео, чей вектор (Frame Representation) наиболее близок к вектору запроса (Query Representation). Этот кадр используется в качестве обложки и точки старта воспроизведения.

Как это работает

Механизм работает следующим образом:

Индексирование (Офлайн): Система заранее обрабатывает видео и вычисляет векторное представление (Frame Representation) для каждого кадра, используя нейронные сети (CNN). Также хранятся векторные представления слов (Term Representations).
Обработка запроса (Онлайн): При получении запроса система вычисляет его векторное представление (Query Representation), например, путем усреднения векторов входящих в него слов.
Поиск видео: Определяются видео, релевантные запросу (стандартный поиск).
Выбор кадра: Для каждого релевантного видео система сравнивает вектор запроса с векторами всех кадров этого видео.
Результат: Кадр, чей вектор имеет наименьшее расстояние (например, косинусное сходство) до вектора запроса, выбирается как репрезентативный. Он отображается в SERP, и ссылка инициирует воспроизведение с этого момента (Deep Linking).

Актуальность для SEO

Высокая. Патент напрямую описывает технологическую основу для функциональности "Key Moments" (Ключевые моменты) в Google Поиске и YouTube. Описанные методы кросс-модального поиска (текст-изображение) и использование глубоких нейронных сетей для создания семантических векторных представлений (embeddings) являются фундаментом современных поисковых технологий (включая мультимодальные модели, такие как MUM).

Важность для SEO

Влияние на Video SEO значительное (8.5/10). Хотя патент не описывает алгоритм ранжирования видео, он описывает механизм, который критически влияет на представление видео в выдаче (CTR) и удовлетворенность пользователя (вовлеченность). Он подчеркивает, что Google анализирует визуальное содержание видео покадрово и сопоставляет его с интентом запроса. Это делает оптимизацию метаданных недостаточной; само визуальное содержание видео должно быть разнообразным и семантически релевантным целевым запросам.

Термины и определения

Embedding Layer (Слой встраивания/Эмбеддинга): Дополнительный слой нейронной сети, добавляемый к сети классификации изображений. Его задача — преобразовать выходные данные классификатора в векторное представление кадра (Frame Representation) в нужном многомерном пространстве.
Frame Representation (Векторное представление кадра): Вектор числовых значений в многомерном пространстве, представляющий семантическое содержание видеокадра. Находится в том же пространстве, что и представления текста.
High-dimensional space (Многомерное пространство): Векторное пространство, используемое для представления слов, запросов и кадров. Близость расположения векторов в этом пространстве отражает семантическое сходство между элементами.
Image Classification Neural Network (Нейронная сеть для классификации изображений): Модель машинного обучения (например, глубокая сверточная нейронная сеть, CNN), обученная распознавать объекты на изображении и присваивать ему оценки меток (Label Scores).
Label Representation (Векторное представление метки): Векторное представление термина, используемого в качестве метки для классификации (например, «лошадь»). Обычно эквивалентно Term Representation этой метки.
Label Scores (Оценки меток): Выходные данные классификатора изображений. Набор оценок, где каждая оценка показывает вероятность того, что кадр содержит объект, соответствующий определенной метке.
Query Representation (Векторное представление запроса): Вектор числовых значений в многомерном пространстве, представляющий семантику поискового запроса. Обычно вычисляется путем комбинирования Term Representations слов запроса.
Representative Frame (Репрезентативный кадр): Кадр из видео, выбранный системой как наиболее соответствующий поисковому запросу. Используется как thumbnail и потенциальная точка начала воспроизведения.
Term Representation (Векторное представление термина): Вектор числовых значений в многомерном пространстве, представляющий семантику слова (аналогично Word2Vec).
Training Triplets (Обучающие триплеты): Набор данных для обучения модифицированной нейронной сети. Триплет состоит из: (1) видеокадра, (2) позитивного представления запроса (запрос, который привел к клику на это видео), и (3) негативного представления запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

Система получает поисковый запрос.
Определяется Query Representation (вектор в многомерном пространстве).
Идентифицируется набор релевантных видео. Для каждого кадра этих видео имеется Frame Representation (вектор в том же пространстве).
Для каждого видео выбирается репрезентативный кадр путем сравнения Query Representation и Frame Representations.
Генерируется ответ на запрос, где для каждого видео отображается выбранный репрезентативный кадр.

Ядро изобретения — это динамический выбор отображаемого кадра на основе сравнения векторных представлений запроса и кадров в общем семантическом пространстве.

Claim 2 (Зависимый от 1): Уточняет, что результат поиска включает ссылку для воспроизведения видео, начиная с репрезентативного кадра. Это техническая основа для функции "Key Moments" (Deep Linking).

Claim 3 и 4 (Зависимые): Детализируют механизм выбора кадра.

Вычисляется мера расстояния (distance measure) между вектором запроса и вектором каждого кадра.
В качестве репрезентативного выбирается кадр, чей вектор наиболее близок к вектору запроса.

Claim 5 и 6 (Зависимые): Описывают механизм контроля качества выбора (Fallback).

На основе мер расстояния генерируется вероятность (оценка уверенности).
Проверяется, превышает ли наивысшая вероятность пороговое значение.
Если ДА: Выбирается кадр с наивысшей вероятностью.
Если НЕТ: Выбирается кадр по умолчанию (default frame), например, статичный thumbnail.

Claim 9 и 10 (Зависимые): Описывают первый метод генерации Frame Representation (Метод 1).

Кадр обрабатывается CNN для получения Label Scores (вероятностей наличия объектов).
Для каждой метки вычисляется взвешенное представление путем умножения Label Score на Label Representation (вектор текста метки).
Frame Representation вычисляется как сумма этих взвешенных представлений.

Этот метод позволяет перенести кадр в текстовое векторное пространство через распознанные объекты.

Claim 11, 12 и 13 (Зависимые): Описывают второй метод генерации Frame Representation (Метод 2) и его обучение.

Используется модифицированная сеть с Embedding Layer для прямой генерации вектора кадра.
Эта сеть обучается на Training Triplets (кадр, позитивный запрос, негативный запрос), используя данные о поведении пользователей (клики).

Этот метод позволяет напрямую обучить сеть генерировать векторы кадров, которые будут близки к релевантным поисковым запросам.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая связь между индексированием визуального контента и представлением результатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная предварительная обработка. Система анализирует видео, извлекает кадры и вычисляет Frame Representations для каждого кадра с использованием моделей машинного обучения (CNN). Эти векторные представления сохраняются в базе данных (Frame Representations repository). Также на этом этапе происходит обучение моделей (Процесс В).

QUNDERSTANDING – Понимание Запросов
При получении запроса система использует базу данных Term Representations для вычисления Query Representation. Это происходит в реальном времени.

RANKING – Ранжирование
Стандартный поисковый движок (Video Search Engine) определяет набор видео, релевантных запросу. Описанный в патенте механизм использует результаты этого этапа.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На финальном этапе формирования выдачи активируется система выбора репрезентативного кадра (Representative Frame System). Она динамически выбирает, какой кадр показать и с какого момента начать воспроизведение, сравнивая Query Representation с Frame Representations.

Входные данные:

Поисковый запрос.
Набор релевантных видео.
База данных Term Representations.
База данных Frame Representations.

Выходные данные:

Результаты поиска с динамически выбранными репрезентативными кадрами (thumbnails).
Таймкоды (ссылки) для начала воспроизведения с выбранного кадра (Deep Links).

На что влияет

Конкретные типы контента: В первую очередь влияет на видеоконтент (Video Search, YouTube, видео в веб-выдаче).
Специфические запросы: Наибольшее влияние на информационные запросы типа «как сделать», обучающие материалы, обзоры продуктов, где ответ содержится в определенном фрагменте длинного видео.
Форматы контента: Длинные видео с разнообразным визуальным рядом получают больше преимуществ, так как система имеет больше возможностей для выбора релевантного кадра под разные запросы.

Когда применяется

Алгоритм применяется при выполнении следующих условий:

Триггеры активации: Когда в ответ на запрос поисковая система решает показать видеорезультаты.
Условия работы: Система должна иметь предварительно рассчитанные Frame Representations для этих видео.
Пороговые значения: Механизм динамического выбора активируется, только если система может найти кадр, чья близость к запросу превышает определенный порог уверенности (threshold value). Если уверенность низкая, используется кадр по умолчанию (default frame).

Пошаговый алгоритм

Процесс А: Обработка запроса и выбор кадра (Онлайн)

Получение запроса: Система получает поисковый запрос от пользователя.
Вычисление Query Representation: Система определяет Term Representations для слов в запросе и комбинирует их (например, усредняет) для получения Query Representation.
Идентификация релевантных видео: Поисковый движок определяет список видео, отвечающих запросу.
Сравнение векторов: Для каждого видео система извлекает Frame Representations всех его кадров. Вычисляется мера расстояния (например, косинусное сходство) между Query Representation и каждым Frame Representation.
Идентификация лучшего кадра: Определяется кадр, чей вектор наиболее близок к вектору запроса.
Проверка порога уверенности: Система проверяет, достаточно ли близок лучший кадр к запросу (превышает ли соответствующая вероятность пороговое значение).
- Если ДА: Этот кадр выбирается как репрезентативный.
- Если НЕТ: Выбирается кадр по умолчанию.
Генерация ответа: Формируется поисковая выдача. Видеорезультаты включают репрезентативный кадр (thumbnail) и ссылку для воспроизведения, начиная с этого кадра (Deep Link).

Процесс Б: Генерация Frame Representations (Офлайн)

Вариант 1: Использование классификатора и взвешивания (Claims 9, 10)

Классификация: Обработка кадра с помощью Image Classification Neural Network (CNN) для получения Label Scores (вероятностей наличия объектов).
Взвешивание меток: Каждая Label Score умножается на соответствующую Label Representation (текстовый вектор метки).
Агрегация: Полученные взвешенные векторы суммируются для формирования итогового Frame Representation.

Вариант 2: Использование модифицированной сети и Embedding Layer (Claim 11)

Обработка сетью: Кадр обрабатывается модифицированной нейронной сетью (включающей Embedding Layer), обученной в Процессе В.
Генерация вектора: Embedding Layer преобразует результаты классификации в итоговый Frame Representation.

Процесс В: Обучение модифицированной сети (Офлайн, для Варианта 2) (Claims 12, 13)

Сбор данных: Получение набора обучающих видео и связанных с ними поисковых запросов (запросы, по которым пользователи кликали на эти видео).
Генерация триплетов: Формирование Training Triplets: (Кадр, Позитивный запрос, Негативный запрос).
Обучение сети: Обучение модифицированной нейронной сети с целью минимизации функции потерь. Цель — сделать расстояние между кадром и позитивным запросом меньше, чем расстояние между кадром и негативным запросом.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Видеокадры. Являются основным источником данных для генерации Frame Representations. Анализируется пиксельное содержание изображений с помощью CNN.
Контентные (Текстовые) факторы:
- Термины поискового запроса (для Query Representation).
- Метки (Labels) для классификации изображений (например, "собака", "мяч") (для Label Representations).
Поведенческие факторы: Используются для обучения модели (Процесс В). Система использует данные о том, какие запросы привели к выбору (клику) конкретного видео (search queries that are associated with the training video) для формирования Training Triplets.
Системные данные: Предварительно вычисленные Term Representations (векторы слов).

Какие метрики используются и как они считаются

Distance Measure (Мера расстояния): Метрика для определения близости между векторами в многомерном пространстве. Упоминаются косинусное сходство (cosine similarity), Евклидово расстояние, расстояние Хэмминга. Используется для сравнения Query Representation и Frame Representation.
Label Scores (Оценки меток): Вероятности, вычисляемые нейронной сетью, отражающие наличие определенных объектов на кадре.
Probability (Вероятность/Уверенность): Метрика, используемая для проверки порога. Может вычисляться путем калибровки мер расстояния с использованием моделей (например, изотонической или логистической регрессии). Отражает вероятность того, что кадр точно представляет видео относительно запроса.
Loss Function (Функция потерь): Используется при обучении модифицированной нейронной сети (Процесс В). Зависит от позитивного и негативного расстояний в триплетах.

Кросс-модальное понимание контента: Патент демонстрирует механизм, позволяющий Google напрямую связывать семантику текста (запрос) с семантикой изображения (кадр) путем помещения их в общее векторное пространство. Система понимает визуальное содержание видео на глубоком уровне.
Покадровая оценка релевантности: Релевантность видео оценивается не только на уровне всего видео (метаданные), но и на уровне отдельных кадров в контексте конкретного запроса.
Динамическая генерация сниппетов и Deep Linking: Система переопределяет стандартные thumbnails и точки входа в видео в реальном времени, адаптируя выдачу под интент пользователя. Это техническая основа для функций типа "Key Moments".
Два подхода к созданию векторов изображений: Описаны два ключевых метода переноса изображений в текстовое пространство: (1) через распознавание объектов и взвешивание их текстовых векторов, и (2) через прямое обучение эмбеддинга с использованием данных о поиске и кликах.
Использование поведенческих данных для обучения ML-моделей: Данные о кликах пользователей (какие запросы ведут к каким видео) используются для обучения систем компьютерного зрения понимать визуальную релевантность контента (Метод 2).
Механизм контроля качества (Fallback): Система включает предохранитель (порог уверенности), чтобы не показывать динамический кадр, если нет высокой уверенности в его релевантности, и откатываться к стандартному представлению.

Best practices (это мы делаем)

Обеспечение визуального разнообразия и ясности: Создавайте видео с богатым и разнообразным визуальным рядом. Чем больше различных сцен, объектов и действий показано в видео, тем выше вероятность, что система найдет кадр, точно соответствующий специфическому запросу. Качество изображения должно быть высоким для корректной работы CNN.
Четкая визуализация ключевых тем: Убедитесь, что основные темы видео имеют четкое визуальное представление. Если видео о том, "как заменить картридж в принтере X", в нем должны быть крупные планы принтера, картриджа и процесса замены. Это позволит системе точно сопоставить Frame Representation этого момента с соответствующим запросом.
Структурирование длинных видео: Четкая структура видео помогает создавать семантически разделенные сегменты. Это увеличивает шансы на точное выделение "Key Moments" для разных запросов. Дополнение автоматического анализа ручными таймкодами (главами) является лучшей практикой.
Анализ визуальной релевантности: При планировании контента думайте о том, что будет показано. Визуальный ряд должен быть самодостаточным для понимания контекста сегмента и соответствовать целевым поисковым интентам.

Worst practices (это делать не надо)

Визуальная монотонность: Видео, состоящие из статических слайдов или долгого показа одного плана (например, "говорящая голова" без визуальных вставок), предоставляют системе мало возможностей для выбора релевантных кадров под разные запросы.
Несоответствие визуального ряда и темы: Если видео ранжируется по определенным запросам, но визуально не содержит ничего, связанного с этими темами (например, использование нерелевантных стоковых футажей), система не сможет найти релевантный Frame Representation и будет использовать стандартный thumbnail.
Использование кликбейтных обложек: Попытки манипулировать CTR с помощью нерелевантных статических обложек становятся менее эффективными, так как описанная система может динамически заменить их на реальный кадр из видео, если найдет его более релевантным запросу.

Стратегическое значение

Этот патент подтверждает переход Google к глубокому анализу содержания видеоконтента, выходящему далеко за рамки анализа метаданных и аудиодорожки. Визуальная составляющая является полноценным источником семантической информации. Для долгосрочной стратегии Video SEO критически важно инвестировать в качество продакшена и обеспечивать высокую визуальную релевантность контента на протяжении всего видео. Патент подчеркивает важность удовлетворения интента пользователя путем предоставления прямого доступа к нужному фрагменту контента.

Практические примеры

Сценарий: Оптимизация видео-обзора ноутбука

Видео: "Полный обзор MacBook Pro M3" (длительность 15 минут).

Запрос 1: "MacBook Pro M3 время работы батареи".
- Работа системы: Google анализирует кадры видео. Находит сегмент (например, 10:00-11:30), где показаны графики тестов батареи. Векторы этих кадров (Frame Representations) оказываются наиболее близки к вектору запроса (Query Representation).
- Результат: В выдаче показывается thumbnail с графиком теста батареи, ссылка ведет на 10:00.
Запрос 2: "MacBook Pro M3 порты".
- Работа системы: Система находит сегмент (например, 03:00-04:00), где показаны крупные планы корпуса с портами Thunderbolt и HDMI. Векторы этих кадров наиболее близки к новому запросу.
- Результат: В выдаче показывается thumbnail с изображением портов, ссылка ведет на 03:00.

Действия SEO-специалиста: Убедиться, что при монтаже видеообзора для каждого ключевого аспекта (батарея, порты, экран, производительность) были использованы четкие, крупные и информативные планы или графика, чтобы система компьютерного зрения могла их корректно классифицировать и создать релевантные Frame Representations.

Влияет ли этот патент на ранжирование видео?

Напрямую нет. Патент описывает механизм выбора представления видео (thumbnail и точки входа) уже после того, как поисковая система определила, какие видео релевантны запросу. Однако этот механизм оказывает сильное косвенное влияние. Более релевантные тамбнейлы увеличивают CTR, а переход к нужному моменту улучшает удовлетворенность пользователя и вовлеченность. Эти положительные поведенческие сигналы могут способствовать улучшению ранжирования видео в долгосрочной перспективе.

Является ли этот патент описанием функции «Ключевые моменты» (Key Moments) в Google Поиске?

Да, этот патент описывает базовую технологию, лежащую в основе таких функций. Claim 2 прямо указывает на возможность создания ссылки для воспроизведения видео, начиная с выбранного репрезентативного кадра (Deep Linking). Это именно то, что делают функции «Ключевые моменты» или «Предложенные клипы» (Suggested Clips) — они идентифицируют релевантный фрагмент и направляют пользователя туда.

Как система переносит изображение (кадр) в то же векторное пространство, что и текст?

Описано два метода. Метод 1 использует нейронную сеть для распознавания объектов на кадре (например, 80% «лошадь», 20% «поле»). Затем Frame Representation вычисляется как взвешенная сумма векторов этих текстовых меток. Метод 2 использует специальный слой нейронной сети (Embedding Layer), обученный напрямую генерировать вектор кадра так, чтобы он был близок к векторам релевантных поисковых запросов.

Как данные о поведении пользователей используются в этом патенте?

Поведенческие данные критически важны для обучения моделей по Методу 2. Система использует логи поисковых запросов и кликов, чтобы определить, какие запросы связаны с какими видео. Эти данные формируют "позитивные примеры" (в составе Training Triplets) для обучения нейронной сети распознавать визуальную релевантность контента запросам.

Может ли система выбрать неправильный кадр?

Да, это возможно. Однако патент предусматривает механизм контроля качества (Claims 5 и 6). Система вычисляет оценку уверенности (вероятность) для лучшего найденного кадра. Если эта уверенность ниже порогового значения, система откатывается к использованию кадра по умолчанию (default frame), например, стандартного статического thumbnail, чтобы избежать показа нерелевантного контента.

Как SEO-специалист может повлиять на выбор репрезентативного кадра?

Напрямую контролировать выбор нельзя, но можно оптимизировать контент. Необходимо обеспечить наличие в видео визуально четких и понятных кадров, которые семантически соответствуют целевым запросам. Если вы хотите, чтобы сегмент был выбран для конкретного запроса, убедитесь, что объекты и действия в этом сегменте визуально очевидны и хорошо распознаваемы нейросетью.

Что делать, если мое видео состоит только из статических слайдов и закадрового голоса?

В этом случае возможности системы по выбору релевантного кадра будут ограничены, так как визуальное разнообразие низкое. Рекомендуется разнообразить визуальный ряд, добавлять иллюстрации, инфографику или видеовставки. Четкий и крупный текст на слайдах также может помочь, так как современные системы компьютерного зрения могут учитывать его при генерации Frame Representation.

Заменяет ли эта система вручную созданные таймкоды (главы)?

Нет, она их дополняет. Описанная система работает автоматически, основываясь на визуальном анализе, и может найти релевантный момент даже если таймкоды отсутствуют. Однако вручную созданные таймкоды дают четкие сигналы о структуре видео. Лучшая практика – использовать и то, и другое: создавать четкую структуру с главами и обеспечивать богатый визуальный ряд внутри каждой главы.

Как качество видео влияет на работу этого алгоритма?

Качество видео имеет решающее значение. Нейросетям (CNN) требуются четкие визуальные данные для корректного распознавания объектов и сцен. Видео низкого качества, с плохим освещением или размытыми кадрами будут плохо интерпретированы, что приведет к неточным Frame Representations и снизит эффективность работы описанного механизма.

Как этот патент связан с мультимодальными моделями типа MUM?

Этот патент является ранним примером мультимодального подхода, так как он стремится объединить понимание текста и изображений в общем векторном пространстве. Современные модели, такие как MUM, значительно развили эту идею, обеспечивая более глубокое и интегрированное понимание различных форматов контента. Технология, описанная здесь, заложила фундамент для этого развития.

Как Google использует семантический анализ и оценку эстетики для генерации динамических превью видео под запрос пользователя

Google анализирует видео, разбивая его на сегменты и определяя семантические концепции (объекты, действия) в каждом кадре. Для каждой сцены выбирается лучший кадр, сочетающий информативность и визуальное качество. Эти кадры используются для создания динамических превью (storyboards) или замены тамбнейлов, адаптируясь под конкретный поисковый запрос или интересы пользователя для повышения CTR.

US9953222B2
2018-04-24

Семантика и интент
Мультимедиа
Индексация

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google использует машинное обучение для анализа содержания видео и динамического выбора релевантных тамбнейлов

Google использует систему машинного обучения для связывания аудиовизуальных признаков видео (цвет, текстура, звук) с ключевыми словами. Это позволяет системе понимать содержание каждого кадра и динамически выбирать для тамбнейла (миниатюры) тот кадр, который наилучшим образом соответствует запросу пользователя или общему содержанию видео.

US20110047163A1
2011-02-24

Мультимедиа
Индексация
Семантика и интент

Как Google автоматически определяет и отображает ключевые моменты (Key Moments) в видео для улучшения навигации

Google использует систему для анализа видеоконтента с помощью текстовых, визуальных и аудиосигналов. Система определяет "ключевые моменты" (salient topics), генерирует для них текстовые метки и интеллектуально выбирает наиболее релевантные стоп-кадры. Эти "временные анкоря" (Video Timed Anchors) позволяют пользователям понять структуру видео и перейти к интересующему сегменту прямо из поиска или плеера.

US20240046964A1
2024-02-08

Мультимедиа
Семантика и интент

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования

Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.

US9858295B2
2018-01-02

Мультимедиа
Поведенческие сигналы
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы