Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

DETECTION AND CLASSIFICATION OF MATCHES BETWEEN TIME-BASED MEDIA (Обнаружение и классификация совпадений между медиафайлами, основанными на времени)

US8238669B2
Google LLC
2008-07-16
2012-08-07

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

Какую проблему решает

Патент решает проблему эффективного и масштабируемого управления огромными библиотеками медиафайлов (видео и аудио), такими как YouTube. Основные задачи: автоматическая идентификация неавторизованного контента (защищенного авторским правом), обнаружение дубликатов для экономии места хранения и улучшение организации контента. Система должна быть устойчива к стандартным искажениям (транскодирование, шум) и изменениям скорости воспроизведения, а также работать в условиях жестких временных ограничений.

Что запатентовано

Запатентована система и метод для обнаружения полных или частичных совпадений между медиафайлами с использованием цифровых отпечатков (fingerprints). Изобретение описывает трехэтапный процесс: быстрая генерация короткого списка кандидатов с использованием Locality-Sensitive Hashing (LSH), детальная оценка этих кандидатов с помощью машинно-обученного классификатора (Classifier) и объединение подтвержденных локальных совпадений во времени.

Как это работает

Система работает следующим образом:

Фингерпринтинг и Индексация: Медиафайлы делятся на короткие сегменты (0.5-5.0 секунд), для которых генерируются sub-fingerprints. Они индексируются в Reverse Index Table с помощью LSH keys.
Этап 1 (Генерация кандидатов): Система быстро ищет эталонные видео с похожими LSH keys. Используются оптимизации, такие как Blacklisting (игнорирование слишком частых ключей) и обработка в порядке дискриминативности (редкости).
Этап 2 (Классификация): Кандидаты выравниваются по времени с входным видео (например, с помощью Dynamic Time Warping (DTW)). Генерируется вектор признаков совпадения, который оценивается Classifier для определения валидности совпадения и расчета Confidence Score.
Этап 3 (Объединение): Валидные локальные совпадения из разных временных фрагментов объединяются в финальный результат.

Актуальность для SEO

Высокая. Описанная технология является фундаментальной для систем идентификации контента, таких как YouTube Content ID. Методы фингерпринтинга, LSH для масштабируемого поиска и использование машинного обучения для классификации совпадений остаются ключевыми технологиями для обработки мультимедийного контента в Google.

Важность для SEO

Влияние на традиционное веб-SEO низкое, но стратегическое значение для Video SEO (VSEO) и YouTube высокое. Патент не описывает алгоритмы ранжирования, но детально раскрывает инфраструктуру, используемую Google для идентификации уникальности и дублирования медиаконтента. Понимание этих механизмов критически важно для управления видимостью видео, решения проблем каноникализации медиафайлов и соблюдения авторских прав.

Термины и определения

Blacklisting (Черный список): Механизм оптимизации, при котором слишком частые LSH Keys (не помогающие различать контент) исключаются из стандартного индекса. Level 1: ключ встречается в слишком большом проценте видео. Level 2: ключ встречается слишком часто в абсолютном выражении.
Chunk (Фрагмент): Временной отрезок входного видео (например, 10 секунд), который обрабатывается независимо на Этапах 1 и 2.
Classifier (Классификатор): Модель машинного обучения (например, нейронная сеть), используемая на Этапе 2 для определения, является ли кандидат истинным или ложным совпадением, на основе вектора признаков.
Confidence Score (Оценка уверенности): Метрика, выводимая классификатором, указывающая на вероятность того, что совпадение является верным.
Discriminative (Дискриминативный): Характеристика LSH key или sub-fingerprint, указывающая на его редкость в базе данных. Наиболее дискриминативные (редкие) элементы обрабатываются первыми.
DTW (Dynamic Time Warping, Динамическая трансформация временной шкалы): Алгоритм для выравнивания двух временных последовательностей, которые могут различаться по скорости. Используется для сопоставления видео, даже если скорость воспроизведения изменена.
Figure of Merit (Показатель качества): Метрика на Этапе 1 для предварительного отбора эталонных видео. Рассчитывается путем суммирования количества совпадений LSH keys в окне, равном длине входного видео.
Fingerprint (Цифровой отпечаток): Компактное представление характеристик медиафайла. Состоит из последовательности Sub-fingerprints.
LSH (Locality-Sensitive Hashing, Локально-чувствительное хеширование): Метод для быстрого приблизительного поиска ближайших соседей. Используется для индексации фингерпринтов.
LSH Key (LSH Ключ): Подмножество значений из Sub-fingerprint. Используется как ключ для поиска в Reverse Index Table.
Premium Content (Премиум-контент): Контент, требующий повышенного уровня защиты (например, контент правообладателей). Для него могут применяться более низкие пороги срабатывания.
Reverse Index Table (Обратная индексная таблица): Структура данных, которая отображает LSH Keys на список идентификаторов эталонных Sub-fingerprints (Video@Offset), содержащих этот ключ.
Sub-fingerprint (Суб-отпечаток): Вектор значений, представляющий короткий временной сегмент медиафайла (например, 0.5-5.0 секунд).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов видеоконтента.

Система хранит эталонные отпечатки (reference fingerprints), состоящие из суб-отпечатков (sub-fingerprints) для временных сегментов.
Система получает входной отпечаток (input fingerprint).
Система выбирает подмножество эталонных сегментов в качестве кандидатов на основе частичного совпадения их sub-fingerprints с входным отпечатком.
Система классифицирует каждого кандидата как совпадающего или несовпадающего, используя машинно обученный классификатор (machine-learned classifier).
Система идентифицирует совпадающее эталонное видео на основе классифицированных сегментов.

Claim 3 (Зависимый от 1): Вводит концепцию Figure of Merit.

Для каждого эталонного видео определяется figure of merit на основе временно-локализованных совпадений. Выбор кандидатов основан на этом показателе.

Claim 4 и 5 (Зависимые от 1): Описывают оптимизацию через сортировку по дискриминативности.

Эталонные суб-отпечатки (Claim 4) или ключи суб-отпечатков (Claim 5) сортируются от наиболее дискриминативных к наименее дискриминативным. Выбор кандидатов основывается на этом порядке сортировки, что повышает эффективность поиска.

Claim 6 (Зависимый от 1): Подчеркивает важность временной последовательности.

Определяются темпорально последовательные совпадения между входными и эталонными sub-fingerprints. Выбор кандидатов основан на этих последовательных совпадениях.

Claim 11 и 12 (Зависимые от 8): Описывают механизм черных списков (blacklisting) в обратном индексе.

Обратный индекс хранит специальный идентификатор для ключа, если он встречается слишком часто (превышает порог по проценту видео — Claim 11, или по абсолютному количеству — Claim 12). Это позволяет игнорировать неинформативные ключи.

Где и как применяется

Изобретение является инфраструктурным и применяется в системах идентификации контента (например, Content ID), а не в стандартном процессе ранжирования поиска.

CRAWLING – Сканирование и Сбор данных
Система получает входное видео (input video) через сервер приема (Ingest Server), например, при загрузке пользователем на YouTube.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента.

Фингерпринтинг (Офлайн и Онлайн): Fingerprinting Module генерирует fingerprints для эталонных и входных видео.
Индексация (Офлайн): Строится Reverse Index Table (LSH Table) для эталонных видео, применяется Blacklisting.
Сопоставление (Онлайн): Matching Module выполняет трехэтапный процесс (Генерация кандидатов, Классификация, Объединение) для сравнения входного видео с индексом.

Входные данные:

Входной медиафайл (видео/аудио).
База эталонных отпечатков (Fingerprint Repository).
Обратный индекс (Reverse Index Table).
Метаданные (например, статус Premium Content).

Выходные данные:

Результаты совпадения (Match Results): список эталонных видео (или их частей), совпадающих с входным видео, с указанием временных меток и Confidence Scores.

На что влияет

Типы контента: Влияет на все типы временны́х медиаданных (видео и аудио).
Конкретные ниши: Наибольшее влияние в нишах, где критично соблюдение авторских прав (музыка, фильмы) и на платформах с пользовательским контентом (UGC).
Форматы контента: Система устойчива к транскодированию, шуму и изменениям скорости воспроизведения (в патенте упоминается до 15%).

Когда применяется

Условия применения: Алгоритм применяется при обработке новых медиафайлов для сравнения их с существующей базой данных.
Триггеры активации: Загрузка нового контента пользователем или добавление нового эталонного файла правообладателем.
Особые случаи: Для Premium Content могут применяться более низкие пороги обнаружения совпадений.

Пошаговый алгоритм

Процесс разделен на предварительную обработку и три основных этапа сопоставления.

Предварительная обработка и Индексация (Офлайн):

Генерация отпечатков: Эталонные видео разделяются на перекрывающиеся сегменты (0.5-5.0 сек), для каждого генерируется Sub-fingerprint.
Создание обратного индекса: Sub-fingerprints разбираются на LSH Keys. Создается Reverse Index Table.
Черный список (Blacklisting): Идентифицируются и помечаются слишком частые LSH Keys (Level 1 и Level 2).

Обработка запроса (Онлайн):

Входное видео поступает в систему и для него генерируется Input Fingerprint.

Этап 1: Генерация списка кандидатов

Извлечение и Поиск ключей: Уникальные LSH Keys из входного видео ищутся в Reverse Index Table.
Предварительный отбор: Рассчитывается Figure of Merit для эталонных видео на основе плотности совпадений ключей во времени. Формируется список начальных кандидатов.
Разделение на фрагменты (Chunks): Входное видео делится на Chunks (например, по 10 секунд).
Сортировка по дискриминативности: Внутри каждого Chunk, Sub-fingerprints и LSH Keys сортируются от наиболее редких (дискриминативных) к частым. Обработка начинается с редких.
Голосование (Hough Transform): Совпадения между входным (смещение X) и эталонным (смещение Y) суб-отпечатками голосуют за время начала совпадения (Y-X+1). Голоса агрегируются.
Финальный отбор кандидатов: Выбор наиболее поддерживаемых пар (Video, Offset) для Этапа 2 (используя, например, smeared peak picking).

Этап 2: Оценка кандидатов (Классификация)

Выравнивание: Определяется наилучшее временное выравнивание между входным Chunk и кандидатом (например, с помощью DTW).
Генерация вектора признаков: Создается векторное описание совпадения. Признаки включают: расстояние Хэмминга, процент совпавших векторов, среднеквадратичную ошибку (MSE) пути декодирования, наклон пути и т.д.
Оценка качества: Рассчитывается мера качества совпадения (Quality Measure).
Классификация: Вектор признаков подается на вход Classifier, который определяет валидность совпадения и рассчитывает Confidence Score.

Этап 3: Объединение и фильтрация кандидатов

Объединение во времени: Валидные совпадения из соседних Chunks объединяются в единое совпадение (Combined Match), если они консистентны по времени и смещению.
Фильтрация: Применяются ограничения (например, минимальная длина, среднее качество) для удаления ложных срабатываний.
Обработка типовых последовательностей: Система может понижать уверенность для типовых сцен (например, "говорящая голова"), если нет подтверждения по другому каналу (например, аудио).

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Основные): Непосредственно аудио и видео данные. Они преобразуются в Fingerprints, Sub-fingerprints и LSH Keys, которые кодируют пространственные, временные и структурные характеристики медиафайла.
Метаданные (Вспомогательные):
- Обозначение Premium Content (используется для корректировки порогов).
- Патент упоминает возможность использования в Классификаторе (Этап 2): истории загрузок пользователя и сходства текстовых метаданных (например, anchor text).

Какие метрики используются и как они считаются

Расстояние Хэмминга (Hamming Distance): Используется для сравнения векторов Sub-fingerprints.
Figure of Merit: Рассчитывается как максимальная сумма количества совпадений LSH keys во временном окне, соответствующем длине входного видео (реализуется как свертка).
Дискриминативность (Discriminative Power): Обратная величина к частоте встречаемости LSH Key или Sub-fingerprint в эталонной базе. Используется для сортировки и Blacklisting.
Признаки для Классификатора (Classifier Features): Сложный вектор, включающий:
- Накопленное расстояние Хэмминга.
- Процент совпавших векторов при разных порогах (например, 80%, 60%).
- Среднеквадратичная ошибка (MSE) и наклон (Slope) линейной аппроксимации (LSE-fit) пути декодирования DTW.
- Статистика популяции (среднее, стандартное отклонение мер качества).
Quality Measure (Мера качества): Рассчитывается на основе вектора признаков (например, отношение правдоподобия).
Confidence Score (Оценка уверенности): Выходное значение классификатора.
Алгоритмы и методы: LSH (поиск), DTW (выравнивание), Преобразование Хафа (голосование), Модели машинного обучения (Classifiers).

Трехэтапная архитектура для баланса скорости и точности: Патент описывает масштабируемую систему идентификации контента. Этап 1 (LSH) обеспечивает скорость, быстро сокращая пространство поиска. Этап 2 (ML Classifier) обеспечивает точность, детально анализируя кандидатов. Этап 3 обеспечивает согласованность результатов во времени.
Оптимизация через редкость и игнорирование шума: Система фокусируется на наиболее уникальных характеристиках контента, обрабатывая наиболее дискриминативные (редкие) ключи первыми. Одновременно она игнорирует неинформативные данные через Blacklisting частых ключей (например, тишина, черные кадры).
Устойчивость к модификациям (Robustness): Система устойчива к изменениям качества и скорости воспроизведения. Это достигается за счет использования устойчивых фингерпринтов и применения DTW для временного выравнивания контента.
Роль машинного обучения в идентификации: Решение о совпадении принимается не просто по порогу сходства, а с помощью сложного Classifier, который анализирует множество признаков качества и характера совпадения.
Идентификация по содержанию: Система идентифицирует медиафайлы на основе их фактического аудиовизуального содержания, а не метаданных.

Патент является инфраструктурным и не дает прямых рекомендаций по факторам ранжирования. Однако он критически важен для стратегий Video SEO и управления контентом на платформах типа YouTube.

Best practices (это мы делаем)

Приоритет абсолютной оригинальности контента: Для VSEO критически важно создавать уникальный видео и аудио контент. Система эффективно выявляет полные и частичные совпадения. Чтобы контент считался уникальным, он должен значительно отличаться от эталонов на уровне аудиовизуальных характеристик.
Управление правами (для правообладателей): Если вы создаете Premium Content, необходимо использовать системы типа Content ID (основанные на этом патенте) для загрузки эталонов и защиты от неавторизованного использования.
Создание дискриминативного контента: Избегайте длинных статичных сцен, тишины или стандартных заставок. Контент с богатым и разнообразным аудиовизуальным рядом лучше идентифицируется системой.

Worst practices (это делать не надо)

Попытки обхода систем идентификации легкими модификациями: Изменение скорости, добавление шума, зеркальное отражение, изменение кодировки или легкое кадрирование неэффективны. Система устойчива к таким модификациям благодаря DTW, устойчивым фингерпринтам и возможности генерации нескольких отпечатков (например, для зеркальных версий).
Создание дубликатов или компиляций чужого контента: Загрузка контента, состоящего из чужих материалов, будет обнаружена. Это приведет к проблемам с монетизацией, видимостью или блокировкой на платформах типа YouTube.
Игнорирование аудиодорожки: Система анализирует и аудио, и видео. Использование уникального видеоряда с нелицензионной музыкой приведет к обнаружению совпадения по аудиоканалу.

Стратегическое значение

Патент подтверждает способность Google анализировать медиаконтент на глубоком уровне, основываясь на его содержании. Стратегическое значение для SEO заключается в понимании, что уникальность медиаконтента является измеримой величиной. Долгосрочная стратегия в Video SEO должна быть направлена на создание оригинальных материалов. Технологии, описанные в патенте, обеспечивают приоритет оригинального контента и борьбу с дублированием.

Практические примеры

Сценарий: Попытка обойти Content ID изменением скорости музыки

Действие: Пользователь загружает видео, используя популярный музыкальный трек, ускоренный на 10%, чтобы избежать автоматического обнаружения.
Обработка системой:
- Этап 1: LSH ключи аудиодорожки совпадают с эталоном правообладателя (Premium Content). Трек попадает в кандидаты.
- Этап 2: Dynamic Time Warping (DTW) компенсирует ускорение на 10% и выравнивает входное аудио с эталоном. Классификатор анализирует вектор признаков.
- Этап 3: Совпадения объединяются по всей длине трека.
Результат: Система идентифицирует совпадение с высоким Confidence Score. На видео поступает заявка Content ID от правообладателя.

Влияет ли этот патент на ранжирование сайтов в Google Поиске?

Нет, напрямую не влияет. Патент описывает инфраструктуру для идентификации совпадений в видео и аудио (Content Identification), а не алгоритмы ранжирования веб-страниц. Однако эта технология косвенно влияет на результаты поиска по Видео, помогая Google отфильтровывать дубликаты и организовывать выдачу.

Как система справляется с изменениями в видео, например, если его ускорить, замедлить или перекодировать?

Система устойчива к таким изменениям. Для устойчивости к перекодированию используются робастные (устойчивые) фингерпринты. Для устойчивости к изменениям скорости (в патенте упоминается до 15%) используется алгоритм Dynamic Time Warping (DTW) на Этапе 2, который позволяет выровнять две последовательности с разной скоростью.

Что такое Locality-Sensitive Hashing (LSH) и зачем он используется?

LSH — это техника для быстрого приблизительного поиска похожих элементов в огромных базах данных. Она позволяет мгновенно найти список потенциально похожих видеосегментов (кандидатов), не прибегая к дорогостоящему сравнению входящего видео с каждым эталонным видео. Это ключ к масштабируемости системы.

Что означает "Blacklisting" (черный список) ключей?

Это оптимизация. Если определенный признак (LSH Key), например, соответствующий тишине или черному кадру, встречается слишком часто в базе данных, он становится бесполезным для идентификации. Такие ключи вносятся в черный список и игнорируются при поиске для экономии ресурсов.

Какова роль машинного обучения (Classifier) в этой системе?

Машинное обучение критически важно на Этапе 2. Classifier анализирует сложный вектор признаков совпадения (степень сходства, линейность выравнивания, контекст) и принимает финальное решение о том, является ли совпадение истинным или ложным. Это обеспечивает высокую точность системы.

Может ли система обнаружить очень короткие совпадения?

Да. Система анализирует короткие сегменты (sub-fingerprints длиной 0.5-5.0 секунд) и объединяет последовательные совпадения. Патент упоминает обнаружение совпадений длиной, например, 20 секунд, путем анализа 10-секундных блоков (chunks). Это позволяет надежно обнаруживать относительно короткие клипы.

Что такое "Premium Content" в контексте патента?

Это эталонный контент, требующий повышенной защиты (например, материалы крупных правообладателей). Система может применять более низкие пороги обнаружения или использовать дополнительные индексы (включая blacklisted ключи) для гарантии обнаружения совпадений с таким контентом.

Поможет ли зеркальное отражение видео обойти эту систему?

Патент предусматривает такую возможность. Упоминается, что если генерация отпечатков чувствительна к зеркалированию, система может генерировать два набора отпечатков: один для оригинала и один для зеркально отраженной версии. Таким образом, система потенциально готова к обнаружению таких модификаций.

Как система отличает похожие, но разные видео (например, два интервью на одинаковом фоне)?

Патент признает проблему типового контента ("говорящие головы"). Для ее решения предлагается анализировать совпадения по нескольким каналам. Если видеоряд похож, но аудиодорожка разная, система может понизить уверенность в совпадении или отклонить его, чтобы избежать ложных срабатываний.

Какие практические выводы для SEO-специалиста можно сделать из этого патента?

Главный вывод — критическая важность создания оригинального медиаконтента. Технологии Google для обнаружения дубликатов мультимедиа очень продвинуты. Для успеха в Video SEO и на YouTube уникальность видеоряда и аудиодорожки является необходимым условием, а попытки поверхностной "уникализации" неэффективны.

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска

Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.

US8611422B1
2013-12-17

Мультимедиа
Индексация

Как Google использует двухэтапное аудио-фингерпринтинг для эффективного поиска дубликатов аудио и видео контента в масштабе

Google использует масштабируемую систему для идентификации полных дубликатов аудиоконтента. Система создает двухчастный дайджест (фингерпринт): компактный «Index Hash» для быстрого поиска потенциальных совпадений и подробный «Verification Hash» для точного подтверждения. Это позволяет эффективно управлять миллиардами аудио- и видеофайлов, что критично для платформ типа YouTube и Google Podcasts.

US8953811B1
2015-02-10

Мультимедиа
Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов

Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.

US8229219B1
2012-07-24

Мультимедиа

Как Google идентифицирует дубликаты и защищенный авторским правом видеоконтент с помощью 3D-отпечатков

Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).

US8094872B1
2012-01-10

Индексация
Мультимедиа

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента

Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.

US8595619B1
2013-11-26

Поведенческие сигналы
SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним

Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.

US9235625B2
2016-01-12

Ссылки
Поведенческие сигналы
Мультимедиа

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank

Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.

US7565630B1
2009-07-21

Персонализация
SERP
Ссылки

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента

Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.

US9213745B1
2015-12-15

Семантика и интент
EEAT и качество
SERP

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество