SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов

FULL-LENGTH VIDEO FINGERPRINTING (Создание цифровых отпечатков полной длины видео)
  • US8229219B1
  • Google LLC
  • 2009-08-06
  • 2012-07-24
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.

Описание

Какую проблему решает

Патент решает проблему эффективного и масштабируемого обнаружения дубликатов или почти идентичных видео (near-duplicate videos) в очень больших базах данных. Традиционные методы часто анализируют только часть видео (например, первые 30 секунд), что не позволяет надежно идентифицировать копии с разным временем начала, продолжительностью, разрешением или артефактами сжатия. Изобретение направлено на создание компактного представления, которое характеризует всю длину видео (full-length fingerprint) для быстрого и точного сравнения.

Что запатентовано

Запатентована система и метод для генерации полноформатного цифрового отпечатка видео. Это достигается через иерархический процесс: извлечение признаков из коротких сегментов (subfingerprints), агрегация статистики этих признаков в гистограммы (histograms) и последующее сжатие данных с использованием специализированной техники хеширования (Weighted Min-Hash). Цель — представить многомегабайтный видеофайл в виде очень компактного отпечатка (например, несколько сотен байт).

Как это работает

Система работает в несколько этапов:

  • Генерация Subfingerprints: Видео делится на перекрывающиеся сегменты. Признаки каждого сегмента (например, вейвлет-коэффициенты) сжимаются с помощью процедуры Min-Hash в суб-отпечаток (SFP).
  • Генерация Гистограмм: Группы SFP агрегируются в subhistograms, которые фиксируют частоту признаков в определенном временном окне. Затем они объединяются в master histogram для всего видео.
  • Генерация Fingerprint: К master histogram применяется процедура взвешенного хеширования (Weighted Min-Hash), которая сжимает гистограмму в финальный компактный full-length fingerprint.
  • Кластеризация: Отпечатки сравниваются (например, с помощью расстояния Хэмминга) для группировки похожих видео и обнаружения дубликатов.

Актуальность для SEO

Высокая (Инфраструктурная). Эффективное управление огромными корпусами видео (как на YouTube), обнаружение дубликатов для улучшения качества поиска и работа систем типа Content ID остаются критически важными задачами. Описанные техники (вейвлеты, Min-Hash, Weighted Min-Hash) являются устоявшимися и эффективными методами для обнаружения схожести медиафайлов в больших масштабах.

Важность для SEO

Влияние на SEO (3/10). Патент носит инфраструктурный характер и не описывает сигналы ранжирования или оценки качества контента. Он фокусируется исключительно на идентификации видеофайлов и управлении дубликатами. Однако он имеет значение для стратегии Видео SEO, поскольку описывает механизм, с помощью которого Google идентифицирует и кластеризует похожий контент. Это влияет на дедупликацию результатов поиска и каноникализацию видео, подчеркивая важность создания действительно уникального контента.

Детальный разбор

Термины и определения

Full-length video fingerprint (Полноформатный отпечаток видео)
Конечный результат процесса. Очень компактный элемент данных (например, 640 байт), представляющий характеристики всего видео, полученный путем применения Weighted Min-Hash к Master Histogram.
Master Histogram (Мастер-гистограмма)
Агрегированная структура данных, кодирующая частоту признаков субгистограмм для всего видео. Часто является конкатенацией subhistograms. Состоит из "бинов" (Bins) и их счетчиков (Counts).
Min-Hash (Мин-хеш)
Техника для быстрой оценки сходства наборов данных. В контексте патента, это процедура, применяемая к битовому вектору признаков сегмента. Она включает перестановку битов и запись позиции первого ненулевого значения (Min-Hash Value).
Partition (Партиция/Раздел)
Группа (подмножество) Subfingerprints, обычно соответствующая определенному временному интервалу видео (например, 30 секунд), используемая для генерации Subhistogram.
Subfingerprint (SFP) (Суб-отпечаток)
Элемент данных, кодирующий признаки соответствующего короткого сегмента видео (например, 4 секунды). В патенте это вектор значений Min-Hash.
Subhistogram (Субгистограмма)
Структура данных, кодирующая частоту признаков subfingerprint для группы SFP в определенном временном окне (партиции). Например, как часто определенное значение Min-Hash встречается в определенной позиции SFP.
Weighted Min-Hash (Взвешенный Мин-хеш)
Вариант процедуры Min-Hash, применяемый к Master Histogram. Элементам гистограммы (бинам) присваиваются веса (на основе их частоты/Counts), что влияет на вероятность их выбора в качестве минимального значения хеша.
Similarity Factor (Фактор схожести)
Метрика, используемая для сравнения двух финальных отпечатков. В патенте описывается как вариация расстояния Хэмминга (процент совпадающих элементов в векторах отпечатков).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации полноформатного отпечатка.

  1. Доступ к множеству subfingerprints (SFP) видео, где каждый SFP кодирует признаки сегмента.
  2. Генерация гистограммы (histogram), которая кодирует частоту признаков SFP.
  3. Применение процедуры хеширования (hashing procedure) к гистограмме для генерации full-length video fingerprint.

Ядром изобретения является конвейер трансформации от локальных признаков видео (SFP) к высоко сжатому глобальному отпечатку через промежуточное статистическое представление (гистограмму).

Claim 4 (Зависимый от 1): Детализирует иерархическую генерацию гистограммы.

  1. Генерация множества subhistograms, каждая из которых кодирует частоту признаков для подмножества SFP (партиции).
  2. Конкатенация (объединение) subhistograms.

Система использует иерархический подход к агрегации, сначала суммируя локальные признаки, прежде чем создавать глобальное резюме.

Claim 8 (Зависимый от 1): Детализирует процедуру хеширования как Weighted Min-Hash.

  1. Присвоение веса (weight) каждому из множества признаков гистограммы.
  2. Применение первой хеш-функции к ряду "измененных версий" (altered versions) каждого признака гистограммы для генерации множества выходных значений.

Claim 9 (Зависимый от 8): Уточняет, что количество "измененных версий" признака основано на присвоенном ему весе.

Это подчеркивает, что более частые признаки (с большим весом/счетчиком в гистограмме) имеют большую вероятность повлиять на конечный отпечаток, так как хеш-функция применяется к ним большее количество раз.

Claim 10 (Зависимый от 8): Детализирует аспект "Min-Hash".

  1. Определение наименьшего выходного значения (smallest output) для первой хеш-функции.
  2. Заполнение первой записи финального отпечатка тем входным значением (hash input), которое привело к этому наименьшему выходу.

Где и как применяется

Изобретение является частью инфраструктуры обработки и управления видеоконтентом.

CRAWLING – Сканирование и Сбор данных
Система применяется после того, как видео было загружено или обнаружено краулером и получено системой.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Процесс генерации full-length fingerprint происходит во время обработки и индексирования видеофайла. Это включает:

  1. Извлечение низкоуровневых признаков (например, вейвлет-коэффициенты).
  2. Генерацию subfingerprints, histograms и финального отпечатка.
  3. Сохранение этих данных в соответствующих базах данных (Fingerprint Database).
  4. Кластеризацию отпечатков для идентификации дубликатов.

RANKING / METASEARCH / RERANKING
Сами отпечатки напрямую не являются сигналом ранжирования по качеству или релевантности. Однако результаты кластеризации используются на этих этапах косвенно:

  • Дедупликация и Разнообразие: Системы ранжирования используют данные о кластерах для предотвращения показа нескольких почти идентичных видео в ответ на один запрос.
  • Каноникализация: Выбор лучшей (канонической) версии видео из кластера дубликатов для показа в выдаче.
  • Консолидация сигналов: Потенциальное объединение сигналов ранжирования (просмотры, ссылки) от дубликатов к канонической версии.

Входные данные:

  • Необработанные данные видео (пиксельные значения кадров и, возможно, аудио данные).

Выходные данные:

  • Full-length video fingerprint (очень компактный, например, 640 байт).
  • Данные кластеризации (идентификаторы кластеров, связывающие похожие видео).

На что влияет

  • Конкретные типы контента: Влияет исключительно на видеоконтент.
  • Специфические запросы: Не влияет на понимание или обработку поисковых запросов, но влияет на состав выдачи по любым запросам, где есть дублирующиеся видео.
  • Конкретные ниши или тематики: Применяется универсально, но особенно важен в нишах с высоким уровнем дублирования (новости, музыка, UGC).

Когда применяется

  • Триггеры активации: Процесс генерации отпечатка активируется при загрузке (ingest) нового видео в систему или при его индексации.
  • Частота применения: Генерация отпечатков происходит один раз для видео. Кластеризация может выполняться инкрементально при добавлении новых видео или периодически в пакетном режиме для всей базы данных.

Пошаговый алгоритм

Процесс состоит из четырех основных стадий.

Стадия 1: Генерация суб-отпечатков (Subfingerprint Generation)

  1. Сегментация: Видео делится на перекрывающиеся сегменты (например, 4 секунды с шагом 0.25 секунды).
  2. Извлечение признаков (Transform): К сегменту применяется преобразование (например, Haar wavelet transform) для генерации массива коэффициентов.
  3. Квантование (Quantization): Коэффициенты квантуются (например, сохраняются знаки N наибольших по модулю коэффициентов, остальные обнуляются).
  4. Кодирование: Квантованный массив преобразуется в разреженный битовый вектор.
  5. Применение Min-Hash: К битовому вектору применяется набор из k фиксированных перестановок. Для каждой перестановки определяется позиция первого ненулевого бита (Min-Hash Value). Результат — SFP, состоящий из k значений.

Стадия 2: Генерация гистограмм (Histogram Generation)

  1. Партиционирование SFP: Массив всех SFP видео делится на партиции (например, 120 SFP, соответствующие 30 секундам видео).
  2. Создание субгистограмм: Для каждой партиции создается subhistogram. Она подсчитывает, как часто конкретное значение Min-Hash встречается на конкретной позиции в SFP внутри этой партиции.
  3. Создание мастер-гистограммы: Subhistograms объединяются (конкатенируются) в master histogram. Она представляется в виде набора "бинов" (bins), где каждый бин идентифицирует признак и его частоту (Count).

Стадия 3: Генерация финального отпечатка (Fingerprint Generation)

Применяется процедура Weighted Min-Hash.

  1. Присвоение весов: Каждому бину в master histogram присваивается вес (w), обычно равный его счетчику (Count).
  2. Применение взвешенного хеширования: Процесс повторяется s раз с использованием s разных начальных значений (seeds) для хеш-функции:
    • Для каждого бина генерируется w его измененных версий.
    • Хеш-функция с текущим seed применяется ко всем версиям всех бинов.
    • Определяется, какая версия какого бина дала наименьший результат хеширования.
    • Идентификатор этого входа записывается как один элемент финального отпечатка.
  3. Формирование отпечатка: Набор из s элементов формирует full-length video fingerprint.

Стадия 4: Кластеризация (Clustering)

  1. Расчет схожести: Вычисляется фактор схожести (similarity factor) между парами отпечатков (например, процент совпадающих элементов – расстояние Хэмминга).
  2. Идентификация пар: Идентифицируются пары видео, чей фактор схожести превышает порог. Может использоваться Locality Sensitive Hashing (LSH).
  3. Применение алгоритма кластеризации: Похожие видео группируются в кластеры (например, с помощью leader clustering).

Какие данные и как использует

Данные на входе

Система фокусируется исключительно на содержимом видеофайла.

  • Мультимедиа факторы / Контентные факторы (Видео): Основные входные данные — это необработанные данные видеокадров (пиксельные значения). Эти данные преобразуются в домен коэффициентов (например, wavelet coefficients), которые характеризуют пространственные и временные особенности видео (границы объектов, яркость, градиенты). Патент упоминает возможность использования audio features, но детализирует обработку визуальных данных.

Другие факторы (ссылочные, поведенческие, метаданные) в этом патенте не используются.

Какие метрики используются и как они считаются

  • Min-Hash Value: Метрика, получаемая на Стадии 1. Позиция первого ненулевого бита в векторе признаков после применения перестановки.
  • Частота признаков (Counts): Метрика, используемая в гистограммах (Стадия 2). Подсчитывает количество вхождений определенных Min-Hash Values.
  • Вес (Weight 'w'): Метрика, используемая на Стадии 3. Присваивается бинам гистограммы и обычно равен счетчику (Counts) этого бина. Определяет влияние признака на финальный отпечаток.
  • Наименьший результат хеширования (Smallest Hash Output): Значение, определяемое в ходе процедуры Weighted Min-Hash.
  • Similarity Factor (Фактор схожести): Метрика для сравнения двух финальных отпечатков (Стадия 4). Рассчитывается как процент совпадающих элементов (вариация расстояния Хэмминга).
  • Алгоритмы анализа: Используются Min-Hash, Weighted Min-Hash, Locality Sensitive Hashing (LSH) и алгоритмы кластеризации.

Выводы

  1. Идентификация контента, а не оценка качества: Патент описывает механизм для точной идентификации содержимого видеофайла и поиска дубликатов. Он не предлагает методов для оценки качества, релевантности или авторитетности видеоконтента.
  2. Иерархическое сжатие для масштабируемости: Ключевая особенность — многоуровневое сжатие данных (SFP -> Histograms -> Fingerprint). Это позволяет представить видео любой длины в виде очень компактного отпечатка (например, 640 байт), что критически важно для сравнения миллиардов видео.
  3. Устойчивость к модификациям и временным сдвигам: Механизм устойчив к различиям в кодировании, разрешении и шуме благодаря использованию вейвлет-преобразований и квантования. Он также устойчив к обрезке видео по времени благодаря анализу перекрывающихся сегментов и агрегации в гистограммы.
  4. Роль Weighted Min-Hash: Использование Weighted Min-Hash гарантирует, что наиболее частые и устойчивые признаки видео оказывают наибольшее влияние на финальный отпечаток, повышая точность идентификации.
  5. Инфраструктурное значение для SEO: Для SEO-специалистов важно понимать, что Google обладает мощными инструментами для идентификации видеоконтента. Попытки манипулировать выдачей путем загрузки множества слегка измененных копий видео неэффективны, так как система их обнаружит, кластеризует и применит дедупликацию.

Практика

Best practices (это мы делаем)

Хотя патент носит инфраструктурный характер и не дает прямых рекомендаций по ранжированию, он определяет правила игры для Видео SEO:

  • Фокус на создании уникального видеоконтента: Поскольку Google может эффективно идентифицировать дубликаты на техническом уровне, стратегический приоритет должен отдаваться созданию уникального визуального ряда, а не переупаковке существующего.
  • Понимание каноникализации видео: Необходимо понимать, что если одно и то же видео существует в нескольких местах (YouTube, сайт компании), Google идентифицирует их как дубликаты и выберет каноническую версию для ранжирования. Усилия должны быть направлены на то, чтобы ваша версия была признана канонической.
  • Существенная переработка при использовании чужого контента: Если используются фрагменты чужого видео (в рамках добросовестного использования), они должны быть значительно переработаны и дополнены уникальным контентом, чтобы финальный отпечаток существенно отличался от оригинала.

Worst practices (это делать не надо)

  • Попытки "уникализации" поверхностными правками: Добавление рамок, логотипов, изменение цветокоррекции или перекодирование видео неэффективны. Система устойчива к этим изменениям и классифицирует видео как дубликат.
  • Добавление коротких интро/аутро к дублированному контенту: Если основная часть видео (например, 90%) является дубликатом, добавление уникальных заставок не сделает все видео уникальным. Большинство Subfingerprints совпадут, что приведет к высокому фактору схожести финальных отпечатков.
  • Массовая загрузка слегка измененных копий: Создание множества копий одного видео с небольшими изменениями не даст преимуществ в ранжировании. Система кластеризует их вместе.

Стратегическое значение

Патент подтверждает технические возможности Google по идентификации и управлению видеоконтентом в огромных масштабах. Он подчеркивает, что Google анализирует фактическое содержание видео на глубоком уровне, а не полагается только на метаданные. Это фундаментальная технология для систем типа Content ID и обеспечения качества поиска за счет дедупликации. Для долгосрочной стратегии Video SEO это означает, что инвестиции в уникальность самого видеоряда имеют первостепенное значение.

Практические примеры

Сценарий: Каноникализация вирусного видео

  1. Ситуация: Появляется популярное вирусное видео. Пользователь А загружает оригинал. Пользователи Б и В скачивают его и перезагружают на свои каналы. Пользователь Б добавляет 5-секундное интро. Пользователь В меняет битрейт.
  2. Обработка (Индексация): Google обрабатывает все три видео. Для каждого генерируются Subfingerprints, Master Histogram и Full-length fingerprint.
  3. Кластеризация: Система сравнивает отпечатки. Несмотря на интро у Б и изменение битрейта у В, факторы схожести между всеми тремя видео превышают порог (например, 95% совпадение отпечатков).
  4. Результат: Все три видео помещаются в один кластер. Google выбирает каноническую версию (вероятно, видео Пользователя А).
  5. Влияние на SEO: В результатах поиска преимущественно будет показываться каноническая версия (Пользователь А). Сигналы от видео Б и В могут быть консолидированы к версии А.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует видео в поиске?

Нет. Патент описывает исключительно инфраструктурную технологию для идентификации видеоконтента и обнаружения почти идентичных копий (near-duplicate detection). Он не затрагивает факторы ранжирования, такие как релевантность запросу, качество контента или поведенческие сигналы.

Смогу ли я обойти эту систему обнаружения дубликатов, если изменю кодировку видео или немного обрежу его?

С высокой вероятностью нет. Система разработана так, чтобы быть устойчивой к подобным изменениям. Использование вейвлет-преобразований позволяет игнорировать артефакты сжатия. А иерархическая структура с перекрывающимися сегментами и гистограммами делает отпечаток устойчивым к временным сдвигам и обрезке.

Что такое процедура Min-Hash, описанная в патенте?

Min-Hash – это техника для эффективного сжатия больших наборов данных (визуальных признаков видеосегмента) в компактный вектор (Subfingerprint). Она позволяет быстро оценить схожесть двух наборов: чем больше схожи исходные данные, тем выше вероятность совпадения их Min-hash значений. Это ключевой элемент для масштабирования системы сравнения.

В чем разница между Min-Hash и Weighted Min-Hash в этом патенте?

Min-Hash применяется к признакам сегмента для создания Subfingerprint, считая все признаки равнозначными. Weighted Min-Hash применяется к Master Histogram и учитывает вес (частоту) каждого признака. Признаки, которые встречаются чаще, получают большее влияние на финальный Full-Length Fingerprint.

Связан ли этот патент с системой YouTube Content ID?

Да, технология, описанная в патенте, напрямую связана с задачами, которые решает Content ID. Content ID также использует цифровые отпечатки для идентификации защищенного авторским правом контента в масштабах всей платформы. Описанный метод генерации full-length fingerprint является эффективным способом реализации подобной системы.

Влияют ли метаданные видео (название, описание, теги) на генерацию этого цифрового отпечатка?

Нет. Согласно патенту, Full-Length Fingerprint генерируется исключительно на основе визуального (и потенциально аудио) содержимого самого видеофайла. Метаданные игнорируются на этапе создания отпечатка.

Если я добавлю логотип или рамку на чужое видео, система распознает его как уникальное?

С высокой вероятностью, нет. Система идентифицирует его как near-duplicate. Хотя добавление элементов изменяет часть визуальных данных, общее статистическое распределение признаков (Master Histogram) останется очень похожим на оригинал, что приведет к генерации схожего финального отпечатка.

Зачем нужны суб-отпечатки и гистограммы, почему нельзя сразу создать отпечаток из видео?

Прямой анализ всего видео потребует огромных вычислительных ресурсов и создаст слишком большой объем данных. Иерархический подход (SFP -> Гистограммы -> Отпечаток) позволяет сжимать данные на каждом этапе и обеспечивает устойчивость к временным сдвигам (так как анализируются короткие перекрывающиеся сегменты).

Насколько компактным является финальный отпечаток видео?

Отпечаток очень компактен. Патент приводит примеры, где финальный Full-Length Fingerprint для всего видео может занимать, например, 640 байт. Это позволяет хранить и сравнивать миллиарды отпечатков эффективно.

Как система сравнивает два финальных отпечатка?

Финальный отпечаток представляет собой вектор записей. Сравнение происходит путем вычисления фактора схожести (Similarity Factor), который часто является вариацией расстояния Хэмминга – подсчитывается процент совпадающих записей в двух векторах. Если процент совпадений выше порога, видео считаются дубликатами.

Похожие патенты

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
  • US8238669B2
  • 2012-08-07
  • Мультимедиа

  • Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах
Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.
  • US8625033B1
  • 2014-01-07
  • Мультимедиа

  • Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска
Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.
  • US8611422B1
  • 2013-12-17
  • Мультимедиа

  • Индексация

Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска
Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.
  • US10152479B1
  • 2018-12-11
  • Мультимедиа

  • SERP

  • Индексация

Как Google использует двухэтапное аудио-фингерпринтинг для эффективного поиска дубликатов аудио и видео контента в масштабе
Google использует масштабируемую систему для идентификации полных дубликатов аудиоконтента. Система создает двухчастный дайджест (фингерпринт): компактный «Index Hash» для быстрого поиска потенциальных совпадений и подробный «Verification Hash» для точного подтверждения. Это позволяет эффективно управлять миллиардами аудио- и видеофайлов, что критично для платформ типа YouTube и Google Podcasts.
  • US8953811B1
  • 2015-02-10
  • Мультимедиа

  • Индексация

Популярные патенты

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов
Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.
  • US8200694B1
  • 2012-06-12
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
  • US10853432B2
  • 2020-12-01
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей
Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.
  • US20210232659A1
  • 2021-07-29
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)
Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.
  • US8856124B2
  • 2014-10-07
  • Безопасный поиск

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя
Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.
  • US9235626B2
  • 2016-01-12
  • Персонализация

  • SERP

  • Семантика и интент

seohardcore