Как Google оптимизирует индексы для распознавания контента с помощью хешей переменной длины

VARIABLE LENGTH LOCAL SENSITIVITY HASH INDEX (Индекс локально-чувствительного хеширования переменной длины)

US9236056B1
Google LLC
2013-08-13
2016-01-12

Патент описывает инфраструктурный механизм оптимизации индексов, используемых для сопоставления контента (например, аудио/видео). Система динамически регулирует длину хеш-значений (LSH bands). Если хеш слишком общий и имеет много совпадений, его длина увеличивается для повышения точности. Это повышает эффективность поиска совпадений, но не влияет на алгоритмы ранжирования.

Какую проблему решает

Патент решает проблему неэффективности индексов с фиксированной длиной хешей (LSH bands) при сопоставлении контента, в частности, в задачах аудио и видео фингерпринтинга. Индексы с фиксированной длиной сталкиваются с дилеммой: слишком короткие хеши дают много коллизий и ложных совпадений (недостаточная различительная способность), что требует больших вычислительных ресурсов для их обработки. Слишком длинные хеши могут пропустить реальные совпадения из-за незначительных искажений или шумов в контенте (чрезмерная различительная способность).

Что запатентовано

Запатентован метод создания и оптимизации индекса локально-чувствительного хеширования (LSH Index) переменной длины. Суть изобретения заключается в динамической адаптации длины хеш-значений (LSH bands) в зависимости от их частотности в базе данных. Хеши, которые встречаются слишком часто, автоматически удлиняются для повышения их специфичности и уменьшения количества совпадений.

Как это работает

Система начинает индексацию с использованием хешей минимальной эффективной длины (Minimum Efficiency Length). Для каждого хеша анализируется список его вхождений в базе (Offset List). Если размер этого списка превышает заданный порог (Band Size Threshold), хеш считается слишком общим. Система удлиняет этот хеш (например, добавляя следующий байт из исходного цифрового отпечатка). Этот процесс повторяется итеративно. Если хеш достигает максимальной длины (Maximum Length Threshold) и все еще остается слишком общим, он может быть удален из индекса или даунсемплирован.

Актуальность для SEO

Высокая (для инфраструктуры). Эффективное и масштабируемое сопоставление контента критически важно для работы таких систем, как Content ID на YouTube, а также для обнаружения дубликатов в поиске. LSH является стандартным методом для этих задач, и его оптимизация напрямую влияет на производительность и точность инфраструктуры Google.

Важность для SEO

Минимальное (1/10). Патент носит исключительно инфраструктурный характер. Он описывает оптимизацию внутренних механизмов индексирования, используемых для задач сопоставления (matching), а не ранжирования (ranking). Он не предоставляет SEO-специалистам данных о факторах ранжирования, оценке качества контента или стратегиях оптимизации веб-сайтов.

Термины и определения

LSH (Locality Sensitive Hashing): Локально-чувствительное хеширование. Техника, используемая для быстрого приближенного поиска похожих элементов в больших наборах данных. Принцип работы заключается в том, что похожие элементы с высокой вероятностью получают одинаковые или близкие хеш-значения.
LSH Band (Полоса LSH): Конкретное хеш-значение в индексе. Создается путем выборки и конкатенации части суб-фингерпринта.
Fingerprint (Фингерпринт/Цифровой отпечаток): Компактное представление контента (например, аудиофайла), используемое для его идентификации. В патенте представлен как вектор строк.
Subfingerprint String (Строка суб-фингерпринта): Часть цифрового отпечатка, которая используется для генерации LSH Bands.
Offset List (Список смещений): Список всех вхождений данного LSH Band в эталонной базе данных. Он указывает, в каком эталонном образце (Reference Sample) и в какой позиции (например, временном смещении) встречается этот хеш.
Minimum Efficiency Length (Минимальная эффективная длина): Начальная, минимально допустимая длина LSH Band, используемая при старте индексации.
Band Size Threshold (Порог размера полосы): Максимально допустимый размер Offset List. Если он превышен, LSH Band считается слишком общим (недостаточно дискриминативным).
Maximum Length Threshold (Порог максимальной длины): Максимально допустимая длина, до которой может быть увеличен LSH Band.
Splitting Component: Компонент системы, отвечающий за удлинение LSH Bands, которые превысили Band Size Threshold.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод создания индекса.

Генерация набора LSH bands на основе набора строк суб-фингерпринтов. Длина этих LSH bands соответствует минимальной эффективной длине.
Определение списков смещений (Offset Lists) для сгенерированных LSH bands.
Увеличение длины тех LSH bands, размер Offset Lists которых превышает заданный порог (Band Size Threshold).

Ядром изобретения является шаг 3: динамическое удлинение хешей, которые оказываются слишком общими (встречаются слишком часто), для повышения их различительной способности.

Claim 7 (Зависимый): Уточняет итеративный характер процесса.

Определение Offset Lists для уже удлиненных LSH bands.
Повторное увеличение длины тех удлиненных LSH bands, чьи Offset Lists все еще превышают Band Size Threshold.

Это означает, что процесс оптимизации не ограничивается одним шагом удлинения, а продолжается до достижения нужной специфичности.

Claims 9 и 10 (Зависимые): Описывают обработку граничных случаев при достижении максимальной длины.

Если длина LSH band достигла Maximum Length Threshold, но его Offset List все еще превышает Band Size Threshold (т.е. хеш максимально длинный, но все равно слишком общий):

Система может удалить этот LSH band из индекса (Claim 9).
Система может даунсемплировать (сократить) этот LSH band в индексе (Claim 10).

Где и как применяется

Изобретение применяется на этапе построения инфраструктуры поиска.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Механизм используется во время построения или обновления индекса (LSH Lookup Index) для систем сопоставления контента. Система обрабатывает извлеченные признаки (фингерпринты) и строит эффективную структуру данных для быстрого поиска совпадений.

Область применения: В патенте явно указано применение для сопоставления аудио и видео контента (Audio Matching). Это инфраструктура для систем типа YouTube Content ID. Теоретически, подобный механизм оптимизации LSH индексов может применяться и в других областях, где требуется поиск дубликатов или похожих элементов, например, при обработке веб-страниц (Duplicate Detection).

Входные данные:

Набор строк суб-фингерпринтов (Set of Subfingerprint Strings) эталонного контента.
Параметры конфигурации: Minimum Efficiency Length, Band Size Threshold, Maximum Length Threshold.

Выходные данные:

Оптимизированный индекс LSH Lookup Index, содержащий LSH Bands переменной длины.

На что влияет

Патент влияет исключительно на внутреннюю эффективность и точность систем распознавания и сопоставления контента.

Конкретные типы контента: Аудио и видео файлы (фингерпринтинг).

Он не влияет на алгоритмы ранжирования веб-результатов, оценку качества сайтов, понимание запросов или формирование поисковой выдачи (SERP).

Когда применяется

Временные рамки: Алгоритм применяется во время генерации или обновления индекса. Это офлайн-процесс обработки данных, а не процесс обработки запроса в реальном времени.
Триггеры активации: Механизм удлинения активируется для конкретного LSH Band, когда количество его вхождений (размер Offset List) превышает установленный Band Size Threshold.

Пошаговый алгоритм

Процесс построения оптимизированного LSH индекса:

Инициализация параметров: Определение Minimum Efficiency Length (например, 4 байта), Band Size Threshold (например, 1000 вхождений) и Maximum Length Threshold (например, 10 байт).
Генерация начальных LSH Bands: Из набора суб-фингерпринтов генерируются LSH Bands минимальной длины. В патенте описаны методы выбора байтов: последовательные байты или байты, выбранные на основе рандомизирующего хеша.
Определение списков смещений (Offset Lists): Для каждого уникального LSH Band составляется список всех его вхождений в базе данных.
Анализ и выявление общих хешей: Размер Offset List сравнивается с Band Size Threshold.
Удлинение (Splitting): Если порог превышен, LSH Band удлиняется путем добавления дополнительного байта из соответствующего суб-фингерпринта. Это действие разделяет исходный общий LSH Band на множество более длинных и специфичных LSH Bands.
Итерация: Шаги 3-5 повторяются для новых (удлиненных) LSH Bands. Процесс останавливается, когда размер Offset List становится меньше порога или достигается Maximum Length Threshold.
Финальная оптимизация (Tuning): Если LSH Band достиг максимальной длины, но его Offset List все еще слишком велик, применяется политика оптимизации: удаление (discarding) или даунсемплинг (down-sampling) этого хеша.
Сохранение индекса: Финальный набор LSH Bands переменной длины сохраняется в LSH Lookup Index.

Какие данные и как использует

Данные на входе

Патент использует исключительно данные, связанные с цифровыми отпечатками контента.

Контентные факторы (в контексте фингерпринтинга): Основные данные — это цифровые отпечатки (Fingerprints), извлеченные из контента (например, из спектрограмм аудио). Они обрабатываются как набор строк суб-фингерпринтов (Subfingerprint Strings).

Традиционные SEO-факторы (ссылочные, поведенческие, технические, временные, структурные и т.д.) в этом патенте не упоминаются и не используются.

Какие метрики используются и как они считаются

Система использует следующие предопределенные метрики и пороги:

Minimum Efficiency Length: Начальная длина хеша (например, 4 байта).
Maximum Length Threshold: Предельная длина хеша (например, 10 байт).
Band Size Threshold: Пороговое значение частотности хеша. Служит триггером для удлинения.
Размер Offset List: Фактическое количество вхождений конкретного LSH Band в базе данных. Это основная метрика, которая сравнивается с Band Size Threshold для принятия решений об оптимизации структуры индекса.

Инфраструктурное решение: Патент описывает сугубо инфраструктурное решение для оптимизации индексов, основанных на технике LSH (Locality Sensitive Hashing).
Цель — эффективность и точность сопоставления: Основная задача изобретения — повысить эффективность (скорость поиска) и точность (различительную способность хешей) систем сопоставления контента (Content Matching), таких как Content ID.
Динамическая адаптация индекса: Система использует хеши переменной длины и динамически адаптирует их структуру, чтобы избежать неэффективной обработки слишком общих (часто встречающихся) паттернов.
Отсутствие влияния на SEO: Патент не имеет практического значения для стандартных задач SEO. Он не описывает сигналы ранжирования, методы оценки качества веб-контента, интента пользователя или любые другие факторы, влияющие на позиции сайта в поисковой выдаче.

ВАЖНО: Данный патент является инфраструктурным и не дает прямых практических рекомендаций для SEO-специалистов, работающих над продвижением веб-сайтов.

Best practices (это мы делаем)

Практических рекомендаций для SEO, основанных на механизмах этого патента, нет.

Worst practices (это делать не надо)

Практических рекомендаций для SEO, основанных на механизмах этого патента, нет.

Стратегическое значение

Патент демонстрирует сложность и глубину инфраструктуры Google, необходимой для обработки и индексирования огромных массивов данных, в частности для задач фингерпринтинга и сопоставления медиаконтента. Для долгосрочной SEO-стратегии этот патент имеет нулевое значение, так как он не связан с алгоритмами ранжирования веб-поиска.

Практические примеры

Практических примеров для SEO нет. Примеры, описанные в патенте, касаются исключительно внутренней логики построения индекса для аудио-сопоставления.

Описывает ли этот патент новые факторы ранжирования?

Нет. Патент полностью посвящен оптимизации структуры индекса (LSH Index) для задач сопоставления контента (например, поиск идентичных аудиофайлов). Он не затрагивает алгоритмы ранжирования веб-поиска и не вводит никаких новых факторов.

Что такое LSH и как он используется в Google?

LSH (Locality Sensitive Hashing) — это метод для быстрого поиска похожих элементов в больших базах данных. Google использует его в системах типа Content ID для идентификации аудио и видео. Также подобные техники (например, SimHash) применяются для обнаружения дубликатов или почти дубликатов веб-страниц на этапе индексирования.

В чем суть оптимизации, описанной в патенте?

Суть в использовании хешей (LSH Bands) переменной длины. Если хеш слишком короткий, он может совпадать со слишком многими документами, что неэффективно. Система динамически удлиняет такие хеши, чтобы сделать их более специфичными (дискриминативными) и уменьшить количество ложных совпадений.

Влияет ли этот патент на то, как Google обрабатывает дублированный контент на сайтах?

Патент напрямую об этом не говорит, так как его примеры сфокусированы на аудио/видео. Однако, если Google использует LSH для обнаружения дубликатов веб-страниц, эта оптимизация может повысить эффективность этого процесса на инфраструктурном уровне. Это никак не меняет стандартных рекомендаций для SEO: необходимо создавать уникальный контент.

Что такое "Offset List"?

Это список всех мест в эталонной базе данных, где встречается конкретный хеш (LSH Band). Если этот список слишком длинный (превышает Band Size Threshold), значит хеш слишком общий (неспецифичный), и его нужно удлинить согласно алгоритму патента.

Что происходит, если хеш удлиняется до максимума, но остается слишком общим?

В патенте предусмотрено два варианта действий. Такой хеш может быть полностью удален из индекса как бесполезный для распознавания. Альтернативно, он может быть "даунсемплирован" — это означает, что из его списка совпадений (Offset List) удаляется часть элементов для сокращения размера.

Нужно ли мне менять контент-стратегию на основе этого патента?

Нет. Патент не содержит информации, которая могла бы повлиять на создание контента, его структуру или семантику с целью улучшения ранжирования в веб-поиске. Это чисто технический патент по оптимизации баз данных.

Какова основная область применения этого изобретения?

Основная область — это системы идентификации медиаконтента. Например, YouTube Content ID, где требуется быстро и точно сравнивать загружаемые пользователями файлы с огромной базой эталонных образцов для выявления нарушений авторских прав.

Описывает ли патент, как именно генерируются фингерпринты (цифровые отпечатки)?

Нет, патент предполагает, что фингерпринты уже сгенерированы (например, из спектрограмм аудио) и представлены в виде Subfingerprint Strings. Патент фокусируется исключительно на том, как эти фингерпринты эффективно индексируются с помощью LSH.

Почему SEO-специалисту важно понимать такие инфраструктурные патенты?

Понимание инфраструктурных патентов помогает трезво оценить масштаб и техническую сложность поисковых систем. Что более важно, это помогает избежать неверных интерпретаций и не тратить ресурсы на "оптимизацию" под алгоритмы, которые не имеют отношения к ранжированию веб-контента.

Как Google использует IDF-взвешивание для повышения точности распознавания контента в прямых трансляциях

Патент описывает технический метод повышения точности систем идентификации медиаконтента (например, Content ID) в прямых трансляциях. Google применяет классический метод IDF (Inverse Document Frequency) к цифровым отпечаткам видео. Это позволяет снизить вес часто встречающихся аудиовизуальных паттернов (шум, стандартные заставки) и повысить вес уникальных совпадений, улучшая качество распознавания.

US9208154B1
2015-12-08

Мультимедиа
Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google улучшает Min-Hash сигнатуры для более точного обнаружения почти дубликатов контента

Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. Это позволяет быстрее и точнее обнаруживать почти дублирующийся контент в процессе индексирования.

US8447032B1
2013-05-21

Индексация
Техническое SEO

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

US8238669B2
2012-08-07

Мультимедиа
Индексация

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

US8184953B1
2012-05-22

Индексация
Мультимедиа

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте

Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.

US9396235B1
2016-07-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных

Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.

US10318581B2
2019-06-11

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи

Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).

US8972391B1
2015-03-03

Персонализация
Поведенческие сигналы
SERP

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация