Как Google использует двухэтапное аудио-фингерпринтинг для эффективного поиска дубликатов аудио и видео контента в масштабе

FULL DIGEST OF AN AUDIO FILE FOR IDENTIFYING DUPLICATES (Полный дайджест аудиофайла для идентификации дубликатов)

US8953811B1
Google LLC
2012-04-18
2015-02-10

Google использует масштабируемую систему для идентификации полных дубликатов аудиоконтента. Система создает двухчастный дайджест (фингерпринт): компактный «Index Hash» для быстрого поиска потенциальных совпадений и подробный «Verification Hash» для точного подтверждения. Это позволяет эффективно управлять миллиардами аудио- и видеофайлов, что критично для платформ типа YouTube и Google Podcasts.

Какую проблему решает

Патент решает проблему масштабируемости систем сопоставления аудио (Audio Matching Systems) при работе с огромными базами данных (миллиарды образцов). Традиционные аудио-дескрипторы (фингерпринты) часто растут линейно с увеличением длины аудиофайла, что приводит к огромным требованиям к хранилищу и вычислительным ресурсам. Изобретение фокусируется на эффективном поиске полных дубликатов аудиодорожек, обеспечивая компактность дескрипторов.

Что запатентовано

Запатентована система создания и использования двухчастного аудио-дайджеста. Система генерирует компактный Index Hash (Индексный хэш), оптимизированный для быстрого поиска потенциальных совпадений в большом масштабе, и более крупный Verification Hash (Верификационный хэш или полный дайджест), используемый для точного подтверждения совпадения. Index Hash основан на извлечении устойчивых признаков, называемых «тройками» (Triples).

Как это работает

Система обрабатывает аудиофайл для создания его фингерпринта:

Спектрограмма и Пики: Аудио преобразуется в спектрограмму, на которой идентифицируются локальные пики (Interest Points).
Генерация Index Hash: Система формирует «тройки» (Triples) — комбинации из трех пиков, отвечающие определенным временным критериям. На основе гистограммы этих троек создается компактный Index Hash (например, с помощью Weighted Minhash).
Генерация Verification Hash: На основе исходного набора всех пиков создается вторая, более детальная гистограмма, которая преобразуется в Verification Hash.
Сопоставление: Для идентификации аудио сначала сравниваются Index Hashes для быстрого поиска кандидатов. Затем для кандидатов сравниваются Verification Hashes для точного подтверждения дубликата.

Актуальность для SEO

Высокая для мультимедийного поиска. Учитывая экспоненциальный рост видео- и аудиоконтента на платформах Google (YouTube, Google Podcasts), эффективные и масштабируемые системы для дедупликации и управления авторскими правами (Content ID) критически важны. Описанный двухэтапный подход к фингерпринтингу является стандартной практикой в системах поиска информации большого масштаба.

Важность для SEO

Влияние на традиционное веб-SEO низкое (3/10). Патент описывает внутренние инфраструктурные процессы Google для обработки аудио, а не алгоритмы ранжирования веб-страниц. Однако он имеет высокое значение для Video SEO (YouTube) и Podcast SEO. Он объясняет, как Google эффективно идентифицирует дублированный или защищенный авторским правом аудиоконтент в масштабе, что напрямую влияет на индексацию, каноникализацию и видимость мультимедийного контента.

Термины и определения

Audio Matching System (Система сопоставления аудио): Система для идентификации аудиосэмпла путем сравнения его с базой данных эталонных образцов.
Index Hash (Индексный хэш): Первая часть аудио-дайджеста. Компактный дескриптор, используемый для быстрого поиска потенциальных совпадений. Оптимизирован по размеру. Основан на «тройках» (Triples).
Interest Points / Local Peaks (Интересные точки / Локальные пики): Уникальные характеристики спектрограммы аудиосигнала, например, спектральные пики (максимумы) определенной частоты в определенный момент времени.
Spectrogram (Спектрограмма): Визуальное представление спектра частот сигнала во времени. Генерируется с помощью методов, таких как быстрое преобразование Фурье (FFT).
Triples (Тройки): Группы из трех Interest Points (p1, p2, p3), которые соответствуют определенным критериям, таким как временная последовательность и максимальный временной интервал между первой и последней точкой. Используются для генерации Index Hash.
Verification Hash (Верификационный хэш): Вторая часть аудио-дайджеста. Более детальный дескриптор (полный дайджест), используемый для точного подтверждения потенциального совпадения. Основан на исходном наборе Interest Points.
Weighted Minhash (Взвешенный Minhash): Техника хеширования для оценки сходства между двумя наборами (гистограммами). Используется для преобразования гистограмм в компактные хэши.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации компактного индексного хэша.

Система получает аудиосэмпл.
Генерируется спектрограмма и идентифицируется набор Interest Points.
Генерируется набор «троек» (Triples), где каждая тройка связана с тремя Interest Points.
На основе набора троек генерируется индексная гистограмма (Index Histogram).
На основе индексной гистограммы генерируется один или несколько Index Hashes.

Claim 2 (Зависимый от 1): Добавляет генерацию верификационного хэша.

Генерируются верификационные гистограммы (Verification Histograms), включающие временные и частотные компоненты Interest Points.
Эти гистограммы преобразуются в один или несколько Verification Hashes.

Claim 3 (Зависимый от 2): Описывает процесс индексирования.

Index Hashes добавляются в хранилище индексных данных.
Verification Hashes добавляются в хранилище верификационных данных.
Обеспечивается ассоциация между соответствующими Index Hashes и Verification Hashes.

Claim 4 и 6 (Зависимые): Описывают двухэтапный процесс сопоставления.

Система сравнивает Index Hashes для определения потенциального совпадения (Claim 4).
Система подтверждает потенциальное совпадение путем сравнения Verification Hashes (Claim 6).

Claim 9 и 12 (Зависимые от 1): Детализируют структуру данных «тройки».

Claim 9 описывает стандартную структуру: абсолютные частоты трех точек, время последней точки и временной интервал.
Claim 12 описывает альтернативную структуру, использующую частотные соотношения (Frequency Ratios) вместо абсолютных частот для устойчивости к сдвигу высоты тона (pitch shifting).

Где и как применяется

Это изобретение является инфраструктурным и применяется на этапах индексирования контента и при обработке запросов на сопоставление аудио.

INDEXING – Индексирование и извлечение признаков
Основное применение. Когда новый аудио- или видеофайл попадает в систему (например, на YouTube или в Google Podcasts), этот алгоритм используется для извлечения его уникальных характеристик (фингерпринтинга). Система генерирует Index Hash и Verification Hash для этого файла и сохраняет их в базе данных для последующей дедупликации и идентификации.

RANKING (Retrieval Stage) – Ранжирование (Этап отбора кандидатов)
В контексте систем идентификации (например, Content ID), когда необходимо проверить неизвестный аудиосэмпл, его Index Hash используется для быстрого поиска (L1 Retrieval) по базе данных индексных хэшей. Это позволяет мгновенно сократить миллиарды эталонов до небольшого числа кандидатов.

RERANKING (Verification Stage) – Переранжирование (Этап верификации)
После получения списка кандидатов система извлекает их Verification Hashes и сравнивает их с верификационным хэшем неизвестного сэмпла для точного подтверждения совпадения.

Входные данные:

Аудиосэмпл (Audio Sample).

Выходные данные:

Index Hash (компактный дайджест).
Verification Hash (полный дайджест).
(При сопоставлении) Идентификатор совпавшего эталонного аудиофайла.

На что влияет

Конкретные типы контента: Аудиофайлы (музыка, подкасты), Видеофайлы (анализ аудиодорожки).
Конкретные ниши или тематики: Платформы с пользовательским контентом (UGC), музыкальные стриминговые сервисы, сервисы подкастов.
Устойчивость к модификациям: Патент описывает варианты реализации, устойчивые к изменениям скорости воспроизведения (time stretching) и высоты тона (pitch shifting).

Когда применяется

Триггеры активации: Загрузка нового контента в систему; необходимость идентификации неизвестного аудиофрагмента.
Условия применения: Алгоритм специально разработан для сценариев, требующих идентификации полных дубликатов аудиофайлов.

Пошаговый алгоритм

Процесс А: Генерация Фингерпринта (Индексирование)

Генерация спектрограммы: Аудио преобразуется во временно-частотное представление (спектрограмму) с использованием FFT на перекрывающихся окнах.
Идентификация локальных пиков: На спектрограмме определяются Interest Points (например, локальные максимумы).
Генерация троек (Triples): Из набора пиков формируются комбинации из трех точек (p1, p2, p3).
Фильтрация троек: Тройки фильтруются по критериям временной последовательности и максимального временного интервала (maximum time span).
Генерация индексной гистограммы: Для каждой отфильтрованной тройки извлекаются признаки (частоты, время, интервал) и вносятся в разреженную гистограмму.
Генерация Index Hash: Индексная гистограмма преобразуется в компактный Index Hash (например, с помощью Weighted Minhash).
Генерация верификационной гистограммы: Создается вторая гистограмма на основе временных и частотных компонентов всех исходных локальных пиков.
Генерация Verification Hash: Верификационная гистограмма преобразуется в Verification Hash.
Сохранение: Index Hash сохраняется в основном индексе, а Verification Hash — в хранилище дайджестов, с сохранением ассоциации между ними.

Процесс Б: Сопоставление (Matching)

Генерация фингерпринта запроса: Для входящего аудиосэмпла генерируются Index Hash (H1_query) и Verification Hash (H2_query).
Поиск кандидатов (Retrieval): H1_query сравнивается с базой данных Index Hashes (например, используя сходство Хэмминга). Определяется набор потенциальных совпадений.
Верификация (Verification): Для каждого кандидата извлекается его сохраненный Verification Hash (H2_ref).
Подтверждение совпадения: H2_query сравнивается с H2_ref. Если сходство превышает порог, совпадение подтверждается.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Система использует исключительно аудиосигнал. Анализируются его физические характеристики: частота, амплитуда и их изменение во времени. Никакие другие факторы (текстовые, ссылочные, поведенческие) в патенте не упоминаются.

Какие метрики используются и как они считаются

Спектрограмма: Рассчитывается с помощью преобразований Фурье (FFT).
Interest Points (Локальные пики): Точки на спектрограмме с локально максимальной амплитудой.
Triples (Тройки): Комбинации из трех пиков. В патенте описаны признаки, кодирующие тройку:
- Стандартный вариант: Использует абсолютные частоты и временные интервалы (например, p1.freq, p2.freq, p3.freq, p1.time, p1.time - p3.time).
- Вариант, устойчивый к сдвигу высоты тона (Pitch Shifting): Использует отношения частот (например, p1.freq/p2.freq) вместо абсолютных значений.
- Вариант, устойчивый к растяжению времени (Time Stretching): Использует отношения временных интервалов вместо абсолютного интервала.
Гистограммы (Index/Verification Histograms): Разреженные представления, агрегирующие характеристики троек или пиков.
Weighted Minhash: Алгоритм для генерации хэшей, аппроксимирующих сходство Джаккара (Jaccard similarity) между гистограммами.
Hamming Similarity: Упоминается как возможный метод сравнения Index Hashes.

Фокус на масштабируемости и эффективности: Патент демонстрирует, как Google решает инфраструктурные задачи анализа мультимедиа. Двухэтапный подход (компактный индекс + детальная верификация) является ключевым для обработки миллиардов файлов.
Идентификация vs Ранжирование: Описанная система предназначена для бинарной идентификации (является ли файл X дубликатом файла Y), а не для ранжирования контента по релевантности запросу.
Устойчивость признаков (Triples): Использование «троек» позволяет создать устойчивый к шумам фингерпринт. Патент также предлагает варианты, устойчивые к изменениям скорости воспроизведения и высоты тона, что затрудняет обход системы обнаружения.
Ограниченное влияние на Веб-SEO: Патент не содержит информации о факторах ранжирования веб-страниц. Его ценность заключается в понимании того, как Google обрабатывает нетекстовый контент.
Значение для Video SEO и UGC: Для платформ типа YouTube этот механизм критичен. Он обеспечивает работу систем дедупликации и Content ID, напрямую влияя на то, будет ли контент помечен как дубликат или нарушающий авторские права.

Best practices (это мы делаем)

Патент носит инфраструктурный характер и не дает прямых рекомендаций по SEO-оптимизации для ранжирования. Однако, исходя из его механизмов, можно сделать выводы для стратегий работы с мультимедиа контентом (Video SEO, Podcast SEO).

Обеспечение уникальности аудиовизуального контента: Необходимо стремиться к уникальности аудиодорожки. Google обладает высокоэффективными инструментами для обнаружения полных аудио-дубликатов. Если контент идентифицируется как дубликат, это может повлиять на его индексацию и видимость.
Стратегия синдикации контента: При распространении аудиоконтента (например, подкастов) на разных платформах следует понимать, что Google легко идентифицирует все копии как один и тот же контент. Усилия следует сосредоточить на оптимизации метаданных и продвижении канонической версии.

Worst practices (это делать не надо)

Перезаливка идентичного контента: Многократная загрузка одного и того же видео- или аудиофайла в надежде увеличить охват неэффективна. Система предназначена именно для выявления таких полных дубликатов.
Попытки обхода систем идентификации легкими модификациями: Незначительные изменения аудио (легкое ускорение, изменение тональности) могут быть неэффективны. Патент явно описывает варианты генерации троек (Triples), устойчивые к растяжению времени (Time Stretching) и сдвигу высоты тона (Pitch Shifting) за счет использования соотношений частот и времени.
Использование защищенного авторским правом аудио: Использование чужой музыки без разрешения рискованно. Технологии фингерпринтинга позволяют Google автоматически и точно идентифицировать такой контент.

Стратегическое значение

Патент подтверждает технологическое превосходство Google в анализе нетекстового контента в масштабе. Для SEO-специалистов это подчеркивает, что Google анализирует контент комплексно. Стратегия создания контента должна учитывать, что уникальность и добавленная ценность критичны во всех форматах — текстовом, визуальном и аудио. В эпоху мультимедийного поиска понимание механизмов обработки аудио и видео становится необходимым компонентом комплексной SEO-стратегии.

Практические примеры

Сценарий: Каноникализация подкаста на разных платформах

Ситуация: SEO-специалист продвигает подкаст, который размещается на основном сайте, а также синдицируется на Google Podcasts и YouTube (в виде видео с аудиодорожкой).
Применение патента: Google использует технологию фингерпринтинга для анализа аудиофайлов на всех платформах. Система генерирует Index Hash и Verification Hash.
Результат: Все версии подкаста идентифицируются как один и тот же аудиобъект, несмотря на разные URL и форматы (MP3 vs Аудио в Видео).
Действия SEO-специалиста: Бесполезно пытаться продвигать каждую копию как уникальный контент. Необходимо сосредоточиться на каноникализации (например, через RSS-фиды указать основной источник) и оптимизации метаданных на каждой платформе, понимая, что сам аудиоконтент уже идентифицирован и связан.

Сценарий: Попытка обхода Content ID

Ситуация: Пользователь пытается загрузить на YouTube видео с защищенной авторским правом музыкой, немного ускорив аудиодорожку.
Работа системы: Система генерирует Triples, используя временные соотношения (Time Ratios), которые устойчивы к растяжению времени.
Результат: Несмотря на ускорение, Index Hash и Verification Hash совпадают с эталоном. Система Content ID помечает контент. SEO-специалистам не следует рекомендовать такие тактики.

Имеет ли этот патент отношение к ранжированию сайтов в поиске Google?

Нет, прямого отношения к ранжированию веб-страниц патент не имеет. Он описывает инфраструктурную технологию для идентификации дубликатов аудиофайлов. Это система бинарного сопоставления (совпало/не совпало), а не система оценки релевантности или качества контента для целей ранжирования в веб-поиске.

Как эта технология влияет на Video SEO и YouTube?

Влияние значительное. Эта технология является основой для систем типа Content ID на YouTube и систем дедупликации. Она позволяет эффективно сканировать загружаемые видео, анализировать их аудиодорожки и сравнивать их с огромной базой эталонов. Это напрямую влияет на обнаружение дублированного контента и нарушений авторских прав, что может повлиять на видимость видео.

Что такое «Тройки» (Triples) и почему они используются?

Тройки — это группы из трех спектральных пиков (Interest Points), расположенных в определенной временной последовательности и в пределах заданного интервала. Использование трех точек вместо одной или двух делает фингерпринт более уникальным и устойчивым к шумам и искажениям, повышая точность идентификации при сохранении компактности индекса.

В чем разница между Index Hash и Verification Hash?

Index Hash — это очень компактный дескриптор, основанный на тройках. Он используется для быстрого поиска кандидатов в огромной базе данных и оптимизирован по размеру. Verification Hash — это более детальный и крупный дескриптор, основанный на всех исходных спектральных пиках. Он используется на втором этапе для точного подтверждения совпадения среди отобранных кандидатов.

Может ли эта система обнаружить короткий фрагмент песни в длинном видео?

Патент фокусируется на поиске полных дубликатов аудиофайлов и отмечает, что системы для поиска частичных совпадений (matching any range) менее эффективны для этой задачи и требуют больше ресурсов. Конкретная реализация, описанная здесь, оптимизирована для сопоставления всего файла целиком.

Если я немного ускорю аудио или изменю тональность, система не найдет дубликат?

Система может обнаружить дубликат. В патенте специально предусмотрены варианты генерации признаков (Triples), которые используют отношения частот и временных интервалов вместо абсолютных значений. Это делает фингерпринт устойчивым к сдвигу высоты тона (Pitch Shifting) и растяжению времени (Time Stretching).

Может ли Google использовать эту технологию для анализа уникальности контента на моем сайте?

Да, если на вашем сайте размещен аудио- или видеоконтент. Google может проиндексировать этот контент, сгенерировать его фингерпринты и использовать их для сравнения с другим контентом в интернете. Это помогает Google понять, является ли ваш мультимедийный контент оригинальным или копией.

Что такое Weighted Minhash в контексте этого патента?

Это алгоритм хеширования, который используется для преобразования больших гистограмм (описывающих распределение троек или пиков) в компактные хэши. Он позволяет быстро оценить степень сходства между двумя аудиофайлами, сравнивая их хэши вместо сравнения исходных объемных данных.

Как эта технология помогает Google экономить ресурсы?

Экономия достигается за счет использования компактного Index Hash. Вместо хранения и индексации огромных традиционных фингерпринтов, Google может хранить миллиарды компактных хэшей, используя значительно меньше памяти (например, 4 миллиарда клипов в 1 ТБ, согласно патенту). Это ускоряет поиск и снижает нагрузку на инфраструктуру.

Стоит ли мне беспокоиться об этом патенте, если я работаю только с текстами?

Если вы работаете исключительно с текстовым контентом и не используете аудио или видео, этот патент не повлияет на вашу работу напрямую. Однако он дает представление о том, как Google подходит к анализу контента в целом, подчеркивая важность уникальности во всех форматах.

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

US8238669B2
2012-08-07

Мультимедиа
Индексация

Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска

Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.

US10152479B1
2018-12-11

Мультимедиа
SERP
Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов

Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.

US8229219B1
2012-07-24

Мультимедиа

Как Google улучшает Min-Hash сигнатуры для более точного обнаружения почти дубликатов контента

Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. Это позволяет быстрее и точнее обнаруживать почти дублирующийся контент в процессе индексирования.

US8447032B1
2013-05-21

Индексация
Техническое SEO

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"

Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.

US8244749B1
2012-08-14

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи

Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).

US8972391B1
2015-03-03

Персонализация
Поведенческие сигналы
SERP

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)

Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.

US8386495B1
2013-02-26

Поведенческие сигналы
Ссылки
SERP

Как Google использует временной распад и анализ трендов кликов для корректировки ранжирования и борьбы со стагнацией выдачи

Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.

US9092510B1
2015-07-28

Свежесть контента
Поведенческие сигналы
SERP

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей

Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.

US20250054045A1
2025-02-13

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц

Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.

US9081832B2
2015-07-14

Ссылки
SERP
Свежесть контента