Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска

SELECTING REPRESENTATIVE MEDIA ITEMS BASED ON MATCH INFORMATION (Выбор репрезентативных медиа-элементов на основе информации о совпадениях)

US10152479B1
Google LLC
2014-08-01
2018-12-11

Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.

Какую проблему решает

Патент решает проблему эффективной и масштабируемой дедупликации медиаконтента (видео, аудио) в поисковой выдаче. Основная сложность заключается в обработке частичных дубликатов. Традиционные методы кластеризации неэффективны из-за проблемы транзитивности (если файл A частично совпадает с B, а B с C, то A не обязательно совпадает с C в достаточной степени). Это приводит к показу избыточных, почти идентичных результатов пользователю на платформах вроде YouTube.

Что запатентовано

Запатентована система для выбора репрезентативных медиа-элементов с целью дедупликации. Вместо присвоения единого ID кластера, система генерирует для каждого медиафайла небольшой набор кандидатов-представителей (Candidate Representative Media Items), используя методы хеширования (например, Min-Hash). Дедупликация происходит во время запроса: если наборы представителей двух разных файлов пересекаются, система идентифицирует их как связанные и выбирает один элемент для показа.

Как это работает

Система использует вероятностный подход, основанный на фингерпринтинге и хешировании:

Индексирование (Офлайн): Система анализирует медиафайлы (используя спектрограммы) и создает компактные цифровые дескрипторы (фингерпринты). Она находит все совпадения выше определенного порога (например, 80%). Из этого множества совпадений с помощью хеш-функции (Min-Hash) выбирается и сохраняется компактный репрезентативный набор.
Обработка запроса (Онлайн): При формировании выдачи система сравнивает заранее рассчитанные репрезентативные наборы кандидатов. Если у двух результатов есть общий представитель, они считаются дубликатами.
Дедупликация: Дубликаты удаляются, и в SERP показывается только один репрезентативный медиа-элемент.

Актуальность для SEO

Высокая. Управление огромным объемом дублированного и частично совпадающего контента критически важно для качества поиска в YouTube и Google Video. Техники, описанные в патенте (Min-Hash, Locality Sensitive Hashing), являются стандартом индустрии для масштабируемой дедупликации в больших системах и остаются актуальными в 2025 году.

Важность для SEO

Влияние на SEO значительно (75/100), особенно для Video SEO. Патент описывает механизм, определяющий, какая версия контента будет выбрана как каноническая и показана в поиске. Хотя основная цель — инфраструктурная эффективность, патент упоминает (в описании), что при финальном выборе представителя могут использоваться метрики качества и популярности. Это напрямую влияет на видимость и трафик оригинального контента по сравнению с его копиями.

Термины и определения

Candidate Representative Media Items (Кандидаты в репрезентативные медиа-элементы): Медиа-элементы, выбранные из набора совпадающих элементов, которые потенциально могут представлять исходный медиа-элемент. Они должны соответствовать пороговому значению сходства.
Compact Digital Descriptor / Fingerprint (Компактный цифровой дескриптор / Фингерпринт): Компактное представление медиа-элемента, используемое для идентификации совпадений. Генерируется путем выявления уникальных характеристик спектрограммы медиа-элемента.
Jaccard Similarity (Сходство Жаккара): Метрика для сравнения сходства двух наборов. Определяется как размер пересечения наборов, деленный на размер их объединения. Используется как теоретическая основа для вероятностной оценки совпадений.
Min-Hash (Мин-хеш): Техника для быстрой оценки сходства Жаккара. Используется для выбора репрезентативного набора путем применения хеш-функции к ID медиа-элементов и выбора n элементов с наименьшими значениями хеша.
Monotonically Increasing Segments (Монотонно возрастающие сегменты): Последовательность совпадающих сегментов, которые идут в одинаковом временном порядке в обоих сравниваемых медиа-элементах. Используется для игнорирования совпадений в переставленном или зацикленном контенте.
Representative Media Item (Репрезентативный медиа-элемент): Медиа-элемент, выбранный для представления набора дублирующихся или частично совпадающих медиа-элементов в результатах поиска (каноническая версия).
Representative Set (Репрезентативный набор, $R_{n}^{P}(X)$ ): Небольшой набор из n медиа-элементов, которые совпадают с исходным элементом X с вероятностью не менее P% и выбраны с помощью хеш-функции.
Spectrogram (Спектрограмма): Визуальное представление спектра частот сигнала во времени. Используется для создания фингерпринтов медиа-элементов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему дедупликации медиа-элементов в ответ на запрос.

Сопоставление (Matching): Система сопоставляет первый (X) и второй (Y) медиа-элементы с другими элементами в базе. Ключевая деталь: сопоставление выполняется путем генерации компактных цифровых дескрипторов (фингерпринтов) на основе уникальных характеристик спектрограмм.
Выбор Кандидатов (Representation): Система выбирает первый и второй наборы кандидатов в репрезентативные элементы из числа совпадающих элементов, которые удовлетворяют пороговому уровню сходства (match threshold).
Обработка Запроса (Query): Система получает запрос, который ссылается на X и Y (т.е. они оба попали в результаты).
Идентификация Представителя: Система идентифицирует репрезентативный медиа-элемент (Z), если он присутствует в пересечении первого и второго наборов кандидатов.
Подстановка и Выдача: Система заменяет (substitute) X и Y на Z в результатах запроса и передает результат пользователю.

Claim 3 и 11 (Зависимые от 1): Детализируют метод выбора кандидатов.

Выбор осуществляется псевдослучайным образом (Claim 3). Claim 11 уточняет, что это делается путем определения хеш-значений (hash values) для кандидатов и выбора фиксированного количества элементов на основе этих значений (например, выбор n элементов с наименьшим хешем — техника Min-Hash).

Claim 4 (Зависимый от 1): Уточняет критерии сопоставления сегментов.

Сопоставление учитывает только монотонно возрастающие сегменты (Monotonically Increasing Segments). Это означает, что порядок контента в сравниваемых файлах должен совпадать.

Claim 7 (Зависимый от 1): Уточняет критерии выбора кандидатов.

Выбор кандидата также основан на том, что общая длина совпадающих сегментов превышает пороговую длину (duration threshold length).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно в системах поиска медиа-контента (например, YouTube, Google Video Search).

INDEXING – Индексирование и извлечение признаков
Большая часть вычислений происходит на этом этапе (офлайн или near-real-time).

Feature Extraction: Система вычисляет компактные цифровые дескрипторы (фингерпринты) на основе спектрограмм.
Matching: Matching Component сравнивает фингерпринты для идентификации совпадающих элементов и сегментов.
Генерация Репрезентативных Наборов: Representation Component вычисляет и сохраняет репрезентативные наборы ( $R_{n}^{P}(X)$ ) для каждого элемента, используя Min-Hash.

RERANKING – Переранжирование (Дедупликация)
Основное применение патента происходит во время запроса (онлайн) для очистки результатов, полученных на этапе RANKING.

Дедупликация: Система сравнивает предварительно рассчитанные репрезентативные наборы кандидатов. Если найден общий элемент (пересечение наборов), он используется как репрезентативный медиа-элемент, а исходные кандидаты удаляются из выдачи (подставляются).
Выбор лучшего представителя: Если найдено несколько потенциальных представителей, система может выбрать один на основе дополнительных критериев.

Входные данные:

Медиа-элементы (аудио/видео) и их спектрограммы.
Сгенерированные фингерпринты.
Набор кандидатов в результаты поиска.
Предварительно рассчитанные репрезентативные наборы.

Выходные данные:

Дедуплицированный набор результатов поиска (SERP).

На что влияет

Типы контента: Влияет исключительно на медиа-контент, который анализируется с помощью фингерпринтов на основе спектрограмм — преимущественно видео и аудио.
Конкретные ниши: Наибольшее влияние в нишах с высоким уровнем повторного использования контента (музыкальные клипы, трейлеры, спортивные моменты, новостные сюжеты, UGC-платформы).

Когда применяется

Триггеры активации (Офлайн): При индексации нового медиа-контента для генерации фингерпринтов и репрезентативных наборов.
Триггеры активации (Онлайн): Во время обработки поискового запроса на этапе RERANKING.
Пороговые значения: Система использует пороги сходства (P%, например, 80%) и пороги длительности (Duration Threshold) для определения значимости совпадения.
Исключения: Совпадения, которые не являются монотонно возрастающими (например, контент был перемонтирован с изменением порядка сцен), могут быть исключены.

Пошаговый алгоритм

Процесс А: Генерация Репрезентативных Наборов (Индексирование)

Получение медиа-элемента (X).
Генерация фингерпринта: Создание компактного цифрового дескриптора на основе спектрограммы X.
Идентификация совпадений: Поиск в базе данных медиа-элементов, чьи фингерпринты совпадают с X.
Фильтрация совпадений: Отбор набора совпадающих элементов $M^{P}(X)$ , которые удовлетворяют порогу сходства P% и порогу длительности. Учитываются только монотонно возрастающие сегменты.
Применение хеш-функции (Min-Hash): Применение хеш-функции (h) к ID всех элементов в $M^{P}(X)$ .
Выбор набора $R_{n}^{P}(X)$ : Выбор n элементов с наименьшими значениями хеша.
(Опционально) Генерация многоуровневых наборов: Повторение шагов 4-6 для разных порогов P (например, 99%, 80%) и объединение их в общий набор кандидатов $C_{X}$ .
Сохранение набора $C_{X}$ в индексе.

Процесс Б: Дедупликация результатов поиска (Онлайн)

Получение запроса и идентификация кандидатов.
Сравнение репрезентативных наборов: Для пар кандидатов (например, X и Y) система сравнивает их наборы $C_{X}$ и $C_{Y}$ .
Идентификация пересечения: Определение, есть ли общий медиа-элемент (Z) в обоих наборах ( $Z \in C_{X} \cap C_{Y}$ ).
(Опционально) Валидация совпадения: Проверка, что длительность пересечения сегментов Z, совпадающих с X и Y, превышает пороговое значение.
Выбор представителя: Если найдено несколько общих элементов Z, выбор одного на основе дополнительных критериев (например, метрики качества, популярность, автор).
Дедупликация: Замена X и Y на выбранный репрезентативный элемент в результатах поиска.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Основные данные. Используются аудио- и видеопотоки для генерации спектрограмм, которые затем преобразуются в компактные цифровые дескрипторы (фингерпринты).
Структурные данные (Системные): Идентификаторы медиа-элементов (Media IDs) используются в качестве входных данных для хеш-функций (Min-Hash).
Временные факторы: Длительность медиа-элементов и временные метки начала/конца совпадающих сегментов используются для расчета процента совпадения и проверки монотонности.
Поведенческие факторы (Косвенно): В описании патента указано, что метрики популярности (popularity metric) могут использоваться для выбора финального репрезентативного элемента среди нескольких кандидатов.
Факторы качества (Косвенно): Метрики качества (quality metrics) также могут использоваться для выбора финального репрезентативного элемента.

Какие метрики используются и как они считаются

Процент совпадения (P% match): Бидирекциональная метрика. Элемент Y совпадает с X на P%, если длина совпадения удовлетворяет условию, основанному на максимальной длине X и Y. $\text{Match Length} > \frac{P}{100} \cdot \max(\text{Length}(X), \text{Length}(Y))$ .
Сумма длин совпадающих сегментов: Агрегированная длина всех непересекающихся и монотонно возрастающих сегментов.
Порог длительности (Duration Threshold): Минимальная требуемая длина совпадения.
Хеш-значение (Hash Value): Результат применения хеш-функции к ID медиа-элемента (Min-Hash).
Сходство Жаккара (Jaccard Similarity): Используется как теоретическое обоснование вероятности пересечения репрезентативных наборов. $J(A, B) = \frac{|A \cap B|}{|A \cup B|}$ .

Дедупликация медиа основана на вероятностном подходе (Min-Hash): Google не сравнивает каждый медиа-элемент с каждым другим напрямую во время запроса. Вместо этого используется техника Min-Hash для создания компактных репрезентативных наборов. Это позволяет масштабировать дедупликацию, жертвуя минимальной долей точности ради огромного выигрыша в скорости и ресурсах.
Решение проблемы транзитивности: Патент предлагает эффективное решение для кластеризации частично совпадающего контента, где стандартные методы не работают (проблема транзитивности). Использование пересечения наборов представителей позволяет гибко определять связи.
Фингерпринты на основе спектрограмм: Механизм сопоставления основан на анализе аудио/видео характеристик (спектрограмм) и генерации компактных цифровых дескрипторов, что делает его устойчивым к изменениям формата кодирования, но чувствительным к изменению самого контента.
Строгие критерии совпадения сегментов: Система целенаправленно игнорирует контент, который был перемонтирован с изменением порядка сцен (требование монотонно возрастающих сегментов). Компиляции или мэшапы не будут автоматически считаться дубликатами оригинала.
Многоуровневая точность: Использование разных порогов сходства (например, 99%, 80%) позволяет системе эффективно обрабатывать как почти полные копии, так и значительные частичные совпадения.
Качество и популярность как факторы выбора: Хотя патент фокусируется на механизме идентификации дубликатов, он явно упоминает (в описании), что финальный выбор репрезентативного элемента для SERP может основываться на метриках качества и популярности. Это критически важно для SEO.

Best practices (это мы делаем)

Рекомендации применимы в первую очередь к Video SEO (YouTube, Google Video).

Приоритет качества и вовлеченности: Поскольку система может использовать метрики качества и популярности для выбора финального представителя из группы дубликатов, критически важно максимизировать сигналы вовлеченности (просмотры, удержание, лайки) и обеспечивать высокое техническое качество видео. Это повышает вероятность каноникализации вашей версии контента.
Создание уникального контента через креативный монтаж: Если вы используете сторонний контент (например, для обзоров), убедитесь, что монтаж существенно изменяет порядок следования сегментов. Требование монотонно возрастающих сегментов означает, что изменение структуры контента может помочь избежать его классификации как дубликата оригинала.
Мониторинг дубликатов и защита контента: Необходимо отслеживать появление дубликатов. Понимание механизма дедупликации подтверждает важность использования систем управления правами (например, Content ID), чтобы гарантировать приоритет оригинала и управлять копиями.

Worst practices (это делать не надо)

Прямая перезаливка контента: Загрузка полных или почти полных копий чужого контента является неэффективной стратегией. Система с высокой вероятностью идентифицирует и дедуплицирует такие элементы, отдавая предпочтение оригиналу или более популярной версии.
Незначительные модификации для уникализации: Добавление интро/аутро, наложение логотипа или небольшие правки, не меняющие основную последовательность сегментов, не помешают системе идентифицировать контент как дубликат. Система рассчитана на обработку частичных совпадений (например, 80% сходства).
Игнорирование технического качества: Загрузка контента в низком качестве может привести к тому, что система выберет другую версию этого же контента в лучшем качестве как репрезентативную, даже если ваша версия была загружена раньше или имеет лучшие метаданные.

Стратегическое значение

Патент раскрывает ключевой инфраструктурный компонент систем поиска медиаконтента Google. Он подтверждает, что борьба с дубликатами ведется на системном уровне с использованием сложных алгоритмов. Для SEO-стратегии это подчеркивает смещение фокуса с простого наличия контента на его уникальность, качество и вовлеченность аудитории. В условиях, когда контент легко копируется, именно сигналы качества и популярности становятся решающими факторами для определения видимости в поиске.

Практические примеры

Сценарий: Выбор репрезентативной версии популярного трейлера

Ситуация: Киностудия выпускает новый трейлер. Его загружают официальный канал студии (Версия A), крупный новостной портал (Версия B) и сотни фанатских каналов (Версии C...). Все версии идентичны по содержанию.
Обработка: Система генерирует фингерпринты и определяет, что все версии имеют >99% совпадения. Для каждой версии генерируются репрезентативные наборы с использованием Min-Hash.
Дедупликация: При запросе пользователя система видит, что A, B и C... являются кандидатами. Она сравнивает их репрезентативные наборы и обнаруживает множество пересечений, подтверждая, что это дубликаты.
Выбор представителя: Система должна выбрать одну версию для показа. Она анализирует метрики качества и популярности. Версия A (официальный канал, высокое качество, максимальное количество просмотров) имеет наивысшие показатели.
Результат: Система выбирает Версию A как репрезентативную и показывает ее в выдаче. Версии B и C... дедуплицируются и не показываются, даже если они релевантны запросу.

Что такое «репрезентативный набор» и как он формируется?

Это небольшой список медиа-элементов, которые сильно совпадают с исходным элементом. Он формируется путем анализа всех совпадений, применения хеш-функции к их ID и выбора фиксированного числа (n) элементов с наименьшими значениями хеша. Этот метод (Min-Hash) обеспечивает случайный, но согласованный выбор, позволяя быстро оценивать сходство между элементами без необходимости хранить полный список всех совпадений.

Почему традиционная кластеризация не подходит для медиаконтента?

Она не подходит из-за проблемы транзитивности при частичных совпадениях. Если Видео A частично совпадает с B, а B с C, то A и C могут вообще не совпадать (если они совпадают с разными частями B). Традиционная кластеризация не может поместить их всех в один кластер, не нарушив порогов сходства. Метод репрезентативных наборов решает эту проблему, позволяя гибко связывать контент.

Означает ли этот патент, что Google всегда точно определяет дубликаты?

Не всегда. Описанный метод является вероятностным. Он оптимизирован для скорости и масштабируемости, а не для 100% точности. Существует небольшая вероятность, что система может пропустить дубликат (если репрезентативные наборы случайно не пересеклись). Однако использование многоуровневых наборов с разными порогами значительно повышает общую точность обнаружения.

Как система определяет, какой процент совпадения считать дубликатом?

Патент предполагает использование настраиваемых порогов (P%). Упоминаются примеры 80%, 95%, 99%. Система может использовать несколько порогов одновременно для создания многоуровневых репрезентативных наборов, что позволяет более гибко обрабатывать как почти полные копии, так и значительные частичные совпадения.

Что такое требование «монотонно возрастающих сегментов» и почему оно важно для SEO?

Это означает, что система учитывает только те совпадающие сегменты, которые идут в одинаковом временном порядке в обоих медиа-элементах. Если видео было перемонтировано и порядок сцен изменен, оно не будет считаться дубликатом оригинала. Для SEO это означает, что создание компиляций или обзоров с креативным монтажом позволяет избежать классификации контента как дубликата.

Если мой контент украли и перезалили, гарантирует ли эта система, что мой оригинал будет показан выше?

Не гарантирует, но способствует этому. Если система идентифицирует оригинал и копию как дубликаты, она выберет один репрезентативный элемент. Патент указывает, что выбор может основываться на метриках качества и популярности. Если ваш оригинал имеет лучшее качество и больше сигналов вовлеченности, он с большей вероятностью будет выбран в качестве представителя.

Влияет ли этот патент на текстовый контент?

Нет. Патент специфичен для медиа-элементов (аудио и видео). В Claims явно указано использование спектрограмм для генерации фингерпринтов, что применимо только к контенту, имеющему временное и частотное измерение. Для дедупликации текста используются другие алгоритмы (например, шинглинг).

Как система обрабатывает видео с одинаковой картинкой, но разным звуком (или наоборот)?

Система может определять совпадения по отдельным каналам (аудио, видео) или по их комбинации. Matching Component может вычислять взвешенные оценки совпадения. Если один канал совпадает, а другой нет, система может определить частичное совпадение, и решение о дедупликации будет зависеть от установленных порогов сходства (P%).

Что такое «компактный цифровой дескриптор»?

Это технический термин для фингерпринта (отпечатка) медиа-элемента. Он представляет собой набор уникальных характеристик, извлеченных из спектрограммы аудио или видео. Он намного меньше исходного файла и используется для быстрого и эффективного сравнения контента на предмет совпадений.

Как система обрабатывает вставки (например, рекламу) внутри видео?

Система способна идентифицировать несколько совпадающих сегментов, разделенных несовпадающим контентом (например, рекламой). Процент совпадения рассчитывается на основе суммы длин всех совпадающих сегментов. Если общая длина совпадений превышает порог P%, контент может быть признан дубликатом.

Как Google использует двухэтапное аудио-фингерпринтинг для эффективного поиска дубликатов аудио и видео контента в масштабе

Google использует масштабируемую систему для идентификации полных дубликатов аудиоконтента. Система создает двухчастный дайджест (фингерпринт): компактный «Index Hash» для быстрого поиска потенциальных совпадений и подробный «Verification Hash» для точного подтверждения. Это позволяет эффективно управлять миллиардами аудио- и видеофайлов, что критично для платформ типа YouTube и Google Podcasts.

US8953811B1
2015-02-10

Мультимедиа
Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска

Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.

US8611422B1
2013-12-17

Мультимедиа
Индексация

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

US8238669B2
2012-08-07

Мультимедиа
Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов

Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.

US8229219B1
2012-07-24

Мультимедиа

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)

Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.

US8386495B1
2013-02-26

Поведенческие сигналы
Ссылки
SERP

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент