Как Google использует нейронные сети для создания «прощающих» хешей и эффективного поиска похожего мультимедийного контента

APPROXIMATE HASHING FUNCTIONS FOR FINDING SIMILAR CONTENT (Приблизительные хеш-функции для поиска похожего контента)

US7831531B1
Google LLC
2007-06-21
2010-11-09

Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.

Какую проблему решает

Патент решает фундаментальную проблему информационного поиска: как эффективно и масштабируемо найти похожие (но не обязательно идентичные) элементы в огромных корпусах высокоразмерных данных (high-dimensional data), таких как аудио, изображения и видео. Сложность заключается в том, что прямое сравнение таких данных вычислительно слишком затратно, а само определение "похожести" часто бывает нечетким.

Что запатентовано

Запатентован метод обучения систем машинного обучения (в частности, нейронных сетей) для генерации аппроксимативных или "прощающих" хеш-функций (Forgiving Hash Functions). Эти функции предназначены для того, чтобы помещать похожие элементы в одни и те же хеш-корзины. Ключевым нововведением является метод обучения с динамической корректировкой целевых выходных значений (Dynamic Target Reassignment), который позволяет системе изучать функцию сходства на основе слабо размеченных данных (weakly labeled examples).

Как это работает

Система работает в три этапа: Обучение, Инициализация и Оценка.

Обучение: Нейронные сети обучаются на слабо размеченных данных. Вместо фиксированных целей система периодически переоценивает результаты сети и динамически переназначает целевые коды, чтобы лучше отражать фактическое сходство, изученное сетью. Это формирует кластеры похожего контента, поддерживая высокую энтропию индекса.
Инициализация (Индексирование): Весь корпус данных обрабатывается обученными сетями. Выходные данные сетей комбинируются (например, путем выбора наименее коррелированных битов) для создания хеш-кодов (Hash Bits), которые служат индексами.
Оценка (Поиск): Когда поступает новый запрос, он обрабатывается теми же сетями. Полученный хеш-код используется для мгновенного поиска в соответствующих корзинах индекса. Поиск выполняется без прямого сравнения исходных высокоразмерных данных.

Актуальность для SEO

Высокая. Поиск по сходству (Approximate Nearest Neighbor Search), обнаружение почти дубликатов и кластеризация контента являются фундаментальными задачами для современных поисковых систем, особенно в контексте мультимедиа (Google Images, YouTube Content ID). Описанные методы использования машинного обучения для создания эффективных индексов (Learned Hashing) лежат в основе современных систем поиска информации и векторного поиска.

Важность для SEO

Патент имеет высокое значение (75/100), особенно для SEO в области мультимедиа (Image Search, Video Search) и для понимания того, как Google обрабатывает уникальность контента. Он описывает конкретный механизм, позволяющий Google понимать сходство на основе характеристик самого контента. Это напрямую влияет на то, как контент индексируется, кластеризуется и как неэффективными становятся тактики поверхностной уникализации медиафайлов.

Термины и определения

Approximate Hashing / Forgiving Hash Function ("Прощающая" хеш-функция): Хеш-функция, которая стремится поместить похожие, но не идентичные входные данные в одну и ту же хеш-корзину (Hash Bin). Она "прощает" небольшие различия в соответствии с изученной функцией расстояния.
Dynamic Target Reassignment (Динамическое переназначение целей): Ключевая часть процесса обучения (описанная как "adjusting the target output values"). Целевые выходные значения (хеш-коды) периодически корректируются на основе фактических выходных данных обучающейся системы, чтобы лучше группировать похожие элементы.
Entropy (Энтропия): Мера распределения данных. Система стремится к максимальной Entropy, что означает равномерное распределение элементов по всем доступным хеш-корзинам для обеспечения эффективности индекса.
Hamming Distance (Расстояние Хэмминга): Метрика для сравнения двух бинарных строк. Используется для измерения сходства между полученными хеш-кодами.
Learning System (Обучающаяся система): Система машинного обучения, используемая для изучения функции сходства и генерации хешей. В патенте используются нейронные сети (Neural Networks).
Least Correlated Bits (Наименее коррелированные биты): Метод выбора битов из выходов нескольких нейронных сетей для формирования объединенного хеша. Выбор наименее коррелированных битов максимизирует энтропию.
Weakly Labeled Data (Слабо размеченные данные): Обучающие данные, где разметка неточна или неполна. Например, известно, что фрагменты принадлежат одному источнику (положительный пример), но нет явных отрицательных примеров.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный метод, включающий обучение, инициализацию и оценку.

Обучение:

Определяется обучающий набор с целевыми выходными значениями (target output values).
Обучение системы в течение небольшого числа циклов.
Критический шаг: Целевые выходные значения корректируются на основе фактических выходных данных системы (Dynamic Target Reassignment).
Обучение продолжается.

Инициализация:

Образцы предоставляются обученным системам.
Выходные данные систем комбинируются.
Комбинированные выходные данные используются как индексы в структурах данных (хеш-таблицах).

Оценка:

Целевой образец предоставляется обученным системам.
Выходные данные комбинируются.
Соответствующие образцы обнаруживаются с использованием этого индекса.

Claim 12 и 13 (Зависимые от 1): Детализируют механизм комбинирования выходов.

Комбинирование включает выбор подмножества выходных значений из разных систем. Claim 13 уточняет, что этот выбор может включать определение Least Correlated Bits (наименее коррелированных битов). Это технически важно для масштабирования системы и поддержания высокой Entropy составного хеша.

Claim 18 (Независимый пункт): Описывает метод поиска с акцентом на эффективность.

Поиск совпадения в структуре данных осуществляется без прямого сравнения целевого образца с образцом из структуры данных. Это подчеркивает, что сравнение происходит только в низкоразмерном пространстве хешей, а не в исходном высокоразмерном пространстве.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования (в части отбора кандидатов) для мультимедийного контента.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система описывает, как создавать эффективный индекс (хеш-таблицы) для поиска по сходству.

Извлечение признаков: Высокоразмерные данные (аудио, видео, изображения) обрабатываются для извлечения признаков (например, audio-spectrogram).
Генерация хешей: Обученные нейронные сети используются для преобразования этих признаков в компактные бинарные коды (Forgiving Hashes).
Построение индекса и Кластеризация: Хеши используются как ключи в индексе. Похожий контент группируется в одних и тех же корзинах (Hash Bins), что позволяет обнаруживать дубликаты.

RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Механизм обеспечивает высокоэффективный отбор кандидатов (L1).

При получении запроса система генерирует его хеш-код.
Система мгновенно извлекает контент из соответствующей хеш-корзины.
Это радикально сокращает пространство поиска для последующих этапов ранжирования (L2/L3).

Входные данные:

Слабо размеченные обучающие данные (для этапа обучения).
Корпус высокоразмерных данных для индексации.
Целевой образец (запрос) во время поиска.

Выходные данные:

Обученные модели (Learning Systems).
Индекс (хеш-таблицы).
Набор похожих кандидатов в ответ на запрос.

На что влияет

Конкретные типы контента: В первую очередь влияет на мультимедийный контент – аудио, изображения, видео. Метод является общим для high-dimensional data.
Специфические запросы: Запросы типа "найти похожее" (more-like-this), поиск по образцу (Google Lens, обратный поиск изображений), а также внутренние процессы обнаружения дубликатов и нарушений авторских прав (Content ID).

Когда применяется

Во время индексирования: Для генерации хеш-кодов для всего корпуса контента и построения индекса.
Во время обучения моделей (Офлайн): Процесс обучения с Dynamic Target Reassignment применяется для создания или обновления моделей.
Во время поиска (Retrieval): В реальном времени для генерации хеш-кода запроса и быстрого извлечения кандидатов.

Пошаговый алгоритм

Процесс делится на три основных этапа: Обучение, Инициализация и Оценка.

Этап 1: Обучение ансамбля моделей (Training)

Подготовка данных: Сбор данных и применение слабой разметки (например, группировка фрагментов по источнику).
Инициализация целей: Каждой группе случайным образом назначается уникальный целевой бинарный код (хеш).
Итеративное обучение:
1. Обучение сети: Нейронная сеть обучается в течение небольшого количества эпох (например, 10).
2. Оценка фактического вывода: Вычисляется агрегированный фактический вывод сети для каждой группы.
3. Динамическое переназначение целей (Dynamic Target Reassignment): Целевой код для группы обновляется до того кода, который наиболее близок (по Hamming distance) к ее фактическому выводу. При этом сохраняется уникальность кодов для разных групп (для поддержания Entropy).
4. Повторение: Шаги a-c повторяются до сходимости.
Финальное обучение и Комбинирование: Сети дообучаются. Обучается несколько независимых сетей для последующего использования в ансамбле.

Этап 2: Инициализация Индекса (Initializing)

Обработка корпуса: Каждый элемент корпуса обрабатывается обученными сетями.
Комбинирование выходов (Масштабирование): Выходы разных сетей комбинируются для создания более длинных хеш-кодов. Это может включать выбор Least Correlated Bits (Claim 13) для максимизации эффективности.
Построение индекса: Элемент сохраняется в хеш-таблице с использованием этого кода как индекса.

Этап 3: Поиск (Evaluating)

Обработка запроса: Запрос обрабатывается теми же обученными сетями для генерации хеш-кода.
Извлечение кандидатов: Система извлекает все элементы из соответствующей корзины хеш-таблицы. Это делается без прямого сравнения исходных данных (Claim 18).
Ранжирование (Опционально): Если используется несколько хеш-таблиц, результаты объединяются и ранжируются по частоте встречаемости.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке характеристик самого контента, а не метаданных.

Мультимедиа факторы (Признаки контента): Основные входные данные – это высокоразмерные представления контента. Для аудио это могут быть спектрограммы (mel-frequency spectrogram). Для изображений или видео это могут быть соответствующие визуальные признаки.
Системные данные (Слабые метки): Weakly labeled data используются на этапе обучения. Это информация о том, какие образцы следует считать похожими (например, происхождение из одного источника).

Какие метрики используются и как они считаются

Расстояние Хэмминга (Hamming Distance): Используется во время обучения для оценки близости фактических выходов сети к целевым кодам (при переназначении целей).
Энтропия (Entropy): Система стремится максимизировать энтропию для равномерного заполнения индекса. Это достигается за счет уникального назначения целевых кодов.
Корреляция между выходами: При комбинировании выходов нескольких сетей измеряется корреляция между битами. Для построения эффективного составного хеша выбираются Least Correlated Bits (Claim 13).
Метрики производительности (Recall/Lookups): Используются для оценки эффективности системы: процент нахождения правильного ответа (Recall) и среднее количество кандидатов в корзине (Lookups per Hashed Bin).

Изучение сходства без явных определений: Ключевая инновация – метод Dynamic Target Reassignment. Он позволяет Google изучать, что делает контент похожим, используя только слабые метки. Система сама определяет релевантные признаки для кластеризации, не требуя явного определения функции сходства.
"Прощающие хеши" для обработки вариативности: Система генерирует Forgiving Hash Functions, которые устойчивы к небольшим изменениям, шуму и артефактам сжатия. Это позволяет группировать похожий, но не идентичный контент (почти дубликаты) в одном месте индекса.
Эффективность поиска по сходству: Патент описывает механизм высокоэффективного отбора кандидатов (L1 Retrieval). Поиск осуществляется без необходимости дорогостоящего прямого сравнения исходных высокоразмерных данных (Claim 18).
Приоритет признаков контента над метаданными: Метод основан на анализе самого контента (аудио, видео, изображения). Это подчеркивает способность Google понимать мультимедиа независимо от сопровождающего текста или тегов.
Масштабируемость через ансамбли моделей: Система использует ансамбль небольших нейронных сетей и комбинирует их выходы, выбирая Least Correlated Bits (Claim 13). Это позволяет масштабировать индекс, сохраняя вычислительную эффективность и высокую энтропию.

Best practices (это мы делаем)

Создание действительно уникального контента: Понимая, что Google использует "прощающие хеши" для обнаружения почти дубликатов в мультимедиа, необходимо сосредоточиться на создании действительно уникального контента. Поверхностные изменения не сделают контент уникальным в глазах системы.
Оптимизация мультимедиа для четкости признаков: Поскольку система анализирует сам контент, качество исходных данных имеет значение. Для видео и изображений использование высокого разрешения и четкости помогает системе извлекать более точные признаки и корректно кластеризовать контент (например, в Google Images и для визуального поиска).
Управление каноникализацией: Осознание того, что Google обладает мощными инструментами для обнаружения около-дубликатов. Необходимо тщательно управлять дублированием контента на сайте (например, варианты товаров) и корректно использовать канонические теги, так как система легко идентифицирует схожесть.

Worst practices (это делать не надо)

Попытки выдать почти дубликаты за уникальный контент: Использование методов "уникализации" контента, которые вносят незначительные изменения (например, зеркальное отражение изображений, наложение фильтров, изменение размера, перекодирование аудио), неэффективно. Forgiving Hash Functions специально разработаны для игнорирования таких различий.
Массовое использование стоковых изображений: Чрезмерное использование неуникального визуального контента неэффективно. Система легко сгруппирует этот контент, что затрудняет выделение вашего сайта среди конкурентов, использующих те же ресурсы.
Полная зависимость от метаданных для мультимедиа SEO: Оптимизация только текстовых элементов (alt-тексты, заголовки) недостаточна. Система поиска и группировки основана на признаках, извлеченных непосредственно из самого медиафайла.

Стратегическое значение

Патент подтверждает стратегический фокус Google на использовании машинного обучения для понимания нетекстового контента на глубоком уровне. Он демонстрирует, как Google решает фундаментальную проблему масштабируемого поиска по сходству. Для SEO это означает, что оценка и индексация мультимедийного контента становятся все более сложными. Стратегии, направленные на манипулирование поверхностными сигналами или эксплуатацию слабостей традиционных методов обнаружения дубликатов, теряют свою эффективность.

Практические примеры

Сценарий: Оптимизация изображений товаров в E-commerce

Ситуация: Интернет-магазин использует стандартное изображение продукта от производителя. Это же изображение используют сотни других сайтов.
Применение патента Google: Система Learning to Hash генерирует для всех этих изображений очень похожие Forgiving Hashes, группируя их в одни и те же Hash Bins. Google распознает их как дубликаты.
Действия SEO-специалиста: Магазин инвестирует в создание уникальных фотографий товара с разных ракурсов и в контексте использования.
Результат: Система генерирует уникальные хеши для новых изображений. Эти изображения с меньшей вероятностью будут отфильтрованы как дубликаты, что увеличивает их видимость в Google Images.

Сценарий: Обнаружение неавторизованного использования видео (Content ID)

Ситуация: Пользователь загружает на платформу видео, которое является копией авторского контента, но немного обрезано или перекодировано.
Применение патента: Система использует аппроксимативные хеши. Даже если видео изменено, его хеш будет близок к оригиналу из-за "прощающего" характера функции.
Результат: Эффективное обнаружение почти дубликатов и неавторизованных копий без необходимости ручного поиска или точного совпадения файлов.

Что такое "прощающая хеш-функция" (Forgiving Hash Function) и почему это важно для SEO?

Это хеш-функция, которая генерирует одинаковые или очень близкие хеш-коды для похожих, но не идентичных входных данных. В отличие от стандартного хеширования, "прощающий хеш" игнорирует незначительные различия. Для SEO это критически важно, так как позволяет Google эффективно обнаруживать почти дубликаты (например, изображения с измененным размером или слегка отредактированное видео) и группировать их вместе, выбирая одну каноническую версию.

Означает ли этот патент, что бесполезно пытаться уникализировать изображения или видео?

Да, если под уникализацией подразумеваются незначительные изменения, такие как изменение размера, наложение водяного знака, зеркальное отражение или легкая коррекция цвета. Системы, основанные на этом патенте, специально разработаны для того, чтобы распознавать такой контент как похожий. Чтобы контент считался уникальным, он должен иметь существенно отличающиеся признаки.

Что такое "динамическое переназначение целей" (Dynamic Target Reassignment) в процессе обучения?

Это ключевая инновация патента. Вместо того чтобы заставлять нейронную сеть выучить фиксированные хеш-коды, система позволяет сети самой определять сходство. Периодически система смотрит, какие элементы сеть считает похожими (дает им близкие фактические выходы), и корректирует целевые хеш-коды так, чтобы они лучше соответствовали этому изученному сходству. Это позволяет обучать систему на неточных данных.

Применяется ли этот метод только к аудио?

Нет. Хотя в патенте в качестве основного примера используется аудио (поиск похожих песен по фрагментам), описанный метод является общим и применим к любым высокоразмерным данным. Это включает изображения, видео и потенциально даже текстовые документы, представленные в виде векторов (embeddings).

Как этот патент связан с поиском по изображениям Google Images или Google Lens?

Этот патент напрямую связан с функциональностью поиска похожих изображений или поиска по образцу. Описанная технология позволяет Google быстро индексировать миллиарды изображений и при получении запроса мгновенно находить похожие кандидаты на этапе отбора (L1 Retrieval), сравнивая их хеш-коды, а не сами изображения.

Нужно ли системе сравнивать исходный контент во время поиска?

Нет. Согласно Claim 18, одно из главных преимуществ метода заключается в том, что во время поиска система не выполняет прямого сравнения исходного высокоразмерного контента (например, сравнения пикселей). Поиск осуществляется только путем сравнения компактных хеш-кодов, что делает процесс чрезвычайно быстрым.

Что означает "максимизация энтропии" в контексте индекса?

Максимизация энтропии означает стремление к равномерному распределению контента по всем доступным хеш-корзинам индекса. Это критически важно для эффективности. Если бы слишком много элементов попадало в одну корзину (низкая энтропия), поиск замедлился бы, так как системе пришлось бы перебирать слишком много кандидатов в этой переполненной корзине.

Что такое "слабо размеченные данные" и почему Google их использует?

Слабо размеченные данные (Weakly Labeled Data) – это данные с неточной или обобщенной разметкой. Например, известно, что фрагменты принадлежат одному видео, но не известно, насколько они похожи на другие видео. Google использует их, потому что получение точной разметки сложно. Этот патент предлагает метод (Dynamic Target Reassignment), который позволяет эффективно обучаться на таких данных.

Почему используется ансамбль маленьких нейросетей вместо одной большой?

Использование ансамбля (множества) маленьких сетей более эффективно с точки зрения обучения. Комбинируя выходы разных сетей, особенно выбирая Least Correlated Bits (Claim 13), можно создать очень большие и эффективные хеш-пространства, обеспечивая лучшее разделение данных и высокую энтропию.

Как этот патент связан с каноникализацией?

Этот механизм является важным инструментом на этапе каноникализации. Прежде чем выбрать канонический URL из группы дубликатов, система должна сначала идентифицировать эту группу. Forgiving Hashes позволяют эффективно находить и группировать около-дубликаты контента в масштабе всего интернета.

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

US8184953B1
2012-05-22

Индексация
Мультимедиа

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google оптимизирует индексы для распознавания контента с помощью хешей переменной длины

Патент описывает инфраструктурный механизм оптимизации индексов, используемых для сопоставления контента (например, аудио/видео). Система динамически регулирует длину хеш-значений (LSH bands). Если хеш слишком общий и имеет много совпадений, его длина увеличивается для повышения точности. Это повышает эффективность поиска совпадений, но не влияет на алгоритмы ранжирования.

US9236056B1
2016-01-12

Индексация
Мультимедиа
Техническое SEO

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

US8238669B2
2012-08-07

Мультимедиа
Индексация

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам

Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.

US8788477B1
2014-07-22

Поведенческие сигналы
EEAT и качество
SERP

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация