Как Google использует компактные дескрипторы и пространственное кодирование для выявления и удаления почти дубликатов изображений из поиска

NEAR DUPLICATE IMAGES (Изображения-почти дубликаты)

US9063954B2
Google LLC
2013-03-15
2015-06-23

Google использует систему для эффективного обнаружения изображений-почти дубликатов (измененный размер, обрезка, сжатие). Система анализирует локальные особенности контента ("визуальные слова") и их точное пространственное расположение ("тайлы"), чтобы создать компактные дескрипторы. Сравнивая эти дескрипторы, Google быстро идентифицирует и удаляет дубликаты из результатов поиска для повышения разнообразия выдачи.

Какую проблему решает

Патент решает проблему наличия в результатах поиска изображений-почти дубликатов (near-duplicate images). Это изображения, являющиеся разными версиями одного и того же исходного контента (например, измененный размер, разная степень сжатия, обрезка или незначительные изменения, такие как добавление текста). Наличие таких дубликатов снижает разнообразие поисковой выдачи и ухудшает пользовательский опыт. Система направлена на эффективное и быстрое выявление этих дубликатов для их фильтрации из SERP.

Что запатентовано

Запатентована система и метод для идентификации изображений-почти дубликатов. Изобретение основано на генерации компактных дескрипторов для каждого изображения, которые кодируют как локальные визуальные особенности (visual words), так и их точное пространственное расположение (image tiles). Изображения классифицируются как почти дубликаты, только если они имеют пороговое количество совпадающих визуальных слов в совпадающих тайлах изображения.

Как это работает

Механизм работает следующим образом:

Извлечение и Квантование: Система определяет ключевые области (feature regions) на изображении и сопоставляет их с ближайшим visual word из заранее определенного словаря.
Пространственное кодирование: Система определяет, в какой тайл (image tile) попадает каждая ключевая область. Ключевая особенность: разбиение на тайлы может быть уникальным (смещенным) для каждого visual word, что повышает точность локализации.
Генерация дескрипторов: Создается компактный Feature Descriptor, кодирующий пары (Visual Word + Image Tile). Также может создаваться Color Descriptor.
Сравнение и Классификация: При сравнении двух изображений система подсчитывает количество совпадающих элементов (совпадение и по слову, и по тайлу). Если количество совпадений превышает порог (и, опционально, если цветовые дескрипторы близки), изображения признаются почти дубликатами.

Актуальность для SEO

Высокая. Эффективное управление дубликатами изображений остается критически важной задачей для Google Images, Google Shopping и других систем, работающих с визуальным контентом. Описанные методы создания компактных дескрипторов для быстрого сравнения (позволяющие проводить анализ "online") актуальны для обеспечения масштабируемости, скорости и разнообразия выдачи.

Важность для SEO

Патент имеет существенное значение (7/10) для стратегий в области SEO для изображений (Image SEO). Он описывает механизм, который напрямую определяет, будет ли изображение показано в выдаче или скрыто как дубликат. Это критически важно для e-commerce и контентных проектов, так как подчеркивает, что незначительные модификации (ресайз, водяные знаки) не обеспечивают уникальности в глазах поисковой системы.

Термины и определения

Visual Word (Визуальное слово): Квантованное представление локального признака изображения. Является элементом предопределенного словаря, созданного путем кластеризации пространства признаков (Feature Vectors).
Feature Region (Область признака): Локальная область на изображении (например, эллиптическая), из которой извлекаются визуальные признаки.
Image Tile / Region (Тайл / Регион изображения): Часть изображения, полученная в результате его разбиения (например, сеткой). Используется для кодирования грубого пространственного расположения Feature Region.
Image Tiling (Разбиение на тайлы): Схема разделения изображения на Image Tiles. В патенте описывается возможность использования разных схем разбиения (different image tiling) для разных визуальных слов.
Feature Descriptor (Дескриптор признаков): Компактное представление изображения. Состоит из набора элементов, каждый из которых кодирует пару: Visual Word и связанный с ним Image Tile.
Color Descriptor (Цветовой дескриптор): Компактное представление цветовой информации изображения, например, закодированные репрезентативные значения цветов (средние значения RGB).
Near-duplicate images (Изображения-почти дубликаты): Изображения, которые являются разными версиями одного и того же исходного контента (изменен размер, обрезка, сжатие, незначительные изменения).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации изображений как почти дубликатов.

Генерация множества векторов признаков (feature vectors) для каждого изображения.
Детализация процесса генерации:
- Определение feature region.
- Вычисление feature vector из этой области.
- Квантование вектора в одно из предопределенных visual words.
- Определение image tile, в котором находится feature region.
- Ассоциирование visual word с этим image tile.
Классификация изображений как near-duplicate images, если они имеют по крайней мере пороговое количество совпадающих visual words, связанных с совпадающими image tiles.

Ядро изобретения — требование совпадения не только визуального контента (Visual Word), но и его пространственного расположения (Image Tile) для идентификации дубликата.

Claim 2 (Зависимый от 1): Вводит ключевую техническую особенность для повышения точности.

Определение различного разбиения на тайлы (different image tiling) для каждого visual word в словаре.

Сетка, используемая для определения Image Tile, не фиксирована для всего изображения, а смещается в зависимости от того, какой именно Visual Word анализируется.

Claim 3 (Зависимый от 2): Уточняет реализацию различного разбиения.

Вычисление смещения (offset) на основе индексного номера visual word.

Claim 7 (Независимый пункт): Описывает метод удаления дубликатов относительно конкретного изображения запроса (Query by Image).

Получение изображения запроса (query image) и набора результатов поиска.
Генерация feature vectors (с Visual Words и Image Tiles) для изображения запроса и для каждого изображения в результатах.
Определение того, что одно или несколько изображений в результатах являются near-duplicate images изображения запроса (на основе порога совпадения).
Удаление этих дубликатов из набора результатов поиска.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, обеспечивая качество и разнообразие выдачи изображений.

INDEXING – Индексирование и извлечение признаков
Основная часть вычислений происходит на этом этапе:

Система анализирует изображения из коллекции (Image Collection).
Выполняются процессы извлечения признаков, квантования (Visual Words) и пространственного кодирования (Image Tiles).
Генерируются компактные Feature Descriptors и Color Descriptors для каждого изображения.
Эти дескрипторы сохраняются в Index Database.

RANKING / RERANKING – Ранжирование и Переранжирование
Механизм применяется во время выполнения запроса (online) благодаря компактности дескрипторов.

Удаление дубликатов (Deduplication): При получении набора результатов поиска система быстро сравнивает их дескрипторы, идентифицирует наборы почти дубликатов и выбирает один репрезентативный результат для показа, подавляя остальные. Это улучшает разнообразие (Diversity) выдачи.
Фильтрация Query by Image: Если запрос содержит изображение, система использует этот механизм для удаления из выдачи изображений, которые почти идентичны запрошенному (Claim 7).

Входные данные:

Коллекция изображений (результаты поиска или индекс).
Предварительно вычисленный словарь Visual Words и связанные с ними смещения (offsets) для разбиения на тайлы.

Выходные данные:

Отфильтрованный набор результатов поиска с удаленными дубликатами.
Идентификаторы наборов изображений-почти дубликатов.

На что влияет

Конкретные типы контента: Влияет исключительно на изображения. Наибольшее влияние оказывается на типы контента, где часто встречаются вариации одного изображения: стоковые фотографии, изображения товаров в e-commerce, новостные изображения.
Специфические запросы: Влияет на вертикаль Поиска по Картинкам (Image Search) и обратный поиск по изображению (Reverse Image Search).
Форматы контента: Влияет на все графические форматы. Патент упоминает, что система может адаптировать пороги для разных типов изображений (например, требовать больше совпадений для чертежей/схем – line drawings).

Когда применяется

Триггеры активации: Механизм сравнения активируется при обработке результатов поиска для обеспечения разнообразия или при обработке запроса по изображению.
Пороговые значения: Ключевыми условиями срабатывания являются:
- Порог количества совпадающих элементов дескриптора (threshold number of matching visual words associated with matching image tiles).
- Опционально: Порог цветовой дистанции (threshold color distance).

Пошаговый алгоритм

Процесс А: Генерация дескрипторов (Индексация)

Извлечение признаков: Для каждого изображения определяются Feature Regions и вычисляются Feature Vectors.
Выбор признаков: Выбирается подмножество наиболее значимых Feature Regions (например, на основе размера, контрастности или плотности) для обеспечения компактности дескриптора.
Квантование признаков: Каждый выбранный Feature Vector квантуется в ближайший Visual Word из словаря.
Пространственное квантование: Для каждого Visual Word определяется уникальное разбиение изображения на тайлы (используя смещение/offset, основанное на индексе слова). Определяется Image Tile, в который попадает признак.
Генерация Feature Descriptor: Кодируются пары (Visual Word ID + Image Tile ID) для всех выбранных признаков.
Генерация Color Descriptor: Вычисляются и кодируются репрезентативные цветовые значения (например, средние значения RGB, возможно, с фокусом на центр изображения).
Сохранение: Дескрипторы сохраняются в индексе.

Процесс Б: Обнаружение почти дубликатов (Сравнение)

Выбор пары изображений: Выбирается пара изображений для сравнения.
Сравнение цветов (Опционально): Вычисляется дистанция между Color Descriptors. Если дистанция превышает порог, процесс останавливается (не дубликаты).
Сравнение признаков: Подсчитывается количество совпадающих элементов в Feature Descriptors. Совпадение требует идентичности как Visual Word ID, так и Image Tile ID.
Проверка порога: Определяется, превышает ли количество совпадений установленный порог. Порог может зависеть от типа изображения.
Дополнительные проверки (Опционально): Может проверяться, происходят ли совпадения из разных тайлов изображения (для подтверждения глобального сходства композиции).
Классификация: Если пороги пройдены, изображения классифицируются как почти дубликаты.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Пиксельные данные): Система использует необработанные пиксельные данные изображений для извлечения локальных признаков (Feature Vectors) и глобальной цветовой информации (Color Descriptor). Анализируются контраст, текстуры, формы и цвета.

Какие метрики используются и как они считаются

Visual Word ID: Индекс, полученный путем квантования Feature Vector. Словарь создается офлайн путем кластеризации (например, k-means).
Image Tile ID: Индекс, полученный путем квантования пространственного расположения признака. Используется сетка разбиения, которая может быть смещена уникально для каждого Visual Word (Image Tiling Offset).
Number of Matching Elements (Количество совпадающих элементов): Метрика схожести Feature Descriptors. Подсчитывает количество пар (Visual Word ID + Image Tile ID), которые идентичны в обоих дескрипторах.
Color Distance (Цветовая дистанция): Метрика различия Color Descriptors. Упоминается возможность использования L1 расстояния (сумма абсолютных значений разностей) между соответствующими репрезентативными цветовыми значениями.
Thresholds (Пороги): Предопределенные значения для классификации. Патент упоминает, что пороги могут адаптироваться:
- Порог цветовой дистанции может зависеть от количества совпадающих визуальных слов.
- Порог совпадения признаков может зависеть от типа изображения (например, выше для line drawings).

Эффективность и скорость обнаружения дубликатов: Патент фокусируется на создании очень компактных дескрипторов, позволяющих проводить сравнение "online" (во время выполнения запроса) без значительных задержек.
Важность пространственной информации (Композиция): Ключевым элементом является требование совпадения не только локальных признаков (Visual Words), но и их расположения (Image Tiles). Изображения с одинаковым набором объектов, но разной композицией, не будут считаться дубликатами.
Уникальное разбиение на тайлы повышает точность: Использование разного разбиения (different image tiling) для каждого Visual Word (путем смещения сетки) значительно повышает надежность пространственной проверки без увеличения размера дескриптора.
Устойчивость к модификациям: Механизм устойчив к типичным изменениям изображений, таким как изменение размера, сжатие, обрезка и незначительные правки (например, добавление небольшого текста или водяного знака).
Адаптивные пороги: Система способна адаптировать критерии схожести в зависимости от типа контента (фотографии против схем) и степени совпадения признаков.

Best practices (это мы делаем)

Создание уникального визуального контента: Приоритет отдается созданию собственных фотографий и графики. Если объекты на фото и их композиция уникальны, система не классифицирует контент как дубликат, используя описанный механизм сравнения Visual Words и Image Tiles.
Уникальные фото для E-commerce: Для интернет-магазинов критически важно использовать собственные фотографии товаров, а не стандартные изображения от производителя. Используйте разные ракурсы, уникальный фон и композиции. Это помогает избежать кластеризации с конкурентами и повышает шансы на видимость в Image Search.
Значительная модификация стоковых изображений: Если используются стоковые изображения, их необходимо существенно модифицировать, чтобы изменить базовые Feature Vectors и их расположение. Это должно быть нечто большее, чем просто обрезка или изменение размера (например, интеграция в сложный коллаж или дизайн).
Использование высококачественных изображений: Система выбирает наиболее значимые признаки (feature regions) для генерации дескриптора, часто основываясь на контрастности и размере. Четкие, высококачественные изображения позволяют системе лучше идентифицировать уникальные признаки и могут быть выбраны в качестве канонической версии.

Worst practices (это делать не надо)

Создание псевдо-уникального контента: Попытки "уникализировать" изображения путем незначительных изменений (изменение размера, добавление водяного знака, рамки, изменение сжатия) неэффективны. Описанный механизм классифицирует такие изображения как near-duplicates.
Массовое использование стоковых фото без изменений: Такие изображения с высокой вероятностью будут классифицированы как дубликаты изображений на других сайтах и могут быть подавлены в выдаче.
Использование идентичных изображений для разных товаров: Использование одного и того же изображения для разных SKU (например, отличающихся незначительными деталями) приведет к тому, что только одно из них будет представлено в поиске по картинкам.

Стратегическое значение

Патент подтверждает, что принципы уникальности контента в полной мере распространяются и на изображения. Google обладает эффективным и быстрым механизмом для фильтрации визуального дублированного контента в масштабах веба. Для достижения видимости в Google Images необходимо инвестировать в создание контента, который уникален не только на уровне файла, но и на уровне извлекаемых визуальных признаков и композиции. Стратегии, основанные на переиспользовании чужого визуального контента, неэффективны.

Практические примеры

Сценарий: Дедупликация фотографий товара в E-commerce

Ситуация: Производитель предоставил официальное фото нового смартфона (Изображение А). Десять разных интернет-магазинов используют это фото. Один магазин сделал собственное фото этого же смартфона с другого ракурса и на другом фоне (Изображение Б).
Обработка Google:
- Система индексирует все 11 изображений и вычисляет Feature Descriptors.
- При сравнении дескрипторов 10 копий Изображения А система обнаруживает высокое количество совпадающих Visual Words в одинаковых Image Tiles. Они классифицируются как почти дубликаты.
- При сравнении Изображения А и Изображения Б система обнаружит много совпадающих Visual Words (тот же объект), но из-за изменения ракурса и фона они будут находиться в разных Image Tiles. Они НЕ будут классифицированы как почти дубликаты.
Результат в выдаче: В Google Images по запросу модели смартфона Google покажет Изображение А (выбрав одну каноническую версию из 10 копий) и Изображение Б. Девять дубликатов Изображения А будут отфильтрованы.

Будет ли изображение считаться дубликатом, если я изменю его размер или сохраню в другом формате (например, JPEG вместо PNG)?

Да, с высокой вероятностью. Описанный механизм устойчив к изменению размера, формата и степени сжатия. Visual Words извлекаются из локальных признаков, которые инвариантны к масштабу, а Image Tiles кодируют их относительное расположение. Эти характеристики не меняются при базовых технических преобразованиях.

Достаточно ли обрезать изображение (crop) или добавить водяной знак, чтобы сделать его уникальным для Google?

В большинстве случаев этого недостаточно. Если обрезка незначительна или водяной знак мал, большинство ключевых Feature Regions останутся неизменными и сохранят свое расположение. Система все равно обнаружит пороговое количество совпадающих элементов в Feature Descriptor и классифицирует изображение как почти дубликат.

Что означает ключевая особенность патента — "Различное разбиение на тайлы для каждого визуального слова" (different image tiling)?

Это технический прием для повышения точности пространственного кодирования. Вместо использования одной фиксированной сетки (например, 2x2) для определения расположения всех признаков, система смещает эту сетку уникальным образом (используя offset) для каждого Visual Word в словаре. Это снижает вероятность случайных совпадений и гарантирует, что совпадение признака в определенном тайле является надежным сигналом схожести композиции.

Как система использует Color Descriptor?

Color Descriptor кодирует общую цветовую информацию и может использоваться как быстрый фильтр первого уровня. Если два изображения сильно отличаются по цвету (дистанция выше порога), система может сразу определить их как не дубликаты, даже не сравнивая Feature Descriptors. Если цвета похожи, система переходит к более детальной проверке признаков.

Как этот патент влияет на SEO для интернет-магазинов, использующих фото от поставщиков?

Он оказывает значительное негативное влияние на такие магазины. Если вы используете те же стоковые фото, что и десятки конкурентов, Google сгруппирует их все вместе и покажет только одну версию (вероятно, с более авторитетного сайта). Для ранжирования в Image Search необходимо создавать уникальные фотографии товаров (с разных ракурсов, в другом окружении).

Применяется ли этот алгоритм во время индексации или во время поиска?

Оба варианта. Вычисление дескрипторов (Feature Descriptor, Color Descriptor) происходит во время индексации и сохраняется в базе данных. Сравнение дескрипторов происходит во время поиска (online) для фильтрации результатов, так как оно выполняется очень быстро благодаря компактности дескрипторов.

Как система обрабатывает изображения с малым количеством деталей (например, однотонный фон или простая графика)?

Патент упоминает, что в таких случаях система может не найти достаточного количества Feature Regions. В этой ситуации система может альтернативно использовать дескрипторы "всего изображения" (whole image content descriptors), которые могут включать гистограммы цветов, расположение углов, текстур и другую геометрическую информацию, не основанную на локальных признаках.

Используются ли разные пороги для разных типов изображений?

Да, патент явно указывает на такую возможность. Например, для чертежей или схем (line drawings) система может требовать более высокого порога количества совпадающих элементов (matching element threshold), чем для обычных фотографий, чтобы подтвердить, что это действительно дубликат.

Влияет ли этот патент на ранжирование текстовых веб-страниц?

Напрямую нет. Патент описывает механизм для улучшения результатов поиска изображений (Google Images). Однако косвенно он может влиять, если наличие уникальных изображений на веб-странице является фактором ранжирования для этой страницы в целом, или если страница получает трафик через блоки Universal Search с изображениями.

Как проверить, считает ли Google мое изображение уникальным?

Самый надежный способ — использовать обратный поиск по изображению (Reverse Image Search) в Google. Если в результатах поиска появляется множество точных или почти точных копий вашего изображения с других сайтов, значит, оно не уникально. Если же система показывает похожие по тематике, но визуально отличные изображения, ваш контент, вероятно, уникален.

Как Google объединяет дубликаты изображений в кластеры и индексирует их как единое целое для улучшения визуального поиска

Google оптимизирует визуальный поиск, группируя почти идентичные изображения (измененный размер, обрезка) в единый кластер. Система индексирует не отдельные картинки, а совокупность всех визуальных признаков ("визуальных слов") из всех вариантов в кластере. Это повышает эффективность индекса и гарантирует согласованность результатов при поиске по изображению.

US8923626B1
2014-12-30

Индексация
Мультимедиа

Как Google комбинирует текстовый запрос и изображение-образец для уточнения поиска по картинкам

Google использует механизм для обработки гибридных запросов (текст + изображение). Система находит изображения, которые одновременно релевантны тексту и визуально похожи на образец. Для этого создаются компактные визуальные дескрипторы и используются "визуальные ключи" для быстрого поиска. Финальная выдача ранжируется по степени визуального сходства с образцом.

US9043316B1
2015-05-26

Мультимедиа
Семантика и интент

Как Google использует визуальное сходство и графовый анализ (VisualRank) для валидации и ранжирования меток изображений

Google валидирует текстовые метки изображений (например, Alt-текст или имена файлов) с помощью визуального анализа. Система строит граф, связывающий визуально похожие изображения. Симулируя навигацию пользователя по этому графу (алгоритм, подобный PageRank), Google определяет, какие метки наиболее релевантны фактическому содержанию изображения, отфильтровывая шум и повышая качество поиска по картинкам.

US7961986B1
2011-06-14

Мультимедиа
SERP

Как Google использует "визуальные слова" и геометрические данные для эффективного поиска похожих изображений

Патент Google, описывающий инфраструктуру поиска по изображениям. Система разбивает изображения на "визуальные слова" (признаки) и использует инвертированный индекс (posting lists) для быстрого поиска совпадений. Ключевая особенность — хранение геометрических данных (положение признаков) прямо в индексе, что позволяет быстро рассчитывать визуальное сходство и проверять пространственное расположение элементов на лету.

US20150169740A1
2015-06-18

Индексация
Мультимедиа

Как Google использует механизм внимания для выбора ключевых визуальных элементов на изображениях для улучшения поиска по картинкам

Google использует модель глубокого обучения для анализа изображений, которая не только извлекает визуальные признаки (дескрипторы), но и оценивает их важность с помощью механизма внимания. Это позволяет системе фокусироваться на самых значимых элементах (например, объектах или ориентирах) и игнорировать визуальный шум, повышая точность и эффективность поиска похожих изображений.

US10402448B2
2019-09-03

Мультимедиа
Индексация

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента

Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.

US8412699B1
2013-04-02

Свежесть контента
Поведенческие сигналы
SERP

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»

Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.

US9275147B2
2016-03-01

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP