Как Google разделяет визуальные паттерны (Shape) и их интенсивность (Gain) для точного и быстрого поиска похожих изображений

SHAPE-GAIN SKETCHES FOR FAST IMAGE SIMILARITY SEARCH (Скетчи "Форма-Усиление" для быстрого поиска похожих изображений)

US20150169644A1
Google LLC
2013-01-03
2015-06-18

Google использует метод квантования "Shape-Gain" для повышения точности и скорости поиска похожих изображений. Система разделяет векторы признаков на направление (Shape/Форма, определяющее визуальный паттерн) и магнитуду (Gain/Усиление, определяющее интенсивность). Раздельное кодирование этих компонентов позволяет создавать более точные компактные коды (хэши) для эффективного сравнения миллиардов изображений.

Какую проблему решает

Патент решает проблему эффективности и точности поиска похожих элементов (в первую очередь, изображений) в сверхбольших базах данных. Предыдущие методы генерации компактных бинарных хэш-кодов (Binary Hash Codes) часто сталкивались с "потолком производительности" (performance ceiling), когда точность переставала улучшаться с увеличением длины кода. Патент определяет, что это ограничение вызвано игнорированием "ошибки магнитуды" (Magnitude Error) – искажения информации о длине (интенсивности) вектора при кодировании.

Что запатентовано

Запатентована система квантования векторов, называемая "Shape-Gain" (Форма-Усиление). Суть изобретения заключается в разделении исходного вектора признаков на два независимых компонента: направление (Shape или Angle) и магнитуду (Gain или Magnitude). Каждый компонент кодируется отдельно для минимизации соответствующих ошибок, что позволяет создать более точные компактные сигнатуры (скетчи) для быстрого поиска.

Как это работает

Система работает следующим образом:

Анализ ошибок: Общая ошибка квантования разделяется на три типа: Ошибка проекции, Ошибка угла и Ошибка магнитуды.
Декомпозиция: Исходный вектор разделяется на компонент направления (Shape) и компонент магнитуды (Gain).
Кодирование Формы (Shape): Направление кодируется методами, минимизирующими угловую ошибку. Используется PCA (для снижения размерности) и модифицированная итеративная квантизация (ITQ) для оптимизации вращения данных перед бинаризацией.
Кодирование Усиления (Gain): Магнитуда (скалярное значение) кодируется с использованием скалярного квантования, например, кластеризации k-means, для минимизации ошибки магнитуды.
Поиск: При поиске система быстро вычисляет расстояние между кодом запроса и кодами в базе данных, эффективно комбинируя закодированные части Shape и Gain (используя расстояние Хэмминга и таблицы поиска).

Актуальность для SEO

Высокая. Векторный поиск (Vector Search) и эффективные методы квантования являются фундаментом современных систем информационного поиска, особенно для мультимедиа (Google Images, Google Lens) и семантического поиска. Хотя методы генерации исходных векторов эволюционировали (например, нейросетевые эмбеддинги вместо упомянутых GIST или BoW), необходимость в их эффективном сжатии и быстром поиске остается критически важной.

Важность для SEO

Влияние на SEO умеренное (5/10) и касается в основном Image SEO. Патент является инфраструктурным и не описывает факторы ранжирования веб-страниц. Однако он раскрывает базовую технологию, которую Google использует для оценки визуального сходства в масштабе. Это важно для функций поиска по картинке, обнаружения дубликатов и визуального поиска товаров. Понимание механизма подчеркивает, что индексируется не только сам визуальный паттерн (Shape), но и его интенсивность/контрастность (Gain).

Термины и определения

Binary Hash Codes (Бинарные хэш-коды)

Компактные бинарные представления высокоразмерных векторов признаков. Используются для быстрого поиска и индексации больших коллекций данных.

Gain / Magnitude (Усиление / Магнитуда)

Компонент вектора, представляющий его длину (норму). В контексте изображений часто коррелирует с интенсивностью или контрастностью признака.
Обработка Неопределенности: В патенте есть вариативность в определении термина. В основном описании Magnitude трактуется как норма/интенсивность вектора. Однако в Claim 1 она определяется как "позиция визуального аспекта внутри изображения". В Claims 17/18 упоминаются атрибуты пикселя (цвет, интенсивность и т.д.). Метод адаптируется к разным интерпретациям.

Iterative Quantization (ITQ) (Итеративная квантизация)

Метод обучения бинарных кодов, который минимизирует ошибку квантования путем итеративного вращения (rotation) данных перед бинаризацией. Используется для кодирования Shape.

k-means clustering (Кластеризация k-средних)

Алгоритм кластеризации, используемый для скалярного квантования магнитуд. Он находит оптимальные центры (landmarks) для минимизации искажений (Magnitude Error).

Principal Component Analysis (PCA) (Анализ главных компонент)

Метод снижения размерности данных. Используется для уменьшения "ошибки проекции" перед квантованием.

Quantization Error (Ошибка квантования)

Искажение, возникающее при преобразовании непрерывных векторов в дискретные бинарные коды. Патент разделяет ее на три типа:

Projection Error (Ошибка проекции): Искажение из-за снижения размерности.
Angle Error (Угловая ошибка): Искажение направления вектора при бинаризации.
Magnitude Error (Ошибка магнитуды): Искажение длины (интенсивности) вектора при бинаризации.

Shape / Direction / Angle (Форма / Направление / Угол)

Компонент вектора, представляющий его направление в пространстве признаков. Определяет основной визуальный паттерн.

Shape-Gain Sketch (Скетч "Форма-Усиление")

Итоговая компактная бинарная сигнатура, состоящая из отдельно закодированных компонентов формы и усиления.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод поиска похожих изображений с использованием раздельного кодирования.

Система идентифицирует векторы для частей изображения. Каждый вектор имеет направление (визуальный аспект) и магнитуду (определяемую здесь как позиция этого аспекта).
Направление и магнитуда каждого вектора кодируются раздельно.
Система получает вектор запроса (query vector).
Закодированные направления и магнитуды комбинируются.
Вычисляются расстояния между вектором запроса и векторами изображения на основе этой комбинации.
Определяется схожесть векторов на основе вычисленных расстояний.

Claim 6 (Зависимый от 1): Детализирует процесс кодирования направления (Shape), соответствующий применению PCA и ITQ.

Определение ковариационной матрицы и собственных векторов (eigenvectors) (Шаги PCA).
Проецирование вектора на пространство, охватываемое собственными векторами.
Вращение (Rotating) спроецированного вектора.
Применение порога (Thresholding) к вращенному вектору для получения бинарного кода.

Claim 8 (Зависимый от 6): Уточняет цель вращения (Шаг ITQ).

Вращение выполняется для минимизации средней разницы угла (Angle Error) между исходным вектором и его закодированным направлением.

Claim 9 (Зависимый от 1): Детализирует процесс кодирования магнитуды (Gain) с использованием скалярного квантования.

Применяется кластеризация k-means clustering к магнитудам. Центры кластеров выбираются так, чтобы минимизировать сумму расстояний (Magnitude Error) между магнитудами и ближайшим центром.

Claims 12 и 13 (Зависимые): Описывают оптимизацию вычислений.

Для ускорения поиска генерируются предварительно вычисленные таблицы поиска (look-up tables) для магнитуд и углов. Расстояние определяется с использованием этих таблиц.

Где и как применяется

Этот патент описывает инфраструктурные процессы, связанные с индексацией и поиском мультимедийного контента (в первую очередь, изображений).

INDEXING – Индексирование и извлечение признаков
Основной этап применения.

Feature Extraction: Из изображений извлекаются высокоразмерные векторы признаков (в патенте упоминаются GIST, BoW).
Quantization: Применяется механизм Shape-Gain для преобразования этих векторов в компактные бинарные коды (Shape-Gain Sketches). Это включает обучение и применение PCA, ITQ и k-means. Коды сохраняются в индексе для быстрого поиска.

RANKING – Ранжирование (Этап L1 Retrieval / Отбор кандидатов)
Механизм используется на самом первом этапе поиска в системах, требующих быстрого сравнения визуального сходства (Image Search, Google Lens).

Система получает вектор запроса и мгновенно вычисляет расстояния (используя Hamming Distance и таблицы поиска) до миллиардов кодов в базе данных.
Это позволяет быстро отобрать набор визуально похожих кандидатов (Nearest Neighbors) для последующего, более сложного ранжирования.

Входные данные:

Высокоразмерные векторы признаков изображений (Database Vectors).
Вектор признаков изображения-запроса (Query Vector).

Выходные данные:

На этапе индексации: Компактные бинарные коды (Shape-Gain Sketches).
На этапе поиска: Набор идентификаторов изображений, чьи коды наиболее близки к коду запроса.

На что влияет

Конкретные типы контента: В первую очередь влияет на изображения. В патенте также упоминается возможность применения к видео, аудио, тексту и другим формам контента, которые можно представить в виде векторов.
Функционал поиска: Влияет на точность и скорость работы Google Images, обратного поиска изображений (Reverse Image Search), систем обнаружения визуальных дубликатов и визуального поиска товаров (Google Lens).

Когда применяется

На этапе индексации: При обработке изображений для генерации их компактных бинарных сигнатур.
На этапе поиска: В реальном времени при выполнении любого запроса, требующего оценки визуального сходства.

Пошаговый алгоритм

Процесс А: Индексирование и Обучение (Офлайн)

Подготовка данных: Сбор векторов признаков изображений. Центрирование данных (zero-centering).
Снижение размерности (PCA): Применение PCA для уменьшения размерности и минимизации Projection Error.
Декомпозиция Shape-Gain: Разделение каждого вектора на направление (Shape, нормализация до единичной длины) и магнитуду (Gain, сохранение нормы вектора).
Оптимизация Shape (ITQ): Обучение оптимального вращения данных (используя модифицированный ITQ) для минимизации Angle Error при последующей бинаризации.
Оптимизация Gain (k-means): Применение k-means clustering к значениям магнитуд для определения оптимальных центров скалярного квантования (минимизация Magnitude Error).
Генерация Кодов: Кодирование направления (применение обученного вращения и порога) и магнитуды (присвоение индекса ближайшего центра k-means) для всех векторов базы данных. Сохранение Shape-Gain Sketches.
Подготовка таблиц поиска: Предварительное вычисление look-up tables для быстрого расчета расстояний.

Процесс Б: Поиск (Онлайн)

Получение и Кодирование запроса: Получение Query Vector и его преобразование в Shape-Gain Sketch с использованием предобученных параметров. (Возможен также асимметричный поиск, где запрос не квантуется).
Вычисление расстояний: Быстрое вычисление расстояний между скетчем запроса и скетчами в базе данных. Используется формула, комбинирующая магнитуды и расстояние Хэмминга между кодами направлений.
Идентификация: Определение набора ближайших соседей (Nearest Neighbors) – векторов с наименьшим расстоянием.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке векторов признаков, а не на традиционных SEO-факторах.

Мультимедиа факторы: Основные данные – это высокоразмерные векторы, описывающие визуальное содержание изображений. В патенте в качестве примеров упоминаются дескрипторы GIST и Bag of Words (BoW). Эти векторы инкапсулируют информацию о текстуре, цвете, форме и контрастности изображения.

Какие метрики используются и как они считаются

Mean-Squared Error (MSE) (Среднеквадратическая ошибка): Используется как мера искажения при квантовании магнитуды (Gain). Цель k-means – минимизировать MSE.
Угловая ошибка (Angle Error): Измеряется через косинус угла ( $cos(\theta)$ ) между исходным вектором и его квантованной версией. Цель ITQ – максимизировать этот косинус (минимизировать угол).
Евклидово расстояние (Euclidean Distance): Конечная цель системы – аппроксимировать реальное Евклидово расстояние между векторами с помощью компактных кодов. Формула для вычисления расстояния между вектором запроса q и вектором базы данных d, где $q=m_q b_q$ и $d=m_d b_d$ (m=магнитуда/Gain, b=бинарный код формы/Shape):

$||q-d||_2^2 = m_q^2 + m_d^2 - 2m_q m_d (b_q^T b_d)$

Расстояние Хэмминга (Hamming Distance): Используется для быстрого вычисления произведения бинарных кодов формы ( $b_q^T b_d$ ), что значительно ускоряет поиск.

Инфраструктурный фокус: Патент описывает внутренние инженерные процессы Google по индексации и быстрому поиску визуального контента (Information Retrieval). Он не дает прямых рекомендаций по SEO-оптимизации веб-страниц.
Механика визуального сходства: Google определяет визуальное сходство, анализируя не только основные паттерны (Форма/Shape), но и их интенсивность (Усиление/Gain). Игнорирование магнитуды (Magnitude Error) было идентифицировано как ключевое ограничение предыдущих методов.
Раздельное кодирование для точности: Разделение вектора на Shape и Gain и их независимая оптимизация (ITQ для Shape, k-means для Gain) позволяет сохранить больше информации в компактном бинарном коде и повысить точность поиска.
Эффективность поиска: Система разработана для максимальной скорости в масштабе. Использование бинарных кодов, расстояния Хэмминга и предварительно вычисленных look-up tables позволяет проводить сравнение с миллиардами изображений в реальном времени.
Вариативность реализации: Патент допускает разные интерпретации того, что представляет собой Magnitude (интенсивность признака, его позиция на изображении или атрибут пикселя), что указывает на гибкость применения метода к разным типам признаков.

Патент является инфраструктурным. Практические выводы касаются исключительно Image SEO и основаны на понимании того, как система интерпретирует и сравнивает визуальное содержание.

Best practices (это мы делаем)

Обеспечение визуальной четкости и качества: Поскольку система кодирует как форму (паттерн), так и усиление (интенсивность/контрастность), высококачественные, четкие и контрастные изображения будут представлены более точно. Это улучшает шансы на корректное определение визуального сходства в системах типа Google Lens.
Создание уникального визуального контента: Патент демонстрирует высокоэффективный механизм для нахождения визуально похожих изображений (near-duplicates). Для успешного ранжирования в Google Images важно предоставлять уникальную визуальную ценность, а не использовать стандартные стоковые изображения.
Использование Reverse Image Search для аналитики: Понимание этой технологии подтверждает эффективность обратного поиска изображений для анализа распространения вашего уникального контента (например, инфографики) и поиска возможностей для линкбилдинга (Link Building by Attribution).

Worst practices (это делать не надо)

Использование изображений низкого качества: Размытые, низкоконтрастные изображения или изображения с сильными артефактами сжатия могут привести к неточным векторным представлениям. Компонент Gain (интенсивность) может быть закодирован некорректно, что затруднит сопоставление.
Манипуляции для обхода дублирования: Попытки сделать изображение "уникальным" путем незначительных изменений (легкое изменение цвета, зеркальное отражение, небольшое кадрирование). Технологии векторного поиска, подобные описанной, устойчивы к таким манипуляциям и предназначены для обнаружения такого рода сходств.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на понимание контента на уровне пикселей, а не только через метаданные (alt-text) и окружающий текст. Это фундаментальная технология, обеспечивающая инфраструктуру для масштабирования визуального поиска (Visual Search). Для SEO-специалистов это подчеркивает растущую важность оптимизации под такие интерфейсы, как Google Lens и блоки визуального поиска товаров.

Практические примеры

Сценарий: Оптимизация изображений товаров для E-commerce под Визуальный Поиск

Задача: Улучшить видимость товаров в Google Images и Google Lens.
Действия на основе патента: Обеспечить высокое качество фотографий товаров. Фотографии должны быть четкими, с хорошим освещением и контрастом, демонстрирующими ключевые детали продукта.
Обоснование: Четкость изображения гарантирует, что визуальные паттерны (Shape) будут закодированы точно. Хороший контраст и детализация гарантируют, что интенсивность признаков (Gain) будет также корректно зафиксирована в векторном представлении.
Ожидаемый результат: Система сможет более точно сопоставлять эти изображения с запросами пользователей, использующих визуальный поиск (например, загружая фото искомого товара), увеличивая вероятность показа товара в релевантных выдачах.

Что такое "Форма" (Shape) и "Усиление" (Gain) в контексте изображения?

"Форма" (Shape или направление вектора) представляет собой основной визуальный паттерн – контуры, текстуру, распределение объектов. "Усиление" (Gain или магнитуда вектора) представляет интенсивность этого паттерна – насколько он выражен, контрастен или ярок. Патент утверждает, что для точного поиска важно кодировать оба компонента раздельно.

Почему раздельное кодирование Shape и Gain лучше стандартного хеширования?

Стандартные методы часто игнорируют магнитуду (Gain), фокусируясь только на направлении (Shape). Это приводит к значительной ошибке магнитуды (Magnitude Error), которая ограничивает общую точность поиска – возникает "потолок производительности". Раздельное кодирование позволяет оптимизировать ошибки для Shape и Gain независимо, что дает более точное представление исходного вектора в сжатом коде.

Влияет ли этот патент на ранжирование в обычном веб-поиске?

Нет, прямого влияния нет. Патент описывает инфраструктурный механизм для быстрого поиска по схожести (Information Retrieval), который используется для отбора кандидатов в системах визуального поиска, таких как Google Images или Google Lens. Он не описывает алгоритмы ранжирования веб-страниц.

Как этот патент связан с нейросетями и эмбеддингами?

Современные системы используют нейросети для создания векторных представлений данных – эмбеддингов. Эти эмбеддинги имеют высокую размерность и требуют много ресурсов для хранения и поиска. Метод Shape-Gain – это техника сжатия (квантования) этих эмбеддингов в компактные бинарные коды для их эффективного хранения и быстрого поиска.

Поможет ли этот механизм обнаружить дубликаты изображений?

Да, это одна из основных задач подобных систем. Генерация точных компактных кодов и быстрое вычисление расстояний позволяет эффективно находить полные дубликаты и близкие копии (near-duplicates) изображений в масштабах всего интернета, что улучшает дедупликацию контента.

Нужно ли SEO-специалистам оптимизировать изображения специально под Shape-Gain?

Нет, напрямую оптимизировать под алгоритм квантования невозможно. Однако, поскольку система анализирует Shape (форму) и Gain (интенсивность), следует предоставлять высококачественные, четкие и контрастные изображения. Это гарантирует, что исходные векторы признаков будут точными, что улучшит видимость в визуальном поиске.

Влияет ли этот патент на важность атрибута alt или имени файла?

Патент не упоминает текстовые факторы. Alt-атрибуты и имена файлов остаются критически важными для Image SEO, так как они помогают понять контекст и семантику изображения. Описанная технология отвечает за визуальное сопоставление, а текстовые факторы – за семантическое ранжирование по ключевым словам.

Что такое ITQ (Iterative Quantization), упоминаемое в патенте?

ITQ – это метод, который находит оптимальное вращение данных перед их квантованием в бинарный код. Вращение помогает минимизировать ошибку квантования. В данном патенте ITQ используется специфически для минимизации угловой ошибки (Angle Error) при кодировании компонента Shape (направления).

В патенте есть разночтения в определении "Magnitude". Что это значит?

Это указывает на вариативность реализации, описанную в патенте. В основном описании Magnitude трактуется как норма (длина) вектора признаков (интенсивность). В Claims (Формуле изобретения) упоминаются альтернативные варианты для изображений, где Magnitude может означать позицию признака на изображении или атрибут пикселя. Это показывает гибкость метода.

Применим ли этот метод для поиска похожих текстов или видео?

Да, технология универсальна и применима к любым данным, представленным в виде векторов. Если текст или видео преобразованы в векторные эмбеддинги, метод Shape-Gain может быть использован для их сжатия и быстрого поиска похожих документов или видеофрагментов, аналогично тому, как он используется для изображений.

Как Google организует результаты поиска по картинкам в масштабируемый интерфейс с помощью кластеризации по сходству

Google использует систему для визуализации результатов поиска по картинкам. Изображения группируются на основе визуального и семантического сходства и размещаются в двумерной сетке. При уменьшении масштаба система показывает меньше изображений, выбирая одно репрезентативное для каждого кластера. При увеличении масштаба отображается больше детализированных результатов внутри кластера. Это позволяет пользователям эффективно просматривать большие наборы изображений.

US20150170333A1
2015-06-18

Мультимедиа
SERP
Семантика и интент

Как Google использует квантование векторов для ускорения и масштабирования поиска (особенно Neural Matching)

Google использует метод квантования векторов для ускорения поиска и снижения потребления памяти. Этот метод разбивает большие векторы (например, эмбеддинги страниц и запросов) на части (субпространства) и аппроксимирует их значения с помощью "кодовых книг". Это позволяет выполнять быстрый поиск максимального внутреннего произведения (MIPS), что критично для работы систем векторного поиска, таких как Neural Matching, в масштабах веба.

US10255323B1
2019-04-09

Индексация
Семантика и интент

Как Google оптимизирует скорость и точность векторного поиска (MIPS) с помощью локального ортогонального разложения (LOD)

Патент Google, описывающий инфраструктурный метод повышения точности семантического поиска (Maximum Inner Product Search). Система использует технику Local Orthogonal Decomposition (LOD) для более эффективного сжатия (квантования) векторных эмбеддингов. Это позволяет быстрее и точнее находить документы, семантически схожие с запросом пользователя, улучшая работу систем типа Neural Matching.

US11354287B2
2022-06-07

Семантика и интент
Индексация

Как Google оптимизирует поиск по картинкам, обучаясь, какие визуальные атрибуты наиболее важны для конкретного изображения

Google использует механизм для повышения эффективности и релевантности поиска похожих изображений. Система анализирует изображение-запрос и создает эталонный набор высококачественных результатов (используя ресурсоемкую кластеризацию). Затем она тестирует различные визуальные атрибуты (измерения), чтобы определить, какой из них лучше всего воспроизводит этот эталонный набор. Найденный ключевой атрибут сохраняется и используется для быстрого ранжирования в будущем, минуя дорогие вычисления.

US8949253B1
2015-02-03

Мультимедиа

Как Google использует "визуальные слова" и геометрические данные для эффективного поиска похожих изображений

Патент Google, описывающий инфраструктуру поиска по изображениям. Система разбивает изображения на "визуальные слова" (признаки) и использует инвертированный индекс (posting lists) для быстрого поиска совпадений. Ключевая особенность — хранение геометрических данных (положение признаков) прямо в индексе, что позволяет быстро рассчитывать визуальное сходство и проверять пространственное расположение элементов на лету.

US20150169740A1
2015-06-18

Индексация
Мультимедиа

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами

Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.

US8032820B1
2011-10-04

Ссылки
Индексация
Краулинг

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»

Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.

US9275147B2
2016-03-01

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта

Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.

US9195944B1
2015-11-24

Поведенческие сигналы
Индексация
SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP