Как Google использует несколько изображений в одном запросе для уточнения визуального поиска через общие атрибуты и проекции эмбеддингов

MULTI-IMAGE SEARCH (Мульти-изображенческий поиск)

US12271417B2
Google LLC
2023-04-24
2025-04-08

Google использует механизм поиска, принимающий на вход два или более изображения. Система анализирует их для выявления общих атрибутов (стиль, цвет, тип объекта) и генерирует векторные представления (эмбеддинги). Если изображения вводятся последовательно, система вычисляет «траекторию» интереса пользователя в векторном пространстве и проецирует поиск в этом направлении, чтобы найти результаты, соответствующие эволюционирующему визуальному интенту.

Какую проблему решает

Патент решает ограничения традиционного поиска по одному изображению, который часто чрезмерно фокусируется на точном совпадении, ограничивая обнаружение альтернатив. Одиночный визуальный поиск может также выдавать результаты по нерелевантным признакам (например, поиск по фото знаменитости может вернуть другие фото этой знаменитости, а не одежду, которую искал пользователь). Система устраняет неоднозначность визуального интента, позволяя пользователям уточнять поиск с помощью нескольких изображений, комбинировать визуальные концепции или указывать направление поиска.

Что запатентовано

Запатентована система поиска, которая обрабатывает запросы, состоящие из нескольких изображений (multi-image query). Система определяет намерение пользователя путем анализа комбинации входных изображений. Это достигается двумя основными методами: 1) определением общих атрибутов (shared attributes) между изображениями; 2) использованием моделей эмбеддингов (embedding models) для анализа взаимосвязей и траекторий поиска в векторном пространстве, особенно когда изображения предоставляются последовательно.

Как это работает

Система работает по нескольким сценариям:

Поиск по общим атрибутам: Система обрабатывает два или более изображения для выявления общих признаков (например, цвет, узор, стиль, тип объекта). Поиск фокусируется на нахождении результатов, соответствующих этим общим атрибутам.
Поиск на основе эмбеддингов: Каждое изображение преобразуется в векторное представление (эмбеддинг). Система может усреднять эти эмбеддинги для поиска «среднего» результата.
Проекция поиска (Search Projection): Если изображения вводятся последовательно (например, пользователь ищет по фото А, а затем уточняет поиск, выбрав результат Б), система анализирует время взаимодействия и вычисляет вектор изменения интереса от А к Б. Затем она генерирует третий эмбеддинг, который является продолжением этой траектории в векторном пространстве, предсказывая следующий шаг пользователя.
Ансамблевый и негативный поиск: Система может комбинировать признаки из разных изображений (ансамбль) или использовать одно изображение для исключения признаков (негативный поиск).

Актуальность для SEO

Высокая. Визуальный поиск (например, Google Lens) и мультимодальные запросы становятся ключевыми элементами взаимодействия пользователей с поисковыми системами, особенно в e-commerce и контент-дискавери. Описанные механизмы уточнения поиска через последовательные визуальные взаимодействия и комбинирование концепций напрямую отражают текущие тренды развития поисковых технологий на основе ИИ и векторного поиска.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO, особенно в нишах, зависящих от визуальной составляющей (e-commerce, мода, дизайн, недвижимость). Он показывает, как Google может интерпретировать сложные визуальные интенты. Для SEO это подчеркивает критическую важность качества, разнообразия и четкости атрибутов изображений на сайте, а также необходимость оптимизации под векторный поиск, чтобы продукты и контент корректно располагались в пространстве эмбеддингов и могли быть найдены через сложные мульти-изображенческие запросы.

Термины и определения

Multi-image query (Мульти-изображенческий запрос): Поисковый запрос, включающий два или более изображения в качестве входных данных.
Shared attributes (Общие атрибуты): Признаки, которые присутствуют в двух или более входных изображениях. Могут включать текстовые метки, метаданные, визуальные признаки (цвет, текстура, узор), классификации объектов или изображений, а также ассоциации с общими сущностями (entities).
Embedding model (Модель эмбеддингов): Машинно-обученная модель, обученная обрабатывать изображения (или другие данные) и генерировать векторные представления (эмбеддинги), описывающие признаки этого изображения.
Embedding space (Пространство эмбеддингов): Векторное пространство, в котором располагаются эмбеддинги. Модель обучается так, чтобы похожие изображения располагались близко друг к другу в этом пространстве.
First/Second/Third Embedding (Первый/Второй/Третий Эмбеддинг): Векторные представления входных изображений (Первый и Второй) и вычисленное представление (Третий), используемое для поиска. Третий эмбеддинг может быть средним значением или проекцией.
Embedding average (Усредненный эмбеддинг): Эмбеддинг, вычисленный как среднее (в том числе взвешенное) значение двух или более входных эмбеддингов. Используется для поиска результатов, находящихся «между» входными изображениями.
Projection prediction / Projection embedding (Прогнозирование проекции / Проекционный эмбеддинг): Механизм определения третьего эмбеддинга на основе тренда (траектории) изменения от первого эмбеддинга ко второму, особенно когда они вводятся последовательно. Используется для предсказания эволюции интента пользователя.
User interaction time (Время взаимодействия пользователя): Временная метка, связанная с вводом или выбором изображения пользователем. Используется для определения последовательности ввода и активации механизма проекции.
Ensemble search (Ансамблевый поиск): Поиск комбинации деталей из разных изображений (например, объект из первого изображения с узором из второго).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему мульти-изображенческого поиска, комбинирующую анализ атрибутов и временную проекцию эмбеддингов.

Система получает запрос с Первым и Вторым изображением.
Определяются общие атрибуты (shared attributes) между ними.
Первое и Второе изображения обрабатываются моделью эмбеддингов для генерации Первого и Второго Эмбеддингов.
Система определяет Третий Эмбеддинг. Ключевое условие: он вычисляется на основе Первого и Второго Эмбеддингов И на основе определения того, что время взаимодействия (user interaction time) с Первым изображением предшествовало времени взаимодействия со Вторым.
Результаты поиска определяются на основе как общих атрибутов, так и Третьего Эмбеддинга.

Ядро изобретения в Claim 1 заключается в использовании последовательности взаимодействия пользователя (временных данных) для вычисления Третьего Эмбеддинга, что подразумевает анализ направления или эволюции поискового намерения.

Claim 11 (Независимый пункт, Метод): Детализирует метод поиска на основе эмбеддингов с фокусом на временной последовательности.

Получение Первого и Второго изображений и генерация их Эмбеддингов.
Получение временных данных о взаимодействии пользователя с каждым изображением (T1 и T2).
Определение, что T1 предшествует T2.
Вычисление Третьего Эмбеддинга на основе Эмбеддингов 1 и 2 и факта, что T1 < T2.
Определение результатов поиска путем нахождения эмбеддингов результатов, ассоциированных с Третьим Эмбеддингом.

Claim 12 (Зависимый от 11): Уточняет, как именно вычисляется Третий Эмбеддинг при последовательном вводе.

Третий Эмбеддинг определяется на основе вычисленной проекции (determined projection) от Первого Эмбеддинга ко Второму. Третий Эмбеддинг является продолжением (continuation) этой проекции. Это математическое описание того, как система предсказывает следующий шаг пользователя в векторном пространстве, следуя тренду, заданному переходом от первого изображения ко второму.

Claim 16 (Независимый пункт): Описывает процесс уточнения поиска (Search Refinement) с использованием механизма проекции.

Получение первого запроса (Изображение 1) и генерация первого набора результатов.
Получение выбора пользователем конкретного результата из этого набора (Изображение 2).
Генерация Эмбеддингов 1 и 2.
Вычисление Третьего Эмбеддинга на основе Эмбеддингов 1 и 2 И того факта, что время первого запроса предшествовало времени выбора результата.
Определение второго (уточненного) набора результатов на основе Третьего Эмбеддинга.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, в основном фокусируясь на интерпретации сложных визуальных запросов и ранжировании.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна предварительно обработать контент (изображения) для извлечения признаков, которые используются в патенте:

Извлечение атрибутов: Идентификация визуальных признаков, классификация объектов, извлечение связанных текстовых меток и метаданных.
Генерация эмбеддингов: Обработка изображений с помощью Embedding model для создания векторных представлений и их сохранение в индексе (вероятно, векторном индексе для быстрого поиска ближайших соседей).

QUNDERSTANDING – Понимание Запросов
Это ключевой этап применения патента. Система интерпретирует мульти-изображенческий ввод для определения истинного намерения пользователя.

Анализ ввода: Определение, являются ли входные данные мульти-изображенческим запросом.
Определение сценария: Анализ контекста (например, временных меток взаимодействий) для выбора стратегии обработки: поиск по общим атрибутам, усреднение эмбеддингов или проекция поиска.
Вычисление интента: Определение shared attributes и/или вычисление Third Embedding (усредненного или проекционного). Это формирует внутреннее представление запроса.

RANKING – Ранжирование
На этапе ранжирования (вероятно, L1 Retrieval или L2) система использует вычисленное представление запроса для поиска кандидатов.

Векторный поиск: Использование Третьего Эмбеддинга для выполнения поиска ближайших соседей (k-nearest neighbors) в векторном индексе.
Поиск по атрибутам: Фильтрация или ранжирование кандидатов на основе соответствия shared attributes.

Входные данные:

Два или более изображения (First Image Data, Second Image Data).
Временные данные о взаимодействии пользователя с этими изображениями (User interaction time).
Дополнительный контекст (опционально): текст, данные о выборе области на изображении.

Выходные данные:

Набор поисковых результатов (Search Result(s)), релевантных комбинации входных изображений.
(Внутренне) Вычисленные общие атрибуты и/или Третий Эмбеддинг.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на E-commerce (одежда, мебель, товары для дома), дизайн, искусство и любые другие ниши, где визуальные характеристики являются определяющими. Патент позволяет искать сложные визуальные концепции, стили и эстетику.
Специфические запросы: Влияет на уточняющие запросы (refinement queries), запросы на поиск вдохновения (inspirational queries) и запросы, направленные на комбинирование характеристик («хочу такой же диван, но с этим узором»).

Когда применяется

Алгоритмы применяются при следующих условиях:

Триггер активации: Пользователь предоставляет два или более изображения в рамках одного поискового сеанса или запроса. Это может быть одновременная загрузка, последовательный выбор (уточнение поиска) или выбор из коллекции пользователя.
Условия для проекции: Механизм Projection prediction активируется, когда система обнаруживает последовательное взаимодействие (время T1 раньше времени T2), что указывает на эволюцию интента.
Условия для усреднения: Механизм Embedding average может применяться, когда изображения вводятся одновременно или когда не требуется предсказание следующего шага, а нужно найти компромиссный вариант.

Пошаговый алгоритм

Описаны два основных варианта работы системы.

Вариант А: Поиск по общим атрибутам (Claim 1)

Получение ввода: Система получает мульти-изображенческий запрос (Изображение 1 и Изображение 2).
Определение атрибутов: Изображения обрабатываются (возможно, с помощью ML-моделей) для извлечения атрибутов (метки, классификации, визуальные признаки).
Сравнение и выявление общих черт: Система сравнивает наборы атрибутов и определяет shared attributes.
Формулирование запроса: Внутренний поисковый запрос фокусируется на этих общих атрибутах.
Выполнение поиска и предоставление результатов: Поиск результатов, соответствующих общим атрибутам.

Вариант Б: Поиск с проекцией эмбеддингов (Claims 1, 11, 12, 16)

Получение ввода и временных данных: Система получает Изображение 1 (и время взаимодействия T1) и Изображение 2 (и время взаимодействия T2). Это может быть последовательный ввод или уточнение поиска.
Проверка условий проекции: Система определяет, что T1 предшествует T2.
Генерация эмбеддингов: Изображения 1 и 2 обрабатываются Embedding model для генерации Эмбеддинга 1 (E1) и Эмбеддинга 2 (E2).
Вычисление траектории: Система определяет вектор изменения (проекцию) в пространстве эмбеддингов от E1 к E2. Это отражает направление интереса пользователя.
Генерация Третьего Эмбеддинга (E3): Система вычисляет E3 как продолжение этой проекции от E2. (Например, E3 = E2 + (E2 - E1)).
Выполнение поиска: Система выполняет поиск (например, k-nearest neighbors) в векторном индексе, используя E3 в качестве точки запроса.
Предоставление результатов: Возвращаются результаты, чьи эмбеддинги наиболее близки к E3.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке визуальных данных и контекста взаимодействия.

Контентные факторы (Визуальные): Пиксельные данные входных изображений. Они являются основным источником для извлечения визуальных признаков, атрибутов и генерации эмбеддингов.
Временные факторы (Контекст взаимодействия): User interaction time. Время ввода или выбора каждого изображения критически важно для определения последовательности и активации механизма проекции поиска.
Метаданные (Опционально): Система может использовать метаданные изображений или текст с веб-ресурсов, откуда были взяты изображения, для определения shared attributes (например, текстовых меток).
Пользовательские факторы (Опционально): Пользователь может предоставлять дополнительные входные данные, такие как выделение области (кроппинг) на изображении или текстовые уточнения, которые используются для фокусировки анализа атрибутов или генерации эмбеддингов.

Какие метрики используются и как они считаются

Эмбеддинги (Embeddings): Векторные представления изображений, генерируемые с помощью Embedding model.
Сходство/Расстояние в пространстве эмбеддингов: Метрики расстояния (например, косинусное расстояние, Евклидово расстояние) используются для определения близости между эмбеддингами запроса (E1, E2 или E3) и эмбеддингами результатов. Используется в поиске ближайших соседей (k-NN).
Вектор проекции (Projection vector): Разница между последовательными эмбеддингами (например, E2 - E1), используемая для определения направления поиска.
Веса для усреднения (Weights): При вычислении взвешенного среднего эмбеддинга используются веса, которые могут базироваться на контекстных данных (время, качество изображения, порядок ввода, явный ввод пользователя).
Совпадение атрибутов (Attribute matching): Метрика для определения наличия общих визуальных признаков, классификаций или меток между изображениями.

Визуальный интент как траектория: Ключевая инновация патента — интерпретация последовательных визуальных взаимодействий как траектории в векторном пространстве. Google не просто ищет совпадения, а пытается понять направление, в котором развивается интерес пользователя (Projection prediction), и предсказать следующий шаг.
Время как фактор ранжирования: Время взаимодействия пользователя (User interaction time) используется не просто для логирования, а как прямой сигнал для выбора алгоритма обработки запроса (усреднение vs. проекция). Последовательность ввода определяет интерпретацию интента.
Многогранность общих атрибутов: Shared attributes могут быть как явными (одинаковая классификация объекта), так и абстрактными (общий стиль, эстетика, узор). Система стремится выявить ключевую точку интереса пользователя на основе того, что общего у выбранных изображений.
Векторный поиск как основа: Патент подтверждает центральную роль векторного поиска и моделей эмбеддингов в современных системах визуального поиска. Ранжирование основано на близости в Embedding space.
Гибкость интерпретации: Система поддерживает различные сценарии использования: уточнение поиска, комбинирование признаков (Ensemble search) и исключение признаков (Negative search), что делает визуальный поиск гораздо более мощным инструментом.

Best practices (это мы делаем)

Обеспечение четкости визуальных атрибутов: Изображения товаров и контента должны четко демонстрировать ключевые атрибуты (цвет, материал, узор, форма). Это помогает моделям эмбеддингов корректно позиционировать контент в векторном пространстве и упрощает определение shared attributes.
Предоставление разнообразных изображений для одного продукта: Разные ракурсы, крупные планы деталей и фото в контексте использования помогают системе лучше понять продукт. Это увеличивает вероятность того, что ваш продукт будет найден при различных сценариях мульти-изображенческого поиска (например, при поиске по объекту или по детали).
Оптимизация метаданных и окружающего текста: Хотя поиск визуальный, патент упоминает, что текстовые метки и метаданные могут использоваться для определения shared attributes. Убедитесь, что ALT-тексты, заголовки и описания точно соответствуют визуальному контенту.
Создание визуально связанного контента (Коллекции): Группировка товаров в коллекции или создание контента, демонстрирующего сочетания продуктов (например, «с этим товаром покупают», lookbooks), помогает пользователям находить связанные товары и может способствовать тому, что ваши товары будут участвовать в сессиях уточнения поиска (Search Refinement).

Worst practices (это делать не надо)

Использование стоковых или шаблонных изображений: Уникальный визуальный контент лучше позиционируется в пространстве эмбеддингов. Шаблонные изображения могут сливаться или некорректно кластеризоваться.
Изображения с визуальным шумом или водяными знаками: Элементы, перекрывающие основной объект или усложняющие его восприятие, могут негативно повлиять на генерацию эмбеддинга и определение атрибутов.
Игнорирование качества и разрешения изображений: Низкое качество затрудняет извлечение тонких визуальных признаков (например, текстуры материала), что снижает эффективность работы Embedding model.
Несоответствие изображений и текстовых описаний: Если визуальные и текстовые данные противоречат друг другу, это может привести к некорректной интерпретации атрибутов системой.

Стратегическое значение

Патент подтверждает переход Google к более интуитивным и сложным методам поиска, выходящим за рамки ключевых слов и простых изображений. Стратегическое значение заключается в понимании того, что оптимизация теперь включает в себя управление тем, как ваш контент представлен в векторном пространстве. Для E-commerce SEO это означает, что необходимо думать не только о том, как пользователь найдет конкретный товар, но и о том, как он может прийти к нему через цепочку визуальных уточнений или комбинирование визуальных концепций. Построение сильного визуального бренда и обеспечение согласованности визуальных атрибутов становится фактором ранжирования.

Практические примеры

Сценарий 1: Уточнение поиска через проекцию (Search Refinement & Projection)

Действие пользователя: Пользователь ищет по фотографии минималистичного деревянного стула (Изображение 1, Время T1).
Результаты: Система выдает похожие стулья.
Уточнение: Пользователь выбирает из результатов стул, у которого более темный оттенок дерева и чуть более изогнутые ножки (Изображение 2, Время T2).
Анализ системы: Система фиксирует T1<T2. Она вычисляет вектор изменения от Эмбеддинга 1 к Эмбеддингу 2 (тренд: темнее дерево, более изогнутые формы).
Проекция: Система генерирует Третий Эмбеддинг, продолжая этот тренд.
Результат: Пользователь получает выдачу стульев, которые еще темнее и имеют еще более выраженные изгибы, предсказывая его следующий шаг.

Сценарий 2: Поиск по общим атрибутам (Shared Attributes)

Действие пользователя: Пользователь загружает одновременно фото красного платья в горошек и фото красных туфель на высоком каблуке.
Анализ системы: Система анализирует оба изображения и определяет shared attributes: Цвет (Красный), Стиль (Ретро/Элегантный).
Результат: Система выдает результаты, соответствующие обоим атрибутам – это могут быть другие красные платья и туфли в похожем стиле, или изображения готовых образов (lookbooks), сочетающих эти элементы.

Что такое «Проекция поиска» (Projection prediction) в контексте этого патента?

Это механизм, который активируется, когда пользователь вводит изображения последовательно. Система интерпретирует переход от первого изображения ко второму как направление или тренд в векторном пространстве. Вместо того чтобы искать похожие на второе изображение, система вычисляет вектор изменения и «продолжает» движение в этом направлении, генерируя Третий Эмбеддинг. Это позволяет предсказать, что пользователь захочет увидеть дальше по мере уточнения своего визуального интента.

Как система определяет «Общие атрибуты» (Shared Attributes) между разными изображениями?

Патент описывает несколько методов. Это может включать обработку изображений с помощью ML-моделей для выявления совпадающих визуальных признаков (цвета, текстуры, узоры) или классификаций объектов. Также могут использоваться текстовые метки, полученные из метаданных изображений или с веб-страниц, на которых они размещены. Цель — найти то общее, что связывает выбранные пользователем изображения.

В чем разница между усреднением эмбеддингов и проекцией эмбеддингов?

Усреднение (Embedding average) используется для нахождения компромиссного результата, который находится «между» входными изображениями в векторном пространстве. Это полезно, когда нужно найти нечто среднее. Проекция (Projection embedding) используется, когда нужно следовать тренду или направлению, заданному последовательным вводом изображений. Проекция пытается предсказать следующий шаг пользователя, а не найти среднее значение.

Какую роль играет время взаимодействия пользователя (User interaction time)?

Время взаимодействия является критически важным сигналом для выбора стратегии обработки запроса. Если система видит, что Изображение 1 было введено раньше Изображения 2 (T1 < T2), это служит триггером для активации механизма Проекции поиска. Это позволяет системе понять, что пользователь уточняет свой запрос, а не просто вводит несколько разных изображений одновременно.

Как этот патент влияет на SEO для E-commerce сайтов?

Влияние значительно. Это подчеркивает необходимость иметь высококачественные, разнообразные и четкие изображения товаров. Чтобы товары хорошо ранжировались в таком типе поиска, они должны корректно представляться в пространстве эмбеддингов и обладать четкими визуальными атрибутами. Оптимизация под визуальный поиск становится ключевым элементом стратегии, особенно для товаров, выбираемых по стилю, цвету или дизайну.

Может ли эта система использоваться для комбинирования признаков из разных изображений?

Да, патент упоминает Ensemble search (Ансамблевый поиск). Это сценарий, когда пользователь хочет найти комбинацию деталей из разных изображений. Например, пользователь может выбрать первое изображение из-за объекта (например, форма дивана), а второе изображение из-за визуального признака (например, узор обивки), и система попытается найти диван такой формы с таким узором.

Как SEO-специалист может оптимизировать изображения, чтобы они лучше работали с этой системой?

Необходимо сосредоточиться на качестве и четкости. Используйте высокое разрешение, обеспечьте хорошее освещение, показывайте товар с разных ракурсов и делайте крупные планы важных деталей (текстура, фурнитура). Также важно следить за тем, чтобы окружающий текст и метаданные точно описывали визуальные атрибуты, так как они могут использоваться системой для подтверждения визуальных признаков.

Означает ли этот патент, что Google использует векторный поиск для всех изображений?

Патент демонстрирует, что векторный поиск (поиск на основе эмбеддингов) является ключевой технологией для реализации мульти-изображенческого поиска и сложных визуальных запросов. Хотя традиционные методы поиска по изображениям все еще могут использоваться, этот патент подтверждает стратегическую важность и активное применение моделей эмбеддингов и векторных индексов в инфраструктуре визуального поиска Google.

Может ли эта система использоваться для исключения признаков (Негативный поиск)?

Да, патент упоминает такую возможность. Пользователь может выбрать изображение и указать, что он хочет исключить результаты с определенными деталями, присутствующими на этом изображении. Система может использовать эмбеддинг этого изображения для фильтрации или понижения в ранжировании результатов, которые находятся слишком близко к нему в векторном пространстве.

Где на практике можно увидеть работу этого патента?

Наиболее вероятные места применения — это Google Lens, функции визуального поиска в Google Покупках (Shopping) и в основном Поиске по картинкам. Например, функции уточнения поиска в Lens, когда пользователь выбирает объект на фото, а затем выбирает один из результатов для дальнейшего поиска, могут использовать механизмы проекции, описанные в этом патенте.

Как Google использует единый Image Embedding для параллельного поиска по разным вертикалям (Web, Shopping, Local) при визуальном запросе

Google патентует механизм для улучшения визуального поиска (например, Google Lens). Система генерирует единое векторное представление (Image Embedding) для изображения-запроса и использует его для одновременного поиска визуально похожих результатов в нескольких разных базах данных (например, в общем веб-индексе и специализированном индексе товаров или локаций). Контекст пользователя (местоположение, история) помогает системе выбрать, какие специализированные базы активировать для поиска.

US20240311421A1
2024-09-19

Мультимедиа
Индексация
Семантика и интент

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)

Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.

US8429173B1
2013-04-23

Семантика и интент
Мультимедиа
SERP

Как Google использует мультимодальный поиск (текст + изображение) для уточнения запросов и фильтрации видеоконтента

Google использует механизм мультимодального поиска, позволяющий пользователям дополнять текстовые запросы визуальным вводом (например, фотографией). Система анализирует изображение с помощью моделей машинного обучения для распознавания объектов и генерации семантической информации. Эта информация используется либо для создания уточненного составного запроса (composite query), либо для фильтрации исходных результатов поиска путем сопоставления метаданных изображения с метаданными проиндексированного видеоконтента.

US20210064652A1
2021-03-04

Мультимедиа
Индексация
Семантика и интент

Как Google использует мультимодальный поиск (изображение + голос) для более точного понимания запросов и ранжирования результатов

Google использует механизм мультимодального поиска, обрабатывая запросы, которые одновременно содержат изображение (например, фото) и аудио (например, голосовое описание или уточнение). Система анализирует визуальные признаки и конвертирует речь в текст, используя совместную модель релевантности для поиска ресурсов (таких как товары или веб-страницы), которые соответствуют обоим типам входных данных.

US8788434B2
2014-07-22

Мультимедиа
Семантика и интент
SERP

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками

Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.

US8375025B1
2013-02-12

Мультиязычность
Поведенческие сигналы
Персонализация

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO