Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)

METHOD, SYSTEM, AND COMPUTER READABLE MEDIUM FOR IDENTIFYING RESULT IMAGES BASED ON AN IMAGE QUERY (Метод, система и машиночитаемый носитель для идентификации результирующих изображений на основе изображения-запроса)

US8429173B1
Google LLC
2010-04-20
2013-04-23

Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.

Какую проблему решает

Патент решает две ключевые проблемы в поиске изображений. Во-первых, традиционный поиск по тексту может возвращать нерелевантные изображения, если связанный с ними текст (например, на веб-странице) неточно описывает контент картинки. Во-вторых, поиск на основе только визуального сходства (Query by Image) часто возвращает изображения, которые выглядят похоже, но семантически не связаны с тем, что интересует пользователя.

Что запатентовано

Запатентована система и метод для идентификации и ранжирования изображений в ответ на изображение-запрос (Query Image). Суть изобретения заключается в комбинации семантического анализа (используя текстовые метки Labels) и визуального анализа (используя Visual Similarity Scores). Система использует модель визуального сходства (Image Similarity Model), обученную на основе человеческих оценок (Similarity Feedback), и применяет несколько уровней постобработки и фильтрации (Ranking Refinement Rules) для обеспечения релевантности и однородности результатов.

Как это работает

Система работает в несколько этапов:

Генерация меток: Для изображения-запроса определяются высокоточные метки (High Confidence Labels). Это делается путем анализа меток, связанных с визуально похожими изображениями, найденными в интернете.
Поиск кандидатов: Эти высокоточные метки используются как текстовые запросы для поиска семантически связанных изображений-кандидатов.
Оценка визуального сходства: Для каждого кандидата рассчитывается Visual Similarity Score относительно изображения-запроса с помощью модели, обученной на человеческих оценках. Оценка может быть повышена (boosted), если обнаружены общие отличительные признаки (Common Distinct Set of Image Feature Values).
Ранжирование и фильтрация: Кандидаты ранжируются по Relevance Scores (основанным на визуальном сходстве). Затем применяются правила фильтрации: удаляются изображения, не обладающие доминирующей характеристикой (Dominant Characteristic), или те, что не удовлетворяют условиям визуальной близости к другим результатам (Similarity Conditions).

Актуальность для SEO

Высокая. Описанные механизмы лежат в основе современных систем обратного поиска по изображению (Reverse Image Search), таких как Google Lens и Search by Image. Комбинация визуальных и семантических сигналов, а также использование машинного обучения, тренированного на человеческих оценках для понимания визуального сходства, являются стандартом в этой области.

Важность для SEO

Патент имеет высокое значение для Image SEO. Он раскрывает, как Google определяет семантическое значение изображения (метки) и как оценивает визуальное сходство. Ключевой вывод: для успешного ранжирования в поиске по картинкам необходимо обеспечить, чтобы текст, окружающий изображение на вашем сайте, соответствовал консенсусу меток, которые Google находит на визуально похожих изображениях по всему интернету. Также важна визуальная четкость и наличие узнаваемых объектов.

Термины и определения

Candidate Image (Изображение-кандидат): Изображение, отобранное для оценки его релевантности изображению-запросу, обычно на основе совпадения семантических меток.
Common Distinct Set of Image Feature Values (Общий набор отличительных значений признаков изображения): Набор значений признаков (например, SIFT), указывающий на наличие одного и того же отличительного объекта (например, конкретного продукта или достопримечательности) в двух изображениях.
Dominant Image Characteristic (Доминирующая характеристика изображения): Характеристика (например, цветность, наличие лица), присутствующая в пороговом количестве изображений в наборе результатов. Используется для фильтрации и обеспечения однородности выдачи.
Feature Distance (Расстояние между признаками): Мера визуального различия между соответствующими значениями признаков (Image Feature Scores) двух изображений.
High Confidence Labels (Высокоточные метки): Текстовые метки, с высокой вероятностью описывающие содержание изображения. Генерируются путем анализа меток, связанных с визуально похожими изображениями.
Image Feature Scores (Значения признаков изображения): Числовые значения, представляющие визуальные характеристики изображения или его части (цвет, текстура, края, SIFT, и т.д.).
Image Similarity Model (Модель визуального сходства): Модель (например, вектор весов признаков), используемая для расчета Visual Similarity Score. Обучается на основе Similarity Feedback Data.
Initial Labels / Low Confidence Labels (Исходные / Низкоточные метки): Метки, изначально связанные с изображением (например, из метаданных, окружающего текста, anchor-текста). Используются как отправная точка для генерации High Confidence Labels.
Query Image (Изображение-запрос): Изображение, используемое в качестве входных данных для поиска похожих или связанных картинок.
Ranking Refinement Rules (Правила уточнения ранжирования): Правила постобработки (например, Dominant Characteristic, Nearest Neighbor Condition), используемые для фильтрации и повышения качества финального набора результатов.
Relevance Score (Оценка релевантности): Итоговая оценка, используемая для ранжирования изображений-кандидатов. Основана на Visual Similarity Score и, возможно, других сигналах (например, Relevance Feedback).
Similarity Feedback Data (Данные обратной связи о сходстве): Пользовательские оценки, указывающие, какое из двух тренировочных изображений более похоже на эталонное. Используются для обучения Image Similarity Model.
Visual Similarity Score (Оценка визуального сходства): Числовая мера, показывающая, насколько визуально похожи два изображения. Рассчитывается на основе Image Feature Scores с помощью Image Similarity Model.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс поиска по изображению-запросу с использованием обученной модели и фильтрации.

Система получает метки (query labels) для изображения-запроса.
Отбираются изображения-кандидаты, соответствующие этим меткам.
Генерируются Visual Similarity Scores для кандидатов. Ключевой момент: модель сходства обучается на основе пользовательских оценок (user similarity feedback) — когда пользователи указывают, какое из двух изображений более похоже на эталонное — и расстояний между признаками (feature distances).
Генерируются Relevance Scores на основе визуального сходства.
Формируется ранжирование и выбирается лучший набор.
Применяется фильтрация (Refinement): Проверяется, имеет ли кандидат пороговое число общих "ближайших соседей" (nearest neighbors — наиболее визуально похожих изображений) с изображением-запросом.
Если нет, кандидат исключается из результатов.

Защищается система "Query by Image", которая использует семантические сигналы (метки) для первичного отбора и модель визуального сходства, обученную на человеческих оценках, для ранжирования. Также защищен механизм фильтрации по общим ближайшим соседям для обеспечения визуальной консистентности выдачи.

Claim 7 (Зависимый): Детализирует механизм повышения оценки (Boosting).

Система определяет, содержат ли изображение-кандидат и изображение-запрос общий набор отличительных значений признаков (common distinct set of image feature values), указывающий на наличие одного и того же объекта.
Если да, Visual Similarity Score кандидата усиливается (умножается на boost factor).

Система способна распознавать идентичные объекты (например, конкретные товары или достопримечательности) и агрессивно повышать такие результаты в выдаче.

Claim 8 (Зависимый): Детализирует механизм фильтрации по доминирующей характеристике.

Определяется доминирующая характеристика (dominant characteristic), присутствующая в изображении-запросе и пороговом числе топовых кандидатов (например, "черно-белое изображение").
Проверяется, обладает ли конкретный кандидат этой характеристикой.
Если нет, кандидат удаляется из набора результатов.

Это механизм для обеспечения однородности выдачи. Если запрос и большинство результатов черно-белые, цветное изображение может быть удалено, даже если оно похоже по содержанию.

Где и как применяется

Патент описывает работу вертикального поиска по изображениям (Image Search Vertical).

INDEXING – Индексирование и извлечение признаков
На этом этапе система вычисляет и сохраняет Image Feature Scores (цвет, текстура, SIFT и т.д.) для индексируемых изображений. Также извлекаются исходные метки (Initial Labels) из окружающего текста, метаданных и anchor-текстов.

RANKING (L1 Retrieval) – Ранжирование (Отбор кандидатов)
Процесс начинается с получения или генерации High Confidence Labels для Query Image. Эти метки используются как текстовые запросы для быстрого отбора семантически релевантных кандидатов из индекса изображений.

RANKING (L2/L3 Scoring) – Ранжирование (Оценка)
На этом этапе система использует Image Similarity Model (обученную офлайн на Similarity Feedback Data) для расчета Visual Similarity Scores отобранных кандидатов относительно Query Image. Применяется механизм Boosting, если обнаружены Common Distinct Set of Image Feature Values. Рассчитываются финальные Relevance Scores.

RERANKING – Переранжирование
Финальный этап, на котором применяются Ranking Refinement Rules для улучшения качества и однородности выдачи. Сюда входят фильтрация по Dominant Characteristic и проверка условий сходства (Similarity Conditions), таких как Nearest Neighbor Condition (Claim 1) или Co-distance Condition.

Входные данные:

Изображение-запрос (Query Image).
Индекс изображений с предварительно вычисленными Image Feature Scores и Labels.
Обученная Image Similarity Model.

Выходные данные:

Набор ранжированных и отфильтрованных изображений-результатов (Result Images).
High Confidence Labels для изображения-запроса.

На что влияет

Типы контента: Влияет на все типы изображений, индексируемых Google. Особенно сильно влияет на изображения с четко различимыми объектами (товары, логотипы, достопримечательности), где может сработать механизм Boosting (Claim 7).
Форматы контента: Влияет на то, как система интерпретирует семантику изображений, используемых в статьях, карточках товаров и т.д.

Когда применяется

Триггеры активации: Активируется при выполнении поиска по изображению (Reverse Image Search / Search by Image).
Временные рамки: Обучение модели и генерация меток могут происходить офлайн (препроцессинг). Ранжирование и фильтрация происходят в реальном времени в ответ на запрос.

Пошаговый алгоритм

Процесс А: Обработка запроса (Ранжирование)

Получение меток запроса: Система получает или генерирует High Confidence Labels для Query Image (см. Процесс Б).
Отбор кандидатов: Метки используются как текстовые запросы для поиска Candidate Images.
Расчет визуального сходства: Для каждого кандидата извлекаются Image Feature Scores и с помощью Image Similarity Model рассчитывается Visual Similarity Score.
Применение Boosting: Проверяется наличие Common Distinct Set of Image Feature Values. Если найден, оценка визуального сходства усиливается.
Расчет релевантности: Генерируются Relevance Scores (на основе визуального сходства и, возможно, других сигналов).
Первичное ранжирование: Кандидаты сортируются по Relevance Scores.
Фильтрация (Refinement Rule 1 - Dominant Characteristic): Определяется доминирующая характеристика топа выдачи. Изображения без этой характеристики удаляются.
Фильтрация (Refinement Rule 2 - Similarity Condition): Проверяется выполнение условий сходства (например, Nearest Neighbor Condition или Co-distance Condition). Изображения, не удовлетворяющие условиям (аутлаеры), удаляются.
Финальная выдача: Отобранный и отранжированный набор Result Images предоставляется пользователю.

Процесс Б: Генерация High Confidence Labels (Может выполняться офлайн или онлайн)

Получение исходных меток: Для изображения извлекаются Initial Labels (из метаданных, окружающего текста, данных о похожих изображениях).
Поиск по исходным меткам: Исходные метки используются как запросы для поиска изображений.
Оценка визуального сходства: Рассчитывается Visual Similarity Score найденных изображений относительно исходного.
Визуальная фильтрация: Отбираются изображения, превышающие порог визуального сходства.
Извлечение кандидатов в метки: Собираются все метки, связанные с этими визуально похожими изображениями.
Оценка меток: Для каждой метки-кандидата рассчитывается Relevance Score (учитывая авторитетность источников, Relevance Feedback, визуальное сходство источника метки).
Выбор меток: Метки с наивысшими оценками выбираются как High Confidence Labels.

Процесс В: Обучение Image Similarity Model (Офлайн)

Сбор данных: Пользователям предоставляются триплеты изображений (Эталон, Изображение А, Изображение Б).
Получение обратной связи: Собираются данные (Similarity Feedback Data) о том, какое изображение (А или Б) пользователи считают более похожим на эталон.
Извлечение признаков: Для всех изображений в обучающем наборе извлекаются Image Feature Scores.
Расчет расстояний: Вычисляются Feature Distances между тренировочными изображениями и эталоном.
Обучение модели: Модель (вектор весов) итеративно корректируется на основе обратной связи и расстояний, чтобы научиться определять визуальное сходство так, как его воспринимают люди.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст, расположенный рядом с изображением, метаданные изображения (например, alt-атрибуты, хотя в патенте явно не указаны, но подразумеваются как metadata), заголовок веб-страницы. Используются для генерации Initial Labels.
Ссылочные факторы: Anchor-текст ссылок, указывающих на изображение. Используется для генерации Initial Labels.
Поведенческие факторы:
- Relevance Feedback (например, CTR изображений в поиске). Используется при расчете Relevance Scores для меток и, возможно, для финального ранжирования изображений.
- Similarity Feedback Data (человеческие оценки сходства триплетов). Критически важны для обучения Image Similarity Model.
Мультимедиа факторы (Визуальные признаки): Image Feature Scores. Включают цвет (color histograms), текстуру, края (edges), SIFT (scale-invariant feature transform), geometric blur. Вычисляются на разных масштабах (image scales).

Какие метрики используются и как они считаются

Visual Similarity Score: Рассчитывается как функция от Feature Distances между двумя изображениями с использованием Image Similarity Model (например, скалярное произведение вектора расстояний и вектора весов модели).
Boost Factor: Множитель, применяемый к Visual Similarity Score, если обнаружен Common Distinct Set of Image Feature Values.
Relevance Score (для изображений): Финальная оценка для ранжирования. Основана на Visual Similarity Score, может включать другие сигналы.
Relevance Score (для меток): Оценка для выбора High Confidence Labels. Учитывает количество и авторитетность веб-страниц, использующих метку, Relevance Feedback, и Visual Similarity Score изображения, с которым связана метка.
Confidence Measure (для меток): Метрика для выбора Initial Labels. Может основываться на авторитетности источника, количестве похожих изображений с такой же меткой, количестве различных кластеров изображений с этой меткой.

Синергия семантики и визуального анализа: Google не полагается только на визуальное сходство или только на текст. Система использует семантические метки (Labels) для первичного отбора кандидатов, а визуальное сходство (Visual Similarity Score) — для основного ранжирования.
Важность консенсуса для определения меток: Механизм генерации High Confidence Labels показывает, что Google определяет семантику изображения, анализируя, как это изображение (и визуально похожие на него) описывается на разных сайтах в интернете. Текст на одной конкретной странице может быть переопределен глобальным консенсусом.
Визуальное сходство основано на человеческом восприятии: Image Similarity Model обучается на прямых пользовательских оценках (Similarity Feedback). Это значит, что система стремится имитировать человеческое восприятие сходства.
Агрессивное повышение за идентичные объекты: Если система распознает идентичный объект (Common Distinct Set), она применяет Boost Factor. Это дает преимущество изображениям с четкими, узнаваемыми объектами (товары, логотипы).
Фильтрация для однородности выдачи: Система активно удаляет "аутлаеры" (выбросы) с помощью Ranking Refinement Rules. Изображение должно не только быть похожим на запрос, но и вписываться в общий набор результатов (по Dominant Characteristic и Similarity Conditions).

Best practices (это мы делаем)

Обеспечение семантического контекста, соответствующего визуальному контенту: Убедитесь, что текст вокруг изображения (заголовки, подписи, основной контент, alt-текст) точно описывает то, что изображено. Этот текст должен соответствовать тому, как этот объект обычно описывается в интернете, чтобы Google мог корректно сформировать High Confidence Labels.
Использование четких и высококачественных изображений: Поскольку система ищет Common Distinct Set of Image Feature Values для применения Boosting, использование четких изображений с хорошо различимыми объектами повышает шансы на высокое ранжирование при поиске по этому объекту.
Анализ меток через Reverse Image Search: Используйте инструменты обратного поиска по изображению (например, Google Lens или Search by Image), чтобы понять, какие метки Google ассоциирует с вашими изображениями или похожими изображениями конкурентов. Если метки нерелевантны, необходимо скорректировать контекст на странице.
Разнообразие визуального представления объекта: Если вы продвигаете товар, полезно иметь его изображения в разных ракурсах и контекстах. Это увеличивает охват в Image Search, так как разные изображения могут соответствовать разным Query Images, поданным пользователями.

Worst practices (это делать не надо)

Использование вводящего в заблуждение текста (Clickbait): Размещение текста, не соответствующего изображению, в попытке получить трафик по нерелевантным запросам. Система генерации High Confidence Labels нивелирует эту тактику, так как она ищет консенсус среди визуально похожих изображений, игнорируя аномальные метки.
Использование стоковых изображений без контекстуализации: Использование популярных стоковых фото, которые встречаются на сотнях сайтов в разных контекстах, затрудняет для Google определение точной семантики изображения на вашем сайте.
Изображения низкого качества: Размытые, плохо освещенные изображения затрудняют извлечение Image Feature Scores и снижают вероятность обнаружения Common Distinct Set, что негативно сказывается на Visual Similarity Score.

Стратегическое значение

Этот патент подчеркивает стратегическую важность интеграции Image SEO в общую стратегию контент-маркетинга. Он демонстрирует, что для Google изображение и его текстовый контекст неразрывно связаны через механизм перекрестной валидации в вебе. Понимание того, как Google использует визуальное сходство для определения семантики, позволяет создавать более эффективный контент, который будет хорошо работать как в стандартном поиске, так и в вертикали по изображениям, а также в системах типа Google Discover и Lens.

Практические примеры

Сценарий: Оптимизация карточки товара (e-commerce)

Задача: Улучшить ранжирование изображения нового смартфона в Image Search.
Действие (Визуальное): Разместить высококачественные, четкие фотографии смартфона с разных ракурсов. Это помогает системе извлечь точные Image Feature Scores и повышает шанс активации Boost Factor, если пользователь ищет именно эту модель.
Действие (Семантическое): Убедиться, что в тексте страницы, заголовках и alt-тексте используется точное название модели (например, "Samsung Galaxy S25 Ultra Titanium Blue").
Проверка (Валидация меток): Загрузить фото в Google Image Search. Проверить, какие сайты появляются в результатах и какой "Best Guess" (наиболее вероятную метку) предлагает Google.
Ожидаемый результат: Google анализирует визуально похожие изображения на других авторитетных сайтах (обзоры, магазины). Если контекст совпадает, система генерирует High Confidence Label "Samsung Galaxy S25 Ultra Titanium Blue". Изображение получает высокие шансы ранжироваться по запросам, связанным с этой меткой, и при поиске по картинке этой модели.

Как Google определяет, что означает изображение, если на моей странице текст отличается от других сайтов?

Система использует механизм генерации High Confidence Labels. Она анализирует не только вашу страницу, но и все найденные в интернете визуально похожие изображения. Если текст на вашей странице сильно отличается от того, как этот визуальный объект описывается на большинстве других сайтов (консенсус), система может проигнорировать ваши метки и использовать те, которые считает более достоверными на основе глобального анализа.

Что такое "Модель визуального сходства, обученная на человеческих оценках"?

Это означает, что Google не просто сравнивает технические параметры (пиксели, цвета). Система обучается на основе Similarity Feedback: людям показывали три картинки и спрашивали, какая из двух больше похожа на первую. Модель настраивает веса различных визуальных признаков (цвет, форма, текстура), чтобы её оценка сходства максимально соответствовала человеческому восприятию.

Что такое "Boosting" за "Common Distinct Set" и как это использовать в SEO?

Это механизм повышения оценки сходства, если система обнаруживает идентичный уникальный объект на двух изображениях (например, Эйфелеву башню или конкретную модель кроссовок). В SEO это означает, что для товаров, логотипов или уникального контента критически важно использовать четкие, качественные изображения, на которых объект хорошо узнаваем, чтобы система могла его идентифицировать и применить этот бустинг.

Что такое фильтрация по "Dominant Characteristic"?

Это правило для обеспечения однородности выдачи. Если изображение-запрос и большинство топовых результатов имеют общую черту (например, все являются "рисунками" или "черно-белыми фото"), то система может удалить из выдачи изображение, которое этой чертой не обладает (например, цветное фото), даже если оно похоже по содержанию. Это помогает сделать выдачу более визуально консистентной.

Как система использует текст для поиска по картинке?

Текст (в виде High Confidence Labels) используется на первом этапе — для отбора кандидатов (Retrieval). Если изображение семантически не связано с метками запроса, оно не попадет в кандидаты. Однако финальное ранжирование отобранных кандидатов в большей степени зависит от визуального сходства (Visual Similarity Score).

Влияет ли этот патент на ранжирование в обычном веб-поиске?

Патент напрямую описывает работу вертикали Image Search. Однако он дает важное понимание того, как Google интерпретирует семантику изображений. Эта интерпретация (понимание, что изображено на картинке) может использоваться как сигнал качества и релевантности контента в основном веб-поиске, а также в таких сервисах, как Google Discover.

Что важнее для Image SEO согласно этому патенту: alt-текст или визуальное качество?

Важны оба аспекта. Текстовый контекст (включая alt) помогает сформировать Initial Labels и повлиять на High Confidence Labels. Визуальное качество и четкость напрямую влияют на расчет Visual Similarity Score и возможность получения Boosting. Одно не работает без другого: некачественное изображение с хорошим текстом получит низкую оценку сходства, а качественное изображение с неверным текстом может получить нерелевантные метки.

Как бороться с тем, что мои уникальные изображения ассоциируются с неправильными метками?

Если Google присваивает неверные метки, это значит, что либо контекст на вашей странице вводит систему в заблуждение, либо визуально ваше изображение похоже на другие объекты. Необходимо усилить семантические сигналы на странице: сделать текст более точным, использовать структурированные данные (Schema.org/Product или ImageObject) и убедиться, что контент страницы в целом соответствует тематике изображения.

Что такое условие "Nearest Neighbor Condition" в ранжировании?

Это правило фильтрации, которое требует, чтобы изображение-кандидат имело определенное количество общих "ближайших соседей" (самых похожих картинок) с изображением-запросом. Если кандидат похож на запрос, но его ближайшие соседи совсем другие, он считается выбросом (аутлаером) и может быть удален из выдачи. Это повышает общую визуальную связанность результатов.

Использует ли система распознавание лиц?

Патент не упоминает распознавание лиц напрямую, но упоминает Image Feature Scores, которые могут включать детекцию объектов. Также упоминается, что если пороговое число изображений включает человеческое лицо, то характеристика "face" может быть определена как Dominant Characteristic для фильтрации результатов.

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google переводит изображения в текстовые запросы, валидируя метки через веб-поиск

Google использует эту систему для определения наилучшего текстового описания (метки) для изображения. Система тестирует различные варианты меток, используя их как поисковые запросы, и проверяет, сколько результатов поиска указывают на веб-страницы, содержащие исходное изображение. Это гарантирует, что выбранная метка точно отражает то, как изображение используется и понимается в интернете.

US9218546B2
2015-12-22

Мультимедиа
Семантика и интент
Индексация

Как Google комбинирует текстовый запрос и изображение-образец для уточнения поиска по картинкам

Google использует механизм для обработки гибридных запросов (текст + изображение). Система находит изображения, которые одновременно релевантны тексту и визуально похожи на образец. Для этого создаются компактные визуальные дескрипторы и используются "визуальные ключи" для быстрого поиска. Финальная выдача ранжируется по степени визуального сходства с образцом.

US9043316B1
2015-05-26

Мультимедиа
Семантика и интент

Как Google связывает изображения с семантическими сущностями для устранения неоднозначности в поиске по картинкам

Google использует систему для понимания того, что именно изображено на картинке, связывая её с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).

US9171018B2
2015-10-27

Семантика и интент
Knowledge Graph
Мультимедиа

Как Google агрегирует и ранжирует пользовательские метки для идентификации объектов в Визуальном поиске (Google Lens)

Google использует этот механизм для повышения точности идентификации объектов при поиске по изображению. Система находит множество визуально похожих изображений, загруженных пользователями (UGC), и анализирует их текстовые метки. Метки группируются по смыслу, а затем эти группы ранжируются на основе совокупной визуальной релевантности. Это позволяет определить наиболее вероятное название объекта, опираясь на коллективное мнение.

US9424279B2
2016-08-23

Мультимедиа
Семантика и интент
SERP

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко

Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"

Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.

US8244749B1
2012-08-14

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам

Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).

US11609949B2
2023-03-21

Антиспам
SERP
Поведенческие сигналы