Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует «Виртуальные ссылки» и визуальное сходство для ранжирования изображений (Visual PageRank)

    LINK-BASED RANKING OF OBJECTS THAT DO NOT INCLUDE EXPLICITLY DEFINED LINKS (Ранжирование на основе ссылок объектов, которые не содержат явно определенных ссылок)
    • US9977816B1
    • Google LLC
    • 2018-05-22
    • 2008-04-08
    2008 EEAT и качество Shumeet Baluja Индексация Мультимедиа Патенты Google

    Google использует механизм для оценки качества и авторитетности изображений, даже если на них нет прямых ссылок. Система создает «виртуальные ссылки» между изображениями на основе их визуального сходства, данных о кликах пользователей и авторитетности хост-страниц. Затем применяется алгоритм, подобный PageRank, который вычисляет итоговый рейтинг качества изображения на основе этой сети виртуальных связей.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему оценки качества и релевантности объектов (в первую очередь изображений), которые не имеют явных гиперссылок. Традиционные поисковые системы изображений часто полагаются на текст, окружающий изображение на веб-странице, что не гарантирует высокое качество самого изображения (например, оно может быть плохо обрезано, не в фокусе или не являться основным объектом). Изобретение предлагает метод объективной оценки качества изображений для улучшения результатов поиска.

    Что запатентовано

    Запатентована система для генерации оценок ранжирования (Ranking Scores) для объектов, таких как изображения, с использованием алгоритмов, основанных на анализе ссылок (например, PageRank), даже при отсутствии явных ссылок. Система создает «виртуальные ссылки» (Virtual Links) между объектами. Эти виртуальные ссылки основаны на показателях сходства контента (content-based similarity metric), поведении пользователей (Click-data) или контексте размещения (URL Analysis).

    Как это работает

    Система функционирует путем построения графа (Марковской сети), где узлы — это изображения, а связи — это «виртуальные ссылки».

    • Определение сходства: Вычисляется визуальное сходство между парами изображений с использованием различных признаков (Image Features), таких как цвет, текстура или SIFT, фокусируясь на «объектах интереса» (Objects of Interest).
    • Расчет Вероятности Перехода: Метрики сходства преобразуются в Transitional Probability — вероятность того, что пользователь захочет перейти от изображения A к изображению B. При этом учитывается, что слишком похожие (дублирующиеся) изображения игнорируются.
    • Улучшение Вероятностей: Вероятность перехода может быть скорректирована с учетом независимого от запроса качества изображения (например, резкость, насыщенность) и связи между URL-адресами страниц, на которых размещены изображения. Также могут использоваться данные о кликах пользователей.
    • Расчет Рейтинга: К полученному графу применяется алгоритм типа PageRank для вычисления итогового Ranking Score для каждого изображения.

    Актуальность для SEO

    Высокая. Определение качества, авторитетности и каноничности изображений является критически важной задачей для Google Images, Google Shopping (Product Search) и выбора миниатюр в Новостях и Веб-поиске. Методы визуального анализа и машинного обучения, описанные в патенте (например, использование SIFT и графовых алгоритмов), активно развиваются и применяются в современных поисковых системах для понимания нетекстового контента.

    Важность для SEO

    Патент имеет критическое значение для Image SEO и eCommerce. Он описывает механизм, позволяющий Google определять «визуальную авторитетность» изображения. Изображения, которые визуально похожи на множество других изображений в той же тематике (но не являются дубликатами) и размещены на авторитетных ресурсах, получают более высокий Ranking Score. Это напрямую влияет на ранжирование в вертикальных поисках и выбор репрезентативных изображений для SERP.

    Детальный разбор

    Термины и определения

    Click-data (Данные о кликах)
    Информация, собранная о том, какие объекты пользователи выбирают в рамках одной сессии. Используется как альтернативный или дополнительный метод для расчета Transitional Probability.
    Comparison Function (Функция сравнения)
    Алгоритм, используемый для сравнения конкретных признаков (Image Features) двух изображений и генерации значения сходства между ними (например, сравнение гистограмм).
    Conversion Function (Функция преобразования)
    Функция (например, Бета-распределение), которая преобразует Similarity Metric в Transitional Probability. Она может понижать вероятность для слишком похожих (избыточных) изображений.
    Image Features (Признаки изображения)
    Характеристики изображения, используемые для сравнения. Примеры включают гистограммы интенсивности, цвета, текстуры, края, а также инвариантные признаки, такие как SIFT (Scale-Invariant Feature Transform).
    LINKSIM(A, B) (Сходство на основе ссылок/URL)
    Показатель сходства между изображением A и B, основанный на анализе взаимосвязи веб-страниц (URL), на которых они размещены. Может рассчитываться с помощью таких методов, как SimRank.
    Markov Network (Марковская сеть)
    Графовая модель, используемая в патенте, где изображения являются узлами, а Transitional Probabilities — взвешенными связями (виртуальными ссылками).
    Objects of Interest (Объекты интереса)
    Области внутри изображения, для которых вычисляются Image Features (например, области с высокой вариацией цвета или резкими границами). Используется для повышения эффективности вычислений.
    Quality(A) (Независимая мера качества)
    Независимая от запроса оценка качества изображения A. Может включать такие метрики, как резкость (фокус), количество цветов или насыщенность.
    Ranking Score / Image Ranking Score (Оценка ранжирования)
    Итоговая оценка качества и авторитетности изображения, рассчитанная путем применения алгоритма анализа ссылок (например, PageRank) к Марковской сети виртуальных ссылок.
    Similarity Metric / Similarity Score (Метрика сходства)
    Числовое значение, определяющее степень визуального сходства между двумя изображениями на основе сравнения их признаков.
    Transitional Probability (Вероятность перехода P(A→B))
    Оценка вероятности того, что пользователь, просматривающий изображение A, захочет следующим выбрать изображение B. Является основой для «виртуальной ссылки».
    Virtual Links (Виртуальные ссылки)
    Связи между объектами, которые не определены явно (как гиперссылки), а генерируются на основе сходства контента, поведения пользователей или контекста.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод ранжирования изображений по запросу.

    1. Система получает набор типов признаков изображений (Image Feature Types) и соответствующие им функции сравнения (Comparison Functions).
    2. Система получает поисковый запрос и идентифицирует набор релевантных изображений.
    3. Генерируются оценки ранжирования для этого набора:
      • Для каждой пары изображений функции сравнения применяются к «объектам интереса» (Objects of Interest) для генерации оценки сходства (Similarity Score).
      • На основе оценок сходства генерируются вероятности перехода (Transitional Probabilities) — вероятность того, что пользователь перейдет от первого изображения ко второму.
      • Для каждого изображения генерируется оценка ранжирования (Ranking Score) на основе этих вероятностей перехода.
    4. Система выбирает одно или несколько изображений на основе Ranking Score и предоставляет их пользователю.

    Claim 3 (Зависимый от 1): Детализирует процесс генерации оценки сходства.

    Система идентифицирует признак в первом изображении. Затем использует функции сравнения для оценки этого признака по отношению к соответствующим признакам в других изображениях набора. Генерируется Similarity Score для каждой пары. Затем генерируется совокупная оценка сходства (cumulative similarity score) путем суммирования оценок сходства для всех пар, и эта совокупная оценка ассоциируется с первым изображением.

    Claim 5 (Зависимый от 1): Уточняет возможность корректировки.

    Вероятность перехода (Transitional Probability), связанная с первым изображением, корректируется на основе его независимого от запроса качества (query independent quality).

    Claim 6 (Зависимый от 1): Уточняет возможность корректировки на основе контекста.

    Вероятность перехода корректируется на основе определения того, что URL веб-страницы первого изображения связан с URL веб-страницы второго изображения.

    Где и как применяется

    Изобретение применяется в основном в вертикальных поисковых системах (Google Images, Google Shopping) или для выбора репрезентативных изображений в универсальном поиске.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит основная подготовительная работа. Система извлекает и сохраняет Image Features (гистограммы, SIFT и т.д.) для индексируемых изображений. Рассчитываются и сохраняются независимые от запроса метрики качества Quality(A) (резкость, насыщенность). Может происходить предварительная кластеризация и категоризация изображений.

    RANKING – Ранжирование
    Применение патента зависит от реализации (офлайн или онлайн):

    • Офлайн (Query-Independent): Ranking Scores могут быть предварительно рассчитаны для всего индекса или для определенных категорий. В этом случае Ranking Score используется как статический сигнал качества на этапах L2/L3 ранжирования.
    • Онлайн (Query-Dependent): После первоначального отбора кандидатов (L1 Retrieval) система может динамически применить описанный алгоритм к полученному набору изображений. Вычисляются Similarity Metrics, Transitional Probabilities и итоговые Ranking Scores для этого конкретного набора. Это позволяет определить наиболее качественные и репрезентативные изображения в контексте данного запроса.

    RERANKING – Переранжирование
    Итоговый Ranking Score используется для финальной сортировки результатов перед показом пользователю. Он может комбинироваться с другими сигналами ранжирования (например, текстовой релевантностью).

    Входные данные:

    • Набор изображений (все или релевантные запросу).
    • Предварительно извлеченные Image Features.
    • Предварительно рассчитанные Quality(A) и LINKSIM(A, B).
    • Данные Click-data (если используются).

    Выходные данные:

    • Ranking Score для каждого изображения в наборе, отражающий его качество и авторитетность в контексте этого набора.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на изображения. Также в патенте упоминается применимость к аудио, видео, поиску товаров, книг, резюме.
    • Конкретные ниши: Наибольшее влияние в eCommerce (ранжирование товаров), новостях (выбор миниатюр) и любых нишах, где важна визуальная составляющая.
    • Приложения: Используется не только для ранжирования, но и для поиска единственного наиболее репрезентативного изображения (например, для карточки товара или новости).

    Когда применяется

    • Триггеры активации: Алгоритм может применяться либо периодически в офлайн-режиме для всего индекса, либо динамически в ответ на поисковый запрос, когда необходимо отсортировать набор релевантных изображений по качеству.
    • Условия работы: Применяется, когда необходимо оценить качество объектов, не имеющих явных ссылок, и когда возможно рассчитать метрики сходства между этими объектами.

    Пошаговый алгоритм

    Этап 1: Подготовка (Офлайн / Индексирование)

    1. Выбор признаков и функций: Определение, какие Image Features (например, цветовые гистограммы, SIFT) и какие Comparison Functions будут использоваться.
    2. Извлечение признаков: Для каждого изображения в индексе определяются Objects of Interest и извлекаются выбранные признаки.
    3. Расчет независимых метрик: Вычисляются Quality(A) (резкость, цветность) и анализируются связи URL для расчета LINKSIM(A, B).
    4. Сбор данных о поведении: Накопление Click-data о переходах пользователей между изображениями.

    Этап 2: Расчет Рейтинга (Офлайн или Онлайн)

    1. Получение набора изображений: Определение набора изображений для ранжирования (например, результаты запроса).
    2. Расчет метрик сходства: Для каждой пары изображений (A, B) в наборе применяются Comparison Functions к их признакам для вычисления базовой Similarity Metric.
    3. Преобразование в Вероятность Перехода: Базовая Similarity Metric преобразуется в начальную Transitional Probability с помощью Conversion Function (например, Бета-распределения, которое снижает вес для слишком похожих изображений).
    4. Постобработка Вероятностей (Опционально): Начальная Transitional Probability модифицируется с учетом Quality(A), LINKSIM(A, B) и/или Click-data.
    5. Нормализация: Вероятности нормализуются.
    6. Расчет Ranking Score: Построение Марковской сети, где вероятности являются виртуальными ссылками. Применение итеративного алгоритма (типа PageRank) для расчета стационарного распределения, которое и является итоговым Ranking Score для каждого изображения.

    Этап 3: Применение (Онлайн / Ранжирование)

    1. Сортировка: Результаты поиска сортируются с учетом рассчитанного Ranking Score (возможно, в комбинации с другими факторами).
    2. Вывод результатов: Отсортированный набор предоставляется пользователю.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Визуальные): Пиксельные данные изображения, из которых извлекаются Image Features (цвет, текстура, формы, SIFT). Это основа для расчета визуального сходства.
    • Технические факторы (Метаданные изображения): Данные, используемые для расчета Quality(A): резкость, насыщенность, количество цветов.
    • Ссылочные факторы (Контекстные): URL-адреса страниц, на которых размещены изображения. Используются для анализа связей между хост-страницами и расчета LINKSIM(A, B).
    • Поведенческие факторы: Click-data — данные о том, как пользователи переходят между изображениями в рамках одной сессии. Используются для определения Transitional Probability.
    • Пользовательские факторы: Поисковый запрос используется в Query-Dependent реализации для определения набора изображений и для взвешивания категорий.

    Какие метрики используются и как они считаются

    • Similarity Metric: Рассчитывается путем сравнения Image Features с помощью Comparison Functions. В патенте приводится пример суммирования абсолютных разностей между бинами гистограмм.
    • Transitional Probability (P(A→B)): Рассчитывается из Similarity Metric через Conversion Function (Бета-распределение). Может быть скорректирована по формуле, похожей на: Quality(A) * LINKSIM(A,B) * SIMILARITY(A,B), или рассчитана напрямую из Click-data.
    • Ranking Score: Вычисляется как доминантный собственный вектор матрицы вероятностей перехода (решение уравнения Марковской цепи, аналогично PageRank).
    • Query-Dependent Ranking Score (Опционально): Может рассчитываться как линейная комбинация предварительно рассчитанных Ranking Scores по категориям, где веса зависят от семантической близости запроса к категории.

    Выводы

    1. Визуальная Авторитетность (Visual Authority): Патент описывает механизм, который можно назвать «Visual PageRank». Авторитетность изображения определяется не внешними ссылками на него, а тем, насколько оно визуально похоже на другие изображения в своем кластере и насколько другие авторитетные изображения похожи на него.
    2. Репрезентативность важнее уникальности: Изображения, которые являются хорошими представителями темы (т.е. имеют много визуальных «соседей» умеренной схожести), получат более высокий Ranking Score. Они становятся визуальными центрами кластера.
    3. Дедупликация встроена в модель: Механизм преобразования сходства в вероятность (Conversion Function) специально разработан для снижения веса почти полных дубликатов. Система ищет похожие, но не идентичные изображения.
    4. Мультимодальный подход к виртуальным ссылкам: Virtual Links создаются не только на основе визуального сходства. Они также учитывают техническое качество изображения (Quality(A)), контекст размещения (LINKSIM) и поведение пользователей (Click-data). Это комплексная оценка.
    5. Контекст размещения (URL) имеет значение: Связь между хост-страницами (LINKSIM) напрямую влияет на силу виртуальных ссылок. Изображения с сайтов, которые тесно связаны между собой (например, авторитетные сайты в одной нише), усиливают друг друга.
    6. Применимость за пределами Image Search: Хотя основной фокус на изображениях, система может применяться к любому контенту, где можно рассчитать метрики сходства (видео, аудио, товары), что делает ее важной для всех вертикалей поиска Google.

    Практика

    Best practices (это мы делаем)

    • Оптимизация Репрезентативности Изображений: Создавайте изображения, которые четко и ясно представляют объект или тему. Для eCommerce это означает качественные фотографии продукта, соответствующие тому, как этот продукт обычно изображается на авторитетных сайтах. Это увеличивает вероятность формирования сильных Virtual Links с другими изображениями в кластере.
    • Фокус на техническом качестве: Улучшайте независимые метрики качества Quality(A). Изображения должны быть резкими, с хорошей цветопередачей и насыщенностью, так как это напрямую усиливает Transitional Probability.
    • Размещение в релевантном контексте: Размещайте важные изображения на авторитетных страницах, которые тесно связаны с другими качественными ресурсами в нише. Это повышает метрику LINKSIM, усиливая виртуальные ссылки.
    • Оптимизация под «Объекты интереса»: Убедитесь, что основной объект на изображении (Object of Interest) выделяется и имеет четкие признаки (цвет, границы). Система фокусируется на этих объектах при расчете сходства.
    • Анализ Визуального Кластера Конкурентов: Изучайте, какие типы изображений доминируют в выдаче Google Images по вашим запросам. Старайтесь соответствовать общему визуальному паттерну, чтобы интегрироваться в кластер и накапливать «Visual PageRank».

    Worst practices (это делать не надо)

    • Использование нерелевантных стоковых фото: Использование общих стоковых фотографий, которые визуально далеки от реального тематического кластера, приведет к низким показателям Similarity Metric и, как следствие, низкому Ranking Score.
    • Игнорирование технического качества: Размытые, тусклые или плохо освещенные изображения будут пессимизироваться из-за низкого Quality(A), даже если они визуально релевантны.
    • Манипуляции с визуальным сходством (Спам): Создание множества почти идентичных изображений в попытке доминировать в кластере не сработает из-за Conversion Function, которая снижает вес дубликатов.
    • Изоляция контента: Размещение изображений на страницах низкого качества или на сайтах, которые слабо связаны с тематической экосистемой, приведет к низким показателям LINKSIM.

    Стратегическое значение

    Этот патент подтверждает важность качества и контекста для ранжирования нетекстового контента. Для SEO-стратегии это означает, что оптимизация изображений — это не только ALT-теги и имена файлов, но и работа над визуальной составляющей и авторитетностью хостинга. В долгосрочной перспективе выигрывают сайты, которые инвестируют в создание качественного, репрезентативного визуального контента, интегрированного в общую структуру авторитетного сайта.

    Практические примеры

    Сценарий: Оптимизация карточки товара в eCommerce

    Задача: Повысить ранжирование изображения кроссовок «Nike Air Max 270 Black» в Google Images и Google Shopping.

    1. Анализ кластера: SEO-специалист анализирует выдачу и видит, что доминируют изображения кроссовок на белом фоне, снятые сбоку и под углом 3/4.
    2. Создание контента (Best Practice): Создаются высококачественные (резкие, яркие) фотографии именно этой модели в этих ракурсах на белом фоне. Это максимизирует Similarity Metric с текущими лидерами кластера и Quality(A).
    3. Избегание (Worst Practice): Не используются «лайфстайл» фотографии (например, кроссовки на ногах в парке) в качестве основного изображения товара, так как они визуально отличаются от центра кластера.
    4. Размещение (Контекст): Изображение размещается на оптимизированной карточке товара авторитетного интернет-магазина. Если магазин авторитетен (имеет хорошие связи с другими сайтами о кроссовках), LINKSIM будет высоким.
    5. Ожидаемый результат: Изображение интегрируется в визуальный кластер, накапливает высокий Ranking Score за счет виртуальных ссылок от других похожих изображений и получает высокие позиции в выдаче.

    Вопросы и ответы

    Что такое «Виртуальные ссылки» в контексте этого патента?

    Виртуальные ссылки (Virtual Links) — это не реальные гиперссылки, а расчетные связи между изображениями. Они представляют собой вероятность перехода (Transitional Probability) пользователя от одного изображения к другому. Эта вероятность рассчитывается на основе визуального сходства изображений, их технического качества, связи между хост-страницами и данных о поведении пользователей (Click-data).

    Как система борется с дубликатами изображений?

    Система использует функцию преобразования (Conversion Function), которая переводит метрику сходства в вероятность перехода. Эта функция (например, Бета-распределение) настроена так, что при очень высоком уровне сходства (близком к 1.0) вероятность перехода резко падает. Это отражает интуицию, что пользователи игнорируют избыточные или идентичные изображения.

    Что такое «Visual PageRank» и как он работает?

    «Visual PageRank» — это неофициальный термин для описанного механизма. Система строит граф (Марковскую сеть), где изображения — это узлы, а виртуальные ссылки — это связи. Затем применяется алгоритм, идентичный PageRank, который итеративно рассчитывает авторитетность каждого изображения на основе структуры этих виртуальных связей. Изображения, на которые «ссылаются» другие авторитетные изображения, получают более высокий рейтинг.

    Влияет ли качество сайта, на котором размещено изображение, на его ранжирование?

    Да, напрямую. Патент описывает метрику LINKSIM(A, B), которая оценивает связь между URL-адресами хост-страниц изображений. Если изображения размещены на сайтах, которые тесно связаны между собой (например, авторитетные ресурсы в одной нише), это увеличивает силу виртуальной ссылки между ними, что положительно влияет на итоговый Ranking Score.

    Что важнее для этого алгоритма: визуальное сходство или данные о кликах?

    Патент описывает оба подхода как валидные способы расчета Transitional Probability. Визуальное сходство является основным методом, но Click-data может использоваться как альтернатива или как дополнение для более точной оценки вероятности перехода. На практике, вероятно, используется гибридный подход, объединяющий оба типа данных.

    Что такое «Объекты интереса» и почему они важны для SEO?

    Objects of Interest — это ключевые области на изображении (например, основной объект, области с высокой контрастностью или изменением цвета), на которых система фокусируется при извлечении признаков и расчете сходства. Для SEO это означает, что важно оптимизировать именно главный объект съемки — он должен быть четким, хорошо видимым и узнаваемым, так как именно он будет сравниваться с другими изображениями.

    Как этот патент влияет на SEO в eCommerce?

    Он имеет критическое значение. Для ранжирования в Google Shopping и Images важно, чтобы фотографии продукта были технически качественными (резкими, яркими) и репрезентативными (соответствовали тому, как этот товар обычно изображается). Это помогает изображению стать визуальным центром кластера и получить высокий Ranking Score.

    Может ли этот алгоритм работать в реальном времени по запросу пользователя?

    Да. Патент описывает как Query-Independent (офлайн расчет для всего индекса), так и Query-Dependent (онлайн) реализацию. В онлайн-режиме алгоритм применяется динамически к набору изображений, отобранных по запросу, чтобы определить их относительное качество и порядок ранжирования в контексте этого конкретного набора.

    Что такое независимая мера качества Quality(A)?

    Quality(A) — это оценка технического качества изображения, не зависящая от запроса или сравнения с другими изображениями. В патенте упоминаются такие факторы, как резкость (фокус), количество цветов и насыщенность. Более качественные изображения получают буст при расчете вероятности перехода.

    Стоит ли использовать уникальные, креативные изображения или лучше стандартные?

    С точки зрения этого патента, репрезентативность (стандартность) важнее креативной уникальности для накопления «Visual PageRank». Если изображение слишком уникально и визуально отличается от других изображений по этой теме, оно получит низкие метрики сходства и будет изолировано в графе. Лучшая стратегия — использовать высококачественные, но стандартные изображения в качестве основных, а креативные — как дополнительные.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.