Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс группирует похожие изображения с одной страницы в «серии» на выдаче Яндекс Картинок

    METHOD AND SYSTEM FOR PRESENTING IMAGE INFORMATION TO A USER OF A CLIENT DEVICE (Метод и система представления графической информации пользователю клиентского устройства)
    • US20160098426A1
    • Yandex LLC
    • 2016-04-07
    • 2014-05-16
    2016 SERP Вертикальный поиск Патенты Яндекс Поиск по картинкам

    Яндекс патентует метод улучшения выдачи Яндекс Картинок путем объединения визуально похожих изображений, найденных на одной веб-странице, в отдельные группы (серии). Система заранее (офлайн) анализирует визуальные характеристики изображений (HOG, цветовые гистограммы) и формирует эти группы в индексе. На выдаче эти серии отображаются как единый, визуально отличимый блок, что упрощает поиск связанных коллекций (например, инструкций или фотоотчетов).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности и разрозненности традиционной выдачи в поиске по изображениям. Обычная выдача сортирует миниатюры только по релевантности, из-за чего связанные изображения (например, пошаговые инструкции, разные ракурсы одного объекта или фотоотчеты) оказываются разбросанными по всей SERP. Это усложняет задачу пользователя найти всю серию целиком. Изобретение призвано структурировать выдачу, группируя связанные изображения.

    Что запатентовано

    Запатентована система представления результатов поиска по изображениям, которая интегрирует в выдачу группы изображений (серии) наряду с отдельными результатами. Ключевая особенность изобретения — эти группы формируются и сохраняются на сервере до получения поискового запроса (заранее, офлайн). Группировка основывается на двух критериях: визуальном сходстве изображений и их происхождении с одной и той же веб-страницы. В SERP эти группы имеют визуально отличимое представление.

    Как это работает

    Система работает в два этапа. Офлайн (Индексация): Яндекс сканирует изображения и извлекает визуальные признаки (Image Signatures), такие как Color Histogram и Histogram of Gradient (HOG). Затем система идентифицирует изображения, которые (а) находятся на одной веб-странице и (б) являются визуально похожими. Эти изображения объединяются в группы (серии). Онлайн (Поиск): В ответ на запрос система ранжирует как отдельные изображения, так и заранее сформированные группы. В SERP Яндекс Картинок отображается массив, состоящий из миниатюр отдельных изображений и визуальных представлений групп. Группы выделяются (например, компоновкой, баннером) и могут быть раскрыты пользователем прямо в SERP без перехода на сайт-источник.

    Актуальность для SEO

    Высокая. Описанный механизм группировки изображений в «серии» является видимой и активно используемой функцией в текущем интерфейсе Яндекс Картинок. Использование визуальных признаков (HOG, гистограммы) для кластеризации изображений остается фундаментальной технологией в Computer Vision и поиске изображений.

    Важность для SEO

    Влияние на SEO значительно (7/10), особенно для сайтов, зависящих от трафика из Яндекс Картинок (рецепты, DIY, портфолио, e-commerce). Патент показывает механизм, при котором Яндекс предпочитает структурированные коллекции изображений на одной странице. Сайты, предоставляющие серии похожих изображений на одном URL, могут получить преимущество в виде более заметного и кликабельного блока (группы) в выдаче, в то время как сайты, разбивающие галереи на множество URL, могут проиграть.

    Детальный разбор

    Термины и определения

    Color Histogram (Цветовая гистограмма)
    Представление распределения цветов в изображении (или его части). Показывает количество пикселей для каждого цветового диапазона.
    Group of images / Series (Группа изображений / Серия)
    Набор изображений, которые были заранее (до запроса) идентифицированы системой как визуально похожие и происходящие из одного источника (с одной веб-страницы). Имеет уникальный Group ID (Series ID).
    Histogram of Gradient (HOG) (Гистограмма градиентов)
    Дескриптор признаков, используемый в компьютерном зрении. Представляет распределение направлений градиентов интенсивности (т.е. вариации интенсивности цветов), что позволяет понять структуру и форму объектов на изображении.
    Image ID (Идентификатор изображения)
    Уникальный идентификатор, присваиваемый изображению после анализа. Идентичные изображения получают одинаковый Image ID (используется для дедупликации).
    Image Signature (Сигнатура изображения)
    Набор визуальных признаков, извлеченных из изображения (или его сегмента). В патенте включает Color Histogram, HOG и Prevailing Colors.
    Lead Image (Ведущее изображение)
    Изображение в группе, имеющее наивысший ранг (наиболее релевантное запросу). Определяет позицию всей группы в SERP.
    Prevailing Colors (Преобладающие цвета)
    Основные цвета, доминирующие в изображении или его части.
    Visual Representation (Визуальное представление)
    Способ отображения группы изображений в SERP. Это блок, который визуально отличается от отдельных изображений и включает одну или несколько миниатюр из группы.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод интеграции заранее сгруппированных изображений в поисковую выдачу.

    Claim 1 (Независимый пункт): Описывает основной процесс работы системы на стороне сервера.

    1. Сервер получает поисковый запрос.
    2. Сервер выполняет поиск и отправляет результаты, включающие (а) группу изображений и (б) по крайней мере одно другое изображение.
    3. Критически важно: Группа изображений выбирается из множества групп, которые были сохранены на сервере до получения поискового запроса (т.е. сформированы заранее, офлайн).
    4. Сервер отправляет инструкции для отображения SERP, где визуальное представление группы визуально отличимо от другого изображения.
    5. Визуальное представление включает как минимум одно изображение из группы.

    Claims 2, 16, 22 (Зависимые от 1): Определяют критерии группировки.

    • Группы состоят из похожих изображений (Claim 2), в частности, визуально похожих (Claim 16).
    • Изображения в группе происходят с одной веб-страницы (single web page) (Claim 22).

    Система идентифицирует кластеры визуально похожих изображений, которые физически расположены на одном URL. Это происходит в офлайн-режиме.

    Claim 27 (Зависимый от 1): Указывает на пороговое значение размера группы.

    • Группа изображений включает не менее четырех изображений. Это подтверждает наличие фильтра по минимальному размеру.

    Claim 34 (Зависимый от 1): Описывает механизм ранжирования групп.

    • Изображения внутри группы ранжируются, и визуальное представление включает изображение с наивысшим рангом (Lead Image). Позиция группы определяется ее наиболее релевантным участником.

    Claim 36 (Зависимый от 1): Описывает взаимодействие с группой.

    • Сервер отправляет инструкции для изменения отображения (например, расширения группы) после выбора пользователем. Это происходит без покидания SERP (without leaving the SERP).

    Где и как применяется

    Изобретение затрагивает несколько ключевых слоев поисковой архитектуры, с сильным акцентом на индексацию и генерацию SERP.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе система собирает изображения и критически важные данные об их источнике (URL), что необходимо для последующей группировки по признаку происхождения с одной страницы.

    INDEXING – Индексирование и извлечение признаков
    Это центральный этап для реализации патента. Происходит офлайн-обработка:

    • Извлечение визуальных признаков: Система анализирует каждое изображение, вычисляя Image Signatures (HOG, Color Histograms). Изображениям присваивается ImageID.
    • Группировка (Clustering): Система выполняет кластеризацию изображений на основе двух критериев: визуального сходства (сравнение сигнатур) и общего URL. Сформированные группы (GroupID) сохраняются в индексе.

    RANKING – Ранжирование
    Во время поиска система оценивает релевантность как отдельных изображений, так и целых групп. Группа ранжируется на основе ее Lead Image (наиболее релевантного изображения в группе).

    BLENDER / Генерация SERP
    На этом этапе происходит финальная сборка выдачи Яндекс Картинок. Система объединяет (blends) отдельные изображения и визуальные представления групп в единый массив. Также на этом этапе применяются фильтры (например, по размеру группы, как указано в Claim 27). Группы делаются визуально отличимыми и интерактивными.

    На что влияет

    • Типы контента: Наибольшее влияние оказывается на контент, который естественным образом формирует серии: пошаговые инструкции (рецепты, DIY), фотоотчеты о событиях, обзоры товаров с разных ракурсов, портфолио фотографов, коллекции обоев.
    • Ниши и тематики: E-commerce (карточки товаров), информационные сайты (DIY, рецепты, мода, дизайн).
    • Форматы контента: Лонгриды и статьи, содержащие множество иллюстраций по одной теме на одном URL.

    Когда применяется

    Алгоритм группировки применяется постоянно в процессе индексации (офлайн). Механизм отображения групп активируется при каждом запросе к Яндекс Картинкам, если в результатах поиска присутствуют релевантные заранее сформированные группы.

    • Триггеры активации группы в индексе: Наличие на одной веб-странице нескольких изображений, чьи визуальные сигнатуры (Image Signatures) достаточно близки (превышают порог схожести).
    • Пороговые значения (Фильтрация): Группы, содержащие слишком мало изображений (согласно Claim 27 — менее 4), могут быть расформированы, а их участники будут показаны как отдельные изображения.

    Пошаговый алгоритм

    Процесс разделен на офлайн-индексацию и онлайн-обработку запроса.

    Фаза А: Офлайн-индексация и Группировка

    1. Сканирование и Извлечение данных: Веб-краулеры обходят страницы и извлекают изображения, их URL и метаданные.
    2. Анализ и Извлечение Признаков: Изображение может быть сегментировано (например, на 9 ячеек). Вычисляются визуальные признаки: Color Histogram, HOG, Prevailing Colors. Комбинация формирует Image Signature.
    3. Дедупликация: Идентичным изображениям присваивается одинаковый Image ID.
    4. Группировка (Кластеризация): Система ищет группы изображений, удовлетворяющие двум условиям:
      1. Изображения получены с одной веб-страницы.
      2. Изображения визуально похожи (сравнение Image Signatures с использованием алгоритмов измерения расстояния, например, Euclidean distance или Manhattan distance).
    5. Присвоение Group ID: Найденным кластерам присваивается Group ID (Series ID).

    Фаза Б: Онлайн-обработка запроса и Генерация SERP

    1. Получение запроса и Поиск: Система ищет в базе данных релевантные изображения и группы. Изображениям присваивается фактор релевантности.
    2. Сортировка и Фильтрация:
      1. Система проверяет размер релевантных групп. Маленькие группы (например, < 4 изображений) расформировываются.
      2. Производится дедупликация результатов.
      3. Результаты сортируются по рангу. Позиция группы определяется ее Lead Image (изображением с наивысшим рангом).
    3. Генерация SERP: Для групп создается Visual Representation (например, показ топ-3 миниатюр, баннер, счетчик), которое визуально отличается от отдельных изображений.
    4. Взаимодействие: При выборе пользователем группы, система отправляет инструкции для отображения расширенной версии группы без покидания страницы выдачи.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Метаданные): Метаданные изображения (автор, дата создания/модификации, ключевые слова) и текст страницы используются для определения релевантности запросу.
    • Технические факторы: URL веб-страницы (критически важен для группировки изображений с одного источника), гиперссылка на изображение.
    • Географические факторы: Географическое расположение, связанное с веб-страницей источником.
    • Мультимедиа факторы (Визуальные признаки): Используются для анализа схожести и группировки:
      • Размер и пропорции изображения.
      • Color Histogram.
      • Histogram of Gradient (HOG).
      • Prevailing Colors.

    Какие метрики используются и как они считаются

    • Image Signature (Сигнатура изображения): Векторное представление изображения, основанное на комбинации HOG, Color Histogram и Prevailing Colors. Сигнатура может вычисляться для всего изображения или для отдельных его сегментов (ячеек).
    • Визуальное сходство (Visual Similarity): Метрика, определяющая степень похожести двух изображений. Рассчитывается путем сравнения их Image Signatures. В патенте упоминаются методы измерения расстояния в векторном пространстве, такие как Manhattan distance и Euclidean distance. Если расстояние меньше определенного порога, изображения считаются похожими.
    • Relevancy Factor (Фактор релевантности): Стандартная метрика поисковой системы, определяющая соответствие изображения запросу (на основе метаданных, ссылок и т.д.).
    • Rank (Ранг): Позиция изображения или группы в отсортированном списке результатов. Ранг группы определяется рангом ее Lead Image.

    Выводы

    1. Группировка изображений происходит заранее (Офлайн): Ключевой вывод — Яндекс не группирует изображения в реальном времени по запросу. Кластеризация происходит на этапе индексации и сохраняется в базе данных.
    2. Два обязательных условия для группы: Чтобы изображения были объединены в серию, они должны быть (а) визуально похожими и (б) находиться на одной веб-странице (одном URL). Оба условия критичны.
    3. Визуальное сходство определяется алгоритмически: Сходство основано на низкоуровневых визуальных признаках — HOG (структура, грани) и Color Histograms (цветовое распределение), а не на семантике (что изображено).
    4. Ранжирование группы зависит от лучшего изображения: Позиция всей группы в SERP определяется ее самым релевантным изображением (Lead Image). Для высокого ранжирования серии хотя бы одно изображение в ней должно быть хорошо оптимизировано.
    5. Минимальный размер группы: Система может расформировывать слишком маленькие группы. Claim 27 явно указывает порог — не менее 4 изображений.
    6. Фокус на UX в SERP: Значительная часть патента посвящена тому, как отображать и взаимодействовать с группами прямо в выдаче, не покидая ее.

    Практика

    Best practices (это мы делаем)

    • Размещайте серии связанных изображений на одном URL: Стратегически важно компоновать контент так, чтобы связанные изображения (шаги инструкции, разные ракурсы товара, фотоотчет) находились на одной странице. Это базовое условие для формирования группы.
    • Обеспечивайте визуальную консистентность серий: Поскольку группировка основана на визуальном сходстве (HOG, Color Histograms), поддерживайте единый стиль, освещение, пропорции (aspect ratio) и цветовую гамму для изображений на одной странице. Это повышает вероятность их объединения в серию.
    • Стремитесь к достаточному количеству изображений: Так как маленькие группы (менее 4, согласно Claim 27) могут быть расформированы, старайтесь предоставлять достаточное количество визуального материала на одном URL (4+ изображений).
    • Оптимизируйте метаданные для всех изображений серии: Убедитесь, что все изображения в потенциальной группе имеют релевантные метаданные (alt, title) и окружающий текст. Это повышает шансы того, что одно из них станет Lead Image и поднимет всю группу в выдаче.
    • Используйте качественные и четкие изображения: Четкие изображения позволят системе точнее рассчитать гистограммы градиентов (HOG) и цвета, что улучшит работу алгоритма определения сходства.

    Worst practices (это делать не надо)

    • Разбивка галерей на множество URL: Использование пагинации для галерей, где каждое изображение получает собственный URL (например, в WordPress attachment pages), противоречит механизму группировки, который требует нахождения изображений на одной странице.
    • Визуальный разнобой на одной странице: Размещение на одном URL изображений с сильно различающейся стилистикой, размерами и композицией (например, смешивание стоковых фото, инфографики и схем) снизит вероятность формирования визуально похожих групп.
    • Использование только 1-3 изображений: Если страница содержит менее 4 изображений, они, скорее всего, будут показаны как отдельные результаты, а не как заметная серия.

    Стратегическое значение

    Патент подтверждает стратегию Яндекса на структурирование данных и улучшение пользовательского опыта в вертикальных поисках. Для SEO это означает, что в Яндекс Картинках преимущество получают сайты, предоставляющие богатый, структурированный и визуально консистентный контент на одном URL. Это смещает фокус с оптимизации отдельных изображений на оптимизацию страниц как коллекций изображений. Долгосрочная стратегия должна учитывать этот механизм при проектировании структуры сайтов, особенно e-commerce и контентных проектов.

    Практические примеры

    Сценарий 1: Оптимизация страницы рецепта (DIY)

    1. Задача: Получить максимальную видимость в Яндекс Картинках по запросу «как приготовить лазанью».
    2. Действия: Разместить все шаги приготовления (минимум 5-7 фотографий) на одной странице рецепта. Сделать все фотографии в едином стиле: одинаковое освещение, ракурс, размер и пропорции (визуальная консистентность). Оптимизировать ALT-тексты для каждого шага.
    3. Ожидаемый результат: Яндекс анализирует страницу, определяет визуальное сходство (по HOG и Color Histogram) и общий URL. Изображения объединяются в группу. В SERP отображается заметный блок (серия) «Как приготовить лазанью», что повышает CTR.

    Сценарий 2: Оптимизация карточки товара E-commerce

    1. Задача: Улучшить представление товара (например, платья) в поиске по картинкам.
    2. Действия: На странице товара разместить минимум 4 фотографии платья с разных ракурсов (спереди, сзади, детали). Обеспечить, чтобы все фото были сделаны на одном фоне и имели одинаковые технические характеристики.
    3. Ожидаемый результат: Яндекс индексирует фото как визуально похожую группу с одного URL. В выдаче по запросу «красное платье в стиле 50-х» отображается серия фотографий этого товара, позволяя пользователю увидеть разные ракурсы прямо в SERP.

    Вопросы и ответы

    Что является главным условием для того, чтобы Яндекс объединил мои изображения в группу (серию) на выдаче Картинок?

    Патент указывает на два обязательных условия, которые проверяются на этапе индексации: (1) Изображения должны находиться на одной и той же веб-странице (одном URL). (2) Изображения должны быть визуально похожими. Если вы разнесете похожие изображения по разным URL, или если изображения на одном URL будут слишком разными по стилю, группа сформирована не будет.

    Что означает «визуальное сходство» с точки зрения алгоритмов Яндекса?

    Это не семантическое сходство (что изображено), а низкоуровневое визуальное. Патент описывает использование Image Signatures, основанных на трех компонентах: Color Histogram (распределение цветов), Histogram of Gradient (HOG) (структура, грани, текстура) и Prevailing Colors (преобладающие цвета). Для сходства изображения должны иметь близкие значения этих метрик, то есть похожую композицию, цветовую палитру и стиль.

    Как определяется позиция группы изображений в выдаче?

    Позиция всей группы определяется рангом наиболее релевантного изображения внутри этой группы (Lead Image). Если в вашей серии из 10 фотографий одна очень хорошо оптимизирована под запрос и высоко ранжируется, она вытянет за собой всю группу на высокую позицию в SERP.

    Есть ли минимальное количество изображений для формирования группы?

    Да. Патент явно указывает в Claim 27, что группа включает «не менее четырех изображений». Если группа содержит меньше изображений, система может принять решение расформировать ее и показывать изображения как отдельные результаты. Поэтому для стабильного формирования серии необходимо ориентироваться на 4+ изображения на странице.

    Влияет ли этот патент на сайты, использующие пагинацию для галерей (каждое фото на своем URL)?

    Да, и в основном негативно. Поскольку одним из условий группировки является нахождение изображений на одном URL, сайты, разбивающие галереи на множество страниц (например, attachment pages в WordPress), теряют возможность сформировать серию в Яндекс Картинках. Их изображения будут ранжироваться только индивидуально.

    Патент говорит, что группировка происходит «до получения запроса». Что это значит для SEO?

    Это означает, что процесс группировки происходит во время индексации (офлайн), а не в реальном времени. Для SEO это подчеркивает важность того, чтобы контент был правильно структурирован и доступен для индексации заранее. Вы не можете повлиять на сам процесс группировки во время поиска, только на то, как ваш контент будет обработан индексом.

    Как лучше оптимизировать изображения для попадания в такие группы: делать их почти одинаковыми или разными?

    Нужен баланс. Они должны быть достаточно похожими визуально (стиль, цвет, композиция), чтобы алгоритмы (HOG, Color Histogram) сочли их близкими. Но они также должны представлять ценность для пользователя как серия (например, показывать разные шаги или ракурсы), а не быть просто дубликатами. Почти идентичные изображения могут быть склеены на этапе дедупликации (Image ID).

    Что такое HOG (Histogram of Gradient) и почему это важно?

    HOG (Гистограмма направленных градиентов) — это дескриптор, который описывает структуру и форму объектов на изображении через анализ градиентов интенсивности (границ). Если два изображения имеют схожий HOG, это значит, что у них похожая композиция и расположение объектов. Для SEO это означает, что важно не только цветовое сходство, но и структурное единообразие фотографий в серии.

    Патент описывает просмотр изображений без покидания SERP. Как это влияет на трафик сайта?

    Это может неоднозначно влиять на трафик. С одной стороны, возможность просмотреть серию прямо в выдаче может способствовать Zero-Click поведению. С другой стороны, блок серии более заметен и привлекателен, что может повысить общий CTR. Если серия заинтересовала пользователя, он с большей вероятностью перейдет на источник для получения полной информации.

    Для каких типов сайтов этот механизм наиболее важен?

    Он критически важен для сайтов, где контент естественно формирует визуальные серии. Это включает сайты с рецептами, DIY-инструкциями, мастер-классами, сайты электронной коммерции (несколько фото одного товара), портфолио фотографов, туристические отчеты и любые другие ресурсы, публикующие коллекции связанных изображений.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.