Google использует два метода для определения главного изображения страницы (Primary Image). Первый анализирует визуальное сходство между изображениями на странице и миниатюрами, которые используют внешние сайты при ссылке на нее. Второй анализирует общую структуру HTML (DOM path) сайта, чтобы найти наиболее частое расположение главных изображений и применить этот шаблон ко всему сайту.
Описание
Какую задачу решает
Патент решает задачу алгоритмического определения того, какое изображение на веб-странице является основным и наиболее репрезентативным для ее содержания (Primary Image). Это необходимо для того, чтобы отличить главное изображение (например, иллюстрацию к статье или фото продукта) от второстепенных элементов, таких как логотипы, реклама или иконки навигации. Точная идентификация важна для визуального представления страницы в SERP и ранжирования в поиске по картинкам.
Что запатентовано
Запатентована система для классификации изображений как Primary Image с использованием двух различных подходов. Первый метод основан на анализе внешних сигналов: он сравнивает изображения на целевой странице с миниатюрами (thumbnail images), которые используются на других сайтах в гиперссылках, ведущих на эту страницу. Второй метод основан на анализе внутренних структурных сигналов: он определяет наиболее часто встречающийся путь к объекту (Object Path или DOM path) для основных изображений в рамках одного сайта и использует эту структуру как шаблон.
Как это работает
Система использует два основных механизма:
- Метод 1 (Визуальное сходство и внешние сигналы): Система находит внешние страницы, которые ссылаются на целевую страницу, используя изображение в качестве анкоря ссылки. Эти миниатюры собираются и валидируются на предмет их сходства между собой. Затем система сравнивает изображения на целевой странице с этими миниатюрами. Изображение, имеющее наивысший показатель визуального сходства (Visual Similarity Score), помечается как Primary Image.
- Метод 2 (Структурный анализ): Система анализирует страницы сайта, для которых Primary Image уже определено. Она извлекает DOM paths этих изображений. Самый частый DOM path определяется как основной путь (Primary Image Path) для сайта. Затем система применяет этот путь к другим страницам сайта, чтобы найти изображения в той же структурной позиции.
Актуальность для SEO
Высокая. Определение главного изображения страницы остается критически важной задачей для Google, поскольку оно используется в Google News, Discover, в расширенных сниппетах и для ранжирования в Google Images. Описанные в патенте методы (анализ структуры DOM и использование внешних сигналов для валидации контента) являются фундаментальными и актуальными подходами к извлечению данных (Data Extraction).
Важность для SEO
Патент имеет значительное влияние на SEO (7.5/10). Он напрямую влияет на то, как страница визуально представлена в результатах поиска. Кроме того, в патенте явно упоминается, что поисковая система может «добавить буст (boost) к ranking score основного изображения» при ранжировании в Image Search. Это подчеркивает важность консистентной технической архитектуры сайта (для Метод 2) и наличия четких визуальных активов.
Детальный разбор
Термины и определения
- Primary Image (Основное изображение)
- Изображение на веб-странице, которое система идентифицирует как главное или наиболее репрезентативное для содержания этой страницы.
- Target Web Page (Целевая веб-страница)
- Страница, для которой система пытается определить Primary Image.
- Thumbnail Image (Миниатюра)
- Изображение, используемое внутри гиперссылки (например, внутри тега <a>) на внешнем сайте, которая ведет на Target Web Page (ссылка-картинка).
- Visual Similarity Score (Показатель визуального сходства)
- Числовая метрика (например, от 0.0 до 1.0), определяющая степень визуального сходства между двумя изображениями. При сравнении с набором миниатюр может рассчитываться как медиана, среднее значение или наименьшее значение сходства.
- Minimum Similarity Threshold (Минимальный порог сходства)
- Пороговое значение, которое должен превысить Visual Similarity Score, чтобы изображение могло быть классифицировано как Primary Image. Также используется для проверки консистентности внешних миниатюр.
- Object Path / DOM Path (Путь к объекту / DOM-путь)
- Структурный путь, описывающий местоположение изображения в объектной модели документа (DOM) веб-страницы (например, /html/body/div/div/a/img).
- Primary Image Path (Основной путь изображения)
- Наиболее часто встречающийся Object Path для основных изображений в рамках одного веб-сайта. Используется как шаблон для сайта.
Ключевые утверждения (Анализ Claims)
Патент содержит два основных независимых пункта (Claim 1 и Claim 10), описывающих два разных метода.
Claim 1 (Метод 1: Визуальное сходство и внешние сигналы): Описывает процесс идентификации основного изображения на основе внешних ссылок.
- Идентификация всех изображений на целевой веб-странице.
- Идентификация гиперссылок на других веб-страницах, которые (i) ведут на целевую страницу и (ii) содержат тег изображения для соответствующей миниатюры (thumbnail image).
- Определение Visual Similarity Score для каждого изображения на целевой странице по отношению к набору миниатюр.
- Идентификация изображения на странице, которое имеет наивысший Visual Similarity Score, удовлетворяющий Minimum Similarity Threshold.
- Маркировка этого изображения как Primary Image.
Claims 4-9 (Зависимые от 1): Детализируют критически важное условие валидации для Метод 1. Система должна сначала убедиться, что сами внешние миниатюры визуально похожи друг на друга (Claim 4). Это гарантирует согласованность внешнего сигнала. Сходство может означать идентичность или сходство в пределах определенного порога для всех или подавляющего большинства миниатюр.
Claim 10 (Метод 2: Структурный анализ): Описывает процесс идентификации основного изображения на основе шаблонов сайта.
- Идентификация на веб-сайте набора страниц, у которых уже есть изображение, помеченное как Primary Image (например, с помощью Метода 1).
- Идентификация соответствующих Object Path (конкретно DOM path) для каждого из этих основных изображений.
- Определение наиболее часто встречающегося Object Path как Primary Image Path для веб-сайта.
- Идентификация на сайте страницы, у которой нет Primary Image, но которая содержит изображение, расположенное по Primary Image Path.
- Маркировка этого изображения как Primary Image для данной страницы.
Claims 12-13 (Зависимые от 10): Уточняют, что определение Primary Image Path требует, чтобы этот путь встречался с определенной пороговой частотой (например, 0.75, 0.85), гарантируя, что путь является доминирующим шаблоном.
Где и как применяется
Изобретение применяется преимущественно на этапе индексирования для извлечения ключевого признака страницы.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необходимые данные: контент целевой страницы (HTML, изображения) и данные о внешних страницах (для идентификации ссылок и используемых в них миниатюр).
INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Система выполняет:
- Рендеринг и анализ DOM для определения DOM paths изображений.
- Анализ ссылочного графа для поиска внешних ссылок, содержащих Thumbnail Images.
- Визуальный анализ (Computer Vision) для расчета Visual Similarity Scores (Метод 1).
- Анализ структуры сайта для определения Primary Image Path (Метод 2).
Результат — метка Primary Image — сохраняется в индексе.
RANKING – Ранжирование
Метка Primary Image используется как сигнал ранжирования. В патенте явно указано, что поисковая система может «добавить буст (boost) к ranking score основного изображения, которое было идентифицировано как результат поиска, при ранжировании этого изображения относительно других изображений» (т.е. в Image Search).
METASEARCH – Метапоиск и Смешивание
На этом этапе Primary Image используется для генерации визуальных сниппетов в SERP, Google News или Discover. Патент утверждает, что Primary Image используется для обеспечения визуального представления веб-страницы.
Входные данные:
- HTML и DOM структура целевой страницы.
- Изображения (пиксельные данные) на целевой странице.
- Данные о внешних ссылках (теги <a> и <img>) и пиксельные данные внешних миниатюр.
Выходные данные:
- Идентификация конкретного изображения как Primary Image.
- Определение Primary Image Path для сайта.
На что влияет
- Конкретные типы контента: Наибольшее влияние на контент, где визуальное представление критично: новостные статьи, рецепты, страницы товаров (PDP).
- Форматы контента: Влияет на то, как контент будет представлен в Image Search и Discover. Патент также упоминает возможность применения аналогичной логики (Метод 1) для идентификации основного видео (Primary Video) путем сравнения кадров видео с внешними миниатюрами.
Когда применяется
- Условия применения: Алгоритмы применяются во время индексирования или переиндексирования контента.
- Триггеры активации (Метод 1): Наличие достаточного количества внешних гиперссылок, использующих изображения в качестве анкоров. Критическое условие: эти внешние миниатюры должны быть визуально согласованы между собой (сходство выше порога).
- Триггеры активации (Метод 2): Наличие достаточного количества уже идентифицированных Primary Images на сайте для выявления статистически значимого структурного шаблона. Требуется, чтобы частота доминирующего DOM path превышала определенный порог (например, 0.75, 0.85).
Пошаговый алгоритм
Алгоритм 1: Идентификация Primary Image на основе внешних сигналов
- Сбор данных о странице: Идентифицировать все изображения на целевой веб-странице.
- Сбор внешних данных: Идентифицировать гиперссылки на других сайтах, которые ссылаются на целевую страницу и содержат миниатюру.
- Валидация внешних сигналов (Предварительный шаг): Определить, являются ли внешние миниатюры визуально похожими друг на друга. Если нет, сигнал считается ненадежным, и процесс может остановиться.
- Расчет визуального сходства: Для каждого изображения на целевой странице рассчитать Visual Similarity Score по отношению к набору внешних миниатюр (например, как медиану или среднее значение сходства).
- Выбор кандидата: Идентифицировать изображение на странице с наивысшим Visual Similarity Score.
- Применение порога: Убедиться, что наивысший Score удовлетворяет Minimum Similarity Threshold.
- Маркировка: Пометить выбранное изображение как Primary Image в индексе.
Алгоритм 2: Идентификация Primary Image на основе структуры сайта
- Анализ сайта: Идентифицировать веб-страницы на сайте, для которых уже определено Primary Image.
- Извлечение путей: Определить DOM paths для каждого из этих основных изображений.
- Определение шаблона: Идентифицировать наиболее часто встречающийся DOM path. Если его частота превышает порог, определить его как Primary Image Path для сайта.
- Поиск целей: Идентифицировать страницу на сайте, у которой еще нет Primary Image.
- Применение шаблона: Проверить, существует ли на этой странице изображение, расположенное по адресу Primary Image Path.
- Маркировка: Если изображение найдено, пометить его как Primary Image в индексе.
Какие данные и как использует
Данные на входе
- Мультимедиа факторы: Пиксельные данные изображений (как на целевой странице, так и внешних миниатюр) для выполнения визуального сравнения.
- Структурные факторы: HTML-код и DOM-структура страницы. Критически важны для определения DOM paths изображений.
- Технические факторы: URL изображений, атрибуты src в тегах <img>.
- Ссылочные факторы: Входящие ссылки с других сайтов. Система анализирует структуру этих ссылок, в частности наличие тегов <img> внутри тегов <a> (image anchors).
Какие метрики используются и как они считаются
- Visual Similarity Score: Рассчитывается с использованием техник компьютерного зрения. В патенте упоминаются detecting and comparing edges (сравнение краев) или keypoint matching (сопоставление ключевых точек). Значение обычно нормализуется (например, от 0.0 до 1.0).
- Minimum Similarity Threshold: Предопределенный порог для определения, считаются ли два изображения достаточно похожими. В патенте упоминаются примеры порогов, такие как 0.90, 0.95, 0.98.
- Частота DOM path: Статистический показатель, определяющий, как часто определенный DOM path используется для основных изображений на сайте.
- Порог частоты для Primary Image Path: Минимальная частота, необходимая для того, чтобы DOM path был признан шаблоном для всего сайта. В патенте упоминаются примеры порогов, такие как 0.75, 0.8, 0.9.
Выводы
- Двойной подход к идентификации: Google использует как внешние (off-page), так и внутренние (on-page) сигналы для определения основного изображения. Метод 1 полагается на «мнение веба» (как другие сайты визуально представляют вашу страницу), а Метод 2 — на техническую структуру вашего сайта.
- Важность согласованности внешних сигналов: Система не доверяет внешним миниатюрам слепо. Она требует, чтобы эти миниатюры были визуально похожи друг на друга (Claim 4). Несогласованные или шумные сигналы игнорируются.
- Критичность технической структуры сайта (Template Analysis): Метод 2 явно демонстрирует, как Google использует анализ шаблонов на основе DOM paths. Последовательная и чистая HTML-структура позволяет системе надежно извлекать Primary Image в масштабе всего сайта.
- Прямое преимущество в ранжировании: Идентификация изображения как основного дает ему прямые преимущества. Патент явно указывает на возможность повышения рейтинга (boosting) этого изображения в поиске по картинкам, помимо его использования в сниппетах.
- Взаимодополняемость методов: Методы дополняют друг друга. Метод 1 может использоваться для сбора начальных данных об основных изображениях, которые затем позволяют системе выявить структурный шаблон для применения Метода 2 в масштабе всего сайта.
- Применимость к видео: Описанные методы также могут быть использованы для идентификации основного видео (Primary Video) на странице.
Практика
Best practices (это мы делаем)
- Обеспечение консистентности шаблонов (Technical SEO): Используйте единые шаблоны для однотипных страниц (например, статьи блога, карточки товаров). Основное изображение должно находиться в одном и том же DOM path на всех страницах данного типа. Это позволит Google легко определить Primary Image Path (Метод 2).
- Чистая и стабильная HTML-структура: Убедитесь, что основное изображение размещено в семантически значимом блоке и его DOM path стабилен. Избегайте сложных конструкций JavaScript или динамических классов, которые могут изменять путь к основному изображению при каждой загрузке.
- Оптимизация под Image Search: Поскольку Primary Image может получать буст в ранжировании в поиске по картинкам, необходимо уделять особое внимание оптимизации именно этого изображения (качество, размер, alt-текст, название файла).
- Контроль внешнего представления (PR/Outreach): При распространении контента (включая социальные сети и синдикацию) предоставляйте качественную миниатюру, которая точно соответствует главному изображению. Это повышает вероятность того, что внешние сайты будут использовать именно эту миниатюру при ссылке, усиливая сигнал для Метода 1.
Worst practices (это делать не надо)
- Использование разных шаблонов для однотипных страниц: Если каждая статья или товар на сайте имеет уникальную верстку и разное расположение основного изображения, Google не сможет определить Primary Image Path (Метод 2 не сработает).
- Сложная и нестабильная структура DOM: Использование динамических элементов, которые изменяют структуру DOM вокруг основного изображения, затрудняет идентификацию стабильного DOM path.
- Размещение рекламы в основном пути: Размещение рекламных баннеров или второстепенных изображений в том месте DOM, которое система может ошибочно интерпретировать как Primary Image Path.
- Манипуляции с внешними ссылками-изображениями: Попытки создать множество внешних ссылок с разными или нерелевантными изображениями в качестве анкоров будут неэффективны, так как система проверяет визуальную согласованность этих миниатюр (Claim 4).
Стратегическое значение
Патент подтверждает стратегическую важность технической архитектуры сайта для интерпретации контента поисковыми системами. Google активно использует анализ шаблонов (Template Analysis) для извлечения данных в масштабе. Для SEO-специалистов это означает, что согласованность верстки и чистота кода напрямую влияют на то, насколько эффективно Google сможет извлечь и использовать ключевые элементы страницы. Это критически важно для максимизации видимости в Image Search и обеспечения корректного визуального представления сайта в SERP и Discover.
Практические примеры
Сценарий 1: Оптимизация интернет-магазина (E-commerce) (Метод 2)
- Ситуация: Крупный интернет-магазин имеет консистентную верстку, где главное фото товара всегда находится по DOM пути: /body/main/div[@id=’product-image’]/img.
- Работа алгоритма: Google анализирует часть страниц, определяет, что этот DOM-путь является Primary Image Path для сайта (так как его частота >90%).
- Результат: Для всех карточек товаров, даже новых, Google мгновенно и точно определяет главное изображение, используя этот путь. Это улучшает ранжирование в Image Search и корректное отображение сниппетов в Google Shopping и основной выдаче.
Сценарий 2: Улучшение видимости новостной статьи (Метод 1)
- Ситуация: Новостной сайт опубликовал статью с несколькими изображениями.
- Действие внешних сайтов: Несколько авторитетных блогов и агрегаторов сослались на эту статью, используя первое изображение из статьи в качестве ссылки-миниатюры (Thumbnail Image).
- Работа алгоритма: Google видит консистентные входящие ссылки с одинаковыми миниатюрами. Он сравнивает их с изображениями на странице статьи. Первое изображение имеет наивысший Visual Similarity Score.
- Результат: Google помечает первое изображение как Primary Image и использует его в сниппете в Google News и веб-поиске.
Вопросы и ответы
Что такое DOM Path и почему он важен в контексте этого патента?
DOM Path (Document Object Model Path) — это точный структурный адрес элемента на странице, например, /html/body/article/img[1]. В патенте он критически важен для Метода 2. Если основные изображения на вашем сайте всегда находятся по одному и тому же DOM Path, Google определяет этот путь как шаблон (Primary Image Path) и использует его для надежной идентификации основных изображений на всех страницах сайта.
Влияет ли этот патент на ранжирование в Google Images?
Да, напрямую. В патенте явно указано, что поисковая система может добавить «буст» (повышение) к ranking score изображения, которое было идентифицировано как Primary Image, при его ранжировании относительно других изображений. Это делает оптимизацию главных изображений критически важной для трафика из поиска по картинкам.
Что произойдет, если внешние сайты ссылаются на мою страницу, используя разные изображения в качестве миниатюр?
Система имеет механизм валидации (Claim 4). Она проверяет, являются ли эти внешние миниатюры визуально похожими друг на друга. Если они сильно отличаются (т.е. их сходство ниже порога), сигнал считается ненадежным (шумным), и Метод 1 (основанный на внешних ссылках), скорее всего, не сработает для этой страницы.
Что важнее для определения Primary Image: внешние ссылки (Метод 1) или структура сайта (Метод 2)?
Оба метода важны и дополняют друг друга. Метод 1 дает сильный сигнал, основанный на внешней валидации, но зависит от наличия ссылок-картинок. Метод 2 позволяет Google масштабировать понимание на весь сайт, используя консистентность шаблонов, и работает даже без внешних ссылок. Идеальная стратегия — обеспечить консистентную структуру и получать качественные внешние сигналы.
Как Google определяет, что два изображения «визуально похожи»?
Патент упоминает использование функции сходства, которая возвращает числовое значение (Visual Similarity Score), например, от 0.0 до 1.0. Упоминаются стандартные техники анализа изображений, такие как обнаружение и сравнение краев (edge detection) или сопоставление ключевых точек (keypoint matching) в регионах изображений.
Заменяет ли этот патент использование Open Graph (og:image) или Schema.org (image)?
Патент не упоминает микроразметку. Описанные методы являются независимыми алгоритмическими способами определения главного изображения. Разметка (OG, Schema) дает возможность явно указать предпочтительное изображение, но алгоритмы из патента могут использоваться как для валидации разметки, так и в качестве основного метода, если разметка отсутствует или ей не доверяют.
Насколько важна консистентность структуры для Метода 2?
Она критически важна. Патент упоминает использование пороговых значений частоты (например, 0.75, 0.8, 0.9) для определения Primary Image Path. Если только 50% основных изображений находятся в одном месте, а остальные разбросаны по разным DOM Paths, система не сможет определить надежный шаблон для всего сайта.
Может ли этот механизм идентифицировать основное видео?
Да, патент явно упоминает, что Метод 1 может быть применен к видео для идентификации Primary Video. В этом случае система будет сравнивать кадры из видео (например, первый кадр) с внешними миниатюрами, используемыми в ссылках на страницу.
Что делать, если мой сайт использует сложный JavaScript и динамический рендеринг?
Сложный рендеринг может затруднить определение стабильного DOM Path. Если структура DOM меняется при каждой загрузке или если путь к изображению слишком запутан, Метод 2 может работать ненадежно. В этом случае критически важно обеспечить, чтобы финальная структура после рендеринга была максимально чистой и последовательной между разными страницами.
Как проверить, какой DOM Path у основного изображения на моем сайте?
Вы можете использовать инструменты разработчика в браузере (DevTools). Кликните правой кнопкой мыши на изображении, выберите «Inspect» (Просмотреть код). В панели Elements кликните правой кнопкой мыши на теге <img>, выберите Copy -> Copy XPath. Сравните этот путь на нескольких типовых страницах, чтобы убедиться в его консистентности.