Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google классифицирует страницы-галереи и изменяет их отображение в результатах поиска

    PRESENTING SEARCH RESULTS FOR GALLERY WEB PAGES (Представление результатов поиска для веб-страниц-галерей)
    • US8938441B2
    • Google LLC
    • 2015-01-20
    • 2011-04-28
    2011 SERP Индексация Мультимедиа Патенты Google

    Google использует систему для идентификации веб-страниц, основным контентом которых являются изображения (страницы-галереи). Система анализирует количество, размер, расположение изображений и их структуру в DOM-дереве, исключая рекламу и шаблонные элементы. Если страница классифицируется как галерея, Google применяет специальный формат отображения в SERP, который может включать превью изображений и их количество.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу автоматической идентификации веб-страниц, основным содержанием которых являются изображения (Gallery Web Pages), и последующего изменения формата представления этих страниц в результатах поиска. Цель — предоставить пользователю более релевантный и информативный сниппет, который отражает визуальную природу контента, например, путем включения превью изображений или указания их количества.

    Что запатентовано

    Запатентована система и метод для классификации веб-страниц как Gallery Web Pages и для специального форматирования результатов поиска, ссылающихся на них. Классификация основана на анализе характеристик страницы и изображений (количество, размер, соотношение сторон, расположение, контент, структура DOM) и сравнении агрегированной оценки (Score) с пороговым значением. Если страница идентифицирована как галерея, для нее выбирается и применяется специфичный формат поискового сниппета (gallery-web-page-specific search result format).

    Как это работает

    Система работает в несколько этапов:

    • Сбор данных: Система получает веб-страницу (текст и изображения).
    • Фильтрация изображений: Отбирается первое подмножество изображений, исключая Excluded Content (например, рекламу) и шаблонный контент (boilerplate).
    • Оценка критериев: Каждое изображение из первого подмножества оценивается по критериям: соотношение сторон (Size Ratio), количество пикселей и расположение на странице (Altitude).
    • Отбор кандидатов: Формируется второе подмножество изображений, удовлетворяющих этим критериям.
    • Генерация оценки (Score): Вычисляется оценка страницы на основе количества изображений во втором подмножестве и соотношения площади, занимаемой этими изображениями, к общей площади страницы. Также могут учитываться другие факторы, например, количество текста или структура DOM (DOM Path).
    • Классификация: Если оценка превышает порог, страница классифицируется как Gallery Web Page.
    • Форматирование SERP: При показе этой страницы в результатах поиска система применяет специальный формат сниппета, предназначенный для галерей.

    Актуальность для SEO

    Высокая. Визуальный контент играет ключевую роль в современном поиске. Механизмы, описанные в патенте, напрямую связаны с тем, как Google обрабатывает и представляет страницы с большим количеством изображений (например, в e-commerce, медиа, портфолио). Способность системы идентифицировать основной контент и адаптировать сниппеты (Rich Results) остается критически важной функцией поиска.

    Важность для SEO

    Патент имеет высокое значение для SEO, особенно для сайтов, где изображения являются основным продуктом или контентом. Он описывает конкретные критерии, по которым Google отличает страницы-галереи от текстовых страниц. Понимание этих критериев (размер, расположение, структура DOM, исключение шаблонных элементов) позволяет оптимизировать страницы так, чтобы они были правильно классифицированы и получили преимущества от специальных форматов отображения в SERP, что может значительно повысить CTR.

    Детальный разбор

    Термины и определения

    Altitude (Высота расположения)
    Расположение изображения на веб-странице. Может измеряться в абсолютных (пиксели от верха/низа) или относительных (процент высоты страницы) значениях. Используется для исключения изображений, расположенных слишком высоко или слишком низко.
    Boilerplate (Шаблонный контент)
    Повторяющийся контент на разных страницах одного сайта (навигация, копирайты, контактная информация, иконки). Изображения в таких блоках исключаются из анализа.
    DOM Path (Путь в DOM)
    Иерархическая структура элементов HTML-документа. Используется для группировки изображений, так как изображения в галереях часто имеют одинаковый или похожий путь в DOM.
    Excluded Content (Исключаемый контент)
    Типы контента, которые не должны учитываться при классификации страницы как галереи. Примеры включают порнографический контент, рекламу (advertising content) и шаблонный контент (boilerplate content).
    Gallery Web Page (Веб-страница-галерея)
    Веб-страница, которая включает несколько изображений (и может включать текст), и основным содержанием (principal content) которой являются изображения.
    Gallery-web-page-specific search result format (Специфичный формат результата поиска для галерей)
    Специальный формат сниппета, применяемый к страницам, классифицированным как галереи. Может включать превью изображений, их количество и адаптированный текст.
    Pixel Quantity (Количество пикселей)
    Общее количество пикселей в изображении. Используется как критерий для исключения слишком маленьких изображений (иконок, кнопок).
    Score (Оценка)
    Числовое значение, генерируемое на основе оценки характеристик веб-страницы по предопределенным критериям. Используется для классификации страницы.
    Size Ratio (Соотношение сторон)
    Соотношение ширины к высоте изображения. Используется для исключения слишком узких и высоких или слишком широких и низких изображений (например, баннеров).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает метод классификации веб-страницы как галереи и форматирования результата поиска.

    1. Система получает веб-страницу (текст и изображения).
    2. Отбирается первое подмножество изображений (first subset), которые не относятся к исключаемому типу контента (excluded content-type images), где исключаемый тип — это шаблонный контент (boilerplate content) или реклама (advertising content).
    3. Для каждого изображения в первом подмножестве проверяется соответствие критериям: (I) Соотношение сторон (size ratio) в предопределенном диапазоне; (II) Количество пикселей больше предопределенного порога; ИЛИ (III) Расположение между минимальной и максимальной высотой (altitude) на странице. (Примечание: Хотя в Claim 1 используется «or» между II и III, логика, описанная в Detailed Description и на схемах патента, предполагает последовательную проверку всех критериев для надежной классификации).
    4. Отбирается второе подмножество изображений (second subset) из первого на основе этих проверок.
    5. Определяется (i) количество изображений во втором подмножестве и (ii) соотношение площади, покрытой этими изображениями, к общей площади страницы.
    6. Генерируется оценка (Score) для страницы на основе (i) и (ii).
    7. Страница классифицируется как Gallery Web Page, если оценка соответствует предопределенному порогу.
    8. На основе этой классификации, результат поиска, ссылающийся на эту страницу, форматируется с использованием формата, предназначенного для Gallery Web Pages.

    Claim 4 (Зависимый от 1): Уточняет, что генерация оценки также может включать оценку количества изображений на странице, которые имеют одинаковый путь в DOM (Document Object Model (DOM) path), по сравнению с минимальным значением.

    Claim 9 (Зависимый от 8, который зависит от 1): Уточняет, что генерация оценки также может включать оценку количества текста, который не включен в шаблонную или рекламную секцию, по сравнению с максимальным значением (т.е. текста должно быть мало).

    Где и как применяется

    Изобретение применяется на двух основных этапах поисковой архитектуры: индексирование (для классификации) и метапоиск (для форматирования SERP).

    INDEXING – Индексирование и извлечение признаков
    Основная часть работы происходит здесь. Во время анализа и рендеринга страницы система должна:

    1. Распарсить изображения (Image Parser).
    2. Идентифицировать шаблонные блоки (Boilerplate Identifier) и рекламный контент.
    3. Вычислить характеристики изображений: размер, соотношение сторон, расположение/высоту (Altitude Calculator, Image Area Calculator).
    4. Проанализировать структуру DOM и сгруппировать изображения по DOM Path.
    5. Выполнить процесс классификации (Page Evaluator), сгенерировать Score и присвоить странице метку (label или tag) Gallery Web Page, если она соответствует критериям.
    6. Сгенерировать и сохранить данные для сниппета (например, количество изображений, превью/thumbnails).

    METASEARCH – Метапоиск и Смешивание
    На этапе формирования поисковой выдачи:

    1. Система определяет, что страница, релевантная запросу, имеет метку Gallery Web Page.
    2. Система выбирает gallery-web-page-specific search result format вместо стандартного формата сниппета.
    3. Система заполняет этот формат данными, подготовленными на этапе индексирования (превью, количество изображений) и генерирует итоговый вид SERP.

    Входные данные:

    • HTML-документ веб-страницы и связанные изображения.
    • Данные рендеринга (размеры элементов, расположение).
    • Предопределенные критерии и пороги (диапазоны соотношения сторон, минимальный размер в пикселях, пороги высоты, минимальное количество изображений, максимальное количество текста).

    Выходные данные:

    • Классификация страницы (Gallery Web Page или нет) и соответствующая метка (tag) в индексе.
    • Данные для генерации сниппета (количество релевантных изображений, thumbnails).

    На что влияет

    • Конкретные типы контента: Влияет на страницы, где изображения являются основным контентом. Это включает списки товаров (листинги в e-commerce), фотогалереи, портфолио, страницы рецептов с большим количеством фотографий.
    • Специфические запросы: Влияет на запросы, где пользователи ожидают увидеть визуальный контент (например, «фотографии гранд каньона», «платья на выпускной», «дизайн интерьера кухни»).
    • Конкретные ниши или тематики: E-commerce, путешествия, мода, дизайн, медиа.

    Когда применяется

    Алгоритм классификации применяется во время индексирования или переиндексирования веб-страницы.

    • Триггеры активации: Наличие нескольких изображений на странице может инициировать процесс оценки.
    • Условия применения специального формата SERP: Применяется, когда (1) страница релевантна запросу И (2) страница классифицирована как Gallery Web Page.
    • Пороговые значения: Система использует множество порогов. В патенте приведены примеры: минимальное количество изображений (например, 4 или 6), минимальный размер изображения (например, 3600 пикселей), допустимые соотношения сторон (например, от 3:5 до 5:3), пороги высоты (например, не в нижних 20% страницы), минимальная общая площадь изображений (например, 60% страницы), максимальное количество текста (например, 100 слов).

    Пошаговый алгоритм

    Процесс классификации веб-страницы как Gallery Web Page.

    Этап 1: Получение и первичная обработка страницы

    1. Получить веб-страницу (HTML и ресурсы).
    2. Распарсить и отрендерить страницу для определения структуры DOM и визуальных характеристик элементов.

    Этап 2: Идентификация и фильтрация изображений (Первое подмножество)

    1. Идентифицировать все изображения на странице.
    2. Исключить изображения, относящиеся к Excluded Content:
      • Определить шаблонные секции (Boilerplate). Исключить изображения в этих секциях.
      • Идентифицировать и исключить рекламный контент.
    3. Сформировать первое подмножество релевантных изображений.

    Этап 3: Оценка индивидуальных критериев изображений (Второе подмножество)

    1. Для каждого изображения из первого подмножества выполнить проверку (см. FIG. 4 патента):
      • Проверка соотношения сторон (Size Ratio): Соответствует ли соотношение сторон предопределенному диапазону. Если нет, исключить.
      • Проверка размера (Pixel Quantity): Превышает ли количество пикселей минимальный порог. Если нет, исключить.
      • Проверка расположения (Altitude): Находится ли изображение в допустимой зоне на странице (не слишком низко). Если нет, исключить.
    2. Сформировать второе подмножество (кандидаты в галерею) из изображений, прошедших все проверки.

    Этап 4: Анализ структуры DOM (Опционально, согласно Claims 4 и Detailed Description)

    1. Определить DOM Path для изображений.
    2. Сгруппировать изображения по одинаковым DOM Path (с возможным игнорированием некоторых элементов, например, <a>).
    3. Оценить размер самой большой группы. Если он ниже порога (например, 4), это может негативно повлиять на итоговую оценку.

    Этап 5: Генерация оценки (Score) и классификация

    1. Вычислить характеристики второго подмножества: количество изображений и общую площадь.
    2. Вычислить соотношение площади изображений к общей площади страницы.
    3. (Опционально) Определить количество текста вне шаблонных и рекламных блоков.
    4. Сгенерировать итоговую оценку (Score) на основе этих метрик.
    5. Сравнить Score с предопределенным порогом. Если порог превышен, классифицировать страницу как Gallery Web Page и пометить ее в индексе.

    Этап 6: Подготовка данных для SERP

    1. Если страница классифицирована как галерея, записать общее количество релевантных изображений.
    2. Создать и сохранить миниатюры (thumbnails) для подмножества изображений для использования в сниппете.

    Какие данные и как использует

    Данные на входе

    Система использует комбинацию технических, контентных, структурных и мультимедиа факторов, извлеченных из веб-страницы.

    • Технические факторы: Данные рендеринга страницы (визуальное расположение и размеры элементов).
    • Структурные факторы:
      • DOM-дерево: Используется для определения DOM Path изображений и группировки схожих элементов.
      • HTML-элементы: Анализ тегов (например, <IMG>, <TABLE>, <DIV>, <A>) для понимания структуры.
    • Мультимедиа факторы:
      • Размеры изображений: Ширина и высота в пикселях.
      • Соотношение сторон: Отношение ширины к высоте.
      • Контент изображений: Анализ контента для выявления исключаемых типов (реклама).
    • Контентные факторы:
      • Текст страницы: Количество текста (например, количество слов) вне шаблонных блоков используется для определения, является ли страница преимущественно визуальной или текстовой.

    Какие метрики используются и как они считаются

    Система использует следующие ключевые метрики и пороги:

    • Size Ratio Check: Проверка, находится ли соотношение W/H (ширина/высота) в заданном диапазоне (например, от 3:5 до 5:3).
    • Pixel Quantity Threshold: Минимальное количество пикселей (например, 3600).
    • Altitude Thresholds: Минимальная и/или максимальная высота расположения на странице (например, не в нижних 50 пикселях или нижних 20%).
    • Image Quantity Threshold: Минимальное количество изображений, удовлетворяющих критериям.
    • Image Area Ratio: Соотношение (Общая площадь кандидатов в галерею) / (Общая площадь страницы). Сравнивается с порогом (например, 60%).
    • Text Amount Threshold: Максимальное количество слов вне Boilerplate.
    • Pixel-to-Text Ratio: Соотношение (Общее количество пикселей кандидатов) / (Количество слов). Сравнивается с порогом (например, 3000:1).
    • DOM Path Group Size: Минимальное количество изображений, имеющих одинаковый DOM Path (например, 4).
    • Score: Агрегированная оценка, вычисляемая на основе вышеуказанных метрик. Сравнивается с финальным порогом классификации.

    Выводы

    1. Google различает типы страниц по их основному контенту: Существует специфический механизм для идентификации страниц, где изображения являются principal content (Gallery Web Pages). Это не просто анализ количества изображений, а комплексная оценка структуры и контента.
    2. Специальное представление в SERP для галерей: Классификация как Gallery Web Page является триггером для изменения формата сниппета. Google стремится сделать SERP более визуальным для таких страниц, показывая превью и количество изображений.
    3. Важность чистой структуры и исключение мусора: Система активно фильтрует изображения, которые считает нерелевантными основному контенту. Реклама, иконки, элементы навигации и изображения в футере (Boilerplate) исключаются из анализа.
    4. Критерии качества и размера изображений: Чтобы изображение учитывалось, оно должно быть достаточно большим (Pixel Quantity), иметь «нормальное» соотношение сторон (Size Ratio) и располагаться в основной части контента (Altitude).
    5. Структура DOM имеет значение: Система ищет паттерны в коде. Изображения галереи часто структурно похожи и имеют одинаковый DOM Path. Хаотичная структура может помешать классификации.
    6. Баланс изображений и текста: Для классификации страницы как галереи важно не только большое количество изображений, но и их доминирование над текстом (высокий Image Area Ratio или Pixel-to-Text Ratio, низкое Text Amount).

    Практика

    Best practices (это мы делаем)

    • Оптимизация листингов и галерей для классификации: Для страниц, которые должны быть идентифицированы как галереи (например, категории товаров, фоторепортажи), убедитесь, что основные изображения соответствуют критериям:
      • Используйте достаточно крупные изображения (выше предполагаемого порога Pixel Quantity).
      • Соблюдайте стандартные соотношения сторон (например, 1:1, 4:3, 16:9).
      • Размещайте основные изображения в главной контентной области, избегая их смещения в самый низ страницы (Altitude).
    • Использование чистой и последовательной структуры DOM: Организуйте изображения галереи или листинга с использованием одинаковой структуры HTML-элементов. Это помогает системе идентифицировать их как группу (DOM Path Group). Использование <ul>/<li> или структурированных <div> для элементов листинга является хорошей практикой.
    • Отделение основного контента от Boilerplate: Убедитесь, что шаблонные элементы (навигация, футер) структурно отделены от основного контента, чтобы минимизировать риск того, что основные изображения будут классифицированы как Boilerplate. Используйте семантические теги (например, <main>) для основного контента.
    • Оптимизация соотношения контента: На страницах-галереях следите за тем, чтобы визуальный контент доминировал над текстом. Большие блоки текста могут снизить вероятность классификации страницы как Gallery Web Page.

    Worst practices (это делать не надо)

    • Использование мелких изображений или нестандартных пропорций: Использование миниатюр низкого разрешения в качестве основных изображений или использование очень длинных/узких форматов приведет к тому, что эти изображения будут проигнорированы.
    • Размещение важных изображений в футере: Изображения, расположенные в самом низу страницы, с большой вероятностью будут исключены из анализа по критерию Altitude или классифицированы как Boilerplate.
    • Хаотичная или непоследовательная верстка: Различная HTML-структура для однотипных элементов (например, товаров в листинге) затрудняет группировку по DOM Path и может помешать идентификации галереи.
    • Перегрузка страниц рекламой вперемешку с контентом: Агрессивное внедрение рекламных изображений, которые структурно похожи на основной контент, может усложнить системе отделение полезных изображений от advertising content.

    Стратегическое значение

    Патент подчеркивает важность структурирования данных и технического SEO для корректной интерпретации контента поисковыми системами. Для E-commerce и контентных проектов стратегически важно обеспечить, чтобы их визуальный контент был правильно классифицирован. Это напрямую влияет на видимость и привлекательность в SERP. Правильная классификация как Gallery Web Page может дать значительное преимущество в CTR за счет более информативных и визуально насыщенных сниппетов.

    Практические примеры

    Сценарий: Оптимизация страницы категории E-commerce (Листинг товаров)

    Цель: Гарантировать, что страница категории классифицируется как Gallery Web Page и получает расширенный сниппет с превью товаров.

    1. Анализ изображений: Проверить, что все изображения товаров имеют размер не менее 200×200 пикселей (для запаса по порогу Pixel Quantity) и одинаковое соотношение сторон (например, 1:1).
    2. Анализ расположения: Убедиться, что листинг начинается высоко на странице и что пагинация не смещает первые ряды товаров слишком низко (Altitude).
    3. Анализ структуры DOM: Проверить код страницы. Каждый товар должен иметь одинаковую структуру, например:
      <li class="product-item">   <a href="...">     <img src="...">     <h3>Название товара</h3>   </a> </li>

      Это позволит системе сгруппировать все элементы <li> по общему DOM Path (тег <a> может игнорироваться при сравнении).

    4. Анализ текста: Минимизировать количество текста до листинга. Длинные SEO-тексты размещать после основного блока товаров или скрывать часть контента, чтобы не нарушать Pixel-to-Text Ratio.
    5. Ожидаемый результат: Страница классифицируется как Gallery Web Page. В SERP появляется сниппет с указанием количества товаров и/или каруселью превью.

    Вопросы и ответы

    Что такое «Gallery Web Page» согласно патенту?

    Это веб-страница, основным содержанием (principal content) которой являются изображения. Это не просто страница с картинками, а страница, где визуальный контент доминирует над текстом и соответствует определенным критериям качества и структуры.

    Какие основные критерии используются для определения того, является ли страница галереей?

    Система оценивает комплекс факторов: количество изображений, удовлетворяющих критериям; соотношение площади, занимаемой изображениями, к общей площади страницы; структуру DOM (одинаковый DOM Path для группы изображений); и количество текста. Ни один фактор сам по себе не является определяющим, важна итоговая оценка (Score).

    Какие изображения система игнорирует при анализе?

    Система активно исключает Excluded Content: рекламу, изображения в шаблонных блоках (Boilerplate), таких как навигация или футер. Также игнорируются слишком маленькие изображения (Pixel Quantity), изображения с нестандартным соотношением сторон (например, баннеры) и изображения, расположенные слишком низко на странице (Altitude).

    Почему важна структура DOM для классификации галерей?

    Система предполагает, что элементы галереи (например, товары в листинге) обычно имеют схожее оформление и верстку, и, следовательно, одинаковый DOM Path. Наличие большой группы изображений с одинаковым путем является сильным сигналом того, что эти изображения являются основным контентом страницы. Это подчеркивает важность чистой и консистентной верстки.

    Как SEO-тексты на странице категории влияют на классификацию?

    Наличие большого количества текста может помешать классификации страницы как Gallery Web Page. Система оценивает соотношение пикселей к тексту (Pixel-to-Text Ratio) или общее количество слов. Если текста слишком много, система может решить, что основным контентом является текст, а не изображения.

    Мой сайт использует JavaScript для загрузки изображений. Увидит ли их эта система?

    Да, если система применяется на этапе индексирования, который включает рендеринг страницы. Система анализирует отрендеренную страницу для определения визуальных характеристик (размеров, расположения) и финальной структуры DOM. Если изображения загружаются и отображаются во время рендеринга, они будут учтены.

    Какие преимущества дает классификация страницы как «Gallery Web Page»?

    Основное преимущество — применение специального формата сниппета в результатах поиска (gallery-web-page-specific search result format). Это может включать показ превью изображений, указание их количества, что делает сниппет более заметным и информативным, потенциально увеличивая CTR.

    Указаны ли в патенте точные пороговые значения (например, минимальный размер изображения)?

    В описании патента приводятся примеры порогов (например, 3600 пикселей, соотношение 5:3, 6 изображений), но в формуле изобретения (Claims) используются общие термины, такие как «предопределенный порог» (predefined threshold). Это означает, что Google может изменять конкретные значения без нарушения патента.

    Как система обрабатывает ссылки на изображениях при анализе DOM Path?

    В патенте упоминается, что система может игнорировать определенные HTML-элементы, которые не оказывают существенного влияния на форматирование или расположение, при сравнении DOM Path. В примере указано, что элемент <A> (ссылка) может быть проигнорирован. Это означает, что изображение внутри ссылки и изображение без ссылки могут считаться имеющими одинаковый релевантный путь.

    Влияет ли эта классификация на ранжирование?

    Патент фокусируется на классификации контента и изменении его представления в SERP, а не на изменении его позиции в ранжировании напрямую. Однако получение более привлекательного сниппета может косвенно улучшить поведенческие факторы (CTR), что может положительно сказаться на ранжировании в долгосрочной перспективе.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.