Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google индексирует визуальные и аудио характеристики страниц для поиска по внешнему виду и звучанию

    SEARCHING BASED ON AUDIO AND/OR VISUAL FEATURES OF DOCUMENTS (Поиск на основе аудио и/или визуальных характеристик документов)
    • US20150161116A1
    • Google LLC
    • 2015-06-11
    • 2012-03-19
    2012 Индексация Мультимедиа Патенты Google

    Google индексирует не только текст, но и визуальные/аудио характеристики страниц (цвет фона, размер текста, стиль дизайна, музыку, объекты на изображениях). Это позволяет пользователям находить контент по его внешнему виду или звучанию, используя специальные операторы (например, «background:gray»), что полезно для повторного нахождения контента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему повторного нахождения информации (known-item retrieval или refinding). Часто пользователи помнят, как выглядела или звучала ранее посещенная веб-страница (например, ее цвет фона, стиль дизайна или наличие музыки), но не могут вспомнить ее URL или точное текстовое содержание. Изобретение позволяет использовать эти сенсорные (визуальные и слуховые) характеристики в качестве критериев поиска.

    Что запатентовано

    Запатентована система индексирования и поиска, которая извлекает визуальные (Visual Features) и аудио (Audible Features) характеристики документов во время индексации. Эти нетекстовые характеристики преобразуются в индексируемые ключевые слова (keywords). Это позволяет системе отвечать на запросы, включающие описание внешнего вида или звучания контента, используя специальный синтаксис.

    Как это работает

    Система работает на этапах индексирования и поиска:

    • Индексирование и Извлечение: Система анализирует HTML/CSS, выполняет рендеринг (rendering) страницы и анализирует связанные медиафайлы. Извлекаются характеристики (цвет фона, стиль музыки, объекты на изображении), в том числе с помощью машинного обучения.
    • Генерация ключевых слов: Извлеченные характеристики преобразуются в текстовые keywords (например, background:gray) и добавляются в индекс документа.
    • Поиск: Пользователь может ввести запрос, содержащий специальные операторы в формате feature:search term. Поисковая система использует эти операторы для фильтрации (Retrieval) результатов по индексированным аудиовизуальным характеристикам.

    Актуальность для SEO

    Средняя. Базовые технологии, описанные в патенте (анализ медиаконтента с помощью ML, рендеринг страниц), крайне актуальны и постоянно развиваются, особенно в вертикальных поисках (Google Images, Video). Однако специфическая функциональность поиска по элементам дизайна (цвет фона, размер текста) с использованием явных текстовых операторов в основном веб-поиске не получила широкого распространения и является нишевой.

    Важность для SEO

    Влияние на стандартные SEO-стратегии низкое (3/10). Патент фокусируется на механизме извлечения признаков (Feature Extraction) и сопоставления (Retrieval) по явным запросам пользователя, а не на использовании этих характеристик как сигналов ранжирования (Ranking) для общих запросов. Однако патент критически важен для понимания глубины индексации Google: он подтверждает, что система детально анализирует и индексирует дизайн, визуальный стиль и мультимедийный контент.

    Детальный разбор

    Термины и определения

    Audible Feature / Audio Feature (Аудио характеристика)
    Характеристика документа, связанная со звуком или музыкой, воспроизводимыми при рендеринге. Примеры: наличие звука/музыки, тип звука (речь, сигнал), стиль музыки (рок, классика), имя исполнителя.
    Document (Документ)
    Любой машиночитаемый продукт. В контексте патента чаще всего веб-страница, включающая текст, HTML, медиа и скрипты.
    feature:search term (Синтаксис запроса)
    Структура поискового запроса (Audio/visual terms) для поиска по аудио/визуальным характеристикам. Например, image:dog, background:black, music:present.
    Indexing component (Компонент индексирования)
    Часть поисковой системы, которая обрабатывает документы, извлекает характеристики и создает keywords для индекса.
    Keyword (Ключевое слово)
    Термин в индексе. В контексте патента это не только текст, но и токенизированные представления аудио и визуальных характеристик.
    Machine learning framework (Фреймворк машинного обучения)
    Используется для анализа сложных характеристик: определения визуального стиля документа, а также для распознавания контента в аудио, изображениях (включая распознавание объектов и лиц) и видео.
    Rendering (Рендеринг)
    Процесс отображения документа. Используется для извлечения характеристик, видимых пользователю, таких как длина документа или его визуальный стиль.
    Visual Feature (Визуальная характеристика)
    Характеристика, связанная с внешним видом документа при рендеринге. Примеры: цвет фона, цвет/размер текста, длина документа, стиль, характеристики изображений (контент, количество, гео-локация, время) и видео.

    Ключевые утверждения (Анализ Claims)

    Примечание: Пункты 1-20 в патенте отменены (canceled). Анализ сосредоточен на действующих независимых пунктах (21, 28, 34).

    Claim 21 (Независимый пункт): Описывает базовую систему поиска по визуальным характеристикам.

    1. Генерация keyword для документа на основе его визуального вида (visual appearance) при рендеринге.
    2. Важное уточнение: этот визуальный вид исключает текстовое содержание документа (т.е. речь идет о дизайне и медиа).
    3. Ассоциация keyword с документом в индексе.
    4. Получение поискового запроса, включающего термин, связанный с этим keyword.
    5. Идентификация документов с помощью индекса и предоставление результатов.

    Ядро изобретения — индексация нетекстовых визуальных характеристик в виде ключевых слов и обеспечение возможности поиска по ним.

    Claim 28 (Независимый пункт): Описывает метод индексации комбинации визуальных характеристик.

    1. Ассоциация в индексе keywords с документом.
    2. Эти keywords представляют различные характеристики (different features) визуального вида документа при рендеринге.
    3. Характеристики должны включать два или более из следующего списка: цвет фона, цвет текста, размер текста, длина документа, стиль документа, характеристика изображения, характеристика видео.
    4. Использование индекса для определения релевантности документа запросу.

    Claim 34 (Независимый пункт): Описывает метод поиска, фокусирующийся на базовых стилистических элементах.

    1. Получение запроса с термином, относящимся к keyword, который сгенерирован на основе визуального вида документа при рендеринге.
    2. Визуальный вид соответствует одному из: цвет фона, цвет текста ИЛИ размер текста.
    3. Идентификация документов и предоставление результатов.

    Где и как применяется

    Изобретение затрагивает преимущественно этапы индексирования и отбора кандидатов при обработке специфических запросов.

    CRAWLING – Сканирование и Сбор данных
    Система собирает не только HTML, но и все связанные ресурсы, необходимые для анализа: CSS, файлы изображений, аудиофайлы и видеофайлы.

    INDEXING – Индексирование и извлечение признаков (Основной этап)
    Indexing component выполняет глубокий анализ контента:

    1. Анализ кода: Извлечение характеристик из HTML и CSS (цвета, размеры шрифтов).
    2. Рендеринг: Документ рендерится для определения визуальных характеристик, видимых пользователю (длина документа, визуальный стиль).
    3. Анализ медиа: Изображения, аудио и видео анализируются (часто с помощью Machine learning framework) для определения их содержания.
    4. Генерация Keywords: Все извлеченные признаки преобразуются в keywords и добавляются в индекс.

    QUNDERSTANDING – Понимание Запросов
    Система должна распознавать специфический синтаксис запросов feature:search term (например, background:gray) и понимать намерение пользователя искать по нетекстовым характеристикам.

    RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
    На этапе отбора кандидатов система использует индекс для сопоставления аудио/визуальных терминов запроса с keywords, хранящимися для документов.

    Входные данные:

    • Документ (HTML) и связанные файлы стилей (CSS).
    • Медиафайлы (изображения, аудио, видео) и их метаданные.

    Выходные данные:

    • Поисковый индекс, обогащенный ключевыми словами (keywords), описывающими визуальные и аудио характеристики документа.

    На что влияет

    • Конкретные типы контента: Влияет на любые документы, имеющие стили или медиаконтент. Особенно релевантно для страниц с богатым визуальным оформлением или мультимедиа.
    • Специфические запросы: Влияет только на те запросы, в которых пользователь явно использует операторы для поиска по аудио/визуальным характеристикам. Это преимущественно запросы типа refinding (повторное нахождение).

    Когда применяется

    • На этапе индексирования: Применяется ко всем сканируемым документам для извлечения и сохранения аудио и визуальных характеристик.
    • На этапе поиска (Триггер): Активируется только тогда, когда поисковый запрос содержит специальные термины (audio/visual terms) в формате feature:search term.

    Пошаговый алгоритм

    Процесс А: Индексирование документа

    1. Сканирование: Получение документа и связанных ресурсов (CSS, медиа).
    2. Извлечение характеристик и генерация Keywords: Применяется комбинация методов:
      1. Анализ HTML/CSS: Извлечение цвета фона, цвета/размера текста, метаданных о медиа (гео-локация, время).
      2. Рендеринг документа: Отображение страницы для определения ее длины и визуального стиля (user-perceived style, например, «праздничный», «готический»). Для определения стиля используется модель машинного обучения, обученная на цветах и паттернах.
      3. Анализ медиафайлов: Анализ файлов изображений, аудио и видео. Использование ML для распознавания содержания (объектов, лиц, стиля музыки, исполнителей).
    3. Индексирование: Ассоциация всех сгенерированных keywords (текстовых, визуальных, аудио) с документом в Index.

    Процесс Б: Обработка поискового запроса

    1. Получение запроса: Получение запроса от пользователя (например, «car repair» background:blue text:white).
    2. Понимание запроса: Идентификация стандартных терминов и специальных аудио/визуальных терминов.
    3. Поиск в индексе (Retrieval): Сравнение терминов запроса с keywords в индексе для идентификации релевантных документов.
    4. Ранжирование и предоставление результатов: Генерация оценок (scores) для результатов, их ранжирование и предоставление пользователю.

    Какие данные и как использует

    Данные на входе

    • Технические и Структурные факторы: HTML code и CSS. Используются для определения структуры, базовых стилей, цветов фона и текста, размеров шрифтов.
    • Мультимедиа факторы: Файлы изображений, аудиофайлы, видеофайлы. Анализируется как содержимое файлов, так и их метаданные.
    • Географические и Временные факторы: Метаданные изображений, такие как гео-локация (geographic location), дата и время съемки, извлекаются и индексируются.

    Какие метрики используются и как они считаются

    Патент не описывает метрики ранжирования, но детализирует методы извлечения признаков (Feature Extraction) и их преобразование в дискретные keywords.

    Извлекаемые характеристики:

    • Визуальные: Цвет фона/текста, размер текста, длина документа, количество изображений, содержание изображений/видео, стиль документа.
    • Аудио: Наличие звука/музыки, тип звука (речь, музыка), стиль музыки, имя исполнителя.

    Методы анализа и вычислений:

    • Извлечение прямых признаков: Анализ HTML/CSS и рендеринг.
    • Классификация и Распознавание контента (ML): Используется Machine learning framework для:
      • Определения визуального стиля (user-perceived style). Модель обучается на атрибутах (цвета, паттерны) для предсказания стиля (например, «теплый», «готический», «праздничный»).
      • Анализа медиа: Распознавание объектов (person, dog, building), распознавание конкретных лиц (facial recognition techniques) на изображениях/видео; определение стиля музыки в аудио.

    Выводы

    1. Индексация за пределами текста: Патент подтверждает, что Google детально индексирует нетекстовые характеристики документов. Внешний вид (дизайн, стиль) и мультимедийное содержание преобразуются в текстовые keywords и являются частью индекса.
    2. Глубокий анализ контента: Система использует комплексный подход, сочетающий анализ исходного кода (HTML/CSS), полноценный рендеринг страницы и анализ медиафайлов.
    3. Роль машинного обучения в анализе восприятия: Google использует ML не только для распознавания объектов, но и для классификации субъективных характеристик, таких как «визуальный стиль» (user-perceived style) страницы, а также для глубокого анализа аудио и видео.
    4. Фокус на поиске (Retrieval), а не ранжировании (Ranking): Ключевая цель патента — позволить пользователям искать контент по его внешнему виду или звучанию (refinding), используя специальные операторы. Патент не содержит информации о том, используются ли эти характеристики как сигналы ранжирования в обычном поиске.

    Практика

    Практическое применение в SEO

    Патент носит в основном инфраструктурный характер и фокусируется на механизмах извлечения признаков и поиска, а не на оптимизации ранжирования. Прямые рекомендации по SEO для улучшения позиций в стандартных запросах ограничены.

    Best practices (это мы делаем)

    • Комплексная оптимизация медиаконтента (Image/Video SEO): Патент подтверждает, что Google анализирует содержимое изображений (объекты, лица), аудио (стиль, исполнитель) и видео с помощью ML. Это усиливает важность использования качественных и релевантных медиафайлов для видимости в соответствующих вертикалях поиска.
    • Обеспечение корректного рендеринга: Google извлекает визуальные характеристики (включая «стиль» страницы) на этапе рендеринга. Критически важно убедиться, что Googlebot может корректно загружать CSS/JS и отображать страницу так, как ее видит пользователь.
    • Использование метаданных в медиа: Патент упоминает извлечение метаданных из изображений (гео-локация, время съемки) и аудио (исполнитель). Рекомендуется сохранять релевантные метаданные в файлах и использовать структурированные данные, так как они индексируются.
    • Чистый и доступный код: Используйте семантически верный HTML и CSS, так как они напрямую анализируются для извлечения визуальных характеристик.

    Worst practices (это делать не надо)

    • Блокировка доступа к ресурсам: Блокировка файлов CSS, изображений, аудио или видео в robots.txt или иными методами мешает Google анализировать визуальные и аудио характеристики страницы.
    • Игнорирование ошибок рендеринга: Проблемы с производительностью или ошибки JavaScript могут привести к некорректному извлечению визуальных признаков и пониманию стиля страницы.
    • Использование нерелевантного медиа: Размещение изображений или аудио, не соответствующих тематике документа, может привести к индексации нерелевантных keywords, связанных с этим контентом.

    Стратегическое значение

    Патент подтверждает стратегическое направление Google на глубокое понимание всех аспектов контента, далеко выходящее за рамки текста. Он демонстрирует технические возможности системы по интерпретации дизайна и мультимедиа. Для SEO это означает, что оптимизация изображений и видео является неотъемлемой частью стратегии, поскольку механизмы распознавания, описанные в патенте, активно используются в вертикальных поисках и для общего понимания страницы.

    Практические примеры

    Практических примеров применения для SEO с целью повышения ранжирования нет, так как патент описывает функциональность со стороны пользователя (поиск по характеристикам).

    Сценарий: Оптимизация изображений для распознавания объектов (Актуально для Google Images)

    1. Контекст: Интернет-магазин загружает фотографии продукта (например, красного велосипеда).
    2. Действие: Используется высококачественное, четкое изображение велосипеда.
    3. Работа системы (по патенту): Indexing Component анализирует медиафайл. ML-модель распознает объекты и атрибуты (например, «велосипед», «красный цвет»).
    4. Результат: Эти данные индексируются как Keywords. Изображение имеет высокие шансы появиться в Google Images при поиске «красный велосипед» или при использовании фильтров по цвету и типу объекта (которые основаны на этих индексированных данных).

    Вопросы и ответы

    Влияет ли цвет фона или размер шрифта на ранжирование сайта в обычном поиске?

    В патенте нет информации о том, что эти факторы используются для ранжирования. Патент описывает механизм, позволяющий пользователям искать по этим характеристикам, используя специальные операторы (например, background:color). Цель изобретения — улучшить возможности повторного нахождения контента (refinding), а не изменить алгоритмы ранжирования.

    Что подразумевается под «визуальным стилем» (user-perceived style) страницы и как Google его определяет?

    Это субъективное восприятие стиля пользователем, например, «теплый» (warm), «готический» (gothic), «праздничный» (festive). Согласно патенту, Google использует Machine learning framework для определения этого стиля. Система анализирует атрибуты отрендеренного документа, такие как используемые цвета и визуальные паттерны, и классифицирует стиль.

    Используется ли этот функционал поиска по внешнему виду в основном поиске Google?

    Функционал требует использования специальных операторов (feature:value). В основном веб-поиске эти операторы не распространены. Маловероятно, что обычные пользователи активно ищут по цвету фона. Однако технологии анализа, описанные в патенте, актуальны для внутренних систем и специализированных вертикалей (например, фильтры в Google Images).

    Какое значение этот патент имеет для SEO изображений (Image SEO)?

    Значение высокое. Патент детально описывает процесс индексации изображений: извлечение метаданных (гео, время), анализ количества изображений и, самое главное, распознавание контента с помощью ML (идентификация объектов, распознавание лиц). Это подтверждает, что содержание изображений детально индексируется.

    Анализирует ли Google аудиофайлы или фоновую музыку на сайте?

    Да. Патент явно указывает на индексацию Audible Features. Система определяет наличие звука или музыки, классифицирует тип звука (речь, сигнал), стиль музыки (рок, классика) и может идентифицировать название композиции или имя исполнителя, анализируя аудиофайл.

    Нужно ли оптимизировать CSS файлы для SEO в контексте этого патента?

    Да, но не с точки зрения ключевых слов. CSS файлы должны быть доступны для сканирования и корректно применяться при рендеринге. Это необходимо, чтобы система могла точно извлечь визуальные характеристики (цвета, размеры, стиль), которые она индексирует.

    Как Google извлекает визуальные данные: анализируя код или рендеря страницу?

    Используются оба метода. Базовые характеристики, такие как цвета и размеры шрифтов, могут извлекаться напрямую из анализа HTML/CSS. Более сложные характеристики, такие как длина документа или его общий визуальный стиль (user-perceived style), определяются после рендеринга страницы.

    Может ли мой сайт ранжироваться лучше, если я добавлю фоновую музыку?

    Нет, патент не предполагает, что наличие музыки улучшает ранжирование. Он лишь описывает, что наличие и тип музыки индексируются, и пользователь теоретически может искать сайты с музыкой, используя оператор music:present. На практике добавление фоновой музыки чаще негативно влияет на пользовательский опыт.

    Насколько важен рендеринг для этого патента?

    Рендеринг критически важен. Многие визуальные характеристики, такие как финальные цвета, длина документа и общий стиль дизайна, могут быть определены только после полного рендеринга страницы с применением CSS и JavaScript. Если рендеринг заблокирован или работает некорректно, эта информация не будет проиндексирована точно.

    Каков основной вывод для SEO-специалиста из этого патента?

    Основной вывод заключается в том, что возможности Google по анализу контента выходят далеко за рамки текста. Система способна рендерить страницы, анализировать дизайн, стиль и глубоко понимать мультимедийный контент с помощью ML. Хотя это не дает прямых рычагов для ранжирования в веб-поиске, это подчеркивает важность обеспечения полной доступности и корректного рендеринга сайта для Googlebot.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.