Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс генерирует точные метаданные для изображений, видео и аудио, минуя распознавание текста (OCR/ASR)

    METHOD OF AND SYSTEM FOR GENERATING METADATA (Метод и система для генерации метаданных)
    • US20160335500A1
    • Yandex LLC
    • 2016-11-17
    • 2014-08-19
    2016 Вертикальный поиск Индексация Качество контента Патенты Яндекс

    Яндекс патентует метод встраивания текста в метаданные медиафайлов (изображений, видео, аудио) непосредственно в момент создания или редактирования контента. Если система «знает» текст (например, пользователь ввел аннотацию или система извлекла текст из интерфейса при создании скриншота), этот текст сохраняется в метаданных файла. Это позволяет точно индексировать содержание медиа без использования дорогостоящих и подверженных ошибкам технологий распознавания (OCR или ASR).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточного и ресурсоемкого извлечения текста из медиафайлов постфактум. Традиционные методы, такие как Optical Character Recognition (OCR) для изображений/видео или Автоматическое распознавание речи (ASR) для аудио, требуют значительных вычислительных ресурсов и подвержены ошибкам. Изобретение направлено на повышение точности индексации медиаконтента и снижение затрат на его обработку.

    Что запатентовано

    Запатентован метод генерации метаданных для цифрового контента (Digital Content — изображения, видео, аудио). Суть изобретения заключается в использовании текста, который уже известен системе в закодированном, машиночитаемом виде (Character Encoding), в момент создания или модификации медиафайла. Этот известный текст напрямую встраивается в метаданные файла, минуя необходимость его последующего распознавания.

    Как это работает

    Система перехватывает машиночитаемый текст на этапе генерации или редактирования контента. Патент описывает два ключевых механизма:

    1. Модификация контента: Когда пользователь добавляет надпись на фотографию или титры к видео, система берет введенную текстовую строку и одновременно использует ее для рендеринга в медиафайле и для записи в его метаданные (например, в поля EXIF или iTXt).
    2. Захват из источника: При создании контента (например, скриншота) система может активно запросить у приложения, отображающего интерфейс, предоставить видимый текст напрямую в закодированном виде.

    В обоих случаях система получает 100% точные метаданные без применения OCR/ASR.

    Актуальность для SEO

    Средняя. Технология является базовой для систем управления цифровыми активами (DAM) и платформ пользовательского контента (UGC). Принципы использования встроенных метаданных остаются актуальными, так как наличие точных текстовых данных всегда предпочтительнее для поисковой системы, чем результаты автоматического распознавания.

    Важность для SEO

    Влияние на SEO умеренное (5/10), преимущественно в сфере Media SEO (поиск по картинкам и видео). Патент не описывает алгоритмы ранжирования. Он описывает инфраструктурный метод улучшения качества данных, доступных для индексации. Он подтверждает, что Яндекс ценит и обрабатывает встроенные в файлы метаданные как надежный и предпочтительный источник информации о содержании файла, по сравнению с OCR.

    Детальный разбор

    Термины и определения

    Character Encoding (Кодировка символов)
    Стандарт (например, ASCII, Unicode/UTF-8), позволяющий компьютеру однозначно интерпретировать текст. В патенте это ключевое понятие, отличающее известный машиночитаемый текст от его визуального представления.
    Digital Content (Цифровой контент)
    Медиафайлы, упомянутые в патенте: изображения, видео и аудиоклипы.
    EXIF (Exchangeable Image File Format)
    Стандарт метаданных, упомянутый в патенте, позволяющий хранить информацию (описание, авторство и т.д.) внутри файлов изображений (JPEG, TIFF).
    iTXt Chunk
    Специфический блок данных в файлах формата PNG, предназначенный для хранения текстовых метаданных в кодировке UTF-8.
    Non-textual representation / Image Representation (Нетекстовое / Визуальное представление)
    Представление текста в медиаформате. Например, пиксели на изображении, которые формируют буквы, или сгенерированный звук в аудиофайле (Text-to-Speech).
    OCR (Optical Character Recognition)
    Оптическое распознавание символов. Технология анализа изображений для извлечения текста. Патент направлен на устранение необходимости в применении OCR.
    Unmodified Image (Немодифицированное изображение)
    Исходное изображение (например, фотография или скриншот) до того, как в него был добавлен текст в процессе редактирования.

    Ключевые утверждения (Анализ Claims)

    Анализ основан на итоговой формуле изобретения (Claims в конце документа). Ядро изобретения — получение текста напрямую от приложения-источника.

    Claim 1 (Независимый пункт): Описывает метод генерации метаданных изображения на электронном устройстве.

    1. Выполнение запроса (querying) к приложению, работающему на устройстве, для получения текста, который это приложение отображает (текст закодирован).
    2. Получение текста от приложения в ответ на запрос.
    3. Генерация изображения, которое включает визуальное представление (image representation) этого текста.
    4. Генерация метаданных изображения на основе полученного текста.
    5. Ассоциация метаданных с изображением.

    Этот пункт описывает сценарий, когда система активно извлекает существующий текст из интерфейса (например, при создании скриншота) путем прямого взаимодействия с приложением, минуя необходимость анализа пикселей (OCR).

    Claim 10 (Независимый пункт): Описывает метод модификации существующего изображения.

    1. Запрос к приложению для получения отображаемого текста, которым нужно модифицировать изображение.
    2. Получение текста от приложения.
    3. Модификация изображения для включения визуального представления этого текста.
    4. Генерация метаданных на основе текста.
    5. Ассоциация метаданных с изображением.

    Этот пункт фокусируется на процессе редактирования (например, аннотирования), где известный текст добавляется к существующему изображению, и этот же текст используется для обогащения метаданных.

    Claim 32 (Независимый пункт): Обобщенный метод для любого цифрового контента.

    1. Запрос к приложению для получения отображаемого текста.
    2. Получение текста.
    3. Генерация цифрового контента (видео, аудио, изображение), включающего нетекстовое представление (non-textual representation) этого текста.
    4. Генерация метаданных на основе текста.
    5. Ассоциация метаданных с контентом.

    Где и как применяется

    Патент описывает технологию, применяемую на уровне создания или обработки контента, то есть до того, как контент попадает в стандартный поисковый конвейер. Однако результаты работы этой технологии напрямую влияют на последующие этапы поиска.

    CRAWLING – Сканирование и Сбор данных (Косвенное влияние)

    Технология влияет на качество данных, получаемых краулерами. Если медиафайлы в интернете созданы с использованием этого метода (например, на UGC-платформах или через приложения, реализующие эту технологию), краулеры получают файлы, уже содержащие встроенные, точные текстовые метаданные.

    INDEXING – Индексирование и извлечение признаков (Прямое влияние на процесс)

    На этапе индексации наличие точных метаданных, сгенерированных по этому методу, значительно упрощает и ускоряет обработку. Компоненты индексатора (например, Parser Platform) могут извлечь этот точный текст из метаданных файла (например, из iTXt chunk или EXIF). Это предоставляет гораздо более качественные и надежные данные для ранжирования в вертикалях (Яндекс.Картинки, Яндекс.Видео), чем попытка применить OCR или ASR.

    • Входные данные: Закодированный текст (полученный от пользователя или запрошенный у приложения), исходный медиафайл (если происходит модификация).
    • Выходные данные: Сгенерированный/модифицированный медиафайл и ассоциированные метаданные (встроенные в файл, сохраненные в БД или переданные в одном сообщении).

    На что влияет

    • Типы контента: В первую очередь влияет на индексацию и поиск изображений (скриншоты, фотографии с надписями, инфографика), видео (титры, текст на экране) и аудио (сгенерированная речь).
    • Форматы контента: Улучшает понимание контента, где текст является ключевым элементом, но представлен в нетекстовом виде (например, графические инструкции, слайды).

    Когда применяется

    Алгоритм применяется в момент создания или изменения медиаконтента на устройстве или сервере.

    • Триггеры активации:
      • Модификация существующего файла с добавлением текста пользователем (аннотирование).
      • Создание скриншота — система перехватывает инструкцию и пытается получить текст, отображаемый на экране, путем запроса к активному приложению.
      • Генерация нового медиафайла на основе текста (например, создание аудио через Text-to-Speech).

    Пошаговый алгоритм

    Обобщенный процесс работы системы (на примере модификации изображения):

    1. Получение исходных данных: Система получает исходное изображение (Unmodified Image).
    2. Получение текста: Система получает индикацию текста, который нужно включить в изображение. Это может быть ввод пользователя с клавиатуры или результат запроса к приложению. Текст поступает в закодированном виде (Character Encoding).
    3. Генерация медиа: Изображение модифицируется для включения визуального представления полученного текста (рендеринг шрифта поверх картинки).
    4. Генерация метаданных: Одновременно система генерирует метаданные на основе того же самого закодированного текста. Текст копируется в соответствующие поля метаданных (например, Description, Keywords).
    5. Трансляция кодировки (При необходимости): Если кодировка полученного текста (например, ASCII) отличается от требуемой стандартом метаданных (например, UTF-8 для PNG iTXt), выполняется трансляция (перекодирование) текста.
    6. Ассоциация и Сохранение: Сгенерированные метаданные ассоциируются с итоговым изображением путем записи единого файла или обновления записи в базе данных.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Ключевым входным элементом является сам Текст — закодированная строка символов, которая добавляется в контент или извлекается из интерфейса приложения.
    • Технические факторы: Используются данные о формате целевого файла (PNG, JPEG, TIFF, MP3 с ID3 тегами и т.д.). Формат определяет, в какие поля и в какой кодировке будут записаны метаданные. Также используются данные о кодировках символов (ASCII, Unicode).

    Ссылочные, поведенческие, временные, географические факторы в данном патенте не упоминаются.

    Какие метрики используются и как они считаются

    Патент является чисто техническим и не описывает метрики ранжирования или качества поиска. Он описывает детерминированный процесс генерации данных.

    Единственный процесс вычисления, упомянутый в патенте, — это трансляция между разными кодировками символов (Character Encoding Translation), если это необходимо для совместимости форматов (Claim 13).

    Выводы

    1. Приоритет точности данных над распознаванием: Патент демонстрирует стремление Яндекса получать максимально точные текстовые данные о медиафайлах. Встроенные метаданные рассматриваются как более надежный и эффективный источник информации, чем ресурсоемкие и подверженные ошибкам алгоритмы распознавания (OCR/ASR).
    2. Метаданные файла — значимый сигнал для индексации: Патент подтверждает техническую ценность встраивания текстовой информации непосредственно в медиафайлы. Данные в полях EXIF, IPTC, XMP, ID3, iTXt могут быть эффективно извлечены и использованы поисковой системой.
    3. Улучшение вертикального поиска (Media SEO): Метод направлен на улучшение качества индексации и поиска по Яндекс.Картинкам и Яндекс.Видео, позволяя находить контент по тексту, который в нем содержится, с абсолютной точностью.
    4. Инфраструктурный характер: Патент описывает метод генерации и сохранения данных, а не их ранжирования. Он важен для понимания того, как Яндекс предпочитает получать информацию о медиаконтенте, но не дает прямых инструкций по влиянию на ранжирование.

    Практика

    Best practices (это мы делаем)

    Хотя патент описывает инфраструктуру генерации контента, он дает важные инсайты для Media SEO:

    • Оптимизация встроенных метаданных (Must-Have): Необходимо внедрить процесс заполнения метаданных (IPTC/XMP/EXIF) для всех значимых изображений (инфографика, ключевые фото товаров, схемы) и видео перед их загрузкой на сайт. Поисковые системы ценят эти данные.
    • Использование релевантных полей: Заполнять поля Title (Заголовок), Description (Описание/Caption) и Keywords (Ключевые слова) в метаданных файла, используя релевантные запросы и точное описание содержания медиа.
    • Контроль сохранения метаданных: Проверить настройки CMS, CDN и используемых плагинов оптимизации изображений. Убедиться, что они не стирают (strip) полезные метаданные (IPTC/XMP) при сжатии, изменении размера или конвертации файлов (например, в WebP).
    • Предоставление текста для аудио/видео: Для аудио и видео предоставлять точные текстовые расшифровки и субтитры. Это соответствует принципу патента: предоставление точного машиночитаемого текста улучшает индексацию медиа.

    Worst practices (это делать не надо)

    • Игнорирование метаданных файлов: Загрузка медиафайлов с пустыми или автосгенерированными метаданными. Это вынуждает поисковую систему полагаться на менее точные методы (OCR, анализ окружающего текста).
    • Чрезмерное полагание на OCR: Размещение важной информации исключительно в виде текста на изображении без дублирования в HTML или метаданных (ALT, IPTC), рассчитывая, что поисковик ее распознает. Патент подтверждает, что OCR — неоптимальное решение.
    • Переспам в метаданных (Keyword Stuffing): Заполнение полей метаданных нерелевантными ключевыми словами. Поскольку эти данные используются как точное описание контента, несоответствие может быть негативно воспринято.

    Стратегическое значение

    Патент подтверждает стратегическую важность оптимизации медиа-активов для успешного продвижения в вертикальных поисках (Картинки, Видео). Для SEO-специалистов это означает, что сами медиафайлы являются независимыми объектами оптимизации. Долгосрочная стратегия, особенно для e-commerce и контентных проектов, должна включать процессы управления метаданными цифровых активов (Digital Asset Management), гарантируя их полноту и точность.

    Практические примеры

    Сценарий: Оптимизация инфографики для поиска по картинкам

    1. Задача: Опубликовать инфографику на тему «Тренды веб-дизайна 2025» и получить трафик из Яндекс.Картинок.
    2. Действие: Перед загрузкой файла (например, web_design_trends_2025.png) на сайт, SEO-специалист использует редактор метаданных (например, Adobe Bridge или exiftool).
    3. Что делать:
      • В поле IPTC «Title» вписывается: «Инфографика: Тренды веб-дизайна 2025 года».
      • В поле IPTC «Description» (Caption) добавляется краткое текстовое описание содержания инфографики (перечисление ключевых трендов).
      • В поле IPTC «Keywords» добавляются релевантные термины: «веб-дизайн», «тренды 2025», «UI/UX», «инфографика».
    4. Ожидаемый результат: При индексации Яндекс извлекает этот текст из метаданных. Как подчеркивается в патенте, это предпочтительнее и точнее, чем использование OCR. Система получает надежные данные о содержании, что повышает релевантность и шансы на высокое ранжирование в поиске по картинкам.

    Вопросы и ответы

    Означает ли этот патент, что Яндекс использует OCR меньше, чем мы думали?

    Патент показывает, что Яндекс стремится минимизировать использование OCR, когда это возможно, так как это дорогостоящая и не всегда точная операция. Если система может получить точный текст из метаданных файла, она предпочтет этот способ. Однако для огромного количества изображений в интернете без метаданных, OCR по-прежнему остается важным инструментом индексации.

    Какие именно поля метаданных в изображениях наиболее важны согласно этому патенту?

    Патент не устанавливает приоритет полей, но упоминает стандарты PNG (iTXt chunk) и EXIF (для JPEG и TIFF). На практике для SEO наиболее важны поля стандартов IPTC и XMP, которые встраиваются в эти форматы. Ключевыми полями традиционно считаются Title (Заголовок), Description (Описание/Caption) и Keywords (Ключевые слова).

    Как этот патент влияет на оптимизацию видео?

    Патент явно распространяет действие метода на видеоконтент. Это означает, что текст, добавленный к видео на этапе монтажа (титры, надписи), может быть встроен в метаданные видеофайла. Это подчеркивает важность заполнения метаданных видеофайлов и предоставления точных субтитров для улучшения индексации, минуя сложное распознавание речи или OCR кадров.

    Влияет ли этот механизм на ранжирование обычных веб-страниц или только на поиск по картинкам?

    В первую очередь этот механизм влияет на качество индексации и ранжирование в вертикальных поисках (Яндекс.Картинки, Яндекс.Видео). Однако, точное понимание содержания медиафайлов на странице может также косвенно влиять на общую оценку релевантности и качества веб-страницы в основном поиске.

    Стоит ли добавлять весь текст со слайда презентации в метаданные изображения этого слайда?

    Да, это отличная практика для Media SEO. Если изображение представляет собой слайд или сложную инфографику, добавление основного текста в поле Description метаданных файла позволит поисковой системе точно проиндексировать его содержание. Это значительно повышает шансы найти этот контент по тексту, который на нем содержится.

    Как проверить, что метаданные моих изображений не удаляются при загрузке на сайт?

    Нужно скачать изображение с вашего сайта (из финальной версии страницы) и проверить его метаданные локально с помощью ПО (например, Adobe Bridge, exiftool) или онлайн-сервисов для чтения EXIF/IPTC. Если поля, которые вы заполняли перед загрузкой, пусты, значит ваша CMS, CDN или плагин оптимизации удаляет их, и это нужно исправить.

    Описывает ли патент, как Яндекс борется со спамом в метаданных изображений?

    Нет, этот патент не описывает механизмы антиспама или фильтрации. Он фокусируется исключительно на техническом методе генерации и сохранения точных метаданных. Борьба со спамом (например, переоптимизацией в метаданных) осуществляется другими системами ранжирования и фильтрации.

    Применяется ли этот метод к аудиофайлам?

    Да, патент явно упоминает аудиоклипы. Например, если аудио генерируется из текста (Text-to-Speech), этот исходный текст может быть встроен в метаданные аудиофайла (например, в теги ID3 для MP3). Это позволяет точно индексировать содержание аудио без использования технологии распознавания речи (ASR).

    Если я использую атрибут alt, нужно ли мне дополнительно заполнять метаданные самого файла (IPTC/EXIF)?

    Да, рекомендуется использовать оба метода. Атрибут alt критически важен для веб-доступности и является сильным сигналом для SEO на уровне веб-страницы. Метаданные файла (IPTC/EXIF) привязаны непосредственно к изображению и обеспечивают его индексацию независимо от контекста страницы, что особенно важно для прямого поиска по картинкам.

    Касается ли этот патент только приложений Яндекса или всего веба?

    Патент описывает метод генерации метаданных, который может быть реализован в любом приложении или ОС. Для SEO это важно, потому что он демонстрирует, какие данные Яндекс считает ценными и надежными при индексации файлов из всего веба. Любой файл в интернете, содержащий такие точные встроенные метаданные, будет лучше проиндексирован.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.