Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс автоматически сохраняет текст в метаданные при его добавлении в изображения, видео или аудио

    СПОСОБ СВЯЗЫВАНИЯ МЕТАДАННЫХ ЦИФРОВОГО КОНТЕНТА С ЦИФРОВЫМ КОНТЕНТОМ (ВАРИАНТЫ), ЭЛЕКТРОННОЕ УСТРОЙСТВО (ВАРИАНТЫ), МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ (ВАРИАНТЫ) (METHOD FOR LINKING DIGITAL CONTENT METADATA WITH DIGITAL CONTENT (VARIANTS), ELECTRONIC DEVICE (VARIANTS), MACHINE-READABLE MEDIUM (VARIANTS))
    • RU2608873C2
    • Yandex LLC
    • 2017-01-25
    • 2014-02-14
    2017 Индексация Патенты Яндекс Поиск по картинкам Структурированные данные

    Яндекс патентует метод автоматического сохранения машиночитаемого текста в метаданных медиафайла (изображения, видео, аудио) в момент, когда этот текст добавляется в сам контент в нетекстовом виде (например, в виде графики или синтезированной речи). Это позволяет мгновенно индексировать и искать медиаконтент по содержащемуся в нем тексту без необходимости последующего распознавания (OCR или Speech-to-Text).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему потери машиночитаемой информации при преобразовании текста в нетекстовые форматы. Когда текст растеризируется (превращается в пиксели на изображении или видео) или синтезируется в речь, исходные текстовые данные теряются. Для их восстановления поисковым системам требуются сложные и подверженные ошибкам процессы обратного преобразования, такие как оптическое распознавание символов (OCR) или распознавание речи (Speech-to-Text). Патент предлагает механизм сохранения исходного текста в метаданных в момент создания медиаконтента, гарантируя 100% точность данных для индексации.

    Что запатентовано

    Запатентован способ автоматического связывания исходного машиночитаемого текста с цифровым контентом (изображением, видеозаписью, аудиозаписью), в который этот текст был включен в нетекстовом представлении. Суть изобретения в том, что в момент создания или изменения контента электронное устройство одновременно генерирует нетекстовое представление (например, графику или звук) и сохраняет исходный закодированный текст в метаданные этого контента.

    Как это работает

    Механизм работает на уровне программного обеспечения для создания или редактирования контента. Электронное устройство получает указание на текст (например, ввод с клавиатуры или голосом). Затем оно создает или изменяет медиафайл, включая в него графическое представление текста (для изображений/видео) или звуковое представление текста (для аудио). Одновременно с этим система берет исходный закодированный текст и записывает его в метаданные файла (например, в поля EXIF/IPTC) или в связанную запись базы данных.

    Актуальность для SEO

    Средняя. Технология актуальна для улучшения поиска и каталогизации контента в рамках контролируемых экосистем (например, Яндекс.Диск, инструменты для создания скриншотов от Яндекса). Она обеспечивает 100% точность извлечения текста. Однако ее влияние на глобальный веб-поиск ограничено, так как поисковая система не контролирует процесс создания всего контента в интернете и вынуждена полагаться на технологии OCR и распознавания речи.

    Важность для SEO

    Влияние на SEO минимальное (1/10). Патент является инфраструктурным и описывает процессы обработки данных на этапе создания контента, а не алгоритмы ранжирования. Он не дает прямых рекомендаций для SEO-специалистов, занимающихся продвижением веб-сайтов. Влияние может быть только косвенным, проявляясь в улучшении индексации контента в вертикальных поисках (Картинки, Видео), если этот контент был создан с помощью инструментов, реализующих патент.

    Детальный разбор

    Термины и определения

    Цифровой контент (Digital Content)
    Данные в цифровом формате. В контексте патента включает изображения, видеозаписи и аудиозаписи.
    Метаданные (Metadata)
    Данные, описывающие цифровой контент. В патенте метаданные создаются на основе исходного текста, который был включен в контент.
    Нетекстовое представление текста (Non-textual representation of text)
    Представление текста в формате, отличном от машиночитаемой кодировки символов. Включает графическое и звуковое представления.
    Графическое представление текста (Graphical representation of text)
    Визуальное отображение текста в виде пикселей (растеризованный текст) в изображении или кадре видеозаписи.
    Звуковое представление текста (Sound representation of text)
    Представление текста в виде аудиосигнала, например, синтезированная речь (Text-to-Speech) в аудиозаписи.
    Изначальное изображение (Initial image)
    Существующее изображение (например, скриншот или фотография), которое изменяется путем добавления текста.
    Кодировка символов (Character encoding)
    Стандарт кодирования текста (например, UTF-8), позволяющий представить текст в машиночитаемом виде.

    Ключевые утверждения (Анализ Claims)

    Патент описывает несколько вариантов реализации одного базового принципа для разных типов контента и сценариев (создание нового или изменение существующего).

    Claim 1 (Независимый пункт, Изображения, Создание): Описывает базовый способ для изображений.

    1. Электронное устройство получает указание на текст (в машиночитаемой кодировке).
    2. Создается изображение, содержащее графическое представление этого текста.
    3. Одновременно создаются метаданные изображения, основанные на этом же исходном тексте.
    4. Метаданные связываются с изображением.

    Ядро изобретения: В момент рендеринга текста в графику этот же исходный текст сохраняется в метаданные.

    Claim 17 (Независимый пункт, Изображения, Изменение): Описывает способ изменения существующего изображения и обновления метаданных.

    1. Получение указания на текст.
    2. Изменение существующего изображения путем включения в него графического представления текста.
    3. Создание дополнительных метаданных, основанных на тексте.
    4. Связывание дополнительных метаданных с изображением путем их добавления к уже существующим метаданным.

    Claim 26 (Независимый пункт, Видео): Применение принципа к видеозаписям.

    Текст включается в виде графического представления по меньшей мере в один кадр видеозаписи, и этот же машиночитаемый текст сохраняется в метаданных видеозаписи.

    Claim 34 (Независимый пункт, Аудио): Применение принципа к аудиозаписям.

    Текст преобразуется в звуковое представление (например, синтез речи) и включается в аудиозапись, и этот же машиночитаемый текст сохраняется в метаданных аудиозаписи.

    Claim 46 (Независимый пункт, Обобщенный): Обобщает изобретение для любого цифрового контента.

    Ключевым моментом является создание/изменение контента, содержащего нетекстовое представление текста, и одновременное создание/добавление метаданных, основанных на исходном машиночитаемом тексте.

    Зависимые пункты (Уточнения):

    • Патент уточняет, что текст может использоваться для изменения изначального изображения, например, скриншота или фото (Пп. 2-6).
    • Описан сценарий, когда текст может быть захвачен непосредственно с экрана при создании скриншота (Пп. 7-9).
    • Указаны способы ввода текста: клавиатура, голос или получение с другого устройства (Пп. 10-12 и др.).
    • Описаны способы хранения метаданных: в файле с контентом или в отдельной базе данных (Пп. 23-25 и др.).

    Где и как применяется

    Изобретение не применяется на стандартных этапах поисковой архитектуры Яндекса (Ranking, Query Processing). Это технология уровня Создания и Управления Контентом (Content Creation/Management), предназначенная для интеграции в программное обеспечение (редакторы, инструменты для создания скриншотов).

    Однако результаты работы этой технологии влияют на следующие слои поиска:

    CRAWLING – Сканирование и Сбор данных
    Поисковый робот (например, робот поиска по картинкам) сканирует медиафайлы. Если файл создан с использованием этого метода, краулер получает доступ к обогащенным метаданным.

    INDEXING – Индексирование и извлечение признаков
    На этапе индексации система (Parser Platform) извлекает метаданные из файла. Наличие точного текста в метаданных позволяет проиндексировать содержание медиафайла без применения ресурсоемких и менее точных процессов распознавания (OCR или Speech-to-Text).

    Данные на входе и выходе (для системы создания контента):

    • Вход: (1) Текст в определенной кодировке; (2) Опционально: Изначальный цифровой контент (например, изображение для редактирования).
    • Выход: (1) Цифровой контент, содержащий нетекстовое представление входного текста; (2) Метаданные, содержащие исходный машиночитаемый текст, связанные с этим контентом.

    На что влияет

    • Типы контента: Влияет исключительно на медиаконтент — изображения (включая скриншоты), видеозаписи (с титрами или графикой) и аудиозаписи (содержащие синтезированную речь).
    • Вертикали поиска: Улучшает полноту (Recall) и точность поиска по медиаконтенту (Яндекс Картинки, Яндекс Видео), особенно когда запрос соответствует тексту, встроенному в контент.
    • Ограничения: Влияет только на тот контент, который был создан или обработан с помощью ПО, реализующего этот патент.

    Когда применяется

    Алгоритм применяется строго в момент создания или изменения цифрового контента.

    • Триггеры активации: Действие пользователя или системы по включению текста в медиаконтент в нетекстовом виде (например, использование инструмента «Текст» в графическом редакторе и сохранение файла в формате, который растеризует этот текст). Также может активироваться при создании скриншота с автоматическим захватом текста с экрана (П. 7).

    Пошаговый алгоритм

    Процесс работы системы создания/редактирования контента:

    1. Получение текста: Система получает указание на текст, который должен быть включен в цифровой контент. Текст поступает в машиночитаемой кодировке (ввод с клавиатуры, голосом, захват с экрана и т.д.).
    2. Преобразование и Включение (Рендеринг): Система преобразует текст в нетекстовое представление. Для изображений/видео — это графическое представление (пиксели). Для аудио — это звуковое представление (синтез речи). Это представление включается в создаваемый или изменяемый цифровой контент.
    3. Создание метаданных: Одновременно система берет исходный машиночитаемый текст и генерирует на его основе метаданные или дополнительные метаданные.
    4. Транскодирование (При необходимости): Выполняется перевод текста из исходной кодировки символов в кодировку, требуемую для поля метаданных (Пп. 22, 30, 39).
    5. Установка связи (Сохранение): Сгенерированные метаданные связываются с цифровым контентом. Это реализуется путем записи единого файла (например, JPEG с EXIF) или путем обновления записей в базе данных.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы:
      • Исходный текст, закодированный в соответствии с кодировкой символов.
      • Изначальный цифровой контент (изображение, видео, аудио), если происходит его изменение.
      • Метаданные, связанные с изначальным контентом.
    • Пользовательские факторы: Данные, вводимые пользователем через устройства ввода (клавиатура, компонент распознавания голоса).

    Какие метрики используются и как они считаются

    Патент является чисто техническим и описывает детерминированный процесс обработки и сохранения данных. Он не упоминает никаких метрик ранжирования, алгоритмов машинного обучения, весовых коэффициентов или статистических методов.

    Единственная упомянутая техническая операция обработки текста — это возможный перевод текста из исходной кодировки символов в кодировку поля текста метаданных.

    Выводы

    1. Патент инфраструктурный, а не поисковый: Изобретение описывает механизм сохранения данных на этапе создания контента. Оно не имеет отношения к алгоритмам ранжирования Яндекса.
    2. Цель — гарантированная точность индексации медиа: Основная задача — обеспечить 100% точное сохранение текста, который был преобразован в графический или звуковой формат. Это позволяет искать такой контент по тексту без ошибок, свойственных системам OCR или распознавания речи.
    3. Ограниченная область применения: Технология работает только в том случае, если контент создается или редактируется с помощью программного обеспечения, реализующего данный патент (например, в сервисах Яндекса). Она не применяется к контенту, созданному стандартными сторонними инструментами.
    4. Влияние на вертикальный поиск: Патент повышает качество и полноту индекса в Яндекс Картинках и Яндекс Видео для контента, созданного совместимыми инструментами.
    5. Отсутствие практических выводов для веб-SEO: Патент не содержит информации, которая могла бы быть использована для улучшения SEO-стратегий продвижения веб-сайтов. Он не описывает факторы ранжирования или методы оптимизации.

    Практика

    Best practices (это мы делаем)

    Патент скорее инфраструктурный и не дает практических выводов для SEO. Конкретных действий для SEO-специалистов, напрямую следующих из механизмов этого патента, нет.

    Тем не менее, он подтверждает стратегическую важность наличия точной текстовой информации для индексации медиаконтента:

    • Продолжать использовать текстовые альтернативы: Стандартные SEO-практики по использованию атрибутов alt для изображений, предоставлению транскриптов для видео и аудио остаются критически важными. Нельзя полагаться на то, что текст в медиа будет автоматически извлечен (либо через этот механизм, либо через OCR).
    • Оптимизация метаданных файлов: При возможности заполняйте метаданные файлов (EXIF, IPTC для изображений; ID3 для аудио) релевантной информацией перед загрузкой на сайт, так как поисковые системы могут их учитывать.

    Worst practices (это делать не надо)

    • Размещение важного текста только в виде графики: Не следует полагаться на то, что поисковые системы смогут идеально распознать текст, встроенный в изображение. Ключевая информация (УТП, контакты) должна быть доступна в текстовом формате на странице.

    SEO-тактик, которые этот патент делает неэффективными или опасными, нет. Алгоритм не направлен против каких-либо манипуляций.

    Стратегическое значение

    Стратегическое значение для SEO минимально. Патент демонстрирует стремление Яндекса улучшить точность извлечения информации из медиаконтента в рамках своей экосистемы для повышения качества вертикальных поисков (Картинки, Видео). Это не меняет фундаментальные принципы SEO-стратегии для веб-сайтов.

    Практические примеры

    Практических примеров применения в SEO нет. Примеры ниже иллюстрируют работу самой технологии (вне контекста SEO).

    Сценарий 1: Аннотирование скриншота (П. 1, П. 17)

    1. Действие пользователя: Пользователь делает скриншот с помощью инструмента Яндекса и добавляет надпись «Инструкция по оплате».
    2. Работа системы:
      • Система растеризует текст «Инструкция по оплате» и встраивает его в изображение в виде пикселей (графическое представление).
      • Одновременно система записывает исходную текстовую строку «Инструкция по оплате» в метаданные файла (например, в поле EXIF).
    3. Результат: При индексации этого файла Яндекс может мгновенно прочитать текст из метаданных и использовать его для поиска по Картинкам, не применяя OCR.

    Сценарий 2: Захват текста при скриншоте (П. 7)

    1. Действие пользователя: Пользователь делает скриншот окна с ошибкой «Ошибка доступа 403».
    2. Работа системы: Система не только захватывает пиксели экрана, но и перехватывает текст, отображаемый в интерфейсе («Ошибка доступа 403»).
    3. Результат: В метаданные скриншота автоматически добавляется текст «Ошибка доступа 403», что делает его доступным для поиска, даже если пользователь не вводил этот текст вручную.

    Вопросы и ответы

    Описывает ли этот патент, как Яндекс ранжирует изображения или видео в поиске?

    Нет, этот патент не описывает алгоритмы ранжирования. Он описывает исключительно технический способ сохранения текста в метаданных медиафайла в момент создания или редактирования этого файла. Как именно эти метаданные затем используются в формуле ранжирования, в патенте не раскрывается.

    Значит ли это, что Яндекс улучшил технологию распознавания текста на картинках (OCR)?

    Нет. Напротив, этот патент описывает способ, позволяющий избежать необходимости использования OCR. Вместо того чтобы распознавать текст по пикселям после создания изображения, система сохраняет исходный машиночитаемый текст в метаданные в момент его добавления на изображение. Это гарантирует 100% точность.

    Влияет ли этот патент на важность атрибута ALT для изображений?

    Нет, не влияет. Атрибут ALT остается критически важным элементом SEO и доступности контента. SEO-специалистам необходимо продолжать заполнять ALT-теги, так как невозможно знать наверняка, был ли текст на изображении сохранен в метаданных с помощью описанной технологии или будет ли он корректно распознан через OCR.

    Нужно ли теперь добавлять больше текста на изображения для лучшего SEO?

    Патент не дает оснований для такой рекомендации. Добавление текста на изображения по-прежнему не является лучшей практикой с точки зрения доступности и SEO. Важную информацию следует размещать в HTML-тексте страницы. Технология из патента лишь страхует от потери информации, если текст все же был добавлен в медиафайл.

    Где эта технология может применяться Яндексом?

    Наиболее вероятные области применения — это программное обеспечение и сервисы Яндекса, где пользователи создают или редактируют контент. Это могут быть инструменты для создания скриншотов, встроенные редакторы изображений в Яндекс.Диске или других UGC-платформах. Это позволяет Яндексу лучше индексировать контент, созданный внутри своей экосистемы.

    Применяется ли этот метод к видео и аудио?

    Да. Патент явно описывает применение этого способа к видеозаписям (когда текст добавляется в кадры в виде графики) и к аудиозаписям (когда текст преобразуется в звук, например, синтезируется речь). В обоих случаях исходный текст сохраняется в метаданных соответствующего файла.

    Что такое «графическое представление текста» и «звуковое представление текста»?

    «Графическое представление» — это текст, отрендеренный в виде пикселей и ставший частью изображения или кадра видео (например, надпись на фото). «Звуковое представление» — это аудиозапись, созданная на основе текста, чаще всего с помощью синтеза речи (Text-to-Speech). В обоих случаях исходный машиночитаемый текст теряется без применения этого патента.

    Если я создам картинку в Adobe Photoshop и добавлю текст, применится ли этот патент?

    Нет, если Adobe Photoshop не реализует точно такой же механизм. Патент применяется только в том случае, если вы используете ПО, в которое внедрена эта технология. Если ПО просто преобразует текст в пиксели и не сохраняет его в метаданных, то для извлечения текста поисковой системе придется использовать OCR.

    Может ли система захватывать текст с экрана при создании скриншота автоматически?

    Да, в патенте (Пункт 7) прямо описан сценарий, когда при получении инструкции о создании снимка экрана устройство захватывает в виде текста по меньшей мере часть текста, отображаемого на экране. Это позволяет автоматически добавлять в метаданные скриншота текст, который видит пользователь, даже если он его не вводил вручную.

    Какую пользу этот патент несет для обычного SEO-специалиста?

    Практическая польза для SEO-специалиста, занимающегося продвижением веб-сайтов, минимальна. Патент не предлагает новых стратегий оптимизации или понимания факторов ранжирования. Он полезен для общего понимания того, как могут обрабатываться данные в медиафайлах, но не требует изменений в текущих SEO-практиках.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.