
Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.
Патент решает проблему доступа поисковых систем к метаданным для документов, которые не используют язык разметки (non-markup language documents), таких как PDF, документы Word, таблицы Excel и т.д. Стандартные HTML-документы предоставляют метаданные через META-теги, но в не-HTML форматах этот механизм отсутствует. Это затрудняет поисковым системам понимание контекста, авторства и тематики таких файлов, ухудшая качество поиска.
Запатентован механизм передачи метаданных через HTTP-заголовки во время сканирования (crawl-time) для контента, не являющегося HTML. Система включает компонент на стороне сервера (External Metadata Compiler), который внедряет метаданные в специальный HTTP-заголовок, и компонент на стороне поисковой системы (Interpreter), который извлекает эти данные и преобразует их в формат, понятный индексатору (например, в стандартные META-теги).
Процесс работает следующим образом:
Interpreter) запрашивает не-HTML документ.External Metadata Compiler на сервере находит метаданные, форматирует их как пары имя-значение (name-value pairs) и кодирует (percent-encoding).X-EXTERNAL-METADATA, как показано в примерах патента) в ответе сервера.markup language fragment), содержащий виртуальные META-теги и контент документа.Высокая. Оптимизация не-HTML контента (особенно PDF) остается важной задачей в SEO. Механизм использования HTTP-заголовков для передачи инструкций и метаданных является стандартной практикой в Google (например, X-Robots-Tag и Link: rel=canonical работают по схожему принципу). Этот патент описывает фундаментальный способ обогащения индекса данными о не-HTML файлах.
Патент имеет значительное влияние на техническое SEO (80/100). Он описывает инфраструктуру, которая позволяет SEO-специалистам напрямую влиять на то, как Google индексирует и интерпретирует PDF-файлы, документы Word и т.д. Это предоставляет путь для оптимизации заголовков, описаний, управления индексацией и добавления пользовательских атрибутов для форматов, где нельзя использовать стандартные HTML-теги.
X-EXTERNAL-METADATA, как показано на схемах патента), используемое для идентификации пользовательских метаданных в HTTP-ответе.Патент фокусируется на процессе обработки данных поисковой системой.
Claim 1 (Независимый пункт): Описывает метод предоставления метаданных для документа без языка разметки в поисковый индекс.
markup language tag) для этой пары имя-значение.Claim 2 (Зависимый от 1): Уточняет, что пара имя-значение закодирована с использованием percent-encoding.
Claim 3 (Зависимый от 1): Уточняет механизм активации.
Процессы извлечения и создания тега выполняются в ответ на идентификацию предопределенного имени заголовка (pre-determined header name).
Claim 4 (Зависимый от 1): Указывает, что предоставленные метаданные заменяют предыдущие метаданные, проиндексированные для этого документа (обеспечение актуальности).
Claim 8 (Независимый пункт): Описывает поисковую систему (систему с процессором и памятью), сконфигурированную для выполнения аналогичных шагов в рамках операции сканирования (crawling operation).
Изобретение применяется на этапах сканирования и индексирования.
CRAWLING – Сканирование и Сбор данных
Это основной этап применения. Interpreter (как часть краулера) отправляет запрос на получение не-HTML документа. Сервер (используя External Metadata Compiler) отвечает HTTP-ответом. Interpreter анализирует HTTP-заголовки и, если обнаруживает предопределенный заголовок с метаданными, извлекает и декодирует их.
INDEXING – Индексирование и извлечение признаков
Interpreter преобразует извлеченные метаданные и основное содержимое файла в Markup language fragment. Этот фрагмент передается Indexer. Индексатор обрабатывает этот фрагмент, как если бы это был стандартный HTML/XML документ, индексируя содержимое и учитывая синтезированные META-теги.
Входные данные (для поисковой системы):
pre-determined header name.Percent-encoding) пары «имя-значение» в этом заголовке.Выходные данные (для индексатора):
Markup language fragment (виртуальный HTML или XML), содержащий контент документа и метаданные в виде тегов разметки.crawl-time) или повторного сканирования документа.Процесс описывает взаимодействие между Interpreter (Краулер) и External Metadata Compiler (Сервер).
Этап 1: Запрос (Interpreter)
Этап 2: Обработка на сервере (External Metadata Compiler)
Percent-encoding к парам «имя-значение» для безопасной передачи (например, Author%3DO%27Connor).pre-determined header name (например, X-EXTERNAL-METADATA) и добавляя контент документа.Этап 3: Обработка ответа (Interpreter)
pre-determined header name, извлекает и декодирует пары «имя-значение».markup language fragment (например, HTML-сниппет).Этап 4: Индексация (Indexer)
Interpreter передает markup language fragment компоненту Indexer для обработки и обновления поискового индекса.Патент описывает механизм передачи данных и упоминает типы и источники метаданных, которые могут быть использованы.
pre-determined header name для идентификации данных.Percent-encoding (RFC3986) для кодирования данных.Патент не описывает метрики ранжирования. Он описывает форматы данных и протоколы обработки.
Percent-encoding.markup language fragment) и обрабатываются поисковой системой идентично стандартным HTML META-тегам.percent-encoding) и в нужном заголовке.X-Robots-Tag: Для управления индексацией PDF/DOC файлов (например, noindex для устаревших документов).Link: rel=canonical: Для указания канонической версии файлов, доступных по разным URL.External Metadata Compiler может использовать метаданные из самого файла, всегда заполняйте свойства документа (Заголовок, Автор, Тема) в PDF или файлах Office перед публикацией.X-EXTERNAL-METADATA). Это позволяет передавать оптимизированные Titles, Descriptions или сигналы E-E-A-T (авторство). Требует тщательной настройки сервера и корректного percent-encoding.percent-encoding (при кастомной реализации) или ошибки в синтаксисе стандартных заголовков (например, X-Robots-Tag) приведут к игнорированию данных.Патент подтверждает стратегию Google по унификации обработки всех типов контента. Независимо от исходного формата (HTML, PDF, DOC), контент приводится к общему виду перед индексацией. Для SEO это означает, что техническая оптимизация должна охватывать весь контент на сайте, а конфигурация сервера является критически важным инструментом для передачи сигналов поисковым системам о не-HTML активах.
Сценарий 1: Управление индексацией PDF с помощью стандартного заголовка
/reports/old-report.pdf).<Files "old-report.pdf"> Header set X-Robots-Tag "noindex" </Files> Interpreter получит эту инструкцию, преобразует ее в эквивалент META Robots тега, и индексатор удалит файл из индекса.Сценарий 2: Передача кастомных метаданных (Продвинутый/Enterprise)
/files/doc1.pdf.Title%3DSEO%20Strategy%202025,Author%3DJohn%20Doe.<Files "doc1.pdf"> Header set X-EXTERNAL-METADATA "Title%3DSEO%20Strategy%202025,Author%3DJohn%20Doe" </Files> Interpreter извлекает данные, преобразует их в META-теги Title и Author, что может повлиять на сниппет и понимание контента. (Примечание: поддержка заголовка X-EXTERNAL-METADATA в публичном поиске не гарантирована).К каким типам файлов применим этот патент?
Патент применим к любым документам, которые не используют язык разметки (non-markup language documents) и индексируются поисковой системой. Это включает PDF, документы Microsoft Office (Word, Excel, PowerPoint), OpenOffice и другие форматы, не поддерживающие стандартные HTML META-теги.
Какое конкретное имя HTTP-заголовка использует Google для этого механизма?
Патент защищает механизм использования "предопределенного имени заголовка" (pre-determined header name). В примерах используется X-EXTERNAL-METADATA. Для публичного веб-поиска Google документировал использование X-Robots-Tag и Link: rel=canonical в HTTP-заголовках, которые работают по тому же принципу. Поддержка X-EXTERNAL-METADATA для веб-поиска не гарантирована, но часто используется в корпоративном поиске.
Чем этот механизм отличается от X-Robots-Tag?
Это разные применения одного и того же механизма. X-Robots-Tag используется для передачи инструкций краулеру (например, noindex, nofollow). Механизм, описанный в патенте, шире и позволяет передавать контентные метаданные (например, Автор, Тема, Заголовок, Описание). Оба используют HTTP-заголовки для передачи информации о не-HTML файлах.
Обязательно ли метаданные должны храниться внутри самого PDF-файла?
Нет. Ключевое преимущество этого изобретения в том, что метаданные могут храниться отдельно от файла — например, в базе данных или CMS. External Metadata Compiler (ваш сервер или приложение) извлекает их из внешнего источника и внедряет в HTTP-заголовок в момент запроса файла краулером.
Что такое процентное кодирование (percent-encoding) и зачем оно нужно?
Это стандартный механизм (RFC3986) для безопасной передачи специальных символов (пробелы, запятые, знаки равенства) в рамках HTTP-протокола. Символы заменяются на их код (например, пробел становится %20). Это гарантирует, что данные не будут искажены при передаче в заголовке. При использовании кастомных заголовков это критически важно.
Улучшит ли использование этого механизма ранжирование моих PDF-файлов?
Да, косвенно. Предоставляя поисковой системе четкие и оптимизированные сигналы о содержании документа (например, релевантный заголовок и тему), вы позволяете ей лучше понять контент и его контекст. Это может привести к более эффективному ранжированию и улучшению сниппета в SERP.
Что произойдет, если метаданные в самом файле отличаются от метаданных в HTTP-заголовке?
Патент (Claim 4) указывает, что метаданные, предоставленные через этот механизм (в HTTP-заголовке), могут заменять ранее проиндексированные метаданные. Это предполагает, что данные из HTTP-заголовка, как наиболее актуальные на момент сканирования, могут иметь приоритет над данными, извлеченными из свойств файла.
Откуда система берет эти метаданные?
Патент упоминает несколько источников, которые может использовать External Metadata Compiler: свойства самого файла (например, автор в DOC-файле), внешние базы данных, системы управления документами (CMS/DMS) или данные, производные от местоположения файла в структуре директорий.
Означает ли этот патент, что Google конвертирует все PDF и DOC файлы в HTML?
Да, для целей индексации. Патент описывает, как компонент Interpreter преобразует содержимое не-HTML файла и его метаданные (полученные из заголовков) в Markup language fragment (фактически, синтетический HTML-документ). Именно этот унифицированный формат затем анализируется индексатором.
Может ли этот механизм использоваться для передачи сигналов E-E-A-T?
Да, это одно из потенциальных применений. Можно передавать информацию об авторе, его квалификации или организации через HTTP-заголовки для документов, где эта информация критична (например, медицинские или финансовые PDF). Это помогает связать контент с сущностями авторитетных авторов.

Индексация
Техническое SEO

Краулинг
Техническое SEO
Свежесть контента

Ссылки
Индексация
Мультимедиа

Краулинг
Индексация
Техническое SEO

Индексация

Поведенческие сигналы
Персонализация
Семантика и интент

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

SERP
EEAT и качество
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Семантика и интент

Local SEO
Поведенческие сигналы
Свежесть контента
