Как Google извлекает, индексирует и ранжирует элементы из структурированных файлов (например, KML), наследуя авторитет источника

Google использует систему для индексации содержимого структурированных файлов, таких как KML (географические данные). Система извлекает отдельные элементы данных (например, метки мест) из файла-контейнера и превращает их в самостоятельные поисковые записи. Критически важно, что эти извлеченные элементы наследуют авторитетность (PageRank, популярность) исходного файла, что используется для их ранжирования в поиске.

Описание

Какую задачу решает

Патент решает проблему неэффективности традиционных поисковых систем при работе со сложными структурированными документами (например, KML-файлами для географических данных). Традиционный поиск индексирует документ целиком, но не способен эффективно находить и ранжировать отдельные элементы или наборы данных внутри этого документа в ответ на конкретный запрос. Изобретение позволяет «распаковать» структурированный файл и сделать его содержимое доступным для поиска на уровне отдельных записей (например, конкретных меток мест).

Что запатентовано

Запатентована система и метод для извлечения и индексации данных из структурированных документов. Система собирает структурированные файлы (например, KML, GeoRSS, KMZ), извлекает из них отдельные наборы данных (data sets, например, Placemarks), и создает для каждого из них отдельную запись (record item) в поисковой базе. Ключевой особенностью является наследование авторитетности: извлеченные элементы ассоциируются с метаданными (distinct metadata) и сигналами ранжирования (например, PageRank, популярность) исходного файла-контейнера.

Как это работает

Процесс состоит из двух основных этапов:

Сбор и объединение: Система сканирует веб и другие источники для поиска структурированных файлов. Параллельно она собирает метаданные об этих файлах (например, количество загрузок, PageRank URL файла) из разных источников, включая PageRank Database. Вся информация объединяется (Merge) в промежуточный файл, индексированный по URL источника.
Извлечение и индексация: Система парсит содержимое файлов. Отдельные наборы данных извлекаются и преобразуются в самостоятельные записи (record items), сохраняя контекст. Для каждой записи рассчитывается независимая от запроса оценка (Query Independent Score), основанная на унаследованных метаданных исходного файла. После удаления дубликатов эти записи добавляются в поисковый индекс.

Актуальность для SEO

Высокая. Хотя патент (приоритетная дата 2007 г.) использует KML (Keyhole Markup Language) как основной пример, описанные принципы критически важны для индексации любых структурированных данных, включая данные в Google Maps, Knowledge Graph, а также информацию из фидов и баз данных. Механизм извлечения элементов и наследования авторитетности источника остается фундаментальным для современного поиска.

Важность для SEO

Влияние на SEO значительно (75/100), особенно для локального поиска и стратегий распространения данных. Патент объясняет, как контент, опубликованный в виде структурированных файлов (например, KML-карты сайта), становится доступным для поиска. Он подчеркивает, что авторитетность (PageRank) домена или URL, где размещен файл, напрямую влияет на ранжирование отдельных элементов, извлеченных из этого файла.

Детальный разбор

Термины и определения

Structured Document (Структурированный документ): Документ, имеющий определенный формат и иерархическую структуру. Основные примеры в патенте — KML, GeoRSS, KMZ.
KML (Keyhole Markup Language): Основанный на XML формат файлов, используемый для отображения географических данных (например, в Google Earth и Google Maps).
Data Set (Набор данных): Отдельный элемент или логическая единица данных внутри структурированного документа. В контексте KML это, как правило, Placemark.
Placemark (Метка места): Геопривязанная сущность в KML файле. Содержит имя, описание, координаты.
Record Item (Элемент записи): Самостоятельная запись в поисковой базе данных, созданная путем извлечения Data Set. Каждый Record Item индексируется отдельно и может быть возвращен в качестве результата поиска.
Metadata / Distinct Metadata (Метаданные): Данные о структурированном документе, часто получаемые из внешних источников (отличных от самого документа). Примеры: PageRank URL документа, количество загрузок (number of downloads), популярность (popularity), анкорный текст ссылок (Anchors).
Query Independent Score (Независимая от запроса оценка): Оценка качества или важности Record Item, рассчитываемая на этапе индексации. Она основывается на унаследованных метаданных исходного Structured Document.
Contextual Information (Контекстная информация): Информация из исходного документа, которая сохраняется с извлеченным элементом (например, URL источника, имя включающей папки — enclosing folder).
Indexing Module (Модуль индексации): Компонент, отвечающий за парсинг документов, извлечение Data Sets, расчет Query Independent Score и создание Record Items.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки структурированных данных.

Идентификация множества структурированных документов одного формата.
Парсинг каждого документа и извлечение из него множества наборов данных (data sets).
Получение distinct metadata (например, ранг документа, популярность, количество загрузок) для каждого документа из множества источников, включая источники, отличные от самого документа.
Объединение метаданных и удаление дубликатов.
Ассоциирование метаданных исходного документа с каждым набором данных, извлеченным из него (наследование авторитетности).
Добавление элементов записи (record items), соответствующих извлеченным наборам данных, в поисковую базу.
При получении запроса: использование ассоциированных метаданных для расчета query-independent score для элемента записи и использование этой оценки для идентификации элемента как ответа на запрос.
Возврат идентифицированного элемента записи.

Ядро изобретения — это процесс превращения вложенных данных в самостоятельные поисковые единицы, которые наследуют сигналы ранжирования (метаданные) своего родительского контейнера (структурированного документа), причем эти сигналы собираются из внешних источников.

Claim 8 (Зависимый): Уточняет сохранение контекста.

Контекстная информация (contextual information) исходного документа ассоциируется с каждым извлеченным набором данных. Эта информация включает идентификатор документа (URL), ассоциированный анкор и имя включающей папки (name of an enclosing folder).

Claim 19 (Независимый пункт): Описывает вариант реализации, сфокусированный на географических данных (названия мест, описания, гео-ссылки), подчеркивая, что метаданные получены из источников, отличных от источников самих документов.

Где и как применяется

Изобретение описывает процессы, происходящие на этапах сбора данных и индексации для построения специализированного поискового индекса (например, индекса Google Maps).

CRAWLING – Сканирование и Сбор данных

Система (Data Collection Module) активно ищет структурированные документы в вебе и других источниках (PUBLIC AND/OR PRIVATE DATA REPOSITORIES). На этом этапе также происходит сбор метаданных из различных источников.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Он делится на две фазы:

Сбор и Объединение: Система загружает документы. Она собирает метаданные, связанные с URL этих документов, из внешних источников (например, PageRank Database, данные о популярности). Происходит объединение (Merge) содержимого документа с его метаданными. Создается промежуточный файл (Output File), где записи индексированы по URL.
Извлечение и Трансформация (Indexing Module): Модуль обрабатывает этот файл. Он выполняет парсинг структурированных данных, извлекает отдельные Data Sets (например, Placemarks) и трансформирует их в Record Items. На этом этапе происходит наследование контекста и метаданных от родительского URL к дочерним элементам. Рассчитывается Query Independent Score для каждого элемента и выполняется дедупликация.

RANKING – Ранжирование
Рассчитанный на этапе индексации Query Independent Score, основанный на унаследованных метаданных (например, PageRank источника), используется как ключевой сигнал ранжирования при обработке запроса пользователя.

Входные данные:

URL и содержимое структурированных документов (KML, GeoRSS).
Метаданные из внешних репозиториев (популярность, загрузки, анкоры).
Данные из PageRank Database.

Выходные данные:

Searchable Repository (Поисковый индекс), содержащий Record Items. Каждая запись включает извлеченные данные, унаследованный контекст, метаданные источника и Query Independent Score.

На что влияет

Конкретные типы контента: В первую очередь влияет на данные в структурированных форматах. Патент явно упоминает KML, GeoRSS и KMZ. Это напрямую влияет на видимость объектов в Google Maps и Google Earth.
Специфические запросы: Локальные запросы и запросы, связанные с поиском конкретных сущностей, которые могут быть описаны в структурированных файлах или фидах.
Конкретные ниши или тематики: Недвижимость, туризм, локальный бизнес и любые ниши, где используются географические данные.

Когда применяется

Алгоритм применяется постоянно в процессе сканирования и индексации. Он активируется каждый раз, когда система обнаруживает файл в поддерживаемом структурированном формате (например, KML). Это стандартный конвейер обработки для таких типов файлов.

Пошаговый алгоритм

Этап 1: Сбор и объединение данных (Data Collection)

Сбор источников: Система собирает URL структурированных документов путем сканирования веба и из публичных/приватных репозиториев.
Загрузка документов: Выполняется загрузка (Document Fetch) содержимого идентифицированных документов.
Сбор метаданных: Система собирает метаданные, связанные с этими документами. Это включает:
- Данные из репозиториев (например, количество загрузок, отзывы пользователей — user feedback).
- Запрос к PageRank Database для получения оценки авторитетности URL документа и связанных анкоров (Anchors).
Объединение (Merge): Содержимое документа и все собранные метаданные объединяются в единую запись, ключом которой является URL документа. Происходит первичная дедупликация файлов.
Генерация промежуточного файла: Создается Output File, содержащий объединенные записи.

Этап 2: Извлечение и индексация (Indexing Module)

Парсинг и извлечение: Indexing Module обрабатывает Output File. Он парсит каждую запись и извлекает отдельные наборы данных (Data Sets, например, Placemarks).
Сохранение контекста и наследование метаданных: С каждым набором данных ассоциируется контекстуальная информация (например, иерархия папок) и все метаданные исходного URL (PageRank, популярность и т.д.).
Расчет оценки: Для каждого извлеченного набора данных рассчитывается Query Independent Score, основанный на унаследованных метаданных.
Дедупликация элементов: Система идентифицирует и удаляет дубликаты извлеченных элементов (например, одинаковые Placemarks из разных файлов). Сохраняется элемент с наивысшим Query Independent Score.
Создание записей (Record Items): Извлеченные наборы данных трансформируются в Record Items, индексированные уникальным идентификатором (Document ID), который может быть хэшем от ключевых полей (например, координат).
Сохранение: Record Items добавляются в Searchable Repository.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке структурированных данных и связанных с ними сигналов авторитетности и популярности.

Контентные факторы (внутри файла): Данные, содержащиеся в структурированном документе. Для KML это: названия (<name>), описания (<description>), координаты (<coordinates>).
Структурные факторы: Иерархия папок (<Folder>) используется как контекстная информация (enclosing folder).
Ссылочные факторы (Внешние метаданные): Используется PageRank URL, на котором размещен структурированный документ. Также упоминаются анкоры (Anchors), связанные с файлом.
Поведенческие факторы / Популярность (Внешние метаданные): Патент явно упоминает использование метаданных о популярности файла (popularity), таких как количество загрузок (number of downloads) файла с определенного сайта или отзывы пользователей (user feedback).
Географические факторы: Геопривязка данных (координаты, адреса) является центральной частью для KML и GeoRSS форматов.

Какие метрики используются и как они считаются

PageRank (или аналогичная метрика авторитетности): Оценка авторитетности исходного URL. Получается из PageRank Database.
Показатели популярности: Метрики, характеризующие востребованность файла (например, количество загрузок).
Query Independent Score: Агрегированная оценка важности извлеченного элемента. Рассчитывается на основе доступных метаданных, унаследованных от источника (включая PageRank и показатели популярности). Формула расчета не приводится.
Document ID: Уникальный идентификатор для Record Item. Может генерироваться как хэш-значение (hash value) от выбранных полей записи, например, на основе географических координат и названия.
Clustering (Кластеризация): Упоминается возможность кластеризации извлеченных наборов данных, относящихся к одной и той же физической сущности, для улучшения разнообразия поисковой выдачи.

Выводы

Индексация на уровне элементов: Google «распаковывает» сложные структурированные файлы (KML, GeoRSS и потенциально другие) и индексирует отдельные элементы данных внутри них как самостоятельные результаты поиска (Record Items).
Наследование авторитетности (Authority Inheritance): Это ключевой механизм патента. Авторитетность (PageRank) и популярность (количество загрузок) исходного URL или файла-контейнера передаются всем отдельным элементам, извлеченным из него.
Важность PageRank для не-HTML контента: Патент явно подтверждает использование PageRank как сигнала качества для URL, содержащих структурированные данные (KML, фиды).
Внешние метаданные для ранжирования: Система активно собирает метаданные о файле из разных источников (distinct metadata). Эти внешние сигналы используются для расчета Query Independent Score и напрямую влияют на ранжирование извлеченных элементов.
Важность контекста: При извлечении элементов система сохраняет контекстуальную информацию (Contextual Information), например, иерархию вложенности (enclosing folder), что помогает лучше понять значение данных.
Дедупликация и каноникализация данных: Если одни и те же данные найдены в нескольких файлах, система выполняет дедупликацию. Предпочтение отдается данным, найденным в более авторитетном или популярном источнике (имеющим более высокий Query Independent Score).

Практика

Best practices (это мы делаем)

Хотя патент в основном описывает индексацию специализированных форматов (KML), он дает важные стратегические инсайты по распространению любых структурированных данных.

Размещение структурированных данных на авторитетных ресурсах: Если вы публикуете данные в структурированных форматах (KML-файлы филиалов, GeoRSS-ленты, фиды данных), размещайте их на доменах или страницах с высоким PageRank. Авторитетность хоста будет унаследована каждым элементом внутри файла и повысит их шансы на ранжирование (например, в Google Maps).
Повышение авторитетности файлов (Получение ссылок): Необходимо работать над повышением авторитетности самого файла. Получение качественных внешних ссылок непосредственно на URL KML-файла с релевантными анкорами повысит его PageRank и, как следствие, улучшит ранжирование его содержимого.
Стимулирование популярности файлов данных: Поскольку популярность (например, количество загрузок) является используемым метаданным, распространение полезных наборов данных среди пользователей положительно влияет на ранжирование их содержимого.
Использование KML/GeoRSS для локального SEO: Подтверждается важность использования этих форматов для передачи географической информации. Создавайте полные и точные KML-файлы для ваших локаций и обеспечьте их доступность для краулинга.
Полнота и структура данных внутри файлов: Убедитесь, что каждый элемент (Placemark) содержит полное описание и точное название. Используйте иерархическую структуру (папки) для организации данных, так как этот контекст (Contextual Information) сохраняется при индексации.
Мониторинг каноникализации данных: Важно, чтобы ваш собственный сайт оставался наиболее авторитетным источником ваших данных. Это гарантирует, что при дедупликации Google выберет вашу версию данных как каноническую.

Worst practices (это делать не надо)

Размещение важных данных на низкокачественных хостах: Публикация структурированных файлов на новых, неавторитетных доменах или спамных ресурсах приведет к низкому Query Independent Score для извлеченных элементов, снижая их видимость.
Игнорирование ссылочного профиля файлов: Ошибка считать, что для ранжирования контента KML-файла достаточно его создать. Без внешних сигналов авторитетности файл и его содержимое не будут конкурентоспособны.
Игнорирование структуры и контекста: Создание «плоских» структурированных файлов без логической иерархии и контекстуальных описаний ухудшает понимание данных системой.

Стратегическое значение

Патент подчеркивает философию Google по извлечению и индексации сущностей и данных, а не только веб-страниц. Он демонстрирует конкретный механизм того, как авторитетность источника (PageRank и другие сигналы) применяется не только к HTML-контенту, но и к данным в специализированных файлах. Это подтверждает фундаментальный принцип «наследования авторитетности» от контейнера к содержимому и важность качества платформы для публикации данных.

Практические примеры

Сценарий: Оптимизация видимости филиалов сети ритейлера в Google Maps

Задача: Улучшить ранжирование локаций сети магазинов в Google Maps.
Действие (на основе патента):
1. Создать полный KML-файл, содержащий Placemarks для всех магазинов. Организовать их по регионам с помощью <Folder> (контекст). Добавить подробные описания.
2. Разместить этот KML-файл на основном, авторитетном домене компании (например, brand.com/locations/all_locations.kml).
3. Продвижение файла (Ключевой шаг): Активно продвигать файл: поставить на него внутренние ссылки с релевантными анкорами и получить внешние ссылки на этот KML-файл с авторитетных локальных порталов.
Как это работает: Google сканирует KML-файл и фиксирует ссылки на него (повышая PageRank файла). Indexing Module извлекает каждую метку магазина (Placemark) как отдельный Record Item. Каждый Record Item наследует высокий PageRank и другие сигналы авторитетности от файла all_locations.kml.
Ожидаемый результат: Извлеченные локации получают высокий Query Independent Score. При дедупликации данных Google с большей вероятностью выберет данные из KML-файла ритейлера как канонические и будет ранжировать их выше в результатах Google Maps.

Вопросы и ответы

Что такое структурированный документ в контексте этого патента?

В первую очередь, это файлы специализированных форматов, такие как KML (Keyhole Markup Language), GeoRSS и KMZ, используемые для отображения географической информации в Google Maps и Google Earth. Однако технология потенциально применима к любым файлам с четкой иерархической структурой данных (фидам).

Как именно патент меняет подход к поиску?

Он позволяет Google «распаковывать» содержимое файла и индексировать его поэлементно. Вместо того чтобы возвращать ссылку на большой KML-файл, Google может вернуть конкретную метку места (Placemark) из этого файла, которая точно соответствует запросу пользователя. Это переход от поиска документов к поиску данных (сущностей) внутри документов.

Что такое наследование авторитетности, описанное в патенте?

Это ключевой механизм. Система оценивает авторитетность (PageRank) и популярность (например, количество загрузок) исходного файла-контейнера. Эта оценка затем присваивается всем отдельным элементам данных, извлеченным из этого файла. Элемент из авторитетного источника получит преимущество в ранжировании.

Означает ли это, что нужно получать ссылки на KML-файлы или фиды?

Да, абсолютно. Если вы публикуете KML-файлы (например, карту филиалов) или важные фиды данных и хотите, чтобы их содержимое хорошо ранжировалось, необходимо работать над получением качественных внешних ссылок непосредственно на URL этого файла. Это повысит его PageRank, который затем унаследуют все элементы внутри файла.

Как это влияет на Local SEO и Google Maps?

Влияние прямое. Это означает, что публикация точных KML-файлов на авторитетном домене компании и получение ссылок на эти файлы может улучшить видимость и ранжирование ее локаций в Google Maps, поскольку эти локации (Placemarks) унаследуют авторитетность источника.

Что произойдет, если мои данные опубликованы на моем сайте и на стороннем агрегаторе?

Система выполняет дедупликацию на уровне извлеченных элементов. Если она обнаружит одинаковые данные в двух разных файлах, она выберет каноническую версию. Выбор основывается на Query Independent Score, который зависит от авторитетности источников. Данные с более авторитетного сайта будут предпочтительнее.

Какие метаданные Google собирает о файлах?

Патент явно упоминает сбор метаданных из разных источников. К ним относятся PageRank URL, на котором размещен файл, анкорный текст (Anchors) ссылок, ведущих на файл, а также показатели популярности, такие как количество загрузок файла (number of downloads) и отзывы пользователей (user feedback).

Применяется ли этот патент к JSON-LD или Schema.org на веб-страницах?

Патент фокусируется на обработке отдельных структурированных файлов (как KML). Однако общие принципы — извлечение структурированных данных, сохранение контекста и использование авторитетности источника (контейнера) для ранжирования извлеченных сущностей (содержимого) — являются фундаментальными для Google и, вероятно, применяются схожим образом и при обработке Schema.org.

Что такое «сохранение контекста» (Contextual Information) при извлечении данных?

Это означает, что система запоминает иерархию внутри файла. Например, если метка места находилась в папке «Офисы в Европе» внутри KML-файла, эта информация (контекст, enclosing folder) будет сохранена и ассоциирована с извлеченной меткой. Это помогает системе лучше интерпретировать данные и определять их релевантность.

Что такое Query Independent Score в этом патенте?

Это предварительно рассчитанная оценка важности или качества отдельного элемента данных, которая не зависит от конкретного поискового запроса. Она рассчитывается на этапе индексации и основывается на унаследованных метаданных исходного файла, таких как его PageRank и популярность. Эта оценка затем используется как сильный сигнал в процессе ранжирования.