Как Google индексирует свои внутренние структурированные данные (Protobuf) для универсального и быстрого поиска

GENERIC INDEX FOR PROTOBUF DATA (Универсальный индекс для данных Protobuf)

US12086123B2
Google LLC
2022-06-16
2024-09-10

Индексация

Патент описывает инфраструктурный механизм Google для эффективного индексирования внутренних данных в формате Protocol Buffers (Protobuf). Система преобразует иерархические (древовидные) данные в универсальные пары "поле-значение" и создает обратный индекс. Это делает любые структурированные данные доступными для полнотекстового поиска и позволяет быстро идентифицировать совпавшие поля, независимо от изменений схемы данных.

Какую проблему решает

Патент решает проблему сложности и неэффективности индексирования данных, хранящихся в формате Protocol Buffers (Protobuf). Традиционные методы требуют явного перечисления всех полей для индексации, что затруднительно при сложных схемах данных и создает проблемы, когда определение Protobuf меняется. Изобретение направлено на создание универсального фреймворка (generic framework), который позволяет автоматически сделать любые данные Protobuf полностью доступными для текстового поиска и быстро идентифицировать, в каких именно полях найдено совпадение.

Что запатентовано

Запатентована система для универсальной индексации данных Protobuf. Суть изобретения заключается в автоматическом преобразовании древовидной структуры (tree structure) данных Protobuf в плоскую структуру пар "поле-значение" (field-value pair structure). Затем на основе этой универсальной структуры генерируется обратный индекс (reverse index), обеспечивающий эффективный текстовый поиск независимо от схемы данных.

Как это работает

Система функционирует следующим образом:

Получение данных: Система принимает данные Protobuf в их нативной древовидной структуре.
Конвертация: Древовидная структура преобразуется в набор пар "поле-значение". Этот процесс автоматически адаптируется к любым изменениям схемы Protobuf.
Генерация индекса: Создается обратный индекс (reverse index) на уровне записи. Он включает список соответствия термина полю (term-to-field list), точно указывающий, где встречается каждый термин.
Хранение и Поиск: Индекс сохраняется в базе данных, позволяя выполнять быстрый текстовый поиск и идентифицировать совпавшие поля.

Актуальность для SEO

Высокая (для инфраструктуры Google). Патент опубликован в 2024 году. Protocol Buffers являются фундаментальной технологией для хранения и обмена данными внутри Google. Эффективность индексации этих данных критически важна для скорости работы внутренних систем, включая те, что обеспечивают функционирование Поиска.

Важность для SEO

Патент имеет минимальное значение для практического SEO (1/10). Он описывает исключительно внутреннюю инфраструктуру Google — технические детали того, как индексируются данные, хранящиеся в формате Protobuf. Патент не содержит информации о сигналах ранжирования веб-страниц, методах оценки качества контента или интерпретации пользовательских запросов. Он не дает никаких прямых рекомендаций для оптимизации сайтов.

Термины и определения

Protocol Buffers (Protobuf): Языко-независимый, платформо-независимый механизм для сериализации структурированных данных. Широко используется внутри Google.
Tree structure (Древовидная структура): Исходный иерархический формат представления данных Protobuf.
Field-value pair structure (Структура пар "поле-значение"): Плоский универсальный формат данных, в который преобразуется древовидная структура Protobuf для целей индексации.
Field Index (Индекс поля): Идентификатор, представляющий конечное поле (leaf field) в исходной древовидной структуре. Может быть строкой или целочисленным ключом (integer key, например, Int32) для экономии места.
Reverse Index (Обратный индекс): Структура данных, которая позволяет быстро находить записи по содержащимся в них терминам. В данном контексте, он сопоставляет термины с полями, в которых они встречаются.
Term-to-field list (Список "термин-поле"): Компонент обратного индекса, который для каждого термина перечисляет Field Indexes, содержащие этот термин.
Weight (Вес): Значение, которое может быть присвоено полю (Field Index) для указания его относительной важности при поиске (например, заголовки важнее комментариев).
Ranking Score (Оценка ранжирования): Оценка релевантности результата внутреннего поиска. Может рассчитываться как сумма весов (summation of weights) совпадающих полей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обеспечения текстового поиска по данным Protobuf.

Система получает данные Protobuf (имеющие изменяемую схему — adjustable schema) в виде древовидной структуры.
Программа-конвертер (format converter program) преобразует древовидную структуру в структуру пар "поле-значение".
Ключевой аспект: Изменения схемы и значений автоматически адаптируются (automatically adopted) в новой структуре. Поле представляет лист дерева (leaf fields), а значение — термины в этом поле.
Генерируется обратный индекс (reverse index) данных, представленных в виде пар "поле-значение". Индекс включает Term-to-field list.
Обратный индекс сохраняется в базе данных для использования при текстовом поиске.

Claim 5 и 6 (Зависимые): Детализируют возможность ранжирования.

Система может генерировать вес (Weight) для каждого поля. Затем определяется оценка ранжирования (Ranking Score) для результата поиска, основанная на сумме весов (summation of weights) полей, связанных с поиском.

Claim 7 (Зависимый): Детализирует представление результатов.

Система может подсвечивать (highlighting) совпадающие (matched terms) или связанные термины (related terms) в результатах поиска, используя данные обратного индекса.

Где и как применяется

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Он относится к этапу обработки и структурирования данных внутри инфраструктуры Google.

INDEXING – Индексирование (Внутренняя обработка данных)
Это основная область применения. Механизм используется для обработки и индексирования структурированных данных, которые уже находятся во внутренних системах Google в формате Protobuf (например, в Content Warehouse или других хранилищах). Это не связано напрямую с индексированием внешних веб-страниц.

Входные данные:

Данные Protocol Buffer в древовидной структуре (Tree Structure).

Выходные данные:

Обратный индекс (Reverse Index) конвертированных данных Protobuf, сохраненный в базе данных и пригодный для полнотекстового поиска.

На что влияет

Патент описывает исключительно механизм индексирования внутреннего формата данных. В тексте патента нет информации о влиянии на:

Конкретные типы веб-контента (статьи, товары и т.д.).
Специфические запросы пользователей в Google Поиске.
Определенные форматы веб-контента.
Конкретные ниши или тематики (YMYL и т.д.).
Языковые и географические ограничения.

Когда применяется

Алгоритм применяется в инфраструктуре Google всякий раз, когда необходимо проиндексировать или обновить данные, сохраненные в формате Protobuf, чтобы обеспечить возможность эффективного полнотекстового поиска по этим данным, независимо от их схемы.

Пошаговый алгоритм

Процесс построения универсального индекса для данных Protobuf:

Получение данных: Система (Format Converter) получает данные Protobuf в их исходной древовидной структуре.
Конвертация структуры: Данные конвертируются из древовидной структуры в плоскую структуру пар "поле-значение".
Индексация полей: Для каждой пары определяется Field Index, представляющий путь к значению в исходной структуре. Для оптимизации хранения могут использоваться целочисленные ключи.
(Опционально) Присвоение весов: Каждому Field Index может быть присвоен вес (Weight) в зависимости от его предполагаемой важности.
Генерация обратного индекса: Создается Reverse Index. Из значений извлекаются термины, и для каждого термина формируется Term-to-Field List — список Field Index, где этот термин встречается.
Сохранение индекса: Сгенерированный Reverse Index сохраняется в базе данных.
(Процесс поиска): При получении поискового запроса система использует Reverse Index для быстрого определения совпадений.
(Процесс ранжирования и представления): Для найденных результатов может быть рассчитан Ranking Score (например, путем суммирования Weights), а совпадения могут быть подсвечены (highlighting).

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на механизме индексации формата данных, а не на содержании этих данных.

Структурные факторы: Основные входные данные — это сами данные в формате Protocol Buffers (Protobuf), включая их древовидную структуру (схему) и значения полей.

В патенте не упоминаются контентные, технические, ссылочные, поведенческие, временные, мультимедиа, географические или пользовательские факторы, относящиеся к веб-поиску.

Какие метрики используются и как они считаются

Field Index: Идентификатор поля. Вычисляется путем преобразования пути к полю в строку или целочисленный ключ.
Weight: Метрика важности поля. Присваивается полям для использования в ранжировании. Конкретные методы определения весов не раскрыты, но упоминается, что они могут зависеть от значения поля или типа поля (заголовки важнее комментариев).
Ranking Score: Метрика для сортировки результатов поиска. Рассчитывается как сумма весов (summation of weights) для полевых частей пар "поле-значение", связанных с поиском. Упоминается возможность использования математических моделей (например, линейной модели) для расчета.

Патент инфраструктурный, без прямых рекомендаций для SEO: Патент описывает внутренние процессы Google для эффективного управления собственными базами данных в формате Protobuf. Он не содержит практических выводов или рекомендаций для SEO-специалистов, работающих над продвижением сайтов в веб-поиске.
Универсальность и Автоматизация Индексирования: Ключевая особенность системы — способность автоматически индексировать любые данные Protobuf для полнотекстового поиска и адаптироваться к изменениям схемы (adjustable schema) без ручного вмешательства.
Гранулярность на уровне полей: Система обеспечивает высокую точность поиска за счет Term-to-field list, позволяя точно знать, в каком поле найдено совпадение.
Подтверждение взвешивания полей (Field Weighting): Патент подтверждает, что во внутренних системах Google используется концепция весов (Weight) для разных полей структурированных данных. Разные поля имеют разную важность при расчете внутреннего Ranking Score.
Оптимизация хранения: Эффективность хранения достигается за счет преобразования длинных строковых путей к полям в компактные числовые индексы (Field Index).

ВАЖНО: Патент является чисто инфраструктурным и описывает внутренние механизмы работы с базами данных Google (Protobuf). Он не дает практических выводов или конкретных рекомендаций для применения в SEO.

Best practices (это мы делаем)

Информация для данного раздела в патенте отсутствует.

Worst practices (это делать не надо)

Информация для данного раздела в патенте отсутствует.

Стратегическое значение

Стратегическое значение патента для SEO минимально. Он дает общее представление о том, как Google решает сложные инженерные задачи индексирования больших объемов постоянно меняющихся структурированных данных. Он косвенно подтверждает важность структурированных данных и способность систем выполнять гранулярный поиск с учетом веса полей (Field Weighting), но не дает конкретики по оптимизации для веб-поиска.

Практические примеры

Практических примеров для SEO нет.

Что такое Protocol Buffers (Protobuf) и как они связаны с поиском?

Protocol Buffers (Protobuf) — это эффективный формат сериализации данных, разработанный Google. Он используется для хранения структурированной информации и обмена ею между внутренними сервисами. В контексте поиска Google использует Protobuf для хранения огромного количества данных: извлеченных сигналов со страниц, данных о сущностях, анкоров ссылок и т.д. Это инфраструктурный элемент.

Описывает ли этот патент, как Google индексирует мой сайт?

Нет. Патент не описывает процесс сканирования или индексирования внешних веб-страниц. Он описывает универсальный механизм для индексирования данных, которые уже хранятся внутри систем Google в специфическом формате Protobuf, чтобы сделать их доступными для внутреннего поиска и анализа.

Влияет ли описанный механизм на E-E-A-T, Helpful Content или другие алгоритмы ранжирования?

Нет. В патенте не упоминаются никакие сигналы качества, алгоритмы ранжирования или факторы, влияющие на позиции сайтов в поисковой выдаче. Это чисто инфраструктурное решение для повышения эффективности работы с базами данных.

Что означает "универсальный индекс" (Generic Index) в контексте патента?

Это означает, что создаваемый индекс не зависит от конкретной схемы данных Protobuf. Система может автоматически проиндексировать любую структуру данных в этом формате и адаптироваться к изменениям схемы (добавлению или удалению полей) без ручного вмешательства, обеспечивая полнотекстовый поиск по всем полям.

В патенте упоминается взвешивание (Weighting) и Ranking Score. Являются ли они факторами ранжирования в SEO?

Нет. Упомянутые Weights и Ranking Score относятся к ранжированию результатов при поиске внутри индексированных данных Protobuf. Система позволяет присваивать веса разным полям (например, заголовок важнее комментария) и рассчитывать оценку как сумму весов совпавших полей. Это не те же самые сигналы, которые используются для ранжирования веб-поиска.

Как рассчитывается Ranking Score согласно патенту?

Для этого типа индекса Ranking Score рассчитывается путем суммирования весов (summation of weights) всех полей, в которых были найдены термины поискового запроса. Также упоминается возможность использования математических моделей, например линейной модели, для этого расчета.

Какова основная техническая инновация этого патента?

Основная инновация — это метод преобразования иерархической древовидной структуры Protobuf в плоскую структуру пар "поле-значение" с использованием Field Index и последующее построение обратного индекса (Reverse Index) на этой основе. Это обеспечивает универсальность и автоматическую адаптацию к изменениям схемы.

Как система оптимизирует использование памяти?

Система экономит место, заменяя длинные строковые пути к полям (например, "Entity.diagnostic_report.conclusion") компактными числовыми ключами (Field Index, например, Int32). Это уменьшает общий размер индекса и повышает эффективность хранения.

Могу ли я использовать описанные в патенте методы для улучшения структурированных данных на моем сайте (Schema.org)?

Нет. Патент не дает рекомендаций по использованию Schema.org или других форматов микроразметки на внешних сайтах. Он описывает внутреннюю технологию индексирования Protobuf, а не публичные стандарты веб-разметки.

Какова практическая ценность этого патента для Senior SEO-специалиста?

Практическая ценность минимальна. Патент полезен для общего понимания сложности инфраструктуры Google и того, как компания решает задачи индексирования собственных данных на низком уровне, но он не предоставляет действенных инсайтов для разработки или корректировки SEO-стратегии.

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз

Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.

US8856138B1
2014-10-07

Индексация

Как Google использует компактные Trie-структуры для локального поиска и автодополнения на мобильных устройствах

Патент описывает специализированную структуру данных (Trie), оптимизированную для эффективного хранения, поиска и обновления ключей (например, слов в электронных письмах) на устройствах с ограниченными ресурсами, таких как смартфоны. Эта структура позволяет быстро выполнять локальный поиск и предлагать варианты автодополнения на основе префиксов.

US9378304B2
2016-06-28

Local SEO
Индексация

Как Google оптимизирует обработку регулярных выражений и дорогих повторяющихся запросов в специализированных системах

Патент описывает инфраструктурные оптимизации для поисковых систем, в частности, для поиска по исходному коду. Он включает два основных механизма: 1) Кэширование результатов для дорогих повторяющихся запросов с обновлением кэша в реальном времени во время индексации. 2) Высокоэффективное префильтрование запросов с регулярными выражениями (regex) с помощью суффиксных массивов и обратного обхода автоматов.

US20150161266A1
2015-06-11

Индексация

Как Google использует двухмерный индекс и пре-компьютерные пути для ультрабыстрого поиска в Knowledge Graph

Google использует специализированную архитектуру индекса для Knowledge Graph, отличную от веб-индекса. Патент описывает двумерную структуру индекса, которая позволяет обрабатывать сложные запросы к графу (связи сущностей, диапазоны, геолокация) с очень низкой задержкой. Система интегрирует текстовый поиск с графом, предварительно вычисляет сложные пути и использует специальные структуры для оптимизации локального и диапазонного поиска.

US9576007B1
2017-02-21

Knowledge Graph
Индексация
Local SEO

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

US8184953B1
2012-05-22

Индексация
Мультимедиа

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank

Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.

US7565630B1
2009-07-21

Персонализация
SERP
Ссылки

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм

Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.

US9767157B2
2017-09-19

Семантика и интент
Техническое SEO
EEAT и качество

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP