Как Google позволяет владельцам сайтов программно управлять поиском с помощью контекстных файлов (Google Custom Search)

Патент описывает архитектуру Программируемой поисковой системы (Google CSE). Владельцы тематических сайтов могут передавать поисковой системе «контекстные файлы». Эти файлы содержат инструкции по модификации запроса, выбору коллекций документов для поиска, фильтрации и переранжированию результатов, адаптируя выдачу под свою экспертизу и контекст пользователя.

Описание

Какую задачу решает

Патент решает проблему неспособности общих поисковых систем точно определить намерение (интент) пользователя исключительно на основе терминов запроса. Стандартные поисковые системы работают по фиксированным алгоритмам («черный ящик») и не могут программно использовать специализированную экспертизу и точку зрения, доступную на тематических сайтах (Vertical Content Sites). Изобретение создает механизм для передачи этой экспертизы в поисковую систему во время обработки запроса.

Что запатентовано

Запатентована система программируемой поисковой системы (Programmable Search Engine System или PSE), которая принимает инструкции (Context Files) от внешних сущностей (владельцев сайтов, клиентов) для управления операциями поиска. Эти инструкции контролируют три фазы: предварительную обработку запроса (модификация), управление поисковой машиной (выбор коллекций документов, настройка параметров) и постобработку результатов (фильтрация, ранжирование, аннотирование).

Как это работает

Система функционирует следующим образом:

Инициация: Пользователь вводит запрос (часто на вертикальном сайте). Сайт отправляет запрос и идентификатор контекста (Context ID) в PSE.
Обработка контекста: Компонент Context Processor извлекает соответствующий Context File.
Pre-processing: Запрос модифицируется (переписывается, дополняется) на основе правил и баз знаний (Knowledge Base File) из контекстного файла.
Search Engine Control: Определяются коллекции документов (Corpus) для поиска и параметры ранжирования.
Выполнение поиска: Поисковая система выполняет модифицированный запрос в указанных коллекциях.
Post-processing: Результаты фильтруются, переранжируются на основе оценок, предоставленных вертикальным сайтом (через Site/Page Annotation File), и аннотируются.

Актуальность для SEO

Средне-Высокая. Описанная архитектура является фундаментом для Google Custom Search Engine (CSE) / Programmable Search Engine (с приоритетом от 2005 г.). Хотя этот продукт существует отдельно от основного поиска Google, базовые концепции патента — использование внешней экспертизы, контекстное переранжирование, выбор корпуса документов и использование баз знаний — остаются крайне актуальными. Изобретатель (R. Guha) является ключевой фигурой в развитии Knowledge Graph и Schema.org.

Важность для SEO

Влияние на SEO (7/10). Патент описывает инфраструктуру для кастомных поисковых систем (CSE), а не алгоритмы основного органического поиска Google. Прямое тактическое применение для органического SEO ограничено. Однако он предоставляет критически важные стратегические инсайты о том, как Google концептуализирует контекст, интент пользователя и ценность внешней экспертизы (E-E-A-T). Понимание этих механизмов (сегментация индекса, контекстное ранжирование, использование структурированных данных) важно для Senior SEO-специалистов.

Детальный разбор

Термины и определения

Context File (Контекстный файл): Файл, содержащий программные инструкции для управления поисковой системой. Включает правила препроцессинга, постобработки и данные для контроля движка. Может ссылаться на Annotation File и Knowledge Base File.
Context Processor (Обработчик контекста): Компонент системы, который интерпретирует Context Files и выполняет указанные в них операции. Может располагаться на стороне PSE, вертикального сайта или клиента.
Corpus (Корпус документов / Document Collection): Определенная коллекция документов или индекс для поиска. Контекстный файл может указывать, какой корпус использовать.
Descriptor / Tag / Label (Дескриптор / Тег / Метка): Семантическая метка, присваиваемая владельцем контекста в Site/Page Annotation File для характеристики ресурса (например, «Обзор», «Производитель»). Используется для фильтрации.
Knowledge Base File (Файл базы знаний): Тип контекстного файла, содержащий структурированные данные о концепциях, фактах, сущностях (классы и их экземпляры). Используется для семантического анализа и модификации запросов.
Pre-processing (Предварительная обработка): Операции до выполнения запроса. Включают модификацию запроса (Query Modification) и перенаправление контекста (Context Redirection).
Post-processing (Постобработка): Операции над результатами поиска. Включают фильтрацию (Restriction), ранжирование, аннотирование и добавление навигационных ссылок (relContext).
Programmable Search Engine (PSE) (Программируемая поисковая система): Поисковая система, операции которой могут контролироваться внешними инструкциями (Context Files). Реализация патента — Google Custom Search.
Rank / Score (Ранг / Оценка): Показатель качества (figure of merit) или важности ресурса, присвоенный владельцем вертикального сайта в файле аннотаций. Используется для кастомного ранжирования.
Site/Page Annotation File (Файл аннотаций сайтов/страниц): Тип контекстного файла, в котором вертикальный провайдер категоризирует (Descriptor), оценивает (Rank) и комментирует (Comment) конкретные URL.
Vertical Content Site (VCS) (Вертикальный контент-сайт): Внешний веб-сайт (часто тематический или экспертный), который предоставляет Context Files для управления поиском.

Ключевые утверждения (Анализ Claims)

Патент US9031937B2 является продолжением (continuation) более ранних заявок (оригинал от 2005 г.). Анализ ключевых независимых пунктов (Claims 1 и 8) раскрывает ядро изобретения в этой версии.

Claim 1 (Независимый пункт): Описывает механизм управления выбором коллекции документов (Corpus).

Система получает запрос от пользователя через интерфейс на сайте контент-провайдера (Vertical Content Site).
Система идентифицирует Context File, предоставленный этим провайдером.
Этот Context File определяет одну или несколько коллекций документов (document collections), которые должны быть использованы для поиска.
Система получает результаты поиска, причем каждый результат принадлежит исключительно к коллекциям, указанным провайдером в Context File.
Система предоставляет эти результаты пользователю.

Ядро изобретения здесь — возможность для внешнего провайдера жестко ограничить область поиска (например, искать только по списку доверенных сайтов), гарантируя, что результаты будут взяты только из указанных источников.

Claim 8 (Независимый пункт): Описывает механизм управления ранжированием на основе оценок провайдера.

Система получает запрос (аналогично Claim 1).
Система идентифицирует Context File (аналогично Claim 1).
Этот Context File содержит оценки (score или rank), назначенные контент-провайдером для конкретных ресурсов. Оценка представляет собой показатель качества (figure of merit).
Система получает результаты поиска.
Система ранжирует эти результаты в соответствии с оценками, назначенными провайдером в Context File.
Система предоставляет отранжированные результаты пользователю.

Ядро изобретения здесь — делегирование функции ранжирования внешнему провайдеру. Система использует его субъективные оценки качества ресурсов для определения порядка выдачи, потенциально переопределяя стандартные сигналы релевантности.

Где и как применяется

Изобретение охватывает несколько этапов поиска и представляет собой архитектуру для системы типа Google Custom Search Engine (CSE).

INDEXING – Индексирование и извлечение признаков

Система должна обрабатывать, кэшировать (Cached Context Files) и, возможно, сканировать (Context File Crawler) контекстные файлы, предоставляемые вертикальными сайтами.

QUNDERSTANDING – Понимание Запросов

На этом этапе происходит предварительная обработка (Pre-processing). Context Processor использует Context File и Knowledge Base File для семантического анализа запроса (определения сущностей) и его модификации (Query Modification) путем добавления или замены терминов.

RANKING – Ранжирование

На этом этапе применяются инструкции управления поисковой машиной (Search Engine Control Data). Система выбирает указанные коллекции документов (Corpus) для поиска (согласно Claim 1). Также могут применяться весовые коэффициенты (SearchControlParams) для настройки алгоритма ранжирования.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание

На этом этапе происходит постобработка (Post-processing). Context Processor фильтрует результаты (Restriction) и переранжирует их на основе оценок (Rank/Score), предоставленных вертикальным провайдером в Site/Page Annotation File (согласно Claim 8). Также добавляются аннотации и навигационные ссылки (relContext).

На что влияет

Область применения: В первую очередь влияет на поисковые запросы, которые обрабатываются через интерфейс программируемой поисковой системы (например, поиск на сайте, использующем Google CSE). Влияние на общий органический поиск Google не описано.
Типы контента и ниши: Позволяет создавать высококачественные специализированные поисковые системы в любых нишах, где требуется экспертное курирование контента.

Когда применяется

Триггеры активации: Алгоритм активируется, когда поисковый запрос сопровождается Context ID или когда запрос поступает через интерфейс, настроенный на использование Programmable Search Engine. Также может применяться, если пользователь подписан (subscription) на контекст определенного провайдера.

Пошаговый алгоритм

Процесс работы системы (на примере архитектуры, где PSE выполняет обработку):

Получение данных: Front End Server получает пользовательский запрос и Context ID от Vertical Content Site или клиента.
Получение контекста: Context Server извлекает соответствующий Context File (включая Annotation File и Knowledge Base File) по Context ID из кэша или глобального хранилища.
Pre-processing (Предварительная обработка): Context Processor анализирует запрос.
- Семантический анализ: Оценка терминов запроса с использованием Knowledge Base File.
- Модификация запроса: Применение правил Query Modifier для реформирования запроса.
- Редирект контекста: Применение правил contextRedirect для возможного перехода к другому контекстному файлу.
Search Engine Control (Управление поисковой машиной): Context Processor извлекает инструкции управления:
- Выбор корпуса: Определение коллекций документов (Corpus) для поиска.
- Параметры ранжирования: Извлечение весов (SearchControlParams).
Выполнение поиска: Search Engine выполняет реформированный запрос в указанном корпусе с использованием заданных параметров.
Post-processing (Постобработка): Context Processor обрабатывает полученные результаты:
- Фильтрация: Применение команд Restriction на основе дескрипторов в Site/Page Annotation File.
- Ранжирование: Сортировка результатов с использованием значения Rank (Score) из Site/Page Annotation File.
- Аннотирование и навигация: Добавление комментариев (Comment) и ссылок на связанные контексты (relContext).
Возврат результатов: Front End Server возвращает Context Augmented Search Results клиенту.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных, предоставляемых внешними провайдерами для управления поиском.

Структурные факторы (Context Files): Это ключевые данные, используемые системой.
- Site/Page Annotation File: Содержит URL, семантические метки (Descriptor/Tag), оценки качества (Rank) и комментарии (Comment) для конкретных ресурсов.
- Knowledge Base File: Содержит структурированное описание сущностей (классы, экземпляры, свойства), используемое для понимания запросов.
- Файлы с инструкциями: Содержат правила модификации запросов, фильтрации, редиректов и параметры управления поисковой машиной.
Пользовательские факторы: Система может использовать данные о пользователе (User ID, IP-адрес) и его поведении на сайте для определения контекста пользователя (например, классификация пользователя как «Профессионал» или «Потребитель») и выбора соответствующих правил обработки.

Какие метрики используются и как они считаются

Rank (Score): Метрика качества или релевантности ресурса (figure of merit), определяемая вертикальным провайдером и хранящаяся в Site/Page Annotation File. Используется для принудительного ранжирования результатов (как описано в Claim 8).
Weights (SearchControlParams): Весовые коэффициенты для внутренних атрибутов ранжирования поисковой системы (например, частота термина в URL, PageRank и т.д.). Эти веса задаются провайдером в контекстном файле для настройки стандартного алгоритма ранжирования.
Descriptors/Tags: Семантические метки из Site/Page Annotation File. Используются как условия для фильтрации (Restriction) и аннотирования результатов.
Object Properties: Свойства сущностей, определенные в Knowledge Base File. Используются для семантической оценки запросов и результатов.

Выводы

Делегирование контроля над поиском: Патент описывает архитектуру, которая позволяет Google полностью делегировать контроль над процессом поиска третьим сторонам (в рамках системы CSE). Владелец сайта может определять, как интерпретировать запрос, где искать (Corpus) и как ранжировать результаты.
Жесткое ограничение области поиска (Corpus): Система позволяет вертикальным провайдерам указывать конкретные коллекции документов, ограничивая поиск только этими источниками (Claim 1). Это гарантирует, что результаты будут соответствовать критериям отбора провайдера.
Принудительное ранжирование (Explicit Ranking): Система позволяет провайдерам назначать собственные оценки (Rank/Score) ресурсам и требует от поисковой системы ранжировать результаты в соответствии с этими оценками (Claim 8), переопределяя стандартные сигналы релевантности.
Зависимость от кураторства и экспертизы: Эффективность системы напрямую зависит от качества и глубины Context Files, созданных вертикальным провайдером. Система является инструментом для трансляции экспертизы провайдера в поисковую выдачу.
Роль структурированных данных в понимании контекста: Патент подчеркивает важность структурированных данных (Knowledge Base File) для интерпретации запросов и определения контекста пользователя. Это предвосхищает роль Knowledge Graph и Schema.org.

Практика

ВАЖНО: Рекомендации применимы в первую очередь для сайтов, использующих Google Custom Search Engine (CSE) или аналогичные программируемые поисковые системы. Для органического SEO выводы носят стратегический характер.

Best practices (это мы делаем)

(Стратегически) Активное внедрение структурированных данных (Schema.org): Изобретатель патента (R. Guha) — один из создателей Schema.org. Патент подчеркивает важность структурированного понимания сущностей и их свойств (аналог Knowledge Base File). Максимально полное описание контента через микроразметку соответствует этой философии.
(Стратегически) Развитие тематического авторитета (E-E-A-T): Патент демонстрирует ценность, которую Google придает специализированной экспертизе. Стратегия должна быть направлена на то, чтобы стать авторитетным «Вертикальным контентным сайтом» в своей нише.
Тщательное курирование CSE (если применимо): Если на сайте используется кастомный поиск, его необходимо настраивать: тщательно отбирать сайты для включения в область поиска (Corpus), использовать аннотации/метки (Labels) для категоризации и присваивать оценки (Rank) для контроля ранжирования.

Worst practices (это делать не надо)

Игнорирование структурированных данных: Недооценка роли структурированных данных. Патент показывает, что Google архитектурно готов использовать такие данные для глубокого анализа интента и контекста.
Путаница между CSE и общим поиском: Попытки применить описанные здесь методы (например, загрузка Context Files) для манипулирования общим органическим поиском Google неэффективны, так как эта архитектура предназначена для контролируемых сред (CSE).
Использование CSE без кураторства: Внедрение программируемого поиска без активного управления контекстными файлами и аннотациями не реализует потенциал системы и может привести к нерелевантной выдаче.

Стратегическое значение

Этот патент является техническим описанием Google Custom Search Engine. Его стратегическое значение для общего SEO заключается в демонстрации того, что Google обладает развитой инфраструктурой для контекстной обработки запросов. Система умеет применять разные правила ранжирования и выбирать разные корпуса документов в зависимости от контекста. Этот патент предвосхищает важность Knowledge Graph и Schema.org как механизмов передачи экспертизы поисковой системе.

Практические примеры

Сценарий: Настройка поиска на сайте о цифровых камерах с использованием Google CSE

Задача: Улучшить поиск по сайту, чтобы он выдавал не только страницы с самого сайта, но и качественные обзоры с авторитетных внешних ресурсов, при этом исключая интернет-магазины.
Действие (Ограничение Корпуса — Claim 1): Владелец сайта создает Context File, в котором определяет Corpus. В этот корпус включается собственный сайт и список из 10 авторитетных обзорных сайтов (например, dpreview.com, kenrockwell.com). Интернет-магазины исключаются.
Действие (Управление Ранжированием — Claim 8): Владелец сайта создает Site/Page Annotation File. Он присваивает сайту dpreview.com высокий Rank (например, 10), а сайту kenrockwell.com средний Rank (например, 7).
Выполнение запроса: Пользователь ищет «Nikon D100».
Результат: Поисковая система ищет только по 11 указанным сайтам. В выдаче отсутствуют интернет-магазины. Результаты с dpreview.com ранжируются выше результатов с kenrockwell.com благодаря принудительному повышению Rank, даже если стандартный алгоритм ранжировал бы их иначе.

Вопросы и ответы

Является ли этот патент описанием Google Custom Search Engine (CSE)?

Да, этот патент описывает базовую архитектуру и механизмы, которые легли в основу Google Custom Search Engine (CSE), позже переименованного в Programmable Search Engine. Он детально описывает, как владельцы сайтов могут использовать Context Files для настройки поиска.

Влияют ли описанные механизмы на обычный органический поиск Google?

Напрямую нет. Описанные механизмы (загрузка Context Files, принудительное ранжирование по внешним оценкам) применяются только в рамках Programmable Search Engine. Однако патент демонстрирует технические возможности Google по сегментации индекса и изменению логики ранжирования в зависимости от контекста, что используется и в основном поиске, но управляется внутренними алгоритмами Google.

Что такое «Corpus» (Коллекция документов) в контексте этого патента и зачем он нужен?

Corpus — это определенный набор документов или индекс для поиска. Владелец сайта может указать поисковой системе использовать только определенный корпус (Claim 1), например, ограничив поиск своим сайтом, списком доверенных ресурсов или специализированной базой данных (например, PubMed), исключив весь остальной интернет.

Может ли владелец сайта действительно контролировать ранжирование результатов в CSE?

Да, в рамках этой системы. Claim 8 прямо описывает механизм, при котором владелец сайта назначает оценки (Rank/Score) ресурсам в Site/Page Annotation File, и поисковая система обязана ранжировать результаты в соответствии с этими оценками, переопределяя стандартные сигналы релевантности.

Что такое Site/Page Annotation File?

Это ключевой компонент системы. Это файл, в котором владелец сайта перечисляет интересующие его URL, присваивает им семантические метки (Tags), оценки (Rank) и комментарии. Этот файл используется для фильтрации, ранжирования и аннотирования результатов поиска.

Что такое Knowledge Base File и как он используется?

Это файл со структурированными данными, описывающий сущности и их свойства (например, продукт, его производитель и характеристики). Context Processor использует его для семантического анализа запроса: если пользователь ввел название продукта, система может понять его класс и свойства, и на основе этого модифицировать запрос или выбрать нужный контекст.

Какова связь этого патента со Schema.org и структурированными данными?

Связь очень тесная. Изобретатель патента, R. Guha, является ключевым разработчиком Schema.org. Knowledge Base File, описанный в патенте, является прямым предшественником концепций, используемых в Schema.org и Knowledge Graph. Патент демонстрирует философию Google по использованию машиночитаемых структурированных данных для понимания контента и контекста.

Что такое препроцессинг запроса в этой системе?

Препроцессинг — это автоматическая модификация запроса до его выполнения. На основе правил (Query Modifier) и данных из Knowledge Base система может добавлять термины, заменять их синонимами или исправлять ошибки, чтобы лучше соответствовать контексту, определенному владельцем сайта.

Как система определяет контекст пользователя (например, покупатель он или эксперт)?

Патент упоминает возможность использования свойств пользователя (user.property) и его поведения на сайте (клики, просмотренные страницы) для классификации. На основе этой классификации система может перенаправить обработку на специализированный контекстный файл (contextRedirect).

Имеет ли смысл использовать Google Custom Search на сайте с точки зрения SEO?

Для SEO основного сайта это не дает прямых преимуществ в ранжировании. Однако качественная реализация Custom Search может улучшить пользовательский опыт (UX) и повысить авторитетность сайта, позволяя пользователям искать информацию «через призму» экспертизы вашего сайта. Это может косвенно влиять на поведенческие факторы и восприятие бренда.