
Google может обрабатывать запросы, включающие ключевые слова и метки (labels), предоставленные третьими сторонами. Система строит компактный фильтр доменов, связанных с этими метками, и гарантирует минимальную долю результатов из этих источников. Затем результаты, точно соответствующие полным шаблонам URL меток, получают значительное повышение в ранжировании.
Патент решает проблему интеграции внешних категоризаций контента (аннотаций, меток, тегов), часто создаваемых на "вертикальных сайтах знаний" (vertical knowledge sites), в работу универсальной поисковой системы. Использование этих меток позволяет уточнить интент пользователя. Однако, если строго ограничить поиск только аннотированными документами, можно исключить множество релевантных, но неразмеченных документов. Изобретение предлагает эффективный механизм, который балансирует общую релевантность и включение аннотированного контента.
Запатентована система обработки поисковых запросов, содержащих как поисковые термины, так и метки (labels или categorical identifier). Система использует двухэтапный процесс для эффективности. Сначала создается компактный доменный фильтр (Domain Filter) на основе доменов, связанных с запрошенными метками, чтобы гарантировать минимальную долю (Minimum Portion) результатов из этих источников. Затем проводится точная верификация соответствия полным шаблонам URL (URL Patterns), и подтвержденные результаты получают повышение (boost) в ранжировании.
Механизм работает следующим образом:
Domain Filter (например, используя Bloom filter для скорости).Domain Filter, чтобы гарантировать, что минимальная доля (например, 25%) результатов происходит из указанных доменов.URL Patterns (домен + путь). Это устраняет ложные срабатывания Domain Filter.weights), связанных с метками.Высокая/Средняя. Этот патент лежит в основе систем контекстного поиска, таких как Google Custom Search Engines (CSE) и ранее Google Co-op. Хотя в основном поиске Google явное использование оператора label: для сторонних аннотаций не распространено, сама концепция использования аннотаций (включая структурированные данные Schema.org, учитывая участие R. Guha) для фильтрации и повышения релевантности остается крайне актуальной.
Влияние на SEO значительное (7.5/10). Патент демонстрирует механизм, как внешняя или структурная категоризация может напрямую влиять на ранжирование. Это критически важно для оптимизации под CSE и подчеркивает фундаментальную важность четкой структуры URL для всего сайта. Также это подтверждает важность использования структурированных данных, которые Google может интерпретировать как "метки" для бустинга при применении фильтров.
Label) с шаблоном URL (URL pattern). Схематически: <label, URL_pattern>.Domain Filter. Допускает ложноположительные срабатывания.Domain Prefixes). Используется для быстрой первичной фильтрации результатов на уровне домена.label: или more:).Domain Filter. Гарантирует наличие аннотированного контента в выдаче.Domain Filter, а также за постобработку результатов (верификацию и переранжирование).Claim 1 (Независимый пункт): Описывает основной метод обработки запроса с меткой (categorical identifier).
resource identifier, т.е. URL pattern), связанный с меткой, включающий доменное имя и путь (path).relevance score) ресурсов во втором наборе, чей идентификатор соответствует выбранному идентификатору ресурса (Верификация по полному шаблону). Повышение основано на весе (weight), связанном с меткой.Ядро изобретения — это двухэтапный процесс, оптимизированный по производительности. Сначала грубая, но быстрая фильтрация по домену для обеспечения полноты (Recall), затем точная верификация по пути/шаблону URL для обеспечения точности (Precision) и повышения ранжирования.
Claim 4 (Зависимый от 1): Уточняет генерацию второго набора.
Генерация включает выбор предопределенного минимального количества (predetermined minimum number) ресурсов, связанных с доменным именем.
Это реализация механизма Minimum Portion, гарантирующего присутствие аннотированного контента в выдаче, даже если его изначальный ранг был низким.
Claim 5 (Зависимый от 1): Уточняет механизм повышения оценки.
Метод включает определение веса (weight), связанного с меткой.
Это указывает на возможность дифференцированного влияния разных меток (или их источников) на ранжирование.
Изобретение интегрирует обработку аннотаций в стандартный поток выполнения запроса.
INDEXING – Индексирование и извлечение признаков
Система собирает и хранит аннотации (метки и URL Patterns) в Annotation Database через Annotation Interface. Это сбор внешних структурированных сигналов.
QUNDERSTANDING – Понимание Запросов
Query Processor анализирует запрос, чтобы отделить поисковые термины от меток (распознавая операторы типа label:).
RANKING – Ранжирование
Этап первичной фильтрации. Filter Constructor создает Domain Filter. Search Engine получает термины и фильтр. Он генерирует начальный набор результатов и применяет фильтр, гарантируя, что Minimum Portion (M) результатов соответствует доменам в фильтре.
RERANKING – Переранжирование
Критический этап применения патента. Query Processor получает отфильтрованные результаты и выполняет постобработку:
URL Patterns (домен + путь), устраняя ложные срабатывания Domain Filter.weights) для повышения relevance scores подтвержденных результатов.Входные данные:
Annotation Database.Выходные данные:
Annotation Adjusted Results) с индикацией меток.labels).labels), идентифицируемых по специальному синтаксису.Annotation Database существуют аннотации, соответствующие этим меткам.Этап 1: Подготовка и построение фильтра
URL patterns из Annotation Database.URL patterns извлекаются Domain Prefixes (домен, возможно, плюс несколько символов пути).Domain Filter. Используется Bloom filter для компактности: префиксы хешируются (например, Jenkins hash) в битовый массив.Этап 2: Поиск и фильтрация результатов
Domain Filter (путем хеширования его доменного префикса).Domain Filter (даже если придется пропустить более высокоранжированные, но не соответствующие фильтру результаты).Этап 3: Постобработка и переранжирование
URL patterns (полученным на шаге 2).Relevance scores документов с подтвержденными метками повышаются с использованием весовых коэффициентов (Weighting Factors).Патент фокусируется на использовании структурных и внешних данных для фильтрации и переранжирования.
Domain Filter (через Domain Prefix) и для финальной верификации (через полный URL Pattern).Labels, URL Patterns и связанные с ними веса (weights), хранящиеся в Annotation Database.Domain Filter.relevance score. Патент описывает несколько схем: Domain Filter (Фильтр Блума) на этапе основного поиска для обеспечения скорости и полноты (Recall), и точной верификации URL Pattern (домен + путь) на этапе переранжирования для обеспечения точности (Precision).Minimum Portion (M) гарантирует присутствие аннотированного контента в выдаче, даже если его изначальный рейтинг был ниже, не позволяя ему при этом полностью вытеснить более релевантные неаннотированные результаты.weighting), причем система поддерживает дифференцированное взвешивание.URL Patterns. Логичная, иерархическая структура URL является ключевым фактором для работы этого механизма.Принципы патента применимы как для оптимизации под Custom Search Engines (CSE), так и в контексте современных SEO-стратегий (структурированные данные).
/reviews/, /news/, /guides/). Это критически важно, чтобы аннотации (внешние в CSE или внутренние классификаторы Google) могли точно применяться к разделам сайта через URL Patterns.URL Patterns и весам, чтобы получать максимальный бустинг в этой среде.?id=123 вместо ЧПУ) или смешивание разных типов контента в одной директории (например, /blog/ содержит и новости, и обзоры) затрудняет применение точных URL Patterns и снижает эффективность механизмов аннотирования.Патент подтверждает, что Google разработал инфраструктуру для наложения дополнительных слоев ранжирования поверх основного алгоритма, используя структурированные сигналы. Ранжирование не монолитно; оно адаптируется в зависимости от среды (Основной поиск vs CSE) и интента пользователя (выраженного через метки или фильтры). Стратегически важно максимально четко категоризировать контент с помощью доступных инструментов (структура URL, Schema.org), чтобы система могла легко применять к нему соответствующие "метки".
Сценарий: Поиск обзора в Custom Search Engine (CSE) с фильтрацией по метке
Задача: Пользователь ищет обзор камеры в CSE, настроенном сообществом фотографов.
dpreview.com и techradar.com. Эти домены добавляются в Domain Filter.Minimum Portion) результатов будут с этих сайтов.URL Patterns. Метка связана с шаблоном dpreview.com/reviews/. dpreview.com/reviews/canon-r5 — соответствует (домен + путь).dpreview.com/news/new-launch — не соответствует пути (хотя прошел Domain Filter)./reviews/canon-r5 получает значительный буст (weight). Результат /news/new-launch буста не получает.Какое отношение этот патент имеет к Google Custom Search Engines (CSE)?
Этот патент описывает базовую технологию, лежащую в основе Google CSE и ранее Google Co-op. В CSE администратор определяет аннотации (сайты или разделы) и назначает им метки и веса. Описанный механизм фильтрации и переранжирования позволяет применять эти правила в реальном времени при обработке запросов в рамках конкретного CSE.
Почему используется двухэтапная фильтрация (Domain Filter, затем URL Pattern)?
Это сделано для оптимизации производительности. Проверка миллиардов документов на соответствие сложным URL Patterns слишком ресурсоемка. Система использует компактный и быстрый Domain Filter (Фильтр Блума) на основе префиксов доменов, чтобы быстро сузить пространство поиска. Точная проверка по полному URL Pattern (домен + путь) выполняется позже на гораздо меньшем наборе результатов.
Что такое Фильтр Блума (Bloom filter) и каковы его недостатки?
Фильтр Блума — это вероятностная структура данных, которая очень компактно хранит информацию о множестве элементов и позволяет быстро проверить принадлежность. Он используется для Domain Filter ради скорости и экономии памяти. Основной недостаток — он может давать ложноположительные срабатывания (но никогда ложноотрицательные). Именно поэтому требуется последующий этап верификации по полному URL.
Что означает "Минимальная доля" (Minimum Portion M) результатов?
Это гарантия того, что в финальной выдаче будет присутствовать определенный процент (например, 25%) результатов, соответствующих Domain Filter. Система сначала заполняет (100-M)% выдачи самыми релевантными результатами, а затем принудительно заполняет оставшиеся M% слотов, отдавая приоритет документам, соответствующим фильтру. Это обеспечивает баланс выдачи.
Насколько сильно метки влияют на ранжирование?
Влияние может быть значительным. Патент описывает применение весовых коэффициентов (weights) для повышения оценки релевантности. Система поддерживает разные схемы: простой бустинг, кумулятивный бустинг (чем больше меток, тем выше ранг) или индивидуальные веса для каждой метки, что позволяет аннотированным результатам опережать стандартные.
Как этот патент влияет на требования к структуре URL?
Патент значительно повышает важность чистой, логичной и иерархической структуры URL. Поскольку аннотации применяются на основе URL Patterns (которые включают путь), сайты с хорошо организованной структурой (например, /products/, /reviews/) гораздо легче интегрируются в системы, использующие этот механизм, чем сайты с хаотичной структурой.
Используется ли этот механизм в основном поиске Google?
Патент активируется при явном указании меток пользователем (label:), что редко используется в основном поиске Google для сторонних аннотаций. Однако инфраструктура может использоваться Google для интеграции собственных аннотаций, таких как структурированные данные (Schema.org) или данные из Knowledge Graph, которые концептуально работают схожим образом для категоризации и фильтрации.
Может ли этот механизм понизить мой сайт в выдаче?
Да, косвенно. Если пользователь использует метку в запросе, система активно повышает (бустит) результаты, соответствующие этой метке. Если ваш сайт не соответствует метке, он будет вытеснен из топа результатами, получившими бустинг, даже если он хорошо релевантен основному поисковому термину.
Если мой сайт попал в Domain Filter, значит ли это, что он получит бустинг?
Нет, не обязательно. Попадание в Domain Filter лишь гарантирует, что сайт будет рассмотрен для включения в выдачу (в рамках Minimum Portion). Для получения бустинга необходимо, чтобы полный URL документа соответствовал полному URL Pattern (домен + путь) аннотации на этапе верификации. Результаты, не прошедшие верификацию, бустинг не получат.
Что такое "Вертикальные сайты знаний" (Vertical knowledge sites)?
Это термин из патента для обозначения сайтов, предоставляющих дополнительный анализ, комментарии или разметку контента (экспертные блоги, сайты с обзорами, форумы). Они являются потенциальными источниками аннотаций. Примерами могут служить сайты типа Reddit или специализированные форумы, где сообщества категоризируют контент.

SERP
EEAT и качество

Поведенческие сигналы
Семантика и интент
EEAT и качество

Семантика и интент
Мультимедиа
SERP

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Knowledge Graph
SERP

Ссылки
Семантика и интент
SERP

Ссылки
SERP
Поведенческие сигналы

SERP
Поведенческие сигналы

Ссылки
SERP
EEAT и качество

Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
Поведенческие сигналы

Персонализация
EEAT и качество
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент
