Как Google использует внешние аннотации и URL-паттерны для фильтрации и переранжирования выдачи

Google может обрабатывать запросы, включающие определенные метки (labels). Система идентифицирует домены, связанные с этими метками через внешние аннотации (annotations), которые определяют соответствие метки и шаблона URL (URL pattern). Поисковая выдача формируется так, чтобы включать часть результатов с этих доменов, а затем результаты, чьи URL точно соответствуют заданным шаблонам, получают повышение в ранжировании.

Описание

Какую задачу решает

Патент решает проблему интеграции данных из «вертикальных сайтов знаний» (vertical knowledge sites) в общий поиск. На таких сайтах пользователи или эксперты вручную аннотируют контент метками (labels) — например, помечая статью как «профессиональный обзор». Стандартные поисковые системы не видят эти аннотации и не могут использовать их для фильтрации или ранжирования.

Кроме того, патент решает техническую проблему: если ограничить поиск только документами с метками, можно исключить много релевантных, но не аннотированных документов. Изобретение предлагает механизм для сбалансированного включения аннотированного контента без ущерба для общей релевантности.

Что запатентовано

Запатентована система, которая обрабатывает поисковые запросы, содержащие как ключевые слова, так и метки (например, digital camera label:professional review). Система использует базу данных аннотаций (Annotation Database), где хранятся соответствия между метками и шаблонами URL (URL patterns). Для ускорения поиска создается фильтр доменов (Domain Filter), который позволяет быстро отобрать результаты с сайтов, содержащих нужные метки. Затем система проверяет точное соответствие URL шаблону и повышает в ранжировании подтвержденные результаты.

Как это работает

Механизм работает в несколько этапов:

Получение запроса: Пользователь вводит запрос с терминами и метками.
Создание фильтра доменов: Система находит все URL patterns, связанные с этими метками, извлекает из них домены (префиксы URL) и создает компактный Domain Filter (например, используя Bloom filter).
Поиск и фильтрация: Поисковая система ищет результаты по терминам и использует Domain Filter, чтобы гарантировать, что минимальная часть (например, 25%) результатов пришла с отобранных доменов.
Верификация и аннотирование: Система проверяет, соответствует ли URL каждого результата полному URL pattern метки (а не только домену).
Переранжирование: Результаты, которые точно соответствуют URL pattern, получают повышение (boost) в ранжировании. Вес повышения может зависеть от количества меток или их важности.

Актуальность для SEO

Средняя/Высокая. Патент описывает инфраструктуру для специализированного поиска, такого как Google Co-op (закрыт) или Programmable Search Engine, где владельцы сайтов могли определять метки. Хотя прямое использование синтаксиса label: в основном поиске встречается редко, базовая концепция использования аннотаций (например, структурированных данных, атрибутов Knowledge Graph) для фильтрации и переранжирования (фасетный поиск) крайне актуальна в 2025 году.

Важность для SEO

Патент имеет умеренно высокое значение для SEO (7/10). Он демонстрирует, как Google может использовать структуру URL и внешние (или внутренние) аннотации для категоризации контента. Это подчеркивает критическую важность логичной и последовательной структуры URL, которая позволяет идентифицировать типы контента по шаблонам (например, /product/, /review/). Понимание этого механизма помогает при проектировании архитектуры сайтов, особенно в e-commerce и контентных проектах.

Детальный разбор

Термины и определения

Annotation (Аннотация): Запись в базе данных, связывающая метку с шаблоном URL. Формат: <label, URL_pattern>.
Annotation Database (База данных аннотаций): Хранилище, содержащее коллекцию аннотаций.
Bloom filter (Фильтр Блума): Компактная вероятностная структура данных, используемая для эффективной проверки принадлежности элемента к множеству. В патенте используется для реализации Domain Filter.
Domain Filter (Фильтр доменов): Структура данных, содержащая префиксы URL (домены), извлеченные из URL patterns, которые соответствуют меткам в запросе. Используется для быстрого отбора кандидатов.
Domain Prefix (Префикс домена): Начальная часть URL pattern, обычно соответствующая доменному имени (например, www.bookstore.com). Может включать дополнительные символы (например, www.bookstore.com/ficti).
Label (Метка): Термин или фраза, используемая для описания или категоризации контента (например, «professional review», «symptoms»). Может быть частью запроса пользователя.
URL pattern (Шаблон URL): Спецификация шаблона для URL. Документ получает метку, если его URL соответствует этому шаблону (например, www.digitalcameraworld.com/review/).
Vertical knowledge sites (Вертикальные сайты знаний): Сайты (например, сообщества, экспертные блоги), которые предлагают анализ, комментарии или метки для контента в интернете. Они являются источником аннотаций.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки поискового запроса, включающего термины и метки.

Система получает запрос, содержащий термины и метки (labels).
Получается набор результатов поиска, релевантных терминам, ранжированных по оценкам (scores).
Определенное количество результатов фильтруется на основе их URL для формирования набора отфильтрованных результатов.
Каждый отфильтрованный результат аннотируется: система проверяет, соответствует ли его URL шаблонам (URL patterns), связанным с метками из запроса.
Оценки аннотированных результатов модифицируются. Модификация включает корректировку оценки с использованием веса (weight), связанного с аннотацией метки.
Аннотированные результаты ранжируются на основе модифицированных оценок.

Claim 4 (Зависимый от 1): Уточняет процесс фильтрации (шаг 3 в Claim 1).

Фильтрация включает создание Domain Filter, который идентифицирует домены документов, известных тем, что они имеют метки, соответствующие меткам в запросе.

Claim 5 (Зависимый от 4): Уточняет создание Domain Filter.

Domain Filter создается на основе выбора аннотаций, метки которых соответствуют меткам в запросе, и использования доменов из этих аннотаций.

Claim 8 (Зависимый от 7): Уточняет применение фильтра.

Фильтрация выполняется таким образом, чтобы гарантировать, что предопределенная минимальная часть (predetermined minimum portion) результатов поиска соответствует префиксам доменов в Domain Filter.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя предварительно индексированные данные для влияния на ранжирование и переранжирование.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна собирать и хранить аннотации из внешних источников (vertical knowledge sites) в Annotation Database. Это включает индексацию связей между Labels и URL patterns.

QUNDERSTANDING – Понимание Запросов
Query Processor анализирует входящий запрос, чтобы отделить поисковые термины от меток. Метки могут быть идентифицированы по специальным токенам (например, label: или more:).

RANKING – Ранжирование (Отбор кандидатов и Легкое ранжирование)
Основное применение патента происходит на этом этапе и на этапе переранжирования.

Создание фильтра: Filter Constructor создает Domain Filter на лету на основе меток в запросе.
Отбор кандидатов: Search Engine получает термины и Domain Filter. Он генерирует первичный набор результатов.
Применение фильтра: Система гарантирует, что минимальная часть (M%) финального набора результатов соответствует доменам в фильтре. Это может влиять на отбор кандидатов или на этапе легкого ранжирования.

RERANKING – Переранжирование
На этом этапе происходит верификация и корректировка оценок.

Верификация: Query Processor проверяет точное соответствие URL результатов полным URL patterns (поскольку Domain Filter использовал только префиксы).
Бустинг: Оценки подтвержденных результатов повышаются с использованием весов, связанных с метками.

Входные данные:

Запрос пользователя (термины + метки).
Annotation Database (Labels, URL patterns, опциональные веса).
Индекс документов (Content Server/Index).

Выходные данные:

Переранжированный набор результатов поиска, где часть результатов аннотирована соответствующими метками и повышена в выдаче.

На что влияет

Специфические запросы: Влияет на запросы, где пользователь явно указывает метку для уточнения интента (например, ищет именно обзор, а не продукт).
Конкретные типы контента: Влияет на контент, который часто аннотируется внешними экспертами или сообществами (обзоры продуктов, медицинские симптомы, технические статьи).
Структура сайтов: Дает преимущество сайтам с четкой структурой URL, позволяющей легко применять URL patterns.

Когда применяется

Триггеры активации: Алгоритм активируется только тогда, когда запрос пользователя содержит явно указанные метки (например, через синтаксис label:).
Условия применения: Применяется, если в Annotation Database существуют аннотации, соответствующие этим меткам.
Пороговые значения: Система использует порог (minimum portion M%), чтобы определить, какая доля результатов должна соответствовать Domain Filter.

Пошаговый алгоритм

Процесс разделен на три основные фазы: создание фильтра, фильтрация результатов и переранжирование.

Фаза 1: Создание фильтра доменов (Domain Filter Construction)

Получение меток: Извлечение меток из поискового запроса.
Поиск аннотаций: Для каждой метки из Annotation Database извлекаются соответствующие аннотации и их URL patterns.
Извлечение префиксов: Из каждого URL pattern извлекается префикс домена (Domain Prefix). Опционально включаются дополнительные символы после домена.
Генерация фильтра: Префиксы доменов вставляются в Domain Filter (например, Bloom filter).

Фаза 2: Фильтрация результатов поиска (Search Result Filtering)

Получение первичных результатов: Search Engine генерирует ранжированный набор результатов (S) на основе поисковых терминов.
Проверка по фильтру: Каждый результат в S проверяется на соответствие Domain Filter. Определяется общее количество отфильтрованных документов.
Отбор нефильтрованных результатов: Выбираются топовые (100-M)% результатов из S и добавляются в финальный набор (S_filtered), независимо от того, соответствуют ли они фильтру. (M – минимальная требуемая доля отфильтрованных результатов).
Определение дефицита: Рассчитывается, сколько еще документов, соответствующих фильтру (R), необходимо добавить для достижения порога M%.
Заполнение слотов: Система итерирует по оставшимся результатам в S в порядке ранжирования. Результаты добавляются в S_filtered до тех пор, пока количество оставшихся слотов не станет равным R.
Добавление оставшихся отфильтрованных результатов: В оставшиеся слоты добавляются только те результаты из S, которые соответствуют Domain Filter, в порядке их ранжирования (пропуская более релевантные результаты, если они не соответствуют фильтру).

Фаза 3: Верификация и переранжирование (Post-Processing and Reranking)

Итерация по результатам: Для каждого документа в S_filtered выполняется проверка.
Верификация URL: URL документа сравнивается с полными URL patterns, связанными с метками из запроса. Это необходимо для устранения ложных срабатываний Domain Filter.
Аннотирование: Если URL соответствует шаблону, к описанию документа добавляется индикация соответствующей метки.
Переранжирование: Документы переранжируются на основе наличия меток. Оценки документов с подтвержденными метками повышаются (бустинг).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурных и внешних данных, а не на анализе контента.

Технические факторы (URL): URL-структура критически важна. Используются как префиксы URL (для Domain Filter), так и полные URL (для верификации соответствия URL pattern).
Внешние данные (Annotations): Система полностью зависит от Annotation Database, которая содержит данные от третьих сторон (vertical knowledge sites, эксперты). Эти данные включают Labels и URL patterns.
Пользовательские факторы (Query): Запрос пользователя, включая явное указание Labels.

Какие метрики используются и как они считаются

Minimum Portion (M%): Предопределенный порог (например, 25%), гарантирующий минимальное количество результатов в выдаче, которые соответствуют Domain Filter.
Ranking Score (Оценка ранжирования): Исходная оценка релевантности документа, полученная от поисковой системы.
Weighting schemes (Схемы взвешивания): Используются для повышения Ranking Score после верификации метки. Патент предлагает несколько вариантов:
- Простое взвешивание: Умножение оценки на фиксированный вес (например, 2), если присутствует хотя бы одна метка.
- Взвешивание по количеству меток: Умножение оценки на вес W^n, где n – количество меток. Веса для дополнительных меток могут уменьшаться (decay).
- Специфичные веса меток: Каждая метка или источник аннотации может иметь свой собственный вес (например, 1.5 для «Industry news», 1.8 для «Professional review»).

Выводы

Структура URL как фактор категоризации: Патент демонстрирует механизм, где структура URL используется для определения типа контента на основе внешних аннотаций (URL patterns). Логичная и консистентная структура URL критически важна для работы подобных систем.
Использование внешних сигналов авторитетности: Система полагается на аннотации от третьих сторон (экспертов, сообществ) для идентификации качественного или специализированного контента. Это механизм интеграции внешних оценок в общий поиск.
Двухэтапная фильтрация для скорости и точности: Система использует быстрый, но грубый Domain Filter (на основе префиксов URL) на ранних этапах ранжирования для отбора кандидатов, а затем применяет точную верификацию по полному URL pattern на этапе переранжирования.
Баланс между метками и релевантностью: Алгоритм фильтрации (Фаза 2) специально разработан так, чтобы гарантировать присутствие контента с метками (порог M%), но при этом не исключать полностью высокорелевантный контент без меток (заполняя (100-M)% лучшими результатами).
Агрессивный бустинг подтвержденных меток: После верификации соответствия URL pattern, результаты получают значительное повышение в ранжировании, что может перевесить исходную релевантность.

Практика

Best practices (это мы делаем)

Проектирование логичной структуры URL: Создавайте четкие, иерархические и последовательные структуры URL, которые позволяют идентифицировать тип контента по шаблону. Например, используйте /blog/ для статей, /reviews/ для обзоров, /symptoms/ для медицинских симптомов. Это облегчает применение URL patterns как для внешних аннотаторов, так и для внутренних систем Google.
Поддержка фасетной навигации: Если ваш сайт является «вертикальным сайтом знаний» (например, агрегатор отзывов, специализированный маркетплейс), используйте четкую структуру для фасетов и категорий. Это увеличивает вероятность того, что контент будет корректно категоризирован системами, подобными описанной в патенте.
Использование структурированных данных (Гипотеза): Хотя патент явно говорит о внешних аннотациях и URL patterns, в современном SEO аналогичную роль играют структурированные данные (Schema.org). Разметка типа контента (Review, Recipe, Product) предоставляет Google аннотации напрямую, что может использоваться для аналогичных механизмов фильтрации и бустинга.

Worst practices (это делать не надо)

Использование непрозрачных URL: Использование URL вида /page.php?id=123 или постоянно меняющихся URL для одного и того же контента делает невозможным применение URL patterns.
Смешивание разных типов контента в одной директории: Размещение продуктов, обзоров и новостей в корневой директории затрудняет определение типа контента на основе URL.
Игнорирование архитектуры сайта: Фокус только на контенте без внимания к структуре сайта снижает способность поисковых систем корректно классифицировать и фильтровать контент.

Стратегическое значение

Патент подтверждает стратегическую важность архитектуры сайта и структурирования данных. Он показывает, как Google может использовать организацию URL для применения фильтров и бустинга на основе меток (атрибутов). В современном поиске это проявляется в виде фасетного поиска и уточняющих фильтров (например, фильтры по бренду, цене, типу контента). Для SEO-специалистов это означает, что техническая оптимизация и проработка структуры являются фундаментом для видимости в специализированных сценариях поиска.

Практические примеры

Сценарий: Оптимизация сайта медицинского центра

Анализ структуры: SEO-специалист обнаруживает, что информация о симптомах, лечении и диагностике смешана в разделе /articles/.
Действие (Реструктуризация): Создаются новые разделы:
- /symptoms/ (например, /symptoms/headache/)
- /treatments/ (например, /treatments/physical-therapy/)
- /diagnosis/ (например, /diagnosis/mri/)
Ожидаемый результат: Такая структура позволяет внешним системам (или алгоритмам Google) легко создать аннотации, например:
- <«Symptoms», site.com/symptoms/>
- <«Treatment», site.com/treatments/>
Эффект в поиске: Если пользователь ищет cancer label:symptoms (как в примере из патента), система сможет использовать Domain Filter для отбора site.com, а затем верифицировать и повысить в ранжировании страницы из раздела /symptoms/, так как они точно соответствуют URL pattern.

Вопросы и ответы

Что такое «Аннотация» (Annotation) в контексте этого патента?

Это запись, созданная третьей стороной (например, экспертом или сообществом), которая связывает определенную метку (Label) с шаблоном URL (URL pattern). Например, аннотация может указывать, что все страницы на сайте example.com/reviews/ должны иметь метку «Профессиональный обзор». Google хранит эти данные в Annotation Database.

Как работает фильтр доменов (Domain Filter) и зачем он нужен?

Domain Filter создается для ускорения поиска. Вместо того чтобы проверять полные URL patterns для миллиардов документов, система извлекает только домены (префиксы URL) из этих шаблонов и создает компактный фильтр (например, Bloom filter). Это позволяет быстро отобрать документы с нужных сайтов на ранних этапах ранжирования.

Зачем нужна верификация URL после применения фильтра доменов?

Верификация необходима, потому что Domain Filter работает с префиксами и может давать ложные срабатывания. Например, фильтр может отобрать документ с сайта example.com, но этот конкретный документ может находиться в разделе /news/, тогда как метка относилась только к разделу /reviews/. Верификация проверяет точное соответствие URL полному URL pattern перед применением бустинга.

Как система обеспечивает баланс между результатами с метками и общими результатами?

Система использует механизм минимальной доли (minimum portion M%). Например, если M=25%, то система сначала заполняет 75% выдачи лучшими результатами независимо от меток. Затем она гарантирует, что оставшиеся 25% будут заполнены результатами, соответствующими Domain Filter, даже если для этого придется пропустить некоторые более релевантные результаты без меток. Это предотвращает полное исключение релевантного контента.

Насколько сильно повышаются в ранжировании документы с подтвержденными метками?

Патент описывает несколько схем взвешивания. Повышение может быть значительным, например, удвоение исходной оценки ранжирования. Оно также может зависеть от количества меток на документе или от веса, присвоенного конкретной метке или источнику аннотации.

Актуален ли этот патент, если пользователи редко используют синтаксис label: в запросах?

Да, патент актуален. Хотя пользователи могут не вводить label: вручную, система понимания запросов Google может неявно определять потребность в определенных метках или атрибутах (например, при поиске обзоров). Кроме того, этот механизм лежит в основе фасетного поиска и фильтров уточнения (refinements), которые часто используются в поиске и в системах типа Programmable Search Engine.

Какое значение этот патент имеет для структуры URL на моем сайте?

Он имеет критическое значение. Патент показывает, что Google может использовать URL patterns для категоризации контента. Если у вас логичная структура (например, /products/, /reviews/), системам легче применять к вашему контенту соответствующие метки и фильтры. Хаотичная структура URL препятствует этому.

Могут ли структурированные данные (Schema.org) использоваться в качестве аннотаций?

Патент явно описывает аннотации, основанные на URL patterns и полученные из внешних источников. Однако в современном поиске структурированные данные выполняют аналогичную функцию, предоставляя Google явные метки и атрибуты для контента. Логично предположить, что механизмы фильтрации и переранжирования, описанные в патенте, могут применяться независимо от источника аннотаций.

Что такое «Вертикальные сайты знаний» (Vertical knowledge sites)?

Это специализированные сайты, такие как экспертные блоги, форумы, сайты отзывов или сообщества, где пользователи или эксперты комментируют и категоризируют контент в интернете. В контексте патента они являются источниками аннотаций и меток.

Применяется ли этот алгоритм ко всем сайтам?

Алгоритм применяется только к тем сайтам и URL, для которых существуют записи в Annotation Database. Если для вашего сайта нет аннотаций, связанных с метками в запросе пользователя, этот механизм не будет активирован для вашего контента.