
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
Патент решает фундаментальную проблему управления веб-индексом: ограниченность ресурсов (пространства хранения и вычислительных мощностей) и высокие затраты (ресурсов и времени) на индексацию и обслуживание документов. Поскольку невозможно и нецелесообразно индексировать весь веб, система должна выбирать наиболее ценное подмножество документов. Цель изобретения — максимизировать общую полезность индекса в рамках ресурсных ограничений, исключая контент, который вряд ли удовлетворит запросы пользователей.
Запатентована система и метод для выборочной индексации документов на основе прогнозируемой полезности. Система использует модель машинного обучения (Model), обученную на исторических данных поиска, для присвоения каждому документу Utility Score (оценки полезности). Этот показатель предсказывает будущую ценность документа как результата поиска. Документы ранжируются по этому показателю, и только наиболее перспективные включаются в индекс.
Система работает в два этапа: обучение модели и выбор индекса.
Document Features, такие как ссылочный вес, язык, размер) с этой фактической полезностью.Utility Score. Документы ранжируются на основе этого прогноза, который может быть скорректирован с учетом других факторов (например, Cost индексации, Importance Score/PageRank). Затем система выбирает лучшие документы для включения в индекс, применяя фильтры и соблюдая квоты.Высокая. Управление качеством и размером индекса является критически важной задачей для современных поисковых систем. Хотя конкретные модели машинного обучения, вероятно, эволюционировали с момента подачи патента, фундаментальный принцип использования предиктивных моделей и сигналов взаимодействия с пользователем для определения того, какой контент заслуживает индексации, является основополагающим и актуальным.
Патент имеет критическое значение для SEO (95/100). Он описывает механизмы, лежащие в основе индексируемости (Indexability) — фундаментального требования для ранжирования. Патент прямо указывает, что индексация не гарантирована и зависит от прогнозируемого удовлетворения пользователя (поведенческие факторы) и важности документа (ссылочные факторы, такие как PageRank). Эти факторы используются для фильтрации контента на этапе индексации, задолго до начала ранжирования по конкретному запросу.
Utility Score на основе Document Features.Model.Utility Score.PageRank.Utility Score) для обеспечения разнообразия и обучения модели.Claim 1 (Независимый пункт): Описывает основной процесс выбора документов для индекса.
Utility Score. Эта оценка основана на: (i) правилах модели, сгенерированных на основе прошлых запросов и результатов, И (ii) вероятности того, что документ будет выбран (кликнут) ИЛИ показан по крайней мере пороговое количество раз в течение определенного периода времени.Utility Scores.Ядро изобретения — использование прогнозируемой оценки полезности, основанной на вероятности будущих взаимодействий (кликов или показов), для принятия решения об индексации.
Claim 28 (Независимый пункт): Описывает процесс обучения модели (офлайн).
Utility Score (на основе фактических данных о вероятности кликов/показов выше порога).Document Features для каждого документа.Document Features на Utility Scores.Этот пункт защищает метод создания предиктивной модели, используемой в Claim 1.
Claims 4-8 (Зависимые): Детализируют факторы, которые могут использоваться при создании ранжированного списка, помимо прогнозируемого Utility Score. Это приводит к расчету итоговой оценки (в патенте упоминается как UF - Final Utility Score).
Cost).Performance score), основанной на прошлых кликах.Content score), основанной на тематике.Match score/Свежесть).Importance score, например, PageRank).Эти пункты показывают, что решение об индексации является многофакторным, взвешивающим прогнозируемую полезность против стоимости, важности и свежести.
Claims 10-12 (Зависимые): Детализируют процесс выбора документов с учетом стратегических правил.
Whitelists) для гарантированного включения определенных сайтов.Quotas) по языку, региону, хосту или для включения документов с низким Utility Score.Изобретение применяется на этапе INDEXING – Индексирование и извлечение признаков. Это ключевой процесс, который происходит после сканирования (CRAWLING) и перед тем, как документы станут доступны для ранжирования (RANKING).
CRAWLING – Сканирование и Сбор данных
Crawler engine предоставляет коллекцию документов-кандидатов и их базовые характеристики.
INDEXING – Индексирование
Основное место применения патента. Indexing engine выполняет:
Document Features (например, Importance Score, Cost).Model для расчета Utility Score.RANKING (Источник данных)
Процессы ранжирования генерируют Historical Search Logs (показы и клики). Эти данные используются офлайн для обучения модели прогнозирования полезности.
Входные данные:
Document Features.Model.Historical Search Logs.Whitelists, Blacklists, и правила Quotas.Выходные данные:
Utility Score и высокой Cost будут исключены.Importance score (ссылок) и не прогнозируются как полезные, рискуют не попасть в индекс.Match Score) или чрезмерно большим размером (высокий Cost).Процесс А: Офлайн-обучение модели (Model Training)
Historical Search Logs для расчета фактического Utility Score для каждого документа (например, вероятность клика в день).Document Features (язык, ссылки, хост, размер и т.д.) для обучающей выборки.Document Features на Utility Score.Процесс Б: Выбор документов для индекса (Index Selection)
Document Features кандидатов для прогнозирования их Utility Score.Final Utility Score (UF). Корректировка прогнозируемой оценки с учетом Cost, Importance score (PageRank), Match score (свежесть), Performance score и Content score.Blacklist.Whitelist.Quotas.Система использует широкий спектр данных как для обучения модели, так и для принятия решения об индексации.
Historical Search Logs, включающие Selection data (клики) и Impression data (показы). Используются для расчета Utility Score и Performance Score.Link-based score используется как Document Feature и как Importance score. Явно упоминается PageRank как пример.Cost).Content score (горячие темы, редкие темы).Match score (сравнение сканированной версии с текущей "живой" версией).Quotas) по регионам.PageRank.Utility Score и одну или несколько из вышеупомянутых метрик.logistic regression), случайный лес (random forest) или нейронная сеть (neural network).Utility Score) и оправдают затраты на хранение (низкий Cost).Importance Score, поведенческие факторы/Performance Score), используются гораздо раньше в конвейере — для принятия решения о том, достоин ли документ занять место в индексе.Match Score).Historical Search Logs. Прошлая производительность документа (клики, показы) напрямую влияет на его шансы остаться в индексе и обучает модель для оценки похожих документов.Whitelists для гарантированного включения важных сайтов и Quotas для обеспечения разнообразия индекса и предотвращения "слепых зон" модели (например, намеренно индексируя часть низкокачественного контента для обучения).Importance Score является явным фактором при выборе документов для индекса.Selection data) используются для расчета Performance Score и обучения модели. Позитивные сигналы повышают шансы на сохранение страниц в индексе.Cost сайта. Используйте noindex, robots.txt или каноникализацию для консолидации сигналов на ценных страницах.Match score (свежесть) используется при принятии решения об индексации.Cost индексации, улучшая соотношение Стоимость/Полезность, что может дать преимущество при прочих равных.Utility Score и высокую Cost, что приведет к их исключению из индекса.Importance score значительно снижает шансы на индексацию, особенно для нового контента.Match score и исключению из индекса.Utility Score будет падать, что может привести к деиндексации.Этот патент подчеркивает, что SEO начинается задолго до ранжирования. Индексация — это привилегия, которую нужно заслужить, доказав свою потенциальную ценность. Он подтверждает стратегическую важность холистического подхода: техническое здоровье, ссылочная авторитетность и пользовательский опыт в совокупности определяют, будет ли контент вообще допущен к участию в поиске. Патент объясняет механизм, почему технически доступные страницы не попадают в индекс — они не проходят фильтр прогнозируемой полезности и важности.
Сценарий 1: Управление индексацией крупного E-commerce сайта с фасетной навигацией
Utility Score для большинства фасетных страниц (низкая вероятность клика) и низкий Importance score. При этом Cost индексации этих страниц высока из-за их количества.Cost сайта и концентрация Importance score на ключевых страницах. Это повышает вероятность того, что высокоценные категории и товары будут стабильно находиться в индексе.Сценарий 2: Обеспечение индексации новых товаров
Importance Score и не имеют Performance Score. Их прогнозируемый Utility Score может быть недостаточен для преодоления порога индексации.Importance Score и стимулировать начальный Utility Score.Importance). Использование XML-карт сайта. Запуск контекстной рекламы или email-рассылки для генерации начального трафика и поведенческих сигналов (повышение Utility).Влияет ли PageRank на индексацию документа?
Да, напрямую. Патент явно упоминает Importance score, приводя PageRank в качестве примера. Эта оценка используется как при обучении модели полезности, так и при расчете итоговой оценки Final Utility Score для выбора документа в индекс. Документы с более высоким PageRank имеют значительно больше шансов быть проиндексированными.
Как клики (CTR) и поведенческие факторы влияют на индексацию?
Они играют центральную роль. Utility Score основан на вероятности того, что документ получит клик или показ. Модель машинного обучения, которая решает, что индексировать, обучается на исторических данных о кликах (Selection data) и показах (Impression data). Если страницы сайта стабильно показывают хорошую вовлеченность, это улучшает их шансы оставаться в индексе.
Объясняет ли этот патент, почему Google может не индексировать некоторые страницы сайта (Index Bloat)?
Да. Если система прогнозирует, что страница имеет низкий Utility Score (маловероятно, что она будет полезна пользователям) и низкий Importance score (мало ссылок), и при этом ее индексация имеет определенную стоимость (Cost), система может принять решение не включать ее в индекс для экономии ресурсов.
Что такое «Стоимость индексации» (Cost) и как ее снизить?
Cost — это ресурсы (в основном, дисковое пространство и вычислительная мощность), необходимые для хранения и обработки документа в индексе. Она зависит от размера документа и сложности его содержимого. Для SEO это означает, что следует оптимизировать вес страниц и избегать генерации огромного количества тяжелых или малополезных URL.
Что такое Квоты (Quotas) и зачем они нужны Google?
Квоты гарантируют минимальное представительство определенных типов документов в индексе (например, по языку, региону или хосту). Это нужно для обеспечения разнообразия выдачи. Также патент упоминает квоты на включение документов с низким Utility Score, что необходимо для постоянного обучения и калибровки модели, чтобы избежать "слепых зон".
Зачем Google намеренно индексирует документы с низким Utility Score?
Это необходимо для непрерывного обучения модели. Если индексировать только хорошие документы, модель может перестать распознавать плохие документы или не заметить, если ранее плохие документы стали хорошими. Это позволяет модели адаптироваться к изменениям в вебе и поведении пользователей.
Влияет ли свежесть контента на попадание в индекс?
Да. Патент описывает Match score, который проверяет, соответствует ли сканированная версия документа "живой" версии на сайте. Если документ устарел или не соответствует (низкий Match score), его итоговая оценка полезности может быть понижена, что уменьшает вероятность его включения или сохранения в индексе.
Что такое Белые списки (Whitelists) в контексте индексации?
Это списки сайтов (например, крупные новостные ресурсы, правительственные сайты, очень популярные сайты типа Amazon), которые должны быть обязательно включены в индекс, независимо от их прогнозируемого Utility Score. Система автоматически выбирает документы с этих сайтов для индексации.
Может ли страница быть исключена из индекса, если она раньше там была?
Да. Процесс выбора документов происходит при обновлении индекса. Если прогнозируемый Utility Score страницы упал (например, из-за снижения спроса, потери ссылок или появления лучших кандидатов) или ее Performance Score был низким, страница может быть исключена для освобождения места.
Как использовать знание этого патента при работе с крупным сайтом?
Ключевая стратегия — концентрация сигналов. Необходимо идентифицировать и устранять Index Bloat (снижать Cost), консолидировать ссылочный вес (повышать Importance score) на приоритетных страницах и работать над улучшением пользовательского опыта (повышать Utility Score). Это гарантирует, что система считает ваши ключевые страницы достаточно важными и полезными для включения в индекс.

Поведенческие сигналы

Семантика и интент

Семантика и интент
SERP
Персонализация

Персонализация
Поведенческие сигналы
Свежесть контента

Мультимедиа
SERP

SERP
Поведенческие сигналы
Семантика и интент

Ссылки
Индексация
Техническое SEO

Семантика и интент
Поведенческие сигналы

Индексация
Поведенческие сигналы
Семантика и интент

Local SEO
SERP
Ссылки

Персонализация
Поведенческие сигналы
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

Семантика и интент
Поведенческие сигналы
SERP

Ссылки
Поведенческие сигналы
SERP

Ссылки
Индексация
Краулинг
