Google использует модель машинного обучения для прогнозирования «Оценки полезности» (Utility Score) документа, основанной на вероятности его показа и клика. Документы ранжируются по этой оценке, и только самые полезные (с учетом затрат на индексацию, важности и квот) попадают в основной поисковый индекс.
Описание
Какую задачу решает
Патент решает фундаментальную проблему управления ресурсами поисковой системы: ограниченную емкость индекса и значительные затраты (вычислительные ресурсы, хранение) на индексацию и обслуживание всех обнаруженных документов. Система должна эффективно выбирать, какие документы стоят затрат на индексацию, чтобы максимизировать общую полезность индекса для пользователей.
Что запатентовано
Запатентована система для выборочного включения документов в индекс на основе прогнозируемой полезности. Используется модель машинного обучения (Model), обученная на исторических данных поиска, для присвоения документу Utility Score (Оценки полезности). Эта оценка прогнозирует вероятность того, что документ удовлетворит запросы пользователей (будет показан и/или кликнут). Документы ранжируются по этому баллу, и для индексации выбираются только наиболее перспективные.
Как это работает
Система работает в два этапа:
- Обучение модели (Офлайн): Анализируются исторические логи поиска для документов, которые ранее были в индексе. Вычисляется их фактическая полезность (частота показов и кликов). Модель обучается связывать характеристики документа (Document Features), такие как ссылочный вес или язык, с этой фактической полезностью.
- Выбор индекса (Пайплайн): Для сканированных документов модель прогнозирует их Utility Score. Документы ранжируются по этому прогнозу. Этот рейтинг может корректироваться с учетом затрат на индексацию (Cost), важности документа (Importance Score) и других факторов. Затем применяются фильтры (спам, черные списки) и квоты, после чего лучшие документы индексируются.
Актуальность для SEO
Высокая. Управление размером и качеством индекса (Index Bloat) остается критически важной задачей для Google. Хотя конкретные модели и признаки, вероятно, эволюционировали с момента подачи заявки (приоритетная дата от 2008 г.), основополагающий принцип использования прогнозируемой полезности для управления ресурсами индекса является ядром современных поисковых систем.
Важность для SEO
Патент имеет высокое значение для SEO (8/10). Он описывает механизм, определяющий «барьер для входа» в поисковый индекс. Если система предсказывает низкий Utility Score, страница не будет проиндексирована и не сможет ранжироваться. Понимание того, какие характеристики (например, авторитет) используются для прогнозирования полезности, критически важно для обеспечения индексации контента, особенно на крупных или новых сайтах.
Детальный разбор
Термины и определения
- Utility Score (Оценка полезности)
- Ключевая метрика патента. Отражает меру качества документа как результата поиска. Определяется как функция вероятности того, что документ удовлетворит запрос пользователя. Например, вероятность того, что документ будет выбран (кликнут) или показан хотя бы один раз в день.
- Model (Модель)
- Статистическая модель машинного обучения (например, логистическая регрессия, нейронная сеть), обученная на исторических данных для прогнозирования Utility Score на основе Document Features.
- Document Features (Характеристики документа)
- Признаки документа, используемые как входные данные для модели. Примеры: язык, тип кодировки, тип файла, хост/домен, ссылочный вес (link-based score), длина документа.
- Selection Data (Данные о выборе/кликах)
- Исторические данные о том, как часто пользователи выбирали (кликали) документ, когда он показывался в результатах поиска.
- Impression Data (Данные о показах)
- Исторические данные о том, как часто документ показывался в результатах поиска.
- Cost (Стоимость)
- Ресурсы, необходимые для включения документа в индекс. В патенте упоминается как функция от объема пространства, необходимого для индексации документа (например, на основе количества слов).
- Importance Score (Оценка важности)
- Мера важности документа, используемая для корректировки рейтинга при отборе в индекс. В качестве примера приводится ссылочный вес (например, PageRank).
- Quotas (Квоты)
- Правила, гарантирующие включение в индекс минимального количества документов по определенным критериям (язык, регион, хост), независимо от их Utility Score. Также используются для намеренного включения низкокачественных документов для обучения модели.
- Whitelist / Blacklist (Белый / Черный список)
- Списки сайтов, документы с которых должны быть принудительно включены (Whitelist, например, Amazon, CNET) или исключены (Blacklist, например, спам-фермы) из индекса.
Ключевые утверждения (Анализ Claims)
Основная формула изобретения (Claims 1, 8, 15) описывает метод выбора документов для индексации на основе прогнозирования их качества, основанного на исторических данных о взаимодействии.
Анализ Claim 1 и 15 (Независимые пункты):
- Определение исторической меры качества: Система определяет меру качества (Utility Score) для набора уже известных документов.
- Основа меры качества: Эта мера базируется на двух ключевых вероятностях за определенный период времени:
- Вероятность того, что документ будет выбран (кликнут) пороговое количество раз. (Claim 1 уточняет, что эта вероятность может быть основана на позиции документа в ранжированном списке – т.е. оценка кликов по позиции).
- Вероятность того, что документ будет показан пороговое количество раз.
- Прогнозирование для новых документов: На основе этой исторической информации система прогнозирует меру качества для другого (нового) документа.
- Принятие решения об индексации: Система определяет, следует ли хранить информацию о новом документе в индексе, основываясь на его прогнозируемой мере качества.
Анализ зависимых пунктов (Claims 2, 3, 12, 17, 18):
Эти пункты уточняют, что прогнозирование осуществляется с помощью Модели машинного обучения.
- Система генерирует правила для Модели на основе исторических мер качества.
- Система определяет Характеристики документа (Document Features) и использует их вместе с мерами качества для генерации правил Модели. Модель учится связывать признаки с качеством.
Анализ зависимых пунктов (Claims 4, 6, 14, 19, 20):
Перечисляются конкретные примеры признаков документа, используемых моделью: тип файла, хост или домен, длина документа, язык, тип кодировки, оценка на основе ссылок (link-based score).
Где и как применяется
Изобретение применяется на стыке процессов сканирования и индексирования, выступая в роли фильтра качества и оптимизатора ресурсов.
CRAWLING – Сканирование и Сбор данных
Crawler Engine обнаруживает документы и собирает сырые данные. Этот процесс поставляет «кандидатов» для системы выбора индекса.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс происходит после извлечения признаков, но до построения финального поискового индекса.
- Извлечение признаков (Feature Extraction): Система рассчитывает статические сигналы (язык, размер, PageRank и т.д.) и сохраняет их как Document Features.
- Обучение модели (Офлайн): Model Generator Engine использует Document Features и Historical Search Logs (полученные от поисковой системы) для расчета исторических Utility Scores и обучения Модели.
- Выбор индекса (Index Selection): Indexing Engine применяет Модель к набору сканированных документов, прогнозирует их Utility Score, ранжирует их и выбирает лучшие для включения в индекс.
Входные данные:
- Коллекция сканированных документов (кандидаты).
- Document Features для каждого документа.
- Обученная Модель.
- Historical Search Logs (для обучения).
- Списки (Blacklists, Whitelists) и правила (Quotas).
Выходные данные:
- Отобранный набор документов.
- Построенный поисковый индекс (возможно, многоуровневый — Tiered Index).
На что влияет
- Типы контента и ниши: Наибольшее влияние оказывается на контент с низким авторитетом, «длинный хвост», новые сайты или большие объемы автоматически сгенерированного контента. Система может решить не индексировать этот контент, если прогнозируемая полезность низкая.
- Крупные сайты: Критически важно для очень больших сайтов (e-commerce, UGC), где объем контента превышает возможности индексации. Система будет выборочно индексировать только наиболее полезные страницы.
- Языковые и географические ограничения: Патент явно упоминает использование квот (Quotas) для обеспечения представительства определенных языков или регионов в индексе, чтобы избежать предвзятости модели.
Когда применяется
- Временные рамки: Алгоритм применяется во время процесса построения или обновления индекса (Index Refresh). Это может быть непрерывный процесс или периодический.
- Условия работы: Применяется ко всем документам, рассматриваемым для включения в индекс (новым и старым), чтобы определить, превышает ли их прогнозируемая полезность порог, необходимый для оправдания стоимости их хранения.
Пошаговый алгоритм
Процесс разделен на две основные фазы: Обучение модели и Выбор индекса.
Фаза А: Обучение Модели (Офлайн)
- Сбор данных: Идентификация набора документов, ранее включенных в индекс.
- Расчет исторической полезности: Для каждого документа рассчитывается фактический Utility Score на основе исторических логов поиска (Selection Data и Impression Data). Например, вероятность получения хотя бы одного клика в день. Клики могут быть фактическими или оценочными (на основе позиции в SERP).
- Извлечение признаков: Определение Document Features (язык, PageRank, размер и т.д.).
- Обучение: Генерация правил Модели с использованием статистических методов (например, логистической регрессии). Модель учится сопоставлять Document Features с Utility Score.
- Тестирование и сохранение: Модель тестируется и сохраняется для использования.
Фаза Б: Выбор Индекса (Применение)
- Идентификация кандидатов: Определение коллекции сканированных документов, рассматриваемых для включения в индекс.
- Прогнозирование полезности: Применение обученной Модели к характеристикам каждого документа для получения прогнозируемого Utility Score.
- Создание ранжированного списка: Ранжирование документов на основе прогнозируемого Utility Score.
- Корректировка рейтинга (Опционально): Расчет финального Utility Score с учетом дополнительных факторов:
- Cost (стоимость индексации/размер документа).
- Importance Score (например, PageRank).
- Performance Score (предыдущая производительность в индексе).
- Content Score (актуальность или редкость темы).
- Match Score (свежесть/соответствие сканированной версии живой).
- Фильтрация и Применение правил:
- Удаление спама, дубликатов и сайтов из Blacklist.
- Принудительное включение сайтов из Whitelist.
- Применение Quotas (языковых, региональных, хостовых; включение низкокачественных документов для обучения).
- Выбор документов: Выбор Топ-N документов из скорректированного ранжированного списка для заполнения емкости индекса.
- Индексация: Построение поискового индекса из выбранных документов.
Какие данные и как использует
Данные на входе
Система использует широкий спектр факторов (Document Features) для обучения модели и принятия решений об индексации.
- Контентные и Технические факторы: Язык документа, тип кодировки, тип файла, длина документа, сжатая длина, соотношение сжатой длины к оригинальному размеру. Content Score (основан на актуальности или редкости темы).
- Структурные факторы: Хост, домен, домен верхнего уровня (TLD) или организация, связанная с документом.
- Ссылочные факторы: Ссылочный вес (link-based score). PageRank упоминается как пример Importance Score и как одна из характеристик документа.
- Поведенческие факторы (для обучения и корректировки): Исторические логи поиска (Historical Search Logs), включая Selection Data (клики) и Impression Data (показы). Performance Score (предыдущая производительность).
- Временные факторы: Свежесть документа, проверяемая через Match Score (сравнение сканированной копии с текущей версией на сайте).
Какие метрики используются и как они считаются
- Utility Score (Исторический): Рассчитывается на основе поведенческих данных. Определяется как вероятность того, что документ будет выбран (кликнут) и/или показан пороговое количество раз (например, ≥1) за определенный период времени (например, день).
- Оценка количества выборов (Estimation): Если точные данные о кликах недоступны, они могут быть оценены на основе позиций документа в SERP (например, позиция 1 получает 40% кликов).
- Utility Score (Прогнозируемый): Выходные данные ML-модели, основанные на Document Features.
- Final Utility Score: Скорректированная оценка полезности. Может рассчитываться как функция от прогнозируемого Utility Score и других факторов (Cost, Importance Score, Content Score, Match Score).
- Методы машинного обучения: Для генерации модели упоминаются логистическая регрессия (logistic regression), метод случайного леса (random forest) или нейронная сеть (neural network).
Выводы
- Индексация является выборочной и предиктивной: Попадание в индекс не гарантировано после сканирования. Google применяет строгий процесс отбора, основанный на прогнозировании будущей полезности документа (Utility Score) для экономии ресурсов и повышения качества индекса.
- Историческое поведение пользователей определяет состав индекса: Модель прогнозирования обучается на исторических данных о кликах и показах. Система отдает приоритет контенту, который, по прогнозам, будет востребован.
- Авторитет (PageRank) критичен для индексации: Ссылочный вес (link-based score) используется дважды: как входной признак для модели прогнозирования Utility Score и как фактор корректировки (Importance Score). Низкий авторитет может привести к исключению из индекса.
- Анализ затрат и выгод (Cost vs. Utility): Система взвешивает прогнозируемую полезность с затратами на индексацию (Cost/размер документа). Документы должны оправдывать свое включение в индекс.
- Существуют механизмы переопределения: Белые списки (Whitelist) гарантируют индексацию критически важных сайтов (упомянуты Amazon, CNET). Квоты (Quotas) обеспечивают разнообразие контента (языковое, региональное) и предотвращают «слепые зоны» модели, в том числе путем намеренного включения документов с низким Utility Score для обучения.
Практика
Best practices (это мы делаем)
- Повышение сигналов авторитетности (Importance Score): Поскольку link-based score (PageRank) является ключевой характеристикой для прогнозирования полезности, наращивание качественного ссылочного профиля критически важно не только для ранжирования, но и для обеспечения индексации контента.
- Оптимизация под удовлетворенность пользователя (Intent): Создавайте контент, который с высокой вероятностью будет востребован и кликнут. Модель обучается на исторических кликах, поэтому высокая вовлеченность существующих страниц помогает обучать модель в пользу вашего сайта.
- Обеспечение технического здоровья и эффективности: Оптимизируйте контент для снижения «затрат» (Cost). Следите за свежестью контента (Match Score) и корректностью технических сигналов (язык, кодировка), так как это явные Document Features.
- Управление индексацией на крупных сайтах: Для сайтов с миллионами страниц необходимо активно управлять тем, какой контент доступен для индексации. Концентрируйте сигналы авторитетности на ключевых страницах и закрывайте от индексации низкокачественные или дублирующиеся страницы, чтобы повысить средний Utility Score домена.
- Мониторинг статуса индексации в GSC: Активно отслеживайте статус «Просканировано, но не проиндексировано». Этот статус является прямым следствием работы этой системы — прогнозируемый Utility Score страницы оказался слишком низким.
Worst practices (это делать не надо)
- Генерация массового низкокачественного контента: Создание большого количества тонкого или автоматически сгенерированного контента. Такие страницы получат низкий Utility Score и, скорее всего, будут исключены из индекса.
- Игнорирование ссылочного авторитета: Попытка продвигать контент без достаточного внешнего авторитета. Модель, вероятно, не предскажет высокую полезность для такого контента.
- Манипулятивные практики (Spam): Патент явно указывает на использование черных списков (Blacklist) и фильтрации спама как часть процесса выбора индекса.
- Создание «тяжелого» контента без необходимости: Использование неэффективных форматов может увеличить «затраты» (Cost) на индексацию, повышая порог полезности, необходимый для включения в индекс.
Стратегическое значение
Этот патент объясняет механизм, стоящий за статусом «Crawled — currently not indexed». Это не просто нехватка краулингового бюджета; это осознанное решение системы, основанное на прогнозе, что документ не принесет достаточной пользы по сравнению с затратами на его индексацию. Стратегия SEO должна быть направлена на то, чтобы доказать ценность контента модели прогнозирования, используя сигналы авторитетности, уникальности и технического качества.
Практические примеры
Сценарий: Управление индексацией крупного E-commerce сайта с фасетной навигацией
- Проблема: Сайт генерирует миллионы URL-адресов через фасетную навигацию (фильтры). Большинство этих страниц дублируют контент или не представляют ценности для поиска.
- Анализ по патенту: Система прогнозирует низкий Utility Score для этих страниц (низкая вероятность клика, низкий link-based score) и высокие совокупные Cost для их индексации.
- Действия SEO-специалиста:
- Использовать robots.txt, мета-теги noindex или canonical для закрытия неценных комбинаций фасетов и консолидации сигналов.
- Оптимизировать внутреннюю перелинковку, чтобы направить ссылочный вес (Importance Score) на приоритетные страницы (товары, категории).
- Ожидаемый результат: Google тратит меньше ресурсов. Модель начинает присваивать более высокие Utility Score приоритетным страницам за счет консолидации сигналов. Увеличивается полнота индексации важного контента.
Вопросы и ответы
Означает ли этот патент, что Google знает, насколько хороша моя страница, еще до ее индексации?
Да, именно это и описано. Google не знает наверняка, но он прогнозирует полезность (Utility Score) вашей страницы, используя модель машинного обучения. Эта модель основана на том, как пользователи взаимодействовали с похожими страницами в прошлом, и учитывает признаки вашей страницы (например, ссылочный вес).
Что такое «Utility Score» (Оценка полезности) простыми словами?
Utility Score — это прогноз того, насколько полезной будет страница, если ее добавить в индекс. В патенте основным примером расчета является вероятность того, что страница будет показана пользователю и получит хотя бы один клик в течение дня. Чем выше эта вероятность, тем выше Utility Score.
Используется ли PageRank для принятия решения об индексации согласно этому патенту?
Да, абсолютно. Патент явно упоминает link-based score и приводит PageRank в качестве примера. Ссылочный вес используется как минимум двумя способами: как одна из характеристик документа (Document Feature) для прогнозирования Utility Score и как отдельная оценка важности (Importance Score) для корректировки финального отбора в индекс.
Почему некоторые мои страницы имеют статус «Просканировано, но не проиндексировано» в GSC?
Этот патент описывает механизм, который приводит к такому статусу. Это означает, что страница была просмотрена, но система предсказала, что ее Utility Score слишком низок по сравнению с другими документами-кандидатами или затратами на ее индексацию. Страница не прошла отбор.
Что такое «Cost» (Стоимость) индексации и как это влияет на мой сайт?
Cost — это ресурсы, которые Google тратит на хранение документа в индексе (объем памяти). Если документ «тяжелый» (высокие Cost), ему нужен более высокий Utility Score, чтобы оправдать включение в индекс. Оптимизация размера страниц может снизить эти затраты.
Что такое Квоты (Quotas) и зачем они нужны?
Квоты гарантируют разнообразие индекса. Они обеспечивают минимальное представительство документов на определенных языках, из определенных регионов или с определенных хостов, даже если их Utility Score низок. Также они используются для намеренного включения низкокачественных документов, чтобы модель могла продолжать обучаться и не создавала «слепых зон».
Влияет ли свежесть контента на решение об индексации?
Да. Патент упоминает Match Score (Оценка соответствия), которая проверяет, соответствует ли сканированная версия документа текущей «живой» версии в сети. Несоответствие может негативно повлиять на финальную оценку полезности и привести к исключению из индекса.
Что такое белые и черные списки, упоминаемые в патенте?
Это механизмы переопределения. Черные списки (Blacklists) используются для гарантированного исключения документов (например, спам). Белые списки (Whitelists) используются для гарантированного включения очень важных сайтов (в описании упоминаются Amazon, CNET, ESPN), независимо от их расчетного Utility Score.
Как этот патент связан с бюджетом сканирования (Crawl Budget)?
Это следующий шаг после сканирования. Бюджет сканирования определяет, что Googlebot посетит. Система, описанная в патенте, определяет, какие из этих просканированных страниц действительно стоят того, чтобы их добавить в поисковый индекс и обслуживать. Оба процесса направлены на оптимизацию ресурсов.
Что делать, если мои страницы плохо индексируются?
В контексте этого патента, плохая индексация означает, что система прогнозирует низкий Utility Score. Необходимо улучшить характеристики, которые использует модель: повышать общий авторитет домена (внешние ссылки), улучшать внутреннюю перелинковку для передачи ссылочного веса новым страницам и удалять или улучшать низкокачественный контент.