Как Google тестирует и выбирает, какие документы включать в индекс, используя инкрементно обновляемую тестовую среду

Патент описывает инфраструктуру Google для оценки различных стратегий отбора документов в индекс. Система поддерживает актуальный набор данных (Query-to-Resource Mapping), периодически добавляя свежий контент и новые запросы. Это позволяет Google сравнивать разные алгоритмы индексации через A/B тесты и оценку асессорами, чтобы определить, какая стратегия обеспечивает более качественную выдачу.

Описание

Какую задачу решает

Патент решает две взаимосвязанные инфраструктурные задачи. Первая — как эффективно оценивать и сравнивать различные автоматизированные процессы отбора ресурсов (automated resource selection processes) для включения в индекс поисковой системы, учитывая, что объем индекса ограничен. Вторая — как поддерживать актуальность тестовой среды (Query-to-Resource Mapping), необходимой для этой оценки, в условиях постоянного появления нового контента (fresh resources) и изменения паттернов запросов.

Что запатентовано

Запатентована система и метод для инкрементного обновления Query-to-Resource Mapping — структуры данных, которая связывает набор тестовых запросов с соответствующими им ресурсами. Эта структура используется как основа для системы оценки выбора индекса (Index Selection Evaluation System). Система периодически идентифицирует свежие ресурсы, оценивает их и добавляет лучшие в маппинг, а также периодически обновляет сам набор тестовых запросов. Это позволяет непрерывно тестировать и сравнивать различные стратегии индексации на актуальных данных.

Как это работает

Система функционирует в двух основных режимах: обновление маппинга и оценка стратегий индексации.

Обновление маппинга:

Периодически (например, ежедневно) система ищет fresh resources, обнаруженные за этот период (по discovery time).
Эти ресурсы сопоставляются с существующими тестовыми запросами и получают query-specific score.
Лучшие (N-best) свежие ресурсы добавляются в Query-to-Resource Mapping.
Реже (например, еженедельно) система обновляет сам набор тестовых запросов.

Оценка стратегий:

Система берет тестовый запрос и находит все соответствующие ресурсы в маппинге.
Применяется Стратегия А: вычисляется query-independent index selection score для каждого ресурса. Ресурсы, удовлетворяющие критериям Стратегии А (например, превышающие порог), формируют Группу А (to-be-indexed).
Применяется Стратегия Б, формируя Группу Б.
Группы А и Б сравниваются (например, через A/B тест на живом трафике с измерением CTR или с помощью асессоров), чтобы определить, какая стратегия обеспечивает лучшее качество выдачи.

Актуальность для SEO

Средняя. Патент описывает внутреннюю инфраструктуру тестирования. Хотя конкретные методы тестирования и сигналы Google эволюционировали с развитием ML, базовая необходимость систематической оценки критериев включения документов в индекс и поддержания актуальности тестовых данных остается критически важной. Этот патент дает представление о фундаментальных процессах оценки качества индекса.

Важность для SEO

Умеренное (5/10). Патент не описывает конкретные алгоритмы ранжирования или индексации, используемые в продакшене. Однако он подтверждает существование query-independent index selection scores — оценок качества ресурса, не зависящих от запроса, которые определяют, будет ли ресурс вообще включен в индекс. Понимание того, что Google систематически тестирует и выбирает стратегии индексации на основе пользовательских метрик (например, CTR) и оценок асессоров, подчеркивает важность общего качества ресурса и вовлеченности пользователей для обеспечения индексации.

Детальный разбор

Термины и определения

Approximate Score (Приблизительная оценка): Быстро вычисляемая оценка, используемая для аппроксимации query-specific score. Используется для оптимизации вычислений при построении маппинга.
Automated Resource Selection Process (Автоматизированный процесс отбора ресурсов): Алгоритм или эвристика, определяющая, следует ли включать конкретный ресурс в индекс поисковой системы. Анализирует Index Selection Signals.
Discovery Time (Время обнаружения): Время, когда ресурс был впервые просканирован системой. Используется для идентификации Fresh Resources.
Evaluation Engine (Механизм оценки): Компонент системы, который сравнивает различные Automated Resource Selection Processes путем анализа групп ресурсов, которые были бы проиндексированы каждым процессом.
Fresh Resources (Свежие ресурсы): Ресурсы, обнаруженные в течение определенного недавнего временного интервала.
Index Selection Signals (Сигналы выбора индекса): Метрики качества ресурса, используемые для принятия решения об индексации. Они не зависят от запроса и могут быть внутренними (например, количество слов, длина заголовка) или внешними (например, ссылки, поведение пользователей).
Query-Independent Index Selection Score (Независящая от запроса оценка выбора индекса): Единая оценка, вычисленная на основе Index Selection Signals. Используется для классификации ресурса как to-be-indexed или not-to-be-indexed.
Query-Specific Score (Зависящая от запроса оценка): Стандартная оценка ранжирования, показывающая релевантность ресурса конкретному запросу. Используется для упорядочивания результатов при тестировании и для отбора лучших ресурсов в маппинг.
Query-to-Resource Mapping (Маппинг запросов к ресурсам): Структура данных, которая связывает группу тестовых запросов с ресурсами, которые им соответствуют. Является основой тестовой среды.
To-be-indexed / Not-to-be-indexed (Будет проиндексирован / Не будет проиндексирован): Классификация ресурса, определяемая Automated Resource Selection Process.

Ключевые утверждения (Анализ Claims)

Патент имеет два основных аспекта: инкрементное обновление тестовой среды (QRM) и использование этой среды для оценки стратегий индексации.

Claim 1 (Независимый пункт): Описывает метод инкрементного обновления Query-to-Resource Mapping с фокусом на свежий контент.

Система работает в предопределенные периодические временные интервалы.
В каждом интервале обновляется Query-to-Resource Mapping.
Для каждого запроса в маппинге:
1. Идентифицируются fresh resources, соответствующие запросу (те, чье discovery time попадает в текущий интервал).
2. Получается query-specific score для каждого свежего ресурса.
3. На основе этих оценок отбираются один или несколько свежих ресурсов (уточняется в Claim 8 как наивысшие оценки — highest scoring).
4. Маппинг обновляется, чтобы включить эти отобранные свежие ресурсы для данного запроса.

Claim 2 (Зависимый): Описывает обновление самого набора запросов.

После истечения нескольких периодических интервалов (т.е. реже, чем обновление контента) система обновляет группу запросов, добавляя новые и удаляя существующие, и затем обновляет маппинг для этого нового набора.

Claim 3 (Зависимый): Связывает обновление маппинга с его целью — оценкой процессов индексации.

Система получает тестовый запрос.
Генерируются две группы ресурсов: Группа 1 (для Процесса 1) и Группа 2 (для Процесса 2).
Генерация включает:
1. Использование Query-to-Resource Mapping для поиска всех соответствующих ресурсов.
2. Применение Процесса 1: классификация каждого ресурса как to-be-indexed или not-to-be-indexed. Группа 1 состоит из всех to-be-indexed.
3. Применение Процесса 2 аналогичным образом для формирования Группы 2.

Claim 4 (Зависимый): Детализирует механизм классификации to-be-indexed.

Для каждого ресурса выводится query-independent index selection score в соответствии с критериями тестируемого процесса. Классификация ресурса основывается на этой оценке.

Claims 5 и 6 (Зависимые): Описывают два варианта использования query-independent index selection score для классификации.

Claim 5: Классификация на основе порога. Если оценка удовлетворяет порогу, ресурс классифицируется как to-be-indexed.
Claim 6: Классификация на основе ранжирования (Top-N). Если ресурс входит в предопределенное количество лучших ресурсов по этой оценке, он классифицируется как to-be-indexed.

Где и как применяется

Этот патент описывает инфраструктуру для тестирования и улучшения поисковой системы (Index Selection Evaluation System), а не компонент, непосредственно обрабатывающий запросы пользователей в продакшене. Он взаимодействует со следующими этапами:

CRAWLING – Сканирование и Сбор данных
Система оценки использует данные, полученные в результате сканирования. В патенте упоминается, что для целей тестирования система может сканировать ресурсы на большую глубину, чем это обычно делается для построения продакшн-индекса. Система отслеживает discovery time ресурсов для идентификации свежести.

INDEXING – Индексирование и извлечение признаков
Это центральный этап. Система предназначена для оценки Automated Resource Selection Processes — алгоритмов, которые на этапе индексации решают, включать ли ресурс в индекс. Для этого используются Index Selection Signals (признаки качества, извлекаемые на этом этапе) и вычисляются Query-Independent Index Selection Scores.

QUNDERSTANDING – Понимание Запросов
Система использует логи запросов (query logs) для выбора репрезентативного набора тестовых запросов для включения в Query-to-Resource Mapping.

RANKING – Ранжирование
Система использует механизмы ранжирования для получения Query-Specific Scores. Эти оценки необходимы для отбора лучших ресурсов в маппинг и для упорядочивания результатов внутри тестовых групп (А и Б) при проведении оценки.

Входные данные:

Набор тестовых запросов (выбранных из логов).
Просканированные ресурсы с их discovery time.
Index Selection Signals для каждого ресурса.
Тестируемые стратегии индексации (эвристики).

Выходные данные:

Обновленный Query-to-Resource Mapping.
Сравнительная оценка эффективности различных стратегий индексации (на основе отзывов асессоров или пользовательских метрик, таких как CTR).

На что влияет

Патент описывает чисто технический инфраструктурный процесс. Он не оказывает прямого влияния на конкретные типы контента, запросы, ниши или географию в продакшн-выдаче. Он влияет на то, как Google внутренне принимает решения о том, какие алгоритмы индексации использовать в будущем.

Когда применяется

Алгоритмы обновления и оценки применяются непрерывно в рамках внутренней инфраструктуры тестирования Google.

Триггеры активации: Обновление маппинга запускается по расписанию. Упоминаются два типа расписаний:
- Частое (например, каждые 6-72 часа) для добавления fresh resources.
- Менее частое (например, каждые 1-12 недель) для обновления набора тестовых запросов (замена 5%-25% запросов).
Оценка стратегий: Запускается, когда инженеры хотят протестировать новую эвристику индексации против существующей.

Пошаговый алгоритм

Процесс А: Инкрементное обновление маппинга свежими ресурсами

Инициализация временного окна: Процесс запускается для каждого последующего временного окна (например, каждые 24 часа).
Идентификация свежих ресурсов: Система идентифицирует fresh resources, чье discovery time попадает в это окно и которые соответствуют одному или нескольким тестовым запросам из маппинга.
Итерация по запросам: Для каждого запроса, имеющего совпадения со свежими ресурсами:
1. Получение оценок: Система получает query-specific score для каждого соответствующего свежего ресурса.
2. Отбор лучших ресурсов: Идентифицируются свежие ресурсы с наивысшими оценками.
3. Генерация N-best списка: Формируется список из N лучших свежих ресурсов (например, Топ-1000).
4. Обновление маппинга: Query-to-Resource Mapping обновляется, чтобы включить данные, связывающие запрос с ресурсами из N-best списка.

Процесс Б: Обновление набора запросов

Обновление группы запросов: Система обновляет группу тестовых запросов, добавляя новые и удаляя часть существующих.
Идентификация ресурсов для новых запросов: Система ищет ресурсы, соответствующие новым запросам, независимо от их discovery time.
Итерация по новым запросам: Для каждого нового запроса формируется N-best список лучших ресурсов на основе query-specific score.
Обновление маппинга: Маппинг обновляется для новых запросов.

Процесс В: Оценка двух стратегий индексации

Получение тестового запроса.
Идентификация ресурсов: Используя Query-to-Resource Mapping, система находит все ресурсы, соответствующие запросу.
Применение Стратегии 1:
1. Для каждого ресурса вычисляется query-independent index selection score согласно эвристике Стратегии 1 (используя Index Selection Signals).
2. Ресурс классифицируется как to-be-indexed, если оценка удовлетворяет критерию (например, порогу или попаданию в Top-N).
3. Формируется Группа 1 из всех ресурсов, классифицированных как to-be-indexed.
Применение Стратегии 2: Аналогичный процесс для формирования Группы 2.
Сравнение стратегий: Система сравнивает Группу 1 и Группу 2. Это может включать:
1. Оценка асессорами: Представление результатов поиска (SERP) для Группы 1 и Группы 2 (упорядоченных по query-specific score) асессорам в формате side-by-side и сбор их предпочтений.
2. Live-эксперимент (A/B тест): Показ SERP Группы 1 одной части пользователей, а SERP Группы 2 — другой. Сравнение пользовательской оценки (например, CTR).
Выбор стратегии: Анализ агрегированных данных сравнения для выбора лучшей стратегии индексации.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре тестирования и упоминает следующие типы данных:

Временные факторы: Discovery time ресурса (время сканирования) критически важно для идентификации fresh resources и инкрементного обновления.
Поведенческие факторы:
- Логи запросов (query logs) используются для выбора тестовых запросов.
- Пользовательская оценка (user assessment), такая как click-through-rate (CTR), используется для сравнения эффективности различных стратегий индексации в ходе live-экспериментов.
Данные асессоров: Отзывы (feedback) и предпочтения асессоров при сравнении side-by-side результатов.
Index Selection Signals (Сигналы выбора индекса): Это ключевые данные для определения того, следует ли индексировать ресурс. Патент упоминает примеры:
- Контентные/Внутренние: Количество слов в ресурсе, длина заголовка ресурса.
- Внешние: Атрибуты, полученные из ресурсов, ссылающихся на данный ресурс (ссылочные факторы), атрибуты, полученные из поведения пользователей по отношению к ресурсу.

Какие метрики используются и как они считаются

Query-Independent Index Selection Score: Вычисляется путем применения эвристики (тестируемой стратегии) к Index Selection Signals ресурса. Конкретные формулы не приводятся, так как система тестирует разные формулы.
Query-Specific Score: Стандартная оценка ранжирования, получаемая от поисковой системы.
Approximate Score: Вычисляется с помощью эвристики для аппроксимации query-specific score с меньшими затратами. Используется для предварительной фильтрации ресурсов перед полным скорингом.
Click-Through-Rate (CTR): Используется для оценки стратегий в A/B тестах. Приведен пример расчета для отдельного результата поиска:

Выводы

Патент описывает внутренние процессы Google, связанные с инфраструктурой тестирования критериев индексации. Он не содержит прямых рекомендаций для SEO, но дает важное понимание принципов работы системы.

Индексация основана на Query-Independent оценках качества: Подтверждается существование Query-Independent Index Selection Score. Эта оценка определяет, достоин ли ресурс включения в индекс вообще, независимо от его релевантности конкретному запросу. Она базируется на Index Selection Signals (качество контента, ссылки, поведение пользователей).
Систематическое тестирование критериев индексации: Google не просто применяет фиксированный набор правил для индексации, а постоянно тестирует и сравнивает различные стратегии (Automated Resource Selection Processes), чтобы оптимизировать качество своего индекса при ограниченных ресурсах.
Критерии выбора лучшей стратегии индексации: Лучшая стратегия та, которая приводит к формированию индекса, обеспечивающего более высокое качество поисковой выдачи. Качество измеряется с помощью асессоров и метрик вовлеченности пользователей (например, CTR) на реальном трафике.
Важность актуальности тестовой среды: Google инвестирует ресурсы в поддержание актуальности своей тестовой среды (Query-to-Resource Mapping), регулярно обновляя ее свежим контентом (fresh resources) и актуальными запросами.
Отслеживание времени обнаружения контента: Система явно отслеживает discovery time каждого ресурса, что подчеркивает важность временных меток и скорости обнаружения контента.

Практика

Патент скорее инфраструктурный и описывает, как Google тестирует свои системы, а не то, что именно они тестируют. Прямых практических выводов для SEO немного, но есть стратегические инсайты.

Best practices (это мы делаем)

Фокус на Query-Independent сигналах качества: Необходимо работать над сигналами, которые могут влиять на Query-Independent Index Selection Score. Хотя точная формула неизвестна, патент упоминает длину контента, заголовки, ссылки и поведение пользователей как примеры Index Selection Signals. Улучшение этих показателей (E-E-A-T, техническое качество) повышает шансы на индексацию страницы.
Обеспечение высокой вовлеченности пользователей (CTR): Патент подтверждает, что Google использует пользовательские метрики (например, CTR) для валидации и выбора стратегий индексации. Оптимизация сниппетов для повышения кликабельности косвенно подтверждает ценность вашего контента для индекса.
Содействие быстрому обнаружению контента: Поскольку система специально обрабатывает fresh resources на основе discovery time, критически важно обеспечить быстрое сканирование нового и обновленного контента (через Sitemaps, внутреннюю перелинковку, техническую оптимизацию скорости).

Worst practices (это делать не надо)

Создание контента, релевантного запросу, но низкого качества: Если ресурс имеет низкие Index Selection Signals, он может быть не включен в индекс, даже если он хорошо отвечает на конкретный запрос. Стратегии, игнорирующие общее качество в пользу узкой оптимизации под ключ, рискованны с точки зрения индексации.
Игнорирование технического SEO для индексации: Полагаться только на качество контента недостаточно. Если система не может эффективно сканировать и определять discovery time или извлекать Index Selection Signals, ресурс не попадет в обработку должным образом.

Стратегическое значение

Патент подчеркивает, что индексация — это не данность, а привилегия. В условиях ограниченности ресурсов Google постоянно ищет способы отсеять менее ценный контент еще до этапа ранжирования. Существование Query-Independent Index Selection Score означает, что SEO-стратегия должна включать работу над общим качеством и авторитетностью ресурса не только для повышения позиций, но и для гарантии присутствия в индексе.

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает внутреннюю тестовую инфраструктуру Google.

Вопросы и ответы

Что такое Query-Independent Index Selection Score, и почему это важно для SEO?

Это оценка, которую Google присваивает ресурсу на основе его общих сигналов качества (Index Selection Signals), независимо от какого-либо конкретного запроса. Эта оценка используется, чтобы определить, следует ли вообще включать ресурс в индекс. Для SEO это критически важно: если ваша страница не преодолеет порог этой оценки, она не будет ранжироваться ни по каким запросам, потому что ее просто не будет в индексе.

Какие факторы влияют на Query-Independent Index Selection Score?

Патент не раскрывает точных формул, но приводит примеры Index Selection Signals, которые используются для расчета этой оценки. К ним относятся внутренние факторы (например, количество слов, длина заголовка) и внешние факторы (например, ссылочные сигналы и данные о поведении пользователей). Это подтверждает необходимость комплексного подхода к качеству сайта (E-E-A-T).

Как Google решает, какая стратегия индексации лучше?

Google сравнивает результаты работы разных стратегий. Если Стратегия А индексирует один набор документов, а Стратегия Б — другой, Google смотрит, какой набор генерирует лучшую поисковую выдачу. Лучшая выдача определяется двумя основными способами: оценками асессоров при side-by-side сравнении и пользовательскими метриками (например, CTR) в ходе A/B тестов на живом трафике.

Подтверждает ли этот патент, что CTR является фактором ранжирования?

Не напрямую. Патент показывает, что CTR используется как метрика успеха для оценки и выбора различных стратегий индексации. Если новая стратегия индексации приводит к повышению CTR в выдаче, она считается лучшей. Хотя это не делает CTR прямым фактором ранжирования, это демонстрирует его важность как ключевой метрики обратной связи для валидации алгоритмических изменений Google.

Что такое Query-to-Resource Mapping?

Это внутренняя база данных Google, используемая для тестирования. Она содержит набор тестовых запросов и для каждого запроса хранит список соответствующих ему ресурсов, их оценки и сигналы качества. Это позволяет инженерам моделировать, как изменения в алгоритмах индексации повлияют на выдачу, без запуска изменений в продакшн.

Что означает «инкрементное обновление» в контексте патента?

Это означает, что Google постоянно поддерживает актуальность своей тестовой среды. Они регулярно (например, ежедневно) добавляют в нее недавно обнаруженный контент (fresh resources) и периодически (например, еженедельно) обновляют набор тестовых запросов. Это гарантирует, что тестирование алгоритмов происходит на данных, отражающих текущее состояние интернета.

Что такое Discovery Time и как оно используется?

Discovery Time — это время, когда ресурс был впервые просканирован. Система использует эту метку для идентификации «свежих ресурсов», которые были обнаружены в течение последнего временного интервала. Это позволяет системе быстро интегрировать новый контент в тестовую среду.

Может ли Google сканировать мой сайт, но не индексировать его?

Да, абсолютно. Патент явно описывает процесс, в котором просканированные ресурсы оцениваются с помощью Automated Resource Selection Process. Если ресурс не соответствует критериям качества (получает низкий Query-Independent Index Selection Score), он классифицируется как not-to-be-indexed.

В патенте упоминается, что система может сканировать «глубже». Что это значит?

Это означает, что для целей тестирования Google может сканировать больше страниц сайта или следовать по ссылкам дальше от главной страницы, чем это делается для построения основного продакшн-индекса. Это позволяет им оценить потенциальное качество ресурсов, которые в данный момент не индексируются, и проверить, не упускают ли они ценный контент.

Как этот патент влияет на мою стратегию работы со свежим контентом?

Патент подчеркивает, что Google имеет специализированные процессы для быстрого обнаружения и оценки свежего контента. Для SEO это означает, что крайне важно не только создавать качественный новый контент, но и обеспечивать его максимально быстрое обнаружение (оптимизация краулингового бюджета, sitemaps), чтобы он своевременно попал в обработку системами Google.