Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или редкие документы. Система обращается к Extended Index только тогда, когда в Standard Index недостаточно качественных результатов, обеспечивая баланс скорости и максимального охвата.
Описание
Какую задачу решает
Патент решает фундаментальную проблему баланса между полнотой поискового индекса (Recall), скоростью ответа (Latency) и стоимостью инфраструктуры. Поиск по всему объему проиндексированных данных при каждом запросе требует огромных ресурсов и увеличивает задержку. Изобретение предлагает архитектуру, которая позволяет быстро обрабатывать большинство запросов, используя высокопроизводительный основной индекс, и обращаться к более полному, но менее реплицированному индексу только при необходимости.
Что запатентовано
Запатентована архитектура поисковой системы с многоуровневым индексом (Tiered Indexing). Индекс разделен на Standard Index (Стандартный) и Extended Index (Расширенный). Standard Index многократно реплицируется для скорости и содержит высокоприоритетные документы. Extended Index менее реплицирован, содержит менее распространенные или «obscure» (малоизвестные) документы. Ключевым является механизм условного поиска: Extended Index задействуется только если результаты стандартного поиска не соответствуют определенным критериям (predefined criteria).
Как это работает
Система работает по каскадному принципу:
- Приоритезация (Индексирование): Документы распределяются по индексам. Патент указывает, что документы в Extended Index в среднем имеют более низкий Page Rank.
- Стандартный поиск: Запрос сначала обрабатывается быстрым Standard Backend.
- Оценка Сигнала: Компонент Mixer анализирует результаты и генерирует Signal (например, количество результатов, их Query Scores).
- Условный Расширенный Поиск: Если Signal соответствует критериям (например, результатов мало), инициируется поиск в Extended Backend.
- Оптимизация: В Extended Backend используется Partition Index для направления запроса только на те серверы, которые содержат нужные термины.
- Агрегация: Результаты из обоих индексов объединяются и возвращаются пользователю.
Актуальность для SEO
Высокая (Концептуально). Хотя патент подан в 2003 году, фундаментальный принцип многоуровневого индексирования (Tiered Indexing) — разделение данных на «горячие» (быстрые, важные) и «холодные» (медленные, менее важные) — остается критически важным для крупномасштабных систем. Учитывая ключевых изобретателей (Jeffrey Dean, Sanjay Ghemawat), эти концепции лежат в основе инфраструктуры Google.
Важность для SEO
Патент имеет высокое стратегическое значение для понимания инфраструктуры индексации. Он не описывает алгоритмы ранжирования, но демонстрирует, что Google архитектурно разделяет документы по важности, используя для этого Page Rank. Понимание разделения на Standard и Extended Index (часто ассоциируемый с Supplemental Index) критически важно для стратегий индексации и авторитетности. Оно подтверждает, что не все проиндексированные страницы имеют одинаковый статус и доступность для ранжирования.
Детальный разбор
Термины и определения
- Standard Index (Стандартный индекс) / Standard Backend
- Основной индекс системы. Высоко реплицирован (multiple instances) для скорости и отказоустойчивости. Содержит приоритетные документы. Патент указывает, что партиции с документами, имеющими высокий Page Rank, могут реплицироваться чаще.
- Extended Index (Расширенный индекс) / Extended Backend
- Дополнительный индекс. Содержит «относительно необычные или малоизвестные документы» (uncommon or obscure documents). Имеет значительно меньше реплик, чем Standard Index. Документы в этом индексе в среднем имеют более низкий Page Rank.
- Mixer (Смеситель)
- Компонент управления поиском. Направляет запросы, анализирует результаты из Standard Index, генерирует Signal, принимает решение о запуске поиска в Extended Index и агрегирует финальные результаты.
- Signal (Сигнал)
- Данные, полученные в результате поиска по Standard Index. Используются для принятия решения о необходимости расширенного поиска.
- Predefined Criteria / Signal Threshold Value (Предопределенные критерии)
- Условия активации расширенного поиска. Примеры: мало результатов, низкие Query Scores, неудовлетворенность пользователя, низкая нагрузка на систему.
- Page Rank
- Явно упоминается в патенте. Используется как критерий для организации индексов (влияет на репликацию в Standard и характеризует документы в Extended) и для усечения (truncation) результатов поиска при их избытке.
- Query Score (Оценка запроса)
- Оценка релевантности документа запросу. Используется для сортировки и как один из возможных сигналов.
- Partition Index (Индекс партиций)
- Структура данных (используется в Extended Balancer), которая мапирует термины на суб-партиции индекса. Указывает, какие суб-партиции содержат определенные термины.
- Balancer Filter (Фильтр балансировщика)
- Механизм, использующий Partition Index для направления запроса только на релевантные индексные серверы, повышая эффективность поиска в Extended Index.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод условного расширенного поиска в системе с разным уровнем репликации.
- Получение запроса.
- Поиск в Standard Index (который многократно реплицирован).
- Обнаружение сигнала (detecting a signal) на основе этого поиска.
- Если сигнал соответствует предопределенным критериям (predefined criteria):
- Выполняется поиск в Extended Index. Ключевое условие: Количество инстансов Extended Index меньше, чем Standard Index.
- Получение и передача расширенных результатов.
Claim 2 (Зависимый от 1): Уточняет ключевой сигнал.
Обнаружение сигнала включает определение того, что поиск в Standard Index дал меньше предопределенного числа результатов.
Claim 5 (Зависимый от 1): Уточняет сигнал поведения пользователя.
Сигнал может основываться на определении неудовлетворенности пользователя стандартными результатами (например, когда пользователь повторно выбирает кнопку «следующий набор результатов»).
Claims 3, 4, 6 (Зависимые от 1): Уточняют сигналы, связанные с ресурсами.
Сигнал может основываться на оценке стоимости (cost) выполнения расширенного поиска (Claim 3, 4) или текущей нагрузки (load) на Extended Index (Claim 6). Поиск выполняется, если они ниже порога.
Claim 9 (Зависимый от 8): Уточняет сигнал качества.
Сигнал может основываться на том, что Query Score стандартных результатов ниже предопределенного лимита.
Claim 18 (Независимый пункт): Описывает архитектуру распределенной системы.
Множество стандартных поисковых движков (каждый с локальным Standard Index) используют общий (shared) Extended Index, обращаясь к нему при срабатывании сигнала. Это подчеркивает, что один Extended Index обслуживает множество Standard Backends.
Где и как применяется
Изобретение описывает фундаментальную архитектуру, затрагивающую несколько этапов поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит классификация документов и их распределение между Standard Index и Extended Index. Патент указывает, что это решение связано с важностью документов: документы в Extended Index в среднем имеют более низкий Page Rank. Документы с высоким Page Rank в Standard Index могут реплицироваться чаще.
RANKING – Ранжирование (Этап Retrieval/Отбор кандидатов)
Первоначальный отбор кандидатов всегда выполняется в Standard Index.
METASEARCH – Метапоиск и Смешивание
Ключевой этап применения логики. Компонент Mixer анализирует результаты стандартного поиска (Signal).
- Принятие решения: Если Signal соответствует критериям, Mixer инициирует второй поиск в Extended Backend.
- Оптимизация Расширенного Поиска: Extended Balancer использует Balancer Filter и Partition Index для эффективного поиска только в релевантных партициях.
- Смешивание (Blending): Mixer агрегирует результаты из обоих индексов для формирования финальной выдачи.
Входные данные:
- Поисковый запрос.
- Результаты из Standard Index (документы, Query Scores).
- (Опционально) Данные о поведении пользователя и нагрузке системы.
Выходные данные:
- Агрегированный список результатов поиска из одного или обоих индексов.
На что влияет
- Специфические запросы: Наибольшее влияние на длиннохвостые (long-tail), редкие и ультра-нишевые запросы, по которым в основном индексе мало информации.
- Конкретные типы контента: Влияет на видимость контента, классифицированного как менее важный (низкий Page Rank), малоизвестный («obscure») или новый. Такой контент с большей вероятностью находится в Extended Index.
Когда применяется
Поиск в Extended Index применяется условно, при срабатывании триггеров (Signal meets Predefined Criteria):
- Недостаток количества: Когда Standard Index возвращает меньше порогового числа результатов (например, < 10). (Claim 2)
- Недостаток качества: Когда Query Scores топовых результатов из Standard Index ниже порога. (Claim 9)
- Неудовлетворенность пользователя: Когда фиксируются поведенческие сигналы, например, запрос следующих страниц выдачи. (Claim 5)
- Ресурсы системы: Когда нагрузка на Extended Backend низкая или стоимость выполнения запроса приемлема. (Claims 3, 4, 6)
Пошаговый алгоритм
Процесс обработки запроса
- Получение запроса: Query Server передает запрос в Mixer.
- Стандартный Поиск: Mixer проверяет Cache. Если нет, запрос направляется в Standard Backend. Standard Index Servers возвращают результаты.
- Оценка Сигнала: Mixer анализирует результаты (количество, Query Scores) и генерирует Signal.
- Принятие решения: Mixer сравнивает Signal с Predefined Criteria.
- Если НЕТ (результаты ОК): Перейти к шагу 8.
- Если ДА (результаты не ОК): Инициировать расширенный поиск (Шаг 5).
- Расширенный Поиск: Mixer направляет запрос в Extended Mixer. Проверяется Extended Cache.
- Оптимизация (Фильтрация): Если в кэше нет, запрос идет в Extended Balancer, который использует Partition Index и Balancer Filter.
- Для каждого термина определяется карта суб-партиций (Map), содержащих термин.
- Карты объединяются булевой логикой запроса (Combined Map).
- Запрос направляется только на Extended Index Servers, указанные в Combined Map.
- Получение Расширенных Результатов: Результаты возвращаются в основной Mixer.
- Агрегация: Mixer объединяет стандартные и расширенные результаты.
- Генерация сниппетов и Возврат: Запрашиваются сниппеты у Document Servers (Standard и/или Extended), и финальная выдача возвращается пользователю.
Какие данные и как использует
Данные на входе
- Ссылочные факторы (Авторитетность): Page Rank. Критически важен. Используется для: (1) Распределения документов между Standard Index (высокий PR) и Extended Index (низкий PR); (2) Усечения результатов поиска (выбор Топ-N по PR).
- Контентные факторы: Термины (Terms) из документов используются для построения всех индексов, включая Partition Index.
- Поведенческие факторы: Поведение пользователя (например, запрос следующих страниц выдачи) может использоваться как Signal для активации расширенного поиска (Claim 5).
- Системные данные: Текущая нагрузка (load) на Extended Backend и расчетная стоимость (cost) запроса могут использоваться как Signal (Claims 3, 4, 6).
Какие метрики используются и как они считаются
- Query Score (Оценка запроса): Оценка релевантности документа. Используется для сортировки и как Signal (если оценки низкие).
- Количество результатов: Подсчет документов в Standard Index. Ключевой Signal (если мало результатов).
- Partition Map (Карта партиций): Битовая карта или список, указывающий наличие термина в суб-партиции. Используется для оптимизации поиска в Extended Index.
- Signal Threshold Value (Пороговые значения): Предопределенные значения для количества результатов, Query Score, нагрузки системы.
Выводы
- Подтверждение многоуровневого индекса (Tiered Indexing): Google фундаментально разделяет свой индекс на уровни (Standard и Extended) для балансировки ресурсов, скорости и полноты охвата.
- PageRank как архитектурный фильтр: Авторитетность (Page Rank) используется не только как сигнал ранжирования, но и как критерий для определения, в каком сегменте индекса будет обрабатываться документ. Standard Index приоритизирует документы с высоким Page Rank.
- Условный доступ к полному индексу: Google не ищет по всему индексу для каждого запроса. Доступ к Extended Index (и контенту с низким авторитетом) предоставляется только тогда, когда основной индекс не справляется (условный поиск).
- Ключевые триггеры глубокого поиска: Недостаток количества или качества (low query scores) результатов, а также неудовлетворенность пользователя являются основными триггерами для активации Extended Index. Это критично для long-tail запросов.
- Инфраструктурная оптимизация: Система использует сложные механизмы (Partition Index, Balancer Filter) для эффективного поиска даже в огромном Extended Index, направляя запросы только туда, где есть релевантные данные.
Практика
Best practices (это мы делаем)
- Фокус на попадании в Standard Index (Наращивание Авторитетности): Стратегический приоритет — повышение авторитетности сайта и ключевых страниц (Page Rank, E-E-A-T). Это критически важно для обеспечения нахождения контента в Standard Index, что гарантирует быстрое и стабильное ранжирование.
- Улучшение внутреннего ссылочного графа: Эффективная перелинковка помогает распределить Page Rank по сайту, увеличивая шансы большего числа страниц попасть в Standard Index.
- Управление качеством индексируемого контента: Необходимо фокусироваться на качестве, избегая создания большого количества низкокачественных или дублирующихся страниц. Такие страницы с высокой вероятностью будут отнесены к Extended Index и не принесут стабильного трафика.
- Стратегия Long-Tail для нишевых сайтов: Патент подтверждает важность стратегии длинного хвоста. Если по редкому запросу в Standard Index мало результатов, активируется Extended Index. Качественный нишевый контент может быть найден именно через этот механизм, даже при невысокой общей авторитетности сайта.
Worst practices (это делать не надо)
- Игнорирование авторитетности (PageRank): Фокусировка только на контенте без работы над ссылочным профилем и авторитетностью рискует тем, что сайт останется в Extended Index. Такой контент будет показываться только при отсутствии альтернатив в Standard Index.
- Массовая генерация низкокачественного контента: Создание большого объема страниц с низкой добавленной ценностью почти гарантированно приведет к их попаданию в Extended Index из-за низкого Page Rank.
- Стратегия «Индексировать все» без контроля: Открытие для индексации огромного количества технических страниц или страниц с низким спросом (например, избыточных фасеток) в надежде на трафик. Этот контент попадет в Extended Index и не даст стабильного результата.
Стратегическое значение
Патент раскрывает фундаментальную архитектуру индексирования и объясняет, почему авторитетность (Page Rank) имеет критическое значение не только для позиций, но и для того, *как* Google хранит и обрабатывает сайт. Существует прямая зависимость между авторитетностью и приоритетом обработки. Патент объясняет, почему «Проиндексировано» не равно «Ранжируется». Долгосрочная SEO-стратегия должна быть направлена на перемещение максимального количества страниц в Standard Index.
Практические примеры
Сценарий 1: Управление индексацией крупного E-commerce сайта (Фасеточная навигация)
Ситуация: Интернет-магазин имеет 10,000 товаров и 500,000 страниц фасеточной навигации (фильтры).
Анализ по патенту:
- Приоритезация: Страницы товаров и основные категории имеют более высокий Page Rank и попадают в Standard Index.
- Вторичный контент: Большинство страниц фильтров имеют низкий Page Rank и попадают в Extended Index.
- Поведение в поиске: По запросу «синие джинсы Levis» система ищет в Standard Index и показывает основную категорию.
- Активация Extended Index: По ультра-специфическому запросу «синие джинсы Levis размер 32W 34L с потертостями», если в Standard Index нет ответов (Signal срабатывает), система ищет в Extended Index и может показать специфическую страницу фильтра.
SEO-действие: Необходимо консолидировать сигналы. Закрыть от индексации низкочастотные страницы фильтров и сосредоточить вес на ключевых страницах, чтобы они оставались в Standard Index, вместо того чтобы полагаться на нестабильный трафик из Extended Index.
Сценарий 2: Ранжирование по ультра-специфическому запросу (Long-Tail)
- Запрос: Пользователь ищет редкую техническую спецификацию: «[Brand Y Model Z] протокол обмена данными 1998».
- Стандартный поиск: В Standard Index найдено 0 результатов.
- Активация триггера: Количество результатов ниже порога. Mixer активирует расширенный поиск.
- Расширенный поиск: В Extended Index находится PDF-файл на архивном сайте с низким авторитетом.
- Результат: Система показывает этот PDF в выдаче.
Вопросы и ответы
В чем основное различие между Standard Index и Extended Index?
Standard Index — это основной, быстрый индекс, содержащий авторитетные документы (с высоким Page Rank). Он многократно реплицируется для скорости. Extended Index — это дополнительный, медленный индекс для менее важных, редких или документов с низким Page Rank. Он меньше реплицируется и используется как резерв.
Всегда ли Google ищет в обоих индексах?
Нет. Поиск всегда начинается в Standard Index. Поиск в Extended Index запускается условно — только если результаты стандартного поиска признаны неудовлетворительными (например, найдено слишком мало документов или их Query Scores низкие) или если есть свободные вычислительные ресурсы.
Насколько важен PageRank в контексте этого патента?
Критически важен. В патенте Page Rank явно упоминается как фактор, влияющий на организацию индекса. Высокий Page Rank способствует попаданию в Standard Index, а низкий — в Extended Index. Это подчеркивает, что авторитетность влияет не только на ранжирование, но и на приоритет обработки контента.
Является ли Extended Index тем же самым, что и «Supplemental Index»?
Да, концептуально это одно и то же. Термин «Supplemental Index» (Дополнительный индекс) использовался Google в прошлом для обозначения вторичного хранилища менее важных документов. Описанный в патенте Extended Index соответствует этой концепции и механизму работы.
Как переместить страницы сайта из Extended Index в Standard Index?
Необходимо повысить важность и авторитетность этих страниц. Это достигается путем улучшения качества контента, получения качественных внешних ссылок и оптимизации внутренней перелинковки для передачи большего веса (Page Rank) на эти документы.
Если моя страница находится в Extended Index, это плохо?
Это не оптимально для ключевых страниц. Это означает, что Google считает страницу менее важной. Она сможет ранжироваться, но только тогда, когда в Standard Index нет лучших ответов. Для стратегического роста необходимо стремиться к перемещению важных страниц в Standard Index.
Что такое «Сигнал» (Signal), который активирует расширенный поиск?
Основной сигнал — недостаточное количество результатов в Standard Index. Другие сигналы: низкие Query Scores стандартных результатов, признаки неудовлетворенности пользователя (частый переход на вторую страницу выдачи) или низкая текущая нагрузка на инфраструктуру расширенного индекса.
Что такое Partition Index и как он работает?
Это механизм оптимизации поиска в Extended Index. Он содержит информацию о том, какие термины присутствуют в каких партициях (частях) индекса. Это позволяет системе (используя Balancer Filter) не отправлять запрос на серверы, которые заведомо не содержат искомых терминов, экономя ресурсы и ускоряя поиск.
Актуален ли этот патент, учитывая, что он подан в 2003 году?
Архитектурная концепция многоуровневого индексирования (Tiered Indexing) остается фундаментальной. Хотя реализации эволюционировали, базовый принцип балансировки скорости, стоимости и полноты охвата за счет разделения индекса по важности документов остается актуальным.
Как этот патент влияет на SEO для новых сайтов?
Новые сайты обычно имеют низкий авторитет и, скорее всего, изначально попадают в Extended Index. Это объясняет трудности с ранжированием по конкурентным запросам на старте. Стратегия должна включать активное наращивание авторитетности для скорейшего перемещения в Standard Index.