
Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или редкие документы. Система обращается к Extended Index только тогда, когда в Standard Index недостаточно качественных результатов, обеспечивая баланс скорости и максимального охвата.
Патент решает фундаментальную проблему баланса между полнотой поискового индекса (Recall), скоростью ответа (Latency) и стоимостью инфраструктуры. Поиск по всему объему проиндексированных данных при каждом запросе требует огромных ресурсов и увеличивает задержку. Изобретение предлагает архитектуру, которая позволяет быстро обрабатывать большинство запросов, используя высокопроизводительный основной индекс, и обращаться к более полному, но менее реплицированному индексу только при необходимости.
Запатентована архитектура поисковой системы с многоуровневым индексом (Tiered Indexing). Индекс разделен на Standard Index (Стандартный) и Extended Index (Расширенный). Standard Index многократно реплицируется для скорости и содержит высокоприоритетные документы. Extended Index менее реплицирован, содержит менее распространенные или «obscure» (малоизвестные) документы. Ключевым является механизм условного поиска: Extended Index задействуется только если результаты стандартного поиска не соответствуют определенным критериям (predefined criteria).
Система работает по каскадному принципу:
Extended Index в среднем имеют более низкий Page Rank.Standard Backend.Mixer анализирует результаты и генерирует Signal (например, количество результатов, их Query Scores).Signal соответствует критериям (например, результатов мало), инициируется поиск в Extended Backend.Extended Backend используется Partition Index для направления запроса только на те серверы, которые содержат нужные термины.Высокая (Концептуально). Хотя патент подан в 2003 году, фундаментальный принцип многоуровневого индексирования (Tiered Indexing) — разделение данных на «горячие» (быстрые, важные) и «холодные» (медленные, менее важные) — остается критически важным для крупномасштабных систем. Учитывая ключевых изобретателей (Jeffrey Dean, Sanjay Ghemawat), эти концепции лежат в основе инфраструктуры Google.
Патент имеет высокое стратегическое значение для понимания инфраструктуры индексации. Он не описывает алгоритмы ранжирования, но демонстрирует, что Google архитектурно разделяет документы по важности, используя для этого Page Rank. Понимание разделения на Standard и Extended Index (часто ассоциируемый с Supplemental Index) критически важно для стратегий индексации и авторитетности. Оно подтверждает, что не все проиндексированные страницы имеют одинаковый статус и доступность для ранжирования.
multiple instances) для скорости и отказоустойчивости. Содержит приоритетные документы. Патент указывает, что партиции с документами, имеющими высокий Page Rank, могут реплицироваться чаще.Standard Index. Документы в этом индексе в среднем имеют более низкий Page Rank.Standard Index, генерирует Signal, принимает решение о запуске поиска в Extended Index и агрегирует финальные результаты.Standard Index. Используются для принятия решения о необходимости расширенного поиска.Query Scores, неудовлетворенность пользователя, низкая нагрузка на систему.Extended Balancer), которая мапирует термины на суб-партиции индекса. Указывает, какие суб-партиции содержат определенные термины.Partition Index для направления запроса только на релевантные индексные серверы, повышая эффективность поиска в Extended Index.Claim 1 (Независимый пункт): Описывает основной метод условного расширенного поиска в системе с разным уровнем репликации.
Standard Index (который многократно реплицирован).detecting a signal) на основе этого поиска.predefined criteria): Extended Index. Ключевое условие: Количество инстансов Extended Index меньше, чем Standard Index.Claim 2 (Зависимый от 1): Уточняет ключевой сигнал.
Обнаружение сигнала включает определение того, что поиск в Standard Index дал меньше предопределенного числа результатов.
Claim 5 (Зависимый от 1): Уточняет сигнал поведения пользователя.
Сигнал может основываться на определении неудовлетворенности пользователя стандартными результатами (например, когда пользователь повторно выбирает кнопку «следующий набор результатов»).
Claims 3, 4, 6 (Зависимые от 1): Уточняют сигналы, связанные с ресурсами.
Сигнал может основываться на оценке стоимости (cost) выполнения расширенного поиска (Claim 3, 4) или текущей нагрузки (load) на Extended Index (Claim 6). Поиск выполняется, если они ниже порога.
Claim 9 (Зависимый от 8): Уточняет сигнал качества.
Сигнал может основываться на том, что Query Score стандартных результатов ниже предопределенного лимита.
Claim 18 (Независимый пункт): Описывает архитектуру распределенной системы.
Множество стандартных поисковых движков (каждый с локальным Standard Index) используют общий (shared) Extended Index, обращаясь к нему при срабатывании сигнала. Это подчеркивает, что один Extended Index обслуживает множество Standard Backends.
Изобретение описывает фундаментальную архитектуру, затрагивающую несколько этапов поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит классификация документов и их распределение между Standard Index и Extended Index. Патент указывает, что это решение связано с важностью документов: документы в Extended Index в среднем имеют более низкий Page Rank. Документы с высоким Page Rank в Standard Index могут реплицироваться чаще.
RANKING – Ранжирование (Этап Retrieval/Отбор кандидатов)
Первоначальный отбор кандидатов всегда выполняется в Standard Index.
METASEARCH – Метапоиск и Смешивание
Ключевой этап применения логики. Компонент Mixer анализирует результаты стандартного поиска (Signal).
Signal соответствует критериям, Mixer инициирует второй поиск в Extended Backend.Extended Balancer использует Balancer Filter и Partition Index для эффективного поиска только в релевантных партициях.Mixer агрегирует результаты из обоих индексов для формирования финальной выдачи.Входные данные:
Standard Index (документы, Query Scores).Выходные данные:
Page Rank), малоизвестный («obscure») или новый. Такой контент с большей вероятностью находится в Extended Index.Поиск в Extended Index применяется условно, при срабатывании триггеров (Signal meets Predefined Criteria):
Standard Index возвращает меньше порогового числа результатов (например, < 10). (Claim 2)Query Scores топовых результатов из Standard Index ниже порога. (Claim 9)Extended Backend низкая или стоимость выполнения запроса приемлема. (Claims 3, 4, 6)Процесс обработки запроса
Query Server передает запрос в Mixer.Mixer проверяет Cache. Если нет, запрос направляется в Standard Backend. Standard Index Servers возвращают результаты.Mixer анализирует результаты (количество, Query Scores) и генерирует Signal.Mixer сравнивает Signal с Predefined Criteria. Mixer направляет запрос в Extended Mixer. Проверяется Extended Cache.Extended Balancer, который использует Partition Index и Balancer Filter. Map), содержащих термин.Combined Map).Extended Index Servers, указанные в Combined Map.Mixer.Mixer объединяет стандартные и расширенные результаты.Document Servers (Standard и/или Extended), и финальная выдача возвращается пользователю.Page Rank. Критически важен. Используется для: (1) Распределения документов между Standard Index (высокий PR) и Extended Index (низкий PR); (2) Усечения результатов поиска (выбор Топ-N по PR).Terms) из документов используются для построения всех индексов, включая Partition Index.Signal для активации расширенного поиска (Claim 5).load) на Extended Backend и расчетная стоимость (cost) запроса могут использоваться как Signal (Claims 3, 4, 6).Signal (если оценки низкие).Standard Index. Ключевой Signal (если мало результатов).Extended Index.Query Score, нагрузки системы.Standard и Extended) для балансировки ресурсов, скорости и полноты охвата.Page Rank) используется не только как сигнал ранжирования, но и как критерий для определения, в каком сегменте индекса будет обрабатываться документ. Standard Index приоритизирует документы с высоким Page Rank.Extended Index (и контенту с низким авторитетом) предоставляется только тогда, когда основной индекс не справляется (условный поиск).low query scores) результатов, а также неудовлетворенность пользователя являются основными триггерами для активации Extended Index. Это критично для long-tail запросов.Partition Index, Balancer Filter) для эффективного поиска даже в огромном Extended Index, направляя запросы только туда, где есть релевантные данные.Page Rank, E-E-A-T). Это критически важно для обеспечения нахождения контента в Standard Index, что гарантирует быстрое и стабильное ранжирование.Page Rank по сайту, увеличивая шансы большего числа страниц попасть в Standard Index.Extended Index и не принесут стабильного трафика.Standard Index мало результатов, активируется Extended Index. Качественный нишевый контент может быть найден именно через этот механизм, даже при невысокой общей авторитетности сайта.Extended Index. Такой контент будет показываться только при отсутствии альтернатив в Standard Index.Extended Index из-за низкого Page Rank.Extended Index и не даст стабильного результата.Патент раскрывает фундаментальную архитектуру индексирования и объясняет, почему авторитетность (Page Rank) имеет критическое значение не только для позиций, но и для того, *как* Google хранит и обрабатывает сайт. Существует прямая зависимость между авторитетностью и приоритетом обработки. Патент объясняет, почему «Проиндексировано» не равно «Ранжируется». Долгосрочная SEO-стратегия должна быть направлена на перемещение максимального количества страниц в Standard Index.
Сценарий 1: Управление индексацией крупного E-commerce сайта (Фасеточная навигация)
Ситуация: Интернет-магазин имеет 10,000 товаров и 500,000 страниц фасеточной навигации (фильтры).
Анализ по патенту:
Page Rank и попадают в Standard Index.Page Rank и попадают в Extended Index.Standard Index и показывает основную категорию.Standard Index нет ответов (Signal срабатывает), система ищет в Extended Index и может показать специфическую страницу фильтра.SEO-действие: Необходимо консолидировать сигналы. Закрыть от индексации низкочастотные страницы фильтров и сосредоточить вес на ключевых страницах, чтобы они оставались в Standard Index, вместо того чтобы полагаться на нестабильный трафик из Extended Index.
Сценарий 2: Ранжирование по ультра-специфическому запросу (Long-Tail)
Standard Index найдено 0 результатов.Mixer активирует расширенный поиск.Extended Index находится PDF-файл на архивном сайте с низким авторитетом.В чем основное различие между Standard Index и Extended Index?
Standard Index — это основной, быстрый индекс, содержащий авторитетные документы (с высоким Page Rank). Он многократно реплицируется для скорости. Extended Index — это дополнительный, медленный индекс для менее важных, редких или документов с низким Page Rank. Он меньше реплицируется и используется как резерв.
Всегда ли Google ищет в обоих индексах?
Нет. Поиск всегда начинается в Standard Index. Поиск в Extended Index запускается условно — только если результаты стандартного поиска признаны неудовлетворительными (например, найдено слишком мало документов или их Query Scores низкие) или если есть свободные вычислительные ресурсы.
Насколько важен PageRank в контексте этого патента?
Критически важен. В патенте Page Rank явно упоминается как фактор, влияющий на организацию индекса. Высокий Page Rank способствует попаданию в Standard Index, а низкий — в Extended Index. Это подчеркивает, что авторитетность влияет не только на ранжирование, но и на приоритет обработки контента.
Является ли Extended Index тем же самым, что и «Supplemental Index»?
Да, концептуально это одно и то же. Термин «Supplemental Index» (Дополнительный индекс) использовался Google в прошлом для обозначения вторичного хранилища менее важных документов. Описанный в патенте Extended Index соответствует этой концепции и механизму работы.
Как переместить страницы сайта из Extended Index в Standard Index?
Необходимо повысить важность и авторитетность этих страниц. Это достигается путем улучшения качества контента, получения качественных внешних ссылок и оптимизации внутренней перелинковки для передачи большего веса (Page Rank) на эти документы.
Если моя страница находится в Extended Index, это плохо?
Это не оптимально для ключевых страниц. Это означает, что Google считает страницу менее важной. Она сможет ранжироваться, но только тогда, когда в Standard Index нет лучших ответов. Для стратегического роста необходимо стремиться к перемещению важных страниц в Standard Index.
Что такое "Сигнал" (Signal), который активирует расширенный поиск?
Основной сигнал — недостаточное количество результатов в Standard Index. Другие сигналы: низкие Query Scores стандартных результатов, признаки неудовлетворенности пользователя (частый переход на вторую страницу выдачи) или низкая текущая нагрузка на инфраструктуру расширенного индекса.
Что такое Partition Index и как он работает?
Это механизм оптимизации поиска в Extended Index. Он содержит информацию о том, какие термины присутствуют в каких партициях (частях) индекса. Это позволяет системе (используя Balancer Filter) не отправлять запрос на серверы, которые заведомо не содержат искомых терминов, экономя ресурсы и ускоряя поиск.
Актуален ли этот патент, учитывая, что он подан в 2003 году?
Архитектурная концепция многоуровневого индексирования (Tiered Indexing) остается фундаментальной. Хотя реализации эволюционировали, базовый принцип балансировки скорости, стоимости и полноты охвата за счет разделения индекса по важности документов остается актуальным.
Как этот патент влияет на SEO для новых сайтов?
Новые сайты обычно имеют низкий авторитет и, скорее всего, изначально попадают в Extended Index. Это объясняет трудности с ранжированием по конкурентным запросам на старте. Стратегия должна включать активное наращивание авторитетности для скорейшего перемещения в Standard Index.

Индексация

Индексация

Индексация
Семантика и интент

Поведенческие сигналы
SERP

Индексация
Семантика и интент

Ссылки
SERP
Семантика и интент

Поведенческие сигналы
Мультимедиа
Семантика и интент

Поведенческие сигналы
Семантика и интент
Мультимедиа

Поведенческие сигналы
Local SEO

Антиспам
SERP
Ссылки

Knowledge Graph
Семантика и интент
Персонализация

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы

Ссылки
EEAT и качество
SERP
