
Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.
Патент решает фундаментальную проблему баланса между использованием сложных методов оценки релевантности и необходимостью поддерживать высокую скорость поиска. Сложные техники скоринга (например, анализ контекста термина) часто требуют частичной реконструкции документов, что увеличивает задержку (latency). Изобретение позволяет применять эти техники эффективно, минимизируя влияние на производительность за счет многоэтапной обработки и использования специализированного сжатого репозитория (Tokenspace Repository).
Запатентована архитектура многоэтапной обработки запросов (Multi-Stage Query Processing System). Она позволяет инкрементально вычислять оценки релевантности, применяя все более сложные и вычислительно дорогие сигналы на progressively уменьшающихся наборах документов-кандидатов. Ключевым элементом является механизм автоматического расширения запроса (Query Expansion) на основе обратной связи по релевантности (Relevance Feedback), полученной путем анализа топовых результатов предыдущей итерации поиска.
Система работает как каскад фильтров и скоринговых модулей:
Proximity) терминов запроса в документе (S2).Attributes) терминов, таких как расположение (заголовок, метаданные) или форматирование (шрифт) (S3).Tokenspace Repository (S4).Высокая. Многоэтапное (каскадное) ранжирование является фундаментальной архитектурой современных поисковых систем (L1, L2, L3 Ranking). Механизмы использования близости терминов, структурных атрибутов и автоматического расширения запросов остаются критически важными компонентами поиска Google. Изобретатели (Dean, Singhal, Haahr) являются ключевыми фигурами в развитии архитектуры Google.
Патент имеет критическое значение для понимания архитектуры ранжирования Google. Он описывает конкретные механизмы, лежащие в основе оценки близости ключевых слов, важности структурных элементов (заголовки, выделенный текст) и того, как Google может автоматически расширять запросы, анализируя контент топовых страниц. Это напрямую влияет на стратегии контентной оптимизации и построения Topical Authority.
Global Lexicon.GTokenIDs.Mini-Lexicon. Обычно имеет меньший размер (например, 1 байт), чем GTokenID, и используется для сжатия.Tokenspace Repository. Содержит соответствие между LTokenIDs и GTokenIDs.LTokenIDs).GTokenIDs на их позиции в Tokenspace Repository.Claim 1 (Независимый пункт): Описывает метод многоэтапной обработки запроса с автоматическим расширением.
list of token positions) для терминов запроса.DocIDs).Proximity), атрибутах токенов (Attributes) ИЛИ контексте использования термина (Context).new query expansion terms) на основе документов из выбранного подмножества.DocIDs.Ядром изобретения является не только многоэтапное ранжирование, но и интеграция автоматической обратной связи по релевантности (Relevance Feedback), где анализ топовых результатов первой итерации используется для расширения и повторного выполнения запроса.
Claim 5 (Зависимый от 1): Уточняет механизм генерации терминов расширения.
Во время второго этапа обработки генерируются сниппеты для одного или нескольких документов из подмножества. Новые термины расширения запроса генерируются автоматически на основе этих сниппетов.
Патент описывает архитектуру, затрагивающую практически все ключевые этапы поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка корпуса: генерация Global Lexicon и Mini-Lexicons, кодирование документов в Tokenspace Repository, создание Tokenspace Inverse Index и извлечение атрибутов для Attribute Table.
QUNDERSTANDING – Понимание Запросов
Query Parser и Query Expander работают на этом этапе, преобразуя запрос пользователя в GTokenIDs и формируя дерево запроса (Query Tree). Механизм Relevance Feedback также влияет на этот этап, предоставляя новые термины для расширения запроса на второй итерации.
RANKING – Ранжирование
Основное применение патента. Описанная многоэтапная система реализует каскадное ранжирование:
First Stage Query Processor). Быстрый отбор кандидатов и базовый скоринг (S1).RERANKING – Переранжирование
Финальный выбор Топ-Z документов и генерация сниппетов (Этап 4) могут рассматриваться как часть финального ранжирования или переранжирования перед показом пользователю.
Входные данные:
Global Lexicon.Tokenspace Inverse Index.DocID Map.Attribute Table.Tokenspace Repository и Mini-Lexicons (для Этапа 4).Выходные данные:
DocIDs с финальными оценками релевантности.Это архитектурный патент, поэтому он влияет на обработку всех типов контента и запросов.
Описан процесс многопроходной обработки запроса.
Проход 1 (Генерация расширения)
Query Parser и преобразуется в GTokenIDs с помощью Global Lexicon.Query Expander формирует первичное дерево запроса (Query Tree).First Stage Query Processor использует Inverse Index и DocID Map для поиска документов. Рассчитывается S1 (частота, популярность).Second Stage Query Processor анализирует позиции токенов для оценки близости терминов. Рассчитывается S2. Выбираются Топ-X документов.Third Stage Query Processor использует Attribute Table для оценки значимости терминов (заголовки, шрифты). Рассчитывается S3. Выбираются Топ-Y документов.Fourth Stage Query Processor выполняет частичную реконструкцию Топ-Y документов из Tokenspace Repository. Генерируются "длинные сниппеты" (Long Snippets) для анализа контекста. Рассчитывается S4.Relevance Feedback Module анализирует "длинные сниппеты" и документы для идентификации новых терминов расширения запроса.Проход 2 (Финальное ранжирование)
Query Expander обновляет Query Tree, добавляя новые термины из Прохода 1.Патент фокусируется на архитектуре обработки и явно упоминает использование следующих данных для ранжирования:
Attribute Table, которая содержит информацию о расположении токена (Title, Heading, Metadata) и его форматировании (Font attributes, Bold, Underlined). Это напрямую используется на Этапе 3.Tokenspace Repository являются основой для расчета близости (Proximity) на Этапе 2 и для реконструкции контекста на Этапе 4.popularity of the documents), что может включать независимую от запроса оценку важности документа (например, PageRank или аналогичные метрики).Система рассчитывает несколько наборов оценок релевантности (Relevancy Scores) инкрементально:
term frequency), популярность документа.Агрегация данных: Патент указывает, что последующие оценки могут быть получены путем корректировки предыдущих оценок (например, S2 может быть получена путем корректировки S1 с учетом факторов Этапа 2).
Методы анализа (Relevance Feedback): Для генерации терминов расширения используются алгоритмы обратной связи по релевантности (например, pseudo-relevance feedback algorithms), которые анализируют контент (в частности, сниппеты) топовых документов.
Relevance Feedback означает, что контент страниц, находящихся в топе выдачи, напрямую влияет на то, как Google понимает и расширяет запрос для всех пользователей. Топовые сайты "обучают" систему связанным терминам.Tokenspace Repository, Attribute Table) для быстрого доступа к информации о позициях, атрибутах и контексте без полной декомпрессии документов.Патент подчеркивает стратегическую важность комплексного подхода к оптимизации контента, выходящего за рамки простого включения ключевых слов. Он подтверждает, что структура документа, взаимосвязь между терминами и общий контекст являются отдельными, измеримыми сигналами ранжирования. Кроме того, механизм автоматического расширения запросов демонстрирует, что SEO – это не только соответствие запросу, но и влияние на его интерпретацию системой через качественный контент в топе выдачи.
Сценарий: Оптимизация страницы категории E-commerce
Применение принципов патента для страницы категории "Беспроводные наушники для спорта".
Что такое многоэтапное ранжирование, описанное в патенте?
Это архитектура, в которой процесс ранжирования разбит на несколько последовательных этапов (в патенте описано 4). На каждом следующем этапе используются более сложные и дорогие для вычисления сигналы, но они применяются к меньшему набору документов, отобранных на предыдущем этапе. Это позволяет Google использовать сложные факторы ранжирования, сохраняя высокую скорость поиска.
Какие конкретно факторы ранжирования используются на разных этапах?
Патент явно выделяет: Этап 1 – базовая релевантность (частота терминов, популярность документа). Этап 2 – Близость (Proximity) терминов запроса друг к другу в документе. Этап 3 – Атрибуты (Attributes) терминов (расположение в Title/Headings, форматирование шрифта). Этап 4 – Контекст (Context) вокруг терминов.
Как работает оценка близости (Proximity) на Этапе 2?
Система анализирует позиции токенов, полученные из инвертированного индекса. Документы, в которых термины запроса расположены ближе друг к другу (например, идут подряд или в одном предложении), получают более высокую оценку S2, чем документы, где эти термины разбросаны далеко друг от друга. Для SEO это означает важность размещения связанных понятий рядом.
Что такое "Атрибуты" на Этапе 3 и как они влияют на SEO?
Атрибуты – это характеристики токенов, хранящиеся в отдельной Attribute Table. Они включают местоположение (Title, Heading, Metadata) и форматирование (Bold, Underline, Font Size). На Этапе 3 система повышает вес терминов, находящихся в важных структурных элементах. Это подтверждает критическую важность оптимизации заголовков и использования семантической разметки.
Что такое автоматическое расширение запроса (Automatic Query Expansion) в этом патенте?
Это ключевой механизм, также известный как Relevance Feedback. Система анализирует топовые документы (и их сниппеты), полученные на первой итерации поиска, чтобы найти дополнительные связанные термины. Затем она автоматически добавляет эти термины к исходному запросу и выполняет поиск повторно (второй проход), чтобы улучшить релевантность выдачи.
Как мой сайт может повлиять на автоматическое расширение запросов?
Если ваш сайт находится в топе выдачи, его контент (особенно сниппеты) используется системой для "обучения" тому, какие термины связаны с исходным запросом. Используя богатый словарь, синонимы и релевантные сущности, вы можете способствовать тому, что система начнет ассоциировать эти термины с основным запросом, что укрепит ваши позиции.
Что такое Tokenspace Repository и зачем он нужен?
Это высоко сжатое хранилище всего корпуса документов в токенизированном виде. Он используется на Этапе 4 для быстрой частичной реконструкции документа (например, для анализа контекста и генерации сниппета) без необходимости загружать и распаковывать исходный документ целиком.
Означает ли этот патент, что Google выполняет каждый запрос дважды?
Да, архитектура предполагает многопроходную обработку (как минимум два прохода) для реализации механизма Relevance Feedback. Первый проход используется для анализа топовых результатов и генерации терминов расширения, а второй проход выполняет ранжирование уже расширенного запроса для предоставления финальных результатов пользователю.
Насколько важен контекст (Этап 4) для ранжирования?
Контекст является финальным этапом глубокого ранжирования (S4). Система анализирует текст, непосредственно окружающий ключевые слова. Это означает, что оптимизация должна включать не только сами ключевые слова, но и их окружение, чтобы обеспечить максимальную релевантность и качество сниппета.
Актуальна ли эта архитектура, учитывая развитие нейронных сетей (BERT, MUM)?
Архитектура многоэтапного ранжирования остается фундаментально актуальной. Современные нейронные сети (как правило, более медленные) интегрируются на поздних этапах ранжирования (L2/L3), что соответствует Этапам 3 или 4 в этом патенте. Они применяются к меньшему набору кандидатов, отобранных на ранних этапах, что полностью соответствует принципам, описанным в данном изобретении.

Поведенческие сигналы
SERP

Семантика и интент
Мультимедиа
Индексация

Семантика и интент
SERP


Индексация
Техническое SEO

Персонализация
Поведенческие сигналы
SERP

Мультимедиа
EEAT и качество
Ссылки

Поведенческие сигналы
Семантика и интент
SERP

Мультимедиа
EEAT и качество
Семантика и интент

Ссылки
EEAT и качество
SERP

Персонализация
Поведенческие сигналы
SERP

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Ссылки
Краулинг
Техническое SEO

Поведенческие сигналы
SERP
