Патент Google, описывающий итеративный процесс поиска и инфраструктуру для хранения сжатых документов (Tokenspace Repository). Система анализирует контекст вокруг ключевых слов в предварительных результатах, автоматически расширяет запрос на основе этого контекста (Relevance Feedback) и выполняет повторный поиск. Также описано многоэтапное ранжирование, учитывающее близость слов и атрибуты контента.
Описание
Какую задачу решает
Патент решает две ключевые задачи. Во-первых, повышение релевантности поиска путем автоматического уточнения запроса пользователя. Система использует анализ контекста предварительной выдачи (Relevance Feedback), чтобы найти связанные термины, которые пользователь не указал. Во-вторых, инфраструктурная задача: эффективное хранение огромного корпуса документов в сжатом формате (Tokenspace Repository), который позволяет очень быстро извлекать контент для этого контекстного анализа и генерации сниппетов в реальном времени.
Что запатентовано
Запатентован метод итеративной обработки запросов с автоматическим расширением. Система выполняет предварительный поиск, анализирует термины, окружающие ключевые слова в топовых результатах (контекст), и использует эти данные для генерации терминов расширения запроса (query expansion terms). Затем выполняется финальный поиск по расширенному запросу. Процесс опирается на инфраструктуру Tokenspace Repository и Multi-Stage Query Processing (многоэтапную обработку запросов).
Как это работает
Система работает в двух основных режимах:
Хранение (Офлайн): Документы сжимаются с использованием двухуровневой токенизации (Global Lexicon и Mini/Region Lexicons) и сохраняются в Tokenspace Repository. Это обеспечивает высокое сжатие и быстрый доступ к контенту.
Обработка (Онлайн):
- Первый проход (Предварительный поиск): Выполняется поиск по исходному запросу с использованием многоэтапного ранжирования (Stages 1-4).
- Анализ контекста: Система быстро извлекает текст вокруг ключевых слов («длинные сниппеты») в топовых документах.
- Relevance Feedback: Анализ контекста для идентификации связанных терминов.
- Расширение запроса: Исходный запрос расширяется новыми терминами.
- Второй проход (Финальный поиск): Выполняется поиск по расширенному запросу.
- Генерация сниппетов: Для финальных результатов генерируются «короткие сниппеты» для показа пользователю путем быстрой декомпрессии.
Актуальность для SEO
Высокая. Хотя патент является продолжением заявки 2004 года, описанные концепции фундаментальны. Многоэтапное ранжирование (Multi-Stage Query Processing) является стандартной архитектурой. Механизмы использования контекста для понимания и автоматического расширения запросов (Relevance Feedback) остаются центральными для повышения качества поиска, хотя методы их реализации могли эволюционировать (например, с использованием нейронных сетей). Инфраструктура быстрого доступа к контенту (Tokenspace) также критична.
Важность для SEO
Патент имеет высокое значение для SEO-стратегии (8/10). Он детально описывает механизм Relevance Feedback, подтверждая, что Google активно анализирует семантическое окружение ключевых слов для уточнения интента и автоматического расширения запроса. Это подчеркивает критическую важность работы над контекстом, LSI-терминами и тематической глубиной. Кроме того, патент подтверждает использование близости слов (Stage 2) и атрибутов контента (Stage 3) как отдельных этапов ранжирования.
Детальный разбор
Термины и определения
- Attribute Table (Таблица атрибутов)
- Хранилище закодированных атрибутов для токенов (например, шрифт: жирный; позиция: заголовок (title, heading)). Используется на Этапе 3 ранжирования.
- Global Lexicon (Глобальный словарь)
- Словарь, содержащий все уникальные токены корпуса. Определяет соответствие между токеном (текстом) и его глобальным идентификатором (GTokenID).
- GTokenID (Global Token Identifier)
- Глобальный уникальный идентификатор токена (например, 32 бита).
- LTokenID (Local Token Identifier)
- Локальный идентификатор токена короткой длины (например, 8 бит). Используется для сжатия в Tokenspace Repository. Действителен только в контексте соответствующего Mini-Lexicon.
- Mini-Lexicon / Region Lexicon (Мини-словарь / Словарь региона)
- Локальный словарь для определенного диапазона позиций (региона) в корпусе. Определяет соответствие между LTokenIDs и GTokenIDs.
- Multi-Stage Query Processing System (Многоэтапная система обработки запросов)
- Архитектура поиска с каскадным ранжированием. В патенте описано 4 этапа: Stage 1 (базовый поиск/оценки), Stage 2 (близость слов — Proximity), Stage 3 (атрибуты — Attributes), Stage 4 (контекст/сниппеты — Context).
- Query Expansion Terms (Термины расширения запроса)
- Дополнительные термины, генерируемые системой (через Relevance Feedback Module) для уточнения исходного запроса.
- Relevance Feedback Module (Модуль обратной связи по релевантности)
- Компонент, который анализирует результаты предварительного поиска (в частности, контекст вокруг ключевых слов) для генерации Query Expansion Terms.
- Snippet (Сниппет)
- Фрагмент текста документа. Патент подразумевает генерацию «длинных сниппетов» для внутреннего анализа (Relevance Feedback) и «коротких сниппетов» для показа пользователю.
- Tokenspace Inverse Index (Обратный индекс Tokenspace)
- Структура данных, которая сопоставляет GTokenIDs с их позициями в Tokenspace Repository.
- Tokenspace Repository (Репозиторий Tokenspace)
- Хранилище, содержащее весь корпус документов в сжатом, токенизированном формате (например, в виде последовательности LTokenIDs).
Ключевые утверждения (Анализ Claims)
Патент US9619565B1 фокусируется на итеративном процессе обработки запросов и механизме генерации сниппетов, поддерживающем этот процесс.
Claim 1 (Независимый пункт): Описывает метод итеративной обработки запроса с использованием контекстного анализа для его автоматического расширения (Relevance Feedback Loop).
- Система получает поисковый запрос.
- Идентифицируется предварительный набор результатов (preliminary set of search result documents).
- Генерируется набор терминов для расширения запроса (query expansion terms). Ключевой момент: генерация основана на терминах, найденных в пределах заданного числа позиций до и/или после исходных ключевых слов в предварительных результатах (т.е. анализ контекста).
- Исходный запрос комбинируется с терминами расширения для формирования расширенного запроса (expanded search query).
- Идентифицируется второй набор результатов на основе расширенного запроса.
- Генерируется сниппет контента для документа из второго набора.
- Система возвращает ответ.
Ядром изобретения является использование контекстного окружения ключевых слов в предварительной выдаче для автоматического улучшения запроса и выполнения повторного поиска.
Claim 4 (Зависимый от 1): Уточняет, что источником терминов расширения являются сниппеты.
- Для документов из предварительного набора генерируются предварительные сниппеты.
- Набор query expansion terms генерируется на основе этих предварительных сниппетов.
Это подтверждает, что для анализа контекста система анализирует области вокруг ключевых слов (сниппеты).
Claim 5 (Зависимый от 1): Описывает технический механизм декомпрессии, необходимый для генерации сниппетов.
- Получение набора первых идентификаторов токенов (например, LTokenIDs) из сжатого репозитория.
- Выполнение первой операции декомпрессии: применение первых соответствий (например, Mini-Lexicon) для получения вторых идентификаторов токенов (например, GTokenIDs).
- Выполнение второй операции декомпрессии: применение второго соответствия (например, Global Lexicon) для восстановления несжатого контента (текста).
Где и как применяется
Изобретение затрагивает практически все этапы поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе создается инфраструктура: генерируются Global Lexicon и Mini-Lexicons, документы кодируются в Tokenspace Repository, создаются Inverse Index и Attribute Table (где хранятся атрибуты токенов: шрифт, позиция в документе).
QUNDERSTANDING – Понимание Запросов
Запрос парсится и токенизируется. Описанный механизм Relevance Feedback является ключевой частью итеративного понимания запроса. Система использует результаты первого прохода ранжирования для генерации Query Expansion Terms, которые затем используются для формирования расширенного запроса (переписывание запроса) для второго прохода.
RANKING – Ранжирование
Патент детально описывает Multi-Stage Query Processing System, соответствующую каскадному ранжированию:
- Stage 1 (Retrieval/Базовое ранжирование): Отбор кандидатов и расчет начальных оценок (S1). Упоминаются частота терминов и популярность документа.
- Stage 2 (Proximity Ranking): Расчет оценок (S2) на основе близости терминов запроса в документах.
- Stage 3 (Attribute Ranking): Расчет оценок (S3) на основе атрибутов токенов (заголовки, шрифты), используя Attribute Table.
RERANKING / METASEARCH – Переранжирование и Генерация сниппетов
- Stage 4 (Context Ranking/Snippet Generation): Финальный этап. Расчет оценок (S4) на основе контекста и генерация сниппетов. Требует быстрого извлечения контента из Tokenspace Repository. На первом проходе генерируются «длинные сниппеты» для Relevance Feedback, на втором – «короткие сниппеты» для пользователя.
На что влияет
- Все типы контента и запросов: Инфраструктура и многоэтапное ранжирование универсальны.
- Сложные и неоднозначные запросы: Механизм Relevance Feedback оказывает наибольшее влияние на запросы, где контекст помогает понять истинный интент и найти связанные термины, которые пользователь не указал явно.
- Структура и оформление контента: Stage 3 напрямую влияет на ранжирование контента в зависимости от его структуры (заголовки) и оформления (шрифты), так как эти атрибуты явно индексируются.
Когда применяется
- Многоэтапное ранжирование: При обработке каждого запроса.
- Итеративный процесс (Relevance Feedback): Подразумевает как минимум два прохода обработки запроса. В патенте указано, что первый проход может выполняться на ограниченной части индекса (например, одном из подмножеств параллельных систем или образце документов) для экономии ресурсов и скорости, а второй проход – по всему индексу.
Пошаговый алгоритм
Процесс А: Индексирование и Кодирование (Офлайн)
- Подготовка: Сбор и опциональная сортировка документов (например, по языку и URL) для повышения эффективности сжатия.
- Генерация Global Lexicon: Парсинг корпуса, идентификация уникальных токенов, присвоение GTokenIDs (частотным токенам – меньшие ID).
- Генерация Локальных Словарей и Кодирование: Повторный парсинг. Генерация Mini-Lexicons (или Region Lexicons) и преобразование документов в сжатый формат (например, последовательность LTokenIDs). Сохранение в Tokenspace Repository.
- Индексирование признаков: Создание Tokenspace Inverse Index и Attribute Table.
Процесс Б: Обработка запроса (Онлайн)
Первый проход (Генерация расширенного запроса)
- Парсинг запроса: Преобразование терминов в GTokenIDs.
- Предварительное ранжирование (Stages 1-3): Выполнение поиска (возможно, на ограниченной части индекса). Расчет оценок S1 (базовая), S2 (близость), S3 (атрибуты).
- Генерация длинных сниппетов (Stage 4): Для топовых результатов извлечение контекста вокруг ключевых слов (например, +/- 10-40 токенов). Требует быстрой декомпрессии из Tokenspace Repository (LTokenID -> GTokenID -> Текст).
- Relevance Feedback: Анализ извлеченного контекста (длинных сниппетов) с помощью Relevance Feedback Module.
- Расширение запроса: Генерация Query Expansion Terms и формирование расширенного запроса.
Второй проход (Финальное ранжирование)
- Многоэтапное ранжирование (Stages 1-3): Обработка расширенного запроса по всему индексу. Расчет оценок S1, S2, S3.
- Финальное ранжирование и Генерация сниппетов (Stage 4): Расчет финальных оценок (S4) на основе контекста. Генерация коротких сниппетов для отображения пользователю с использованием декомпрессии.
- Вывод результатов: Формирование SERP.
Какие данные и как использует
Данные на входе
Система использует разнообразные данные, проиндексированные и сохраненные в специализированных структурах:
- Контентные факторы: Весь текст документа. Система активно анализирует контекст — слова, окружающие ключевые термины (используется в Stage 4 и Relevance Feedback).
- Структурные и Визуальные факторы (Атрибуты): Хранятся в Attribute Table и используются в Stage 3. Упомянуты:
- Атрибуты шрифта (например, жирный, подчеркнутый).
- Атрибуты позиции в документе (например, заголовок (title), подзаголовок (heading)).
- Метаданные.
- Поведенческие факторы (Косвенно): В описании патента упоминается возможность использования предыдущих сессий запросов (set of query sessions) для определения совместно встречающихся терминов, которые могут быть использованы для расширения запроса.
Какие метрики используются и как они считаются
Патент не приводит формул, но определяет типы оценок (Relevancy Scores), рассчитываемых на разных этапах:
- S1 (Stage 1): Базовая релевантность. Факторы: наличие термина, частота термина (term frequency), популярность документа (popularity of the documents / query independent score).
- S2 (Stage 2): Оценка на основе близости (Score Based on Proximity). Повышается, если термины запроса расположены близко друг к другу.
- S3 (Stage 3): Оценка на основе атрибутов (Score Based on Attributes). Учитывает вес терминов в зависимости от их оформления и расположения в структуре документа.
- S4 (Stage 4): Оценка на основе контекста (Score Based on Context).
- Query Term Weights: Веса терминов запроса, которые могут быть рассчитаны или скорректированы в процессе Relevance Feedback.
Выводы
- Контекст критичен для понимания запроса (Relevance Feedback): Основной механизм патента (Claim 1) – итеративное расширение запроса. Google активно использует слова, окружающие основные ключевые фразы в топовых результатах, чтобы понять интент и автоматически добавить релевантные термины.
- Поиск – это итеративный процесс: Система не просто ищет по исходному запросу. Она выполняет предварительный поиск, учится на его результатах (анализируя контекст) и затем выполняет уточненный поиск по семантически расширенной версии запроса.
- Многоэтапное ранжирование с четким разделением факторов: Патент детально подтверждает каскадное ранжирование (4 этапа) и явно выделяет Близость слов (Stage 2) и Атрибуты контента (Stage 3) как отдельные, значимые этапы оценки релевантности.
- Важность структуры и оформления документа (Stage 3): Использование заголовков, выделения текста и других атрибутов напрямую влияет на расчет релевантности, так как эти данные индексируются в Attribute Table и обрабатываются на отдельной стадии.
- Инфраструктура обеспечивает скорость анализа контекста: Система Tokenspace Repository с двухуровневой компрессией позволяет Google очень быстро извлекать контент, что необходимо для работы Relevance Feedback и генерации сниппетов на лету.
Практика
Best practices (это мы делаем)
- Оптимизация под семантический контекст (LSI/Co-occurrence): Насыщайте текст релевантными терминами, синонимами и сущностями, которые часто встречаются вместе с основными ключевыми словами. Relevance Feedback механизм использует этот контекст для расширения запросов. Чем богаче и точнее контекст, тем выше релевантность страницы для расширенного запроса.
- Работа над Topical Authority: Создавайте контент, который глубоко раскрывает тему. Широкий семантический охват повышает вероятность соответствия как исходному, так и автоматически расширенному запросу, который генерирует Google.
- Использование семантической разметки и структуры (Stage 3): Активно используйте заголовки (H1-H6), списки и выделяйте важные термины (например, strong). Stage 3 ранжирования напрямую учитывает эти атрибуты (Attributes).
- Оптимизация близости ключевых терминов (Stage 2): При создании контента следите за тем, чтобы ключевые компоненты запроса и связанные сущности находились в тексте близко друг к другу. Stage 2 ранжирования учитывает близость слов (Proximity).
Worst practices (это делать не надо)
- Keyword Stuffing и неестественный текст: Перенасыщение текста ключевыми словами без должного контекста неэффективно. Система анализирует окружающие термины (Relevance Feedback), и отсутствие релевантного контекста или неестественное распределение слов снизит оценки на этапах Proximity и Context.
- Изолированная оптимизация под узкий ключ: Фокус только на одном точном вхождении ключевой фразы рискован. Система автоматически расширит запрос связанными понятиями, и узко оптимизированная страница проиграет контенту с более широким семантическим охватом.
- Игнорирование структуры документа («Стена текста»): Публикация контента без четкой структуры и выделения важных элементов снижает релевантность на Stage 3, так как система не может эффективно использовать сигналы атрибутов.
Стратегическое значение
Этот патент подтверждает стратегический курс Google на уход от буквального сопоставления ключевых слов к пониманию контекста и семантики. Описанный механизм итеративного расширения запросов (Relevance Feedback) показывает, как Google автоматически определяет, какие еще термины важны для данной темы, анализируя контент топовых страниц. Долгосрочная SEO-стратегия должна фокусироваться на создании семантически богатого, хорошо структурированного контента, который предоставляет исчерпывающую информацию в рамках своего контекста.
Практические примеры
Сценарий: Использование контекста для расширения запроса (Relevance Feedback)
- Исходный запрос пользователя: «Ягуар скорость» (Неоднозначный запрос).
- Первый проход: Система выполняет поиск и находит документы про автомобиль и про животное.
- Анализ контекста (Relevance Feedback): Система анализирует сниппеты (контекст вокруг слов «Ягуар» и «скорость») топовых результатов.
- В документах про автомобиль контекст включает термины: «двигатель», «л.с.», «разгон до 100», «F-Type».
- В документах про животное контекст включает: «хищник», «охота», «Амазонка», «пантера».
- Расширение запроса: Система генерирует Query Expansion Terms. Например, если доминирует интент про авто, она может расширить запрос терминами «двигатель» и «разгон».
- Второй проход: Система выполняет поиск по расширенному запросу (например, «Ягуар скорость двигатель разгон»).
- Результат: Выдача становится более точной.
- Вывод для SEO: Если вы продвигаете страницу о скорости автомобиля Ягуар, наличие в тексте слов «двигатель», «разгон», «F-Type» поможет системе правильно интерпретировать контекст и повысит релевантность страницы для расширенного запроса.
Вопросы и ответы
Что такое Relevance Feedback и как он влияет на SEO?
Это механизм, при котором Google выполняет предварительный поиск, анализирует топовые результаты, чтобы понять контекст запроса, и автоматически генерирует дополнительные термины для расширения запроса. Для SEO это означает, что контекст и семантическое окружение ваших ключевых слов критически важны. Google ищет не просто ключи, а связанные понятия, которые подтверждают релевантность ответа.
Как именно система выбирает термины для расширения запроса?
Согласно патенту (Claim 1), система анализирует термины, которые находятся в пределах заданного количества слов до и после вхождения исходных ключевых фраз в предварительных результатах (в так называемых «длинных сниппетах»). Если определенные термины часто встречаются в этом контексте, они могут быть выбраны для расширения запроса.
Патент описывает 4 этапа ранжирования. Что это значит для SEO-специалиста?
Это подтверждает, что оптимизация должна быть комплексной. Недостаточно просто иметь ключевые слова на странице (Stage 1). Нужно также обеспечить их естественную близость друг к другу (Stage 2), использовать правильную структуру и выделение текста (Stage 3), и обеспечить богатый семантический контекст (Stage 4). Нельзя фокусироваться только на одном аспекте.
Какие атрибуты контента учитывает система на Stage 3?
Патент упоминает атрибуты шрифта (например, жирный, подчеркнутый) и атрибуты позиции документа (например, текст в заголовке Title или подзаголовках Heading). Это означает, что использование тегов strong, em и правильной иерархии заголовков H1-H6 напрямую влияет на расчет релевантности на этом этапе.
Насколько важна близость слов (Proximity) согласно этому патенту?
Она очень важна, ей посвящен отдельный этап ранжирования (Stage 2). Если термины из запроса находятся в документе близко друг к другу, документ получает более высокую оценку (S2), чем документ, где эти термины разбросаны далеко. Это следует учитывать при написании текстов и формировании логической структуры контента.
Что такое Tokenspace Repository и зачем он нужен Google?
Tokenspace Repository – это способ хранения всего корпуса веб-документов в высоко сжатом формате. Вместо хранения текста Google хранит последовательности коротких идентификаторов токенов. Это позволяет значительно экономить место и обеспечивает очень быстрый доступ к контенту документа для анализа контекста и генерации сниппетов на лету.
В патенте подразумевается использование «длинных» и «коротких» сниппетов. В чем разница?
На первом проходе обработки запроса генерируются «длинные сниппеты» (например, +/- 40 токенов вокруг ключевого слова). Они используются внутри системы для анализа контекста и работы Relevance Feedback. На втором проходе (после расширения запроса) генерируются «короткие сниппеты», оптимизированные для отображения пользователю в SERP.
Если Google расширяет мой запрос, увижу ли я это в Search Console?
Не обязательно. Расширение запроса происходит внутри системы для повышения релевантности ранжирования. Вы, скорее всего, будете видеть трафик по исходному запросу пользователя в отчетах. Понимание этого механизма помогает объяснить, почему ваша страница может хорошо ранжироваться, даже если она не идеально оптимизирована под исходный запрос, но отлично соответствует расширенному.
Применяется ли описанный механизм Relevance Feedback ко всем запросам?
Патент описывает его как часть общей системы. Вероятно, он применяется тогда, когда система видит потенциал для улучшения результатов. Процесс требует дополнительных ресурсов (два прохода ранжирования), поэтому для экономии первый проход может выполняться на ограниченной части индекса или образце документов.
Является ли этот патент устаревшим, учитывая развитие нейронных сетей (BERT, MUM)?
Хотя методы анализа контекста и генерации терминов расширения эволюционировали (нейронные сети делают это более сложным способом), базовые принципы остаются актуальными. Идея использования контекста для улучшения запроса (Relevance Feedback) и архитектура многоэтапного ранжирования по-прежнему лежат в основе поиска. Инфраструктура эффективного хранения также остается критически важной.