Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов (XTR)

Google патентует архитектуру нейронного поиска (Contextualized Token Retriever или XTR), которая обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных токенов (как в моделях типа ColBERT), но радикально снижает вычислительные затраты. Система рассчитывает релевантность, используя только предварительно отобранные (Top-K) векторы документа, а не все его векторы, применяя механизм импутации (Imputed Value) для отсутствующих взаимодействий.

Описание

Какую задачу решает

Патент решает проблему баланса между точностью и эффективностью в системах нейронного поиска (Neural Information Retrieval). Модели, которые анализируют взаимодействия на уровне отдельных токенов между запросом и документом (модели позднего взаимодействия, Late Interaction Models), обеспечивают высокую точность, но требуют значительных вычислительных ресурсов (FLOPS) и памяти. Это ограничивает их применение на ранних стадиях ранжирования. Цель изобретения — достичь высокой точности при радикальном снижении вычислительных затрат (в патенте заявлено снижение FLOPS более чем в 4000 раз).

Что запатентовано

Запатентована система информационного поиска (Contextualized Token Retriever), которая рассчитывает оценку релевантности документа запросу, используя только ограниченный набор предварительно извлеченных векторов токенов документа (retrieved token vectors), а не все векторы токенов этого документа. Ключевым элементом является использование Imputed Value (вмененного значения) для тех взаимодействий, которые не были зафиксированы на этапе первоначального поиска, что позволяет избежать дорогостоящих вычислений.

Как это работает

Система (часто называемая XTR) работает следующим образом:

Индексирование: Документы заранее обрабатываются нейросетью (Document Encoder) для создания векторов для каждого токена.
Обработка запроса: Запрос обрабатывается нейросетью (Query Encoder) для создания векторов для каждого токена запроса.
Извлечение (Retrieval): Для каждого вектора токена запроса система быстро находит Top-K наиболее похожих векторов токенов документов из индекса.
Генерация кандидатов: Документы, которым принадлежат эти Top-K векторы, становятся кандидатами.
Оценка (Scoring) и Импутация: Для расчета релевантности кандидата система агрегирует оценки по каждому токену запроса. Если токен документа был в Top-K, используется максимальное сходство (MaxSim). Если нет, система использует Imputed Value (например, наименьшее значение сходства в этом Top-K наборе).

Актуальность для SEO

Критически высокая. Патент подан в конце 2024 года и опубликован в 2025 году. Он описывает передовые методы нейронного поиска, направленные на повышение эффективности работы больших языковых моделей (упоминаются BERT, T5, Gemini) в поиске. Учитывая постоянную гонку за скоростью и точностью в Information Retrieval, эти методы, вероятно, уже тестируются или внедряются в инфраструктуру Google.

Важность для SEO

Влияние на SEO высокое (75/100), но косвенное. Это инфраструктурный патент, который не вводит новые факторы ранжирования, а описывает архитектуру, позволяющую Google применять сложные нейросетевые модели (NLP) более эффективно и, возможно, на более ранних этапах ранжирования (L1/L2). Это усиливает важность семантического соответствия и точности формулировок на уровне отдельных токенов, так как система оценивает релевантность через самые сильные локальные взаимодействия между текстом запроса и контентом.

Детальный разбор

Термины и определения

Contextualized Token Retriever (XTR): Название архитектуры, описанной в патенте. Система поиска, которая извлекает документы на основе контекстуализированных векторов токенов.
Document/Query Encoder Neural Network: Нейронные сети (например, BERT, T5, Gemini), используемые для преобразования токенов документа или запроса в последовательность векторов (Token Vectors). Они могут быть одной и той же сетью или разными, но обученными совместно.
Document/Query Token Vectors: Векторные представления (эмбеддинги) отдельных токенов (слов, частей слов) документа или запроса, отражающие их семантическое значение в контексте.
Late Interaction Models (Модели позднего взаимодействия): Класс моделей нейронного поиска (к которому относится и XTR), где взаимодействие между токенами запроса и документа вычисляется после того, как они были независимо закодированы. Обеспечивают высокую точность.
Similarity Measure (Мера сходства): Метрика для определения близости между вектором токена запроса и вектора токена документа (например, косинусное сходство, скалярное произведение).
Retrieved Token Vectors (Top-K): Набор векторов токенов документов, которые были определены как наиболее похожие на данный вектор токена запроса в процессе первичного извлечения (ANN-поиск).
Query Score: Оценка сходства между одним конкретным токеном запроса и документом-кандидатом. Рассчитывается как максимальное сходство (MaxSim) с извлеченными токенами документа или как Imputed Value.
Imputed Value (Вмененное значение): Значение, используемое в качестве Query Score, если ни один из токенов документа-кандидата не был извлечен (не попал в Top-K) для данного токена запроса. Позволяет избежать дорогостоящих вычислений. Часто определяется как наименьшее значение сходства среди всех Top-K векторов, извлеченных для этого токена запроса.
Relevance Score (Оценка релевантности): Финальная оценка релевантности документа запросу, полученная путем агрегации (например, усреднения) Query Scores по всем токенам запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод эффективного определения релевантных документов (Inference).

Система поддерживает данные, связывающие документы с их Document Token Vectors.
Получает запрос и генерирует Query Token Vectors с помощью Query Encoder.
Для каждого Query Token Vector идентифицирует набор наиболее похожих Document Token Vectors (Top-K).
Идентифицирует кандидатов: документы, которым принадлежит хотя бы один извлеченный вектор.
Генерирует Relevance Score для кандидата путем расчета Query Score для каждого токена запроса:
- Определяет, присутствуют ли векторы данного документа в извлеченном наборе (Top-K) для этого токена запроса.
- Если ДА: Устанавливает Query Score равным наибольшему значению сходства (MaxSim).
Агрегирует Query Scores для получения Relevance Score.
Выбирает релевантные документы на основе Relevance Scores.

Claim 4 (Зависимый от 1): Добавляет критически важный механизм импутации для повышения эффективности.

Если НЕТ (векторы документа отсутствуют в извлеченном наборе Top-K для данного токена запроса): Устанавливает Query Score равным Imputed Value.

Это центральный элемент изобретения. Вместо того чтобы загружать все векторы документа и вычислять точное значение сходства, система использует аппроксимацию (Imputed Value), значительно экономя ресурсы.

Claim 5 (Зависимый от 4): Определяет способ расчета Imputed Value.

Imputed Value определяется как наименьшее значение сходства (Least Similarity Measure Value) между токеном запроса и любым из векторов в извлеченном наборе (Top-K).

Claim 9 (Независимый пункт): Описывает процесс обучения (Training) энкодеров.

Процесс аналогичен Claim 1 (извлечение и оценка), но применяется к обучающим данным для вычисления функции потерь (Objective Function) и обновления параметров Query Encoder и Document Encoder.

Claim 11 (Зависимый от 9): Уточняет расчет оценки во время обучения (критическое отличие от Inference в Claim 4).

В ответ на определение, что ни один из векторов обучающего документа не был извлечен для данного токена запроса, соответствующий Query Score устанавливается в ноль.

Во время обучения импутация не используется. Установка нуля создает сильный сигнал ошибки (высокий loss), заставляя модель учиться так кодировать токены, чтобы релевантные токены попадали в Top-K.

Где и как применяется

Изобретение описывает архитектуру нейронного поиска и затрагивает несколько ключевых этапов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система использует Document Encoder Neural Network для обработки корпуса документов и генерации Document Token Vectors для каждого токена. Эти векторы сохраняются в индексе, оптимизированном для быстрого поиска ближайших соседей (ANN – Approximate Nearest Neighbor search).

QUNDERSTANDING – Понимание Запросов
В реальном времени система использует Query Encoder Neural Network для обработки входящего запроса и генерации Query Token Vectors.

RANKING – Ранжирование (L1 Retrieval и/или L2 Lightweight Ranking)
Это основная область применения патента. Архитектура XTR предназначена для быстрого и точного отбора кандидатов и их первичного ранжирования.

L1 (Retrieval): Система выполняет поиск в индексе для каждого Query Token Vector, чтобы найти Top-K Document Token Vectors. Документы, соответствующие этим векторам, формируют набор кандидатов.
L2 (Scoring/Reranking): Система эффективно рассчитывает Relevance Scores для этих кандидатов, используя механизм MaxSim и Imputed Value, основанный только на уже извлеченных данных.

Входные данные:

Индекс Document Token Vectors (сгенерированный офлайн).
Входящий запрос.

Выходные данные:

Набор релевантных документов с рассчитанными Relevance Scores.

На что влияет

Патент описывает универсальный механизм поиска.

Типы контента и форматы: Применимо ко всем типам контента, которые могут быть закодированы нейронными сетями. В заявке упоминаются текст, изображения, видео, аудио и мультимодальные документы.
Специфические запросы: Влияет на все запросы, где требуется глубокое семантическое понимание для определения релевантности. Особенно эффективно для сложных запросов, требующих точного сопоставления на уровне отдельных концепций (токенов).

Когда применяется

Условия работы: Алгоритм применяется при каждом поисковом запросе в рамках системы, использующей данную архитектуру (XTR), на этапах Retrieval и Scoring (L1/L2). Эффективность метода зависит от качества обученных энкодеров и размера K (количества извлекаемых векторов).

Пошаговый алгоритм

Процесс А: Индексирование (Офлайн)

Кодирование документов: Обработка каждого документа с помощью Document Encoder Neural Network для генерации последовательности Document Token Vectors.
Индексация: Сохранение векторов в базе данных (ANN-индексе), оптимизированной для быстрого поиска сходства.

Процесс Б: Обработка запроса (Inference / Онлайн)

Получение и кодирование запроса: Получение запроса и его обработка с помощью Query Encoder Neural Network для генерации Query Token Vectors.
Извлечение токенов (Token Retrieval): Для каждого Query Token Vector выполняется поиск в индексе для идентификации набора (Top-K) наиболее похожих Document Token Vectors. Запоминаются значения сходства.
Идентификация кандидатов: Формирование набора документов-кандидатов путем объединения всех документов, которым принадлежат извлеченные векторы.
Расчет оценок релевантности (Scoring): Для каждого документа-кандидата и для каждого Query Token Vector вычисляется Query Score:
- Проверка взаимодействия: Определяется, есть ли среди Top-K извлеченных векторов те, что принадлежат данному документу.
- Если ДА (MaxSim): Query Score устанавливается равным максимальному значению сходства среди этих векторов.
- Если НЕТ (Импутация): Query Score устанавливается равным Imputed Value (например, минимальному значению сходства в этом наборе Top-K).
Агрегация: Комбинирование (например, усреднение) всех Query Scores для получения финального Relevance Score документа.
Выбор результатов: Сортировка кандидатов по Relevance Score и предоставление лучших результатов.

Какие данные и как использует

Данные на входе

Патент фокусируется на архитектуре обработки данных и использует векторные представления, генерируемые нейронными сетями.

Контентные факторы: Используется сырой контент документов и запросов (текст, изображения, аудио и т.д.), который токенизируется и подается на вход энкодерам для генерации Token Vectors.

Другие типы факторов (ссылочные, поведенческие, E-E-A-T) в этом патенте не упоминаются. Он описывает механизм расчета семантической релевантности на основе контента.

Какие метрики используются и как они считаются

Similarity Measure (Метрика сходства): Используется для сравнения векторов. Примеры: косинусное сходство, скалярное произведение.
Query Score: Рассчитывается для каждого токена запроса относительно документа. Равен либо MaxSim, либо Imputed Value (в режиме Inference), либо MaxSim или нулю (в режиме Training).
Imputed Value: Вмененное значение. Предпочтительный вариант расчета: минимальное значение сходства в отобранном наборе Топ-K токенов для данного токена запроса.
Relevance Score: Агрегированная оценка. Например, среднее значение Query Scores по всем токенам запроса.

Методы машинного обучения:

Используются нейронные сети архитектуры Трансформер (упомянуты BERT, T5, Gemini) в качестве энкодеров.
Обучение энкодеров происходит совместно (jointly) с использованием функции потерь типа Learning-to-Rank (например, pointwise, pairwise или listwise loss functions, такие как cross-entropy loss).

Выводы

Эффективность как приоритет архитектуры поиска: Патент демонстрирует, как Google решает проблему масштабирования сложных нейросетевых моделей. Архитектура XTR позволяет использовать точность моделей позднего взаимодействия (Late Interaction) при значительно меньших вычислительных затратах (заявлено снижение FLOPS в 4000 раз).
Токен-уровневая релевантность (Token-Level Relevance): Система оценивает релевантность не на уровне всего документа целиком, а через агрегацию взаимодействий отдельных токенов. Это подчеркивает важность точного семантического соответствия на микроуровне (слова и фразы).
Механизм MaxSim и Импутации: Ключевая инновация для Inference — использование Imputed Value вместо реальных вычислений для отсутствующих взаимодействий. Это радикально ускоряет процесс оценки, сохраняя при этом точность.
Обучение, ориентированное на извлечение (Retrieval-Oriented Training): Процесс обучения критически отличается от процесса применения (Inference). Во время обучения отсутствие извлеченных релевантных токенов приводит к нулевой оценке (Claim 11), что штрафует модель и заставляет ее учиться создавать такие эмбеддинги, которые гарантируют попадание релевантных токенов в Top-K.
Усиление роли NLP в ранжировании: Внедрение таких эффективных архитектур позволяет Google применять более глубокий NLP-анализ на более ранних стадиях ранжирования (L1/L2), повышая общую семантическую точность выдачи.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутреннюю архитектуру Google, он подтверждает важность стратегий, ориентированных на нейронный поиск и семантическое соответствие.

Фокус на точности формулировок и терминологии: Поскольку система использует механизм MaxSim (поиск максимального сходства между отдельными токенами), использование точных, релевантных и семантически однозначных терминов в контенте критически важно. Сильное соответствие одного токена может значительно повлиять на общий Relevance Score.
Семантическое обогащение и охват темы: Создавайте контент, который всесторонне раскрывает тему, используя синонимы, связанные сущности и релевантные фразы. Это увеличивает вероятность того, что различные токены документа будут извлечены (попадут в Top-K) для различных токенов запроса.
Оптимизация под Neural Matching: Продолжайте оптимизировать контент, ориентируясь на соответствие интенту пользователя и семантическому контексту, а не на плотность ключевых слов. Модели, используемые в качестве энкодеров (BERT, Gemini), понимают нюансы языка, и архитектура XTR позволяет эффективно использовать это понимание.
Структурирование контента для ясности: Четкая структура и логичное изложение помогают энкодерам генерировать более качественные контекстуализированные векторы токенов, что повышает их шансы быть извлеченными при релевантном запросе.

Worst practices (это делать не надо)

Переспам и неестественное использование ключей (Keyword Stuffing): Модели позднего взаимодействия менее подвержены манипуляциям с плотностью ключей. Попытки «накачать» текст ключевыми словами могут ухудшить качество контекстуализированных эмбеддингов и снизить релевантность.
Вода и размытие темы: Добавление нерелевантного или слабо связанного контента снижает вероятность того, что токены, несущие основной смысл, будут иметь достаточно сильные векторные представления для попадания в Top-K при извлечении.
Игнорирование семантики в пользу формальных метрик: Опора на устаревшие метрики (TF-IDF) без учета семантического контекста неэффективна для систем, использующих подобные архитектуры нейронного поиска.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на повсеместное внедрение нейронного поиска. Архитектура XTR решает проблему масштабируемости, позволяя Google использовать мощь больших языковых моделей для оценки миллиардов документов в реальном времени. Для SEO это означает, что требования к семантическому качеству контента и точности соответствия интенту пользователя будут только возрастать. Способность контента генерировать сильные сигналы сходства на уровне отдельных токенов становится определяющей для прохождения ранних этапов ранжирования (L1/L2).

Практические примеры

Сценарий: Оптимизация статьи для повышения релевантности на уровне токенов

Задача: Повысить ранжирование статьи «Как выбрать треккинговые ботинки» по запросу «лучшая обувь для похода в горы летом».

Анализ взаимодействия токенов (как это видит XTR):

Токен запроса «обувь» может сильно совпадать с токеном статьи «ботинки».
Токен запроса «похода в горы» должен сильно совпадать с токеном статьи «треккинговые» или фразами о горной местности.
Токен запроса «летом» должен иметь сильное соответствие в контенте.

Действия по оптимизации:

Усиление ключевых взаимодействий (MaxSim): Убедиться, что в тексте присутствуют точные термины. Вместо общих фраз типа «они подходят для теплой погоды», использовать более точные: «идеальны для летнего треккинга» или «оптимальная вентиляция для походов летом«. Это увеличит Similarity Measure для токена «летом».
Расширение семантического поля: Добавить термины, связанные с интентом. Использовать слова «поход», «горная местность», «восхождение». Это увеличит вероятность извлечения релевантных токенов для разных частей запроса.
Конкретизация преимуществ: Вместо «хорошее сцепление», использовать «агрессивный протектор Vibram для каменистых троп». Это создает более сильные контекстуализированные эмбеддинги, релевантные горным походам.

Ожидаемый результат: Увеличение значений сходства для отдельных токенов повышает индивидуальные Query Scores. Даже если некоторые токены запроса не найдут соответствия и получат Imputed Value, высокое значение MaxSim по ключевым токенам обеспечит высокий финальный Relevance Score.

Вопросы и ответы

Что такое Contextualized Token Retriever (XTR) и как он связан с BERT или MUM?

XTR — это не сама модель, а архитектура информационного поиска, описанная в патенте. Она определяет, как эффективно использовать выходы (эмбеддинги токенов) из моделей типа BERT, T5 или Gemini (упомянутых в патенте как энкодеры) для расчета релевантности. XTR позволяет использовать глубокое понимание языка, которое обеспечивают эти модели, но делает это значительно быстрее, чем предыдущие подходы (например, ColBERT).

Является ли этот патент новым фактором ранжирования?

Нет, это не новый фактор ранжирования. Это новый метод расчета существующего фактора — семантической релевантности контента запросу. Патент описывает более эффективную архитектуру для выполнения нейронного поиска. Однако, позволяя Google применять более сложные модели на ранних этапах ранжирования, он косвенно повышает важность качества контента и его семантической оптимизации.

Что такое «взаимодействие на уровне токенов» и почему это важно?

Это означает, что система не сравнивает один общий вектор запроса с одним общим вектором документа. Вместо этого она сравнивает каждый токен (слово/часть слова) запроса с токенами документа и затем агрегирует эти взаимодействия. Это позволяет гораздо точнее понять релевантность, улавливая локальные совпадения и нюансы контекста, что критически важно для сложных запросов.

В чем основная инновация этого патента по сравнению с похожими системами (например, ColBERT)?

Основная инновация — в механизме импутации (Imputed Value). Предыдущие системы для расчета точной оценки должны были извлекать все векторы документа-кандидата из индекса и вычислять сходство для каждого из них, что очень медленно. XTR использует только те векторы, которые уже были извлечены на первом этапе (Top-K), а для остальных использует вмененное значение. Это радикально снижает вычислительные затраты.

Что такое Imputed Value и как он рассчитывается?

Imputed Value используется, когда для токена запроса Q ни один из токенов документа D не попал в Top-K. Вместо того чтобы рассчитывать их реальное сходство (что дорого), система присваивает оценку. Обычно это наименьшее значение сходства, которое было зафиксировано среди всех Top-K результатов для токена Q. Это позволяет сохранить эффективность и избежать непредсказуемого смещения оценок.

В чем разница между работой алгоритма во время обучения и во время применения (Inference)?

Ключевое различие заключается в обработке отсутствующих взаимодействий. Во время применения (Inference) используется Imputed Value для повышения эффективности. Во время обучения (Training) оценка устанавливается в ноль (Claim 11). Это сделано специально, чтобы функция потерь штрафовала модель, если она не смогла извлечь релевантные токены в Top-K, заставляя энкодеры учиться лучше.

Как этот патент влияет на SEO-стратегию по созданию контента?

Он усиливает необходимость фокусироваться на точности и семантической глубине. Поскольку оценка основана на максимальном сходстве (MaxSim) отдельных токенов, использование точной терминологии и ясных формулировок становится критически важным. Контент должен быть написан так, чтобы его ключевые смысловые токены имели сильные векторные представления, релевантные целевым запросам.

Влияет ли эта система на ранжирование длинных документов (лонгридов)?

Да. Модели позднего взаимодействия, такие как XTR, хорошо работают с длинными документами, поскольку они оценивают локальные взаимодействия. Лонгрид может быть релевантен запросу, даже если только один его абзац содержит точный ответ. Система идентифицирует сильное сходство токенов в этом абзаце, что внесет значительный вклад в общий Relevance Score документа.

На каком этапе ранжирования применяется этот алгоритм?

Благодаря своей высокой эффективности и точности, архитектура XTR может применяться на ранних стадиях ранжирования. Она может использоваться для первичного отбора кандидатов (L1 Retrieval) или для их переранжирования на этапе L2 (Lightweight Ranking). Это позволяет отсеять нерелевантные документы до того, как они попадут на самые дорогие этапы глубокого ранжирования (L3).

Означает ли этот патент, что традиционные факторы (например, ссылки, E-E-A-T) больше не важны?

Нет. Этот патент описывает только механизм расчета семантической релевантности на основе контента. Он используется для отбора и первичного ранжирования кандидатов (L1/L2). На последующих этапах ранжирования (L3 и Reranking) Google использует сотни других сигналов, включая ссылочный авторитет (PageRank), сигналы качества (E-E-A-T), свежесть, локализацию и т.д., для формирования финальной выдачи.