Как Яндекс использует векторную кластеризацию документов (Semantic Sharding) для ускорения поиска и организации индекса

Яндекс патентует метод оптимизации хранения и поиска документов (Semantic Sharding). Система использует машинное обучение (нейросеть) для генерации векторов документов и запросов так, чтобы их близость отражала релевантность. Документы с похожими векторами физически группируются в кластеры (шарды) в базе данных. При поступлении запроса система ищет документы только в ближайшем кластере, что радикально ускоряет первичный отбор кандидатов.

Описание

Какую задачу решает

Патент решает инфраструктурную задачу ускорения поиска по огромной базе документов. Основная проблема — необходимость быстрого отбора релевантных кандидатов (Retrieval) без сравнения запроса с миллиардами документов, что требует слишком много времени и ресурсов. Система направлена на сокращение времени отклика и снижение нагрузки на серверы баз данных за счет уменьшения количества серверов (шардов), к которым нужно обращаться при выполнении запроса.

Что запатентовано

Запатентован метод хранения документов, основанный на их семантической близости, определяемой через векторные представления (Document Vectors). Суть изобретения — использование алгоритма машинного обучения (MLA), обученного предсказывать релевантность, для генерации этих векторов. Документы кластеризуются (например, с помощью K-means) на основе близости их векторов и физически хранятся в группах (shards), соответствующих этим кластерам. Каждая группа представлена Group Vector (центроидом).

Как это работает

Система работает в два этапа. Сначала MLA (часто нейросеть с архитектурой из двух частей: для запросов и для документов) обучается так, чтобы близость (Proximity Value) между вектором запроса и вектором документа соответствовала их оценке релевантности (Relevance Score). Затем все документы в индексе векторизуются и группируются в кластеры. В момент поиска система генерирует вектор входящего запроса, быстро сравнивает его с небольшим количеством Group Vectors (центроидами кластеров) и определяет ближайший кластер (Target Group). Поиск релевантных документов выполняется только внутри этого целевого кластера, игнорируя остальную часть индекса.

Актуальность для SEO

Высокая. Векторный поиск, использование эмбеддингов, двухбашенные нейросетевые архитектуры (Two-Tower Models / Dual Encoder) и кластеризация для быстрого приближенного поиска ближайших соседей (ANN – Approximate Nearest Neighbor search) являются основой современных поисковых систем, включая Яндекс. Описанный метод организации индекса и ускорения стадии Retrieval критически важен для работы поиска в реальном времени.

Важность для SEO

Влияние на SEO значительно (7/10), но фундаментальное. Патент описывает не алгоритм ранжирования, а инфраструктуру поиска (Retrieval/L1). Однако он подтверждает, что вся база Яндекса организована в виде семантических кластеров, основанных на векторах. Если документ семантически далек от запроса, он может быть полностью исключен из рассмотрения на самом первом этапе, так как физически находится в другом кластере, который не будет сканироваться. Это подчеркивает критическую важность семантического соответствия контента интенту пользователя.

Детальный разбор

Термины и определения

Document Vector (Вектор документа): Численное представление (эмбеддинг) документа, сгенерированное алгоритмом машинного обучения (MLA). Генерируется на основе данных документа (текст, статистика и т.д.).
Group Vector (Вектор группы): Вектор, представляющий группу (кластер) документов. Обычно является центроидом, рассчитанным на основе векторов документов, входящих в эту группу (например, с помощью K-means).
K-means-type algorithm (Алгоритм типа K-means): Алгоритм кластеризации, используемый для разделения множества векторов документов на K групп на основе их близости и определения центроидов (Group Vectors) для каждой группы.
Machine Learning Algorithm (MLA) / Neural Network (NN) (Алгоритм машинного обучения / Нейронная сеть): Модель, обученная генерировать векторы для запросов и документов. В патенте часто упоминается как нейронная сеть (NN).
Proximity Value (Значение близости): Метрика, определяющая расстояние (векториальную дистанцию) между двумя векторами (например, между вектором запроса и вектором документа). Может быть скалярным произведением, Евклидовым расстоянием и т.д.
Query Vector (Вектор запроса): Численное представление (эмбеддинг) поискового запроса, сгенерированное MLA на основе данных запроса.
Relevance Score (Оценка релевантности): Эталонное значение, указывающее, насколько документ релевантен запросу. Используется как целевая переменная при обучении MLA. Может быть получено от асессоров или на основе поведения пользователей.
Shard (Шард): Физический или логический раздел базы данных. В контексте патента шард хранит одну группу (кластер) семантически близких документов.
Target Group / Target Shard (Целевая группа / Целевой шард): Группа документов (или шард, хранящий ее), чей Group Vector оказался наиболее близок к вектору текущего запроса. Поиск выполняется только в этой группе.

Ключевые утверждения (Анализ Claims)

Патент защищает метод организации хранения данных, который оптимизирует процесс поиска за счет предварительной кластеризации документов на основе их векторных представлений, полученных с помощью специально обученного MLA.

Claim 1 (Независимый пункт): Описывает основной метод хранения документов.

Сервер получает данные о множестве документов.
Для каждого документа генерируется Document Vector с помощью MLA.
Критически важно: MLA предварительно обучен на парах (запрос, документ) с известной оценкой релевантности (Relevance Score). Обучение проводится так, чтобы близость (Proximity Value) между вектором тренировочного запроса и вектором тренировочного документа представляла эту оценку релевантности.
Документы сохраняются в базе данных в виде групп.
Каждая группа ассоциирована с Group Vector.
В данную группу входят документы, чьи векторы находятся в пространственной близости к этому Group Vector.

Claim 6 (Зависимый от 5): Уточняет метод группировки.

Группировка документов осуществляется путем применения алгоритма типа K-means к векторам документов. Это определяет Group Vectors (центроиды) и состав соответствующих групп.

Claim 7 (Зависимый от 1): Описывает процесс использования этой структуры хранения для поиска.

Сервер получает текущий запрос и данные о нем.
С помощью того же MLA генерируется Current Query Vector.
Определяется Group Vector, наиболее похожий (близкий) к Current Query Vector. Этот вектор указывает на целевую группу документов (Target Group).
Сервер обращается к базе данных для извлечения документов именно из этой Target Group.

Claim 8 (Зависимый от 7): Ключевое утверждение об эффективности.

При доступе к базе данных сервер НЕ извлекает документы из других групп, кроме Target Group.

Claim 9 (Зависимый от 1): Уточняет физическое хранение.

База данных разделена на шарды (shards). Группы документов хранятся как соответствующие шарды, каждый из которых ассоциирован со своим Group Vector.

Claim 18 (Зависимый от 1): Уточняет архитектуру MLA.

MLA является нейронной сетью (NN), состоящей из двух частей: Document-dedicated portion (для генерации векторов документов) и Query-dedicated portion (для генерации векторов запросов). Обе части обучаются совместно (trained together), чтобы максимизировать корреляцию между близостью векторов и оценкой релевантности. (Это архитектура типа DSSM или Dual Encoder).

Где и как применяется

Изобретение затрагивает инфраструктуру хранения данных и начальный этап ранжирования.

INDEXING – Индексирование и извлечение признаков

На этом этапе происходят ключевые офлайн-процессы:

Векторизация документов: После скачивания и парсинга документа, его данные используются для генерации Document Vector с помощью Document-dedicated portion обученного MLA.
Кластеризация: Все полученные векторы документов обрабатываются алгоритмом (например, K-means) для разделения на K групп и определения Group Vectors (центроидов).
Физическое хранение (Sharding): Документы физически сохраняются в базе данных в виде шардов, соответствующих этим группам. Создается маппинг между Group Vector и сервером, хранящим шард.

QUERY PROCESSING – Понимание Запросов

При получении запроса система использует Query-dedicated portion того же MLA для генерации Query Vector в реальном времени.

RANKING – Ранжирование (Уровень L1 / Retrieval)

Это основная область применения патента в процессе поиска. Система использует описанную структуру для радикального ускорения поиска кандидатов (Retrieval).

Поиск ближайшего кластера: Сгенерированный Query Vector сравнивается со всеми Group Vectors.
Выбор целевого шарда: Определяется ближайший Group Vector и соответствующий ему Target Shard.
Отбор кандидатов: Система обращается только к серверу, хранящему Target Shard, и извлекает документы из него. Эти документы становятся кандидатами для последующих стадий ранжирования (L2, L3).

На что влияет

Эффективность и скорость поиска: Основное влияние оказывается на скорость ответа системы за счет сокращения пространства поиска.
Отбор кандидатов (Retrieval): Механизм определяет, какие документы вообще будут рассматриваться для ранжирования. Документы, попавшие в кластеры, далекие от вектора запроса, не будут извлечены.
Все типы контента и запросов: Механизм универсален и применяется ко всей базе документов и всем типам запросов, так как описывает базовую инфраструктуру индекса.

Когда применяется

Алгоритм применяется при обработке практически каждого поискового запроса на этапе первичного отбора кандидатов (L1 Ranking/Retrieval).

Офлайн-процессы (обучение, векторизация и кластеризация) выполняются периодически по мере обновления индекса и моделей.

Пошаговый алгоритм

Процесс А: Офлайн подготовка индекса (Хранение)

Обучение MLA: Обучение модели (NN) на парах (запрос, документ) с известными оценками релевантности. Цель — научить модель генерировать векторы так, чтобы их близость отражала релевантность. Модель состоит из двух частей (для запросов и для документов), которые обучаются совместно.
Получение данных документов: Сбор данных (текст, статистика и т.д.) для всех документов в индексе.
Векторизация: Генерация Document Vector для каждого документа с использованием части MLA, предназначенной для документов.
Кластеризация: Применение алгоритма K-means к множеству векторов документов для разделения их на K групп.
Определение центроидов: Расчет Group Vector (центроида) для каждой из K групп.
Шардирование и Хранение: Физическое сохранение документов в базе данных, где каждая группа хранится как отдельный шард, ассоциированный со своим Group Vector. Создание карты хранения (mapping).

Процесс Б: Онлайн обработка запроса (Поиск)

Получение запроса: Система получает текущий запрос от пользователя.
Векторизация запроса: Генерация Query Vector в реальном времени с использованием части MLA, предназначенной для запросов.
Сравнение с центроидами: Расчет близости между Query Vector и каждым из K Group Vectors.
Выбор целевого шарда: Идентификация Group Vector с максимальной близостью (минимальным расстоянием) и определение соответствующего Target Shard.
Извлечение кандидатов: Обращение к серверу, хранящему Target Shard, и извлечение документов из него.
Ограничение поиска: Документы из других шардов на этом этапе не извлекаются и не рассматриваются (Claim 8).
Дальнейшее ранжирование: Извлеченные документы передаются на следующие уровни ранжирования (L2, L3).

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для обучения MLA и генерации векторов.

Данные для обучения (Training Data):
- Пары (Запрос, Документ).
- Relevance Score для каждой пары (эталонная релевантность).
Данные Документов (Document Data): Используются для генерации Document Vectors. В патенте упоминаются (но не ограничиваются ими):
- Контентные (Текстовые) факторы: Текст документа, заголовки.
- Поведенческие/Статистические факторы: Популярность документа, CTR, время на документе (time-per-click).
- Внутренние характеристики: Размер документа и т.д.
Данные Запросов (Query Data): Используются для генерации Query Vectors. В патенте упоминаются:
- Контентные (Текстовые) факторы: Текст запроса.
- Поведенческие/Статистические факторы: Популярность запроса, частота, количество кликов.
Пользовательские факторы: Географическое положение устройства пользователя может использоваться для выбора ближайшего сервера базы данных, если шард продублирован на нескольких серверах.

Какие метрики используются и как они считаются

Векторные представления (Sub-vectors): Перед подачей в MLA сырые данные обрабатываются различными векторизационными моделями. Упоминаются DSSM (Deep Structured Semantic Models), bag-of-words, Word2vec, Sent2vec. Они преобразуют текст и статистику в промежуточные векторы (sub-vectors).
Document/Query Vectors: Генерируются MLA (Нейронной сетью) на основе промежуточных векторов.
Proximity Value (Близость): Метрика расстояния между векторами. Упоминаются Euclidian distance (Евклидово расстояние) и scalar product (скалярное произведение).
Group Vectors (Центроиды): Рассчитываются как центр масс кластера векторов документов с помощью алгоритма K-means.
Алгоритмы машинного обучения: Используется Neural Network (NN), обучаемая с помощью стандартных методов (например, упоминается backpropagation) для оптимизации близости векторов относительно оценки релевантности. Также упоминается возможность использования линейных моделей.

Выводы

Индекс Яндекса организован как семантическая карта (Semantic Sharding): Патент подтверждает, что физическая структура хранения данных в Яндексе основана на семантической близости документов. Документы не хранятся случайно; они сгруппированы в кластеры (шарды) по темам и интентам.
Векторные представления определяют структуру хранения: Основой для группировки являются векторы (эмбеддинги), сгенерированные моделью машинного обучения. Эта модель обучена на реальных данных о релевантности (поведение пользователей, оценки асессоров).
Радикальное сужение поиска на первом этапе (Retrieval): Ключевой механизм оптимизации заключается в том, что при запросе система обращается только к одному (или нескольким ближайшим) кластерам документов, игнорируя большую часть индекса.
Критичность правильной семантической классификации: Если контент документа приводит к генерации вектора, который попадает в «неправильный» семантический кластер, он рискует никогда не быть найденным по релевантным запросам, так как система просто не будет сканировать этот участок базы данных на этапе L1.
Подтверждение использования Two-Tower моделей (Dual Encoder): Патент явно описывает архитектуру, где запросы и документы обрабатываются отдельными частями нейросети (хотя и обучаются вместе), что является стандартом для современных систем семантического поиска (например, DSSM-подобные модели).

Практика

Best practices (это мы делаем)

Хотя патент описывает внутреннюю инфраструктуру, он дает важное понимание того, как организован индекс, что влияет на долгосрочную SEO-стратегию.

Фокус на Topical Authority и семантическую когерентность: Создавайте контент, который четко сфокусирован на определенной теме. Это увеличивает вероятность того, что вектор документа будет находиться в центре релевантного семантического кластера, а не на его периферии.
Обеспечение четких сигналов об интенте: Используйте ясный язык, релевантные термины (QBST фразы) и структуру, которые помогают поисковой системе правильно интерпретировать интент документа. Это критично для генерации корректного вектора и попадания в нужный кластер хранения.
Максимизация позитивных поведенческих сигналов (Косвенно): Поскольку MLA, генерирующий векторы, обучается на оценках релевантности (Relevance Score), которые часто основаны на поведении пользователей, крайне важно максимизировать позитивные сигналы (CTR, вовлеченность). Хорошее поведение подтверждает релевантность и влияет на то, как модель будет векторизовать похожий контент в будущем.
Создание контента для покрытия кластера запросов: Убедитесь, что страница полностью отвечает на интент, связанный с целым кластером семантически близких запросов. Это укрепляет позицию документа внутри соответствующего кластера в индексе Яндекса.

Worst practices (это делать не надо)

Создание «размытого» или смешанного контента: Попытка охватить слишком много разных тем или интентов на одной странице может привести к генерации «усредненного» вектора, который окажется на границе нескольких кластеров или не будет сильно связан ни с одним из них. Это ухудшает шансы на извлечение документа на этапе Retrieval.
Игнорирование семантики и фокус только на ключевых словах: Текстовая оптимизация под ключевые слова без учета семантического контекста неэффективна. Система оперирует векторами смысла. Если вектор документа не близок к вектору запроса, документ не будет извлечен из хранилища, даже если содержит ключевые слова.
Манипуляции поведенческими факторами: Накрутка ПФ может временно улучшить Relevance Score, но создает шум в обучающих данных для MLA. При обнаружении это ведет к пессимизации и долгосрочному недоверию к сигналам сайта.

Стратегическое значение

Патент имеет высокое стратегическое значение, так как описывает фундамент семантического поиска Яндекса — организацию индекса и механизм первичного отбора кандидатов. Он подтверждает переход от индекса, основанного на терминах (inverted index), к индексу, основанному на векторах (vector index). Для SEO это означает, что семантическое соответствие и качество контента являются не просто факторами ранжирования, а входным билетом для того, чтобы документ вообще был рассмотрен поисковой системой.

Практические примеры

Сценарий: Оптимизация статьи для попадания в нужный кластер

Задача: Написать статью о «выборе треккинговых ботинок для летних походов».
Анализ (с учетом патента): Мы понимаем, что в индексе Яндекса существуют разные кластеры: «Альпинистское снаряжение», «Повседневная обувь», «Треккинг и туризм». Наша цель — попасть в центр кластера «Треккинг и туризм».
Действия:
- Использовать специфическую терминологию кластера: «мембрана Gore-Tex», «подошва Vibram», «фиксация голеностопа», «вентиляция», «легкий треккинг».
- Избегать терминов, смещающих вектор в сторону других кластеров: не углубляться в «восхождение на Эльбрус» (смещение к альпинизму) или «модные кроссовки для города» (смещение к повседневной обуви).
Результат: MLA генерирует вектор, который четко помещает документ в кластер «Треккинг и туризм». Когда пользователь вводит запрос «легкие ботинки для похода летом», его вектор запроса указывает на этот же кластер. Система обращается к соответствующему шарду и извлекает нашу статью как кандидата для ранжирования.

Вопросы и ответы

Что такое Group Vector и почему он важен?

Group Vector — это центроид (усредненный вектор) кластера документов, которые семантически похожи друг на друга. Он является представителем всей группы. Вместо того чтобы сравнивать вектор запроса с миллиардами векторов документов, система сравнивает его только с тысячами Group Vectors. Это позволяет мгновенно определить, в каком участке индекса (кластере) нужно искать ответ, что радикально ускоряет поиск.

Как Яндекс определяет, какие документы попадут в одну группу (кластер)?

Яндекс использует алгоритм машинного обучения (MLA), который генерирует вектор (эмбеддинг) для каждого документа на основе его содержания и характеристик. Затем применяется алгоритм кластеризации (в патенте упоминается K-means), который группирует документы так, чтобы векторы внутри одной группы были максимально близки друг к другу, а разные группы были максимально удалены друг от друга.

Что определяет качество векторов документов (Document Vectors)?

Качество векторов определяется тем, как был обучен MLA. Модель обучается на парах (запрос, документ) с известной оценкой релевантности (Relevance Score). Цель обучения — сделать так, чтобы у релевантных пар векторы были близки, а у нерелевантных — далеки. Таким образом, качество вектора напрямую зависит от способности модели понимать семантику и предсказывать релевантность.

Означает ли этот патент, что если мой документ попал в «неправильный» кластер, его никогда не найдут?

Да, это значительный риск. Патент утверждает (Claim 8), что система извлекает документы только из целевой группы (Target Group), ближайшей к запросу, и не извлекает документы из других групп. Если ваш документ о треккинговых ботинках попал в кластер повседневной обуви, то по запросу о треккинге система может просто не сканировать тот шард, где лежит ваш документ, исключив его из ранжирования на самом первом этапе (L1).

Как убедиться, что мой контент попадает в правильный семантический кластер?

Необходимо обеспечивать высокую семантическую когерентность контента. Используйте четкую и релевантную терминологию (QBST фразы), полностью раскрывайте тему и избегайте смешивания разных интентов на одной странице. Фокусировка на создании Topical Authority помогает гарантировать, что ваши документы формируют плотный и правильный кластер в векторном пространстве Яндекса.

Патент упоминает Two-Tower модель (две части NN). Что это значит для SEO?

Это архитектура (также известная как Dual Encoder или DSSM-подобная), где одна часть сети обрабатывает только запросы (Query-dedicated portion), а другая — только документы (Document-dedicated portion). Для SEO это означает, что система оценивает релевантность не прямым сравнением текста запроса и документа, а сравнением их смысловых векторов в общем пространстве. Это еще раз подчеркивает важность семантики над простым вхождением ключевых слов.

Влияет ли этот механизм на ранжирование внутри найденного кластера?

Патент не описывает ранжирование внутри кластера. Он фокусируется только на этапе Retrieval — быстром поиске нужного кластера и извлечении документов из него. После того как документы извлечены, они передаются на следующие уровни ранжирования (L2, L3), где вступают в игру сотни других факторов (CatBoost, YATI, поведенческие, Proxima и т.д.).

Может ли документ находиться сразу в нескольких кластерах?

В основном описании используется K-means, который предполагает жесткую кластеризацию. Однако в патенте (Paras-[0223]) упоминается возможность «дополнения группы» (group supplementation procedure), если вектор документа находится близко к центроиду соседнего кластера. Это означает, что группы могут быть не взаимоисключающими, и документ на границе тем может храниться в нескольких шардах.

Как поведенческие факторы влияют на эту систему?

Они влияют фундаментально, но косвенно. Поведенческие факторы (клики, CTR, вовлеченность) часто используются для определения эталонной оценки релевантности (Relevance Score), которая, в свою очередь, используется для обучения MLA. Таким образом, ПФ обучают модель, которая затем генерирует векторы и определяет всю структуру хранения индекса.

Патент упоминает Word2Vec и DSSM. Значит ли это, что Яндекс не использует BERT/YATI для этой задачи?

Word2Vec и DSSM упомянуты как примеры векторизационных моделей. Патенты часто используют общие или более старые примеры для иллюстрации концепции. Учитывая время подачи заявки и текущее развитие технологий Яндекса, крайне вероятно, что для генерации этих эмбеддингов используются более современные и мощные трансформерные модели, такие как YATI, поскольку они обеспечивают лучшее понимание семантической близости текстов.