Как Яндекс оптимизирует хранение и обновление поискового индекса путем дефрагментации чанков и удаления «неактивных» документов

Яндекс патентует метод эффективного обновления поискового индекса, разделенного на сегменты (чанки). Система определяет «активные» (полезные) и «неактивные» (бесполезные) документы на основе поведенческих данных и свежести. Для обновления выбираются чанки с наименьшей долей активных документов. Эти чанки дефрагментируются: неактивные данные удаляются, а новые добавляются, обеспечивая плотное хранение данных и экономя ресурсы.

Описание

Какую задачу решает

Патент решает инфраструктурную задачу эффективного управления ресурсами (хранилище и вычислительные мощности) при обновлении массированного поискового индекса. Он устраняет проблему фрагментации индекса и снижает накладные расходы, связанные с традиционными методами обновления, которые часто требуют поддержания нескольких полных копий индекса. Цель изобретения — оптимизировать процесс добавления новых и удаления устаревших или невостребованных документов, минимизируя использование хранилища.

Что запатентовано

Запатентована система и метод динамического обновления поискового индекса, разделенного на чанки (Chunks). Суть изобретения заключается в селективном выборе чанков для обновления на основе эффективности их использования. Система вычисляет соотношение размера активных документов (Active Documents) к общему размеру чанка и выбирает для обновления (пересборки) те чанки, где это соотношение минимально. Это позволяет эффективно дефрагментировать индекс.

Как это работает

Поисковый индекс разделен на чанки. Документы классифицируются как «активные» (полезные) или «неактивные» (бесполезные) на основе свежести, показов в выдаче и взаимодействий пользователей. При получении запроса на обновление система рассчитывает Ratio (соотношение активного размера к общему размеру после учета планируемых удалений) для затронутых чанков. Выбирается набор чанков с наименьшим Ratio (т.е. наиболее фрагментированные). Эти чанки дублируются во временную область, очищаются от удаляемых документов, а оставшиеся активные документы объединяются с новыми и плотно перераспределяются в этих чанках. Затем оптимизированные чанки заменяют оригинальные в основном индексе.

Актуальность для SEO

Высокая (с точки зрения инфраструктуры). Эффективное управление большими распределенными базами данных и оптимизация хранения являются критически важными задачами для любой крупной поисковой системы для контроля затрат и поддержания скорости обновления индекса.

Важность для SEO

Влияние на SEO низкое (2/10). Это инфраструктурный патент, описывающий, как Яндекс физически организует и обновляет свою базу данных для экономии ресурсов. Он не описывает алгоритмы ранжирования. Однако патент дает критически важное определение «Неактивных документов» (Inactive Documents) — тех, которые не показываются в выдаче или не получают взаимодействий. Это подтверждает, что Яндекс активно управляет жизненным циклом документов в индексе на основе их востребованности.

Детальный разбор

Термины и определения

Active Documents (Активные документы): Документы в индексе, которые считаются «полезными». Критерии полезности включают: недавнее индексирование, недавнее изменение, показ в результатах поиска (SERP) в течение определенного периода времени или получение взаимодействий пользователей выше определенного порога.
Candidate Chunks (Чанки-кандидаты): Временные копии чанков, выбранных для обновления. Создаются в Update Portion для выполнения операций дефрагментации перед заменой оригинальных чанков.
Chunk (Чанк): Сегмент или порция основного поискового индекса (Main Portion). Индекс делится на предопределенное количество (n) чанков.
Inactive Documents (Неактивные документы): Документы, которые считаются бесполезными. Критерии (Claim 12): документы, не получившие взаимодействий пользователей в ответ на любой запрос ИЛИ не показанные в ответ на любой запрос в течение предопределенного периода времени.
Main Portion (Основная часть индекса): «Активная» версия поискового индекса, используемая для ответа на запросы пользователей в реальном времени.
Ratio (Соотношение): Ключевая метрика эффективности чанка. Рассчитывается как отношение обновленного активного размера (Updated Active Size) к обновленному общему размеру (Updated Total Size). Для обновления выбираются чанки с наименьшим Ratio.
Update Portion (Обновляемая часть индекса): Временное хранилище, используемое для подготовки и обработки Candidate Chunks.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обновления индекса, направленной на оптимизацию использования дискового пространства (дефрагментацию).

Claim 1 (Независимый пункт): Описывает основной метод обновления индекса, разделенного на чанки.

Система получает запрос на обновление, включающий удаление первого подмножества документов.
Для каждого чанка, содержащего документы для удаления, вычисляются: Обновленный активный размер ($u’_i$), Обновленный общий размер ($s’_i$) и Соотношение (Ratio = $u’_i / s’_i$).
На основе этого Ratio происходит дублирование подмножества чанков (создание Candidate Chunks).
Candidate Chunks обновляются.
Оригинальные чанки заменяются обновленными Candidate Chunks.

Claim 2, 3, 4 (Зависимые пункты): Описывают механизм дефрагментации при добавлении новых документов (Второе подмножество).

Процесс обновления включает удаление Первого подмножества из Candidate Chunks (Claim 3). Затем (Claim 4) оставшиеся (активные) документы из этих чанков извлекаются и объединяются со Вторым подмножеством (новыми документами). Эта объединенная группа данных затем перераспределяется по (теперь пустым) Candidate Chunks.

Claim 5 (Зависимый пункт): Определяет критерий выбора чанков.

Выбирается предопределенное число (k) чанков, имеющих наименьшее соотношение (lowest ratio). Система целенаправленно выбирает для пересборки наиболее неэффективно используемые сегменты индекса.

Claim 12 (Зависимый пункт): Дает определение неактивных документов.

Неактивные документы — это те, которые либо не получали взаимодействий пользователей, либо не были показаны в выдаче в течение предопределенного периода времени.

Где и как применяется

Изобретение относится к инфраструктуре поиска и применяется на этапе поддержания индекса.

INDEXING – Индексирование и извлечение признаков
Основная область применения. Механизм отвечает за физическое обновление и реорганизацию Search Index Database.

Взаимодействие с другими компонентами:

CRAWLING: Предоставляет данные (новые/обновленные документы), которые формируют запрос на обновление.
RANKING / QUALITY LAYERS / Tracking Server: Предоставляют поведенческие данные (логи показов и взаимодействий), которые необходимы для классификации документов на Active и Inactive.

Входные данные: Запрос на обновление (списки на удаление/добавление); Метаданные индекса (структура чанков, размеры документов); Статус документов (Active/Inactive).

Выходные данные: Реорганизованный поисковый индекс с оптимизированной структурой хранения.

На что влияет

Алгоритм влияет на инфраструктуру, а не на ранжирование.

Эффективность хранения и скорость обновления индекса.
Жизненный цикл документа в индексе: Влияет на то, как быстро бесполезный контент физически удаляется из индекса. Документы, классифицированные как Inactive, являются первыми кандидатами на удаление в процессе дефрагментации.

Патент не указывает на специфическое влияние на типы контента, запросов или ниши.

Когда применяется

Алгоритм применяется во время плановых обновлений поискового индекса.

Триггеры активации: Получение запроса на обновление индекса (например, после краулинга).
Пороговые значения: Размер запроса на обновление (Δ) должен быть ниже предопределенного порога (x). Если запрос больше, он разбивается на несколько последовательных обновлений (Claim 10).
Режим выполнения: Процесс выполняется офлайн (Claim 11), чтобы не влиять на производительность поиска в реальном времени.

Пошаговый алгоритм

Процесс обновления и дефрагментации индекса.

Предварительный этап (Фоновый процесс):
- Система классифицирует документы в индексе как Active или Inactive на основе логов взаимодействий, показов и дат обновления.
Получение Запроса на Обновление:
- Система получает запрос, содержащий список документов для удаления (Первое подмножество) и список для добавления (Второе подмножество). Проверяется порог размера (x).
Идентификация Затронутых Чанков:
- Определяется набор чанков, содержащих документы для удаления.
Вычисление Метрик Обновления:
- Для каждого затронутого чанка рассчитывается состояние *после* удаления: Обновленный активный размер ($u’_i$), Обновленный общий размер ($s’_i$).
- Вычисляется Соотношение: $Ratio_i = u’_i / s’_i$.
Выбор Чанков для Дефрагментации:
- Выбирается k чанков с наименьшим Ratio (наиболее фрагментированные).
Дублирование и Подготовка:
- Выбранные k чанков дублируются во временную область (Update Portion), становясь Чанками-Кандидатами.
Дефрагментация и Заполнение:
- Из Чанков-Кандидатов удаляются документы, отмеченные для удаления.
- Оставшиеся активные документы из этих чанков объединяются с новыми документами (Второе подмножество) в единый пул данных (Δ’).
- Этот пул данных распределяется по k Чанкам-Кандидатам, стремясь к их равномерному заполнению. Целевой размер чанка: $${s»_j} = \frac{{\Delta’}}{k}$$
Замена:
- Оригинальные k чанков в основном индексе (Main Portion) заменяются оптимизированными Чанками-Кандидатами. Метаданные обновляются.

Какие данные и как использует

Данные на входе

Хотя патент инфраструктурный, он использует данные, критически важные для SEO, для определения статуса документов.

Поведенческие факторы: Являются основой для определения полезности документа. Используются данные о взаимодействиях пользователей (user interactions, клики, CTR) с документом в SERP.
Временные факторы: Дата создания, дата модификации и дата последнего показа документа в SERP используются для классификации документов (Active/Inactive).
Системные данные (Показы): Данные о том, был ли документ показан в результатах поиска (presented in response to any query). Отсутствие показов является признаком Inactive статуса (Claim 12).
Технические факторы: Размер документа, ID документа, ID чанка, локация в чанке.

Какие метрики используются и как они считаются

Active Status: Бинарная классификация документа на основе пороговых значений поведенческих и временных факторов.
Active Size ($u_i$) и Total Size ($s_i$): Суммарные размеры документов в чанке i.
Updated Active/Total Size ($u’_i, s’_i$): Прогнозируемые размеры чанка после выполнения операций удаления.
Ratio (Соотношение Эффективности): Основная метрика оптимизации. Рассчитывается по формуле: $$Ratio_i = u’_i / s’_i$$ Алгоритм выбирает чанки с минимальным Ratio для пересборки.
Cost Function (Функция стоимости обновления): Упоминается оптимизация параметров системы (x, k, n) для минимизации стоимости обновления при ограничении на размер временного хранилища (y): $$min \ f(x, k, n) \leq y$$

Выводы

Патент описывает инфраструктуру, а не ранжирование: Основная цель изобретения — оптимизация использования хранилища и ресурсов при обновлении индекса (дефрагментация). Он не содержит информации о факторах ранжирования.
Ключевое понятие — Active vs Inactive документы: Патент четко определяет (Claim 12), что Яндекс классифицирует проиндексированные документы на полезные (Active) и бесполезные (Inactive).
Критерии «Активности» документа: Чтобы документ считался активным, он должен быть либо свежим (недавно обновлен/проиндексирован), либо востребованным (регулярно показываться в SERP или получать достаточное количество кликов).
Поведенческие факторы определяют «жизнь» документа в индексе: Статус Inactive определяется на основе отсутствия пользовательских взаимодействий и показов.
Риск выпадения из индекса: Механизм обновления приоритезирует реорганизацию чанков с большой долей Inactive документов. В ходе этой реорганизации (компактификации) Inactive документы являются первыми кандидатами на физическое удаление из индекса для освобождения места.

Практика

Best practices (это мы делаем)

Хотя патент инфраструктурный, понимание механизма классификации документов дает стратегические инсайты для поддержания здоровья сайта в индексе.

Обеспечение долгосрочной вовлеченности: Необходимо работать над тем, чтобы контент постоянно привлекал трафик и генерировал позитивные поведенческие сигналы (клики). Это гарантирует статус Active и снижает риск удаления документа при дефрагментации индекса.
Регулярная актуализация контента: Обновление контента является одним из критериев Active документа. Поддержание свежести информации помогает сохранить документ в активном индексе.
Мониторинг страниц без трафика/показов: Необходимо регулярно выявлять страницы, которые перестали получать показы или клики. Согласно патенту (Claim 12), такие страницы классифицируются как Inactive. Требуется принятие решений по их оптимизации или удалению.
Борьба с «Zombie Pages»: Активно аудировать и удалять или перерабатывать страницы, которые не несут ценности и не генерируют трафик.

Worst practices (это делать не надо)

Создание большого количества низкокачественных страниц (Thin Content): Генерация страниц, которые не имеют потенциала для получения трафика и взаимодействий. Они быстро перейдут в статус Inactive и станут кандидатами на удаление из индекса.
Игнорирование устаревшего контента: Публикация контента и отсутствие дальнейшей работы над ним (обновление, улучшение). Со временем вовлеченность падает, и страница становится неактивной.
Фокус только на индексации без учета качества: Добиваться индексации страниц, не заботясь об их дальнейшей востребованности. Индексация не гарантирует долгосрочного присутствия в базе, если нет сигналов активности.

Стратегическое значение

Патент подтверждает, что Яндекс рассматривает свой индекс как динамическую базу данных, где приоритет отдается хранению полезных (Active) документов. Система активно управляет жизненным циклом документов, избавляясь от балласта. Для SEO это означает, что поддержание присутствия в индексе требует непрерывной демонстрации ценности контента через пользовательские сигналы и актуальность. Стратегия управления жизненным циклом контента (Content Lifecycle Management) становится необходимостью.

Практические примеры

Сценарий: Классификация документа как Inactive и его удаление

Контент: На сайте опубликована статья о событии 2018 года. В 2018 году она была Active (много трафика).
Угасание интереса (2025 год): Событие потеряло актуальность. Пользователи перестали искать эту информацию. Статья не обновлялась.
Анализ Яндекса: Система фиксирует, что за последний длительный период документ не показывался в SERP и не получал кликов.
Классификация: Документ классифицируется как Inactive.
Обновление Индекса: При следующей дефрагментации чанк, содержащий эту статью (и, возможно, другие неактивные документы), получает низкий Ratio и выбирается для пересборки.
Результат: Статья физически удаляется из индекса для освобождения места под новые, активные документы.

Вопросы и ответы

Что самое важное в этом патенте для SEO-специалиста?

Самое важное — это четкое определение понятий «Активный» (Active) и «Неактивный» (Inactive) документ (Claim 12). Патент описывает механизм, который стремится оптимизировать хранение, удаляя неактивные документы. Это дает понимание критериев, по которым Яндекс определяет «полезность» страницы для своего индекса.

По каким критериям документ считается «Активным» (Active)?

Согласно патенту, документ считается активным, если он соответствует одному или нескольким критериям: был недавно проиндексирован или изменен (свежесть); регулярно показывался в результатах поиска (SERP) в течение определенного периода времени; получил количество пользовательских взаимодействий (например, кликов) выше установленного порога (востребованность).

Что происходит с документом, если он классифицирован как «Неактивный» (Inactive)?

Такие документы становятся балластом в индексе. Алгоритм обновления индекса приоритетно выбирает сегменты (чанки) с большим количеством неактивных документов для реорганизации и компактификации. В процессе этой оптимизации Inactive документы являются первыми кандидатами на физическое удаление из индекса для освобождения места.

Влияет ли этот патент на ранжирование?

Нет, напрямую этот патент не влияет на ранжирование. Он описывает процесс оптимизации хранения данных (дефрагментацию базы данных), а не алгоритмы расчета релевантности. Однако, если документ будет удален из индекса из-за своего неактивного статуса, он перестанет ранжироваться вообще.

Что такое «Чанк» (Chunk) и зачем он нужен?

Чанк — это сегмент поискового индекса. Разделение огромного индекса на меньшие части (чанки) позволяет обновлять их независимо друг от друга. Это ключевой элемент патента: вместо пересборки всего индекса Яндекс может эффективно обновить только несколько выбранных чанков, экономя ресурсы.

Зачем Яндекс выбирает чанки с наименьшим соотношением (Ratio) активных документов?

Чанки с низким Ratio наименее эффективно используют дисковое пространство (в них много неактивных данных или пустого места после удалений). Выбирая их, система может извлечь полезные (Active) данные, удалить бесполезные (Inactive) и плотно переупаковать чанк новыми данными, тем самым выполняя компактификацию индекса.

Как я могу гарантировать, что мои документы останутся в статусе Active?

Необходимо обеспечить постоянные сигналы активности. Это достигается путем регулярного обновления контента (свежесть), обеспечения релевантности страниц актуальным запросам (показы в SERP) и оптимизации поведенческих факторов (работа над CTR сниппетов и вовлеченностью), чтобы получать клики.

Стоит ли беспокоиться, если у сайта много проиндексированных страниц с нулевым трафиком?

Да, определенно стоит. Согласно логике патента и определению в Claim 12, страницы без взаимодействий (кликов) и показов будут классифицированы как Inactive. Это создает высокий риск их выпадения из индекса в ходе следующего цикла оптимизации хранения.

Если моя страница получила показы, но не получила кликов, она считается Active или Inactive?

Согласно Claim 12, неактивными считаются документы, которые не получили взаимодействий пользователей. Если страница показывается, но систематически не получает кликов (низкий CTR), она будет классифицирована как Inactive. Это подчеркивает важность оптимизации сниппетов.

Происходит ли это обновление индекса в реальном времени?

Нет. В патенте (Claim 11) указано, что эти процессы выполняются офлайн. Обновление происходит в отдельном временном хранилище (Update Portion). Только после завершения пересборки обновленные чанки заменяют старые в основном индексе (Main Portion), что гарантирует стабильность работы поиска.