Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс оптимизирует обновление поискового индекса, определяя и удаляя «неактивные» документы

    СПОСОБ И СИСТЕМА ДЛЯ ОБНОВЛЕНИЯ БАЗЫ ДАННЫХ ПОИСКОВОГО ИНДЕКСА (METHOD AND SYSTEM FOR UPDATING SEARCH INDEX DATABASE)
    • RU2733482C2
    • Yandex LLC
    • 2020-10-01
    • 2018-11-16
    2020 Антикачество Индексация Патенты Яндекс Поведенческие факторы

    Яндекс патентует метод эффективного обновления поискового индекса, разделенного на части (шарды). Система классифицирует документы как «активные» (используемые в поиске) и «неактивные» (невостребованные). При обновлении приоритетно выбираются и перестраиваются те части индекса, где доля неактивных документов максимальна. Это позволяет экономить ресурсы и систематически очищать индекс от контента, который не показывается в выдаче или не получает кликов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу снижения вычислительных затрат и ресурсов хранения при обновлении массивной базы данных поискового индекса. Он устраняет неэффективность, связанную с необходимостью полного перестроения индекса или поддержания его полных резервных копий во время обновления. Ключевая задача — обеспечить динамическое обновление индекса (добавление новых и удаление старых документов) в условиях ограниченных ресурсов, одновременно проводя очистку индекса от «мертвого груза» — невостребованных документов.

    Что запатентовано

    Запатентована система динамического и частичного обновления поискового индекса, разделенного на множество частей (шардов или партиций). Суть изобретения заключается в методе выбора частей для перестроения. Выбор основывается на соотношении размера «активных» документов к общему размеру части. Приоритет отдается частям с наименьшим соотношением, то есть с наибольшей долей неактивного контента.

    Как это работает

    Поисковый индекс разделен на части. Документы внутри каждой части классифицируются как Активные или Неактивные на основе истории их использования (показы в SERP, клики). При получении запроса на обновление система анализирует затронутые части и вычисляет, в каких из них будет наименьшее соотношение активного контента к общему объему. Эти части копируются, полностью перестраиваются (очищаются от неактивных и удаляемых документов), заполняются оставшимися активными и новыми документами, после чего замещают оригинальные части в живом индексе.

    Актуальность для SEO

    Высокая. Эффективное управление гигантскими базами данных и инкрементальное обновление индекса являются фундаментальными задачами для всех крупных поисковых систем. Принципы шардинга (разделения на части) и оптимизации ресурсов, описанные в патенте, соответствуют современным практикам управления инфраструктурой поиска.

    Важность для SEO

    Влияние на SEO умеренное (4/10). Патент описывает внутренние инфраструктурные процессы Яндекса, направленные на эффективность. Однако он критически важен для понимания управления индексом. Патент раскрывает конкретный механизм, с помощью которого Яндекс идентифицирует и систематически удаляет «Неактивные документы» — те, которые не показываются в выдаче или не получают взаимодействий. Это подчеркивает, что для сохранения присутствия в индексе контент должен поддерживать актуальность и вовлеченность.

    Детальный разбор

    Термины и определения

    Активные документы (Набор активных документов)
    Документы в части индекса, которые считаются «полезными». Критерии полезности включают недавнее индексирование, недавнюю модификацию, показ в результатах поиска или получение пользовательских взаимодействий (кликов) выше определенного порога за установленный период времени.
    Активный размер (Active Size, $U_i$)
    Суммарный размер всех активных документов в данной части индекса i.
    Главная доля (Main Portion)
    Часть устройства хранения, содержащая «активную» (live) версию поискового индекса, используемую для обслуживания запросов в реальном времени.
    Доля обновления (Update Portion)
    Временное хранилище (может быть в оперативной памяти), используемое для построения и обновления частей-кандидатов. Имеет ограниченный размер (Y).
    Неактивные документы (Набор неактивных документов)
    Документы, которые считаются неактивными или бесполезными. Критерии включают отсутствие недавних обновлений, отсутствие показов в результатах поиска или недостаточное количество пользовательских взаимодействий за установленный период времени.
    Общий размер (Total Size, $S_i$)
    Общий размер всех документов (активных и неактивных) в данной части индекса i.
    Соотношение Активности (Activity Ratio)
    Метрика, рассчитываемая как отношение обновленного активного размера части к ее обновленному общему размеру ($U’_i / S’_i$). Используется для определения наименее эффективных частей индекса.
    Части (Parts/Шарды)
    Логические или физические разделы (партиции), на которые разделен поисковый индекс для управляемости и масштабируемости.
    Части-кандидаты (Candidate Parts)
    Копии выбранных частей индекса, созданные в Доле обновления. В них происходит процесс удаления старых и добавления новых документов (пересборка) перед заменой оригинальных частей.

    Ключевые утверждения (Анализ Claims)

    Патент описывает способ оптимизации ресурсов при обновлении индекса путем выборочного перестроения его частей.

    Claim 1 (Независимый пункт): Описывает основной процесс обновления.

    1. Система получает запрос на обновление, включающий удаление первого подмножества документов.
    2. Для каждой части индекса, содержащей удаляемые документы, вычисляются:
      • Обновленный активный размер.
      • Обновленный общий размер.
      • Соотношение обновленного активного размера к обновленному общему размеру.
    3. На основе этого соотношения создается копия подмножества частей (формируются части-кандидаты).
    4. Части-кандидаты обновляются.
    5. Оригинальные части замещаются обновленными частями-кандидатами.

    Claim 5 (Зависимый пункт): Определяет критически важный критерий выбора.

    Подмножество частей-кандидатов включает заранее определенное количество частей (k), обладающих наименьшим соотношением (активного размера к общему). Это означает, что система целенаправленно выбирает для перестроения те части индекса, которые содержат наибольшую долю «мертвого груза» (неактивных документов).

    Claims 3 и 4 (Зависимые пункты): Детализируют процесс обновления (пересборки), когда обновление включает добавление второго подмножества документов.

    1. Из частей-кандидатов удаляются документы первого подмножества (Claim 3).
    2. Ключевой шаг (Claim 4): Все оставшиеся документы (подразумевается, что это активные документы) в частях-кандидатах добавляются ко второму подмножеству (документы для добавления).
    3. Это объединенное (новое + оставшиеся активные) подмножество распределяется по частям-кандидатам (Claim 3). Фактически, выбранные части полностью перестраиваются и заполняются только активным контентом.

    Claim 12 (Зависимый пункт): Определяет критерии неактивности.

    Неактивные документы определяются как документы, с которыми не было пользовательских взаимодействий ИЛИ которые не были представлены (показаны в SERP) в ответ на любой запрос в течение заранее определенного периода времени.

    Где и как применяется

    Изобретение применяется на инфраструктурном уровне управления поисковой базой данных.

    INDEXING – Индексирование и извлечение признаков
    Это основной слой применения патента. Процесс управляет тем, как данные физически хранятся, структурируются и обновляются в базе данных поискового индекса.

    Взаимодействие компонентов:

    • Сервер индексации (Indexer Server): Выполняет алгоритм. Он получает данные от поисковых роботов и управляет структурой индекса.
    • Сервер отслеживания (Tracking Server): Предоставляет данные о взаимодействиях пользователей и показах в SERP. Эта информация критически важна для классификации документов на Активные и Неактивные.
    • Сервер поисковой системы (Search Engine Server): Использует Главную долю индекса для обслуживания запросов и генерирует данные о показах документов.

    На что влияет

    • Инклюзия в индекс: Основное влияние патента — не на ранжирование, а на само присутствие документа в индексе. Механизм систематически удаляет невостребованный контент.
    • Типы контента: Влияет на все типы контента. Наиболее уязвимы страницы, которые редко обновляются, редко показываются в поиске или имеют низкие поведенческие метрики (например, устаревшие статьи, товары, снятые с производства, некачественные страницы на больших сайтах).
    • Специфические запросы: Контент, релевантный только низкочастотным (long-tail) или устаревшим запросам, имеет более высокий риск быть классифицированным как Неактивный.

    Когда применяется

    • Условия работы: Алгоритм применяется во время процессов обновления индекса, которые могут происходить после завершения циклов краулинга или по расписанию.
    • Ограничения (Claim 8, 10): Патент описывает ограничения на размер одного обновления (пороговый размер ‘x’). Если общее обновление превышает этот порог, оно разделяется на несколько последовательных операций обновления.
    • Режим работы (Claim 11): Вычисления, создание копий и обновление выполняются оффлайн (т.е. в фоновом режиме).

    Пошаговый алгоритм

    Процесс динамического обновления поискового индекса.

    1. Получение запроса: Сервер индексации получает запрос на обновление, который включает Первое подмножество (документы для удаления) и Второе подмножество (документы для добавления).
    2. Проверка размера: Система проверяет, не превышает ли размер обновления установленный порог (x). Если превышает, запрос разбивается на части.
    3. Идентификация затронутых частей: Определяются все части индекса, которые содержат хотя бы один документ из Первого подмножества.
    4. Вычисление метрик (Оценка состояния): Для каждой затронутой части вычисляются:
      • Обновленный Активный Размер ($U’_i$) (размер активных документов, которые останутся после удаления).
      • Обновленный Общий Размер ($S’_i$) (общий размер части после удаления).
      • Соотношение Активности: $U’_i / S’_i$.
    5. Выбор частей для перестроения: Система сортирует части по вычисленному Соотношению и выбирает Топ-K частей с наименьшим значением (т.е. части с максимальной долей неактивного контента).
    6. Создание копий: Выбранные Топ-K частей копируются из Главной доли в Долю обновления, становясь Частями-кандидатами.
    7. Обновление (Пересборка/Repacking):
      • Документы Первого подмножества удаляются из Частей-кандидатов.
      • Все оставшиеся активные документы из Частей-кандидатов извлекаются и добавляются ко Второму подмножеству (документы для добавления).
      • Это новое, объединенное множество документов распределяется (записывается) по Частям-кандидатам. В идеале, они распределяются равномерно, и новые части состоят на 100% из активных документов ($U»_j = S»_j$).
    8. Замещение (Публикация): Обновленные Части-кандидаты замещают соответствующие оригинальные части в Главной доле индекса.
    9. Обновление карты: Обновляется глобальный список документов с указанием их нового расположения.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Критически важны для определения статуса Активный/Неактивный. Используются данные из Журнала взаимодействий: были ли клики (пользовательские взаимодействия) по документу в ответ на запросы за определенный период времени (Claim 12,). Также упоминаются CTR, время пребывания, Loss/Win.
    • Системные данные (Показы): Используются данные о том, был ли документ представлен (показан) в результатах поиска (SERP) за определенный период времени (Claim 12).
    • Временные факторы: Используются для определения активности. Включают даты создания, модификации, последнего показа в выдаче. Недавняя индексация или модификация способствуют классификации документа как Активного.
    • Технические факторы: Размер документа, ID документа, ID части, местоположение документа в части. Эти данные необходимы для всех вычислений размеров и управления структурой индекса.

    Какие метрики используются и как они считаются

    Система использует несколько ключевых метрик для оптимизации процесса обновления:

    • Активный размер части ($U_i$): Сумма размеров активных документов в части i.
    • Общий размер части ($S_i$): Сумма размеров всех документов в части i.
    • Обновленные размеры ($U’_i, S’_i$): Размеры после учета удаляемых документов.
    • Соотношение Активности: Ключевая метрика для выбора частей для перестроения.

      $$ U’_i / S’_i $$

      Цель алгоритма — выбрать части, где это соотношение минимально ($U’_i / S’_i \rightarrow min$).

    • Цель Пересборки (Максимизация Плотности): Распределение документов таким образом, чтобы в обновленной части j активный размер был равен общему размеру:

      $$ U»_j = S»_j $$

    • Функция оптимизации стоимости: Алгоритм стремится минимизировать использование ресурсов при соблюдении ограничений на временное хранилище (Y), путем подбора оптимального размера обновления (x), количества перестраиваемых частей (k) и общего числа частей (n).

      $$ min\ f(x,k,n) \le y $$

    Выводы

    1. Яндекс явно классифицирует документы как «Активные» и «Неактивные». Это не просто концепция ранжирования, а практический механизм, используемый для управления физическим хранением и эффективностью индекса.
    2. Определение «Неактивности» основано на производительности (Performance). Документ становится неактивным, если он НЕ показывается в результатах поиска ИЛИ если пользователи с ним НЕ взаимодействуют в течение определенного периода (Claim 12). Поведенческие факторы и видимость в SERP напрямую влияют на жизненный цикл документа в индексе.
    3. Систематическое удаление невостребованного контента. Алгоритм обновления целенаправленно выбирает для перестроения сегменты (шарды) индекса, где накоплено больше всего Неактивных документов. Это механизм автоматической очистки индекса от «мертвого груза» для экономии ресурсов.
    4. Механизм «Пересборки» (Repacking). Яндекс не просто удаляет неактивные документы, он перестраивает целые части индекса, чтобы максимизировать плотность хранения полезного (активного) контента.
    5. Инфраструктурная основа для борьбы с Content Decay. Патент описывает механизм, посредством которого устаревший и невостребованный контент физически удаляется из активного индекса.

    Практика

    Best practices (это мы делаем)

    Хотя патент инфраструктурный, понимание механизма Активных/Неактивных документов дает четкие указания для SEO-стратегии:

    • Обеспечение устойчивой востребованности контента: Необходимо фокусироваться на создании контента, который не только попадает в индекс, но и регулярно показывается в выдаче и получает клики. Это гарантирует, что документ будет классифицирован как Активный.
    • Регулярное обновление и актуализация: Поддерживайте свежесть контента. Патент явно указывает недавнюю модификацию как один из критериев Активного документа. Для старого контента необходимо проводить актуализацию, чтобы он соответствовал текущим интентам и генерировал поведенческие сигналы.
    • Оптимизация CTR и поведенческих метрик: Работа над сниппетами для повышения CTR и улучшение пользовательского опыта на странице критически важны. Документы с положительными взаимодействиями защищены от классификации как Неактивные.
    • Аудит и управление большим количеством страниц (Content Pruning): Для крупных сайтов необходим регулярный аудит страниц, которые не получают трафика («Zombie Pages»). Если страницу невозможно улучшить для получения взаимодействий, ее следует удалить или объединить, чтобы не создавать «мертвый груз».

    Worst practices (это делать не надо)

    • Стратегия «Опубликовать и забыть» (Publish and Forget): Создание большого объема контента без стратегии его дальнейшей поддержки приведет к тому, что значительная часть страниц станет Неактивной и будет удалена из индекса в ходе оптимизации.
    • Игнорирование страниц с нулевым трафиком/показами: Наличие большого количества страниц, которые проиндексированы, но не получают показов или кликов, делает их первыми кандидатами на удаление согласно этому патенту.
    • Раздувание сайта низкокачественным контентом (Index Bloat): Генерация страниц, которые заведомо не будут получать показы или клики. Они быстро станут «Неактивными» и будут занимать ресурсы до момента их удаления Яндексом.

    Стратегическое значение

    Патент подтверждает стратегический взгляд на индекс не как на архив всего интернета, а как на динамическую базу данных полезных документов. Он подчеркивает, что хранение невостребованной информации стоит Яндексу денег, и система активно оптимизирует эти затраты. Для SEO это означает, что поведенческие факторы и релевантность влияют не только на позицию в Топ-10, но и на сам факт нахождения документа в активной базе поиска (Index Inclusion Management). Долгосрочная стратегия должна строиться на качестве и востребованности контента, а не на его объеме.

    Практические примеры

    Сценарий 1: Управление устаревшими товарами в E-commerce

    1. Ситуация: Интернет-магазин имеет тысячи страниц товаров, снятых с производства. Они проиндексированы, но по ним нет запросов, они не показываются в SERP и не получают кликов.
    2. Действие системы (по патенту): Яндекс классифицирует эти страницы как Неактивные документы. Часть индекса (шард), где хранятся эти товары, имеет низкое Соотношение Активности.
    3. Результат: Во время следующего цикла обновления эта часть индекса выбирается для перестроения (пересборки). Неактивные страницы товаров удаляются из базы данных Яндекса для экономии ресурсов.
    4. Действие SEO-специалиста: Необходимо настроить корректную обработку таких страниц (например, 301 редирект на категорию или аналогичный товар, или отдача 404/410 кода, если релевантной замены нет), вместо того чтобы оставлять их доступными для индексации с кодом 200 OK.

    Сценарий 2: Актуализация старой статьи в блоге

    1. Ситуация: Статья, написанная 5 лет назад, потеряла актуальность, ее трафик упал почти до нуля.
    2. Действие системы (по патенту): Статья классифицируется как Неактивная из-за отсутствия взаимодействий и показов. Она становится кандидатом на удаление.
    3. Действие SEO-специалиста: Специалист проводит глубокое обновление статьи, актуализирует факты, улучшает структуру и оптимизирует под текущие запросы.
    4. Результат: После переиндексации статья помечается как недавно модифицированная (критерий Активности). Она начинает лучше ранжироваться, получает показы и клики. Ее статус меняется на Активный, и она сохраняется в индексе при последующих обновлениях.

    Вопросы и ответы

    В чем основная цель этого патента?

    Это инфраструктурный патент. Его главная цель — не улучшение ранжирования, а оптимизация использования вычислительных ресурсов (памяти, дискового пространства) при обновлении поискового индекса. Яндекс стремится хранить в индексе только полезные документы, минимизируя затраты на хранение невостребованного контента.

    Что такое «Неактивный документ» (Inactive Document) согласно этому патенту?

    Документ считается неактивным, если он удовлетворяет хотя бы одному из условий в течение заранее определенного периода времени: (1) он не показывался в результатах поиска (SERP) в ответ на запросы, ИЛИ (2) пользователи с ним не взаимодействовали (например, не кликали). Отсутствие трафика или показов ведет к этому статусу.

    Что такое «Активный документ» (Active Document)?

    Это полезный документ. К ним относятся страницы, которые недавно были проиндексированы или обновлены, а также те, которые регулярно показываются в выдаче или получают достаточное количество пользовательских взаимодействий (кликов). Поддержание этого статуса критично для долгосрочного присутствия в индексе.

    Означает ли этот патент, что поведенческие факторы влияют на индексацию?

    Да, напрямую. Патент явно указывает, что отсутствие пользовательских взаимодействий или отсутствие показов в SERP являются критериями для классификации документа как Неактивного. Эта классификация, в свою очередь, является триггером для удаления документа из индекса во время его оптимизации (пересборки).

    Что такое «пересборка» (Repacking), описанная в патенте?

    Это процесс оптимизации части индекса (шарда). Система извлекает из шарда весь активный контент, смешивает его с новыми документами и заново заполняет шард. При этом неактивный контент отбрасывается (удаляется). Цель — добиться максимальной плотности полезных документов в шарде (в идеале 100% активности).

    Как Яндекс решает, какие части индекса обновлять в первую очередь?

    Система рассчитывает «Соотношение Активности» (отношение размера активных документов к общему размеру) для каждой части. В первую очередь для пересборки выбираются части с наименьшим соотношением — то есть те, где накопилось больше всего неактивных документов («мертвого груза»).

    Что мне делать, если я подозреваю, что мой контент стал «Неактивным»?

    Необходимо срочно принять меры по его реанимации. Проанализируйте причины падения трафика или показов. Обновите контент, улучшите его релевантность текущим запросам, оптимизируйте сниппеты для повышения CTR. Цель — снова начать получать показы в SERP и клики, чтобы вернуть статус «Активный».

    Влияет ли это на новые документы?

    Согласно патенту, недавно проиндексированные документы изначально считаются «Активными». Однако, если новый документ не сможет завоевать видимость в SERP или привлечь пользовательские взаимодействия в течение определенного времени, он будет классифицирован как «Неактивный» и попадет под риск удаления при следующей оптимизации индекса.

    Как этот патент влияет на стратегию работы с большими сайтами (E-commerce, контентные проекты)?

    Для больших сайтов критически важно управлять качеством и востребованностью всего массива страниц. Наличие большого количества проиндексированных, но не получающих трафика страниц (например, старые новости, неактуальные листинги) приводит к их классификации как Неактивных. Необходимо регулярно проводить аудит (Content Pruning) и актуализировать или корректно удалять такой контент.

    Как я могу отслеживать, считаются ли мои страницы «Активными»?

    Прямого индикатора в инструментах для вебмастеров нет. Косвенным, но надежным показателем является мониторинг показов и кликов в Яндекс.Вебмастере и Метрике. Стабильное получение показов и трафика свидетельствует об активности документа. Резкое падение этих показателей до нуля является сигналом риска.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.