Как Яндекс оптимизирует поисковый индекс, выбирая документы на основе их полезности и размера (Selective Indexing)

Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, например, LambdaMART) ранжирует документы так, чтобы максимизировать суммарную полезность индекса в рамках ограниченного объема хранилища. Документы с низкой полезностью и большим размером могут быть исключены из индекса.

Описание

Какую задачу решает

Патент решает проблему эффективного управления ограниченными ресурсами поисковой системы (вычислительная мощность, объем хранилища) в условиях экспоненциального роста интернета. Он направлен на устранение неэффективности, связанной с индексацией и хранением документов, которые редко показываются пользователям или имеют низкую «полезность» (utility). Изобретение позволяет оптимизировать состав поискового индекса (Selective Indexing), гарантируя, что ресурсы тратятся на хранение наиболее ценных документов.

Что запатентовано

Запатентована система и способ построения поискового индекса путем селективного отбора документов. Суть изобретения заключается в применении алгоритма машинного обучения (MLA), обученного ранжировать документы не по релевантности запросу, а по их ценности для включения в индекс. Этот процесс оптимизирует глобальную метрику качества индекса, балансируя между Параметром значимости (полезностью, основанной на взаимодействиях пользователей) и Размером (стоимостью хранения) каждого документа.

Как это работает

Система работает путем решения оптимизационной задачи (вариация «задачи о рюкзаке»). Сначала для каждого документа определяется его Параметр значимости (на основе прошлых или прогнозируемых кликов, CTR, времени пребывания) и его Размер. Затем используется модель машинного обучения, реализующая списочный подход к ранжированию (Listwise LTR), например, LambdaMART. Эта модель обучается максимизировать специальную функцию полезности (Уравнение 6), которая оценивает общую ценность набора документов. В результате генерируется ранжированный список, из которого отбираются документы с наивысшим рангом до тех пор, пока не будет достигнут лимит размера поискового индекса.

Актуальность для SEO

Высокая. Управление ресурсами и селективное индексирование являются критически важными задачами для всех крупных поисковых систем. Применение сложных методов машинного обучения (таких как LTR и градиентный бустинг) для оптимизации инфраструктурных задач полностью соответствует современным тенденциям в Information Retrieval.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент не описывает ранжирование в выдаче, он описывает критически важный процесс, определяющий, попадет ли документ в индекс вообще. Он вводит концепцию «бюджета индексации», где каждая страница должна оправдывать стоимость своего хранения (размер) своей полезностью (взаимодействия пользователей). Это смещает фокус с простого обеспечения сканирования на обеспечение вовлеченности и технической эффективности (оптимизации размера страниц).

Детальный разбор

Термины и определения

Aggregate Qualitative Significance (Качественный параметр совокупной значимости, Qm): Целевая метрика оптимизации. Представляет собой общую ценность набора документов, выбранных для индекса. Рассчитывается по специальной формуле (Уравнение 6), которая учитывает значимость и размер документов в ранжированном списке.
First MLA (Первый MLA): Основной алгоритм машинного обучения, используемый для ранжирования документов с целью их отбора в индекс. Реализует подход списочного ранжирования (Listwise LTR) и обучается максимизировать Aggregate Qualitative Significance.
LambdaMART: Алгоритм обучения ранжированию, сочетающий градиентный бустинг (MART) и идеи LambdaRank. Используется для прямой оптимизации метрик ранжирования. В патенте упоминается как возможная реализация First MLA.
Listwise LTR (Списочный подход к ранжированию): Класс алгоритмов обучения ранжированию, которые принимают на вход весь список документов и оптимизируют функцию потерь, основанную на всем списке, а не на отдельных документах (Pointwise) или парах (Pairwise).
Qualitative Significance Parameter (Качественный параметр значимости): Оценка, присваиваемая документу First MLA. Используется для финального ранжирования и отбора в индекс. Основана на Significance Parameter и Size документа.
Second MLA (Второй MLA): Вспомогательный алгоритм, используемый для вычисления или прогнозирования Significance Parameter документа на основе его признаков и исторических данных о взаимодействиях.
Significance Parameter (Параметр значимости): Метрика, указывающая на полезность (utility) документа для поисковой системы. Основана на пользовательских взаимодействиях (прошлых или прогнозируемых), таких как клики, CTR, время пребывания.
Size (Размер): Размер цифрового документа (например, в байтах). В контексте патента интерпретируется как «стоимость» хранения документа в индексе.

Ключевые утверждения (Анализ Claims)

Патент защищает метод выбора документов для включения в поисковый индекс с использованием MLA, оптимизированного по специфической метрике, учитывающей размер и значимость.

Claim 1 (Независимый пункт): Описывает основной способ выбора документов.

Система получает множество документов, каждый имеет размер.
Для каждого документа определяется Параметр значимости (полезность), основанный на пользовательских взаимодействиях.
MLA ранжирует документы для получения списка. Ранжирование основано на Качественном параметре значимости (который учитывает Параметр значимости и Размер).
Критически важно: Ранжирование выполняется так, чтобы Качественный параметр совокупной значимости (Aggregate Qualitative Significance) был максимизирован.
Механизм максимизации: Основан на взвешивании Качественного параметра значимости документа (i) по сумме размеров подмножества документов (j), которые имеют параметр значимости ниже, чем у документа (i). (Это описание механизма, формализованного в Уравнении 6).
Выбирается подмножество документов из ранжированного списка.
Подмножество сохраняется в поисковом индексе.

Claim 3: Уточняет, что пользовательские взаимодействия могут быть как прошлыми, так и прогнозируемыми (для новых документов).

Claim 5 и 6: Уточняют, что выбор подмножества основан на том, что сумма размеров выбранных документов ниже предопределенного порога (лимита размера индекса).

Claim 8 и 9: Указывают, что MLA может использовать алгоритм LambdaMART или другой алгоритм списочного ранжирования.

Claim 10: Приводит конкретную формулу для максимизации Качественного параметра совокупной значимости (Уравнение 6):

$$ Q_m = \sum_{i}^{N} (q_i \cdot \sum_{j}^{M} S_j), p_j < p_i $$

Где Qm – совокупная значимость; qi – параметр значимости i-го документа; Sj – размер j-го документа; pi/pj – качественные параметры значимости (ранг); N – общее кол-во документов; M – кол-во документов в подмножестве, имеющих ранг ниже, чем у i-го документа.

Где и как применяется

Изобретение применяется на этапе построения или обновления основного поискового индекса. Это инфраструктурный процесс, определяющий, какие документы будут доступны для поиска.

CRAWLING – Сканирование и Сбор данных
Система взаимодействует с этим слоем для получения исходного множества цифровых документов (кандидатов на индексацию), их содержимого и метаданных (включая размер).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс происходит после сканирования и извлечения признаков, но до того, как документы становятся доступными для ранжирования в реальном времени.

Извлечение данных: Система использует данные о размере документов и признаки, необходимые для оценки значимости.
Оценка значимости (Second MLA): Используя данные из Сервера Аналитики (пользовательские взаимодействия) или прогнозируя их, система вычисляет Параметр значимости для каждого документа.
Оптимизация и Ранжирование (First MLA): Алгоритм LTR (например, LambdaMART) ранжирует всех кандидатов, используя Параметр значимости и Размер, чтобы максимизировать Aggregate Qualitative Significance (Qm).
Селекция (Selective Indexing): Система отбирает Топ-К документов из ранжированного списка до достижения лимита хранилища (B).

RANKING – Ранжирование
Патент напрямую не влияет на алгоритмы ранжирования (L1-L4), но определяет набор документов (корпус), который доступен этим алгоритмам.

На что влияет

Все типы контента и запросов: Механизм является универсальным и применяется ко всем документам, претендующим на попадание в индекс.
Крупные сайты: Оказывает значительное влияние на сайты с большим количеством страниц (e-commerce, порталы, агрегаторы). Страницы таких сайтов конкурируют за ограниченный ресурс индекса, и те из них, которые не демонстрируют достаточной полезности (взаимодействий), могут быть исключены.
Технически «тяжелые» страницы: Документы с большим размером (раздутый код, тяжелые медиафайлы) имеют более высокую «стоимость» хранения и, следовательно, должны демонстрировать более высокую полезность, чтобы попасть в индекс.

Когда применяется

Условия работы: Алгоритм применяется в процессе построения (construction) или обновления (refresh) поискового индекса. Это, как правило, офлайн или nearline процесс.
Триггеры активации: Необходимость оптимизации использования дискового пространства и вычислительных ресурсов при формировании индекса заданного размера (B).
Частота применения: Зависит от цикла обновления основного индекса Яндекса.

Пошаговый алгоритм

Этап 1: Сбор данных и предварительная оценка

Получение кандидатов: Система получает множество сканированных цифровых документов.
Извлечение признаков и размера: Для каждого документа извлекаются признаки (ссылочные, контентные, поведенческие) и определяется его точный размер (S).
Вычисление Параметра Значимости (Second MLA):
- Для известных документов: Параметр значимости (q) вычисляется на основе исторических пользовательских взаимодействий (клики, CTR, время пребывания).
- Для новых документов: Параметр значимости (q) прогнозируется на основе признаков документа.

Этап 2: Оптимизация и Ранжирование (First MLA — LTR)

Инициализация модели: Загрузка обученной модели LTR (например, LambdaMART). Модель обучена максимизировать метрику Qm.
Ранжирование: Модель обрабатывает набор данных {Документ, q, S} и генерирует ранжированный список. Ранжирование оптимизировано так, чтобы максимизировать Aggregate Qualitative Significance (Qm):

$$ Q_m = \sum_{i}^{N} (q_i \cdot \sum_{j}^{M} S_j), p_j < p_i $$

Этот механизм гарантирует, что выбор документов не основан просто на локальном соотношении q/S, а учитывает глобальную оптимизацию заполнения индекса.

Этап 3: Селекция и Индексация

Определение порога: Система определяет лимит доступного размера хранилища (B).
Выбор подмножества: Из ранжированного списка выбираются документы сверху вниз (с наивысшим рангом) до тех пор, пока сумма их размеров не достигнет порога B.
Сохранение: Выбранное подмножество документов сохраняется в поисковом индексе. Остальные документы отбрасываются (pruned).

Какие данные и как использует

Данные на входе

Технические факторы:
- Размер документа (Size): Критически важный фактор, определяющий «стоимость» хранения документа.
- Характеристики URL (глубина, количество косых черт).
- Тип кодировки.
Поведенческие факторы: Критически важны для определения «полезности» (Significance Parameter).
- Клики (Loss/Win).
- Время пребывания (Dwell Time).
- Длинный/короткий клик.
- Показатель кликабельности (CTR).
- Вероятность пропуска.
Ссылочные факторы (Используются как признаки в MLA):
- PageRank, HITS.
- Количество входящих/исходящих ссылок.
- Анкорный текст входящих ссылок.
Контентные факторы (Используются как признаки в MLA):
- Количество слов в документе.
- Тип содержимого (новости, энциклопедия, официальный сайт).
Временные факторы:
- Время создания/изменения документа.

Какие метрики используются и как они считаются

Significance Parameter (q): Вычисляется Second MLA. Это оценка полезности документа, основанная на агрегации прошлых или прогнозировании будущих пользовательских взаимодействий.
Qualitative Significance Parameter (p): Вычисляется First MLA. Это финальная оценка, используемая для ранжирования и отбора в индекс.
Aggregate Qualitative Significance (Qm): Целевая функция оптимизации для First MLA. Рассчитывается по формуле:

$$ Q_m = \sum_{i}^{N} (q_i \cdot \sum_{j}^{M} S_j), p_j < p_i $$

Эта формула взвешивает значимость документа (qi) суммой размеров всех документов (Sj), которые ранжируются ниже него (pj < pi).

Алгоритмы машинного обучения: В патенте явно упоминается использование Listwise LTR подходов и конкретно LambdaMART, который основан на градиентном бустинге деревьев решений (MART).

Выводы

Яндекс применяет Селективное Индексирование (Selective Indexing): Патент подтверждает, что не все сканированные документы попадают в основной поисковый индекс. Яндекс активно оптимизирует использование хранилища, отсеивая наименее ценные ресурсы.
Индексное место нужно «заработать»: Включение в индекс зависит от баланса между Полезностью (Utility) и Стоимостью (Cost). Полезность определяется через пользовательские взаимодействия (реальные или прогнозируемые), а Стоимость – через размер документа.
Сложная оптимизация, а не простое соотношение: Яндекс не использует простую метрику вроде «Полезность/Размер». Вместо этого применяется сложный алгоритм списочного ранжирования (LTR), чтобы максимизировать общую ценность всего индекса в рамках ограничений (решение «задачи о рюкзаке»).
Поведенческие факторы критичны для индексации: Документы, которые не генерируют позитивных пользовательских взаимодействий (клики, вовлеченность), имеют низкий Параметр значимости и рискуют быть исключенными из индекса, независимо от их контентной релевантности.
Техническая оптимизация размера страницы важна: Уменьшение размера документа снижает «стоимость» его хранения, тем самым повышая шансы на индексацию при том же уровне полезности.

Практика

Best practices (это мы делаем)

Оптимизация технической эффективности (Снижение «Стоимости»): Активно работайте над уменьшением размера страниц (HTML, CSS, JS, медиа). Чем меньше размер документа, тем ниже порог полезности, необходимый для его включения в индекс. Это особенно важно для страниц с низкой или средней вовлеченностью.
Максимизация вовлеченности (Повышение «Полезности»): Фокусируйтесь на улучшении поведенческих факторов (CTR, время пребывания, глубина просмотра). Страницы должны демонстрировать ценность для пользователей, так как это напрямую влияет на Параметр значимости.
Управление «Бюджетом Индексации» (Index Budget Optimization): Проводите аудит контента и удаляйте или закрывайте от индексации страницы с низкой полезностью (например, страницы с нулевым трафиком и высокими отказами). Это помогает перераспределить фокус поисковой системы на более ценные страницы сайта.
Стимулирование взаимодействий для новых страниц: Для новых документов система прогнозирует значимость. Используйте внутреннюю перелинковку, анонсы и дистрибуцию контента, чтобы обеспечить первые пользовательские взаимодействия и подтвердить полезность страницы.

Worst practices (это делать не надо)

Генерация большого объема низкокачественного контента: Создание тысяч страниц (например, doorway pages, автоматически сгенерированные листинги, тонкий контент), которые не привлекают пользователей. Такие страницы будут иметь низкую полезность и высокую суммарную стоимость хранения, что приведет к их исключению из индекса.
Игнорирование размера страницы и скорости загрузки: Использование тяжелых изображений, неоптимизированных скриптов и раздутого кода увеличивает размер документа. Это повышает требования к его полезности для попадания в индекс.
Фокус только на сканировании без учета вовлеченности: Обеспечение того, что робот обошел страницу (Crawl), не гарантирует ее попадания в индекс (Index). Если страница не демонстрирует ценности, она будет отброшена на этапе селекции.

Стратегическое значение

Этот патент подчеркивает инфраструктурные ограничения поисковых систем и их подход к оптимизации ресурсов. Для SEO это означает, что конкуренция происходит не только на уровне ранжирования, но и на уровне индексации. Стратегия должна быть направлена на создание технически эффективного сайта с высоким уровнем вовлеченности пользователей. Приоритет отдается качеству и полезности контента, а не его количеству. Долгосрочная стратегия требует регулярного аудита и «чистки» сайта от неэффективных страниц.

Практические примеры

Сценарий 1: Оптимизация E-commerce сайта

Ситуация: Интернет-магазин имеет миллионы страниц, включая товары, категории и фильтры. Многие страницы фильтров имеют низкий трафик и большой размер из-за сложной структуры и скриптов.
Анализ по патенту: Эти страницы имеют низкий Параметр значимости (мало взаимодействий) и высокую Стоимость (большой размер). Они являются кандидатами на исключение из индекса.
Действия:
- Провести анализ логов и аналитики для выявления страниц с нулевой или минимальной вовлеченностью.
- Закрыть неэффективные страницы фильтров от индексации (noindex) или удалить их.
- Оптимизировать код и медиа на оставшихся страницах для уменьшения их размера.
Результат: Повышение вероятности индексации ценных страниц за счет снижения общей нагрузки и демонстрации более высокой средней полезности страниц сайта.

Сценарий 2: Контентный проект

Ситуация: Новостной сайт публикует статьи с большими неоптимизированными фотогалереями, что делает страницы очень тяжелыми.
Анализ по патенту: Несмотря на потенциально высокую начальную полезность новостей, большой размер увеличивает стоимость хранения. Если вовлеченность падает (новость устаревает), страница может быть исключена из основного индекса быстрее.
Действия:
- Внедрить современные форматы изображений (например, WebP).
- Использовать ленивую загрузку (lazy loading) для медиаконтента.
- Оптимизировать скрипты и стили (минификация, сжатие).
Результат: Снижение размера документов уменьшает их стоимость для Яндекса, повышая шансы на долгосрочное нахождение в индексе.

Вопросы и ответы

Этот патент описывает алгоритм ранжирования в выдаче?

Нет, этот патент не описывает, как документы ранжируются в ответ на запрос пользователя (SERP). Он описывает процесс, происходящий на этапе построения индекса (Indexing) — как Яндекс отбирает, какие из сканированных документов стоит хранить в индексе, а какие нет. Это механизм селективного индексирования (Selective Indexing) для оптимизации ресурсов.

Что такое «Параметр значимости» (p_i) и как он рассчитывается?

Параметр значимости (p_i) — это ключевая метрика полезности документа для поисковой системы. Он рассчитывается на основе реальных или прогнозируемых пользовательских взаимодействий. К ним относятся клики, CTR, время пребывания на странице (Dwell Time), длинные и короткие клики. Если истории взаимодействий нет (например, для нового документа), этот параметр прогнозируется Вторым MLA на основе других признаков документа.

Как размер документа (s_i) влияет на его индексацию?

Размер документа является ограничивающим фактором. Система постоянно балансирует значимость документа против его размера. Чтобы попасть в индекс, большой документ должен демонстрировать значительно более высокую полезность (p_i), чем маленький документ, чтобы оправдать затраты на его хранение (s_i).

Означает ли это, что Яндекс использует простое соотношение Полезность/Размер для отбора документов?

Нет, патент подчеркивает, что используется более сложный подход. Применяется алгоритм списочного ранжирования (Listwise LTR), например, LambdaMART, который оптимизирует глобальную метрику (Qm, Уравнение 6). Это позволяет решить «задачу о рюкзаке» — выбрать оптимальный набор документов для заполнения индекса, что сложнее, чем просто отсортировать по локальному соотношению Полезность/Размер.

Как этот патент влияет на стратегию работы с большими сайтами (например, E-commerce)?

Он критически важен для больших сайтов. Если сайт генерирует миллионы страниц (например, фильтры, пагинация), которые не получают пользовательских взаимодействий, эти страницы имеют низкую полезность и высокую суммарную стоимость хранения. Они рискуют быть исключенными из индекса. Необходимо проводить аудит контента, закрывать неэффективные страницы от индексации и фокусироваться на повышении вовлеченности на ценных страницах.

Может ли техническая оптимизация помочь попасть в индекс согласно этому патенту?

Да, напрямую. Оптимизация кода, сжатие скриптов, использование современных форматов изображений уменьшают размер документа. Это снижает его «стоимость» для Яндекса. Если стоимость снижается, то для попадания в индекс требуется меньший уровень полезности (взаимодействий). Техническая эффективность повышает шансы на индексацию.

Что важнее для попадания в индекс: хороший контент или поведенческие факторы?

Согласно этому патенту, для процесса селекции ключевым показателем полезности являются именно поведенческие факторы (пользовательские взаимодействия). Хороший контент должен приводить к позитивным взаимодействиям. Если документ релевантен по содержанию, но пользователи его игнорируют или быстро покидают, его Параметр значимости будет низким, и он может быть исключен из индекса.

Как система обрабатывает новые документы, у которых еще нет поведенческих факторов?

Для новых документов система использует Второй MLA, чтобы спрогнозировать (predict) их Параметр значимости на основе доступных признаков (контент, ссылки, авторитетность хоста и т.д.). Если прогнозируемая полезность достаточно высока по отношению к размеру документа, он может быть включен в индекс.

Что такое LambdaMART и почему он используется здесь?

LambdaMART — это эффективный алгоритм обучения ранжированию, основанный на градиентном бустинге. Он используется потому, что позволяет напрямую оптимизировать сложную метрику ранжирования (в данном случае Qm), учитывая взаимозависимость между документами в списке. Это необходимо для решения задачи глобальной оптимизации заполнения индекса.

Если моя страница уже просканирована роботом (Crawled), значит ли это, что она попадет в индекс?

Нет, не значит. Сканирование — это только первый этап. После сканирования и анализа признаков происходит этап селекции, описанный в патенте. Если на этом этапе система решит, что соотношение полезности и размера вашей страницы недостаточно для включения в индекс по сравнению с другими кандидатами, страница будет отброшена (Pruned).