Как Яндекс оптимизирует выбор документов для индекса, балансируя их пользу и размер

Яндекс патентует метод оптимизации поискового индекса в условиях ограниченных ресурсов. Система оценивает прогнозируемую или фактическую полезность документа (на основе поведения пользователей) и его размер. Используя модифицированный алгоритм LambdaMART, Яндекс ранжирует документы так, чтобы максимизировать суммарную пользу индекса в рамках заданного объема хранилища, отдавая предпочтение документам с наилучшим соотношением пользы к затратам на хранение.

Описание

Какую задачу решает

Патент решает фундаментальную проблему поисковых систем: экспоненциальный рост веба при ограниченных вычислительных ресурсах и объеме хранилищ. Необходимо выбрать подмножество из триллионов доступных документов для включения в основной поисковый индекс так, чтобы максимизировать общую полезность индекса для пользователей, не превышая при этом бюджет хранения. Патент направлен на оптимизацию процесса Index Selection (Отбор для индексации), определяя, какие документы стоят затрат на их обработку и хранение.

Что запатентовано

Запатентована система и метод для построения поискового индекса путем оптимизированного отбора документов. Суть изобретения заключается в применении алгоритма машинного обучения (MLA), обученного ранжировать документы таким образом, чтобы максимизировать Cumulative Quality Value Parameter (Совокупный параметр ценности качества) индекса. Оптимизация достигается за счет балансировки Value Parameter (Параметр ценности, основанный на взаимодействиях пользователей) документа и его Size (Размера).

Как это работает

Система работает в несколько этапов. Сначала для каждого документа определяется его размер и Value Parameter — метрика полезности, основанная на фактических или прогнозируемых взаимодействиях пользователей (клики, CTR, dwell time). Затем используется MLA (в частности, упоминается модифицированный LambdaMART) для ранжирования всех доступных документов. Ключевой механизм — это специфическая функция полезности (Utility Function), которую максимизирует MLA. Эта функция взвешивает ценность документа суммой размеров всех документов, имеющих более низкую ценность. В результате формируется ранжированный список, оптимизированный по соотношению польза/размер. На финальном этапе из этого списка выбираются Топ-N документов, которые помещаются в доступный объем хранилища поискового индекса.

Актуальность для SEO

Высокая. Проблема ограниченности ресурсов и необходимости приоритизации контента для индексации актуальна для всех крупных поисковых систем. Использование продвинутых методов Learning-to-Rank (LTR), таких как LambdaMART, для решения инфраструктурных задач оптимизации является современным подходом. Патент опубликован в конце 2021 года и описывает актуальные методы оптимизации.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент описывает инфраструктурный процесс (CRAWLING/INDEXING), он имеет прямые последствия для видимости сайтов. Он предоставляет четкий механизм, посредством которого Яндекс может принять решение НЕ индексировать контент, если его прогнозируемая или фактическая полезность (Value Parameter) не оправдывает затрат на его хранение (Size). Это подчеркивает критическую важность позитивных поведенческих факторов и технической оптимизации (минимизации размера страницы) для обеспечения индексации контента.

Детальный разбор

Термины и определения

Cumulative Quality Value Parameter (Совокупный параметр ценности качества, Qm): Целевая метрика, которую система стремится максимизировать. Отражает общую полезность набора документов, выбранных для индекса. Рассчитывается по специальной формуле (см. Уравнение 6), учитывающей ценность и размер документов.
First MLA (Первый MLA): Основной алгоритм машинного обучения (например, модифицированный LambdaMART), используемый для ранжирования документов с целью отбора в индекс. Его задача — оптимизировать Cumulative Quality Value Parameter.
Index Selection (Отбор для индексации): Процесс выбора подмножества скачанных документов для включения в поисковый индекс в условиях ограниченных ресурсов.
LambdaMART: Алгоритм Learning-to-Rank, сочетающий идеи LambdaRank и MART (Multiple Additive Regression Trees). Используется для прямого оптимизирования метрик ранжирования. В данном патенте он модифицирован для оптимизации специфической функции полезности, связанной с размером индекса.
Quality Value Parameter (Параметр ценности качества, q_i): Оценка, присваиваемая документу MLA в процессе ранжирования. Основана на Value Parameter и Size документа. Документы с более высоким Quality Value Parameter имеют приоритет при включении в индекс.
Second MLA (Второй MLA): Вспомогательный алгоритм, используемый для прогнозирования Value Parameter для новых документов, по которым еще нет статистики взаимодействий пользователей.
Size (Размер документа, s_i): Объем дискового пространства, необходимый для хранения документа в индексе. В контексте патента рассматривается как «стоимость» включения документа в индекс.
Value Parameter (Параметр ценности, p_i): Метрика, отражающая полезность документа для поисковой системы. Основана на взаимодействиях пользователей (User Interactions) — фактических (для известных документов) или прогнозируемых (для новых документов).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе отбора документов для индекса путем максимизации общей полезности индекса с учетом ограничений по размеру.

Claim 1 (Независимый пункт): Описывает основной метод, выполняемый сервером с использованием MLA.

Получение множества цифровых документов, каждый из которых имеет определенный размер (Size).
Определение для каждого документа Value Parameter (Параметра ценности), основанного на взаимодействиях пользователей и указывающего на полезность документа.
Ранжирование документов с помощью MLA для получения ранжированного списка. Ранжирование основано на Quality Value Parameter (Параметре ценности качества), который вычисляется на основе Value Parameter и Size.
Критически важно: Ранжирование выполняется таким образом, чтобы максимизировать Cumulative Quality Value Parameter (Совокупный параметр ценности качества).
Механизм максимизации: Quality Value Parameter данного документа взвешивается суммой размеров подмножества документов, у которых Value Parameter ниже, чем у данного документа.
В тексте патента Claim 1 явно включает формулу оптимизации:
$${Q_m} = \sum_{i}^{N} (q_i \cdot \sum_{j}^{M} s_j), p_j < p_i$$
(где Qm — совокупный параметр, qi — параметр ценности i-го документа, sj — размер j-го документа, N — общее число документов, M — число документов в подмножестве, где параметр ценности pj ниже, чем pi).
Выбор подмножества документов из ранжированного списка (на основе их Quality Value Parameter) и сохранение их в поисковом индексе.

Claim 11 (Зависимый от 1): Указывает, что вычисление Value Parameter может выполняться с использованием Second MLA.

Claim 12 (Независимый пункт, Система): Описывает систему (процессор и память), сконфигурированную для выполнения шагов, аналогичных Claim 1.

Где и как применяется

Изобретение применяется на стыке этапов сканирования и индексации для управления составом основного поискового индекса.

CRAWLING – Сканирование и Сбор данных
После того как документы скачаны краулерами (YandexBot, Orange) и сохранены в базе данных сканирования (Crawling database), система должна принять решение об их дальнейшей судьбе.

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этапе Index Selection, который определяет, какие документы будут переданы в конвейер индексации (Indexer) для включения в поисковый индекс (Search Index).

Взаимодействие компонентов:

Indexing Server: Оркестрирует процесс. Хранит First MLA и Second MLA.
Analytics Server / User Interaction Log: Предоставляет данные о поведении пользователей, необходимые для расчета фактического Value Parameter и обучения MLA.
Parser/Feature Extractor: Извлекает признаки из скачанных документов, которые используются Second MLA для прогнозирования Value Parameter.

Входные данные: Скачанные документы, их размеры (Size), извлеченные признаки (Feature Vectors), исторические данные о взаимодействиях пользователей.

Выходные данные: Ранжированный список документов (Ranked list of documents), оптимизированный по соотношению польза/размер; Подмножество документов, выбранное для индексации.

На что влияет

Индексация контента: Алгоритм напрямую влияет на то, будет ли страница проиндексирована Яндексом. Страницы с низкой полезностью (Value Parameter) относительно их размера (Size) рискуют быть исключенными из индекса.
Технические факторы (Размер страницы): Патент придает вес размеру документа как фактору стоимости. Технически неоптимизированные, «тяжелые» страницы должны демонстрировать значительно большую полезность, чтобы оправдать свое включение в индекс.
Поведенческие факторы: User Interactions являются основой для метрики Value Parameter. Контент, который не привлекает клики или имеет плохие показатели вовлеченности (например, короткое время пребывания), будет иметь низкий приоритет индексации.

Когда применяется

Алгоритм применяется в процессе обновления и построения поискового индекса. Это непрерывный процесс, поскольку новые документы постоянно скачиваются, а старые должны переоцениваться.

Триггеры активации:
- Обработка свежескачанных документов (новые или обновленные URL).
- Плановая перестройка или обновление сегментов основного индекса для управления его размером и качеством.
Условия работы: Наличие ограничения на размер поискового индекса (Budget B) и необходимость выбора наиболее ценного подмножества документов.

Пошаговый алгоритм

Процесс отбора документов для индексации (In-Use Phase):

Сбор данных: Система получает множество скачанных документов из базы предварительной индексации. Для каждого документа известен его размер (Size) и извлечен вектор признаков (Feature Vector).
Определение Параметра Ценности (Value Parameter):
- Для известных документов: Value Parameter определяется на основе исторических данных о взаимодействиях пользователей (User Interactions) из логов.
- Для новых документов: Second MLA прогнозирует Value Parameter, используя вектор признаков документа.
Ранжирование (First MLA): First MLA (модифицированный LambdaMART) принимает на вход набор данных (документ, Size, Value Parameter, Feature Vector) и ранжирует документы.
Оптимизация функции полезности: Ранжирование выполняется с целью максимизации Cumulative Quality Value Parameter (Уравнение 6). MLA рассчитывает Quality Value Parameter для каждого документа, балансируя его пользу и стоимость хранения.
Формирование ранжированного списка: На выходе получается список документов, отсортированный по убыванию их приоритета для индексации.
Отбор (Selection): Система (Selector) выбирает Топ-N документов из ранжированного списка до тех пор, пока суммарный размер выбранных документов не достигнет предела доступного хранилища (Budget B).
Индексация: Выбранное подмножество документов сохраняется в поисковом индексе.

Какие данные и как использует

Данные на входе

Поведенческие факторы (User Interactions): Критически важны для определения Value Parameter. Используются клики, CTR, Dwell time (время пребывания), Long/Short clicks. Эти данные берутся из логов (User Interaction Log).
Технические факторы (Size): Размер документа (в байтах). Используется как мера стоимости хранения документа в индексе.
Контентные, Ссылочные и другие факторы (Feature Vectors): Используются для обучения MLA, и, в частности, Second MLA для прогнозирования Value Parameter. Патент упоминает (в разделе «Selection of Documents Based on Predicted Value»):
- Частота показов других документов с того же домена.
- Признаки, основанные на контенте (Document statistics).
- Количество входящих и исходящих ссылок (Web graph features, PageRank, HITS).
- Историческое количество посещений документа из других источников (не из поиска).
- Характеристики URL (URL characteristics).
- Тип контента (Type of content).
- Временные факторы (Time).

Какие метрики используются и как они считаются

Value Parameter (p_i): Метрика полезности. Рассчитывается на основе User Interactions или прогнозируется Second MLA.
Quality Value Parameter (q_i): Итоговый скор ранжирования, рассчитываемый First MLA. Патент упоминает, что ранние подходы рассматривали функции вида (Уравнения 1-3):
$$q_i = g(\frac{p_i}{s_i^k})$$
(где g — функция, k — константа). Однако запатентованный метод использует более сложную модель MLA для определения q_i.
Cumulative Quality Value Parameter (Qm): Целевая функция оптимизации (Utility Function). Патент определяет ее следующим образом (Уравнение 6):
$${Q_m} = \sum_{i}^{N} (q_i \cdot \sum_{j}^{M} s_j), p_j < p_i$$
Это означает, что ценность документа (qi) умножается на сумму размеров всех документов (sj), которые менее ценны (pj < pi), чем он.
Взвешенная версия Qm: Патент также предлагает взвешенную версию (Уравнение 7), где могут использоваться веса (w_i, w_j) для придания большей важности определенным документам:
$${Q_m} = \sum_{i}^{N} (w_i q_i \cdot \sum_{j}^{M} w_j s_j), p_j < p_i$$

Алгоритмы машинного обучения: Используется LambdaMART (Listwise Learning-to-Rank), модифицированный для прямой оптимизации метрики Qm.

Выводы

Индексация — это привилегия, а не право: Яндекс рассматривает включение документа в индекс как инвестицию. Патент описывает механизм ROI (Return on Investment), где Return — это полезность для пользователя (Value Parameter), а Investment — это затраты на хранение (Size).
Поведенческие факторы определяют приоритет индексации: Основой для оценки полезности являются User Interactions. Документы, которые не удовлетворяют пользователей (фактически или прогнозируемо), имеют низкий приоритет индексации.
Размер страницы имеет значение для индексации: Размер документа напрямую учитывается в формуле оптимизации. «Тяжелые» страницы должны быть значительно более полезными, чем «легкие», чтобы оправдать свое место в индексе.
Прогнозирование полезности для новых страниц: Яндекс использует Second MLA для оценки потенциала новых страниц на основе их признаков (контент, ссылки, авторитет домена). Это означает, что традиционные SEO-сигналы используются для предсказания будущих поведенческих факторов.
Сложная оптимизация отбора: Вместо использования простого соотношения польза/размер, Яндекс применяет продвинутый алгоритм Listwise LTR (LambdaMART) для комплексной оптимизации всего состава индекса (Cumulative Quality Value Parameter).

Практика

Best practices (это мы делаем)

Максимизация позитивных поведенческих сигналов: Обеспечивайте высокий CTR сниппетов и высокую вовлеченность пользователей на странице (длительное время пребывания, низкий показатель отказов). Это напрямую повышает Value Parameter документа, увеличивая его шансы на индексацию.
Оптимизация размера страниц (Page Weight): Минимизируйте размер HTML, CSS, JS и медиафайлов. Чем меньше размер документа (Size), тем ниже порог полезности (Value Parameter), необходимый для его включения в индекс. Это особенно важно для больших сайтов (e-commerce, агрегаторы).
Укрепление сигналов авторитетности (E-E-A-T и ссылок): Поскольку Second MLA прогнозирует полезность новых страниц на основе их признаков, сильные сигналы авторитетности (качество контента, ссылочный профиль, история домена) повышают прогнозируемый Value Parameter и ускоряют индексацию нового контента.
Управление краулинговым бюджетом и удаление мусорных страниц: Закрывайте от сканирования и удаляйте из карты сайта страницы с низкой полезностью. Это помогает сосредоточить внимание поисковой системы на страницах, которые генерируют позитивные User Interactions.

Worst practices (это делать не надо)

Генерация большого количества низкокачественного контента (Thin Content): Создание множества страниц с низкой добавленной стоимостью, которые не привлекают пользователей, приведет к низкому Value Parameter. Такие страницы будут иметь низкий приоритет индексации.
Игнорирование технической оптимизации и скорости загрузки: Создание «тяжелых» страниц с избыточным кодом или неоптимизированными медиафайлами увеличивает «стоимость» (Size) индексации, повышая требования к их полезности.
Использование кликбейта без удовлетворения интента: Хотя высокий CTR важен, если за ним следует быстрый возврат на выдачу (короткий клик), это сигнализирует о низкой полезности, что негативно скажется на Value Parameter.

Стратегическое значение

Этот патент подтверждает стратегический фокус Яндекса на качестве и эффективности инфраструктуры. Он демонстрирует, что решение об индексации принимается на основе экономической целесообразности, где главным мерилом успеха является удовлетворенность пользователя. Для SEO это означает, что техническая оптимизация (уменьшение Size) и работа над поведенческими факторами (увеличение Value Parameter) являются не только факторами ранжирования, но и критическими условиями для самого попадания в индекс. Долгосрочная стратегия должна быть направлена на создание эффективного контента, который оправдывает затраты поисковой системы на его хранение.

Практические примеры

Сценарий: Сравнение двух страниц для включения в индекс

Представим, что у Яндекса осталось мало места в индексе (Budget B почти исчерпан), и система выбирает между двумя страницами:

Страница А: Статья о ремонте. Размер (Size) = 50KB. Прогнозируемая полезность (Value Parameter) = 0.8 (высокая, много кликов, хорошее время пребывания).
Страница Б: Страница категории интернет-магазина. Размер (Size) = 400KB (много неоптимизированных изображений, скриптов). Прогнозируемая полезность (Value Parameter) = 0.6 (средняя, умеренные поведенческие факторы).

Анализ системы: First MLA рассчитывает Quality Value Parameter для обеих страниц, оптимизируя общую функцию Qm. Хотя Страница А и Страница Б обе полезны, Страница А предлагает значительно лучшее соотношение пользы к затратам на хранение.

Результат: Система присвоит Странице А более высокий Quality Value Parameter и включит ее в индекс. Страница Б может быть отложена до следующего цикла перестроения индекса или исключена, если ее показатели не улучшатся.

Действия SEO-специалиста для Страницы Б:
1. Оптимизировать изображения и скрипты, чтобы уменьшить Size до 100KB.
2. Улучшить юзабилити и ассортимент, чтобы повысить Value Parameter до 0.7.
Эти действия значительно повысят Quality Value Parameter и шансы на индексацию.

Вопросы и ответы

Что такое Value Parameter (Параметр ценности) и почему он так важен в этом патенте?

Value Parameter (Параметр ценности) — это ключевая метрика полезности документа для поисковой системы. Она основывается на взаимодействиях пользователей (User Interactions), таких как клики, CTR и время пребывания (Dwell Time). В этом патенте Value Parameter выступает как мера «дохода», который Яндекс получает от документа. Чем выше этот параметр, тем выше приоритет документа при включении в индекс.

Как система определяет Value Parameter для совершенно новых страниц?

Для новых страниц, по которым нет статистики взаимодействий, система использует «Second MLA» (Второй алгоритм машинного обучения). Этот алгоритм прогнозирует будущий Value Parameter на основе признаков документа (Feature Vector), таких как качество контента, ссылочный профиль, авторитетность домена и история взаимодействия пользователей с другими страницами этого сайта. По сути, система оценивает потенциал страницы.

Означает ли этот патент, что размер страницы (Page Weight) стал фактором ранжирования?

Не совсем. Патент описывает процесс отбора для индексации (Index Selection), а не ранжирования в ответ на запрос пользователя. Однако размер страницы (Size) выступает как фактор «стоимости» хранения. Если страница слишком «тяжелая» относительно своей полезности (Value Parameter), она может быть вообще не включена в индекс. Поэтому оптимизация размера критически важна для обеспечения индексации.

Что такое Cumulative Quality Value Parameter (Qm) и как он рассчитывается?

Это целевая метрика, отражающая общую полезность всего индекса, которую система стремится максимизировать. Она рассчитывается по сложной формуле: $${Q_m} = \sum (q_i \cdot \sum s_j), p_j < p_i$$. Это означает, что ценность каждого документа (qi) взвешивается суммой размеров всех документов (sj), которые менее полезны, чем он. Такой подход позволяет оптимизировать состав индекса в целом.

Какой алгоритм машинного обучения используется для оптимизации индекса?

Патент указывает на использование «First MLA», который может быть реализован как модифицированный алгоритм LambdaMART. LambdaMART — это мощный алгоритм класса Learning-to-Rank (LTR), который обычно используется для ранжирования выдачи. Здесь он адаптирован для задачи оптимизации состава индекса путем прямой максимизации функции полезности Qm.

Как этот патент влияет на стратегию для больших сайтов (например, E-commerce)?

Для больших сайтов этот патент критически важен. Он подчеркивает необходимость жесткого контроля качества и технической оптимизации каждой страницы. Карточки товаров или листинги с низкими поведенческими факторами и большим размером (например, из-за неоптимизированных фото) рискуют быть исключенными из индекса. Необходимо сосредоточиться на оптимизации размера типовых страниц и улучшении вовлеченности.

Если моя страница уже в индексе, может ли она вылететь из-за этого алгоритма?

Да. Поисковый индекс периодически перестраивается и обновляется. Если при переоценке Value Parameter вашей страницы снизился (например, из-за ухудшения поведенческих факторов или устаревания контента), а ее размер (Size) остался высоким, система может принять решение исключить ее из следующей версии индекса в пользу более эффективных документов.

Стоит ли уменьшать количество контента на странице, чтобы уменьшить ее размер?

Нет, это рискованная стратегия. Уменьшение полезного контента может привести к снижению вовлеченности пользователей и, как следствие, к падению Value Parameter. Цель состоит не в том, чтобы сделать страницу пустой, а в том, чтобы сделать ее технически эффективной: оптимизировать код (HTML, CSS, JS) и медиафайлы, не жертвуя при этом качеством и полнотой раскрытия темы.

Учитывает ли этот алгоритм релевантность документа запросам?

Патент описывает, что в некоторых реализациях First MLA может не учитывать запросы и зависимые от запросов признаки, фокусируясь на общей полезности документа (query-independent value). Однако в альтернативных реализациях MLA может учитывать популярность запросов и статистику доступа к документу по разным запросам. В любом случае, Value Parameter косвенно связан с релевантностью, так как нерелевантные документы обычно имеют плохие поведенческие факторы.

Является ли этот подход просто сортировкой по соотношению Польза/Размер?

Нет. Патент упоминает, что простые подходы, основанные на соотношении Value/Size (например, $q_i = g(p_i/s_i^k)$), были рассмотрены, но признаны неоптимальными. Запатентованный метод использует более сложную listwise-оптимизацию через LambdaMART и функцию Qm, которая учитывает взаимозависимости между всеми документами для достижения глобального оптимума.