Яндекс патентует систему автоматического создания «мета-признаков» для улучшения ранжирования. Эти признаки рассчитываются не изолированно для документа, а в контексте всей поисковой выдачи (SERP). Например, система оценивает значение фактора (скажем, CTR) относительно среднего или максимального значения этого фактора у конкурентов в той же выдаче. Новые признаки проверяются через A/B тесты на основе метрик вовлеченности пользователей, и лучшие внедряются в основную формулу ранжирования.
Описание
Какую задачу решает
Патент решает задачу повышения качества ранжирования путем автоматизации процесса создания новых признаков (Feature Engineering). Он направлен на преодоление ограничений стандартных факторов ранжирования, значения которых оцениваются абсолютно (например, CTR=5%). Проблема в том, что абсолютное значение фактора не учитывает контекст конкретной выдачи: 5% может быть отличным показателем для одного запроса и плохим для другого. Патент предлагает механизм для генерации мета-признаков (meta-features), которые оценивают документ относительно других результатов в той же SERP.
Что запатентовано
Запатентована система и метод автоматической генерации и валидации мета-признаков (Meta-features) для использования в алгоритме машинного обучения (MLA) для ранжирования. Суть изобретения заключается в создании новых признаков, основанных на комбинации существующих признаков документа и параметра, связанного с набором прошлых документов (Parameter associated with the set of past documents) — то есть контекста SERP. Эти новые признаки затем проверяются на полезность (например, через A/B тестирование) и, в случае успеха, включаются в модель ранжирования.
Как это работает
Система работает в несколько этапов. Сначала анализируются исторические данные о запросах и результатах выдачи. Затем генерируются мета-признаки. Ключевой механизм — это расчет значения признака для документа относительно контекста SERP. Например, система может рассчитать, насколько значение CTR документа отклоняется от среднего значения CTR всех документов в этой выдаче (стандартизация), или какова позиция документа, если отсортировать выдачу только по PageRank. После генерации эти признаки валидируются: система проверяет (например, с помощью A/B тестов), улучшается ли взаимодействие пользователей с выдачей, если ранжирование учитывает новый мета-признак. Если полезность (Usefulness) превышает порог, основной MLA обучается генерировать и использовать этот мета-признак для будущих запросов.
Актуальность для SEO
Высокая. Автоматическое создание признаков (AutoML, Automated Feature Engineering) является передним краем развития систем машинного обучения. Использование контекста SERP и относительных показателей для ранжирования является критически важным для современных поисковых систем, стремящихся максимизировать удовлетворенность пользователей в разнообразных поисковых сценариях.
Важность для SEO
Влияние на SEO критическое (9/10). Этот патент описывает механизм, который смещает фокус с абсолютных значений факторов ранжирования на относительные. Это означает, что для успешного ранжирования сайт должен не просто иметь «хорошие» показатели (поведенческие, ссылочные, текстовые), а иметь показатели, которые значительно лучше, чем у конкурентов в рамках конкретной поисковой выдачи. Это требует глубокого сравнительного анализа SERP и стратегии дифференциации.
Детальный разбор
Термины и определения
- First plurality of features (Первое множество признаков)
- Базовый набор признаков (факторов ранжирования), используемых MLA для оценки документа (например, BM25, PageRank, CTR).
- Given Feature (Заданный признак)
- Конкретный признак из базового набора, который используется как основа для генерации мета-признака.
- Meta-feature (Мета-признак)
- Новый, производный признак ранжирования. Его значение для конкретного документа рассчитывается на основе значения базового признака этого документа И контекста других документов в той же выдаче (SERP).
- MLA (Machine Learning Algorithm / Алгоритм машинного обучения)
- Основной алгоритм ранжирования поисковой системы (например, CatBoost), который использует признаки для сортировки результатов.
- Parameter associated with the set of past documents (Параметр, связанный с набором прошлых документов)
- Ключевой компонент для генерации мета-признака. Это контекст SERP. Он может включать: предварительный ранг документа, значение того же признака у другого документа в выдаче, среднее/максимальное значение признака в выдаче, стандартное отклонение и т.д.
- Past Documents / Current Documents (Прошлые / Текущие документы)
- Набор документов, показанных в ответ на запрос (SERP). Прошлые используются для генерации и обучения, текущие — для валидации и применения.
- Usefulness (Полезность)
- Метрика, определяющая влияние нового мета-признака на качество поиска, обычно измеряемая через изменение вовлеченности пользователей (User Engagement) в ходе A/B тестирования.
- Usefulness Threshold (Порог полезности)
- Базовый уровень качества поиска (например, метрика вовлеченности в контрольной группе A/B теста), который новый мета-признак должен превысить, чтобы быть принятым.
Ключевые утверждения (Анализ Claims)
Патент описывает фреймворк для автоматического создания и тестирования новых факторов ранжирования, основанных на относительном сравнении документов в рамках одной выдачи.
Claim 1 (Независимый пункт): Описывает основной процесс генерации и принятия мета-признака.
- Получение прошлого запроса и набора прошлых документов (SERP).
- Генерация мета-признака. Значение мета-признака для документа D является относительным значением (relative value) между значением определенного признака этого документа и значением этого же признака у других документов в наборе.
- Валидация мета-признака на основе его полезности (Usefulness). Полезность определяется путем сравнения взаимодействий пользователей с (i) текущим ранжированием и (ii) новым ранжированием, основанным на мета-признаке.
- Если полезность выше порога, генерация обучающих объектов для тренировки MLA.
Claim 3 (Зависимый от 1): Определяет природу контекста SERP (параметра).
Параметр, используемый для расчета мета-признака, может быть одним из следующего:
- Предварительный ранг (preliminary rank) документа.
- Значение того же заданного признака у другого документа из этого набора.
- Значение другого признака у того же или другого документа из этого набора.
Это подтверждает, что мета-признак является относительным или контекстуальным.
Claim 2 и 15 (Валидация): Детализируют процесс валидации (A/B тестирование).
- Определение порога полезности (Usefulness Threshold) на основе прошлых взаимодействий (контрольная группа).
- Ранжирование текущих документов с использованием нового мета-признака (тестовая группа).
- Сбор взаимодействий пользователей с этой новой выдачей.
- Определение полезности (Usefulness) мета-признака на основе этих взаимодействий.
Claim 13 (Применение): Описывает использование обученной модели для новых запросов.
Когда поступает новый запрос, MLA генерирует мета-признак на лету, используя предсказанные (predicted) значения базовых признаков и предсказанное значение параметра (контекста SERP), а затем использует этот мета-признак для финального ранжирования.
Где и как применяется
Изобретение затрагивает офлайн-процессы обучения и онлайн-процессы ранжирования.
Офлайн-процессы (Training Server)
- Генерация признаков: Система автоматически генерирует множество потенциальных мета-признаков на основе исторических данных (логи запросов, документы, значения факторов).
- Валидация (A/B тестирование): Проверка сгенерированных признаков на реальном трафике для определения их полезности (Usefulness) на основе метрик вовлеченности пользователей.
- Обучение MLA: Переобучение основного алгоритма ранжирования с включением валидированных мета-признаков.
RANKING – Ранжирование (Search Engine Server)
Применение происходит на этапах ранжирования, где доступен весь набор документов-кандидатов (вероятно, L2 или L3).
- Вычисление признаков: Для применения мета-признака системе необходимо сначала вычислить контекст SERP (например, среднее значение фактора X для всех кандидатов в выдаче), а затем вычислить значение мета-признака для каждого документа относительно этого контекста.
- Применение в формуле: MLA использует вычисленные значения мета-признаков наряду с базовыми признаками для определения финального ранга документа.
Патент упоминает (Claim 4), что может использоваться предварительное ранжирование для получения предварительных рангов, которые затем могут использоваться как параметр для генерации мета-признака. Это указывает на многоступенчатую архитектуру ранжирования.
На что влияет
- Все типы запросов и контента: Механизм универсален и может генерировать мета-признаки для любых типов запросов и тематик, так как он оперирует базовыми факторами ранжирования.
- Конкурентные ниши: Наибольшее влияние может наблюдаться в нишах, где документы имеют схожие абсолютные показатели. В таких случаях относительные признаки становятся решающими для определения лидеров.
Когда применяется
- Генерация и Валидация: Происходит периодически в офлайн-режиме или в рамках непрерывного цикла экспериментов (A/B тестов).
- Применение в ранжировании: Происходит в реальном времени при обработке каждого запроса, после того как мета-признак был валидирован и интегрирован в продакшн-модель MLA.
Пошаговый алгоритм
Фаза 1: Генерация и Валидация Мета-Признака (Офлайн/Эксперимент)
- Сбор исторических данных: Получение набора прошлых запросов и соответствующих им наборов документов (SERP), включая значения базовых признаков и данные о взаимодействиях пользователей.
- Определение базовой линии (Контроль): Расчет метрики вовлеченности пользователей (User Engagement Metric) для исторических данных. Это становится Порогом Полезности (Usefulness Threshold).
- Генерация Мета-признака:
- Выбор базового признака (Given Feature) (например, CTR).
- Выбор параметра контекста SERP (например, среднее значение CTR по всем документам в выдаче).
- Расчет значения мета-признака для каждого документа относительно этого параметра (например, по формуле стандартизации).
- Валидация (A/B Тест):
- Применение нового мета-признака для ранжирования текущих запросов (Тестовая группа).
- Сбор данных о взаимодействии пользователей с новой выдачей.
- Расчет метрики вовлеченности для тестовой группы (Полезность мета-признака).
- Принятие решения: Сравнение Полезности с Порогом Полезности. Если Полезность выше, мета-признак принимается.
Фаза 2: Обучение и Внедрение
- Формирование обучающей выборки: Создание обучающих объектов, включающих базовые признаки, значения принятого мета-признака и метки (взаимодействия пользователей).
- Обучение MLA: Переобучение основного алгоритма ранжирования для учета нового мета-признака.
Фаза 3: Применение в Продакшн (Онлайн)
- Получение нового запроса: Система получает запрос от пользователя.
- Подбор кандидатов: Генерация набора релевантных документов с базовыми признаками.
- Генерация Мета-признака (на лету): MLA рассчитывает контекст SERP (например, среднее значение признака по всем кандидатам) и вычисляет значение мета-признака для каждого документа.
- Ранжирование: MLA использует все признаки, включая сгенерированный мета-признак, для финальной сортировки выдачи.
- Ответ пользователю: Формирование SERP.
Какие данные и как использует
Данные на входе
Система использует практически все типы факторов, которые доступны MLA для ранжирования, так как любой из них может стать базой (Given Feature) для генерации мета-признака.
- Контентные факторы: Текстовые метрики (TF-IDF, BM25) для тела, заголовка, анкоров.
- Ссылочные факторы: Метрики веб-графа (PageRank, HITS), количество входящих/исходящих ссылок.
- Поведенческие факторы: Критически важны как для генерации мета-признаков (например, относительный CTR), так и для их валидации (метрики вовлеченности). Используются Clicks, Dwell time, Long/short click, CTR, Loss/Win.
- Технические/Структурные факторы: Характеристики URL, тип контента, статистика документа (количество слов).
- Временные факторы: Время создания/модификации документа.
Какие метрики используются и как они считаются
Патент описывает конкретные методы расчета мета-признаков, основанные на статистическом анализе распределения значений факторов в рамках одной SERP.
- Статистические агрегаты: Среднее значение (Average), Максимальное значение (Maximum), Минимальное значение (Minimum), Стандартное отклонение (Standard Deviation) признака в рамках SERP.
- Относительное значение (Relative Value): Рассчитывается как отношение значения признака документа к максимальному значению этого признака в SERP.
$${RelativeValue} = \frac{Value(D)}{MaxValue(SERP)}$$ - Стандартизация (Standardization / Z-score): Рассчитывается как отклонение значения признака от среднего по SERP, деленное на стандартное отклонение по SERP (Equation 1):
$$f_{m}=\frac{f_{ij}-avg(f_{j})}{std(f_{j})}$$ - Ранг по признаку (Rank by Feature): Позиция документа, если отсортировать SERP только по значению данного признака.
- Метрики Вовлеченности (User Engagement Metrics): Используются для валидации мета-признаков в ходе A/B тестирования (например, общая кликабельность выдачи, удовлетворенность сессии). Конкретные формулы метрик вовлеченности в патенте не приводятся.
Выводы
- Автоматизация Feature Engineering: Яндекс использует систему для автоматического поиска и внедрения новых факторов ранжирования (мета-признаков), что позволяет постоянно усложнять и улучшать формулу ранжирования без ручного вмешательства инженеров.
- Ключевая роль контекста SERP: Патент формализует переход от абсолютной оценки документа к относительной. Значение фактора ранжирования интерпретируется в контексте других документов, конкурирующих за позиции по тому же запросу.
- Генерация относительных признаков: Конкретные механизмы, такие как стандартизация (Z-score) и нормализация относительно максимума, позволяют выявить документы, которые значительно выделяются на фоне конкурентов по ключевым метрикам (ссылочным, поведенческим, текстовым).
- Валидация через поведение пользователей: Новые признаки принимаются только в том случае, если они доказуемо улучшают взаимодействие пользователей с поисковой выдачей, что определяется через A/B тестирование и анализ метрик вовлеченности (Usefulness).
- Многостадийное ранжирование: Система предполагает возможность вычисления мета-признаков на лету во время ранжирования, что требует доступа ко всему набору кандидатов и их признакам, а также может использовать предварительные ранги (preliminary ranks) для расчета контекста.
Практика
Best practices (это мы делаем)
- Сравнительный анализ SERP (Competitive SERP Analysis): Необходимо анализировать не только свой сайт, но и показатели конкурентов в целевой выдаче. Цель — понять средний и максимальный уровень по ключевым метрикам (качество контента, ссылочный профиль, поведенческие сигналы) и стремиться значительно превзойти его.
- Фокус на дифференциации и качестве: Стратегия должна быть направлена на то, чтобы сайт стал явным лидером по качественным характеристикам относительно конкурентов. Если все сайты в топе примерно одинаковы, система будет искать признаки, выделяющие лучший результат.
- Максимизация поведенческих факторов: Поскольку поведенческие факторы (например, CTR) могут использоваться для генерации относительных мета-признаков, критически важно добиваться показателей кликабельности и вовлеченности значительно выше среднего по выдаче. Это достигается через оптимизацию сниппетов, заголовков и качества контента.
- Усиление авторитетности (Topical Authority): Создание сильного ссылочного профиля и экспертного контента, который будет иметь высокие абсолютные значения факторов авторитетности, увеличивает вероятность того, что относительные мета-признаки (например, Rank by PageRank) будут также высокими.
Worst practices (это делать не надо)
- Оптимизация «в вакууме»: Работа над сайтом без учета конкурентной среды в SERP становится неэффективной. Достижение неких абсолютных показателей (например, «хорошей» скорости загрузки или определенного объема текста) может быть недостаточным, если конкуренты в топе имеют лучшие показатели.
- Слепое копирование лидеров: Простое копирование характеристик лидеров SERP приведет к усреднению показателей. Система ищет отклонения от среднего (выдающиеся результаты), а не соответствие среднему.
- Игнорирование слабых сторон конкурентов: Если у конкурентов в SERP есть общая слабая сторона, оптимизация этого аспекта на своем сайте может дать значительное преимущество за счет высоких значений относительных мета-признаков.
Стратегическое значение
Этот патент подтверждает стратегический приоритет Яндекса на машинное обучение и автоматизацию улучшения ранжирования. Он демонстрирует, что конкуренция в поиске происходит на уровне сравнения характеристик документов в реальном времени. Для SEO это означает, что невозможно найти «волшебную таблетку» или фиксированный набор правил. Долгосрочная стратегия должна основываться на глубоком понимании ниши и постоянном превосходстве над конкурентами по всем фронтам, так как система автоматически найдет те метрики, по которым ваш сайт выделяется (в лучшую или худшую сторону) относительно других результатов.
Практические примеры
Сценарий 1: Применение мета-признака «Стандартизированный CTR»
- Контекст: Запрос «купить холодильник недорого». Средний CTR документов в выдаче (Avg) = 8%. Стандартное отклонение (Std) = 2%.
- Сайт А: Имеет CTR = 9%.
- Сайт Б: Имеет CTR = 12%.
- Расчет мета-признака (Z-score):
- Сайт А: (9 — 8) / 2 = 0.5
- Сайт Б: (12 — 8) / 2 = 2.0
- Результат: Хотя оба сайта имеют CTR выше среднего, Сайт Б значительно сильнее выделяется на фоне конкурентов (2 стандартных отклонения против 0.5). MLA учтет это высокое значение мета-признака и даст Сайту Б существенный буст в ранжировании.
Сценарий 2: Применение мета-признака «Ранг по Авторитетности»
- Контекст: Информационный запрос «симптомы дефицита витамина D». В выдаче много статей с похожей текстовой релевантностью.
- Действие системы: MLA использует мета-признак «Rank by PageRank» (или аналогичный фактор авторитетности). Она сортирует все 50 кандидатов в выдаче только по этому фактору.
- Результаты сортировки:
- Сайт Клиники (Высокий авторитет): Ранг 1
- Сайт Медицинского Журнала: Ранг 2
- Сайт Блогера (Низкий авторитет): Ранг 35
- Результат: Сайты Клиники и Журнала получают высокие значения этого мета-признака, что позволяет им обойти сайт Блогера в финальном ранжировании, даже если текстовая релевантность у всех была сопоставима.
Вопросы и ответы
Что такое «мета-признак» в контексте этого патента?
Мета-признак (Meta-feature) — это производный фактор ранжирования, который создается автоматически на основе существующих базовых факторов (например, CTR, BM25, PageRank). Ключевая особенность в том, что его значение рассчитывается не изолированно для документа, а относительно других документов в той же поисковой выдаче (SERP). Например, это может быть не абсолютный CTR, а то, насколько CTR документа выше среднего CTR по всем результатам в выдаче.
Что означает «Параметр, связанный с набором документов»?
Это и есть контекст SERP. Чтобы рассчитать относительный признак, нужно знать общее распределение значений. Этот параметр может быть средним значением фактора по всем документам в выдаче, максимальным значением, стандартным отклонением или даже предварительным рангом документа. Он служит точкой отсчета для оценки конкретного документа.
Как Яндекс определяет, что новый мета-признак полезен?
Яндекс использует процесс валидации, описанный как A/B тестирование. Система сравнивает две группы пользователей: одной показывают выдачу, ранжированную без нового признака (контроль), а другой — с учетом нового признака (тест). Если в тестовой группе метрики вовлеченности пользователей (User Engagement Metrics, например, клики, время на сайте, решение задачи) улучшаются, признак считается полезным и внедряется.
В патенте приводится формула стандартизации (Z-score). Что она дает на практике?
Формула $f_{m}=\frac{f_{ij}-avg(f_{j})}{std(f_{j})}$ позволяет определить, насколько сильно значение фактора у документа отклоняется от среднего значения по выдаче, измеренное в стандартных отклонениях. Если у документа Z-score равен 2, это значит, что его показатель на 2 стандартных отклонения лучше среднего. Это очень сильный сигнал для ранжирования, указывающий на то, что документ значительно выделяется на фоне конкурентов по данному фактору.
Как это влияет на SEO-стратегию? Нужно ли теперь игнорировать абсолютные значения факторов?
Нет, абсолютные значения по-прежнему важны, так как они являются основой для расчета относительных мета-признаков. Однако стратегия смещается в сторону обязательного сравнительного анализа SERP. Ваша цель — не просто достичь «хороших» показателей, а достичь показателей, которые значительно лучше, чем у ваших прямых конкурентов по конкретному запросу.
Может ли этот механизм навредить сайту?
Да, может. Если ваш сайт по ключевым метрикам (поведенческим, ссылочным, текстовым) стабильно хуже среднего уровня в вашей целевой выдаче, то относительные мета-признаки будут иметь низкие или отрицательные значения (например, отрицательный Z-score). Это будет сигналом для MLA понизить ваш сайт в ранжировании, отдавая предпочтение лидерам.
На каком этапе ранжирования вычисляются эти мета-признаки?
Для вычисления мета-признаков системе нужен доступ ко всему набору документов-кандидатов и их признакам, чтобы рассчитать контекст SERP (например, среднее значение). Это обычно происходит на средних или верхних уровнях ранжирования (L2/L3), после того как базовый набор кандидатов уже сформирован. Патент также упоминает использование предварительных рангов, что подтверждает многостадийность процесса.
Как я могу узнать, какие мета-признаки использует Яндекс сейчас?
Прямого способа узнать это нет, так как система генерирует и тестирует их автоматически и постоянно. Однако можно предположить, что наиболее очевидные относительные признаки, такие как стандартизированный CTR или относительная авторитетность, с высокой вероятностью используются. Ваша задача — анализировать SERP и выявлять, по каким параметрам лидеры значительно превосходят остальных.
Применимо ли это только к поведенческим факторам?
Нет, механизм универсален. Мета-признаки могут генерироваться на основе любых базовых факторов: текстовых (например, относительный BM25), ссылочных (например, ранг по PageRank внутри SERP), поведенческих (например, стандартизированный CTR) или технических (например, относительная скорость загрузки).
Что это значит для работы с низкочастотными (НЧ) запросами?
Для НЧ запросов данных может быть меньше, но принцип остается тем же. Даже если в выдаче мало статистики, система все равно может рассчитывать относительные показатели на основе статических факторов (текст, ссылки). Если ваш контент значительно более проработан и авторитетен, чем другие результаты по этому НЧ запросу, относительные мета-признаки это зафиксируют и дадут преимущество.