Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс автоматически создает новые факторы ранжирования (мета-признаки) на основе контекста SERP и относительных показателей

    СПОСОБ И СЕРВЕР ГЕНЕРИРОВАНИЯ МЕТА-ПРИЗНАКА ДЛЯ РАНЖИРОВАНИЯ ДОКУМЕНТОВ (Method and server for generating a meta-feature for ranking documents)
    • RU2721159C1
    • Yandex LLC
    • 2020-05-18
    • 2018-12-13
    2020 SERP Обучение моделей Патенты Яндекс Ранжирование

    Яндекс патентует систему автоматического создания и валидации новых факторов ранжирования (мета-признаков). Эти факторы вычисляются не изолированно для документа, а в контексте всей поисковой выдачи. Значение мета-признака зависит от значения базового фактора (например, CTR или BM25) относительно других документов в SERP (например, через нормализацию) или от предварительного ранга документа.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу повышения точности ранжирования путем автоматизации процесса разработки признаков (Feature Engineering). Он устраняет ограничения использования абсолютных значений признаков, внедряя механизм создания мета-признаков (meta-features) — производных факторов, которые учитывают контекст конкретной поисковой выдачи (SERP). Это направлено на улучшение ситуаций, когда результаты с высоким абсолютным рейтингом не удовлетворяют пользователя, в то время как контекстуально более релевантные результаты оказываются ниже.

    Что запатентовано

    Запатентована система автоматического инжиниринга признаков (AutoML/AutoFE) для машинного обучения в ранжировании. Суть изобретения — это способ генерации и валидации мета-признаков. Мета-признак вычисляется на основе (i) существующего признака документа (например, CTR) И (ii) параметра, связанного с набором документов (например, среднего CTR по всей выдаче или предварительного ранга документа). Это позволяет модели ранжирования учитывать не абсолютное, а относительное значение фактора в контексте конкретной SERP.

    Как это работает

    Система работает в двух режимах: Офлайн-валидация и Онлайн-применение.

    Офлайн: Система автоматически генерирует кандидатов в мета-признаки на основе исторических данных. Например, вычисляется стандартизированное значение BM25 относительно среднего по SERP. Затем новый признак валидируется через A/B-тестирование. Измеряется его полезность (usefulness) — влияние на метрики пользовательской вовлеченности. Если полезность выше порога, основной алгоритм машинного обучения (MLA) обучается использовать этот мета-признак.

    Онлайн: При получении запроса система часто использует двухэтапное ранжирование. На первом этапе вычисляется предварительный ранг. На втором этапе вычисляются мета-признаки, используя контекст первого этапа (например, статистику по набору кандидатов), и выполняется финальное переранжирование.

    Актуальность для SEO

    Высокая. Автоматизированный инжиниринг признаков и контекстно-зависимое ранжирование являются центральными элементами современных поисковых систем. Нормализация признаков в рамках одного запроса (Query-level Normalization, например, с помощью Z-score) — это стандартная и актуальная практика для повышения эффективности моделей ранжирования.

    Важность для SEO

    Влияние на SEO значительно (7/10). Патент демонстрирует механизм, при котором абсолютные значения факторов ранжирования (текстовая релевантность, поведенческие сигналы) имеют меньшее значение, чем их относительная величина по сравнению с конкурентами на конкретной SERP. Это означает, что SEO-стратегия должна фокусироваться не просто на улучшении метрик сайта, а на достижении показателей, значительно превышающих средний уровень конкурентов в топе выдачи.

    Детальный разбор

    Термины и определения

    A/B-тестирование (A/B Testing)
    Метод валидации мета-признака. Сравнивается контрольная версия (А, без мета-признака) и тестовая версия (В, с мета-признаком) для оценки влияния на пользовательскую вовлеченность.
    MLA (Machine Learning Algorithm / Алгоритм машинного обучения)
    Основной алгоритм ранжирования поисковой системы (например, CatBoost), который использует признаки и мета-признаки для определения порядка результатов.
    Мета-признак (Meta-Feature)
    Производный признак ранжирования, генерируемый автоматически. Его значение для документа основано на значении базового признака этого документа И значении параметра, связанного с набором документов (контекстом SERP). Часто является относительным или нормализованным признаком.
    Параметр, связанный с набором документов (Parameter related to the set of documents)
    Контекст поисковой выдачи. Это может быть статистика по признакам других документов в SERP (среднее, максимум, стандартное отклонение), предварительный ранг документа или значения других признаков.
    Первое множество признаков (First Set of Features)
    Набор существующих (базовых) признаков документа. Включает зависящие от запроса (например, BM25), независящие от запроса (например, PageRank) и поведенческие признаки (например, CTR).
    Полезность (Usefulness)
    Метрика, определяющая ценность мета-признака для ранжирования. Определяется на основе метрик пользовательской вовлеченности в ходе A/B-тестирования.
    Предварительный ранг (Preliminary Rank)
    Ранг документа после первого этапа ранжирования. Может использоваться как параметр для вычисления мета-признаков на втором этапе ранжирования.

    Ключевые утверждения (Анализ Claims)

    Патент охватывает как процесс автоматического создания и валидации новых признаков (Feature Discovery), так и процесс их применения в ранжировании.

    Claim 1 (Независимый пункт): Описывает офлайн-процесс генерации и валидации мета-признака.

    1. Система получает исторические данные: прошлый запрос и набор прошлых документов (SERP) с их признаками.
    2. Генерируется Мета-признак. Ключевое определение: его значение для документа D основано на (i) значении существующего признака F для D, И (ii) значении параметра, связанного с набором прошлых документов.
    3. Мета-признак утверждается (валидируется) на основе его полезности для ранжирования будущих SERP.
    4. Если полезность превышает порог, мета-признак принимается.

    Claim 2 и 9 (Зависимые пункты): Детализируют процесс валидации (Утверждения) через A/B-тестирование.

    1. Определяется порог (базовый уровень) на основе метрик пользовательской вовлеченности с прошлыми SERP (без мета-признака).
    2. Система получает текущие запросы и ранжирует документы, используя новый мета-признак.
    3. Измеряются текущие пользовательские взаимодействия с новыми SERP.
    4. Полезность определяется путем применения текущей метрики пользовательской вовлеченности к этим взаимодействиям.

    Claim 3 (Зависимый пункт): Определяет, чем может являться «Параметр, связанный с набором документов».

    Это критически важный пункт, определяющий контекст SERP. Параметр может быть:

    • Предварительным рангом соответствующего документа.
    • Значением того же признака (F) для других документов в наборе (что позволяет вычислить среднее значение, максимум и т.д.).
    • Значением другого признака (G).

    Claim 18 (Независимый пункт): Описывает онлайн-процесс ранжирования с использованием мета-признака, реализованный как двухэтапное ранжирование.

    1. Система получает запрос и генерирует набор текущих документов.
    2. Этап 1 (Предварительное ранжирование): MLA ранжирует документы на основе базовых признаков, получая Предварительный ранжированный список.
    3. Генерация Мета-признака: MLA генерирует мета-признак (определяемый как относительный признак). Его значение основано на базовом признаке И параметре, связанном с предварительным ранжированным списком.
    4. Этап 2 (Переранжирование): MLA переранжирует предварительный список на основе (как минимум) мета-признака, получая Окончательный список.

    Claim 19 (Зависимый пункт): Уточняет Claim 18. Параметром, связанным с предварительным ранжированным списком, может являться сам предварительный ранг документа.

    Где и как применяется

    Изобретение затрагивает офлайн-процессы обучения и онлайн-ранжирование.

    Офлайн-процессы и обработка данных (Feature Discovery & Validation)

    Это основная часть изобретения (Claims 1-12). Специализированный сервер (Сервер обучения 140) анализирует исторические данные (Журнал запросов 136, Журнал взаимодействий 138) для автоматического создания новых мета-признаков. Процесс включает генерацию кандидатов и их валидацию через A/B-тестирование для измерения влияния на пользовательскую вовлеченность. Успешные мета-признаки включаются в основную модель ранжирования (MLA 126).

    RANKING – Ранжирование (Уровни L2/L3/L4)

    Применение утвержденных мета-признаков происходит во время онлайн-ранжирования (Claims 18-19). Патент описывает реализацию через многоэтапное ранжирование:

    1. Предварительное ранжирование (L1/L2): Используются базовые (абсолютные) признаки для формирования предварительного списка кандидатов. Этот этап устанавливает контекст SERP (статистику по признакам кандидатов и предварительные ранги).
    2. Вычисление мета-признаков: Для каждого документа вычисляются мета-признаки на основе базовых значений и контекста, полученного на предыдущем этапе (например, нормализация признака относительно среднего по SERP или учет предварительного ранга).
    3. Финальное ранжирование (L3/L4): Тяжелая модель (MLA) использует эти мета-признаки для точного ранжирования и формирования финальной выдачи.

    QUALITY & GOVERNANCE LAYER
    Процесс валидации напрямую связан со слоем качества, так как использует метрики пользовательской вовлеченности (аналогичные Профициту) для принятия решения о внедрении нового признака.

    На что влияет

    • Все типы запросов и контента: Механизм универсален, так как он работает с любыми существующими признаками (текстовыми, ссылочными, поведенческими).
    • Конкурентные тематики: Наибольшее влияние наблюдается в тематиках, где у документов в топе схожие абсолютные показатели. В таких случаях относительные мета-признаки позволяют лучше дифференцировать результаты и выделить выбросы (outliers).

    Когда применяется

    • Генерация и Валидация: Происходит офлайн, периодически (например, каждые 6 месяцев, как указано в патенте), когда система ищет новые эффективные факторы.
    • Применение в Ранжировании: Происходит онлайн при обработке запросов, если модель ранжирования (MLA) была обучена использовать валидированные мета-признаки.

    Пошаговый алгоритм

    Процесс А: Офлайн генерация и валидация мета-признака (Feature Discovery)

    1. Сбор данных: Получение набора прошлых запросов и соответствующих им документов (SERP) с базовыми признаками и историей взаимодействий.
    2. Генерация кандидата (Мета-признака): Выбор базового признака (например, CTR) и параметра SERP (например, средний CTR по выдаче). Вычисление мета-признака по формуле (например, стандартизация).
    3. Определение базовой линии (Порога): Вычисление метрики пользовательской вовлеченности на исторических данных (без мета-признака).
    4. A/B Тестирование: Развертывание тестовой версии ранжирования, использующей новый мета-признак, для части трафика.
    5. Измерение Полезности: Сбор пользовательских взаимодействий в тестовой группе и вычисление метрики вовлеченности.
    6. Валидация: Сравнение Полезности с Порогом. Если Полезность выше, мета-признак принимается.
    7. Обучение MLA: Переобучение основной модели ранжирования для включения нового мета-признака.

    Процесс Б: Онлайн ранжирование с использованием мета-признака (Двухэтапный подход)

    1. Получение запроса и кандидатов: Система получает запрос и извлекает релевантные документы с их базовыми признаками.
    2. Этап 1 (Предварительное ранжирование): Ранжирование на основе базовых признаков. Результат: Предварительный ранжированный список.
    3. Определение контекста SERP: Вычисление параметров, связанных с набором документов (например, среднее значение признака F по списку, стандартное отклонение, определение предварительных рангов).
    4. Вычисление Мета-признаков: Для каждого документа вычисляется значение мета-признака на основе его базового признака и контекста SERP (например, вычисление Z-score для признака F).
    5. Этап 2 (Финальное ранжирование): Переранжирование списка с использованием вычисленных мета-признаков.
    6. Выдача SERP.

    Какие данные и как использует

    Данные на входе

    Система использует широкий спектр существующих признаков (Первое множество признаков) в качестве входных данных для генерации мета-признаков:

    • Контентные (Зависящие от запроса) факторы: TF-IDF, BM25, LMIR.ABS, LMIR.DIR для тела, анкора, заголовка, URL.
    • Ссылочные (Независящие от запроса) факторы: PageRank, HITS (поиск по заданной теме на базе гиперссылок), количество входящих/исходящих ссылок.
    • Технические и Структурные факторы: Количество слов, характеристики URL (глубина, количество косых черт), тип содержимого.
    • Поведенческие факторы (Пользовательские взаимодействия): Критически важны как базовые признаки и как данные для валидации. Включают: Потери/Приобретения (Loss/Win), Время пребывания (Dwell time), Длинный/короткий клик, Показатель кликабельности (CTR).
    • Временные факторы: Время создания/изменения документа.

    Какие метрики используются и как они считаются

    • Мета-признаки (Относительные/Нормализованные): Патент приводит несколько примеров вычисления мета-признаков:
      • Стандартизация (Z-score): Это явный пример нормализации признака в контексте запроса. Значение мета-признака $f_{m}$ вычисляется как:
        $$f_{m}=\frac{f_{ij}-avg(f_{j})}{std(f_{j})}$$
        Где $f_{ij}$ — значение базового признака для документа, а $avg(f_{j})$ и $std(f_{j})$ — среднее значение и стандартное отклонение этого признака для всего набора документов в ответ на запрос.
      • Нормализация по максимуму: Значение признака делится на максимальное значение этого признака в наборе документов.
      • Ранжирование по значению признака: Сортировка документов по значению базового признака и использование позиции в этом отсортированном списке как значения мета-признака.
    • Параметры SERP: Для расчета мета-признаков вычисляются статистические показатели: Среднее значение (Average), Стандартное отклонение (Standard Deviation), Максимум, Минимум. Также используется Предварительный ранг.
    • Метрики оценки (Validation Metrics): Метрики пользовательской вовлеченности, используемые в A/B-тестировании для определения Полезности мета-признака.

    Выводы

    1. Ранжирование относительно контекста SERP: Ключевой вывод — Яндекс активно использует механизмы, которые оценивают факторы ранжирования не в абсолютных значениях, а относительно других документов в той же поисковой выдаче. Это подход, известный как Query-level Normalization.
    2. Автоматический поиск новых факторов (AutoML/Feature Discovery): Яндекс использует автоматизированную систему для генерации производных признаков (мета-признаков) и их валидации через A/B-тесты на реальном трафике. Это позволяет формуле ранжирования постоянно эволюционировать.
    3. Важность выделения на фоне конкурентов (Стратегия Outlier): Механизмы нормализации (например, стандартизация/Z-score) означают, что наибольший буст получают документы, чьи показатели значительно отклоняются от среднего уровня по SERP в лучшую сторону. Быть немного лучше среднего недостаточно.
    4. Двухэтапное ранжирование и влияние предварительного ранга: Патент подтверждает использование многоэтапного ранжирования, где результаты первого этапа (предварительный ранг) могут напрямую использоваться как входные данные (параметр) для вычисления мета-признаков на финальном этапе ранжирования.
    5. Поведенческие факторы как эталон качества: Успех любого нового мета-признака измеряется его влиянием на метрики пользовательской вовлеченности. Поведение пользователей остается главным критерием качества ранжирования и валидации новых факторов.

    Практика

    Best practices (это мы делаем)

    • Глубокий анализ конкурентов на уровне SERP: Необходимо анализировать не только контент конкурентов, но и их предполагаемые метрики (например, длину контента, структуру, скорость загрузки, показатели вовлеченности). Понимайте, какие средние показатели характерны для топа по вашим целевым запросам.
    • Стратегия «Outlier» (Быть Выбросом): Стремитесь значительно превзойти средние показатели конкурентов в топе. Если средняя длина текста в Топ-10 составляет 1000 слов, ваш контент должен быть не 1100 слов, а значительно более проработанным и качественным, чтобы получить максимальный вес от нормализованного мета-признака (например, Z-score).
    • Максимизация качества поведенческих сигналов: Поскольку поведенческие факторы (CTR, время пребывания) используются и как базовые признаки для генерации мета-признаков, и как метрики для их валидации, необходимо фокусироваться на создании контента, который максимально вовлекает пользователя и решает его задачу лучше, чем у конкурентов.
    • Комплексная оптимизация: Улучшайте все группы факторов. Поскольку система может автоматически комбинировать любые признаки (например, текстовую релевантность и предварительный ранг), важно не иметь слабых мест, которые могут быть использованы в производных мета-признаках.

    Worst practices (это делать не надо)

    • Оптимизация «в вакууме»: Улучшение показателей сайта без учета конкурентной среды в конкретной SERP. Абсолютные значения могут быть высокими, но если у конкурентов они выше, относительные значения будут низкими.
    • Стратегия «Достаточно хорошо» (Good Enough): Создание контента или улучшение технических параметров до уровня, который лишь соответствует среднему значению по Топ-10. При нормализации (Z-score) такие результаты получат вес близкий к нулю.
    • Игнорирование специфики выдачи: Применение общих стратегий без учета контекста конкретного кластера запросов. Механизм мета-признаков позволяет Яндексу адаптировать вес факторов под специфику распределения значений в каждой конкретной выдаче.

    Стратегическое значение

    Этот патент демонстрирует высокий уровень зрелости инфраструктуры машинного обучения Яндекса (AutoML) и подтверждает стратегический переход от абсолютных оценок к относительным, контекстно-зависимым моделям. Это делает ранжирование более динамичным и зависимым от конкурентной среды. Долгосрочная стратегия должна строиться на создании ресурсов, которые не просто релевантны, а являются лучшим ответом на запрос по совокупности факторов по сравнению с любым другим результатом в выдаче.

    Практические примеры

    Сценарий: Влияние нормализации поведенческого фактора (Время пребывания) с использованием Z-score

    1. Запрос: «Как выбрать ноутбук 2025».
    2. Контекст SERP (Анализ): SEO-специалист анализирует Топ-10. Предполагаемое среднее время пребывания (Avg Dwell Time) на страницах в топе высокое — 4 минуты (240 секунд). Стандартное отклонение (Std Dev) — 30 секунд.
    3. Действие системы (Вычисление мета-признака): Яндекс использует мета-признак на основе стандартизации (Z-score) времени пребывания.
    4. Сравнение результатов:
      • Сайт А имеет Dwell Time 250 секунд (чуть выше среднего). Его Z-score: (250 — 240) / 30 = 0.33.
      • Сайт Б имеет Dwell Time 330 секунд (значительно выше среднего). Его Z-score: (330 — 240) / 30 = 3.0.
    5. Результат: Хотя Сайт А лучше среднего, его буст от этого мета-признака минимален (0.33). Сайт Б получает огромный буст (3.0), так как он является явным выбросом (outlier) по этому показателю относительно конкурентов в SERP. SEO-специалисту Сайта А нужно радикально переработать контент (например, добавить интерактивные элементы, видео, подробные сравнения), чтобы значительно увеличить вовлеченность и достичь показателей Сайта Б.

    Вопросы и ответы

    Что такое «мета-признак» в контексте этого патента?

    Мета-признак — это автоматически сгенерированный производный фактор ранжирования. Он вычисляется не изолированно для документа, а в контексте всей поисковой выдачи (SERP). Его значение зависит от двух компонентов: значения базового признака документа (например, его BM25) и параметра, связанного с набором документов (например, среднего BM25 по всей SERP или предварительного ранга документа). По сути, это часто нормализованное или относительное значение базового фактора.

    Что означает «Параметр, связанный с набором документов»?

    Это контекст SERP. Патент явно указывает, что этим параметром может быть статистика по другим документам в выдаче (например, среднее значение, максимум, стандартное отклонение какого-либо фактора), либо результат предварительного ранжирования (например, предварительный ранг документа). Этот параметр используется для нормализации или сравнения базового признака документа с его окружением.

    Как Яндекс определяет, что новый мета-признак полезен?

    Яндекс использует строго формализованный процесс валидации через A/B-тестирование. Новый мета-признак внедряется в ранжирование для тестовой группы пользователей. Затем система измеряет его «полезность» — влияние на метрики пользовательской вовлеченности (клики, время на сайте и т.д.). Если вовлеченность в тестовой группе статистически значимо выше, чем в контрольной группе (без мета-признака), признак считается полезным и принимается.

    В патенте упоминается формула стандартизации (Z-score). Что это значит для SEO?

    Это критически важно. Стандартизация $f_{m}=\frac{f_{ij}-avg(f_{j})}{std(f_{j})}$ означает, что система измеряет, насколько сильно значение фактора вашего документа отклоняется от среднего значения по SERP. Если ваш показатель равен среднему, вес мета-признака будет нулевым. Чтобы получить значительный буст, ваши показатели должны быть значительно лучше среднего (быть выбросом/outlier). Это требует постоянного анализа конкурентов в топе и стремления радикально превзойти их.

    Что такое двухэтапное ранжирование, описанное в патенте?

    Это процесс, при котором ранжирование происходит в два шага. На первом этапе (Предварительное ранжирование) документы сортируются по базовым признакам. Этот этап устанавливает контекст SERP (например, вычисляет средние значения факторов и определяет предварительные ранги). На втором этапе вычисляются мета-признаки с использованием этого контекста, и происходит финальное переранжирование.

    Может ли предварительный ранг документа влиять на его финальный ранг?

    Да, патент явно указывает (Claim 19), что предварительный ранг может использоваться как параметр для вычисления мета-признаков на финальном этапе ранжирования. Это может использоваться для моделирования позиционного смещения (positional bias) или для разного взвешивания факторов в зависимости от того, находится ли документ уже в топе или в хвосте выдачи на предварительном этапе.

    Влияет ли этот патент на работу с поведенческими факторами?

    Да, значительно. Поведенческие факторы (CTR, время пребывания) выступают в двух ролях. Во-первых, они являются базовыми признаками, из которых могут генерироваться мета-признаки (например, относительный CTR). Во-вторых, метрики вовлеченности являются эталоном для валидации всех новых мета-признаков. Это подчеркивает необходимость максимизации позитивных поведенческих сигналов относительно конкурентов.

    Как этот патент меняет подход к анализу конкурентов?

    Он делает анализ конкурентов на уровне конкретной SERP обязательным. Недостаточно знать общие лучшие практики в нише. Необходимо понимать, какие средние показатели характерны для Топ-10 по целевому запросу, и стратегически планировать, как значительно превзойти этот средний уровень, чтобы получить преимущество от нормализованных мета-признаков.

    Является ли этот патент описанием конкретного алгоритма ранжирования?

    Нет, это не описание алгоритма ранжирования. Это описание инфраструктуры и методологии для автоматического улучшения существующих алгоритмов ранжирования (AutoML/AutoFE). Патент описывает, как Яндекс автоматически находит, тестирует и внедряет новые факторы ранжирования, делая основную формулу более адаптивной и точной.

    Стоит ли пытаться оптимизировать сайт под конкретные мета-признаки?

    Прямая оптимизация под мета-признаки невозможна, так как мы не знаем, какие именно комбинации Яндекс использует в данный момент, и они могут постоянно меняться (благодаря автоматическому инжинирингу). Вместо этого следует сосредоточиться на фундаментальной стратегии: быть лучшим ответом по всем группам факторов относительно прямых конкурентов в SERP. Это автоматически приведет к высоким значениям относительных мета-признаков.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.