Яндекс патентует механизм для предотвращения появления нерелевантных результатов в топе выдачи, когда пользователь применяет сортировку (например, по цене в E-commerce). Система использует машинное обучение для предсказания, ухудшит ли конкретный объект качество отсортированной выдачи. Если объект признается нерелевантным интенту (например, дешевый аксессуар к дорогому товару), он исключается из списка до сортировки.
Описание
Какую задачу решает
Патент решает проблему деградации качества и релевантности поисковой выдачи, когда пользователь применяет сортировку по вторичным характеристикам (например, цена, дата, популярность). Стандартный подход к сортировке часто выводит в топ объекты, которые формально соответствуют критерию (например, самые дешевые), но нерелевантны исходному интенту запроса. Классический пример: при поиске «iPhone X» и сортировке по возрастанию цены в топ попадают чехлы и зарядки. Это ухудшает пользовательский опыт и снижает метрики качества поиска.
Что запатентовано
Запатентован метод и система селективного ранжирования. Суть изобретения заключается во введении этапа предварительного отбора (селекции) объектов перед применением сортировки по вторичному признаку. Система использует алгоритм машинного обучения (MLA) для расчета Object Parameter. Этот параметр предсказывает, повысит ли включение объекта в отсортированный список общую Quality Metric. Объекты с низким параметром исключаются до сортировки.
Как это работает
Система сначала формирует выдачу на основе Objective Characteristic (релевантности). Когда пользователь активирует сортировку по Secondary Characteristic (например, цене), система не просто переупорядочивает результаты. Вместо этого MLA (обученный на оценках асессоров) оценивает каждый объект и вычисляет Object Parameter, который отражает баланс (trade-off) между релевантностью и значением вторичной характеристики. Объекты, которые, по прогнозу, снизят качество отсортированной выдачи (например, нерелевантные, но дешевые), отфильтровываются. Оставшиеся объекты затем ранжируются строго в соответствии с выбранной Secondary Characteristic.
Актуальность для SEO
Высокая. Проблема поддержания релевантности при использовании фильтров и сортировок критически важна для всех E-commerce платформ (например, Яндекс Маркет) и агрегаторов. Использование машинного обучения для управления этим балансом является современным и актуальным подходом к улучшению пользовательского опыта.
Важность для SEO
Влияние на SEO значительно (7/10), особенно для E-commerce и сайтов-агрегаторов. Патент описывает механизм, который может полностью исключить объект из выдачи при активации сортировки, даже если он имеет привлекательное значение атрибута (например, низкую цену). Это означает, что маржинально релевантные товары или аксессуары не смогут получать трафик за счет низкой цены по запросам, нацеленным на основной продукт. Релевантность интенту является обязательным условием для присутствия в любой сортировке.
Детальный разбор
Термины и определения
- Digital Object (Цифровой объект)
- Элемент контента, который ранжируется системой. В контексте патента это чаще всего товары (offers) на e-commerce платформе, но также могут быть посты или новости.
- Filter Request (Запрос на фильтрацию/сортировку)
- Действие пользователя, направленное на переупорядочивание результатов поиска на основе Secondary Characteristic (например, «сортировать по цене»).
- MLA (Machine Learning Algorithm / Алгоритм машинного обучения)
- Алгоритм (например, градиентный бустинг — Gradient Boosted Decision Tree based MLA), обученный предсказывать Object Parameter на основе оценок асессоров.
- Objective Characteristic (Объективная характеристика)
- Основной критерий ранжирования, обычно это релевантность объекта поисковому запросу. Используется для формирования исходного набора результатов.
- Object Parameter (Параметр объекта)
- Ключевая метрика изобретения. Значение, рассчитанное MLA для объекта, указывающее на вероятность того, что включение этого объекта в переранжированный (отсортированный) набор увеличит общую Quality Metric этого набора.
- Quality Metric (Метрика качества)
- Метрика, оценивающая полезность финального отсортированного списка. Упоминаются стандартные метрики ранжирования: DCG, NDCG, ERR, MAP, MRR.
- Secondary Characteristic (Вторичная характеристика)
- Атрибут объекта, который не обязательно указывает на его релевантность запросу. Используется пользователем для сортировки (например, цена, дата, популярность, рейтинг).
Ключевые утверждения (Анализ Claims)
Ядром изобретения является введение этапа селекции (отбора) объектов перед применением сортировки по вторичному признаку, основанного на предсказании качества финальной выдачи.
Claim 1 (Независимый пункт): Описывает основной метод работы системы.
- Выбор набора цифровых объектов на основе запроса пользователя (на базе Objective Characteristic).
- Получение Filter Request от пользователя для переранжирования на основе Secondary Characteristic.
- Отбор объектов для включения в переранжированный набор. Этот отбор включает:
- Определение для каждого объекта Object Parameter. Этот параметр указывает на вероятность того, что включение объекта увеличит Quality Metric переранжированного набора, учитывая Objective Characteristic (релевантность).
- Отбор объектов на основе их Object Parameters (например, по порогу).
- Ранжирование отобранных объектов на основе их значений Secondary Characteristic.
Claim 8 и Claim 11: Уточняют, что Object Parameter определяется с помощью MLA, например, градиентного бустинга.
Claim 10: Описывает процесс обучения MLA. Это критически важный пункт для понимания того, как система определяет качество.
MLA обучается на наборе данных, включающем объект, запрос, значение Secondary Characteristic и метку, сгенерированную асессором (assessor-generated label). Эта метка указывает, следует ли включать данный объект в подмножество результатов, учитывая как Secondary Characteristic, так и релевантность объекта запросу.
Claim 13: Определяет суть Object Parameter.
Параметр основан на компромиссе (trade-off) между количеством объектов, которые будут включены в переранжированный набор (полнота), и релевантностью включенных объектов.
Где и как применяется
Изобретение применяется в системах, где пользователи часто используют сортировку по атрибутам, отличным от релевантности, в первую очередь в E-commerce (Яндекс Маркет) и агрегаторах.
RANKING – Ранжирование (Пост-обработка / Re-ranking)
Механизм активируется после основного этапа ранжирования и в ответ на действия пользователя (Filter Request).
- Основное ранжирование: Система формирует исходный список результатов, ранжированный по Objective Characteristic (релевантности).
- Активация сортировки: Пользователь запрашивает сортировку по Secondary Characteristic (например, цене).
- Вычисление Object Parameter: Для объектов в этом списке MLA рассчитывает Object Parameter.
- Селекция (Фильтрация): Система применяет порог к Object Parameter и отбирает только те объекты, которые с высокой вероятностью улучшат качество финальной выдачи. Нерелевантные объекты отсеиваются.
- Переранжирование (Сортировка): Отобранные объекты упорядочиваются строго по значению Secondary Characteristic.
Офлайн-процессы (Обучение MLA)
Ключевая часть системы работает офлайн:
- Сбор данных для обучения (запросы, результаты, вторичные характеристики).
- Асессорская разметка (Assessor-generated labels) для определения Ground Truth: какие объекты должны оставаться в выдаче после сортировки, а какие являются мусором.
- Обучение MLA для предсказания этих меток.
На что влияет
- Конкретные ниши и типы контента: Наибольшее влияние оказывается на E-commerce, маркетплейсы, агрегаторы товаров и услуг. Влияет на видимость аксессуаров и сопутствующих товаров при поиске основного продукта.
- Специфические запросы: Запросы, подразумевающие покупку конкретного товара (например, «купить»), где пользователи часто используют сортировку по цене.
Когда применяется
- Триггеры активации: Алгоритм активируется в момент, когда пользователь отправляет Filter Request — активирует сортировку результатов поиска по вторичному признаку (Secondary Characteristic).
- Условия работы: Наличие исходного набора результатов, ранжированных по релевантности, и наличие у этих результатов атрибута для сортировки.
Пошаговый алгоритм
Процесс А: Обработка запроса и сортировки (In-Use Phase)
- Получение запроса и генерация первичной выдачи: Система получает запрос и формирует набор релевантных объектов, ранжированных по Objective Characteristic.
- Получение Filter Request: Пользователь инициирует сортировку по Secondary Characteristic (например, цене).
- Расчет Object Parameter: Для каждого объекта в наборе с помощью обученного MLA вычисляется Object Parameter, предсказывающий влияние объекта на качество будущей отсортированной выдачи.
- Селекция объектов: Система отбирает объекты, чей Object Parameter превышает определенный порог. Это отсеивает объекты, которые могут быть нерелевантными, несмотря на подходящее значение Secondary Characteristic.
- Переранжирование: Отобранные объекты ранжируются (сортируются) строго на основе значений Secondary Characteristic.
- Выдача результатов: Формирование финального списка.
Процесс Б: Обучение MLA (Training Phase)
- Сбор обучающих данных: Для обучающего запроса формируется набор результатов.
- Симуляция сортировки: Набор сортируется по Secondary Characteristic.
- Асессорская оценка: Асессоры размечают объекты в отсортированном списке, указывая, релевантны ли они интенту запроса (следует ли их включать в выдачу). Это формирует Assessor-generated labels (Ground Truth).
- Подготовка признаков: Могут рассчитываться дополнительные признаки, упомянутые в патенте (например, средняя цена или максимальная релевантность в Топ-N релевантных объектов).
- Обучение MLA: MLA обучается предсказывать асессорскую метку (т.е. вычислять Object Parameter), используя исходную релевантность, значение Secondary Characteristic и дополнительные признаки.
Какие данные и как использует
Данные на входе
- Факторы релевантности (Objective Characteristic): Исходная оценка релевантности объекта запросу (скор основной ранжирующей модели).
- Атрибутивные факторы (Secondary Characteristic): Значения атрибутов объекта, по которым возможна сортировка (цена, рейтинг, дата и т.д.).
- Поведенческие факторы: Патент упоминает, что исходная релевантность (Objective Characteristic) может определяться на основе прошлых взаимодействий пользователей (Past user interactions data), таких как CTR, Click MRR, abandonment rate.
- Данные для обучения (Офлайн):
- Assessor-generated labels: Метки асессоров о том, должен ли объект присутствовать в отсортированной выдаче.
Какие метрики используются и как они считаются
- Object Parameter: Рассчитывается с помощью MLA (например, Gradient Boosted Decision Tree). Представляет собой вероятность того, что включение объекта улучшит Quality Metric.
- Quality Metric: Метрика для оценки качества финальной отсортированной выдачи. Патент упоминает стандартные метрики: DCG, NDCG, ERR, MAP, MRR. Метрика может быть основана на релевантности отсортированного списка или на предсказанном значении Secondary Characteristic в Топ-N.
- Trade-off (Компромисс): Метрика Object Parameter неявно кодирует компромисс между количеством показанных результатов и их релевантностью (Claim 13), особенно в Топ-N результатов (Claim 15).
Выводы
- Релевантность приоритетна даже при сортировке: Яндекс активно борется с деградацией релевантности, когда пользователи меняют порядок выдачи. Система готова пожертвовать формальным соответствием критерию сортировки (например, самой низкой ценой), чтобы не показывать нерелевантный мусор в топе.
- Селекция перед сортировкой: Ключевой механизм — это не смешивание релевантности и цены в одной формуле ранжирования, а жесткая фильтрация (селекция) объектов до применения сортировки. Если объект не прошел фильтр релевантности (низкий Object Parameter), он не участвует в сортировке.
- Качество определяется асессорами: Ground Truth для обучения MLA формируется асессорами, которые оценивают, уместен ли объект в отсортированной выдаче с точки зрения исходного интента. Система оптимизирована под человеческое восприятие баланса «цена/качество/релевантность».
- Борьба с «проблемой аксессуаров»: Патент напрямую направлен на решение ситуаций, когда дешевые сопутствующие товары вытесняют основные продукты при сортировке по цене в E-commerce.
- Фокус на качество Топ-N: Компромисс (Trade-off) и метрики качества фокусируются на верхних позициях выдачи (Top-N), что подчеркивает важность качества первой страницы.
Практика
Best practices (это мы делаем)
Рекомендации применимы в первую очередь к E-commerce проектам и агрегаторам.
- Максимизация релевантности основному интенту: Убедитесь, что карточка товара максимально релевантна целевому запросу на покупку именно этого товара. Сигналы релевантности (Objective Characteristic) являются входными данными для MLA. Чем выше исходная релевантность, тем выше вероятность пройти селекцию (получить высокий Object Parameter).
- Четкое разделение основных товаров и аксессуаров: Структурируйте каталог и оптимизируйте страницы так, чтобы поисковая система (и асессоры) четко понимала, где основной продукт, а где сопутствующий. Аксессуары должны быть оптимизированы под запросы на аксессуары.
- Оптимизация атрибутов и фидов: Предоставляйте точные и полные данные о Secondary Characteristics (цена, наличие, сроки доставки). Хотя система фильтрует по релевантности, финальное ранжирование происходит строго по этим атрибутам.
- Анализ выдачи при разных сортировках: Мониторьте видимость своих товаров не только в стандартной выдаче, но и при сортировке по цене/новизне. Если товар исчезает при сортировке, это признак того, что система считает его недостаточно релевантным для данного запроса.
Worst practices (это делать не надо)
- Манипуляция релевантностью для аксессуаров: Попытки оптимизировать дешевые аксессуары под запросы основных дорогих товаров (например, чехол под запрос «купить смартфон») становятся неэффективными. MLA присвоит ему низкий Object Parameter, и он будет исключен при сортировке по цене.
- Демпинг ценой для нерелевантных товаров: Стратегия получения трафика исключительно за счет низкой цены по слишком общим или нецелевым запросам становится рискованной, так как система ставит барьер релевантности.
- Смешивание разных сущностей на одной странице: Предложение на одной странице товара и множества разнородных аксессуаров может размыть основную релевантность и привести к низким оценкам MLA.
Стратегическое значение
Патент подтверждает стратегию Яндекса на улучшение качества поиска в вертикалях, особенно в E-commerce. Он демонстрирует сложный, основанный на ML подход к решению конкретной проблемы пользовательского опыта (UX) — неудовлетворительной сортировки. Для SEO-стратегии это сигнал о том, что атрибутивные факторы (цена, скорость) не могут компенсировать недостаток релевантности интенту пользователя. Качество предложения и точное попадание в интент становятся определяющими.
Практические примеры
Сценарий: Поиск товара и сортировка по цене
- Запрос пользователя: «Ноутбук Lenovo ThinkPad X1 Carbon».
- Исходная выдача (ранжирование по релевантности): В списке присутствуют разные конфигурации X1 Carbon, а также (ниже) блоки питания и док-станции для него.
- Действие пользователя: Активация сортировки «По возрастанию цены».
- Работа системы (Селекция): MLA анализирует объекты.
- Объект «Ноутбук X1 Carbon (базовая модель), цена 1000$»: Исходная релевантность высокая. MLA предсказывает, что объект соответствует интенту. Object Parameter высокий. Объект отобран.
- Объект «Блок питания для X1 Carbon, цена 50$»: Исходная релевантность средняя. MLA, обученный на асессорах, знает, что блоки питания в топе сортировки по цене снижают Quality Metric при поиске ноутбука. Object Parameter низкий. Объект исключен.
- Финальная выдача: Список содержит только ноутбуки X1 Carbon, отсортированные по цене. Самый дешевый объект в топе — ноутбук за 1000$, а не блок питания за 50$.
Вопросы и ответы
Что такое Objective Characteristic и Secondary Characteristic в этом патенте?
Objective Characteristic — это основная релевантность объекта поисковому запросу. Она используется для первоначального ранжирования выдачи. Secondary Characteristic — это атрибут объекта, который не обязательно связан с релевантностью, например, цена, дата доставки, рейтинг товара или популярность. Он используется пользователем для сортировки или фильтрации уже найденных результатов.
В чем основная проблема, которую решает этот патент?
Он решает «проблему аксессуаров». Когда пользователь ищет дорогой товар (например, смартфон) и сортирует выдачу по возрастанию цены, в топ часто попадают дешевые, но нерелевантные основному интенту объекты (например, чехлы или кабели). Это ухудшает пользовательский опыт. Патент описывает механизм, который предотвращает попадание таких нерелевантных объектов в отсортированную выдачу.
Как именно система определяет, какие объекты исключить перед сортировкой?
Система использует специально обученный алгоритм машинного обучения (MLA). Этот MLA рассчитывает для каждого объекта метрику Object Parameter. Она предсказывает вероятность того, что включение данного объекта в отсортированный список повысит общее качество (Quality Metric) этого списка. Если Object Parameter низкий (объект, вероятно, ухудшит выдачу), он исключается до сортировки.
На чем обучается этот MLA? Как он понимает, что является качественным?
MLA обучается на оценках асессоров (Assessor-generated labels). Асессорам показывают отсортированную выдачу и просят отметить, какие объекты уместны, а какие нет, с учетом исходного запроса и критерия сортировки. Например, асессоры помечают чехлы как неуместные при поиске смартфона и сортировке по цене. MLA учится предсказывать эти оценки.
Означает ли это, что ранжирование по цене больше не работает строго по цене?
И да, и нет. Сам этап сортировки работает строго по значению атрибута (например, цены). Однако, объекты, которые участвуют в этой сортировке, предварительно проходят жесткий отбор (селекцию) на основе релевантности с помощью MLA. Таким образом, финальная выдача отсортирована по цене, но содержит только те объекты, которые система сочла достаточно релевантными.
На какие типы сайтов этот патент влияет больше всего?
Наибольшее влияние оказывается на E-commerce платформы, маркетплейсы (как Яндекс Маркет) и сайты-агрегаторы товаров и услуг. Везде, где есть листинги сущностей и возможность сортировки по цене, рейтингу, дате или другим атрибутам, этот механизм может применяться.
Как SEO-специалисту адаптироваться к этому механизму?
Необходимо сфокусироваться на максимальной релевантности карточки товара целевому интенту пользователя. Не стоит пытаться продвигать аксессуары по запросам основных продуктов в расчете на низкую цену. Важно четко структурировать каталог и обеспечивать высокую релевантность, чтобы товар прошел фильтр селекции.
Что такое «компромисс» (trade-off), упомянутый в патенте?
Claim 13 упоминает, что Object Parameter основан на компромиссе между количеством результатов в отсортированном списке (полнотой) и их релевантностью. Система стремится показать достаточное количество результатов, но при этом не допустить падения средней релевантности выдачи ниже приемлемого уровня. MLA ищет оптимальную точку в этом балансе.
Может ли этот механизм применяться в основном поиске (Web Search)?
Теоретически да, например, при сортировке результатов по дате. Однако основное применение, судя по примерам и описанию проблемы в патенте, нацелено на поиск по цифровым объектам с четкими атрибутами, таким как товары или услуги (Digital Object Services), где сортировка по нерелевантным признакам используется часто.
Если мой товар самый дешевый, гарантирует ли это первое место при сортировке по цене?
Нет, не гарантирует. Если система посчитает ваш товар недостаточно релевантным исходному запросу (т.е. MLA присвоит ему низкий Object Parameter), он будет исключен из списка до начала сортировки. Первое место займет самый дешевый товар среди тех, которые прошли фильтр релевантности.