Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс решает проблему «холодного старта» для новых элементов в рекомендательных системах (например, Музыка, Маркет)

    SYSTEM AND A METHOD OF GENERATING A TRAINING SET OF DATA FOR TRAINING A MACHINE-LEARNING ALGORITHM (Система и метод генерации обучающего набора данных для обучения алгоритма машинного обучения)
    • US20240232709A1
    • Yandex LLC
    • 2024-07-11
    • 2023-12-22
    2024 Патенты Яндекс Рекомендательные системы Холодный старт Яндекс Музыка

    Яндекс патентует методы генерации синтетической обратной связи (например, лайков/дизлайков) для новых элементов (треков, товаров), у которых еще нет реальной истории взаимодействий. Это позволяет рекомендательным системам (таким как Яндекс Музыка или Маркет) сразу включать новинки в рекомендации, решая проблему «холодного старта». Синтетическая обратная связь генерируется на основе схожести поставщиков контента или внешних сигналов популярности.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему «холодного старта» (Cold Start) в рекомендательных системах (таких как Яндекс Музыка, Маркет, Дзен). Проблема заключается в том, что новые цифровые элементы (New Digital Items), загруженные на платформу, не имеют истории взаимодействий или обратной связи от пользователей. Из-за этого основной алгоритм рекомендаций (MLA) не может оценить их релевантность и игнорирует их, что приводит к потере аудитории для новых поставщиков и снижению качества рекомендаций для пользователей.

    Что запатентовано

    Запатентована система и метод генерации синтетической обратной связи (Synthetic User Feedback) для новых цифровых элементов. Суть изобретения — создать для новинок искусственную историю взаимодействий (например, лайков/дизлайков), основанную на данных существующих элементов. Это позволяет сформировать обучающий набор данных, который используется для тренировки основного рекомендательного алгоритма (MLA), позволяя ему учитывать новинки сразу после их появления.

    Как это работает

    Система генерирует синтетическую обратную связь, используя два основных подхода:

    1. Модель скоринга (Scoring ML Model): Обучается специальная модель, которая предсказывает вероятность положительной обратной связи для нового элемента. В качестве признаков используются оценка схожести поставщика (Similarity Score) нового элемента с существующими поставщиками и внешние сигналы популярности (Popularity Parameter) (например, чарты, стримы на других платформах). Модель обучается так, чтобы распределение синтетической обратной связи соответствовало общему распределению на платформе.
    2. Мимикрия (Mimicking): Для нового поставщика находится наиболее похожий существующий поставщик (Reference Old Item Provider). Система анализирует распределение обратной связи его элементов и копирует это распределение для новых элементов.

    Актуальность для SEO

    Высокая для рекомендательных систем. Проблема «холодного старта» является критически важной для любой платформы, работающей с пользовательским контентом или большим каталогом (музыка, видео, e-commerce). Описанные методы использования внешних сигналов и схожести поставщиков актуальны для современных систем.

    Важность для SEO

    Влияние на SEO минимально (1/10). Этот патент НЕ относится к ранжированию в веб-поиске Яндекса. Он описывает внутренние механизмы работы рекомендательных платформ (Яндекс Музыка, Маркет, Кинопоиск и т.д.). Хотя он критически важен для оптимизации видимости внутри этих платформ (например, для музыкантов или продавцов), он не дает практических рекомендаций для традиционного SEO веб-сайтов.

    Детальный разбор

    Термины и определения

    Cold Start (Холодный старт)
    Ситуация, когда рекомендательная система не может давать рекомендации для новых элементов или новых пользователей из-за отсутствия истории взаимодействий.
    Digital Item (Цифровой элемент)
    Единица контента на рекомендательной платформе (например, аудиотрек, видеоклип, товар в листинге).
    Feedback Distribution (Распределение обратной связи)
    Статистическое распределение индикаторов обратной связи (например, соотношение лайков и дизлайков) по набору элементов.
    Item Provider (Поставщик элемента)
    Сущность, загружающая контент на платформу (например, музыкант, продюсерский центр, продавец на маркетплейсе).
    MLA (Machine-Learning Algorithm)
    Основной алгоритм машинного обучения, который генерирует рекомендации для пользователей платформы.
    New/Old Digital Items (Новые/Старые цифровые элементы)
    Старые элементы имеют историю взаимодействий и обратную связь. Новые элементы не имеют обратной связи (devoid of any user feedback).
    Popularity Parameter/Value (Параметр популярности)
    Метрика популярности элемента, основанная на внешних источниках, вне данной рекомендательной платформы (например, количество стримов на другой платформе, позиция в чартах, продажи альбомов).
    Scoring Machine-Learning Model (Скоринговая модель машинного обучения)
    Вспомогательная модель, обучаемая для предсказания (генерации) синтетической обратной связи для новых элементов. Она использует распределение обратной связи старых элементов как эталон (ground truth).
    Similarity Score (Оценка схожести)
    Метрика, указывающая на степень схожести нового поставщика с существующими поставщиками.
    Synthetic User Feedback (Синтетическая обратная связь)
    Искусственно сгенерированная обратная связь (например, лайки/дизлайки) для новых элементов, используемая для обучения MLA в условиях холодного старта.

    Ключевые утверждения (Анализ Claims)

    Патент описывает два основных варианта реализации (Embodiments) для генерации синтетической обратной связи.

    Claim 1 (Независимый пункт) – Вариант 1 (Модель Скоринга): Описывает двухэтапный процесс.

    Этап 1 (Обучение Скоринговой Модели):

    1. Система получает старые элементы и их фактическую обратную связь.
    2. Scoring ML Model обучается предсказывать обратную связь. Ключевой момент: модель обучается так, чтобы ее предсказания соответствовали фактическому распределению обратной связи (Feedback Distribution) старых элементов (используется как Ground Truth).

    Этап 2 (Применение):

    1. Система получает новые элементы от нового поставщика.
    2. Обученная Scoring ML Model применяется к новым элементам для генерации Synthetic User Feedback.
    3. Генерируется обучающий набор данных (Новый элемент + Синтетическая обратная связь).
    4. Этот набор используется для обучения основного рекомендательного алгоритма (MLA).

    Claims 2, 3, 9, 10 (Уточнение Варианта 1): Детализируют, как именно Scoring ML Model предсказывает обратную связь. Она определяет вероятность положительной обратной связи на основе двух ключевых признаков:

    • Признак 1 (Claim 2, 3): Схожесть поставщика (Similarity Score). Вероятность рассчитывается по формуле (artistProba):

    $$ artistProba = a \cdot artistScore + b $$

    • Признак 2 (Claim 9, 10): Внешняя популярность элемента (Popularity Value). Вероятность рассчитывается по формуле (trackProb):

    $$ trackProb = c \cdot \frac{Popularity — minPopularity}{maxPopularity — minPopularity} + d $$

    Коэффициенты a, b, c, d определяются в процессе обучения Scoring ML Model (Этап 1).

    Claim 5 (Уточнение Признака 1): Описывает метод определения Similarity Score поставщика. Используется направленный граф, где вершины — это поставщики, а ребра — ненулевые значения параметра схожести между ними. Similarity Score определяется как максимальный общий вес вдоль пути перехода в этом графе.

    Claim 19 (Независимый пункт) – Вариант 2 (Мимикрия): Описывает альтернативный метод.

    1. Система получает нового поставщика и его новые элементы.
    2. Система анализирует схожесть нового поставщика с существующими и определяет эталонного старого поставщика (Reference Old Item Provider).
    3. Определяется Feedback Distribution (распределение обратной связи) элементов эталонного поставщика.
    4. Система назначает Synthetic User Feedback новым элементам таким образом, чтобы оно соответствовало (мимикрировало) этому распределению.
    5. Сгенерированные данные используются для обучения основного MLA.

    Где и как применяется

    Важно понимать, что этот патент не относится к архитектуре веб-поиска Яндекса (Crawling, Indexing, Ranking и т.д.). Он относится к инфраструктуре Рекомендательных Систем (Yandex Music, Market, Video).

    Слой Подготовки Данных и Обучения Моделей (Data Preparation & ML Training)
    Изобретение применяется на этапе подготовки данных для обучения основного рекомендательного алгоритма (MLA). Это, как правило, офлайн или пакетный процесс.

    Взаимодействие компонентов:

    • Система взаимодействует с базой данных цифровых элементов и логами обратной связи пользователей.
    • Она использует Scoring ML Model для генерации синтетических данных.
    • Она может использовать внешние источники данных для получения Popularity Value.
    • Она может использовать данные от асессоров (Human Assessors) для определения схожести поставщиков (Claim 8).
    • На выходе она предоставляет обучающий набор данных для основного MLA.

    На что влияет

    • Типы контента: Влияет на видимость новых цифровых элементов на рекомендательных платформах (аудиотреки, подкасты, видео, товары в e-commerce).
    • Ниши и тематики: Особенно сильно влияет на новых поставщиков (музыкантов, продавцов), которые только выходят на платформу и не имеют накопленной аудитории.

    Когда применяется

    • Триггер активации: Загрузка нового цифрового элемента (New Digital Item), который не имеет истории обратной связи (devoid of any user feedback). Это условие «холодного старта».
    • Частота применения: Применяется в процессе подготовки данных перед циклами обучения или дообучения основного рекомендательного алгоритма (MLA).
    • Обновление данных: Патент указывает (Claim 16), что если новый элемент получает реальную обратную связь от пользователей, система обновляет обучающий объект, заменяя синтетическую обратную связь на фактическую.

    Пошаговый алгоритм

    Патент описывает два основных алгоритма.

    Алгоритм 1: Генерация через Модель Скоринга (Claims 1-18)

    Этап 1: Обучение Scoring ML Model

    1. Сбор данных (Старые элементы): Получение набора старых элементов и их фактической обратной связи. Определение эталонного распределения (Feedback Distribution).
    2. Расчет признаков: Для старых элементов рассчитываются Similarity Score поставщиков (например, через графовый анализ) и Popularity Value (из внешних источников).
    3. Обучение модели: Scoring ML Model обучается предсказывать вероятность положительной обратной связи на основе этих признаков. Цель обучения — подобрать коэффициенты (a, b, c, d в формулах), чтобы предсказанное распределение максимально соответствовало эталонному.

    Этап 2: Применение к Новым Элементам

    1. Сбор данных (Новые элементы): Получение набора новых элементов.
    2. Расчет признаков: Для новых элементов рассчитываются Similarity Score (возможно, с использованием данных асессоров о схожести с существующими поставщиками) и Popularity Value.
    3. Генерация вероятностей: Применение обученной Scoring ML Model (с найденными коэффициентами) к признакам новых элементов для расчета вероятностей положительной обратной связи (artistProba и/или trackProba).
    4. Назначение обратной связи: Если вероятность выше верхнего порога — назначается положительная синтетическая обратная связь. Если ниже нижнего порога — отрицательная (Claim 12).
    5. Формирование датасета: Создание обучающего набора данных (Новый элемент + Синтетическая обратная связь).
    6. Обучение MLA: Передача датасета основному рекомендательному алгоритму.

    Алгоритм 2: Генерация через Мимикрию (Claim 19)

    1. Сбор данных: Получение нового поставщика и его элементов.
    2. Поиск эталона: Анализ схожести нового поставщика с существующими и выбор наиболее похожего эталонного поставщика (Reference Old Item Provider).
    3. Анализ распределения: Определение Feedback Distribution для элементов эталонного поставщика.
    4. Назначение обратной связи: Присвоение синтетической обратной связи новым элементам таким образом, чтобы их распределение точно соответствовало распределению эталонного поставщика.
    5. Обучение MLA: Передача сгенерированного датасета основному рекомендательному алгоритму.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Фактическая обратная связь пользователей (User Feedback) по старым элементам (лайки, дизлайки, оценки). Это основа для определения Feedback Distribution.
    • Временные факторы: Используются для разделения элементов на «старые» (есть история) и «новые» (нет истории).
    • Данные о поставщиках (Item Providers): Информация, позволяющая определить схожесть между поставщиками. Патент упоминает, что данные о схожести (Rank of Similarity) могут быть получены от Human Assessors (Claim 8).
    • Внешние данные (External Signals): Popularity Value элемента, полученная из источников вне платформы. Для аудио это могут быть: количество стримов на других ресурсах, запросы на проигрывание, позиция в чартах, количество проданных альбомов (Claim 11).

    Какие метрики используются и как они считаются

    • Feedback Distribution: Статистическое распределение. Может характеризоваться параметрами, такими как среднее значение, стандартное отклонение, асимметрия (skewness) и эксцесс (kurtosis) (упомянуто в описании,).
    • Similarity Parameter (Параметр схожести): Метрика схожести между двумя поставщиками (например, ранг схожести, определенный асессорами).
    • Similarity Score (Оценка схожести): Интегральная оценка схожести поставщика. Рассчитывается на основе графа схожести как максимальный общий вес пути (Claim 5). Вес ребра часто определяется как обратное значение параметра схожести (Claim 6).
    • Вероятность положительной обратной связи: Рассчитывается Scoring ML Model на основе двух формул:

    1. На основе схожести поставщика (Claim 3):

    $$ artistProba = a \cdot artistScore + b $$

    2. На основе внешней популярности (Claim 10):

    $$ trackProb = c \cdot \frac{Popularity — minPopularity}{maxPopularity — minPopularity} + d $$

    • Пороги вероятности (Probability Thresholds): Используются для принятия решения о назначении положительной или отрицательной синтетической обратной связи на основе рассчитанных вероятностей (Claim 12).
    • Алгоритмы машинного обучения: Для Scoring ML Model в описании упоминается Matrix Factorization, но Claims фокусируются на моделях, использующих признаки Similarity Score и Popularity Value. Для основного MLA упоминаются Decision tree-based MLA (например, CatBoost), Transformer-based MLA и Deep Semantic Similarity MLA (DSSM) (Claim 18).

    Выводы

    1. Патент для рекомендательных систем, не для SEO: Изобретение описывает инфраструктуру для платформ типа Яндекс Музыка или Маркет и не имеет прямого отношения к ранжированию в веб-поиске.
    2. Решение «холодного старта» через синтетические данные: Яндекс активно использует генерацию синтетической обратной связи (Synthetic User Feedback) для того, чтобы новые элементы могли сразу участвовать в рекомендациях, не дожидаясь накопления реальной статистики.
    3. Два ключевых подхода к генерации: Патент защищает два метода: (1) Предсказание на основе модели скоринга, которая учитывает общие распределения платформы, и (2) Прямое копирование распределения обратной связи наиболее похожего существующего поставщика.
    4. Важность внешних сигналов популярности: Внешняя популярность (Popularity Value) является одним из ключевых признаков для бутстраппинга новых элементов. Система учитывает успех элемента за пределами платформы Яндекса.
    5. Схожесть поставщиков как фактор: Схожесть нового поставщика (например, музыканта) с уже популярными (Similarity Score) является вторым ключевым признаком. Патент допускает использование человеческих оценок (Human Assessors) для определения этой схожести.
    6. Синтетические данные заменяются реальными: Сгенерированная обратная связь является временным решением. Как только элемент получает реальную обратную связь от пользователей, она заменяет синтетическую.

    Практика

    Практическое применение в SEO

    Этот патент описывает внутренние процессы рекомендательных систем и не дает практических выводов для традиционного SEO (продвижения сайтов в веб-поиске). Однако, если ваша работа включает оптимизацию присутствия на рекомендательных платформах Яндекса (например, Яндекс Маркет, Музыка), следующие выводы будут релевантны.

    Best practices (для рекомендательных платформ)

    • Максимизируйте внешнюю популярность перед запуском: Так как Popularity Value (внешние сигналы) является ключевым признаком для генерации синтетической обратной связи (Вариант 1), сильный запуск за пределами платформы (социальные сети, стримы, упоминания в СМИ) приведет к лучшим стартовым позициям в рекомендациях Яндекса.
    • Обеспечьте четкую идентификацию и схожесть: Система (в обоих вариантах) опирается на схожесть поставщиков (Similarity Score). Предоставляйте точные метаданные (жанр, категория, связанные сущности), чтобы системе или асессорам было проще идентифицировать похожих популярных поставщиков. Это увеличит шансы на получение качественной синтетической обратной связи.

    Worst practices (для рекомендательных платформ)

    • «Тихий» эксклюзивный запуск: Запуск нового продукта или трека эксклюзивно на платформе Яндекса без какой-либо внешней поддержки. В этом случае у системы не будет данных о внешней популярности, что может привести к пессимистичной генерации синтетической обратной связи.
    • Некорректные метаданные: Предоставление запутанных или неточных метаданных, которые мешают системе определить схожесть с другими поставщиками. Это может привести к ассоциации с нерелевантными или низкокачественными поставщиками и копированию их негативного распределения обратной связи (Вариант 2).

    Стратегическое значение

    Патент подтверждает, что для успешного старта на рекомендательных платформах Яндекса недостаточно просто загрузить контент. Система активно ищет внешние подтверждения ценности контента и использует схожесть с уже успешными игроками для прогнозирования успеха новинок. Это подчеркивает важность кросс-платформенной стратегии продвижения и построения репутации за пределами экосистемы Яндекса.

    Практические примеры

    Сценарий 1: Запуск нового музыкального трека на Яндекс Музыке (Вариант 1)

    1. Новый запрос (Current Query): Новый музыкант запускает трек и активно продвигает его в социальных сетях и на других стриминговых платформах, попадая в локальные чарты.
    2. Реакция системы: Яндекс фиксирует высокую внешнюю популярность (Popularity Value). Асессоры (или алгоритмы) определяют схожесть музыканта с существующими популярными артистами (Similarity Score).
    3. Генерация: Scoring ML Model, используя эти признаки, предсказывает высокую вероятность положительной обратной связи. Треку назначается позитивная синтетическая обратная связь.
    4. Результат: Основной MLA начинает активно рекомендовать трек пользователям сразу после запуска.

    Сценарий 2: Вывод нового товара на Яндекс Маркет (Вариант 2)

    1. Действие: Новый продавец загружает линейку товаров (например, аксессуары для смартфонов).
    2. Реакция системы: Система идентифицирует, что этот новый продавец наиболее похож на существующего Продавца А (Эталонный поставщик), у которого хорошее распределение отзывов (например, 80% положительных).
    3. Генерация: Система копирует распределение Продавца А и назначает синтетическую обратную связь новым товарам в той же пропорции (80% положительных).
    4. Результат: Новые товары сразу получают конкурентоспособный стартовый рейтинг в рекомендациях Маркета.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в поиске Яндекса?

    Нет, этот патент не имеет отношения к веб-поиску. Он описывает исключительно механизмы работы рекомендательных систем (таких как Яндекс Музыка, Маркет, Видео, Дзен) и методы решения проблемы «холодного старта» для нового контента на этих платформах. На SEO сайтов он не влияет.

    Что такое «холодный старт» и почему Яндекс его решает?

    «Холодный старт» — это ситуация, когда новый элемент (трек, товар) или новый пользователь появляется на платформе, и система ничего о нем не знает (нет истории взаимодействий, лайков, покупок). Из-за этого система не может его рекомендовать. Яндекс решает эту проблему, чтобы новинки быстрее находили свою аудиторию, а пользователи получали более разнообразные рекомендации.

    Что такое «синтетическая обратная связь»?

    Это искусственно сгенерированные данные о взаимодействиях (например, предполагаемые лайки или дизлайки), которые система присваивает новым элементам в отсутствие реальных данных. Она нужна исключительно для того, чтобы основной алгоритм рекомендаций (MLA) мог начать работать с новинками.

    Какие два основных метода генерации синтетической обратной связи описаны в патенте?

    Первый метод (Модель Скоринга) предсказывает вероятность положительной связи на основе признаков (схожесть поставщика и внешняя популярность), ориентируясь на общее распределение по платформе. Второй метод (Мимикрия) находит наиболее похожего существующего поставщика и просто копирует его распределение обратной связи для нового поставщика.

    Что такое «внешние сигналы популярности» и почему они важны?

    Это данные об успехе элемента за пределами платформы Яндекса (например, стримы на других сервисах, чарты, продажи, упоминания). Они важны, так как являются сильным признаком для Scoring ML Model (в Варианте 1). Если элемент популярен вовне, система сгенерирует ему более позитивную синтетическую обратную связь, что ускорит его продвижение на платформе Яндекса.

    Как система определяет схожесть поставщиков (например, музыкантов)?

    Патент описывает построение графа схожести, где вес пути определяет итоговую оценку (Similarity Score). При этом сами данные о схожести (кто на кого похож) могут быть получены разными путями, включая прямое использование оценок живых асессоров (Human Assessors).

    Если система сгенерирует плохую синтетическую обратную связь, мой новый товар обречен?

    Не обязательно. Синтетическая обратная связь — это временное решение. Патент указывает, что как только система получает реальную обратную связь от пользователей, она заменяет синтетические данные на фактические. Цель системы — как можно быстрее получить реальные данные.

    Что такое Scoring ML Model и чем она отличается от основного MLA?

    Scoring ML Model — это вспомогательная модель, задача которой — генерировать синтетическую обратную связь в условиях нехватки данных. Основной MLA (Machine-Learning Algorithm) — это главный рекомендательный движок платформы, который использует все доступные данные (включая синтетические, сгенерированные Scoring Model) для формирования финальных рекомендаций пользователю.

    Как я могу определить, какие запросы Яндекс считает похожими на мой целевой запрос?

    Ключевой вывод — не запускайтесь «в вакууме». Обеспечьте максимальную внешнюю активность вокруг запуска вашего нового товара или трека. Это даст системе позитивные внешние сигналы популярности. Также убедитесь, что ваши метаданные точны, чтобы система могла корректно определить схожесть с уже успешными продавцами или артистами.

    Использует ли Яндекс BERT или YATI в этом патенте?

    Для основного рекомендательного алгоритма (MLA) упоминаются Decision tree-based MLA (вероятно, CatBoost), Transformer-based MLA и Deep Semantic Similarity MLA (DSSM). Для вспомогательной Scoring ML Model в описании упоминается Matrix Factorization, хотя Claims фокусируются на моделях, использующих признаки схожести и популярности.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.