Как Яндекс оптимизирует показ рекламы в рекомендательных системах (например, Дзен) для достижения гарантированных результатов (SLA)

Яндекс патентует метод оптимизации рекламных кампаний в рекомендательных системах (например, Дзен). Система рассчитывает вероятность взаимодействия каждого пользователя с контентом, прогнозирует размер доступной аудитории и определяет минимальный порог вероятности. Реклама показывается только пользователям выше этого порога, чтобы гарантировать достижение заданного числа взаимодействий (SLA) при минимальном количестве показов.

Описание

Какую задачу решает

Патент решает задачу эффективного обеспечения гарантированных результатов рекламы (Service Level Agreement, SLA) в рамках рекомендательных систем (например, Яндекс.Дзен). Основная проблема — как гарантировать определенное количество взаимодействий (например, дочитываний или кликов) за заданный период времени без избыточного показа рекламы незаинтересованным пользователям. Изобретение оптимизирует таргетинг, минимизируя количество показов, необходимых для достижения цели, тем самым повышая удовлетворенность пользователей и снижая вычислительную нагрузку на систему.

Что запатентовано

Запатентована система и метод для оптимизированного целевого показа рекламы в рекомендательных сервисах. Суть изобретения заключается в расчете порога вероятности (Probability Threshold) взаимодействия пользователя с конкретным элементом контента. Реклама показывается выборочно — только тем пользователям, чья индивидуальная вероятность взаимодействия превышает этот порог. Это позволяет достичь заданного рекламодателем уровня сервиса (SLA) с максимальной эффективностью.

Как это работает

Система работает следующим образом: Рекламодатель (издатель) задает цель кампании: целевое количество взаимодействий ($T_{users}$) за целевой период времени ($T_{period}$). Система, используя алгоритмы машинного обучения (MLA), рассчитывает индивидуальный скор (вероятность взаимодействия) для каждого пользователя по отношению к рекламируемому контенту, используя векторные представления (эмбеддинги) контента и истории пользователя. Параллельно система оценивает общий размер доступной аудитории ($E_{users}$) в течение $T_{period}$. На основе этих данных рассчитывается минимальный порог вероятности. Реклама доставляется только пользователям, чей скор выше этого порога.

Актуальность для SEO

Высокая. Оптимизация показа рекламы, использование эмбеддингов для моделирования интересов пользователей (look-alike) и прогнозирование результатов кампаний являются стандартом в современных AdTech и рекомендательных системах, включая платформу Дзен.

Важность для SEO

Влияние на традиционное SEO минимально (2/10). Этот патент полностью сфокусирован на AdTech и оптимизации платного продвижения внутри рекомендательных систем (таких как Дзен), а не на ранжировании органического веб-поиска. Он не дает прямых рекомендаций для повышения позиций в Яндекс Поиске. Однако патент представляет исключительную ценность для понимания того, как Яндекс моделирует интересы пользователей и схожесть контента с помощью векторов и MLA. Эти знания критически важны для оптимизации контента под трафик из рекомендательных систем (Дзен).

Детальный разбор

Термины и определения

Content Element (Элемент цифрового контента): Единица контента (статья, видео, новость, товар), которая рекламируется в рекомендательном сервисе.
$E_{users}$ (Оцененное потенциальное количество пользователей): Прогнозное количество пользователей сервиса, которым потенциально может быть показан элемент контента в течение целевого периода времени $T_{period}$.
MLA (Machine Learning Algorithm, Алгоритм машинного обучения): Алгоритмы, используемые для формирования векторов, расчета вероятностей взаимодействия и оценки размера аудитории.
Probability Distribution (Распределение вероятности): Результат расчета вероятности выполнения действия для всего множества пользователей по отношению к конкретному элементу контента. Часто представляется в виде гистограммы.
Probability Threshold (Порог вероятности): Минимальная оценка (скор) вероятности взаимодействия. Рекламируемый контент предоставляется только тем пользователям, чья вероятность превышает этот порог. Является ключевым механизмом оптимизации показа.
Recommendation Service (Рекомендательный сервис): Система, формирующая персонализированную ленту контента для пользователя на основе его прошлых интересов (например, Yandex.Zen/Дзен).
SLA (Service Level Agreement, Уровень сервиса): Требование к результатам рекламной кампании, заданное издателем. Определяется параметрами $T_{users}$ и $T_{period}$.
$T_{period}$ (Целевой период времени): Период времени, в течение которого должно быть достигнуто целевое количество взаимодействий $T_{users}$.
$T_{users}$ (Целевое количество пользователей/действий): Требуемое количество пользователей, которые должны выполнить действие (клик, прочтение и т.д.) в отношении рекламируемого элемента контента.
Vector (Вектор / Эмбеддинг): Численное представление элемента контента (Content Vector) или истории взаимодействия пользователя (User Vector). Используется для расчета схожести.

Ключевые утверждения (Анализ Claims)

Патент описывает механизм оптимизации показа рекламы для выполнения гарантированных обязательств (SLA) в рекомендательных системах.

Claim 1 (Независимый пункт, Метод): Описывает основной процесс обеспечения уровня сервиса.

Сервер получает запрос на рекламу контента с требуемым SLA, который включает целевое количество действий ($T_{users}$) и целевой период времени ($T_{period}$).
Сервер рассчитывает распределение вероятности выполнения действия среди всех пользователей сервиса для этого контента.
Сервер оценивает потенциальное количество пользователей ($E_{users}$), которым контент может быть показан в течение $T_{period}$.
Критический шаг: Сервер рассчитывает порог вероятности. Этот расчет базируется на $T_{users}$, рассчитанном распределении вероятностей и $E_{users}$. Цель расчета — найти минимальный порог, который позволит достичь $T_{users}$.
Сервер предоставляет (показывает) рекламируемый контент только тем пользователям, чья индивидуальная вероятность в распределении превышает рассчитанный порог.

Claims 2-4 (Зависимые пункты): Детализируют механизм расчета вероятности (Шаг 2 из Claim 1).

Расчет вероятности основан на определении взаимосвязи между данными контента и историей взаимодействия пользователя (Claim 2).
Эта взаимосвязь определяется путем формирования первого вектора (для контента) и второго вектора (для истории пользователя). Векторы проецируются в многомерное пространство, и рассчитывается угол между ними (мера схожести) (Claim 3).
Формирование и проецирование векторов выполняется с использованием MLA (Claim 4).

Claims 6-10 (Зависимые пункты): Детализируют механизм оценки аудитории $E_{users}$ (Шаг 3 из Claim 1).

Оценка $E_{users}$ включает отслеживание исторических данных о количестве пользователей сервиса (Claim 6).
Отслеживание может включать географическое положение пользователей (Claim 7).
Оценка учитывает время суток, недели или года начала целевого периода, в том числе с привязкой к географии (Claims 8, 9).
Оценка $E_{users}$ может выполняться с помощью MLA (Claim 10).

Где и как применяется

Важно понимать, что данный патент НЕ применяется к стандартной архитектуре веб-поиска Яндекса (CRAWLING, INDEXING, RANKING веб-документов). Он описывает внутренние процессы Рекомендательных Систем (таких как Дзен) и слоя Показа Рекламы (Ad Serving) внутри этих систем.

Слой обработки данных (Офлайн и Онлайн)

Моделирование Контента и Интересов: Система постоянно обрабатывает контент и логи взаимодействий пользователей для построения векторов (эмбеддингов). Это происходит как офлайн (обработка истории), так и в реальном времени (обработка новых взаимодействий).
Прогнозирование Аудитории: Система анализирует исторический трафик для прогнозирования будущей активности пользователей ($E_{users}$).

Слой Показа Рекламы (Ad Serving Layer)

Основное применение патента происходит в момент принятия решения о показе рекламы конкретному пользователю.

Получение Запроса на Рекламу: Система получает запрос с SLA ($T_{users}$, $T_{period}$).
Расчет Порога: Система рассчитывает оптимальный порог вероятности для этой кампании.
Таргетинг в Реальном Времени: Когда пользователь запрашивает ленту рекомендаций, система рассчитывает его индивидуальную вероятность взаимодействия с рекламируемым контентом. Если эта вероятность выше рассчитанного порога, реклама показывается.

Взаимодействие с компонентами: Система взаимодействует с Базой данных цифрового контента (для получения признаков контента) и Базой данных пользователей (для получения истории взаимодействий и профилей). Для вычислений используются модели MLA.

На что влияет

Типы контента: Влияет на показ любого рекламируемого контента внутри рекомендательной ленты (статьи, видео, новости, товары).
Эффективность рекламы: Напрямую влияет на то, кто увидит рекламу и как быстро будут достигнуты цели кампании. Система стремится показать рекламу наиболее заинтересованной аудитории.
Пользовательский опыт: Механизм направлен на улучшение пользовательского опыта за счет минимизации показа нерелевантной рекламы (поскольку показывается только пользователям с высокой вероятностью интереса).

Когда применяется

Условие применения: Алгоритм активируется, когда рекламодатель (издатель) запускает рекламную кампанию с гарантированным уровнем сервиса (SLA) в рекомендательной системе.
Триггер активации: Получение запроса на рекламу, содержащего параметры $T_{users}$ и $T_{period}$.

Пошаговый алгоритм

Процесс работы системы по оптимизации показа рекламы.

Получение Запроса и SLA: Сервер получает запрос на рекламу элемента контента, включающий целевое количество действий ($T_{users}$) и целевой период времени ($T_{period}$).
Формирование Векторов (Эмбеддингов):
- Формируется вектор, представляющий рекламируемый элемент контента.
- Формируются векторы, представляющие историю взаимодействия для каждого пользователя (или класса пользователей) сервиса.
Расчет Вероятности Взаимодействия: Для каждой пары пользователь-элемент векторы сравниваются (например, путем проецирования в многомерное пространство и расчета угла между ними с помощью MLA). Результат сравнения интерпретируется как оценка (скор) вероятности выполнения пользователем действия.
Расчет Распределения Вероятности: Сервер агрегирует индивидуальные оценки и строит распределение (например, гистограмму), показывающее, сколько пользователей имеют тот или иной скор вероятности.
Оценка Потенциальной Аудитории ($E_{users}$): Сервер оценивает, сколько всего пользователей будут активны в сервисе в течение периода $T_{period}$. Оценка базируется на исторических данных о трафике, времени суток/недели, географии и других характеристиках.
Расчет Порога Вероятности (Оптимизация): Сервер рассчитывает минимальную оценку (порог) на основе $T_{users}$, распределения вероятностей и $E_{users}$. Порог выбирается так, чтобы минимизировать количество показов, но гарантировать достижение $T_{users}$, таргетируясь сначала на пользователей с наивысшими оценками.
Целевой Показ Рекламы: Рекламируемый элемент контента предоставляется только тем пользователям, чья индивидуальная оценка превышает рассчитанный порог.
Мониторинг и Отчетность: Сервер отслеживает фактические действия пользователей и сообщает издателю о достижении уровня сервиса.

Какие данные и как использует

Данные на входе

Контентные факторы: Признаки элемента контента, используемые для формирования Content Vector. Включают векторное представление текста (text embedding), «мешок слов» (bag-of-words), категорию, длину контента, присущие характеристики (например, жанр аудио/видео).
Поведенческие факторы (История пользователя): Критически важные данные для формирования User Vector. Включают историю взаимодействий: клики, положительные/отрицательные отзывы (лайки/дизлайки), шеры, время взаимодействия (dwell time), прокрутки, покупки/загрузки. Данные могут собираться на уровне документа, сетевого ресурса или издателя.
Пользовательские факторы: Данные профиля (возраст, пол, заявленные интересы), известное поведение в сети, история поиска.
Географические и Временные факторы: Используются для оценки аудитории ($E_{users}$). Включают географическое положение пользователя, часовой пояс, время суток, день недели, праздники.

Какие метрики используются и как они считаются

Content Vector и User Vector: Численные представления (эмбеддинги) контента и истории пользователя, формируемые с помощью MLA.
Оценка Вероятности Взаимодействия (Interaction Probability Score): Рассчитывается путем сравнения векторов пользователя и контента в многомерном пространстве. Метрикой схожести выступает угол между векторами (например, косинусная близость). Чем меньше угол, тем выше оценка.
Распределение Вероятности (Гистограмма): Агрегация оценок пользователей, показывающая количество пользователей для каждого диапазона вероятностей (например, от 0 до 1).
$E_{users}$ (Оцененная Аудитория): Прогнозная метрика, рассчитываемая на основе анализа исторических паттернов трафика и контекстуальных факторов (время, география), возможно с использованием MLA.
Порог Вероятности: Вычисляемая минимальная оценка, необходимая для достижения $T_{users}$. Это результат оптимизационной задачи, учитывающей распределение и $E_{users}$.
Алгоритмы Машинного Обучения (MLA): Используются на нескольких этапах: для генерации векторов, для расчета вероятности взаимодействия и для оценки размера аудитории.

Выводы

Патент относится к AdTech в рекомендательных системах, а не к SEO веб-поиска: Описанные механизмы касаются оптимизации платного продвижения в сервисах типа Дзен и не влияют на органическое ранжирование в Яндекс Поиске.
Оптимизация через селективный таргетинг: Ключевая идея патента — не максимизация охвата, а оптимизация доставки. Система гарантирует результат (SLA), показывая рекламу минимально необходимому количеству пользователей.
Приоритет наиболее заинтересованной аудитории: Система идентифицирует пользователей с наивысшей вероятностью взаимодействия и таргетируется на них в первую очередь, используя Порог Вероятности для отсечения менее заинтересованных пользователей.
Продвинутое моделирование интересов на основе векторов: Патент подтверждает, что Яндекс использует сложные модели на основе векторных представлений (эмбеддингов) и MLA для понимания контента и интересов пользователей. Схожесть определяется как угол между вектором пользователя и вектором контента.
Прогнозирование активности пользователей: Система активно прогнозирует будущий размер доступной аудитории ($E_{users}$) на основе исторических данных, времени и географии, что необходимо для точного расчета порога.

Практика

Практическое применение в SEO и контент-маркетинге

Важно отметить: патент описывает механизмы платного продвижения в рекомендательных системах и не дает прямых практических выводов для традиционного SEO (продвижения в Яндекс Поиске). Однако он критически важен для специалистов, работающих с контентом в рекомендательных системах Яндекса (например, Дзен).

Best practices (это мы делаем) – Для Рекомендательных Систем (Дзен)

Фокус на вовлеченности и позитивных взаимодействиях: Создавайте контент, который стимулирует положительные взаимодействия (дочитывания, длительное время взаимодействия, лайки, шеры). Эти данные формируют историю взаимодействий пользователей (User Vectors), которые система использует для таргетинга как платного, так и органического контента.
Четкое тематическое позиционирование контента: Контент должен иметь ясные тематические сигналы. Это помогает MLA генерировать точные векторы контента (Content Vectors), которые будут эффективно сопоставляться с векторами интересов релевантных пользователей.
Анализ эффективности форматов: Анализируйте, какие типы и форматы контента генерируют наилучшую вовлеченность в вашей нише. Такой контент, вероятно, будет иметь более высокие оценки вероятности взаимодействия и, следовательно, будет более эффективен при платном продвижении (потребует меньше показов для достижения SLA).

Worst practices (это делать не надо)

Использование кликбейта и контента с низкой вовлеченностью: Контент, который приводит к быстрым отказам, коротким сессиям или негативным отзывам (дизлайкам), отрицательно влияет на User Vectors. Это усложняет системе поиск заинтересованной аудитории для вашего будущего контента (как органического, так и платного).
Распыление тематики канала/ресурса: Публикация контента на несвязанные темы затрудняет формирование четких векторов интересов как для вашего ресурса, так и для пользователей, взаимодействующих с ним, снижая эффективность рекомендательных алгоритмов.

Стратегическое значение

Патент подтверждает стратегическую ставку Яндекса на использование эмбеддингов (векторов) и машинного обучения для моделирования имплицитных интересов пользователей, что является фундаментом их рекомендательных технологий. Успех на платформах типа Дзен напрямую зависит от понимания этой модели: система ищет близость между вектором контента и вектором пользователя. Долгосрочная стратегия должна быть направлена на создание качественного, вовлекающего контента, который формирует сильные и тематически четкие векторы.

Практические примеры

Сценарий: Платное продвижение статьи в Дзене

Издатель хочет гарантированно получить 10 000 дочитываний новой статьи про электромобили за 24 часа.

Задание SLA: Издатель устанавливает $T_{users}$ = 10000 и $T_{period}$ = 24 часа.
Действие системы (Моделирование): Система генерирует вектор статьи. Затем она анализирует векторы всех пользователей, основанные на их прошлой истории (читали ли они про авто, технологии, экологию).
Расчет Вероятностей:
- Пользователь А (фанат электрокаров): Вероятность дочитывания 0.8.
- Пользователь Б (интересуется авто в целом): Вероятность 0.4.
- Пользователь В (интересуется только кулинарией): Вероятность 0.01.
Оценка Аудитории и Расчет Порога: Система прогнозирует, что в ближайшие 24 часа будет доступно 500 000 пользователей ($E_{users}$). Анализируя распределение вероятностей, система рассчитывает, что для достижения 10 000 дочитываний достаточно показать статью пользователям с вероятностью выше 0.35 (Порог Вероятности).
Результат (Оптимизация): Статья будет показана Пользователю А и Пользователю Б, но не будет показана Пользователю В. Это позволяет достичь цели (10 000 дочитываний) эффективно, не раздражая Пользователя В нерелевантной рекламой.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в органическом поиске Яндекса?

Нет, напрямую не влияет. Этот патент описывает способ оптимизации платных рекламных кампаний с гарантированным результатом (SLA) внутри рекомендательных систем (таких как Дзен). Механизмы ранжирования органической выдачи веб-поиска Яндекса отличаются и не являются предметом данного изобретения.

Какова основная цель изобретения, описанного в патенте?

Основная цель — оптимизация показа рекламы. Система стремится гарантировать рекламодателю заданное количество взаимодействий (например, дочитываний) за определенное время, при этом минимизируя общее количество показов рекламы. Это достигается за счет показа контента только наиболее заинтересованной аудитории.

Как система определяет, заинтересован ли пользователь в конкретном контенте?

Система использует алгоритмы машинного обучения (MLA) для создания численных представлений (векторов или эмбеддингов) для контента и для истории взаимодействий пользователя. Затем она сравнивает эти векторы в многомерном пространстве. Чем меньше угол между вектором пользователя и вектором контента, тем выше считается вероятность заинтересованности пользователя.

Что такое «Порог Вероятности» и зачем он нужен?

Порог Вероятности — это минимальная оценка (скор) заинтересованности, при которой пользователю будет показана реклама. Он рассчитывается индивидуально для каждой кампании на основе ее целей (SLA) и текущего распределения интересов аудитории. Он нужен для оптимизации: чтобы не показывать рекламу всем подряд, а только тем, кто с высокой вероятностью совершит целевое действие.

Какие данные о пользователях наиболее важны для работы этой системы?

Наиболее важны данные об истории взаимодействия пользователя с контентом в рекомендательной системе. Сюда входят клики, время взаимодействия (dwell time), положительные и отрицательные отзывы (лайки/дизлайки), шеры. Именно на основе этих данных строятся векторы интересов пользователей (User Vectors).

Применяется ли этот механизм к органическим рекомендациям или только к платным?

Описанный механизм оптимизации показа и гарантии SLA ($T_{users}$, $T_{period}$, расчет Порога) применяется именно к платным рекламным кампаниям. Однако базовая технология моделирования интересов (использование векторов и MLA для расчета схожести пользователя и контента), скорее всего, используется и для формирования органической ленты рекомендаций.

Как я могу улучшить эффективность моего контента в рекомендательных системах, исходя из этого патента?

Необходимо сфокусироваться на создании вовлекающего контента с четким тематическим фокусом. Чем больше позитивных сигналов взаимодействия получает ваш контент (длительное время чтения, лайки), тем сильнее и точнее становятся векторы, ассоциированные с вашим контентом и аудиторией. Это улучшает способность системы находить релевантных пользователей.

Что такое $E_{users}$ и зачем система его рассчитывает?

$E_{users}$ — это оценка потенциального количества пользователей, которые будут активны в сервисе в течение периода рекламной кампании. Система рассчитывает его, анализируя исторические данные о трафике, времени суток и географии. Этот показатель необходим, чтобы точно рассчитать Порог Вероятности и гарантировать достижение целей кампании в заданный срок.

Стремится ли эта система максимизировать количество просмотров рекламы?

Нет, наоборот. Система стремится минимизировать количество просмотров (показов), при этом гарантируя достижение целевого количества действий или дочитываний ($T_{users}$). Это достигается за счет таргетинга только на пользователей с наивысшей вероятностью взаимодействия.

Что произойдет, если мой контент низкого качества или не интересен аудитории?

Если контент не интересен, система рассчитает низкие оценки вероятности взаимодействия для большинства пользователей. Чтобы достичь заданного SLA, Порог Вероятности придется сильно снизить. Это приведет к тому, что рекламу придется показать очень большому количеству слабо заинтересованных пользователей, что будет неэффективно и дорого для рекламодателя.