Яндекс патентует метод для рекомендательных систем (например, Дзен), гарантирующий достижение заданных показателей продвижения (SLA). Система рассчитывает вероятность взаимодействия для каждого пользователя, прогнозирует общий трафик и определяет минимальный порог вероятности. Контент показывается только пользователям выше этого порога, что позволяет достичь цели с минимальным количеством показов.
Описание
Какую задачу решает
Патент решает задачу эффективного выполнения обязательств (SLA – Service Level Agreement) по платному продвижению контента внутри рекомендательных систем (таких как Яндекс.Дзен). Проблема заключается в необходимости гарантировать издателю определенный результат (например, число кликов за заданное время), не тратя при этом избыточные вычислительные ресурсы и не ухудшая пользовательский опыт массовым показом нерелевантного продвигаемого контента. Патент предлагает метод оптимизации показов для достижения цели при минимальных затратах.
Что запатентовано
Запатентована система управления продвижением контента с гарантированным уровнем обслуживания (Service Level). Суть изобретения заключается в расчете минимального порога вероятности взаимодействия (Threshold of Probability). Продвигаемый материал показывается только тем пользователям, чья прогнозируемая вероятность взаимодействия выше этого порога. Это позволяет минимизировать общее число показов, необходимых для достижения заданных целей продвижения.
Как это работает
Система работает в несколько этапов. Сначала она принимает запрос на продвижение с целевыми показателями: $T_{users}$ (требуемое число взаимодействий) и $T_{period}$ (срок выполнения). Затем для продвигаемого контента рассчитывается вероятность взаимодействия с каждым пользователем системы путем сравнения вектора контента и вектора интересов пользователя. Параллельно система прогнозирует общий доступный трафик ($E_{users}$) за период $T_{period}$. На основе этих данных рассчитывается Threshold of Probability. Контент показывается только пользователям, чья вероятность взаимодействия выше этого порога.
Актуальность для SEO
Высокая. Рекомендательные системы (например, Яндекс.Дзен) являются важным источником трафика и монетизации. Эффективное управление платным продвижением и выполнение гарантий (SLA) — ключевая бизнес-задача. Описанные методы, включающие векторизацию пользователей и контента, а также прогнозирование вероятности взаимодействия с помощью MLA (Machine Learning Algorithms), соответствуют современным подходам в AdTech.
Важность для SEO
Влияние на органический веб-поиск (SEO) минимальное (1/10). Патент не описывает алгоритмы ранжирования в основном поиске Яндекса. Он полностью сфокусирован на механизмах оптимизации платного продвижения внутри закрытых рекомендательных систем. Однако он дает ценное понимание того, как Яндекс технически оценивает интересы пользователей и релевантность контента в контексте рекомендаций, что может быть полезно специалистам, работающим с платформой Дзен.
Детальный разбор
Термины и определения
- Digital Content Item (Элемент цифрового контента)
- Единица контента, которая продвигается в рекомендательной системе (например, статья, видео, пост, товар).
- $E_{users}$ (Estimated number of users)
- Оценка потенциального количества пользователей рекомендательного сервиса, которым может быть показан контент в течение периода $T_{period}$.
- MLA (Machine Learning Algorithm)
- Алгоритм машинного обучения. Используется для генерации векторов контента и пользователей, а также для прогнозирования трафика ($E_{users}$).
- Probability Distribution (Распределение вероятностей)
- Распределение пользователей сервиса по их рассчитанной вероятности совершить целевое действие над конкретным элементом контента. Представляется в виде гистограммы.
- Publisher (Издатель)
- Владелец или автор контента, который заказывает платное продвижение.
- Recommendation Service (Рекомендательный сервис)
- Система (например, Яндекс.Дзен), которая предлагает контент пользователю без явного поискового запроса, основываясь на его интересах и поведении.
- Service Level (Уровень обслуживания, SLA)
- Запрошенные издателем гарантии эффективности продвижения. Определяется параметрами $T_{users}$ и $T_{period}$.
- Threshold of Probability (Порог вероятности)
- Минимальное рассчитанное значение вероятности взаимодействия. Контент показывается только тем пользователям, чья индивидуальная вероятность выше этого порога.
- $T_{period}$ (Target period of time)
- Целевой период времени, за который должны быть достигнуты целевые показатели продвижения ($T_{users}$).
- $T_{users}$ (Target number of users)
- Целевое количество пользователей, которые должны совершить действие (клик, просмотр и т.д.) над продвигаемым элементом контента.
- Vector (Вектор)
- Численное представление (эмбеддинг) элемента контента или истории взаимодействий пользователя. Используется для расчета схожести.
Ключевые утверждения (Анализ Claims)
Патент описывает метод оптимизации показа продвигаемого контента для достижения гарантированных результатов (SLA).
Claim 1 (Независимый пункт): Описывает основной метод обеспечения уровня обслуживания в рекомендательном сервисе.
- Система получает запрос на продвижение элемента контента с указанием Service Level: целевого числа действий ($T_{users}$) и целевого периода времени ($T_{period}$).
- Рассчитывается распределение (Probability Distribution) пользователей по вероятности совершения ими действия над этим элементом.
- Оценивается потенциальное общее количество пользователей ($E_{users}$), которым элемент может быть показан в течение $T_{period}$.
- Рассчитывается порог вероятности (Threshold of Probability) на основе $T_{users}$, рассчитанного распределения и $E_{users}$.
- Элемент контента предоставляется (показывается) только тем пользователям, чья вероятность в распределении выше рассчитанного порога.
Claims 2, 3, 4 (Зависимые пункты): Уточняют метод расчета распределения вероятностей (Шаг 2 из Claim 1).
- Расчет вероятности основан на корреляции данных об элементе контента и истории взаимодействий каждого пользователя.
- Механизм корреляции включает генерацию первого вектора (для контента) и второго вектора (для пользователя), проекцию их в многомерное пространство и вычисление угла между ними. Меньший угол соответствует более высокой вероятности взаимодействия.
- Генерация и проекция выполняются с использованием MLA.
Claims 6, 8, 10 (Зависимые пункты): Уточняют метод оценки потенциального числа пользователей ($E_{users}$) (Шаг 3 из Claim 1).
- Оценка основана на отслеживании исторических данных о трафике сервиса.
- При оценке учитываются внешние факторы: время дня, недели или года, когда начинается $T_{period}$.
- Оценка выполняется с помощью MLA.
Где и как применяется
Этот патент применяется исключительно в рамках Рекомендательных систем (таких как Яндекс.Дзен), а не в основном органическом поиске Яндекса. Он не затрагивает стандартные слои веб-поиска (CRAWLING, INDEXING, QUERY PROCESSING, RANKING).
Применение происходит в двух ключевых подсистемах:
1. Система управления продвижением (Promotion Management):
- Входные данные: Запрос на продвижение (ID контента, $T_{users}$, $T_{period}$).
- Взаимодействие с компонентами:
- Система профилирования: Предоставляет векторы пользователей и историю взаимодействий.
- Система анализа контента: Предоставляет вектор продвигаемого контента.
- Система прогнозирования (MLA): Используется для расчета вероятности взаимодействия (корреляция векторов) и для прогнозирования общего трафика ($E_{users}$).
- Выходные данные: Рассчитанный порог вероятности (Threshold of Probability).
2. Система показа рекомендаций (Recommendation Delivery):
- Получает рассчитанный порог и применяет его как фильтр в реальном времени. Когда пользователь загружает ленту, система проверяет, превышает ли прогнозируемая вероятность взаимодействия для пары (Пользователь, Продвигаемый Контент) установленный порог. Если да, контент допускается к показу.
На что влияет
- Типы контента: Любой контент, который распространяется через рекомендательную систему (статьи, видео, посты, реклама товаров).
- Специфические запросы: Не применимо, так как рекомендательные системы работают без явных поисковых запросов.
- Ниши или тематики: Применимо ко всем тематикам контента.
- Эффективность продвижения: Напрямую влияет на то, как быстро и с каким минимальным охватом будут достигнуты цели платного продвижения.
Когда применяется
- Триггеры активации: Получение запроса на платное продвижение контента с гарантированным уровнем обслуживания (SLA).
- Условия работы: Алгоритм активируется только для контента, участвующего в программе продвижения, и работает в течение указанного периода $T_{period}$.
Пошаговый алгоритм
- Получение запроса: Система получает запрос от издателя на продвижение контента с указанием целевого числа взаимодействий ($T_{users}$) и периода времени ($T_{period}$).
- Корреляция Контент-Пользователь (Расчет вероятностей):
- Генерация (или извлечение) вектора для продвигаемого контента.
- Генерация (или извлечение) векторов интересов для пользователей сервиса.
- Сравнение вектора контента с вектором каждого пользователя (например, расчет угла между ними) для определения индивидуальной оценки вероятности взаимодействия.
- Построение распределения: Формирование распределения (гистограммы) пользователей на основе рассчитанных оценок вероятности.
- Оценка потенциального трафика ($E_{users}$):
- Анализ исторических данных об общем трафике сервиса.
- Учет характеристик периода $T_{period}$ (время суток, день недели, сезонность, география).
- Прогнозирование общего количества пользователей, которые воспользуются сервисом в течение $T_{period}$.
- Расчет порога вероятности: Определение минимального порога вероятности на основе требуемого $T_{users}$, построенного распределения и прогнозируемого $E_{users}$. Цель — идентифицировать наименьшую группу наиболее заинтересованных пользователей, которая обеспечит достижение $T_{users}$.
- Применение фильтра: Продвигаемый контент предоставляется в ленте только тем пользователям, чья индивидуальная прогнозируемая вероятность взаимодействия выше рассчитанного порога.
- Мониторинг и отчетность: Отслеживание фактических взаимодействий и предоставление отчета издателю о достижении SLA.
Какие данные и как использует
Данные на входе
- Контентные факторы: Характеристики продвигаемого контента, используемые для генерации его вектора. Упоминаются категория элемента, текстовые признаки (bag-of-words, text embeddings).
- Поведенческие факторы (История взаимодействий): Данные о прошлых взаимодействиях пользователей с различным контентом в системе (клики, лайки, дизлайки, время взаимодействия, скроллинг, шэринг). Эти данные используются для генерации векторов интересов пользователей.
- Временные факторы: Исторические данные о трафике системы в разные периоды времени (время суток, дни недели, год). Используются для прогнозирования $E_{users}$.
- Географические факторы: Местоположение пользователей. Используется для учета локальных особенностей (праздники, часовые пояса) при прогнозировании $E_{users}$.
- Пользовательские факторы: Данные профиля, интересы пользователя, история поиска (если доступны).
Какие метрики используются и как они считаются
- Вектор контента / Вектор пользователя: Численные представления в многомерном пространстве. Генерируются с помощью MLA на основе анализа контентных и поведенческих данных.
- Вероятность взаимодействия (Score): Метрика, оценивающая вероятность действия. Рассчитывается путем сравнения вектора контента и вектора пользователя. В патенте упоминается метод вычисления угла между векторами (чем меньше угол, тем выше вероятность).
- $E_{users}$ (Прогноз трафика): Оценка количества активных пользователей за период $T_{period}$. Рассчитывается с помощью прогностических MLA на основе исторических данных.
- Threshold of Probability (Порог вероятности): Вычисляется путем анализа распределения вероятностей, требуемого $T_{users}$ и прогнозируемого $E_{users}$, чтобы определить оптимальную точку отсечения для показов.
Выводы
Патент описывает внутренние процессы управления рекламой и платным продвижением в рекомендательных системах Яндекса (например, Дзен). Он не содержит прямых рекомендаций для органического SEO в веб-поиске.
- Фокус на рекомендательных системах и AdTech: Изобретение относится исключительно к оптимизации платного продвижения для выполнения SLA, а не к алгоритмам ранжирования в органическом поиске.
- Векторизация как основа релевантности: Патент подтверждает, что Яндекс использует векторные представления (эмбеддинги) как для контента, так и для профилей пользователей. Релевантность (вероятность взаимодействия) определяется математической близостью этих векторов (углом между ними).
- Прогнозирование поведения: Система глубоко полагается на способность прогнозировать вероятность взаимодействия (клика, лайка и т.д.) для конкретной пары пользователь-контент с помощью MLA.
- Оптимизация показов и пользовательский опыт: Ключевая цель — эффективность. Яндекс стремится достигать целей продвижения, минимизируя общее количество показов и избегая демонстрации контента незаинтереванным пользователям (используя порог отсечения).
- Комплексное прогнозирование трафика: Система учитывает множество внешних факторов (время, география) для точного прогнозирования доступной аудитории ($E_{users}$).
Практика
Практическое применение в SEO
Поскольку патент не относится к органическому веб-поиску, прямых SEO-рекомендаций для продвижения сайтов нет. Однако, если рассматривать оптимизацию под рекомендательные системы (например, Дзен), можно сделать следующие выводы.
Best practices (Оптимизация под рекомендательные системы)
- Создание контента, формирующего четкий вектор: Контент должен быть тематически целостным и сфокусированным. Это позволяет системе сформировать точный вектор его содержания, что увеличивает вероятность качественного сопоставления с векторами интересов пользователей.
- Стимулирование вовлеченности и взаимодействий: Векторы интересов пользователей строятся на основе истории их взаимодействий (клики, время чтения, лайки). Критически важно создавать вовлекающий контент. Чем позитивнее пользователь взаимодействует с вашим контентом, тем точнее система определяет его интересы и тем выше вероятность будущих рекомендаций.
- Качество контента влияет на охват продвижения: При запуске платного продвижения (например, в Дзене) этот патент показывает, что система сама найдет наиболее релевантную аудиторию. Качество и привлекательность исходного контента напрямую влияют на расчет вероятности взаимодействия. Чем выше эта вероятность, тем эффективнее будет продвижение.
Worst practices (это делать не надо)
- Кликбейт и обман ожиданий: Создание контента, который разочаровывает пользователя после клика, негативно скажется на профилировании. Система учтет негативный опыт (например, быстрый уход со страницы, дизлайк), что может снизить вероятность будущих рекомендаций и эффективность продвижения.
- Смешение разных тематик в одном материале: Создание контента «обо всем сразу» затрудняет формирование четкого вектора содержания и усложняет сопоставление с конкретными интересами пользователей в рекомендательных системах.
Стратегическое значение
Патент подтверждает технологическую зрелость рекомендательных систем Яндекса. Он демонстрирует, что в основе этих систем лежит сложная математическая модель, базирующаяся на векторном сопоставлении интересов и контента, а также на прогнозировании поведения. Для специалистов это подчеркивает стратегическую необходимость фокусироваться на качестве контента и глубоком понимании интересов целевой аудитории при работе с рекомендательными платформами.
Практические примеры
Практических примеров для применения в органическом SEO нет. Пример ниже иллюстрирует работу патента в контексте платного продвижения в рекомендательной системе.
Сценарий: Продвижение статьи в Рекомендательной системе (Дзен)
- Задача: Издатель запускает платное продвижение статьи об «Уходе за орхидеями зимой» и хочет получить 10 000 дочитываний ($T_{users}$) за 3 дня ($T_{period}$).
- Действие системы (Анализ): Яндекс генерирует вектор статьи и анализирует векторы интересов пользователей Дзена.
- Расчет вероятностей: Для пользователя А (читает про садоводство) вероятность дочитывания оценена в 0.8. Для пользователя Б (интересуется автомобилями) вероятность 0.01. Система строит общее распределение.
- Прогноз трафика: Система прогнозирует, что за 3 дня Дзеном воспользуется 5 миллионов человек ($E_{users}$).
- Расчет порога: Система определяет, что для достижения 10 000 дочитываний достаточно показать статью пользователям с прогнозируемой вероятностью 0.7 и выше.
- Результат: Статья показывается только наиболее заинтересованным пользователям (например, Пользователю А). Цель достигнута эффективно, а пользователи с вероятностью ниже 0.7 (например, Пользователь Б) не видели этот контент в своей ленте.
Вопросы и ответы
Относится ли этот патент к органическому поиску Яндекса?
Нет, этот патент не описывает алгоритмы ранжирования в органическом веб-поиске. Он описывает метод и систему для оптимизации платного продвижения контента внутри рекомендательных систем Яндекса, таких как Дзен, с целью гарантии достижения заданных показателей (SLA).
Что такое $T_{users}$ и $T_{period}$ в контексте этого патента?
$T_{users}$ — это целевое количество пользователей, которые должны совершить определенное действие с продвигаемым контентом (например, кликнуть, дочитать статью). $T_{period}$ — это период времени, за который это количество действий должно быть достигнуто. Эти два параметра определяют уровень обслуживания (Service Level), который запрашивает издатель.
Как система определяет, кому показывать продвигаемый контент?
Система рассчитывает индивидуальную вероятность взаимодействия с контентом для каждого пользователя. Затем, исходя из целей продвижения ($T_{users}$) и прогноза общего трафика ($E_{users}$), она вычисляет порог вероятности. Контент показывается только тем пользователям, чья индивидуальная вероятность взаимодействия выше этого порога.
Как рассчитывается вероятность взаимодействия пользователя с контентом?
Патент описывает метод, основанный на векторном представлении. Создается вектор для контента и вектор интересов пользователя (на основе его истории). Затем эти векторы проецируются в общее многомерное пространство, и измеряется угол между ними. Чем меньше угол (т.е. чем ближе векторы), тем выше вероятность взаимодействия.
Какую пользу этот патент несет SEO-специалисту?
Для классического SEO польза минимальна. Однако патент полезен для понимания принципов работы рекомендательных систем (Дзен). Он раскрывает, как Яндекс использует векторные представления для оценки релевантности контента интересам пользователя. Это знание важно для оптимизации контента под трафик из рекомендательных систем.
Могу ли я использовать эти знания для улучшения органических показов в Дзене?
Косвенно да. Патент подтверждает, что в основе рекомендаций лежит сопоставление векторов контента и пользователя. Чтобы получать больше органических показов, нужно создавать тематически целостный контент (для формирования четкого вектора контента) и активно вовлекать аудиторию (для формирования точного вектора интересов пользователя, совпадающего с вашим контентом).
Что такое $E_{users}$ и как он рассчитывается?
$E_{users}$ — это оценка общего количества пользователей, которые будут активны в рекомендательной системе в течение периода продвижения ($T_{period}$). Он рассчитывается с помощью алгоритмов машинного обучения (MLA) на основе исторических данных о трафике, учитывая сезонность, время суток, дни недели и географию пользователей.
Зачем нужен расчет порога вероятности?
Расчет порога позволяет оптимизировать продвижение. Вместо того чтобы показывать контент всем подряд, пока не будет достигнута цель (что неэффективно и ухудшает пользовательский опыт), система отсекает наименее заинтересованную аудиторию. Это гарантирует достижение цели с минимально необходимым количеством показов.
Используются ли в этом механизме нейросети (MLA)?
Да, патент явно указывает на использование MLA (Machine Learning Algorithms) на нескольких этапах: для генерации векторов контента и пользователей, для расчета вероятности их взаимодействия (сравнение векторов), а также для прогнозирования общего трафика системы ($E_{users}$).
Влияет ли этот патент на ИКС (Индекс Качества Сайта)?
Нет, в патенте нет упоминаний ИКС или других метрик качества сайтов для веб-поиска. Патент сфокусирован исключительно на метриках прогнозирования поведения пользователей внутри рекомендательной системы для целей платного продвижения контента.