Яндекс патентует метод обучения ML-модели для предсказания вероятности того, что пользователь увидит рекламное объявление (Visibility Score). Поскольку факт просмотра сложно зафиксировать, система использует данные о взаимодействиях (кликах или наведении курсора) как прокси-метрику видимости. Модель обучается путем показа одного и того же объявления одному пользователю в разных слотах, чтобы понять, как позиция влияет на взаимодействие.
Описание
Какую задачу решает
Патент решает фундаментальную проблему в моделях онлайн-рекламы, основанных на показах (impression-based или cost per view): сложность точного определения того, действительно ли пользователь увидел рекламное сообщение (targeted message). Это затрудняет создание точных обучающих данных (training data) для ML-моделей, прогнозирующих видимость. Патент предлагает метод генерации таких данных с использованием прокси-метрик.
Что запатентовано
Запатентован метод и система для обучения алгоритма машинного обучения (MLA) прогнозированию Visibility Score (Оценки Видимости) – вероятности того, что рекламное сообщение будет увидено пользователем. Суть изобретения заключается в использовании Activity Parameter (Параметра Активности), такого как клик или наведение курсора, в качестве прокси (заменителя) для факта просмотра. Система обучается, итеративно показывая одно и то же объявление одному пользователю в разных рекламных слотах, чтобы изолировать влияние позиции на взаимодействие.
Как это работает
Система работает в двух фазах. В фазе обучения (Training Phase) система собирает данные: одному и тому же пользователю в разное время показывается одно и то же тренировочное объявление, но в разных рекламных слотах (Targeted Message Slots). Система отслеживает взаимодействия (Activity Parameter). На основе этих данных MLA учится связывать позицию слота с вероятностью взаимодействия (прокси видимости). В фазе использования (In-Use Phase) обученная модель (Inferred Function) прогнозирует Visibility Score для конкретного слота, который затем используется в рекламном аукционе (Impression Bid Process).
Актуальность для SEO
Высокая (для сферы AdTech). Верификация показов и оценка видимости рекламы (Viewability) являются критически важными задачами в индустрии цифровой рекламы, особенно для медийной рекламы и моделей оплаты за просмотр (Pay-Per-View/CPM).
Важность для SEO
Влияние на SEO минимальное (1/10). Патент полностью относится к сфере рекламных технологий (AdTech) и описывает внутренние механизмы Яндекс.Директ или РСЯ для оценки видимости рекламных блоков. Он не содержит информации об алгоритмах органического ранжирования, индексации или факторах, влияющих на позиции сайтов в органической выдаче.
Детальный разбор
Термины и определения
- Activity Parameter (Параметр Активности)
- Метрика, указывающая на взаимодействие пользователя с рекламным сообщением. В патенте это клик (click activity) или наведение курсора (hover activity). Используется как прокси (proxy) для определения факта просмотра рекламы во время обучения модели.
- Inferred Function (Выведенная функция)
- Математическая модель, сгенерированная MLA в процессе обучения. Эта функция принимает на вход характеристики рекламного слота и контекст, а выдает прогноз Visibility Score.
- MLA (Machine Learning Algorithm)
- Алгоритм машинного обучения, используемый для построения модели прогнозирования видимости.
- Position-Activity Feature (Признак Позиция-Активность)
- Ключевой признак обучения, отражающий взаимосвязь между местоположением (location) рекламного сообщения и параметром активности (взаимодействием).
- Targeted Message (Целевое сообщение)
- Рекламное объявление (баннер, медийная реклама и т.д.).
- Targeted Message Slot (Слот для целевого сообщения)
- Определенное место на веб-странице (веб-ресурсе), предназначенное для размещения рекламы.
- Visibility Score (Оценка Видимости)
- Прогнозная величина, указывающая на вероятность того, что рекламное сообщение, размещенное в определенном слоте, будет увидено пользователем.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на методологии обучения модели прогнозирования видимости рекламы, используя поведенческие данные как прокси.
Claim 1 (Независимый пункт): Описывает основной процесс обучения MLA.
- Генерация обучающего набора данных (Training Dataset). Это включает:
- Получение набора тренировочных рекламных сообщений для размещения на тренировочном веб-ресурсе с несколькими слотами.
- Показ ресурса пользователю в первый момент времени: определенное объявление размещается в первом слоте.
- Показ ресурса тому же пользователю в последующий момент времени: то же самое объявление размещается в другом слоте. (Это ключевой шаг для изоляции влияния позиции от интереса к объявлению).
- Отслеживание Activity Parameter (взаимодействия) для этого объявления в обоих слотах.
- Формирование датасета, включающего: (i) веб-ресурс, (ii) местоположение (слот), (iii) параметр активности для этого местоположения.
- Обучение MLA. Это включает:
- Определение набора признаков, включая Position-Activity Feature (связь между местоположением и взаимодействием).
- Генерация Inferred Function (обученной модели) на основе этих признаков. Функция настроена на определение Visibility Score рекламы на основе ее местоположения.
Claim 5 и Claim 6 (Зависимые пункты): Уточняют ключевое предположение патента.
- Обучение использует Activity Parameter (клик или наведение) как прокси для вероятности просмотра рекламы (Claim 5).
- Это основано на формуле (Claim 6):
$$p(click)=p(click|view)*p(view)+p(click|!view)*p(!view)$$
(В описании патента поясняется, что предполагается, что $p(click|!view) = 0$ (нельзя кликнуть, не увидев). Таким образом, вероятность клика становится пропорциональна вероятности просмотра).
Claims 7, 9, 12 (Зависимые пункты): Описывают дополнительные признаки для повышения точности модели.
- Claim 7: Добавление Content-Activity Feature. Учитывается тематика контента (Content Topic) веб-ресурса.
- Claim 9: Добавление Device-Activity Feature. Учитывается тип устройства (Device Type).
- Claim 12: Добавление Preference-Activity Feature. Учитывается профиль пользователя (User Profile) и его навигационные привычки.
Claim 14 (Зависимый пункт): Описывает фазу использования (In-Use Phase).
- Система выполняет процесс аукциона показов (Impression Bid Process), используя обученную модель для определения Visibility Score слотов перед размещением рекламы.
Где и как применяется
Патент не относится к архитектуре органического поиска Яндекс (CRAWLING, INDEXING, QUERY PROCESSING, RANKING, BLENDER). Он описывает механизмы, работающие в рамках рекламной инфраструктуры (AdTech), в компоненте Advertisement Application (например, РСЯ или Директ).
Офлайн-процессы (Training Phase)
- Сбор данных и логирование: Система взаимодействует с серверами показа рекламы и системами трекинга для сбора Activity Parameters. Ключевым является процесс генерации тренировочных данных, где система намеренно управляет позицией показа объявления для конкретного пользователя.
- Обучение модели: MLA обучается на собранных данных для создания Inferred Function.
Онлайн-процессы (In-Use Phase)
- Рекламный аукцион (Impression Bid Process): Когда пользователь запрашивает страницу (будь то SERP или сайт в РСЯ), активируется рекламный аукцион.
- Прогнозирование: Обученная модель (MLA) в реальном времени принимает на вход данные о доступных рекламных слотах, типе устройства пользователя, тематике страницы и профиле пользователя.
- Выходные данные: Модель возвращает Visibility Score для каждого слота.
- Принятие решения: Система аукциона использует этот скор для выбора рекламы и определения цены показа (особенно в моделях Pay-Per-View).
На что влияет
- Конкретные типы контента: Влияет исключительно на Targeted Messages (рекламные объявления). Не влияет на органический контент.
- Специфические запросы/Ниши/Форматы: Применяется ко всем запросам, тематикам и форматам рекламы, где отображается реклама Яндекса (РСЯ и Поиск), особенно к медийной рекламе (Media Ad, Claim 17).
Когда применяется
- Training Phase: Происходит непрерывно или периодически офлайн по мере накопления новых данных о взаимодействиях пользователей с рекламой в разных позициях.
- In-Use Phase: Активируется в реальном времени при каждой загрузке веб-страницы, содержащей рекламные слоты Яндекса, во время проведения рекламного аукциона.
Пошаговый алгоритм
Алгоритм описывает фазу обучения (Training Phase).
- Подготовка данных: Система извлекает набор тренировочных рекламных сообщений и определяет тренировочный веб-ресурс с несколькими рекламными слотами.
- Первый показ (First Instance): Когда тренировочный пользователь запрашивает веб-ресурс, система размещает определенное тренировочное объявление (Ad X) в первом рекламном слоте (Slot A) и отображает страницу пользователю.
- Последующий показ (Subsequent Instance): Когда тот же тренировочный пользователь снова запрашивает этот веб-ресурс, система размещает то же самое тренировочное объявление (Ad X) в другом рекламном слоте (Slot B) и отображает страницу.
- Отслеживание активности: Система отслеживает Activity Parameter (клик, наведение курсора) для объявления Ad X в каждом из показанных слотов (Slot A и Slot B).
- Генерация датасета: Формируется обучающий набор данных. Каждая запись включает: (i) идентификатор веб-ресурса, (ii) идентификатор местоположения (слота), (iii) зафиксированный параметр активности для этого слота. Опционально добавляются контекстные данные (пользователь, устройство, тематика).
- Определение признаков: Система определяет набор признаков для обучения MLA. Ключевым является Position-Activity Feature. Также могут использоваться Content-Activity Feature, Device-Activity Feature, Preference-Activity Feature.
- Обучение модели: MLA обучается на этих признаках для генерации Inferred Function, которая способна предсказывать Visibility Score.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важные данные. Используется Activity Parameter (клик или наведение курсора) как основная целевая переменная для обучения (прокси видимости).
- Структурные факторы: Местоположение (Location) рекламного слота на странице.
- Пользовательские факторы: User Profile (характеристики веб-навигации пользователя, интересы). Используется для Preference-Activity Feature.
- Технические факторы: Тип устройства (Device Type) – десктоп, смартфон, планшет; размер экрана. Используется для Device-Activity Feature.
- Контентные факторы: Тематика контента (Content Topic) веб-ресурса, на котором размещается реклама. Используется для Content-Activity Feature.
Какие метрики используются и как они считаются
- Activity Parameter: Часто реализуется как бинарный параметр (1 = было взаимодействие, 0 = не было) (Claim 4).
- Visibility Score: Прогнозная вероятность (например, 0.7 или 70%), рассчитываемая Inferred Function на фазе использования.
- Формула прокси-предположения: Ключевым элементом является математическое обоснование использования клика как прокси для просмотра. Используется формула условной вероятности (Claim 6):
$$p(click)=p(click|view)*p(view)+p(click|!view)*p(!view)$$
Принимая $p(click|!view) = 0$ (нельзя кликнуть, не увидев), формула упрощается до $p(click)=p(click|view)*p(view)$. При контролируемых условиях (один пользователь, одно объявление) это позволяет использовать $p(click)$ для оценки $p(view)$, так как вероятность клика становится пропорциональна вероятности просмотра ($p(click) \propto p(view)$).
Выводы
- Патент строго об AdTech, не о SEO: Изобретение полностью посвящено технологиям показа рекламы (AdTech), в частности, прогнозированию видимости объявлений (Viewability). Он не содержит информации об алгоритмах органического ранжирования и не имеет практической ценности для разработки SEO-стратегий продвижения.
- Взаимодействие как прокси видимости: Яндекс использует взаимодействие пользователя (клик, наведение курсора — Activity Parameter) как заменитель (прокси) для факта просмотра рекламы, так как последний сложно измерить напрямую.
- Изоляция влияния позиции: Ключевая инновация в методе обучения — это сбор данных путем показа одного и того же объявления одному и тому же пользователю, но в разных позициях. Это позволяет модели точно понять, как именно местоположение влияет на вероятность взаимодействия (и, следовательно, на видимость).
- Многофакторная оценка видимости: Финальный Visibility Score зависит не только от позиции (Position-Activity Feature), но может также учитывать контекст: тип устройства, тематику сайта и поведенческие привычки пользователя.
- Цель — оптимизация аукциона: Конечная цель системы — использовать предсказанные Visibility Scores во время рекламного аукциона (Impression Bid Process) для более эффективного ценообразования и размещения, особенно для Pay-Per-View моделей.
Практика
Best practices (это мы делаем)
Патент описывает внутренние процессы рекламной системы Яндекс (AdTech) и не содержит прямых рекомендаций для органического SEO. Практических выводов для SEO-оптимизации на основе этого патента нет.
(Для специалистов, работающих с РСЯ в качестве паблишеров, патент подчеркивает важность размещения блоков в зонах с высокой вероятностью просмотра для максимизации дохода, так как Яндекс точно измеряет видимость каждого слота с учетом устройства и контента).
Worst practices (это делать не надо)
Не применимо к SEO. Патент не направлен против каких-либо SEO-тактик.
Стратегическое значение
Для SEO стратегическое значение минимально. Однако патент дает ценное понимание технических возможностей Яндекса в области анализа пользовательского внимания на уровне макета страницы. Он подтверждает, что Яндекс детально отслеживает и моделирует, какие области страницы пользователи видят и с какими взаимодействуют (клики, наведение курсора). Хотя здесь это используется для рекламы, это подчеркивает общие возможности Яндекса в анализе UX.
Практические примеры
Практических примеров применения для органического SEO нет. Ниже приведен пример работы системы в контексте AdTech.
Сценарий: Обучение модели видимости (AdTech)
- Пользователь: Иван, регулярно читает новостной сайт example.news.
- Объявление: Реклама кроссовок (Ad X).
- Действие системы (Показ 1): В понедельник Иван заходит на сайт. Система показывает Ad X в слоте «Топ страницы» (Slot A). Иван не кликает. Activity Parameter = 0.
- Действие системы (Показ 2): В среду Иван снова заходит на сайт. Система показывает то же самое Ad X в слоте «Внутри текста статьи» (Slot B). Иван кликает. Activity Parameter = 1.
- Обучение MLA: Система фиксирует, что для данного пользователя и объявления Slot B дал взаимодействие, а Slot A – нет.
- Результат: После анализа миллионов таких случаев MLA формирует Inferred Function, которая предсказывает, что на сайте example.news слот Slot B имеет более высокий Visibility Score (например, 80%), чем Slot A (например, 50%).
Вопросы и ответы
Описывает ли этот патент алгоритмы органического ранжирования?
Нет, этот патент не имеет отношения к органическому поиску. Он полностью сфокусирован на рекламных технологиях (AdTech). Описанные механизмы используются для прогнозирования вероятности просмотра рекламных объявлений и оптимизации их размещения, а не для ранжирования сайтов в поисковой выдаче.
Что такое Visibility Score и зачем он нужен Яндексу?
Visibility Score (Оценка Видимости) — это прогнозная вероятность того, что рекламное объявление, размещенное в определенном слоте, будет фактически увидено пользователем. Эта метрика критически важна для моделей рекламы с оплатой за показы (Cost Per View / Impression-based), так как позволяет рекламодателям платить за реальные просмотры, а Яндексу — оптимизировать ценообразование на аукционе.
Как Яндекс определяет, увидел ли пользователь рекламу, если тот на нее не кликнул?
Яндекс не знает этого наверняка. Вместо этого он использует прокси-метрику. Во время обучения модели система использует фактические взаимодействия (клики или наведение курсора — Activity Parameter) как показатель того, что реклама была замечена. Затем модель учится прогнозировать эту вероятность взаимодействия (видимость) для будущих показов на основе расположения блока и других факторов.
В чем заключается ключевое математическое предположение патента?
Ключевое предположение основано на формуле условной вероятности. Система предполагает, что невозможно кликнуть на рекламу, не увидев ее ($p(click|!view) = 0$). Это позволяет упростить формулу и считать, что вероятность клика пропорциональна вероятности просмотра: $p(click) \propto p(view)$.
Зачем система в фазе обучения показывает одну и ту же рекламу одному пользователю несколько раз на разных местах?
Это делается для контроля переменных и изоляции влияния именно местоположения на видимость. Если интерес пользователя к конкретной рекламе постоянен (так как это один и тот же пользователь и одна и та же реклама), то разница в частоте кликов в разных слотах будет обусловлена именно разной видимостью этих слотов. Это позволяет модели точно изучить влияние позиции (Position-Activity Feature).
Влияет ли тип устройства или тематика сайта на Visibility Score?
Да, патент явно описывает использование дополнительных признаков. Device-Activity Feature учитывает тип устройства (например, видимость на мобильном отличается от десктопа). Content-Activity Feature учитывает тематику контента веб-ресурса, так как паттерны просмотра контента в разных тематиках могут различаться. Также может учитываться профиль пользователя (Preference-Activity Feature).
Могу ли я использовать эти знания для улучшения позиций моего сайта в органической выдаче?
Нет. Прямых рекомендаций для улучшения органического ранжирования из этого патента извлечь нельзя. Он описывает внутреннюю логику рекламного движка, а не поискового.
Что такое Activity Parameter?
Activity Parameter (Параметр Активности) — это отслеживаемое взаимодействие пользователя с рекламным объявлением. В патенте в качестве примеров приводятся клик (click activity) и наведение курсора (hover activity). Обычно это бинарная метрика (1 или 0), используемая как целевая переменная при обучении модели.
Как этот патент влияет на работу SEO-специалиста?
Прямого влияния нет. Косвенно он полезен для понимания того, как Яндекс анализирует внимание пользователей к различным блокам на странице. Это может помочь при анализе SERP: если рекламные блоки расположены в зонах с высоким Visibility Score, они могут сильнее снижать CTR органических результатов, расположенных рядом или ниже.
Применяются ли описанные методы для оценки видимости органических сниппетов?
В данном патенте описанные методы применяются исключительно к Targeted Messages (рекламным объявлениям). В тексте патента нет информации о применении этих же методов к органическим сниппетам.