Как Яндекс использует клики по рекламе как прокси для предсказания ее фактической видимости (Visibility Score)

Яндекс патентует метод обучения ML-модели для предсказания вероятности того, что пользователь увидит рекламное объявление (Visibility Score). Поскольку факт просмотра сложно зафиксировать, система использует данные о взаимодействиях (кликах или наведении курсора) как прокси-метрику видимости. Модель обучается путем показа одного и того же объявления одному пользователю в разных слотах, чтобы понять, как позиция влияет на взаимодействие.

Описание

Какую задачу решает

Патент решает фундаментальную проблему в моделях онлайн-рекламы, основанных на показах (impression-based или cost per view): сложность точного определения того, действительно ли пользователь увидел рекламное сообщение (targeted message). Это затрудняет создание точных обучающих данных (training data) для ML-моделей, прогнозирующих видимость. Патент предлагает метод генерации таких данных с использованием прокси-метрик.

Что запатентовано

Запатентован метод и система для обучения алгоритма машинного обучения (MLA) прогнозированию Visibility Score (Оценки Видимости) – вероятности того, что рекламное сообщение будет увидено пользователем. Суть изобретения заключается в использовании Activity Parameter (Параметра Активности), такого как клик или наведение курсора, в качестве прокси (заменителя) для факта просмотра. Система обучается, итеративно показывая одно и то же объявление одному пользователю в разных рекламных слотах, чтобы изолировать влияние позиции на взаимодействие.

Как это работает

Система работает в двух фазах. В фазе обучения (Training Phase) система собирает данные: одному и тому же пользователю в разное время показывается одно и то же тренировочное объявление, но в разных рекламных слотах (Targeted Message Slots). Система отслеживает взаимодействия (Activity Parameter). На основе этих данных MLA учится связывать позицию слота с вероятностью взаимодействия (прокси видимости). В фазе использования (In-Use Phase) обученная модель (Inferred Function) прогнозирует Visibility Score для конкретного слота, который затем используется в рекламном аукционе (Impression Bid Process).

Актуальность для SEO

Высокая (для сферы AdTech). Верификация показов и оценка видимости рекламы (Viewability) являются критически важными задачами в индустрии цифровой рекламы, особенно для медийной рекламы и моделей оплаты за просмотр (Pay-Per-View/CPM).

Важность для SEO

Влияние на SEO минимальное (1/10). Патент полностью относится к сфере рекламных технологий (AdTech) и описывает внутренние механизмы Яндекс.Директ или РСЯ для оценки видимости рекламных блоков. Он не содержит информации об алгоритмах органического ранжирования, индексации или факторах, влияющих на позиции сайтов в органической выдаче.

Детальный разбор

Термины и определения

Activity Parameter (Параметр Активности): Метрика, указывающая на взаимодействие пользователя с рекламным сообщением. В патенте это клик (click activity) или наведение курсора (hover activity). Используется как прокси (proxy) для определения факта просмотра рекламы во время обучения модели.
Inferred Function (Выведенная функция): Математическая модель, сгенерированная MLA в процессе обучения. Эта функция принимает на вход характеристики рекламного слота и контекст, а выдает прогноз Visibility Score.
MLA (Machine Learning Algorithm): Алгоритм машинного обучения, используемый для построения модели прогнозирования видимости.
Position-Activity Feature (Признак Позиция-Активность): Ключевой признак обучения, отражающий взаимосвязь между местоположением (location) рекламного сообщения и параметром активности (взаимодействием).
Targeted Message (Целевое сообщение): Рекламное объявление (баннер, медийная реклама и т.д.).
Targeted Message Slot (Слот для целевого сообщения): Определенное место на веб-странице (веб-ресурсе), предназначенное для размещения рекламы.
Visibility Score (Оценка Видимости): Прогнозная величина, указывающая на вероятность того, что рекламное сообщение, размещенное в определенном слоте, будет увидено пользователем.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии обучения модели прогнозирования видимости рекламы, используя поведенческие данные как прокси.

Claim 1 (Независимый пункт): Описывает основной процесс обучения MLA.

Генерация обучающего набора данных (Training Dataset). Это включает:
1. Получение набора тренировочных рекламных сообщений для размещения на тренировочном веб-ресурсе с несколькими слотами.
2. Показ ресурса пользователю в первый момент времени: определенное объявление размещается в первом слоте.
3. Показ ресурса тому же пользователю в последующий момент времени: то же самое объявление размещается в другом слоте. (Это ключевой шаг для изоляции влияния позиции от интереса к объявлению).
4. Отслеживание Activity Parameter (взаимодействия) для этого объявления в обоих слотах.
5. Формирование датасета, включающего: (i) веб-ресурс, (ii) местоположение (слот), (iii) параметр активности для этого местоположения.
Обучение MLA. Это включает:
1. Определение набора признаков, включая Position-Activity Feature (связь между местоположением и взаимодействием).
2. Генерация Inferred Function (обученной модели) на основе этих признаков. Функция настроена на определение Visibility Score рекламы на основе ее местоположения.

Claim 5 и Claim 6 (Зависимые пункты): Уточняют ключевое предположение патента.

Обучение использует Activity Parameter (клик или наведение) как прокси для вероятности просмотра рекламы (Claim 5).
Это основано на формуле (Claim 6):

$$p(click)=p(click|view)*p(view)+p(click|!view)*p(!view)$$

(В описании патента поясняется, что предполагается, что $p(click|!view) = 0$ (нельзя кликнуть, не увидев). Таким образом, вероятность клика становится пропорциональна вероятности просмотра).

Claims 7, 9, 12 (Зависимые пункты): Описывают дополнительные признаки для повышения точности модели.

Claim 7: Добавление Content-Activity Feature. Учитывается тематика контента (Content Topic) веб-ресурса.
Claim 9: Добавление Device-Activity Feature. Учитывается тип устройства (Device Type).
Claim 12: Добавление Preference-Activity Feature. Учитывается профиль пользователя (User Profile) и его навигационные привычки.

Claim 14 (Зависимый пункт): Описывает фазу использования (In-Use Phase).

Система выполняет процесс аукциона показов (Impression Bid Process), используя обученную модель для определения Visibility Score слотов перед размещением рекламы.

Где и как применяется

Патент не относится к архитектуре органического поиска Яндекс (CRAWLING, INDEXING, QUERY PROCESSING, RANKING, BLENDER). Он описывает механизмы, работающие в рамках рекламной инфраструктуры (AdTech), в компоненте Advertisement Application (например, РСЯ или Директ).

Офлайн-процессы (Training Phase)

Сбор данных и логирование: Система взаимодействует с серверами показа рекламы и системами трекинга для сбора Activity Parameters. Ключевым является процесс генерации тренировочных данных, где система намеренно управляет позицией показа объявления для конкретного пользователя.
Обучение модели: MLA обучается на собранных данных для создания Inferred Function.

Онлайн-процессы (In-Use Phase)

Рекламный аукцион (Impression Bid Process): Когда пользователь запрашивает страницу (будь то SERP или сайт в РСЯ), активируется рекламный аукцион.
Прогнозирование: Обученная модель (MLA) в реальном времени принимает на вход данные о доступных рекламных слотах, типе устройства пользователя, тематике страницы и профиле пользователя.
Выходные данные: Модель возвращает Visibility Score для каждого слота.
Принятие решения: Система аукциона использует этот скор для выбора рекламы и определения цены показа (особенно в моделях Pay-Per-View).

На что влияет

Конкретные типы контента: Влияет исключительно на Targeted Messages (рекламные объявления). Не влияет на органический контент.
Специфические запросы/Ниши/Форматы: Применяется ко всем запросам, тематикам и форматам рекламы, где отображается реклама Яндекса (РСЯ и Поиск), особенно к медийной рекламе (Media Ad, Claim 17).

Когда применяется

Training Phase: Происходит непрерывно или периодически офлайн по мере накопления новых данных о взаимодействиях пользователей с рекламой в разных позициях.
In-Use Phase: Активируется в реальном времени при каждой загрузке веб-страницы, содержащей рекламные слоты Яндекса, во время проведения рекламного аукциона.

Пошаговый алгоритм

Алгоритм описывает фазу обучения (Training Phase).

Подготовка данных: Система извлекает набор тренировочных рекламных сообщений и определяет тренировочный веб-ресурс с несколькими рекламными слотами.
Первый показ (First Instance): Когда тренировочный пользователь запрашивает веб-ресурс, система размещает определенное тренировочное объявление (Ad X) в первом рекламном слоте (Slot A) и отображает страницу пользователю.
Последующий показ (Subsequent Instance): Когда тот же тренировочный пользователь снова запрашивает этот веб-ресурс, система размещает то же самое тренировочное объявление (Ad X) в другом рекламном слоте (Slot B) и отображает страницу.
Отслеживание активности: Система отслеживает Activity Parameter (клик, наведение курсора) для объявления Ad X в каждом из показанных слотов (Slot A и Slot B).
Генерация датасета: Формируется обучающий набор данных. Каждая запись включает: (i) идентификатор веб-ресурса, (ii) идентификатор местоположения (слота), (iii) зафиксированный параметр активности для этого слота. Опционально добавляются контекстные данные (пользователь, устройство, тематика).
Определение признаков: Система определяет набор признаков для обучения MLA. Ключевым является Position-Activity Feature. Также могут использоваться Content-Activity Feature, Device-Activity Feature, Preference-Activity Feature.
Обучение модели: MLA обучается на этих признаках для генерации Inferred Function, которая способна предсказывать Visibility Score.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используется Activity Parameter (клик или наведение курсора) как основная целевая переменная для обучения (прокси видимости).
Структурные факторы: Местоположение (Location) рекламного слота на странице.
Пользовательские факторы: User Profile (характеристики веб-навигации пользователя, интересы). Используется для Preference-Activity Feature.
Технические факторы: Тип устройства (Device Type) – десктоп, смартфон, планшет; размер экрана. Используется для Device-Activity Feature.
Контентные факторы: Тематика контента (Content Topic) веб-ресурса, на котором размещается реклама. Используется для Content-Activity Feature.

Какие метрики используются и как они считаются

Activity Parameter: Часто реализуется как бинарный параметр (1 = было взаимодействие, 0 = не было) (Claim 4).
Visibility Score: Прогнозная вероятность (например, 0.7 или 70%), рассчитываемая Inferred Function на фазе использования.
Формула прокси-предположения: Ключевым элементом является математическое обоснование использования клика как прокси для просмотра. Используется формула условной вероятности (Claim 6):

$$p(click)=p(click|view)*p(view)+p(click|!view)*p(!view)$$

Принимая $p(click|!view) = 0$ (нельзя кликнуть, не увидев), формула упрощается до $p(click)=p(click|view)*p(view)$. При контролируемых условиях (один пользователь, одно объявление) это позволяет использовать $p(click)$ для оценки $p(view)$, так как вероятность клика становится пропорциональна вероятности просмотра ($p(click) \propto p(view)$).

Выводы

Патент строго об AdTech, не о SEO: Изобретение полностью посвящено технологиям показа рекламы (AdTech), в частности, прогнозированию видимости объявлений (Viewability). Он не содержит информации об алгоритмах органического ранжирования и не имеет практической ценности для разработки SEO-стратегий продвижения.
Взаимодействие как прокси видимости: Яндекс использует взаимодействие пользователя (клик, наведение курсора — Activity Parameter) как заменитель (прокси) для факта просмотра рекламы, так как последний сложно измерить напрямую.
Изоляция влияния позиции: Ключевая инновация в методе обучения — это сбор данных путем показа одного и того же объявления одному и тому же пользователю, но в разных позициях. Это позволяет модели точно понять, как именно местоположение влияет на вероятность взаимодействия (и, следовательно, на видимость).
Многофакторная оценка видимости: Финальный Visibility Score зависит не только от позиции (Position-Activity Feature), но может также учитывать контекст: тип устройства, тематику сайта и поведенческие привычки пользователя.
Цель — оптимизация аукциона: Конечная цель системы — использовать предсказанные Visibility Scores во время рекламного аукциона (Impression Bid Process) для более эффективного ценообразования и размещения, особенно для Pay-Per-View моделей.

Практика

Best practices (это мы делаем)

Патент описывает внутренние процессы рекламной системы Яндекс (AdTech) и не содержит прямых рекомендаций для органического SEO. Практических выводов для SEO-оптимизации на основе этого патента нет.

(Для специалистов, работающих с РСЯ в качестве паблишеров, патент подчеркивает важность размещения блоков в зонах с высокой вероятностью просмотра для максимизации дохода, так как Яндекс точно измеряет видимость каждого слота с учетом устройства и контента).

Worst practices (это делать не надо)

Не применимо к SEO. Патент не направлен против каких-либо SEO-тактик.

Стратегическое значение

Для SEO стратегическое значение минимально. Однако патент дает ценное понимание технических возможностей Яндекса в области анализа пользовательского внимания на уровне макета страницы. Он подтверждает, что Яндекс детально отслеживает и моделирует, какие области страницы пользователи видят и с какими взаимодействуют (клики, наведение курсора). Хотя здесь это используется для рекламы, это подчеркивает общие возможности Яндекса в анализе UX.

Практические примеры

Практических примеров применения для органического SEO нет. Ниже приведен пример работы системы в контексте AdTech.

Сценарий: Обучение модели видимости (AdTech)

Пользователь: Иван, регулярно читает новостной сайт example.news.
Объявление: Реклама кроссовок (Ad X).
Действие системы (Показ 1): В понедельник Иван заходит на сайт. Система показывает Ad X в слоте «Топ страницы» (Slot A). Иван не кликает. Activity Parameter = 0.
Действие системы (Показ 2): В среду Иван снова заходит на сайт. Система показывает то же самое Ad X в слоте «Внутри текста статьи» (Slot B). Иван кликает. Activity Parameter = 1.
Обучение MLA: Система фиксирует, что для данного пользователя и объявления Slot B дал взаимодействие, а Slot A – нет.
Результат: После анализа миллионов таких случаев MLA формирует Inferred Function, которая предсказывает, что на сайте example.news слот Slot B имеет более высокий Visibility Score (например, 80%), чем Slot A (например, 50%).

Вопросы и ответы

Описывает ли этот патент алгоритмы органического ранжирования?

Нет, этот патент не имеет отношения к органическому поиску. Он полностью сфокусирован на рекламных технологиях (AdTech). Описанные механизмы используются для прогнозирования вероятности просмотра рекламных объявлений и оптимизации их размещения, а не для ранжирования сайтов в поисковой выдаче.

Что такое Visibility Score и зачем он нужен Яндексу?

Visibility Score (Оценка Видимости) — это прогнозная вероятность того, что рекламное объявление, размещенное в определенном слоте, будет фактически увидено пользователем. Эта метрика критически важна для моделей рекламы с оплатой за показы (Cost Per View / Impression-based), так как позволяет рекламодателям платить за реальные просмотры, а Яндексу — оптимизировать ценообразование на аукционе.

Как Яндекс определяет, увидел ли пользователь рекламу, если тот на нее не кликнул?

Яндекс не знает этого наверняка. Вместо этого он использует прокси-метрику. Во время обучения модели система использует фактические взаимодействия (клики или наведение курсора — Activity Parameter) как показатель того, что реклама была замечена. Затем модель учится прогнозировать эту вероятность взаимодействия (видимость) для будущих показов на основе расположения блока и других факторов.

В чем заключается ключевое математическое предположение патента?

Ключевое предположение основано на формуле условной вероятности. Система предполагает, что невозможно кликнуть на рекламу, не увидев ее ($p(click|!view) = 0$). Это позволяет упростить формулу и считать, что вероятность клика пропорциональна вероятности просмотра: $p(click) \propto p(view)$.

Зачем система в фазе обучения показывает одну и ту же рекламу одному пользователю несколько раз на разных местах?

Это делается для контроля переменных и изоляции влияния именно местоположения на видимость. Если интерес пользователя к конкретной рекламе постоянен (так как это один и тот же пользователь и одна и та же реклама), то разница в частоте кликов в разных слотах будет обусловлена именно разной видимостью этих слотов. Это позволяет модели точно изучить влияние позиции (Position-Activity Feature).

Влияет ли тип устройства или тематика сайта на Visibility Score?

Да, патент явно описывает использование дополнительных признаков. Device-Activity Feature учитывает тип устройства (например, видимость на мобильном отличается от десктопа). Content-Activity Feature учитывает тематику контента веб-ресурса, так как паттерны просмотра контента в разных тематиках могут различаться. Также может учитываться профиль пользователя (Preference-Activity Feature).

Могу ли я использовать эти знания для улучшения позиций моего сайта в органической выдаче?

Нет. Прямых рекомендаций для улучшения органического ранжирования из этого патента извлечь нельзя. Он описывает внутреннюю логику рекламного движка, а не поискового.

Что такое Activity Parameter?

Activity Parameter (Параметр Активности) — это отслеживаемое взаимодействие пользователя с рекламным объявлением. В патенте в качестве примеров приводятся клик (click activity) и наведение курсора (hover activity). Обычно это бинарная метрика (1 или 0), используемая как целевая переменная при обучении модели.

Как этот патент влияет на работу SEO-специалиста?

Прямого влияния нет. Косвенно он полезен для понимания того, как Яндекс анализирует внимание пользователей к различным блокам на странице. Это может помочь при анализе SERP: если рекламные блоки расположены в зонах с высоким Visibility Score, они могут сильнее снижать CTR органических результатов, расположенных рядом или ниже.

Применяются ли описанные методы для оценки видимости органических сниппетов?

В данном патенте описанные методы применяются исключительно к Targeted Messages (рекламным объявлениям). В тексте патента нет информации о применении этих же методов к органическим сниппетам.