Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует офлайн машинное обучение для оптимизации параметров рекламного аукциона и снижения нагрузки на сервер

    СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ОПТИМАЛЬНОГО ЗНАЧЕНИЯ ПАРАМЕТРА АУКЦИОНА ДЛЯ ЦИФРОВОГО ОБЪЕКТА (METHOD AND SYSTEM OF DETERMINING OPTIMAL VALUE OF AUCTION PARAMETER FOR DIGITAL OBJECT)
    • RU2637431C2
    • Yandex LLC
    • 2017-12-04
    • 2015-10-12
    2017 Антиспам Обучение моделей Патенты Яндекс Яндекс Директ

    Яндекс патентует метод снижения нагрузки на серверы рекламного аукциона (например, Яндекс.Директ). Вместо расчета оптимальных параметров (таких как минимальная цена) в реальном времени, система использует машинное обучение для предварительного расчета этих значений в офлайн-режиме на основе исторических данных, применяя подход перекрестной валидации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает инфраструктурную проблему, связанную со значительной вычислительной нагрузкой на сервер аукциона при выполнении онлайн-алгоритмов определения параметров аукциона (например, стартовой цены) в реальном времени. Высокая нагрузка требует применения дорогостоящих вычислительных систем для обеспечения быстродействия. Кроме того, в описании упоминается проблема известных решений, которые позволяют рекламодателям манипулировать рынком и намеренно понижать стартовую цену (формируя негативные состояния рыночного равновесия Нэша).

    Что запатентовано

    Запатентована система и способ оптимизации параметров рекламного аукциона путем переноса вычислений из онлайн в офлайн-режим. Суть изобретения заключается в использовании машинного обучения для предварительного расчета оптимальных значений параметров аукциона на основе исторических данных. Для обеспечения надежности используется метод, напоминающий перекрестную валидацию (cross-validation): пользователи (рекламодатели) делятся на две группы, и модель, обученная на данных одной группы, применяется для прогнозирования параметров для другой.

    Как это работает

    Система разделяет пользователей (например, рекламодателей) на две группы. Обучающая система в офлайн-режиме тренирует алгоритм машинного обучения на исторических данных Первой группы, чтобы прогнозировать оптимальные параметры аукциона (например, минимальную цену размещения). Затем этот обученный алгоритм используется для определения и сохранения оптимальных значений для Второй группы. Когда в реальном времени происходит аукцион с участием пользователя из Второй группы, система мгновенно применяет заранее рассчитанное (сохраненное) оптимальное значение, не тратя ресурсы сервера на сложные вычисления.

    Актуальность для SEO

    Средняя. Принцип переноса сложных вычислений в офлайн-режим является стандартной практикой для оптимизации высоконагруженных систем, таких как рекламные аукционы. Использование машинного обучения и перекрестной валидации для настройки параметров системы также актуально. Однако конкретные алгоритмы и оптимизируемые параметры в Яндекс.Директ могли эволюционировать с момента подачи заявки (2015 год).

    Важность для SEO

    Влияние на SEO минимальное (1/10). Патент описывает исключительно внутренние процессы системы рекламного аукциона (PPC), например Яндекс.Директ. Он не имеет отношения к алгоритмам ранжирования органического поиска (SEO). Патент не содержит прямых рекомендаций для SEO-специалистов и описывает инфраструктурные решения для оптимизации нагрузки на серверы рекламы.

    Детальный разбор

    Термины и определения

    Патент описывает внутренние процессы Яндекс без прямых рекомендаций для SEO.

    Сервис аукциона (Auction Service)
    Компьютерная программа или онлайн-сервис, определяющий стоимость размещения цифровых объектов посредством аукциона. Примеры: Яндекс.Директ, Google Ads, или онлайн-сервисы по продаже товаров-[46].
    Цифровой объект (Digital Object)
    Объект, участвующий в аукционе. В контексте контекстной рекламы — это рекламное объявление (текст, изображение, видео и т.д.). В контексте товарного аукциона — описание товара или услуги.
    Параметр аукциона (Auction Parameter)
    Значение, используемое в механизме аукциона. В патенте конкретно упоминаются: минимальная цена размещения и порог амнистирования для рекламодателя.
    Характеристика среды (Environmental Characteristic)
    Входные данные, описывающие контекст аукциона в определенный момент времени. Включают статистику по ставкам (средняя, минимальная, максимальная цена, 90% квантиль), а также значение вероятности клика (pCTR), значение релевантности (relevance score) объекта запросу, географический регион и сам поисковый запрос.
    Офлайн обучение (Offline Training)
    Процесс обучения алгоритма машинного обучения, происходящий не в реальном времени (не во время обработки запроса пользователя), а в фоновом режиме на исторических данных.
    Первая и Вторая группа пользователей (First/Second User Group)
    Разделение пользователей (например, рекламодателей) на две группы для реализации механизма перекрестной валидации. Модель обучается на Первой группе и применяется ко Второй, и наоборот.
    Обучающая система (Learning System)
    Компонент системы, отвечающий за офлайн обучение алгоритма машинного обучения на исторических данных,.
    Модуль определения (Determining Module)
    Компонент системы, применяющий обученный алгоритм для прогнозирования оптимальных параметров аукциона и их сохранения,.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на инфраструктурной оптимизации путем переноса вычислений из онлайн в офлайн.

    Claim 1 (Независимый пункт,): Описывает основной способ определения оптимального значения параметра аукциона.

    1. Получение исторических данных о взаимодействии Первой и Второй групп пользователей. Данные включают объект, параметр аукциона и характеристики среды.
    2. Офлайн обучение ML-алгоритма прогнозировать оптимальные параметры, используя только данные Первой группы.
    3. Применение обученного алгоритма для определения Первого оптимального значения параметра для объектов, связанных со Второй группой.
    4. Сохранение этих значений.
    5. Онлайн исполнение: При получении запроса на сервис аукциона, система определяет объект и связанного с ним пользователя.
    6. Если пользователь принадлежит ко Второй группе, система применяет сохраненное Первое оптимальное значение.

    Ядро изобретения — это использование данных одной группы для обучения модели, которая затем применяется к другой группе, и выполнение этого процесса офлайн для снижения нагрузки на сервер во время онлайн-запроса.

    Claim 5 (Зависимый пункт,): Уточняет, что если данные хранятся в виде единой группы, система должна выполнить разделение на Первую и Вторую группы перед обучением.

    Claim 6 (Зависимый пункт,): Описывает возможность категоризации цифровых объектов и разделения групп на подгруппы по этим категориям. Обучение и применение происходят независимо внутри каждой категории. Это позволяет более точно настраивать параметры для разных типов объектов (например, разные настройки для рекламы автомобилей и рекламы телефонов).

    Claim 17 (Зависимый пункт,): Описывает вторую часть перекрестной валидации.

    1. Офлайн обучение ML-алгоритма на данных Второй группы.
    2. Применение алгоритма для определения Второго оптимального значения для объектов Первой группы.
    3. Сохранение этих значений.

    Claim 18 уточняет, что если онлайн пользователь принадлежит к Первой группе, применяется Второе оптимальное значение. Это гарантирует, что оптимизация применяется ко всем пользователям, но модель никогда не применяется к данным, на которых она обучалась.

    Где и как применяется

    Важно понимать, что этот патент не применяется ни на одном из этапов органического поиска (CRAWLING, INDEXING, RANKING). Он полностью относится к инфраструктуре Системы Рекламного Аукциона (например, Яндекс.Директ).

    Система работает в двух режимах:

    Офлайн-режим (Фоновая обработка данных)

    • Компоненты: Хранилище данных, Обучающая система, Модуль определения.
    • Процесс: Происходит периодически (например, ночью, в периоды наименьшей загрузки). Система извлекает исторические данные, разделяет пользователей, обучает ML-модели и рассчитывает оптимальные параметры аукциона (например, минимальные цены).
    • Входные данные: История взаимодействий, Характеристики среды (ставки, CTR, Relevance Score).
    • Выходные данные: Сохраненные Первое и Второе оптимальные значения параметров аукциона для пользователей.

    Онлайн-режим (Обработка запроса)

    • Компоненты: Сервер аукциона.
    • Процесс: Когда поступает запрос, инициирующий аукцион (например, поисковый запрос пользователя, вызывающий показ рекламы), сервер аукциона определяет участников аукциона (рекламодателей) и их цифровые объекты (объявления).
    • Применение: Вместо запуска сложного алгоритма расчета параметров аукциона в реальном времени, сервер определяет, к какой группе принадлежит пользователь (рекламодатель), и мгновенно применяет соответствующее заранее рассчитанное оптимальное значение из хранилища.

    На что влияет

    • PPC-кампании: Патент напрямую влияет на работу систем контекстной рекламы. Он определяет, как рассчитываются ключевые параметры аукциона, такие как минимальная цена размещения.
    • Инфраструктура: Основное влияние — снижение вычислительной нагрузки на серверы аукциона.
    • Органический поиск (SEO): Патент не влияет на ранжирование, индексацию или сканирование органических результатов.

    Когда применяется

    • Офлайн-обучение: Выполняется периодически для обновления оптимальных значений. Период может составлять от нескольких дней до месяца, в некоторых случаях — ежедневно.
    • Онлайн-применение: При каждом запросе, который инициирует сервис аукциона (например, при каждом показе рекламного блока).

    Пошаговый алгоритм

    Процесс определения оптимального значения параметра аукциона.

    Фаза 1: Офлайн Подготовка и Обучение

    1. Сбор данных: Система получает из хранилища данные истории взаимодействия пользователей сервиса аукциона за определенный период времени.
    2. Фильтрация данных: Отбираются только полные записи, содержащие указатель на цифровой объект, параметр аукциона и характеристику среды.
    3. Сегментация пользователей: Единая группа пользователей разделяется на Первую группу и Вторую группу (например, случайным образом или по заданному правилу),.
    4. (Опционально) Категоризация: Разделение объектов на категории и пользователей на подгруппы.
    5. Обучение Модели 1: Алгоритм машинного обучения обучается прогнозировать оптимальные значения параметров аукциона, используя исключительно данные истории взаимодействия Первой группы.
    6. Прогнозирование для Группы 2: Обученная Модель 1 применяется для определения Первого оптимального значения параметра аукциона для цифровых объектов, связанных со Второй группой.
    7. Сохранение Значений 1: Первые оптимальные значения сохраняются в хранилище данных.
    8. (Опционально) Обучение Модели 2: Алгоритм обучается на данных Второй группы.
    9. (Опционально) Прогнозирование для Группы 1: Модель 2 определяет Второе оптимальное значение для Первой группы.
    10. (Опционально) Сохранение Значений 2: Вторые оптимальные значения сохраняются.

    Фаза 2: Онлайн Применение

    1. Получение запроса: Сервер аукциона получает запрос на сервис аукциона (например, запрос на показ рекламы).
    2. Идентификация: Система определяет цифровой объект, релевантный запросу, и пользователя (рекламодателя), связанного с этим объектом.
    3. Определение группы: Система проверяет, к какой группе принадлежит пользователь.
    4. Применение значения:
      • Если пользователь принадлежит Второй группе, применяется заранее сохраненное Первое оптимальное значение параметра аукциона.
      • (Опционально) Если пользователь принадлежит Первой группе, применяется Второе оптимальное значение.
    5. Проведение аукциона: Аукцион проводится с использованием примененных параметров.

    Какие данные и как использует

    Данные на входе

    Система использует Данные истории взаимодействия, которые включают обязательные и опциональные поля.

    Обязательные поля:

    • Указатель на цифровой объект (ID объявления).
    • Параметр аукциона (значение, которое использовалось исторически).
    • Характеристика среды в соответствующий момент времени.

    Характеристики среды (Ключевые входные факторы для ML-модели):

    • Статистика ставок: Средняя предложенная цена, 90% квантиль предложенной цены, минимальная и максимальная предложенные цены.
    • Поведенческие/Ранжирующие факторы (применительно к рекламе):
      • Значение вероятности клика на цифровой объект (Predicted CTR).
      • Значение релевантности цифрового объекта поисковому запросу (Relevance Score).
    • Контекстные факторы: Поисковый запрос, в ответ на который был показан объект; указатель на географический регион.

    Дополнительные данные (Опционально):

    • Структурные/Мультимедиа факторы: Указатель типа цифрового объекта (текст, изображение, видео, интерактивный элемент и т.д.),.
    • Технические факторы: Пространственное размещение цифрового объекта на экране (позиция в рекламном блоке).
    • Временные факторы: История изменения параметров аукциона в течение времени.

    Какие метрики используются и как они считаются

    Патент не описывает конкретные формулы или алгоритмы машинного обучения, но четко определяет, что система вычисляет и оптимизирует.

    • Алгоритм машинного обучения: Используется для прогнозирования оптимальных значений на основе исторических данных и характеристик среды.
    • Целевые метрики (Оптимизируемые параметры): Система рассчитывает Оптимальное значение параметра аукциона. Конкретные примеры, приведенные в патенте:
      • Минимальная цена размещения.
      • Порог амнистирования для рекламодателя.
    • Метод валидации: Используется разделение данных на обучающую и тестовую выборки (Первая и Вторая группы), что является реализацией метода перекрестной валидации (Cross-Validation) для предотвращения переобучения модели.

    Выводы

    Патент описывает внутренние процессы Яндекс, связанные с оптимизацией рекламного аукциона, без прямых рекомендаций для SEO.

    1. Фокус на инфраструктуре PPC, а не SEO: Изобретение направлено исключительно на снижение нагрузки на серверы рекламного аукциона путем переноса сложных вычислений в офлайн-режим. Оно не затрагивает органический поиск.
    2. Использование ML для оптимизации аукциона: Яндекс применяет машинное обучение для определения ключевых параметров аукциона (например, минимальной цены), основываясь на большом объеме исторических данных.
    3. Важность перекрестной валидации: Механизм разделения пользователей на две группы и перекрестное обучение/применение моделей (обучение на Группе 1, применение к Группе 2 и наоборот) является ключевой особенностью системы. Это обеспечивает надежность модели и предотвращает переобучение.
    4. Подтверждение использования Relevance Score и pCTR в аукционе: Патент подтверждает, что система рассчитывает и использует «значение релевантности» (Relevance Score) и «значение вероятности клика» (Predicted CTR) как важные входные сигналы («характеристики среды») для настройки параметров аукциона.

    Практика

    Этот патент является инфраструктурным и описывает внутреннюю работу системы контекстной рекламы (PPC). Он не дает практических выводов или рекомендаций для специалистов по органическому поиску (SEO).

    Best practices (это мы делаем)

    Практических рекомендаций для SEO на основе этого патента нет.

    Для специалистов по контекстной рекламе (PPC) патент подчеркивает, что параметры аукциона (минимальные цены, пороги) определяются сложными ML-моделями на основе исторических данных, релевантности и прогнозируемого CTR. Это подтверждает важность работы над качеством объявлений и посадочных страниц для улучшения Relevance Score и pCTR.

    Worst practices (это делать не надо)

    Практических рекомендаций для SEO на основе этого патента нет.

    В контексте PPC, патент упоминает, что система направлена на предотвращение манипуляций рынком со стороны рекламодателей (попыток искусственно занизить стартовую цену).

    Стратегическое значение

    Стратегическое значение для SEO отсутствует.

    Для Яндекса стратегическое значение заключается в повышении эффективности инфраструктуры и снижении затрат на оборудование за счет оптимизации вычислительной нагрузки на серверы аукциона. Это позволяет масштабировать рекламную систему без линейного роста затрат на обработку запросов в реальном времени.

    Практические примеры

    Практических примеров для SEO нет. Ниже приведен пример работы системы в контексте PPC (Яндекс.Директ) для иллюстрации механизма.

    Сценарий (PPC): Определение минимальной цены размещения

    1. Офлайн подготовка: Рекламодатели разделены на Группу 1 и Группу 2. Система анализирует историю Группы 1 по запросу «ремонт iPhone»: средние ставки, Relevance Score объявлений, прогнозируемый CTR. ML-модель обучается определять оптимальную минимальную цену размещения.
    2. Офлайн прогнозирование: Модель применяется к Группе 2. Для Рекламодателя А (из Группы 2) система прогнозирует, что оптимальная минимальная цена размещения для его объявления по этому запросу составит 15 рублей. Это значение сохраняется.
    3. Онлайн исполнение: Пользователь вводит запрос «ремонт iPhone». Инициируется аукцион. Система видит, что Рекламодатель А участвует в аукционе и принадлежит к Группе 2.
    4. Результат: Вместо того чтобы запускать сложный расчет минимальной цены в реальном времени, сервер мгновенно применяет сохраненное значение (15 рублей) для этого рекламодателя в данном аукционе. Это экономит вычислительные ресурсы.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в органической выдаче Яндекса?

    Нет, этот патент не имеет отношения к органическому поиску (SEO). Он описывает исключительно инфраструктуру и методы оптимизации системы рекламного аукциона (PPC), такой как Яндекс.Директ. Цель изобретения — снижение нагрузки на серверы рекламы.

    Какую основную проблему решает это изобретение?

    Основная проблема — это высокая вычислительная нагрузка на серверы при расчете оптимальных параметров аукциона (например, стартовой цены) в реальном времени (онлайн). Патент предлагает перенести эти сложные вычисления в офлайн-режим, используя машинное обучение для предварительного расчета параметров.

    Зачем система разделяет пользователей (рекламодателей) на две группы?

    Это реализация метода перекрестной валидации (Cross-Validation). Модель машинного обучения тренируется на данных Первой группы, а применяется для прогнозирования параметров Второй группы (и наоборот). Это необходимо для предотвращения переобучения модели и гарантирует, что модель не применяется к тем же данным, на которых она обучалась, повышая надежность системы.

    Что такое «Характеристики среды», упоминаемые в патенте?

    Это входные данные, которые описывают контекст аукциона и используются ML-моделью для прогнозирования. Они включают статистику по ставкам (средняя, максимальная цена), а также важные сигналы качества: «значение вероятности клика» (Predicted CTR) и «значение релевантности» (Relevance Score) объявления запросу, географию и сам запрос.

    Что такое «Relevance Score» в контексте этого патента и связан ли он с SEO-релевантностью?

    Relevance Score здесь — это оценка релевантности рекламного объявления поисковому запросу. Хотя она использует схожие принципы с SEO-релевантностью (соответствие контента запросу), это отдельная метрика, рассчитываемая системой рекламы и используемая как входной сигнал для аукциона. Она не влияет на органическое ранжирование.

    Какие конкретно параметры аукциона оптимизирует эта система?

    В патенте приведены два конкретных примера параметров, которые могут быть оптимизированы с помощью этого метода: «минимальная цена размещения» и «порог амнистирования для рекламодателя». Это специфические термины, относящиеся к механике рекламных аукционов.

    Может ли SEO-специалист извлечь какую-либо пользу из этого патента?

    Прямой пользы для SEO-стратегий нет. Косвенно, патент полезен для общего понимания инфраструктуры Яндекса, подтверждая, что компания активно использует машинное обучение для оптимизации своих систем и рассчитывает детальные метрики релевантности и вероятности клика, хотя и в контексте рекламы.

    Как часто обновляются эти оптимальные значения?

    Патент указывает, что обновление происходит путем периодического повторения этапов офлайн-обучения. Конкретная частота не указана, но упоминаются примеры от ежедневного обновления до обновления раз в месяц, в зависимости от задачи и динамики данных.

    Применяется ли этот метод к новым рекламодателям, у которых еще нет истории?

    Патент описывает сценарий, когда новый пользователь может быть определен в одну из групп (например, во Вторую). Несмотря на отсутствие у него личной истории взаимодействия, к нему будет применено оптимальное значение, рассчитанное ML-моделью на основе исторических данных других пользователей (из Первой группы) в схожих условиях.

    Что означает категоризация цифровых объектов (Claim 6)?

    Это означает, что система может группировать объекты по категориям (например, по тематикам или типам объявлений) и обучать отдельные ML-модели для каждой категории. Это позволяет более точно настраивать параметры аукциона, учитывая специфику разных рынков (например, аукцион для недвижимости будет работать иначе, чем для электроники).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.