Яндекс патентует метод многоэтапного лингвистического анализа рекламных объявлений для извлечения их основного смысла («Параметра Намерения»), отфильтровывая «бессмысленные фразы». Этот параметр используется для точного сопоставления рекламы с интентом пользователя и для прогнозирования CTR новых объявлений на основе исторических данных объявлений с аналогичным намерением.
Описание
Какую задачу решает
Патент решает задачу повышения релевантности целевой рекламы (например, в Яндекс.Директ). Основная проблема — точное определение основного предложения или темы рекламного объявления (Целевое сообщение), текст которого часто содержит маркетинговый шум («бессмысленные фразы»). Точное определение интента позволяет лучше сопоставлять рекламу с интересами пользователя. Вторичная задача — решение проблемы «холодного старта» путем прогнозирования показателя кликабельности (CTR) для новых объявлений, по которым еще нет статистики.
Что запатентовано
Запатентована система и метод для определения «Параметра намерения» (Intention Parameter) рекламного объявления. Суть изобретения заключается в использовании иерархического (каскадного) 5-этапного лингвистического анализа для стандартизации смысла объявления. Этот стандартизированный параметр используется для таргетинга и для прогнозирования CTR новых объявлений на основе исторических данных.
Как это работает
Система предварительно анализирует текст объявления (заголовок и тело), удаляет шумовые («бессмысленные») фразы и пытается определить интент через серию последовательных шагов. Сначала проверяется наличие ключевых слов, связанных с объявлением. Если они не найдены или не дают результата, система сравнивает текст с базой известных фраз и базой ранее определенных параметров намерений. Если совпадений нет, выбирается одна из оставшихся осмысленных фраз. Полученный Параметр намерения используется для сопоставления объявления с запросами пользователей, а также для поиска исторически похожих объявлений для прогнозирования CTR.
Актуальность для SEO
Средняя (для AdTech/PPC). Принципы извлечения интента и прогнозирования CTR остаются фундаментальными для рекламных систем. Однако конкретные лингвистические методы, описанные в патенте (подача 2014 года), основанные на правилах и точном совпадении, вероятно, были дополнены или заменены более современными нейросетевыми подходами (векторные представления, трансформеры).
Важность для SEO
Влияние на органическое SEO минимально (1/10). Патент полностью посвящен внутренней работе рекламной системы Яндекс.Директ. Он не описывает алгоритмы сканирования, индексации или ранжирования органических результатов. Он полезен для понимания того, как Яндекс обрабатывает рекламный контент (что актуально для PPC-специалистов), но не предоставляет прямых рекомендаций для SEO.
Детальный разбор
Термины и определения
- База моделей параметров намерения (База 170)
- База данных, хранящая все или не-семантически-повторяющиеся Параметры намерения, которые были ранее определены системой для других рекламных объявлений. Используется на Этапе 4 анализа.
- База моделей фраз (База 160)
- База данных, хранящая «фразы, связанные с намерением». Эти фразы определены (эвристически, например, паттерн Бренд + Продукт, или с помощью машинного обучения) как надежные индикаторы интента. Используется на Этапе 3 анализа.
- Бессмысленные фразы (Не имеющие смысла фразы)
- Фразы в тексте объявления, которые имеют слишком широкое значение, не описывают продукт или являются маркетинговым шумом. Примеры из патента: «лучшая цена», «очень выгодно», «только у нас», «купить в Москве», а также глаголы действия («звоните!», «купить сейчас»).
- Запрашиваемый параметр намерения
- Представление интента пользователя в данный момент. Генерируется на основе контекста: поискового запроса (включая его нормализованную версию), истории браузера пользователя или тематики посещаемого веб-сайта.
- Параметр намерения
- Ключевая сущность патента. Это фраза, извлеченная из Целевого сообщения с помощью многоэтапного лингвистического анализа, которая представляет собой основную тему или интент этого сообщения.
- Целевое сообщение
- В контексте патента — рекламное объявление (текстовая реклама, баннер и т.п.). Состоит из области заголовка (202) и области тела (204).
- CTR (Click-through-rate)
- Показатель кликабельности. Отношение числа кликов по объявлению к числу его показов. Используется для оценки эффективности и прогнозирования.
Ключевые утверждения (Анализ Claims)
Патент защищает два основных механизма: иерархический метод определения интента рекламного объявления и метод использования этого интента для таргетинга и прогнозирования CTR.
Claim 1 (Независимый пункт): Описывает основной процесс таргетинга.
- Система определяет и сохраняет Параметр намерения для целевого сообщения (рекламы) посредством лингвистического анализа его текста.
- Система получает запрос на показ рекламы, содержащий Запрашиваемый параметр намерения (интент пользователя).
- Если сохраненный Параметр намерения объявления совпадает с Запрашиваемым параметром намерения, объявление выбирается для показа.
- Инициируется отображение объявления.
Claims 3-5 (Предобработка): Детализируют начальные этапы лингвистического анализа.
Текст подвергается семантическому анализу (Claim 3) и разбивается на фразы (Claim 4). Критически важный этап — удаление фраз, которые были определены как не имеющие смысла (Claim 5).
Claim 11 (Иерархический алгоритм): Описывает ядро метода определения Параметра намерения из очищенного текста. Это 5-этапный каскад с откатом (fallback), где каждый шаг выполняется, только если предыдущий не дал результата.
- (Шаг a): Если осталась только одна фраза, она выбирается как параметр.
- (Шаг b): Проверка совпадения оставшихся фраз с ключевыми словами, связанными с объявлением. При совпадении ключевое слово выбирается как параметр.
- (Шаг c): Сравнение фраз с Базой моделей фраз (известные паттерны интента). При совпадении эта фраза выбирается как параметр.
- (Шаг d): Сравнение фраз с Базой моделей параметров намерения (исторические интенты). При совпадении этот параметр выбирается.
- (Шаг e): Если ничего не подошло, выбирается одна из оставшихся фраз (например, по порядку или случайно).
Claim 19 (Независимый пункт): Описывает метод прогнозирования CTR для нового объявления (решение проблемы «холодного старта»).
- Определение Параметра намерения для нового объявления (используя логику Claim 11).
- Поиск в базе данных существующих объявлений с идентичным Параметром намерения.
- Извлечение исторического CTR этих существующих объявлений.
- Использование этого исторического CTR для определения Предполагаемого показателя CTR для нового объявления.
Где и как применяется
Изобретение применяется исключительно в рамках рекламной системы Яндекса (Яндекс.Директ) и не относится к органическому поиску (CRAWLING, INDEXING, RANKING веб-документов). Оно реализуется на «Сервере целевых сообщений» (Рекламный сервер 140).
Офлайн-обработка (Индексация и анализ рекламы)
Основная часть работы происходит при загрузке или обновлении рекламных объявлений.
- Процесс: Выполняется лингвистический анализ и 5-этапный каскад для определения Параметра намерения. Также здесь происходит прогнозирование CTR для новых объявлений.
- Взаимодействие: Используются Базы 160 и 170.
Онлайн-обработка (Выбор рекламы)
Происходит в момент, когда нужно заполнить рекламный слот. Система взаимодействует с поисковыми компонентами:
QUERY PROCESSING – Понимание Запросов
Поисковый запрос пользователя (или контекст страницы/история пользователя) обрабатывается для генерации Запрашиваемого параметра намерения.
BLENDER – Метапоиск и Смешивание / Генерация SERP
Рекламная система получает Запрашиваемый параметр намерения, сравнивает его со своей базой и возвращает подходящее Целевое сообщение для встраивания в SERP или на веб-сайт (РСЯ).
На что влияет
- Типы контента: Влияет исключительно на рекламные объявления в системе Яндекс.Директ. Не влияет на органические результаты поиска.
- Эффективность рекламы: Напрямую влияет на точность таргетинга и оценку потенциальной эффективности (CTR) объявлений.
Когда применяется
- Триггер активации анализа (Офлайн): При получении нового целевого сообщения или обновлении существующего.
- Триггер активации выбора (Онлайн): При получении запроса на целевое сообщение от поискового сервера (для SERP) или от сервера веб-сайта (для РСЯ).
Пошаговый алгоритм
Процесс А: Определение Параметра Намерения (Офлайн)
- Получение данных: Система получает текст Целевого сообщения (заголовок и тело) и связанные с ним ключевые слова.
- Лингвистический анализ и Очистка:
- Текст разбивается на фразы (например, по знакам препинания). Выполняется семантический анализ.
- Идентифицируются и удаляются «бессмысленные фразы» (например, с помощью анализа регулярных выражений).
- Каскадное определение намерения (5 этапов):
- Этап 1 (Единственная фраза): Если после очистки осталась одна фраза, она выбирается как Параметр намерения. Процесс завершается.
- Этап 2 (Ключевые слова): Оставшиеся фразы сравниваются с ключевыми словами объявления. При совпадении ключевое слово выбирается как Параметр намерения. Процесс завершается.
- Этап 3 (База моделей фраз): Фразы сравниваются с известными фразами, связанными с намерением (База 160). При совпадении эта фраза выбирается как Параметр намерения. Процесс завершается.
- Этап 4 (База параметров намерения): Фразы сравниваются с ранее назначенными параметрами намерения других объявлений (База 170). При совпадении этот параметр выбирается. Процесс завершается.
- Этап 5 (По умолчанию): Если ни один из этапов не сработал, выбирается одна из оставшихся фраз (например, первая) как Параметр намерения.
- Сохранение: Определенный Параметр намерения сохраняется в связи с Целевым сообщением.
Процесс Б: Прогнозирование CTR (Офлайн)
- Определение намерения: Для нового сообщения определяется Параметр намерения (Процесс А).
- Поиск совпадений: Система ищет в базе данных существующие сообщения с таким же Параметром намерения.
- Извлечение данных: Извлекается исторический CTR найденных существующих сообщений.
- Прогноз: На основе исторического CTR определяется Предполагаемый показатель CTR для нового сообщения.
Какие данные и как использует
Данные на входе
- Контентные факторы (Рекламные): Текст Целевого сообщения, включая Область заголовка (202) и Область тела (204).
- Метаданные (Ключевые слова): Список ключевых слов, связанных с Целевым сообщением (предоставленный рекламодателем или сгенерированный). Используются на Этапе 2 анализа.
- Поведенческие факторы: Исторические данные о показателе кликабельности (CTR) существующих объявлений. Используются для прогнозирования CTR.
- Системные данные (Базы знаний): База моделей фраз (160) и База моделей параметров намерения (170).
- Пользовательские факторы (Для таргетинга): Поисковый запрос пользователя, история браузера, профиль пользователя. Используются для генерации Запрашиваемого параметра намерения.
Какие метрики используются и как они считаются
- Лингвистический анализ: Включает семантический и синтаксический анализ, нормализацию и разбиение текста на фразы.
- Идентификация бессмысленных фраз: Используются методы распознавания образов и лексического анализа (например, анализ регулярных выражений) для фильтрации шума.
- Параметр намерения: Вычисляется с помощью 5-этапного каскадного алгоритма, основанного на сравнении текста с различными источниками данных.
- Предполагаемый показатель CTR: Рассчитывается для новых объявлений на основе исторических данных CTR объявлений с идентичным Параметром намерения.
Выводы
- Патент относится исключительно к Рекламной Системе (Яндекс.Директ), а не к SEO. Основной вывод для SEO-специалистов — этот патент не описывает алгоритмы органического ранжирования.
- Ключевая концепция — извлечение чистого интента. Яндекс стремится нормализовать рекламные объявления до их основного смысла (Параметра намерения), чтобы улучшить качество таргетинга и прогнозирования.
- Фильтрация маркетингового шума критически важна. Система активно идентифицирует и удаляет «бессмысленные фразы» (призывы к действию, общие слова, например, «лучшая цена») при определении темы объявления.
- Каскадный подход к анализу (5 этапов). Используется сложный иерархический алгоритм, который гарантирует определение интента, последовательно используя текст, ключевые слова и базы знаний.
- Решение проблемы «холодного старта». Патент предлагает конкретный механизм использования исторических данных (CTR) для прогнозирования эффективности новых объявлений через механизм группировки по интенту.
Практика
Best practices (это мы делаем)
Патент описывает работу рекламной системы. Практическое применение для SEO отсутствует. Рекомендации применимы только для специалистов по контекстной рекламе (PPC).
Для PPC (Яндекс.Директ):
- Точное соответствие текста и ключевых слов: Убедитесь, что текст объявления содержит фразы, соответствующие ключевым словам, на которые вы делаете ставки. Это приоритетный способ (Этап 2) определения Параметра Намерения.
- Фокус на конкретике, а не на «воде»: Поскольку система отфильтровывает «бессмысленные фразы», фокусируйтесь на четком описании продукта или услуги. Общие маркетинговые фразы не помогут системе понять суть предложения.
- Использование структуры Бренд + Модель: Патент упоминает, что эвристики типа «Бренд + Продукт» используются в Базе моделей фраз (Этап 3). Использование таких конструкций в тексте повышает вероятность корректного определения интента.
Worst practices (это делать не надо)
Не применимо к SEO.
Для PPC (Яндекс.Директ):
- Перегружать объявления общими фразами: Использование большого количества фраз вроде «лучшая цена», «скидки», «звоните» не поможет таргетингу, так как этот шум будет отфильтрован.
- Создавать рассогласованные объявления и ключевые слова: Если текст объявления не совпадает с его ключевыми словами, система может затрудниться с определением Параметра намерения на ранних этапах и прибегнуть к менее точным методам, что ухудшит таргетинг.
Стратегическое значение
Для органического SEO стратегическое значение патента отсутствует. Патент подтверждает высокий уровень развития NLP-технологий Яндекса в области анализа коротких коммерческих текстов. Он демонстрирует стремление Яндекса показывать рекламу не просто по совпадению слов, а по совпадению смысла (интента) между запросом пользователя и предложением рекламодателя.
Практические примеры
Практических примеров для SEO нет. Ниже приведен пример анализа объявления в рамках описанной системы (PPC).
Сценарий: Анализ рекламного объявления в Яндекс.Директ
Рекламодатель создает объявление. Ключевые слова:.
- Текст объявления: «Вилочные погрузчики. Новые и б/у. А также другое промышленное оборудование. Более 500 наименований в продаже. Звоните сейчас!»
- Лингвистический анализ и фильтрация: Система удаляет бессмысленные фразы (например, «Более 500 наименований…», «Звоните сейчас!»).
Оставшийся текст (примерно): <Вилочные погрузчики> <Новые и б/у> <Другое промышленное оборудование>. - Определение Параметра Намерения:
- Этап 1: Осталось более одной фразы.
- Этап 2: Сравнение с ключевым словом «Вилочные погрузчики». Есть совпадение с первой фразой.
- Результат: Система определяет Параметр Намерения как «Вилочные погрузчики».
- Прогнозирование CTR: Система берет исторический CTR других объявлений с интентом «Вилочные погрузчики» и использует его как прогноз для нового объявления.
Вопросы и ответы
Этот патент описывает ранжирование органической выдачи Яндекса?
Нет. Патент RU2589856C2 полностью посвящен обработке «Целевых сообщений», то есть рекламных объявлений в системе Яндекс.Директ. Он описывает методы улучшения рекламного таргетинга и прогнозирования CTR. Механизмы органического ранжирования в этом документе не рассматриваются.
Что такое «Параметр намерения» в контексте этого патента?
Это фраза, извлеченная из текста рекламного объявления, которая наиболее точно отражает его основной смысл или интент. Это результат глубокой очистки и анализа текста. Параметр намерения служит нормализованным представлением рекламы для ее дальнейшего сопоставления с интентом пользователя.
Что Яндекс считает «бессмысленными фразами»?
Патент приводит конкретные примеры фраз, которые система фильтрует: общие слова («лучшая цена», «очень выгодно», «только у нас»), неспецифичная локализация («купить в Москве»), а также призывы к действию или глаголы действия («звоните!», «купить сейчас!»). Это фразы, которые не несут информации о самом продукте или услуге.
Какую пользу этот патент несет SEO-специалисту, если он про рекламу?
Прямой пользы для SEO нет. Косвенная польза — понимание возможностей лингвистических анализаторов Яндекса. Патент демонстрирует, что Яндекс активно применяет технологии для фильтрации информационного шума («бессмысленных фраз») и выделения ядра интента. Логично предположить, что схожие подходы к очистке текста и пониманию смысла могут применяться и при анализе органического контента.
Как система определяет Параметр намерения, если в объявлении много разного текста?
Используется 5-этапный каскадный алгоритм. Сначала текст очищается от шума. Если осталась одна фраза, она и есть параметр. Если нет, система последовательно ищет совпадения с ключевыми словами объявления, затем с базой известных фраз намерения, затем с историческими параметрами. Если ничего не найдено, выбирается первая оставшаяся осмысленная фраза.
Зачем в патенте описано прогнозирование CTR?
Это решение проблемы «холодного старта». Чтобы система могла эффективно ранжировать новое объявление в рекламном аукционе, ей нужна оценка его ожидаемого CTR. Система определяет Параметр намерения нового объявления, находит старые объявления с таким же намерением и использует их исторический CTR для прогноза.
Используются ли в этом патенте нейросети или машинное обучение?
Патент фокусируется на лингвистическом анализе, основанном на правилах, регулярных выражениях и точном совпадении с базами данных. Хотя упоминается, что База моделей фраз может быть создана с помощью машинного обучения, основной 5-этапный каскад описан как алгоритмический процесс сравнения, а не как работа нейросетевой модели.
Что важнее для Яндекс.Директ согласно этому патенту: текст объявления или ключевые слова?
Они тесно связаны и используются совместно. Текст объявления анализируется, но приоритетным способом определения интента (Этап 2) является совпадение очищенного текста с ключевыми словами, на которые сделана ставка. Если текст и ключевые слова сильно расходятся, точность определения интента снижается.
Что такое «База моделей фраз»?
Это хранилище известных фраз или паттернов, которые система считает хорошими индикаторами намерения. В патенте приводится пример эвристики для ее наполнения: комбинация имени бренда и названия продукта, расположенных рядом (например, «LG DVD-плееры»), считается фразой, связанной с намерением.
Может ли этот механизм использоваться для таргетинга рекламы не по запросу, а по поведению (РСЯ)?
Да. Патент указывает, что «Запрашиваемый параметр намерения» (текущий интент пользователя) может быть основан не только на поисковом запросе, но и на истории браузера пользователя (Claim 18) или контексте посещаемого веб-сайта (Claim 16), что актуально для Рекламной Сети Яндекса (РСЯ).