Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует лингвистический анализ для определения основного интента рекламных объявлений и фильтрации «шума»

    METHOD OF AND SERVER FOR PROCESSING A MESSAGE TO DETERMINE INTENT (Метод и сервер для обработки сообщения с целью определения намерения)
    • WO2016046650A1
    • Yandex LLC
    • 2016-03-31
    • 2015-01-22
    2016 Интент пользователя Патенты Яндекс Холодный старт Яндекс Директ

    Яндекс использует многоступенчатый лингвистический анализ для извлечения «Параметра Намерения» (Intent Parameter) — ключевой темы рекламного объявления. Система последовательно фильтрует «незначимые фразы» (шум, призывы к действию), сравнивает текст с ключевыми словами и базами известных интентов. Это используется для повышения релевантности таргетинга и прогнозирования CTR новых объявлений на основе исторических данных.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу повышения эффективности таргетированной рекламы. Основная проблема — как точно определить фактическую тему (интент) рекламного сообщения (targeted message), игнорируя маркетинговый «шум» и общие фразы, чтобы показать его релевантной аудитории. Кроме того, патент решает проблему «холодного старта» для новых рекламных объявлений, предлагая механизм прогнозирования их эффективности (CTR), для которых еще не накоплена статистика.

    Что запатентовано

    Запатентована система и метод для автоматического определения Intent Parameter (Параметра Намерения) рекламного сообщения. Суть изобретения заключается в многоступенчатом, последовательном лингвистическом анализе текста объявления (заголовка и тела). Этот процесс включает парсинг текста, удаление «незначимых фраз» и иерархический поиск ключевой темы путем сопоставления оставшихся фраз с ключевыми словами, эвристическими моделями и базой ранее определенных интентов.

    Как это работает

    Система обрабатывает текст объявления, разбивая его на фразы и удаляя «воду» и призывы к действию (non-meaningful phrases). Затем она пытается определить Intent Parameter в строгой последовательности (каскаде): (1) осталась ли только одна значимая фраза? (2) есть ли совпадение с ключевыми словами объявления? (3) есть ли совпадение с базой известных фраз-интентов (например, Бренд + Модель)? (4) есть ли совпадение с базой всех ранее определенных интентов? (5) если нет, выбирается первая (или случайная) оставшаяся фраза. Этот параметр используется для сопоставления с интентом пользователя (Request Intent Parameter) и для прогнозирования CTR новых объявлений.

    Актуальность для SEO

    Средняя. Определение интента и прогнозирование CTR остаются фундаментальными задачами. Однако описанные в патенте (подан в 2015) методы лингвистического анализа, основанные на правилах, эвристиках и последовательных проверках, в 2025 году, вероятно, дополнены или заменены более сложными нейросетевыми моделями (трансформерами). Тем не менее, логика фильтрации незначимого контента и иерархического определения темы остается актуальной как концепция.

    Важность для SEO

    Влияние на органическое SEO ограничено (4/10). Патент описывает исключительно внутренние процессы системы таргетированной рекламы (Яндекс.Директ), а не алгоритмы органического ранжирования. Однако он имеет критическое косвенное значение, так как детально раскрывает концепцию «незначимых фраз» (non-meaningful phrases). Это демонстрирует технические возможности Яндекса по идентификации и игнорированию «воды», общих фраз и шума при анализе контента для выявления его основного смысла.

    Детальный разбор

    Термины и определения

    CTR (Click-Through Rate)
    Показатель кликабельности. Исторический CTR объявлений с определенным Intent Parameter используется для прогнозирования CTR новых объявлений с таким же параметром.
    Intent Parameter (Параметр Намерения)
    Ключевая тема или суть рекламного сообщения, автоматически извлеченная из его текста в результате лингвистического анализа.
    Model Intent Parameter Database (База данных модельных параметров намерения)
    База данных, хранящая все ранее определенные Intent Parameters для проанализированных рекламных сообщений.
    Model Phrase Database (База данных модельных фраз)
    База данных, хранящая фразы, которые были определены как индикаторы намерения. Могут генерироваться с помощью эвристик (например, «Бренд + Название продукта»), операторами или с помощью машинного обучения.
    Non-meaningful phrases (Незначимые фразы)
    Фразы в тексте объявления, которые имеют расплывчатое значение, не описывают продукт или являются общими призывами к действию (например, «лучшие цены», «купить в Москве», «звоните!»). Эти фразы удаляются в процессе анализа.
    Request Intent Parameter (Параметр Намерения Запроса)
    Интент пользователя, связанный с запросом на показ рекламы. Может быть основан на поисковом запросе пользователя, его истории просмотров (browsing history) или профиле.
    Targeted Message (Целевое сообщение)
    Рекламное объявление (например, баннер, текстовое объявление).

    Ключевые утверждения (Анализ Claims)

    Патент содержит две основные группы утверждений: Процесс таргетинга на основе Intent Parameter (Claims 1-18) и Процесс прогнозирования CTR на основе Intent Parameter (Claim 19).

    Claim 1 (Независимый пункт): Описывает общий метод использования предварительно вычисленного интента для таргетинга.

    1. Система использует (appreciating) Intent Parameter, связанный с рекламой. Этот параметр был заранее определен путем лингвистического анализа текста рекламы и сохранен.
    2. Система получает запрос на показ рекламы. Этот запрос связан с Request Intent Parameter (интентом пользователя).
    3. Если Intent Parameter рекламы соответствует Request Intent Parameter пользователя, реклама выбирается для доставки.
    4. Система инициирует показ рекламы.

    Claims 2-11 (Зависимые пункты): Детализируют процесс лингвистического анализа, упомянутый в Claim 1. Это ядро изобретения.

    Процесс включает парсинг текста на фразы (Claim 4) и удаление non-meaningful phrases (Claim 5).

    Claim 11 определяет строгую последовательность (каскад) шагов для определения Intent Parameter из оставшихся фраз. Каждый шаг выполняется, только если предыдущий не дал результата:

    • (a) Если осталась только одна фраза, она выбирается (Claim 6).
    • (b) Сравнение с ключевыми словами (Keywords), ассоциированными с рекламой (Claim 7).
    • (c) Сравнение с базой данных модельных фраз (Model Phrase Database) (Claim 8).
    • (d) Сравнение с базой данных ранее определенных интентов (Model Intent Parameter Database) (Claim 9).
    • (e) Выбор одной из оставшихся фраз по умолчанию (например, первой или случайной) (Claim 10).

    Claim 19 (Независимый пункт): Описывает метод прогнозирования CTR для нового рекламного сообщения (решение проблемы «холодного старта»).

    1. Система получает новое рекламное сообщение и определяет его Intent Parameter (используя лингвистический анализ).
    2. Новый Intent Parameter сравнивается с существующими в базе данных.
    3. Если найдено совпадение, система извлекает исторический параметр CTR, связанный с существующими сообщениями, имеющими такой же Intent Parameter.
    4. Этот исторический CTR используется для определения прогнозируемого CTR для нового рекламного сообщения.

    Где и как применяется

    Патент описывает работу системы таргетированной рекламы (Targeted Message Server), а не системы органического поиска. Он не взаимодействует напрямую со слоями CRAWLING или органического RANKING, но связан с обработкой запросов и генерацией выдачи.

    Офлайн-обработка рекламы (Аналог INDEXING & FEATURE EXTRACTION для рекламы)

    Основная часть изобретения — определение Intent Parameter — происходит на этом этапе. Когда рекламодатель загружает объявление, система выполняет многоступенчатый лингвистический анализ.

    • Входные данные: Текст объявления, ключевые слова рекламодателя.
    • Процесс: Лингвистический анализ (парсинг, фильтрация шума), сопоставление с базами данных.
    • Выходные данные: Intent Parameter, сохраненный с объявлением; Прогнозируемый CTR.

    Онлайн-обработка запроса на рекламу (Связано с QUERY PROCESSING и BLENDER)

    Когда пользователь выполняет поиск или загружает веб-сайт, генерируется запрос на рекламу.

    • Входные данные: Запрос на показ рекламы, содержащий Request Intent Parameter (например, текст поискового запроса или данные профиля пользователя/истории браузинга).
    • Процесс: Система сравнивает Request Intent Parameter с предварительно вычисленными Intent Parameters рекламных объявлений.
    • Выходные данные: Выбранное рекламное сообщение, которое интегрируется в SERP (на этапе BLENDER) или отображается на сайте.

    На что влияет

    • Конкретные типы контента: Влияет исключительно на таргетированные рекламные сообщения. Не влияет на органические результаты поиска.
    • Специфические запросы и Ниши: Применимо ко всем типам запросов и тематикам. Особенно важно для товарных ниш, где используются четкие идентификаторы (Бренд + Модель), которые система умеет распознавать (Model Phrase Database).

    Когда применяется

    Алгоритм применяется в двух основных сценариях:

    1. Офлайн: При добавлении или изменении рекламного объявления. Триггер — необходимость вычислить или обновить Intent Parameter и спрогнозировать CTR.
    2. Онлайн: В реальном времени при получении запроса на показ рекламы. Триггер — необходимость сопоставить интент пользователя с интентом доступных объявлений.

    Пошаговый алгоритм

    Процесс определения Intent Parameter (Лингвистический Анализ). Это иерархический процесс: каждый следующий шаг выполняется только в том случае, если предыдущий не дал результата.

    1. Получение и Парсинг: Система получает текст объявления (заголовок и тело). Текст парсится и разбивается на отдельные фразы (например, по знакам препинания).
    2. Фильтрация Шума: Система идентифицирует и удаляет non-meaningful phrases (например, «лучшие цены», «звоните сейчас») с помощью лексического анализа или регулярных выражений.
    3. Шаг 1 (Проверка единственности): Если после фильтрации осталась только одна значимая фраза, она выбирается как Intent Parameter. Процесс завершается.
    4. Шаг 2 (Сопоставление с ключевыми словами): Если фраз несколько, система сравнивает их с ключевыми словами (Keywords), ассоциированными с этим объявлением. Если найдено совпадение, эта фраза/ключевое слово выбирается как Intent Parameter. Процесс завершается.
    5. Шаг 3 (Сопоставление с модельными фразами): Система сравнивает оставшиеся фразы с Model Phrase Database (базой известных эвристик, например, Бренд + Модель). Если найдено совпадение, эта фраза выбирается как Intent Parameter. Процесс завершается.
    6. Шаг 4 (Сопоставление с историческими интентами): Система сравнивает оставшиеся фразы с Model Intent Parameter Database (базой всех ранее определенных интентов). Если найдено совпадение, эта фраза выбирается как Intent Parameter. Процесс завершается.
    7. Шаг 5 (Выбор по умолчанию): Если совпадений не найдено, система выбирает одну из оставшихся фраз (например, первую по порядку или случайную) как Intent Parameter.
    8. Сохранение и Прогнозирование: Определенный Intent Parameter сохраняется. При необходимости используется для прогнозирования CTR на основе исторических данных.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст рекламного объявления (заголовок и тело).
    • Метаданные объявления: Ключевые слова (Keywords), предоставленные рекламодателем.
    • Поведенческие факторы (Исторические): Исторические данные о CTR существующих объявлений (используются для прогнозирования).
    • Пользовательские факторы (для таргетинга): Поисковый запрос пользователя, история просмотров (browsing history). Используются для формирования Request Intent Parameter.

    Какие метрики используются и как они считаются

    • Лингвистический анализ: Используются методы парсинга текста и нормализации фраз.
    • Фильтрация шума: Применяется лексический анализ и/или анализ регулярных выражений (regular expressions analysis) для идентификации и удаления non-meaningful phrases.
    • Сопоставление (Matching): Основной механизм — строковое сравнение между фразами из текста и записями в различных базах данных (ключевые слова, модельные фразы, исторические интенты).
    • CTR (Click-Through Rate): Используется для прогнозирования эффективности новых объявлений путем переноса статистики со старых объявлений с идентичным Intent Parameter.

    Выводы

    1. Патент относится к Рекламе (AdTech), а не к органическому поиску: Все описанные механизмы направлены на улучшение таргетинга рекламных сообщений (Яндекс.Директ) и прогнозирование их CTR.
    2. Концепция «Незначимых фраз» (Non-meaningful phrases): Критически важный вывод для SEO. Патент демонстрирует, что Яндекс обладает продвинутыми механизмами для идентификации и игнорирования фраз, которые не несут смысловой нагрузки («вода», общие призывы к действию, маркетинговый шум). Система стремится выделить чистую суть контента.
    3. Структурированный лингвистический анализ: Яндекс использует многоступенчатый иерархический (каскадный) процесс для анализа текста. Это детерминированный подход, гарантирующий определение интента путем последовательного использования разных источников данных.
    4. Иерархия источников интента: Система сначала доверяет структуре текста и ключевым словам рекламодателя, и только потом обращается к базам знаний (эвристики и исторические данные).
    5. Использование интента для прогнозирования (Transfer Learning): Подтверждается, что Яндекс группирует контент по смыслу (интенту) и использует агрегированные поведенческие данные (CTR) этой группы для прогнозирования эффективности новых элементов (решение проблемы «холодного старта»).

    Практика

    Best practices (это мы делаем)

    Хотя патент посвящен рекламе, он дает важное понимание того, как Яндекс анализирует текст и фильтрует шум. Это позволяет сформулировать стратегические рекомендации для органического SEO.

    • Минимизация «Воды» и Шума: Сокращайте использование общих, расплывчатых фраз, стандартных призывов к действию и чрезмерно рекламных слоганов («лучшие цены», «огромный выбор») в основном контенте и особенно в ключевых зонах (Title, H1). Система может отфильтровать их как non-meaningful phrases при определении основного интента страницы.
    • Фокус на четкости основного интента: Создавайте контент, который ясно передает основную тему. Убедитесь, что суть предложения очевидна и не теряется среди второстепенной информации.
    • Использование четких паттернов и сущностей: Патент упоминает базу модельных фраз (Model Phrase Database), основанную на эвристиках (например, Бренд + Модель). Используйте четкие и общепринятые форматы для описания товаров и услуг (например, «Смартфон Samsung Galaxy S25»), так как такие конструкции легче распознаются как ключевой интент.
    • Важность первых фраз: В резервном механизме (Шаг 5) часто выбирается первая значимая фраза. Это косвенно подтверждает важность наличия четкого, описательного и свободного от шума текста в начале документа (Title, H1, первый абзац).

    Worst practices (это делать не надо)

    • Перенасыщение текста «Незначимыми фразами»: Создание объемных текстов, состоящих преимущественно из общих фраз, «воды» и спамных конструкций. Это затруднит определение реального интента страницы.
    • Злоупотребление промо-текстом в Title/H1: Использование заголовков, состоящих из общих призывов или обещаний. Они могут быть отфильтрованы, оставив систему без четкого понимания темы страницы.
    • Игнорирование структуры текста: Система использует парсинг (например, по знакам препинания) для разделения текста на фразы. Неструктурированный текст усложняет этот анализ.

    Стратегическое значение

    Стратегическое значение этого патента для SEO заключается в подтверждении того, что Яндекс активно борется с «шумом» в контенте и стремится изолировать основную тему текста. Приоритет отдается точности, ясности и содержательности языка. Долгосрочная SEO-стратегия должна фокусироваться на создании чистого, структурированного и информативного контента, который позволяет поисковой системе легко извлечь его ключевой интент. Качество и чистота текста важнее его объема или плотности ключевых слов.

    Практические примеры

    Пример применения концепции фильтрации шума к SEO-тексту

    Плохой текст (много Non-meaningful phrases):
    «Купить пластиковые окна в Москве недорого! Лучшие цены только у нас! Огромный выбор и бесплатная доставка. Звоните прямо сейчас, чтобы заказать окна вашей мечты. Мы работаем 24/7.»

    Анализ системы (по логике патента):

    1. Парсинг на фразы.
    2. Фильтрация: «недорого», «Лучшие цены только у нас», «Огромный выбор», «бесплатная доставка», «Звоните прямо сейчас», «окна вашей мечты», «Мы работаем 24/7» — могут быть распознаны как шум.
    3. Результат: Интент определяется с низкой уверенностью, так как большая часть текста отфильтрована.

    Хороший текст (фокус на интенте):
    «Пластиковые окна Rehau Blitz New. Продажа и установка окон ПВХ в Москве. Профиль 60 мм, двухкамерный стеклопакет. Гарантия на монтаж 5 лет.»

    Анализ системы (по логике патента):

    1. Парсинг на фразы.
    2. Фильтрация: Минимальное количество шума.
    3. Определение Интента: Система может легко распознать паттерн Бренд+Модель («Rehau Blitz New» – Шаг 3) или четкое описание услуги, что дает точное определение Intent Parameter.

    Вопросы и ответы

    Описывает ли этот патент алгоритмы органического ранжирования Яндекса?

    Нет. Патент сфокусирован исключительно на системе таргетированной рекламы (Targeted Messaging), например, Яндекс.Директ. Он описывает, как Яндекс анализирует текст рекламных объявлений, чтобы понять их основную тему (Intent Parameter) и спрогнозировать CTR. Он не описывает, как ранжируются сайты в органической выдаче.

    Что такое «Non-meaningful phrases» и почему это важно для SEO?

    Non-meaningful phrases (Незначимые фразы) — это «вода», общие слова, стандартные призывы к действию («купить дешево», «лучшие цены», «звоните!»). Для SEO это критически важно, так как патент демонстрирует, что у Яндекса есть продвинутые механизмы для активной фильтрации такого контента при определении основной темы текста. Тексты, перегруженные шумом, могут быть хуже поняты поисковой системой.

    Что такое «Intent Parameter»?

    Intent Parameter (Параметр Намерения) — это ключевая тема или суть контента (в данном случае рекламного объявления), которую система извлекает автоматически после очистки текста от шума. Например, для объявления «Лучшие цены на телевизоры Samsung! Купи сейчас!» Intent Parameter, вероятно, будет «телевизоры Samsung».

    Как именно система определяет Intent Parameter?

    Система использует многоступенчатый иерархический подход. Сначала она очищает текст от «незначимых фраз». Если осталась одна фраза, это интент. Если фраз много, она ищет совпадения в строгом порядке: сначала с ключевыми словами объявления, затем с базой известных паттернов (например, Бренд+Модель), затем с базой всех прошлых интентов. Если ничего не найдено, выбирается первая оставшаяся фраза.

    Как патент предлагает прогнозировать CTR для новых объявлений?

    Это механизм решения проблемы «холодного старта». Для нового объявления определяется его Intent Parameter. Затем система ищет в базе старые объявления с точно таким же Intent Parameter. Исторический CTR этих старых объявлений используется в качестве прогноза для нового, предполагая, что объявления с одинаковой сутью будут иметь схожую кликабельность.

    Упоминаются ли в патенте нейросети, BERT или YATI?

    Нет. Патент описывает более традиционные методы лингвистического анализа: парсинг, фильтрацию (например, с помощью регулярных выражений) и сопоставление с базами данных. Хотя современные системы Яндекса используют нейросети (YATI), этот патент фокусируется на эвристической и иерархической логике обработки текста.

    Как использовать выводы из этого патента при написании SEO-текстов?

    Главный вывод — чистота и ясность контента превыше всего. Необходимо минимизировать «воду» и общие рекламные фразы. Сосредоточьтесь на четком описании сути услуги или товара, используя общепринятые паттерны (например, Тип товара + Бренд + Модель). Это поможет лингвистическим анализаторам системы правильно определить ключевой интент вашей страницы.

    Что такое Model Phrase Database?

    Это база данных, содержащая фразы, которые система считает надежными индикаторами намерения. Они часто генерируются с помощью эвристик. Например, эвристика может гласить: «если название бренда и название продукта находятся рядом, эта комбинация является фразой-интентом» (например, «LG DVD players»). Это подчеркивает важность использования сущностей в тексте.

    Если я использую много призывов к действию (CTA) на странице, это плохо для SEO?

    Согласно логике патента, чрезмерное использование стандартных CTA («Звоните сейчас!», «Закажите сегодня!») в основном тексте может быть воспринято как «non-meaningful phrases» и отфильтровано при анализе интента. Это не означает, что CTA использовать нельзя, но они не должны мешать пониманию основной темы контента или доминировать в нем.

    Есть ли в этом патенте польза для специалистов по контекстной рекламе (PPC)?

    Да, для PPC-специалистов этот патент имеет высокую ценность. Он показывает, насколько важно, чтобы текст объявления четко отражал основное предложение и соответствовал заданным ключевым словам (которые проверяются на Шаге 2). Это напрямую влияет на то, как система классифицирует объявление и прогнозирует его CTR в Яндекс.Директ.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.