Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс использует комбинированную логику (Белые и Черные списки) для фильтрации поисковых подсказок

    COMBINATION FILTER FOR SEARCH QUERY SUGGESTIONS (Комбинированный фильтр для подсказок поисковых запросов)
    • US20180101600A1
    • Yandex LLC
    • 2018-04-12
    • 2016-02-02
    2018 Антикачество Антиспам Патенты Яндекс Поисковые подсказки

    Яндекс применяет систему фильтрации поисковых подсказок (Autocomplete) для удаления нежелательного контента. Если введенный запрос определяется как «потенциально запрещенный», система использует одну из двух логик: блокировку только специфических негативных продолжений (Черный список/Ban Marker) или разрешение только специфических безопасных продолжений (Белый список/Unban Marker). Это обеспечивает гибкий контроль над подсказками в чувствительных темах.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу повышения качества и безопасности поисковых подсказок (Autocomplete/Suggest). Он направлен на предотвращение показа подсказок, содержащих оскорбительный язык, относящихся к нелегальной деятельности или иному неприемлемому контенту. Ключевая проблема — необходимость гибкой фильтрации, способной обрабатывать неоднозначные термины и различные контексты, не блокируя при этом легитимные запросы.

    Что запатентовано

    Запатентован метод и система комбинированной фильтрации поисковых подсказок. Суть изобретения заключается в применении двойной логики фильтрации на основе предопределенных списков. Система классифицирует потенциально проблемные слова и применяет к ним одну из двух стратегий: фильтрацию по «черному списку» (Ban Marker) или фильтрацию по «белому списку» (Unban Marker) для предлагаемых продолжений запроса.

    Как это работает

    Система проверяет введенный пользователем текст (First Query Component) по списку Potentially Banned Words. Если совпадение найдено, активируется один из двух режимов фильтрации для сгенерированного продолжения (Suggested Second Query Component):

    • Ban Marker (Default Allow): Подсказка разрешена по умолчанию. Она блокируется, только если продолжение совпадает с элементом из списка Ban Markers (Черный список).
    • Unban Marker (Default Block): Подсказка запрещена по умолчанию. Она разрешается, только если продолжение совпадает с элементом из списка Unban Markers (Белый список).

    Актуальность для SEO

    Высокая. Управление качеством и безопасностью поисковых подсказок является критически важной задачей для всех поисковых систем с точки зрения законодательства, этики и пользовательского опыта. Описанный механизм гибкой, контекстно-зависимой фильтрации остается актуальным.

    Важность для SEO

    Влияние на SEO среднее (5/10). Патент не описывает алгоритмы ранжирования органической выдачи. Однако он имеет критическое значение для SERM (управления репутацией в поиске) и оптимизации видимости в подсказках (Suggest Optimization). Механизм напрямую контролирует, какие запросы пользователи видят на этапе ввода, что влияет на формирование поискового спроса и восприятие брендов или чувствительных тем (например, YMYL).

    Детальный разбор

    Термины и определения

    Ban Marker (Маркер запрета)
    Слово или фраза в списке исключений (Черный список). Используется в режиме Default Allow. Совпадение продолжения запроса с этим маркером приводит к блокировке подсказки.
    First Query Component (Первый компонент запроса)
    Часть поискового запроса, введенная пользователем (префикс), которая проверяется по списку потенциально запрещенных слов.
    Potentially Banned Words (Список потенциально запрещенных слов)
    Список слов или фраз, требующих специальной обработки. Каждое слово в этом списке ассоциировано либо с логикой Ban Marker, либо с логикой Unban Marker.
    Suggested Second Query Component (Предложенный второй компонент запроса)
    Слово или фраза, сгенерированная системой в качестве продолжения запроса (суффикс). Эта часть проверяется по спискам Ban/Unban Markers.
    Suggestion Module (Модуль подсказок)
    Компонент поисковой системы, отвечающий за генерацию и фильтрацию Autocomplete.
    Type (Тип/Категория)
    Категоризация потенциально запрещенных слов и маркеров (например, наркотики, люди, adult-контент, нелегальный контент). Позволяет применять гранулярные правила фильтрации.
    Unban Marker (Маркер разрешения)
    Слово или фраза в списке исключений (Белый список). Используется в режиме Default Block. Совпадение продолжения запроса с этим маркером приводит к показу подсказки.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод комбинированной фильтрации.

    1. Система получает часть запроса и определяет First Query Component.
    2. Генерируется Suggested Second Query Component (продолжение).
    3. Система проверяет, есть ли First Query Component в списке Potentially Banned Words.
    4. Критически важно: каждое слово в этом списке заранее ассоциировано ЛИБО с Ban Marker, ЛИБО с Unban Marker.
    5. Если совпадение найдено, система определяет тип ассоциации и применяет соответствующую логику:
    6. Логика Ban Marker (Default Allow): Система обращается к списку Ban Markers.
      • Если Second Component совпадает с маркером запрета: подсказка блокируется.
      • Если НЕ совпадает: подсказка генерируется.
    7. Логика Unban Marker (Default Block): Система обращается к списку Unban Markers.
      • Если Second Component совпадает с маркером разрешения: подсказка генерируется.
      • Если НЕ совпадает: подсказка блокируется.

    Ядро изобретения — эта двойная логика. Она позволяет обрабатывать как неоднозначные термины (например, имена собственные, требующие блокировки только оскорбительных продолжений), так и однозначно чувствительные термины (например, названия запрещенных веществ, требующие разрешения только безопасных продолжений).

    Claims 2-7 (Зависимые пункты): Вводят концепцию типизации (Type).

    Слова и маркеры могут быть сгруппированы по категориям (например, наркотики, люди, adult, нелегальный контент, ненормативная лексика). Система может определять тип введенного слова и применять только те списки маркеров, которые соответствуют этому типу, что повышает точность фильтрации.

    Claims 9-11 (Зависимые пункты): Уточняют происхождение списков.

    Списки (Potentially Banned Words и Маркеры) могут быть созданы вручную оператором ИЛИ с использованием алгоритма машинного обучения (machine-learned algorithm), обученного на исторических данных поиска (historical user search data).

    Где и как применяется

    Изобретение применяется вне основного конвейера ранжирования. Оно функционирует на уровне пользовательского интерфейса и предварительной обработки запросов.

    QUERY PROCESSING – Понимание Запросов (Suggestion Module)

    • Компонент: Алгоритм реализован в рамках Suggestion Module (сервис Автокомплита/Саджеста).
    • Процесс: Модуль сначала генерирует кандидатов в подсказки (на основе популярности, истории поиска и т.д.), а затем применяет описанный механизм фильтрации перед их показом пользователю.
    • Данные на входе: Частичный запрос пользователя (First Query Component) и сгенерированные продолжения (Suggested Second Query Component).
    • Данные на выходе: Отфильтрованный список поисковых подсказок.

    На что влияет

    • Специфические запросы и тематики: Наибольшее влияние оказывается на чувствительные ниши. Патент явно перечисляет примеры: наркотики, люди (имена), ругательства (people curses), действия людей, adult-контент, нелегальный контент, порнография, азартные игры, ненормативная лексика и сексуальный контент. Также критично для YMYL тематик.
    • Брендовые запросы (SERM): Влияет на управление репутацией, позволяя блокировать негативные или оскорбительные подсказки, связанные с брендами или персонами.
    • Неоднозначные запросы: Влияет на обработку слов, имеющих как нейтральное, так и нежелательное значение.

    Когда применяется

    • Условия работы: Алгоритм работает в реальном времени, по мере ввода пользователем текста в поисковую строку.
    • Триггер активации: Фильтрация активируется, когда введенный текст (First Query Component) совпадает с элементом из списка Potentially Banned Words.

    Пошаговый алгоритм

    Процесс фильтрации поисковых подсказок:

    1. Получение ввода и Парсинг: Система получает ввод пользователя и определяет Первый компонент запроса.
    2. Генерация кандидатов: Система генерирует один или несколько Предложенных вторых компонентов запроса. Генерация может основываться на статистической популярности прошлых запросов.
    3. Проверка Первого компонента: Система проверяет наличие Первого компонента в Списке потенциально запрещенных слов.
    4. Определение режима фильтрации: Если Первый компонент найден, система определяет связанный с ним режим: Ban Marker (Default Allow) или Unban Marker (Default Block). Опционально определяется Категория (Type) контента.
    5. Применение логики (Ветвление):
      • Путь 1 (Ban Marker / Default Allow):
        1. Система обращается к соответствующему списку Ban Markers (Черный список).
        2. Проверяется, совпадает ли Второй компонент с любым маркером в списке.
        3. Если совпадение ЕСТЬ: подсказка блокируется.
        4. Если совпадения НЕТ: подсказка показывается.
      • Путь 2 (Unban Marker / Default Block):
        1. Система обращается к соответствующему списку Unban Markers (Белый список).
        2. Проверяется, совпадает ли Второй компонент с любым маркером в списке.
        3. Если совпадение ЕСТЬ: подсказка показывается.
        4. Если совпадения НЕТ: подсказка блокируется.
    6. Вывод: Одобренные подсказки отображаются в интерфейсе пользователя.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Текстовые): Текст Первого компонента запроса (ввод пользователя) и текст Второго компонента запроса (сгенерированная подсказка).
    • Структурные данные (Списки):
      • List of Potentially Banned Words (с указанием типа логики и категории).
      • List of Ban Markers и List of Unban Markers.
    • Поведенческие и Временные факторы (Косвенно): Исторические данные поиска (historical user search data) используются для:
      1. Генерации кандидатов в подсказки (на основе популярности, частоты).
      2. (Опционально) Обучения ML-моделей, которые формируют списки запрещенных слов и маркеров (Claims 10, 11).

    Какие метрики используются и как они считаются

    Механизм фильтрации основан не на вычислении сложных метрик релевантности, а на бинарной логике и точном сопоставлении с предопределенными списками.

    • Matching (Совпадение): Процесс проверки точного наличия компонента запроса в одном из списков.
    • Классификация и Группировка: Использование предопределенных категорий (Types) для сегментации списков (Claim 2).
    • Методы формирования списков: В патенте указаны два способа создания списков:
      • Вручную оператором (manually by an operator) (Claim 9).
      • С использованием алгоритма машинного обучения (machine-learned algorithm) (Claim 10).

    Выводы

    1. Яндекс применяет гибридную логику фильтрации подсказок: Система не использует единый универсальный фильтр. Вместо этого она классифицирует потенциально проблемные префиксы и применяет одну из двух стратегий: Default Allow (для неоднозначных терминов) или Default Block (для однозначно чувствительных терминов).
    2. Гибкая обработка неоднозначности (Ban Marker): Для слов с нейтральным значением (например, бренды, имена) используется логика Ban Marker. Это позволяет показывать большинство подсказок, блокируя только специфические негативные или оскорбительные комбинации.
    3. Жесткий контроль чувствительных тем (Unban Marker): Для слов, связанных с запрещенным или строго регулируемым контентом (например, наркотики, нелегальная деятельность), используется логика Unban Marker. Это блокирует все подсказки по умолчанию, разрешая только заранее одобренные безопасные или полезные продолжения.
    4. Гранулярный контроль через категоризацию: Система предусматривает категоризацию (Types) запрещенных слов и маркеров, что позволяет более точно настраивать фильтры для разных тематик и избегать ложных срабатываний.
    5. Автоматизация и ML: Использование машинного обучения для автоматического выявления новых потенциально запрещенных слов и маркеров на основе анализа поведения пользователей обеспечивает адаптивность системы к новым трендам и угрозам.

    Практика

    Best practices (это мы делаем)

    Хотя патент не влияет на органическое ранжирование, он критически важен для SERM и оптимизации видимости в подсказках.

    • Регулярный мониторинг поисковых подсказок (SERM): Необходимо отслеживать подсказки по брендовым запросам и именам ключевых лиц. Это позволяет понять, как Яндекс интерпретирует репутацию бренда и выявить потенциальные риски. Патент подтверждает наличие механизмов контроля (Ban Markers) для удаления негатива.
    • Стратегия для чувствительных ниш (Кейс Unban Marker): При работе в нишах, которые могут быть классифицированы как Default Block (например, фарма, лечение зависимостей, некоторые YMYL услуги), фокусируйтесь на формировании спроса, соответствующего потенциальным Unban Markers (например, «инструкция», «побочные эффекты», «лечение», «помощь»). Это увеличит вероятность того, что подсказки будут разрешены.
    • Управление неоднозначностью бренда (Кейс Ban Marker): Если название бренда неоднозначно (совпадает со сленгом или чувствительным термином), необходимо активно формировать положительное ассоциативное поле. Убедитесь, что частотность нейтральных запросов значительно превышает частотность нежелательных, чтобы система корректно обрабатывала подсказки в режиме Default Allow.
    • Формирование позитивных ассоциаций: Для SERM важно стимулировать формирование позитивных и нейтральных запросов в истории поиска, чтобы они становились кандидатами в подсказки и не попадали под фильтрацию Ban Markers.

    Worst practices (это делать не надо)

    • Агрессивные манипуляции подсказками (Накрутка саджеста): Попытки искусственно создать подсказки, особенно с негативным или нелегальным подтекстом, скорее всего, будут нейтрализованы описанным механизмом фильтрации. Система активно борется с появлением нежелательных комбинаций с помощью ML и ручной модерации.
    • Игнорирование саджеста при анализе спроса в YMYL: Опираться только на Вордстат в чувствительных нишах опасно. Популярный запрос может быть полностью отфильтрован в саджесте (из-за логики Default Block), что значительно снизит его фактическую частотность использования.
    • Создание контента под пограничные запросы: Ставка на трафик из подсказок, содержащих сленг или провокационные формулировки, ненадежна, так как они могут быть легко добавлены в списки Ban Markers.

    Стратегическое значение

    Патент демонстрирует высокий уровень контроля Яндекса над интерфейсом ввода запроса и стремление управлять пользовательским опытом на самых ранних этапах. Для SEO-стратегии это означает, что видимость в саджесте — это не просто следствие популярности запроса, а результат активной модерации. В долгосрочной перспективе необходимо учитывать эту модерацию при прогнозировании трафика и разработке SERM-стратегий, понимая, что данные из Yandex Suggest — это отфильтрованный, а не сырой набор данных.

    Практические примеры

    Сценарий 1: Обработка брендового запроса (Логика Ban Marker / Default Allow)

    1. Ввод пользователя (First Component): «Банк XYZ».
    2. Действие системы: «Банк XYZ» может быть в списке Potentially Banned Words (для защиты репутации) с логикой Ban Marker (Default Allow). Категория: Brands/People.
    3. Генерация продолжения 1 (Second Component): «мошенники».
    4. Фильтрация: Слово «мошенники» ЕСТЬ в списке Ban Markers для категории Brands/People.
    5. Результат: Подсказка «Банк XYZ мошенники» блокируется.
    6. Генерация продолжения 2: «отзывы клиентов».
    7. Фильтрация: Фраза «отзывы клиентов» НЕТ в списке Ban Markers.
    8. Результат: Подсказка «Банк XYZ отзывы клиентов» показывается.

    Сценарий 2: Обработка чувствительного запроса (Логика Unban Marker / Default Block)

    Этот сценарий основан на примере «Heroin» из патента.

    1. Ввод пользователя (First Component): «Героин».
    2. Действие системы: Слово «Героин» находится в списке Potentially Banned Words с логикой Unban Marker (Default Block). Категория: Drugs.
    3. Генерация продолжения 1 (Second Component): «купить».
    4. Фильтрация: Слово «купить» НЕТ в списке Unban Markers (Белый список разрешенных продолжений).
    5. Результат: Подсказка «Героин купить» блокируется.
    6. Генерация продолжения 2: «побочные эффекты».
    7. Фильтрация: Фраза «побочные эффекты» ЕСТЬ в списке Unban Markers.
    8. Результат: Подсказка «Героин побочные эффекты» показывается.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в органической выдаче Яндекса?

    Нет, напрямую не влияет. Патент описывает исключительно механизм фильтрации поисковых подсказок (Autocomplete/Suggest). Он не содержит информации об алгоритмах ранжирования веб-страниц. Однако он оказывает косвенное влияние, так как подсказки формируют поисковый спрос; если подсказка заблокирована, пользователи будут реже использовать эту точную формулировку.

    В чем ключевое различие между Ban Marker и Unban Marker?

    Это два противоположных подхода. Ban Marker работает по принципу Default Allow (Черный список): подсказки разрешены по умолчанию, блокируются только специфические исключения. Unban Marker работает по принципу Default Block (Белый список): подсказки запрещены по умолчанию, разрешаются только специфические исключения.

    Как Яндекс решает, использовать Ban Marker или Unban Marker для конкретного слова?

    Выбор зависит от характера слова. Для неоднозначных или нейтральных слов (бренды, имена), которые могут иметь нежелательные комбинации, используется Ban Marker. Для слов, которые почти всегда связаны с запрещенным или высокочувствительным контентом (например, тяжелые наркотики), используется Unban Marker, чтобы максимально ограничить подсказки, разрешив только безопасные контексты.

    Насколько этот патент важен для SERM (Управление репутацией)?

    Он критически важен. Поисковые подсказки часто являются первым контактом пользователя с брендом в поиске. Этот патент описывает механизм, который Яндекс использует для удаления негативных, оскорбительных или клеветнических ассоциаций из саджеста (используя логику Ban Marker). Понимание этой логики необходимо при разработке стратегий по очистке подсказок.

    Как Яндекс формирует списки Potentially Banned Words и Маркеры?

    В патенте указаны два метода. Первый – вручную операторами (асессорами), которые идентифицируют нежелательный контент. Второй – с использованием алгоритмов машинного обучения (machine-learned algorithm), которые обучаются на исторических данных поиска (historical user search data) для автоматического выявления слов и фраз, требующих фильтрации.

    Что такое «Типы» (Types) в контексте этого патента?

    Это система категоризации фильтров (например, Наркотики, Люди, Adult, Нелегальный контент). Это позволяет применять разные наборы маркеров для разных категорий. Например, фильтры для имен людей отличаются от фильтров для названий лекарств, что делает систему более точной и управляемой.

    Как этот механизм влияет на работу в YMYL-тематиках?

    В YMYL-тематиках (медицина, финансы) контроль особенно строг. Для многих терминов может применяться логика Unban Marker (Default Block). Это значит, что в подсказках будут появляться только те продолжения, которые Яндекс считает безопасными и авторитетными (например, «симптомы», «лечение»), а спекулятивные или опасные (например, «купить без рецепта») будут заблокированы.

    Может ли популярный запрос быть исключен из подсказок?

    Да, абсолютно. Если запрос нарушает правила фильтрации (попадает в Ban Marker или не попадает в Unban Marker), он будет заблокирован в саджесте, независимо от его популярности или частотности в истории поиска. Популярность используется для генерации кандидатов, но фильтрация имеет приоритет.

    Как я могу узнать, попал ли мой запрос в список Potentially Banned Words?

    Прямого инструмента нет. Косвенным признаком может быть поведение саджеста. Если для слова показывается очень мало подсказок, несмотря на высокую частотность по Вордстату (особенно в чувствительной тематике), возможно, применяется логика Unban Marker (Default Block). Если блокируются только явно негативные продолжения, вероятно, применяется Ban Marker.

    Как этот механизм связан с накруткой поисковых подсказок?

    Этот механизм является инструментом борьбы с накруткой саджеста. Если злоумышленники пытаются искусственно создать популярность нежелательной подсказки (например, для черного PR), Яндекс может использовать этот механизм (добавив комбинацию в Ban Markers или применив логику Unban Marker), чтобы нейтрализовать эти попытки и убрать подсказку из выдачи.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.