Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс фильтрует поисковые подсказки с помощью черных и белых списков для «запрещенных» тем

    СПОСОБ И СЕРВЕР ДЛЯ СОЗДАНИЯ ПРЕДЛОЖЕНИЙ ПО ЗАВЕРШЕНИЮ ПОИСКОВЫХ ЗАПРОСОВ (METHOD AND SERVER FOR GENERATING SEARCH QUERY COMPLETION SUGGESTIONS)
    • RU2626663C2
    • Yandex LLC
    • 2017-07-31
    • 2015-06-30
    2017 Антиспам Интент пользователя Патенты Яндекс Поисковые подсказки

    Яндекс использует механизм для контроля содержания поисковых подсказок (Autocomplete). Если пользователь вводит слово из списка «потенциально запрещенных» (например, названия наркотиков, оскорбления), система применяет логику черных или белых списков для генерации продолжений. Это позволяет блокировать нежелательные подсказки (например, «купить наркотик»), но разрешать допустимые (например, «побочные эффекты наркотика»).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу фильтрации нежелательного контента в поисковых подсказках (Autocomplete/Search Suggestions). Он направлен на улучшение пользовательского опыта и обеспечение безопасности путем предотвращения появления подсказок, которые могут содержать нецензурную лексику, относиться к нелегальной деятельности, контенту для взрослых или иному недопустимому содержимому, особенно при вводе неоднозначных или потенциально запрещенных слов.

    Что запатентовано

    Запатентована система и способ фильтрации предложений по завершению поискового запроса (поисковых подсказок). Суть изобретения заключается в использовании гибкой логики для слов, внесенных в список потенциально запрещенных. Эта логика основана на двух механизмах: маркерах запрещения (черные списки продолжений) и маркерах разрешения (белые списки продолжений).

    Как это работает

    Система анализирует введенную пользователем часть запроса (Первый компонент). Если он совпадает с потенциально запрещенным словом, активируется специфическая логика фильтрации для генерации продолжения (Второй компонент). Применяется одна из двух логик:

    • Логика Запрещения (Черный список): Подсказка разрешена по умолчанию, ЕСЛИ ее продолжение НЕ входит в список маркеров запрещения для этого слова.
    • Логика Разрешения (Белый список): Подсказка запрещена по умолчанию, ЕСЛИ ее продолжение НЕ входит в список маркеров разрешения для этого слова.

    Это позволяет гибко управлять фильтрацией в зависимости от контекста и типа контента.

    Актуальность для SEO

    Высокая. Фильтрация поисковых подсказок является стандартной и необходимой практикой для всех крупных поисковых систем в целях соблюдения законодательных требований и обеспечения безопасности пользователей (SafeSearch). Описанный механизм гибкой, гранулярной фильтрации остается актуальным для модерации контента в подсказках.

    Важность для SEO

    Влияние на SEO среднее (4/10). Патент не описывает механизмы ранжирования веб-документов. Он напрямую влияет на видимость запросов на этапе их формирования пользователем (Autocomplete). Поисковые подсказки направляют поведение пользователей и генерируют значительную часть трафика. Если определенная формулировка запроса подавляется в подсказках из-за описанных фильтров, трафик по этой формулировке снижается. SEO-специалистам критически важно понимать эти ограничения при анализе семантики, особенно в чувствительных тематиках.

    Детальный разбор

    Термины и определения

    Первый компонент запроса (First Query Component)
    Часть поискового запроса, введенная пользователем (префикс), которая анализируется системой.
    Предлагаемый второй компонент запроса (Proposed Second Query Component)
    Потенциальное продолжение (суффикс) запроса, сгенерированное системой в качестве кандидата для поисковой подсказки.
    Потенциально запрещенное слово (Potentially Forbidden Word)
    Слово из заранее определенного списка, которое требует активации специальной логики фильтрации при генерации подсказок. Примеры включают слова, относящиеся к наркотикам, оскорблениям, нелегальной деятельности.
    Маркер запрещения (Prohibition Marker)
    Слово или фраза в списке, связанном с потенциально запрещенным словом. Используется в логике «черного списка»: если Второй компонент совпадает с этим маркером, генерация подсказки блокируется.
    Маркер разрешения (Permission Marker)
    Слово или фраза в списке, связанном с потенциально запрещенным словом. Используется в логике «белого списка»: подсказка генерируется только в том случае, если Второй компонент совпадает с этим маркером.
    Тип (Type)
    Категория, к которой относится потенциально запрещенное слово (например, наркотики, люди, оскорбления, содержимое для взрослых). Используется для группировки слов и применения специфических наборов маркеров.
    Модуль предложений (Suggestion Module)
    Компонент системы, отвечающий за генерацию и фильтрацию предложений по завершению поискового запроса.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод, который позволяет применять разные стратегии фильтрации (черные или белые списки) в зависимости от конкретного слова, введенного пользователем.

    Claim 1 (Независимый пункт): Описывает основной алгоритм фильтрации поисковых подсказок.

    1. Система получает часть запроса и определяет Первый компонент.
    2. Система генерирует потенциальное продолжение (Второй компонент).
    3. Производится доступ к Списку потенциально запрещенных слов.
    4. Если Первый компонент совпадает со словом из списка, система определяет, какой тип логики связан с этим словом: Маркер Запрещения или Маркер Разрешения.
    5. Применение Логики Запрещения (Черный список):
      • Производится доступ к списку Маркеров Запрещения.
      • Если Второй компонент совпадает с маркером запрещения -> подсказка НЕ создается.
      • Если Второй компонент НЕ совпадает с маркером запрещения -> подсказка создается.
    6. Применение Логики Разрешения (Белый список):
      • Производится доступ к списку Маркеров Разрешения.
      • Если Второй компонент совпадает с маркером разрешения -> подсказка создается.
      • Если Второй компонент НЕ совпадает с маркером разрешения -> подсказка НЕ создается.

    Claim 2 (Зависимый пункт): Уточняет, что потенциально запрещенные слова могут быть сгруппированы по Типу.

    Claims 3-5 (Зависимые пункты): Уточняют, что если слова сгруппированы по Типу, то система получает доступ только к тем спискам маркеров (запрещения или разрешения), которые соответствуют этому конкретному Типу. Это обеспечивает гранулярность фильтрации.

    Где и как применяется

    Изобретение применяется на этапе взаимодействия пользователя с поисковой строкой, до этапа основного ранжирования.

    QUERY PROCESSING – Понимание Запросов (Генерация поисковых подсказок)

    • Компоненты: Основное применение происходит в Модуле предложений (Suggestion Module). Этот модуль взаимодействует с базами данных, хранящими списки слов и маркеров.
    • Процесс: В реальном времени, по мере ввода пользователем запроса, модуль генерирует кандидатов для подсказок (на основе популярности и других факторов) и затем применяет описанный в патенте механизм фильтрации перед отображением подсказок пользователю.
    • Входные данные: Часть поискового запроса, введенная пользователем (Первый компонент).
    • Выходные данные: Отфильтрованный список предложений по завершению поискового запроса (или пустой список, если все кандидаты были заблокированы).

    На что влияет

    • Специфические запросы и ниши: Механизм влияет на все типы запросов, но наиболее критичен для чувствительных тематик (YMYL) и ниш, где высока вероятность использования «потенциально запрещенных слов». В патенте явно упоминаются: наркотики, люди (в контексте оскорблений или действий), содержимое для взрослых, нелегальное содержимое, порнография, азартные игры, ненормативная лексика.
    • Коммерческие запросы: Влияет на видимость коммерческих интентов в подсказках. Если коммерческий термин (например, «купить») является маркером запрещения или не является маркером разрешения для определенного товара, такой запрос будет подавлен в Autocomplete.

    Когда применяется

    • Временные рамки: В реальном времени, когда пользователь вводит запрос в поисковую строку.
    • Триггеры активации: Механизм фильтрации активируется только тогда, когда введенный пользователем префикс (Первый компонент) совпадает со словом из Списка потенциально запрещенных слов.

    Пошаговый алгоритм

    1. Получение ввода: Сервер получает часть поискового запроса от электронного устройства пользователя.
    2. Парсинг и Определение Префикса: Анализ ввода для определения Первого компонента запроса.
    3. Генерация Кандидатов: Модуль предложений создает один или несколько Предлагаемых вторых компонентов запроса. Генерация может основываться на статистической популярности, частоте совместного поиска и истории пользователя.
    4. Проверка Префикса: Доступ к Списку потенциально запрещенных слов. Проверка, совпадает ли Первый компонент с одним из слов в списке. Если нет, фильтрация не применяется (переход к шагу 7).
    5. Определение Логики Фильтрации: Если совпадение найдено, система определяет, какая логика связана с этим словом: Маркер Запрещения (Черный список) или Маркер Разрешения (Белый список). Также может определяться Тип слова для использования специфических списков маркеров.
    6. Применение Фильтра:
      • Логика Запрещения: Проверка Второго компонента по Списку маркеров запрещения. Если найдено совпадение – БЛОКИРОВКА. Если нет – РАЗРЕШЕНИЕ.
      • Логика Разрешения: Проверка Второго компонента по Списку маркеров разрешения. Если найдено совпадение – РАЗРЕШЕНИЕ. Если нет – БЛОКИРОВКА.
    7. Вывод: Создание (если разрешено) или отказ от создания (если заблокировано) финального предложения по завершению запроса для отображения пользователю.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы (Текстовые): Текст введенного пользователем запроса (Первый компонент). Тексты потенциальных продолжений (Второй компонент).
    • Поведенческие факторы (Косвенно): История поиска пользователей используется для двух целей:
      1. Для генерации кандидатов (Вторых компонентов) на основе популярности и частоты запросов.
      2. Для обучения алгоритмов машинного обучения, которые могут формировать списки потенциально запрещенных слов и маркеров.

    Какие метрики используются и как они считаются

    Патент фокусируется на механизме фильтрации (бинарное решение: разрешить/запретить), а не на ранжировании подсказок. Основными элементами являются структуры данных (списки) и логика их применения.

    • Ключевые структуры данных:
      1. Список потенциально запрещенных слов: Содержит слова и указание на тип логики (Запрещение/Разрешение) для каждого слова. Может быть сгруппирован по Типу.
      2. Список маркеров запрещения: Черные списки продолжений.
      3. Список маркеров разрешения: Белые списки продолжений.
    • Методы формирования списков: В патенте указано, что эти списки могут определяться заранее двумя способами:
      • Вручную оператором (экспертами).
      • С помощью алгоритма машинного обучения, основанного на данных из поисковой истории пользователя, интересах пользователя, предыдущем поведении и других критериях.
    • Метрики для генерации кандидатов: Хотя это не является ядром изобретения (фильтрации), патент упоминает, что генерация Второго компонента может основываться на: (i) статистической популярности; (ii) связанной с пользователем популярности; (iii) частоте совместного поиска.

    Выводы

    1. Это патент о фильтрации подсказок, не о ранжировании: Патент описывает инфраструктурный механизм Яндекс для контроля качества, безопасности и соблюдения законодательства в сервисе поисковых подсказок (Autocomplete). Он не дает прямых рекомендаций по улучшению ранжирования сайтов.
    2. Гибкая логика фильтрации (Черные и Белые списки): Яндекс использует гибридный подход. Для каждого «потенциально запрещенного слова» определяется своя логика: либо разрешено все, кроме запрещенного (Маркеры Запрещения), либо запрещено все, кроме разрешенного (Маркеры Разрешения).
    3. Гранулярность контроля: Система позволяет группировать слова по «Типам» (например, наркотики, оскорбления) и применять специфические наборы маркеров для каждого типа, что обеспечивает высокую точность фильтрации.
    4. Пример применения логики: Для слова «Молли» (неоднозначное) может применяться логика Запрещения: разрешены подсказки типа «Молли Рингуолд» (актриса), но заблокированы «Молли купить» (наркотик). Для слова «Героин» (однозначно запрещенное) может применяться логика Разрешения: заблокированы все подсказки, кроме разрешенных, например, «Героин побочные эффекты».
    5. Динамическое обновление списков: Списки слов и маркеров могут формироваться как вручную, так и с помощью ML на основе истории поиска, что предполагает их адаптацию к новым трендам и поведению пользователей.

    Практика

    Best practices (это мы делаем)

    • Приоритет анализа реальных подсказок: Анализ поисковых подсказок остается критически важным этапом сбора семантического ядра, так как подсказки направляют значительную часть поискового трафика. Всегда проверяйте актуальные подсказки в интерфейсе Яндекса.
    • Учет ограничений в YMYL и чувствительных нишах: При работе в тематиках, которые могут подпадать под фильтрацию (медицина, финансы, «серые» ниши), необходимо понимать, что некоторые популярные интенты (особенно коммерческие) могут намеренно подавляться в подсказках Яндекса из-за этого механизма.
    • Фокус на разрешенных интентах: Определяйте запросы, которые проходят фильтрацию и попадают в подсказки. Они получают дополнительный охват и должны быть приоритетными в контент-стратегии. Если для запрещенного термина разрешены информационные интенты (например, «побочные эффекты»), фокусируйтесь на создании качественного информационного контента.

    Worst practices (это делать не надо)

    • Слепое доверие статистике запросов: Полагаться исключительно на данные сервисов статистики (например, Wordstat) без кросс-проверки с реальными поисковыми подсказками. Высокая частотность запроса в статистике не гарантирует его появление в Autocomplete, если он отфильтрован описанным механизмом.
    • Манипуляции подсказками в чувствительных темах: Пытаться накручивать подсказки (Queryкрутка) для запросов, связанных с «потенциально запрещенными словами». Такие запросы находятся под пристальным вниманием и с высокой вероятностью попадут под ручную модерацию или станут основой для обновления ML-моделей, формирующих списки запрещенных маркеров.

    Стратегическое значение

    Патент подтверждает, что Яндекс активно модерирует пользовательский опыт не только на этапе ранжирования (SERP), но и на этапе формирования запроса (Autocomplete). Это часть глобальной стратегии по обеспечению безопасности поиска (SafeSearch) и соблюдению регуляторных требований. Для SEO это означает, что в определенных нишах существуют инфраструктурные ограничения на видимость конкретных интентов, и стратегия продвижения должна адаптироваться к этим ограничениям, фокусируясь на разрешенных и безопасных формулировках.

    Практические примеры

    Сценарий 1: Анализ семантики для сайта медицинской клиники (Лечение зависимостей).

    1. Задача: Определить приоритетные запросы для продвижения.
    2. Действие: SEO-специалист анализирует подсказки по названию сильнодействующего препарата или наркотического вещества (аналог «Героин» из патента).
    3. Наблюдение: В подсказках отсутствуют запросы с коммерческим интентом («купить», «цена», «доставка»). Однако присутствуют информационные и медицинские интенты («побочные эффекты», «лечение зависимости», «симптомы передозировки»).
    4. Интерпретация (на основе патента): Название вещества внесено в список потенциально запрещенных слов с применением логики Маркера Разрешения (белый список). Коммерческие термины не включены в белый список, а медицинские – включены.
    5. Вывод для SEO: Приоритет отдается созданию экспертного медицинского контента, соответствующего разрешенным подсказкам. Не стоит ожидать трафика из Autocomplete по коммерческим формулировкам, связанным с этим веществом.

    Сценарий 2: Управление репутацией бренда (SERM).

    1. Задача: Бренд (например, «Бренд X») сталкивается с негативными подсказками.
    2. Действие: Анализ подсказок по запросу «Бренд X».
    3. Наблюдение: Появляются подсказки «Бренд X обман», «Бренд X мошенники».
    4. Интерпретация (на основе патента): Если бы «Бренд X» был внесен в список потенциально запрещенных слов (что маловероятно для обычного бренда, но возможно для имен людей или спорных организаций), система могла бы использовать логику Маркера Запрещения. Слова «обман» и «мошенники» могли бы быть добавлены как маркеры запрещения для этого бренда, что привело бы к удалению этих подсказок.
    5. Вывод для SEO/SERM: Понимание механизма позволяет лучше аргументировать запросы в поддержку Яндекса на удаление клеветнических или нелегальных подсказок, апеллируя к существующей инфраструктуре фильтрации.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в органической выдаче?

    Нет, напрямую не влияет. Патент описывает исключительно механизм фильтрации поисковых подсказок (Autocomplete). Он определяет, какие предложения по завершению запроса будут показаны пользователю, а какие скрыты. Однако он оказывает косвенное влияние на трафик: запросы, которые попадают в подсказки, ищут чаще, а подавленные запросы – реже.

    Какова основная цель этого патента?

    Основная цель — обеспечить пользователя допустимыми (безопасными и легальными) предложениями по завершению поискового запроса. Система предотвращает появление в подсказках нецензурной лексики, предложений, связанных с нелегальной деятельностью (например, покупкой наркотиков), или нежелательного контента для взрослых, используя гибкую систему фильтров.

    В чем разница между «Маркером запрещения» и «Маркером разрешения»?

    Это две разные логики фильтрации. «Маркер запрещения» работает как черный список: подсказки разрешены по умолчанию, кроме тех, чье продолжение совпадает с маркером запрещения. «Маркер разрешения» работает как белый список: подсказки запрещены по умолчанию, кроме тех, чье продолжение совпадает с маркером разрешения. Выбор логики зависит от конкретного «потенциально запрещенного слова».

    Как понять, какую логику (черный или белый список) Яндекс применяет к конкретному слову?

    Это можно определить эмпирически путем анализа подсказок. Если по слову доступно много разнообразных подсказок, но отсутствуют явно нелегальные или оскорбительные продолжения, вероятно, используется логика Запрещения (черный список). Если же подсказок очень мало и они строго ограничены нейтральными темами (например, только «инструкция» и «побочные эффекты» для лекарства), вероятно, используется логика Разрешения (белый список).

    Как этот патент влияет на сбор семантического ядра?

    Он подчеркивает необходимость обязательной проверки реальных поисковых подсказок при сборе семантики, особенно в YMYL или «серых» нишах. Нельзя полагаться только на Wordstat, так как популярные по статистике запросы могут быть отфильтрованы в Autocomplete. Семантическое ядро должно учитывать эти ограничения и фокусироваться на интентах, которые проходят фильтрацию.

    Означает ли этот патент, что бесполезно продвигаться по запросам, которых нет в подсказках?

    Нет, не означает. Пользователи по-прежнему могут вводить эти запросы вручную. Однако отсутствие запроса в подсказках (особенно если он отфильтрован этим механизмом) значительно снижает его охват и потенциальный трафик. Продвижение по таким запросам возможно, но может быть менее приоритетным по сравнению с запросами, присутствующими в подсказках.

    Могут ли списки запрещенных слов и маркеров меняться?

    Да. В патенте указано, что списки могут формироваться как вручную операторами, так и с помощью алгоритмов машинного обучения на основе истории поиска пользователей. Это подразумевает, что система адаптивна и списки регулярно обновляются в ответ на новые тренды, поведение пользователей или изменения в законодательстве.

    Как этот механизм влияет на «серые» ниши, например, азартные игры?

    Такие ниши являются основными кандидатами для применения этого механизма. Вероятно, названия казино или термины, связанные с азартными играми, находятся в списке «потенциально запрещенных слов». Система может применять строгую фильтрацию (например, логику Разрешения), чтобы блокировать подсказки, ведущие на нелегальные ресурсы, или фильтровать определенные коммерческие интенты.

    Если название моего бренда совпадает с «потенциально запрещенным словом», что делать?

    Это может привести к проблемам с видимостью бренда в подсказках. В такой ситуации система, вероятно, применит логику Запрещения (как в примере с «Молли»). Важно убедиться, что основные запросы, связанные с вашим брендом (например, «[Бренд] официальный сайт»), не попадают в список маркеров запрещения. Если подсказки блокируются некорректно, следует обратиться в службу поддержки Яндекса для ручной корректировки списков.

    Поможет ли накрутка подсказок (Queryкрутка) обойти эти фильтры?

    Это крайне маловероятно и рискованно. Механизм фильтрации применяется ПОСЛЕ генерации кандидатов (которые могут быть основаны на популярности). Даже если запрос станет популярным из-за накрутки, он все равно будет проверен по спискам маркеров запрещения/разрешения. Более того, попытки накрутки в чувствительных темах могут привлечь внимание модераторов и привести к добавлению новых маркеров запрещения.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.