Яндекс патентует систему для фильтрации поисковых подсказок (Автокомплит) с целью блокировки оскорбительного или нелегального контента. Система использует контекстную логику с двумя режимами: для одних слов подсказки разрешены по умолчанию и блокируются только специфические продолжения (Ban Markers); для других — запрещены по умолчанию и разрешаются только безопасные продолжения (Unban Markers).
Описание
Какую задачу решает
Патент решает задачу фильтрации нежелательных поисковых подсказок (Search Query Completion Suggestions), которые могут содержать оскорбительный язык, относиться к незаконной деятельности или иному недопустимому контенту. Он устраняет ограничения простых фильтров (черных списков), предлагая контекстно-зависимый механизм для управления подсказками, особенно в случаях неоднозначных запросов, которые могут иметь как допустимые, так и недопустимые продолжения (например, слово, являющееся и именем, и названием наркотика).
Что запатентовано
Запатентован метод и система комбинированной фильтрации поисковых подсказок. Суть изобретения заключается в использовании списка потенциально запрещенных слов (Potentially Banned Words) и двух взаимодополняющих механизмов контроля: Запрещающих маркеров (Ban Markers) и Разрешающих маркеров (Unban Markers). Для каждого потенциально запрещенного слова определяется режим фильтрации по умолчанию (разрешить или запретить), а маркеры используются для создания исключений из этого правила.
Как это работает
Когда пользователь вводит часть запроса (Первый компонент), система генерирует возможные продолжения (Второй компонент). Система проверяет, находится ли Первый компонент в списке Potentially Banned Words. Если да, активируется один из двух режимов фильтрации:
- Режим 1 (Default Allow / Нужен Ban Marker): Подсказка разрешена по умолчанию. Она блокируется, только если Второй компонент совпадает с Запрещающим маркером (черный список). Используется для неоднозначных слов.
- Режим 2 (Default Deny / Нужен Unban Marker): Подсказка запрещена по умолчанию. Она разрешается, только если Второй компонент совпадает с Разрешающим маркером (белый список). Используется для высокорискованных слов.
Актуальность для SEO
Высокая. Фильтрация поисковых подсказок является критически важной функцией для всех крупных поисковых систем для соблюдения законодательства, обеспечения безопасности пользователей и поддержания качества пользовательского опыта. Описанный механизм гибкой контекстной фильтрации остается актуальным методом управления саджестами.
Важность для SEO
Влияние на SEO низкое (3/10). Этот патент не описывает механизмы ранжирования, индексации или оценки качества веб-страниц. Он касается исключительно уровня генерации автодополнения в поисковой строке. Однако он имеет косвенное значение для управления репутацией (SERM) и анализа трафика из подсказок. Понимание этого механизма объясняет, почему определенные, даже популярные, подсказки могут быть принудительно удалены, особенно для брендов или терминов с неоднозначным значением.
Детальный разбор
Термины и определения
- Ban Marker (Запрещающий маркер)
- Слово или фраза из предопределенного списка (черный список). Если этот маркер появляется в предлагаемом продолжении запроса для слова, работающего в режиме «Default Allow», вся подсказка блокируется.
- First Query Component (Первый компонент запроса)
- Часть поискового запроса, введенная пользователем в поисковую строку.
- List of Potentially Banned Words (Список потенциально запрещенных слов)
- Предопределенный список слов или фраз, которые требуют специальной логики фильтрации. Каждое слово в этом списке связано либо с необходимостью Ban Marker, либо Unban Marker.
- NEED_BAN_MARKER
- Метка в патенте, указывающая на режим работы «Default Allow». Для слова с этой меткой система ищет совпадения дополнения в списке Ban Markers.
- NEED_UNBAN_MARKER
- Метка в патенте, указывающая на режим работы «Default Deny». Для слова с этой меткой система ищет совпадения дополнения в списке Unban Markers.
- Search Query Completion Suggestion (Подсказка для завершения поискового запроса / Саджест)
- Полная фраза, предлагаемая пользователю в выпадающем меню поисковой строки. Состоит из First Query Component и Suggested Second Query Component.
- Suggested Second Query Component (Предлагаемый второй компонент запроса)
- Слово или фраза, которую система предлагает для дополнения введенного пользователем текста (First Query Component).
- Type (Тип)
- Категория, к которой относится потенциально запрещенное слово (например, наркотики, контент для взрослых, нелегальный контент, ругательства). Используется для группировки слов и соответствующих им маркеров.
- Unban Marker (Разрешающий маркер)
- Слово или фраза из предопределенного списка (белый список). Если этот маркер появляется в предлагаемом продолжении запроса для слова, работающего в режиме «Default Deny», вся подсказка разрешается к показу.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт) определяет ядро изобретения — полный процесс комбинированной фильтрации подсказок.
- Система получает часть поискового запроса и определяет Первый компонент.
- Генерируется предлагаемый Второй компонент для завершения запроса.
- Система обращается к Списку потенциально запрещенных слов, чтобы проверить, есть ли там Первый компонент.
- Если совпадение найдено, система определяет режим: ассоциация с Ban Marker (Режим 1, Default Allow) или с Unban Marker (Режим 2, Default Deny).
- Режим 1 (Default Allow): Система проверяет список Запрещающих маркеров. Если Второй компонент совпадает с любым из них, подсказка НЕ генерируется (блокируется). Если не совпадает — генерируется (разрешается).
- Режим 2 (Default Deny): Система проверяет список Разрешающих маркеров. Если Второй компонент совпадает с любым из них, подсказка генерируется (разрешается). Если не совпадает — НЕ генерируется (блокируется).
Claim 2-5 (Зависимые пункты) уточняют механизм группировки и оптимизации.
Потенциально запрещенные слова могут быть сгруппированы по Типу (Type) (Claim 2). Если тип определен (Claim 3), то система может обращаться только к тем спискам Ban/Unban маркеров, которые соответствуют этому конкретному типу (Claim 4, 5). Это оптимизирует процесс и позволяет более точно управлять контекстом.
Claim 9-11 (Зависимые пункты) уточняют происхождение списков.
Списки (потенциально запрещенных слов, Ban Markers, Unban Markers) могут быть предопределены вручную оператором (Claim 9) или с использованием алгоритма машинного обучения (Claim 10), обученного на исторических данных поиска (Claim 11).
Где и как применяется
Изобретение применяется на этапе взаимодействия пользователя с поисковой строкой, до отправки основного запроса на ранжирование.
QUERY PROCESSING – Понимание Запросов (Модуль Подсказок)
Система генерации подсказок (Suggestion Module) работает в реальном времени по мере ввода символов пользователем. Описанный фильтр является частью этого модуля.
- Взаимодействие с компонентами: Взаимодействует с базой данных (Database), хранящей списки маркеров и потенциально запрещенных слов.
- Данные на входе: Часть запроса, введенная пользователем (First Query Component). Сгенерированные кандидаты для завершения (Second Query Component), основанные на популярности и исторических данных.
- Данные на выходе: Отфильтрованный список поисковых подсказок (Search Query Completion Suggestions) для отображения в интерфейсе.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на запросы, связанные с чувствительными тематиками, где требуется строгий контроль над содержанием.
- Неоднозначные запросы (Ambiguous Queries): Влияет на запросы, имеющие несколько значений, одно из которых может быть нежелательным (например, название бренда, совпадающее со сленгом).
- Конкретные ниши или тематики: Патент явно упоминает такие типы (Types), как наркотики (drugs), люди (people), ругательства (curses), контент для взрослых (adult content), нелегальный контент (illegal content), порнография (pornography), азартные игры (gambling), ненормативная лексика (profanity).
Когда применяется
Алгоритм применяется в реальном времени, когда пользователь вводит запрос в поисковую строку.
- Триггеры активации: Введенный пользователем текст (First Query Component) совпадает со словом из Списка потенциально запрещенных слов.
- Частота применения: При каждом изменении текста в поисковой строке, для которого генерируются подсказки.
Пошаговый алгоритм
Процесс фильтрации поисковой подсказки:
- Получение ввода и Парсинг: Система получает часть запроса и определяет Первый компонент (First Query Component).
- Генерация продолжения: Генерация одного или нескольких Предлагаемых вторых компонентов (Suggested Second Query Component).
- Проверка триггера: Система проверяет, присутствует ли Первый компонент в Списке потенциально запрещенных слов. Если нет, фильтрация не применяется, подсказка разрешается.
- Определение режима и типа: Если Первый компонент найден в списке, система определяет его режим: нужен Ban Marker (Режим 1, Default Allow) или нужен Unban Marker (Режим 2, Default Deny). Опционально определяется Тип слова.
- Применение логики Режима 1 (Default Allow):
- Система обращается к списку Запрещающих маркеров (возможно, отфильтрованному по Типу).
- Проверяется, совпадает ли Второй компонент с каким-либо маркером в этом списке.
- Если совпадает: Подсказка блокируется.
- Если не совпадает: Подсказка разрешается.
- Применение логики Режима 2 (Default Deny):
- Система обращается к списку Разрешающих маркеров (возможно, отфильтрованному по Типу).
- Проверяется, совпадает ли Второй компонент с каким-либо маркером в этом списке.
- Если совпадает: Подсказка разрешается.
- Если не совпадает: Подсказка блокируется.
- Вывод: Формирование финального списка разрешенных подсказок для показа пользователю.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании предопределенных списков и данных о запросах. Он не использует стандартные SEO-факторы (контентные, ссылочные, технические) для этого процесса фильтрации.
- Данные о запросе: Текст, введенный пользователем (First Query Component) и сгенерированное продолжение (Second Query Component).
- Исторические данные (Косвенно): Данные о прошлых поисковых запросах (past related search queries) используются для генерации Второго компонента. Упоминаются статистическая популярность, пользовательская популярность и частота совместного поиска.
- Предопределенные списки:
- Список потенциально запрещенных слов (List of Potentially Banned Words).
- Список Запрещающих маркеров (List of Ban Markers).
- Список Разрешающих маркеров (List of Unban Markers).
Какие метрики используются и как они считаются
В патенте не описаны сложные метрики или формулы для фильтрации. Процесс основан на булевой логике и точном совпадении (matching) компонентов запроса со списками.
- Методы создания списков: Указано, что списки могут быть предопределены вручную оператором (manually by an operator) или с использованием алгоритма машинного обучения (machine-learned algorithm), обученного на исторических данных поиска пользователей (historical user search data).
- Сравнение: Основная операция — это проверка наличия компонента запроса в соответствующем списке (совпадение строк).
Выводы
- Фильтрация подсказок, а не ранжирования: Патент описывает исключительно механизм контроля над содержанием поисковых подсказок (саджестов). Он не имеет отношения к алгоритмам ранжирования основного поиска.
- Двухуровневая гибкая фильтрация: Ключевая особенность — наличие двух режимов работы фильтра (Default Allow + Ban List и Default Deny + Unban List). Это позволяет Яндексу эффективно управлять неоднозначными терминами, блокируя нежелательные интерпретации, но сохраняя допустимые.
- Контекстная зависимость и Категоризация: Система учитывает контекст через анализ комбинации слов и использует группировку по типам (наркотики, нелегальный контент и т.д.), что делает фильтрацию более структурированной.
- Ручное и автоматическое управление списками: Списки для фильтрации могут создаваться как вручную асессорами/операторами, так и с помощью машинного обучения на основе анализа истории поиска.
- Влияние на видимость запросов: Механизм напрямую влияет на то, какие запросы будут предложены пользователю. Отсутствие подсказки может быть связано не с ее низкой популярностью, а с активной работой этого фильтра.
Практика
Best practices (это мы делаем)
Поскольку патент не касается ранжирования, рекомендации относятся к мониторингу поисковых подсказок и управлению репутацией (SERM).
- Мониторинг подсказок для неоднозначных брендов (SERM): Если название бренда или продукта совпадает с потенциально чувствительным термином (сленг, название вещества), необходимо регулярно проверять поисковые подсказки. Убедитесь, что легитимные подсказки (например, «[Бренд] отзывы») не блокируются режимом Default Deny.
- Анализ в YMYL-тематиках: В чувствительных тематиках (например, медицина) анализируйте, какие формулировки Яндекс пропускает в подсказки. Эти формулировки, вероятно, находятся в списке Unban Markers и рассматриваются как «безопасные» интенты. Фокусируйте контент-стратегию на этих интентах.
- Понимание ограничений при сборе семантики: При сборе семантического ядра через парсинг подсказок учитывайте, что некоторые популярные запросы могут быть намеренно скрыты Яндексом из-за этого фильтра. Не полагайтесь только на подсказки в чувствительных тематиках.
Worst practices (это делать не надо)
- Агрессивная накрутка (Suggest Boosting) нежелательных подсказок: Попытки манипулировать подсказками для продвижения сомнительных или нелегальных предложений с высокой вероятностью будут заблокированы этим фильтром, независимо от искусственно созданной популярности запроса.
- Игнорирование Неоднозначности Названий: Выбор названий для новых продуктов или брендов без учета их возможных негативных коннотаций или совпадений со сленгом может привести к тому, что связанные с ними подсказки будут фильтроваться системой.
Стратегическое значение
Патент демонстрирует, что Яндекс имеет сложную инфраструктуру для контроля контента уже на этапе ввода запроса. Это подчеркивает приоритет безопасности и соблюдения законодательства над простой популярностью запросов. Для SEO-стратегии это означает, что работа с репутацией и анализ пользовательского спроса должны учитывать механизмы принудительной фильтрации. Видимость в поиске начинается с видимости в подсказках.
Практические примеры
Сценарий 1: Режим Default Deny (Высокий риск)
Этот режим используется для высокорискованных слов, например, названий тяжелых наркотиков (пример из патента: «Героин»).
- Работа системы: Яндекс классифицирует «Героин» как Potentially Banned Word с режимом Default Deny (Нужен Unban Marker).
- Результат для «Героин купить»: Продолжение «купить» отсутствует в списке Unban Markers. Подсказка блокируется.
- Результат для «Героин побочные эффекты»: Продолжение «побочные эффекты» есть в списке Unban Markers. Подсказка разрешается.
- Действие SEO: Фокусировать контент-стратегию на информационных запросах, соответствующих разрешенным (белым) интентам.
Сценарий 2: Режим Default Allow (Неоднозначность)
Этот режим используется для слов с двойным значением (пример из патента: «Molly» — может быть именем или сленговым названием наркотика).
- Работа системы: Яндекс классифицирует «Molly» как Potentially Banned Word с режимом Default Allow (Нужен Ban Marker).
- Результат для «Molly Ringwald» (актриса): Продолжение «Ringwald» отсутствует в списке Ban Markers. Подсказка разрешается.
- Результат для «Molly купить наркотик»: Продолжение «купить наркотик» есть в списке Ban Markers. Подсказка блокируется.
- Действие SEO/SERM: Отслеживать, чтобы система корректно блокировала нежелательные ассоциации, сохраняя видимость для легитимных запросов.
Вопросы и ответы
Влияет ли этот патент на ранжирование сайтов в основном поиске Яндекса?
Нет, этот патент не влияет на ранжирование напрямую. Он описывает исключительно механизм фильтрации поисковых подсказок (саджестов) в строке автодополнения. Алгоритмы, определяющие позицию сайта в выдаче (SERP), в этом документе не рассматриваются.
Что такое режимы «Default Allow» (Нужен Ban Marker) и «Default Deny» (Нужен Unban Marker)?
Это два разных подхода к фильтрации. «Default Allow» предполагает, что подсказки разрешены по умолчанию, если только они не содержат стоп-слова из черного списка (Ban Markers). «Default Deny» предполагает, что подсказки запрещены по умолчанию, если только они не содержат слова из белого списка (Unban Markers). Выбор режима зависит от того, насколько чувствительным является само слово.
Почему я не вижу подсказку для своего бренда, хотя знаю, что его часто ищут?
Если бренд часто ищут, но подсказка не появляется, возможно, его название попало в «Список потенциально запрещенных слов» из-за неоднозначности или негативных ассоциаций. Если при этом установлен режим «Default Deny», то подсказки будут появляться только при наличии явных разрешающих маркеров (Unban Markers). Если нужных маркеров нет в белом списке, подсказки будут заблокированы.
Как Яндекс формирует списки запрещенных (Ban) и разрешенных (Unban) маркеров?
Патент указывает на два способа. Первый — вручную операторами или асессорами, которые анализируют контент и определяют допустимость. Второй — с помощью алгоритмов машинного обучения (machine-learned algorithm), которые анализируют исторические данные поисковых запросов пользователей для выявления паттернов, связанных с нежелательным контентом.
Могу ли я повлиять на эти списки, чтобы разрешить подсказки для моего сайта?
Прямого механизма влияния не описано. На практике, при некорректной блокировке легитимных брендовых запросов следует обращаться в поддержку Яндекса. Кроме того, поскольку система может использовать ML на основе истории поиска, популяризация «правильных» (позитивных, легальных) запросов может косвенно способствовать их добавлению в списки Unban Markers (работа в рамках SERM).
Что означает группировка по «Типу» (Type)?
Это категоризация потенциально запрещенных слов (например, «Наркотики», «Контент для взрослых»). Это позволяет применять специфические наборы Ban и Unban маркеров для каждой категории. Например, маркер «купить» может быть запрещен для типа «Наркотики», но разрешен для других типов, что делает фильтрацию более точной.
Какое значение этот патент имеет для SERM (Управление репутацией)?
Патент имеет важное значение для SERM, так как описывает механизм, с помощью которого негативные или нежелательные подсказки удаляются из автодополнения. Понимание логики Ban/Unban маркеров помогает объяснить, как работает «очистка» саджестов вокруг бренда и как можно стратегически подходить к этому процессу.
Почему я вижу запрос в Wordstat, но не вижу его в подсказках?
Wordstat показывает статистику уже выполненных запросов. Если запрос популярен, у него будет частотность в Wordstat. Однако, если этот запрос блокируется фильтром подсказок (согласно логике Ban/Unban Markers), Яндекс не будет его предлагать в Автокомплите, чтобы не стимулировать поиск нежелательного контента. Это прямое следствие работы данного фильтра.
Может ли этот фильтр заблокировать подсказку, если в ней нет стоп-слов?
Да, если для введенного слова активирован режим «Default Deny» (Нужен Unban Marker). В этом случае любая подсказка будет заблокирована, если ее дополнение отсутствует в белом списке (Unban Markers), даже если само дополнение не является неприемлемым термином.
Есть ли польза от этого патента для сайтов в YMYL-тематиках?
Да. Анализируя, какие подсказки проходят фильтр (становятся Unban Markers), можно понять, какие интенты Яндекс считает безопасными и полезными в данной тематике (например, «инструкция», «побочные эффекты» для лекарств). Фокусировка контент-стратегии на этих «белых» интентах обеспечит лучшую видимость в подсказках.