Яндекс использует комбинированную систему фильтрации для контроля поисковых подсказок (Autocomplete). Система определяет, является ли вводимый термин «потенциально запрещенным». В зависимости от типа термина применяется либо логика «черного списка» (запрещать только определенные продолжения), либо логика «белого списка» (разрешать только определенные продолжения). Это позволяет блокировать нежелательные подсказки, сохраняя при этом полезные информационные варианты.
Описание
Какую задачу решает
Патент решает задачу точной фильтрации нежелательных поисковых подсказок (Search Query Completion Suggestions), таких как подсказки, содержащие оскорбительную лексику, относящиеся к противоправной деятельности или другому неприемлемому контенту. Проблема традиционных фильтров заключается в том, что они могут быть либо слишком строгими (блокируя полезные запросы с неоднозначными словами), либо слишком мягкими. Данное изобретение обеспечивает гранулярный контроль над тем, какие комбинации слов могут быть предложены пользователю в автокомплите.
Что запатентовано
Запатентована система и метод комбинированной фильтрации поисковых подсказок. Суть изобретения заключается в использовании двухуровневой логики фильтрации, основанной на списках «потенциально запрещенных слов» (Potentially Banned Words) и связанных с ними «маркеров запрета» (Ban Markers) и «маркеров разрешения» (Unban Markers). Система определяет, следует ли применять к конкретному термину логику черного списка (разрешено все, кроме запрещенного) или логику белого списка (запрещено все, кроме разрешенного).
Как это работает
Когда пользователь вводит часть запроса (Первый компонент), система генерирует возможное продолжение (Второй компонент). Система проверяет, входит ли Первый компонент в список Potentially Banned Words. Если да, проверяется тип ассоциации этого слова:
- Ассоциация с Ban Marker (Логика черного списка): Подсказка разрешена по умолчанию, ЕСЛИ Второй компонент НЕ совпадает с одним из Ban Markers в соответствующем списке.
- Ассоциация с Unban Marker (Логика белого списка): Подсказка запрещена по умолчанию, ЕСЛИ Второй компонент НЕ совпадает с одним из Unban Markers в соответствующем списке.
Например (из патента), для слова «Molly» (потенциально имя или наркотик) может использоваться логика черного списка: подсказка «Molly Ringwald» разрешена, а «Molly buy drug» — запрещена. Для слова «Heroin» может использоваться логика белого списка: подсказка «Heroin buy» запрещена, а «Heroin side effects» — разрешена.
Актуальность для SEO
Высокая. Фильтрация поисковых подсказок является критически важной функцией для всех крупных поисковых систем в целях управления репутацией, соблюдения законодательства и обеспечения безопасности пользователей (SafeSearch). Описанный механизм гранулярного контроля остается стандартом де-факто для управления автокомплитом.
Важность для SEO
Влияние на SEO умеренное (4/10). Патент не описывает алгоритмы ранжирования веб-страниц. Он напрямую влияет на процесс формирования запроса пользователем и на видимость определенных запросов в подсказках. Это имеет критическое значение для управления репутацией в интернете (ORM/SERM), так как позволяет предотвратить появление негативных или спорных подсказок, связанных с брендами или персоналиями. Также это влияет на то, как пользователи ищут информацию в чувствительных тематиках (YMYL).
Детальный разбор
Термины и определения
- Ban Marker (Маркер запрета)
- Термин или фраза в списке, связанном с Potentially Banned Word. Если предлагаемое продолжение запроса совпадает с Ban Marker, генерация подсказки блокируется (при условии использования логики черного списка).
- First Query Component (Первый компонент запроса)
- Часть поискового запроса, введенная пользователем (или ее сегмент), которая анализируется системой на предмет совпадения со списком Potentially Banned Words.
- List of Potentially Banned Words (Список потенциально запрещенных слов)
- Список слов или фраз, которые требуют специальной обработки при генерации подсказок. Каждое слово в этом списке ассоциировано либо с необходимостью проверки по Ban Markers, либо по Unban Markers.
- Search Query Completion Suggestion (Подсказка завершения поискового запроса)
- Полный предлагаемый запрос (Autocomplete/Suggest), состоящий из First Query Component и Suggested Second Query Component.
- Suggested Second Query Component (Предлагаемый второй компонент запроса)
- Предлагаемое системой продолжение или завершение запроса, которое проверяется по спискам Ban Markers или Unban Markers.
- Suggestion Module (Модуль подсказок)
- Компонент поисковой системы, отвечающий за генерацию и фильтрацию поисковых подсказок.
- Type (Тип)
- Категория, к которой относится Potentially Banned Word (например, наркотики, персоналии, нелегальный контент, ненормативная лексика). Используется для группировки слов и соответствующих им маркеров.
- Unban Marker (Маркер разрешения)
- Термин или фраза в списке, связанном с Potentially Banned Word. Если предлагаемое продолжение запроса совпадает с Unban Marker, генерация подсказки разрешается (при условии использования логики белого списка).
Ключевые утверждения (Анализ Claims)
Патент фокусируется на механизме принятия решения о генерации или блокировке поисковой подсказки на основе комбинации введенного текста и предлагаемого продолжения.
Claim 1 (Независимый пункт): Описывает полный процесс фильтрации.
- Система получает часть поискового запроса и определяет Первый компонент.
- Генерируется Предлагаемый второй компонент.
- Система обращается к Списку потенциально запрещенных слов, чтобы проверить, есть ли там Первый компонент. Каждое слово в этом списке связано либо с Маркером запрета (Ban Marker), либо с Маркером разрешения (Unban Marker).
- Если Первый компонент найден в списке, система определяет тип его ассоциации (Ban или Unban).
- Логика Ban Marker (Черный список): Если слово ассоциировано с Ban Marker:
- Система проверяет, совпадает ли Второй компонент с каким-либо Ban Marker в соответствующем списке.
- Если совпадает: подсказка НЕ генерируется (Блокировка).
- Если не совпадает: подсказка генерируется (Разрешение).
- Логика Unban Marker (Белый список): Если слово ассоциировано с Unban Marker:
- Система проверяет, совпадает ли Второй компонент с каким-либо Unban Marker в соответствующем списке.
- Если совпадает: подсказка генерируется (Разрешение).
- Если не совпадает: подсказка НЕ генерируется (Блокировка).
Зависимые пункты (например, Claims 2-7): Уточняют механизм, вводя концепцию группировки по Типам (Type).
- Потенциально запрещенные слова могут быть сгруппированы по типам (например, «наркотики», «персоналии», «ненормативная лексика»).
- При проверке система может определить тип Первого компонента и обращаться только к тем спискам Ban/Unban Markers, которые соответствуют этому типу. Это оптимизирует процесс и делает списки более управляемыми.
Где и как применяется
Изобретение применяется на этапе взаимодействия пользователя с поисковой строкой, до отправки финального запроса на ранжирование.
QUERY PROCESSING – Понимание Запросов
Процесс генерации и фильтрации подсказок является частью слоя обработки запросов. Suggestion Module работает в реальном времени, получая на вход символы, вводимые пользователем.
Взаимодействие компонентов:
- Входные данные: Часть поискового запроса от пользователя. Исторические данные о поиске (используются для генерации Второго компонента). Списки Potentially Banned Words, Ban Markers и Unban Markers (хранятся в базе данных, доступной Suggestion Module).
- Процесс: Suggestion Module генерирует кандидатов для подсказок и применяет описанную логику фильтрации.
- Выходные данные: Отфильтрованный список поисковых подсказок, который отображается пользователю.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на запросы, связанные с чувствительными темами, где требуется контроль над формулировками.
- Навигационные и Брендовые запросы: Критически важно для ORM/SERM. Система предотвращает ассоциацию брендов или имен людей с негативными или скандальными терминами в подсказках (например, +, +).
- Конкретные ниши или тематики (YMYL): Влияет на запросы, связанные с наркотиками, нелегальной деятельностью, контентом для взрослых, азартными играми, ненормативной лексикой. Система позволяет разграничить информационный интент (например, лечение зависимости) от потенциально вредоносного (например, покупка запрещенных веществ). В патенте упоминаются типы: drugs, people, people curses, people actions, adult content, illegal content, pornography, gambling, profanity, sexual content.
Когда применяется
- Условия работы: Алгоритм работает в реальном времени, когда пользователь вводит текст в поисковую строку и активирована функция автодополнения.
- Триггеры активации: Фильтрация активируется, когда введенный пользователем текст (First Query Component) совпадает с одним из слов в List of Potentially Banned Words.
Пошаговый алгоритм
Процесс фильтрации поисковой подсказки:
- Получение ввода: Система получает часть поискового запроса от пользователя.
- Парсинг: Введенный текст анализируется для определения Первого компонента запроса (First Query Component).
- Генерация продолжения: Suggestion Module генерирует один или несколько кандидатов для Предлагаемого второго компонента запроса (Suggested Second Query Component), основываясь на статистической популярности, истории поиска пользователя и других факторах.
- Проверка на запрет: Система проверяет, присутствует ли Первый компонент в List of Potentially Banned Words. Если нет, фильтрация по этому патенту не применяется (переход к шагу 8).
- Определение типа ассоциации: Если Первый компонент найден в списке, система определяет, связан ли он с требованием проверки по Ban Markers (Логика 1) или по Unban Markers (Логика 2). (Опционально: определяется Тип слова для использования специфических списков маркеров).
- Применение Логики 1 (Черный список / Ban Markers):
- Система проверяет, совпадает ли Второй компонент с каким-либо Ban Marker в ассоциированном списке.
- Если совпадение найдено, подсказка блокируется.
- Если совпадение не найдено, подсказка разрешается.
- Применение Логики 2 (Белый список / Unban Markers):
- Система проверяет, совпадает ли Второй компонент с каким-либо Unban Marker в ассоциированном списке.
- Если совпадение найдено, подсказка разрешается.
- Если совпадение не найдено, подсказка блокируется.
- Генерация выдачи: Формируется финальный список разрешенных подсказок для отображения пользователю.
Какие данные и как использует
Данные на входе
- Контентные факторы (Текстовые): Текст First Query Component и Suggested Second Query Component.
- Поведенческие и Временные факторы: Для генерации Suggested Second Query Component система использует исторические данные о поиске (past related search queries). В патенте упоминаются: статистическая популярность (statistical popularity), популярность, специфичная для пользователя (user-specific popularity), частота совместного поиска терминов и другая вспомогательная информация о прошлых поисках.
- Системные данные (Списки фильтрации): Для выполнения фильтрации используются заранее подготовленные списки:
- List of Potentially Banned Words.
- Списки Ban Markers.
- Списки Unban Markers.
Какие метрики используются и как они считаются
Патент не описывает конкретные метрики ранжирования подсказок, но фокусируется на механизме фильтрации, который основан на сопоставлении строк и булевой логике.
- Методы подготовки списков: В патенте указано, что списки (Potentially Banned Words, Ban Markers, Unban Markers) могут быть подготовлены вручную оператором (асессором) ИЛИ с использованием алгоритмов машинного обучения (machine-learned algorithm), обученных на исторических данных поиска пользователей (historical user search data).
- Группировка: Используется классификация Potentially Banned Words по типам (Type) для структурирования списков фильтрации и оптимизации процесса проверки.
Выводы
- Гранулярный контроль подсказок: Яндекс использует сложную систему для управления автокомплитом, которая выходит за рамки простого удаления запрещенных слов. Система анализирует комбинации слов.
- Два режима фильтрации (Комбинированный подход): Ключевой особенностью является наличие двух режимов, определяемых для каждого потенциально запрещенного слова:
- Режим Черного списка (Ban Markers): Используется для терминов, которые в основном нейтральны, но имеют нежелательные контексты (например, имена людей, бренды). Разрешены все продолжения, кроме явно запрещенных.
- Режим Белого списка (Unban Markers): Используется для терминов, которые в основном нежелательны или требуют строгого контроля (например, названия запрещенных веществ, противоправные действия). Запрещены все продолжения, кроме явно разрешенных (информационных).
- Управление контекстом и интентом: Система позволяет Яндексу управлять тем, какие интенты поощряются через подсказки, а какие блокируются, особенно в чувствительных (YMYL) тематиках.
- Автоматизация и Масштабируемость: Списки могут генерироваться как вручную, так и с помощью ML, а группировка по типам позволяет масштабировать и поддерживать систему фильтрации.
- Влияние на ORM/SERM: Этот механизм является основой для защиты репутации брендов и персоналий в поисковых подсказках.
Практика
Best practices (это мы делаем)
- Мониторинг поисковых подсказок (ORM/SERM): Регулярно отслеживайте подсказки, связанные с вашим брендом, продуктами и ключевыми персоналиями. Этот патент подтверждает, что у Яндекса есть технический механизм для гранулярного удаления нежелательных ассоциаций (через Ban Markers).
- Формирование позитивных ассоциаций: Активно работайте над созданием контента и стимулированием поискового спроса на позитивные и нейтральные комбинации запросов, связанных с вашим брендом. Чем популярнее позитивные запросы, тем выше вероятность их попадания в подсказки (при условии, что они не нарушают правила фильтрации).
- Работа в чувствительных тематиках (YMYL): Если ваш сайт работает в тематике, которая может попадать под фильтрацию (например, медицина, лечение зависимостей), фокусируйтесь на информационном и полезном контенте. Патент показывает, что для строго контролируемых тем (логика Unban Markers) разрешаются только определенные, безопасные продолжения запросов. Убедитесь, что ваша семантика соответствует этим разрешенным интентам.
Worst practices (это делать не надо)
- Попытки продвижения по запрещенным тематикам: Бесполезно пытаться попасть в подсказки по запросам, связанным с нелегальной деятельностью, покупкой запрещенных веществ и т.д. Система активно фильтрует такие комбинации, часто используя логику белого списка (Unban Markers).
- Накрутка подсказок для «черного PR»: Попытки искусственно создать негативные подсказки для конкурентов могут быть заблокированы этим механизмом, если Яндекс классифицирует имя конкурента как требующее защиты (логика Ban Markers).
- Игнорирование влияния подсказок на трафик: Недооценка того, как подсказки формируют поисковый спрос. Если популярная подсказка исчезла из-за фильтрации, это может привести к снижению трафика по этому конкретному запросу.
Стратегическое значение
Патент демонстрирует, что Яндекс системно подходит к контролю над формированием поисковых запросов. Для SEO-стратегии это означает, что анализ подсказок является важной частью понимания реального спроса и ограничений системы. Патент подчеркивает важность ORM/SERM и необходимость учитывать, что видимость в поиске начинается уже на этапе ввода запроса. Система фильтрации защищает пользователей и репутацию, но также определяет границы допустимого контента в экосистеме Яндекса.
Практические примеры
Сценарий 1: Управление репутацией бренда (ORM) — Логика Черного Списка (Ban Marker)
- Ситуация: Пользователь вводит название компании «BrandX». В подсказках появляется «BrandX мошенники» из-за недавней информационной атаки.
- Анализ по патенту: Яндекс может классифицировать «BrandX» как Potentially Banned Word с ассоциацией Ban Marker (Разрешено по умолчанию).
- Действие SEO/ORM специалиста: Обратиться в поддержку Яндекса с просьбой удалить нежелательную подсказку.
- Действие системы: Яндекс добавляет слово «мошенники» в список Ban Markers для «BrandX».
- Результат: Когда пользователь вводит «BrandX», система генерирует продолжение «мошенники», проверяет его по списку Ban Markers, находит совпадение и блокирует генерацию этой подсказки. Подсказки «BrandX отзывы» или «BrandX сайт» при этом сохраняются.
Сценарий 2: Работа в сложной медицинской тематике (YMYL) — Логика Белого Списка (Unban Marker)
- Ситуация: Клиника занимается лечением зависимостей. Пользователи ищут информацию по названию сильного препарата «DrugY».
- Анализ по патенту: Яндекс классифицирует «DrugY» как Potentially Banned Word с ассоциацией Unban Marker (Запрещено по умолчанию), так как тема строго контролируется.
- Действие системы: По умолчанию большинство подсказок для «DrugY» запрещены. Яндекс добавляет полезные информационные термины в список Unban Markers: «лечение», «побочные эффекты», «реабилитация».
- Результат: Подсказки «DrugY купить» блокируются, так как они не входят в белый список. Подсказка «DrugY лечение зависимости» генерируется, так как она есть в белом списке.
- Вывод для SEO: Клинике необходимо фокусировать контент и семантику вокруг разрешенных интентов («лечение», «реабилитация»), чтобы соответствовать тем запросам, которые пользователи увидят в подсказках.
Вопросы и ответы
Влияет ли этот патент на ранжирование сайтов в поиске Яндекса?
Напрямую нет. Патент описывает исключительно механизм фильтрации поисковых подсказок (Autocomplete/Autosuggest), а не алгоритмы ранжирования веб-документов в основной выдаче. Однако он оказывает косвенное влияние, так как подсказки направляют пользователей к определенным формулировкам запросов, формируя поисковый спрос. Если определенная подсказка заблокирована, трафик по этому запросу снизится.
В чем ключевое различие между логикой Ban Marker и Unban Marker?
Различие заключается в подходе по умолчанию. Логика Ban Marker (Черный список) предполагает, что разрешены все продолжения запроса, КРОМЕ тех, что явно указаны в списке Ban Markers. Логика Unban Marker (Белый список) предполагает, что запрещены все продолжения запроса, КРОМЕ тех, что явно указаны в списке Unban Markers. Первый подход используется для защиты репутации нейтральных терминов, второй — для строгого контроля опасных или нелегальных тем.
Как Яндекс определяет, какую логику (Ban или Unban) применять к слову?
Патент не детализирует критерии выбора, но указывает, что списки и ассоциации могут определяться вручную операторами или с помощью машинного обучения на основе исторических данных. Вероятно, термины, связанные с противоправной деятельностью или строго регулируемыми веществами, получают логику Unban Marker (запрещено все, кроме безопасного), а неоднозначные термины (например, имена, совпадающие с жаргоном) – логику Ban Marker (разрешено все, кроме опасного).
Что такое «Тип» (Type) потенциально запрещенного слова и зачем он нужен?
Тип — это категория, к которой относится слово, например, «наркотики», «персоналии», «ненормативная лексика», «азартные игры». Группировка по типам позволяет Яндексу управлять списками фильтрации более эффективно. Вместо одного гигантского списка маркеров система может использовать специализированные списки для каждой категории, что упрощает поддержку и повышает скорость фильтрации.
Могу ли я использовать этот патент для удаления негативных подсказок о моем бренде (SERM)?
Да, этот патент описывает техническую возможность Яндекса удалять конкретные нежелательные ассоциации. Если о вашем бренде появилась негативная подсказка (например, «[Ваш Бренд] обман»), вы можете обратиться в поддержку Яндекса. Согласно патенту, они могут добавить слово «обман» в список Ban Markers, связанных с вашим брендом, тем самым заблокировав эту конкретную подсказку, не затрагивая другие.
Используется ли машинное обучение в этой системе?
Да, в патенте явно указано, что списки Potentially Banned Words, Ban Markers и Unban Markers могут быть предопределены с использованием machine-learned algorithm, обученного на исторических данных поиска. Это позволяет автоматически выявлять новые нежелательные термины и ассоциации без постоянного ручного вмешательства.
Если я занимаюсь «черным SEO» и накручиваю подсказки против конкурента, может ли этот механизм мне помешать?
Да, может. Если Яндекс (вручную или автоматически) определит, что имя вашего конкурента требует защиты, он может применить к нему логику Ban Marker. В этом случае ваши накрученные негативные продолжения будут добавлены в список маркеров запрета, и пользователи их не увидят в автокомплите, несмотря на ваши усилия по накрутке.
Как этот патент влияет на работу в YMYL тематиках, например, в медицине?
Влияние значительно. Для запросов, связанных с сильнодействующими лекарствами, спорными методами лечения или заболеваниями, Яндекс может применять строгую логику Unban Marker (белый список). Это означает, что будут показаны только те подсказки, которые ведут к авторитетной и безопасной информации (например, «[лекарство] инструкция», «[болезнь] симптомы»). Подсказки, ведущие к потенциально опасному контенту, будут заблокированы.
Может ли система заблокировать все подсказки для определенного слова?
Да. Если слово добавлено в список Potentially Banned Words с логикой Unban Marker, и при этом список Unban Markers для него пуст, то все подсказки будут заблокированы. Также, согласно Claim 6, если для слова в списке не определен ни Ban, ни Unban Marker, подсказка также не генерируется.
Как SEO-специалисту адаптировать стратегию с учетом этого патента?
Необходимо уделять больше внимания ORM/SERM и мониторингу подсказок. При сборе семантического ядра важно анализировать не только частотность запросов, но и их видимость в подсказках. В чувствительных тематиках следует фокусироваться на интентах, которые соответствуют «белым спискам» Яндекса (информационные, безопасные, полезные), и не рассчитывать на трафик по спорным или запрещенным формулировкам.