Как Яндекс автоматически генерирует данные для обучения системы исправления опечаток и раскладки клавиатуры

Яндекс патентует метод эффективного обучения системы исправления опечаток без ручной разметки данных. Система автоматически генерирует «реалистичные» и «нереалистичные» опечатки, анализируя частотность символов в логах запросов и физическое расположение клавиш. Затем алгоритм машинного обучения (MLA) учится отличать правильные исправления, используя такие признаки, как присутствие слов в URL, на веб-страницах и историю выбора исправлений пользователями.

Описание

Какую задачу решает

Патент решает задачу эффективного исправления ошибок ввода в поисковых запросах, возникающих по двум основным причинам: физические опечатки (неточный ввод из-за близкого расположения клавиш) и использование неправильной раскладки клавиатуры. Ключевая проблема, которую решает изобретение, — это необходимость создания и поддержания огромных баз данных опечаток и их исправлений, что требует значительных вычислительных ресурсов и ручного труда для разметки обучающих данных. Цель изобретения — автоматизировать процесс генерации обучающих данных и обучить алгоритм машинного обучения (MLA) для исправления ошибок без определения конкретного типа опечатки, тем самым уменьшая энергопотребление и затраты памяти.

Что запатентовано

Запатентованы способ и система для автоматизированного обучения модели исправления опечаток. Суть изобретения заключается в методе генерации синтетических обучающих данных — «реалистичных опечаток» (положительные переформулированные слова) и «нереалистичных опечаток» (отрицательные переформулированные слова) — на основе анализа корпуса текста (например, логов запросов) и моделей клавиатуры. Этот подход позволяет автоматически размечать данные и обучать MLA ранжировать потенциальные исправления.

Как это работает

Система работает в два этапа: обучение и использование.

На этапе обучения система берет слово из корпуса текста и генерирует варианты его написания с помощью лучевого поиска (beam search). Вероятность каждого символа оценивается на основе его частоты совместного появления в корпусе и оценки штрафа, зависящей от физического расстояния между клавишами на клавиатуре. Наиболее вероятные варианты считаются положительными примерами (реалистичные опечатки), а отброшенные варианты — отрицательными. Затем MLA обучается на парах (Опечатка, Исходное слово), используя различные признаки (например, присутствие слов в URL, на веб-страницах, поведение пользователей) для ранжирования качества исправления.

На этапе использования для введенного пользователем слова генерируются кандидаты на исправление тем же методом лучевого поиска. Обученный MLA ранжирует пары (Введенное слово, Кандидат) и выбирает кандидата из пары с наивысшим рангом в качестве исправления.

Актуальность для SEO

Высокая. Методы автоматической генерации данных и использования машинного обучения для исправления опечаток и раскладки являются стандартной практикой в современных поисковых системах. Описанный подход, основанный на лучевом поиске и явном моделировании клавиатуры, актуален, так как обеспечивает баланс между точностью и скоростью работы, что критично для систем коррекции запросов в реальном времени.

Важность для SEO

Влияние на SEO умеренное (4/10). Патент описывает инфраструктурные процессы Яндекса, относящиеся к предобработке и пониманию запроса (Query Processing), а именно к исправлению орфографии и раскладки. Он не раскрывает механизмов ранжирования документов. Однако патент дает ценное понимание того, какие данные Яндекс использует для валидации существования и корректности слов: логи запросов, данные обходчика (URL и контент) и поведенческие данные о выборе исправлений пользователями.

Детальный разбор

Термины и определения

Алгоритм машинного обучения (MLA): Алгоритм, обучаемый на синтетически сгенерированных данных для ранжирования пар слов и определения наилучшего исправления для слова с опечаткой.
База данных журнала поиска: Хранилище ранее выполненных поисковых запросов, сформированных страниц SERP и данных о взаимодействии пользователей с ними (например, выбор предложенного исправления). Используется как корпус текста для генерации кандидатов и как источник поведенческих признаков.
База данных обходчика: Хранилище данных, собранных краулером, включая URL и контент веб-ресурсов. Используется для извлечения признаков о присутствии слов в URL и на страницах.
Значение оценки вероятности: Метрика, определяющая вероятность того, что данный символ следует за префиксом слова. Рассчитывается на основе Оценки совместного появления и Оценки штрафа.
Корпус текста: Набор текстов, используемый для анализа частотности слов и символов. В патенте предлагается использовать базу данных журнала поиска.
Лучевой поиск (Beam Search): Алгоритм поиска в дереве, который на каждом уровне сохраняет только ограниченное число наиболее вероятных путей (кандидатов). Упоминается в описании как способ эффективной генерации реалистичных опечаток.
Обучающая пара: Пара слов (Переформулированное слово, Исходное слово), используемая для обучения MLA. Делятся на положительные и отрицательные.
Оценка совместного появления: Частота, с которой данный символ следует за определенным префиксом (первыми n символами) в корпусе текста.
Оценка штрафа: Значение, корректирующее оценку совместного появления. Указывает на маловероятность того, что данный символ является последующим. Рассчитывается на основе физического расстояния между клавишами на раскладке клавиатуры. Близкие клавиши имеют меньший штраф.
Переформулированное слово (Обучающее слово): Синтетически сгенерированное слово, являющееся модификацией исходного слова. Используется для обучения MLA.
Положительное переформулированное слово: Слово, сгенерированное как наиболее вероятный вариант написания (включая правильное написание или реалистичную опечатку).
Отрицательное переформулированное слово: Слово, сгенерированное как маловероятный вариант написания (нереалистичная опечатка).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе обучения системы исправления ошибок, а не только на самом процессе исправления.

Claim 1 (Независимый пункт): Описывает процесс обучения MLA.

Получение первого слова из корпуса текста.
Выбор префикса (первых n символов).
Определение возможных последующих символов и расчет их значения оценки вероятности на основе совместного появления в корпусе.
Разделение возможных символов на два подмножества: наиболее вероятные (первое подмножество) и остальные (второе подмножество).
Генерация положительных переформулированных слов путем замены (n+1)-го символа на символы из первого подмножества. Формирование положительных обучающих пар с первой меткой. (Это реалистичные опечатки).
Генерация отрицательных переформулированных слов путем замены (n+1)-го символа на символы из второго подмножества. Формирование отрицательных обучающих пар со второй меткой. (Это нереалистичные опечатки).
Обучение MLA: Определение набора признаков для каждой обучающей пары и ранжирование пар на основе этих признаков.

Ядро изобретения — это автоматизированный способ генерации и разметки обучающих данных (положительных и отрицательных примеров опечаток) для обучения ранжирующей модели, которая будет использоваться для исправления ошибок ввода.

Claim 4 и 5 (Зависимые пункты): Уточняют расчет значения оценки вероятности.

Вероятность рассчитывается путем корректировки оценки совместного появления (частоты в корпусе) с помощью оценки штрафа. Оценка штрафа определяется на основе расстояния между клавишами на используемой по умолчанию раскладке клавиатуры.

Система явно моделирует физический процесс возникновения опечаток (близость клавиш) и ошибки раскладки, чтобы генерировать более реалистичные синтетические данные.

Claim 7 (Зависимый пункт): Уточняет признаки, используемые MLA.

Признаки включают: Признак URL (присутствие слов пары в URL из базы обходчика), Признак присутствия слова (присутствие слов пары на веб-ресурсах) и Признак выбора пользователем (частота выбора исправления пользователем на SERP).

Валидация корректности исправления основывается на данных краулинга (контент и структура веба) и агрегированных поведенческих данных.

Claim 9 (Независимый пункт): Описывает процесс использования (runtime) обученной системы.

Получение текстовой фразы с первым словом.
Генерация кандидатов (возможных слов) с использованием того же механизма расчета вероятностей (совместное появление + штрафы) и выбора наиболее вероятных символов.
Формирование возможных пар слов (Первое слово, Возможное слово).
Определение набора признаков для каждой пары.
Ранжирование пар с использованием MLA.
Формирование измененной текстовой фразы путем замены первого слова на возможное слово из пары с наибольшим рангом.

Где и как применяется

Изобретение применяется на ранних стадиях обработки поискового запроса.

QUERY PROCESSING – Понимание Запросов
Система применяется для исправления опечаток и ошибок раскладки клавиатуры во входном запросе пользователя до того, как запрос будет передан на этапы поиска и ранжирования.

Взаимодействие с компонентами системы:

Поисковая система (Search Engine): Принимает исходный запрос от пользователя и получает от системы исправления измененную текстовую фразу для выполнения поиска или предложения пользователю.
База данных журнала поиска (Search Log Database): Используется как корпус текста для расчета оценок совместного появления и как источник данных для Признака выбора пользователем.
База данных обходчика (Crawler Database): Используется для извлечения Признака URL и Признака присутствия слова.

Данные на входе и выходе:

Вход (Этап обучения): Корпус текста (логи запросов), данные обходчика, данные о взаимодействиях на SERP.
Выход (Этап обучения): Обученный алгоритм MLA (ранжирующая модель).
Вход (Этап использования): Текстовая фраза (поисковый запрос пользователя).
Выход (Этап использования): Измененная текстовая фраза (исправленный запрос).

На что влияет

Специфические запросы: Влияет на все типы запросов (информационные, коммерческие, навигационные), где могут возникать опечатки или ошибки раскладки. Особенно важно для запросов, содержащих редкие термины, имена собственные или бренды, где ошибка может критически изменить смысл.
Языковые и географические ограничения: Система учитывает географию через выбор «используемой по умолчанию раскладки клавиатуры» (например, QWERTY для США или ЙЦУКЕН для России) для расчета оценки штрафа.

Когда применяется

Алгоритм применяется при обработке поискового запроса пользователя. В патенте указано, что система может применяться для каждого слова в текстовой фразе. Также упоминается возможность использования словаря для предварительной фильтрации: исправлению подвергаются только слова, не найденные в словаре.

Пошаговый алгоритм

Процесс работы системы разделен на два этапа: Обучение и Использование.

Этап А: Обучение MLA (Офлайн)

Сбор данных: Получение слова из корпуса текста (например, логов запросов).
Инициализация генерации: Выбор первых n символов слова (префикса).
Итеративная генерация кандидатов (Лучевой поиск):
1. Для текущего префикса определяется набор возможных последующих символов.
2. Расчет Оценки совместного появления (частота в корпусе).
3. Расчет Оценки штрафа (на основе расстояния между клавишами на клавиатуре).
4. Расчет Значения оценки вероятности (комбинация совместного появления и штрафа).
5. Выбор Топ-К наиболее вероятных символов для продолжения генерации (расширение дерева поиска). Остальные символы отбрасываются.
6. Повторение до достижения конца слова.
Формирование обучающих данных:
1. Положительные примеры: Слова, полученные в результате лучевого поиска (реалистичные опечатки). Формируются пары (Реалистичная опечатка, Исходное слово) с положительной меткой.
2. Отрицательные примеры: Слова, сгенерированные с использованием отброшенных (маловероятных) символов. Формируются пары (Нереалистичная опечатка, Исходное слово) с отрицательной меткой.
Извлечение признаков: Для каждой обучающей пары рассчитывается набор признаков (URL, Присутствие слова, Выбор пользователем).
Обучение ранжирования: MLA обучается ранжировать пары на основе признаков и меток, чтобы предсказывать качество исправления.

Этап Б: Использование (Онлайн)

Получение запроса: Прием текстовой фразы от пользователя.
Генерация кандидатов: Для слова из запроса выполняется Лучевой поиск (аналогично Этапу А, шаги 2-3) для генерации набора возможных слов (кандидатов на исправление).
Формирование пар: Создание пар (Введенное слово, Кандидат).
Извлечение признаков: Расчет набора признаков для каждой пары.
Ранжирование: Применение обученного MLA для ранжирования пар.
Выбор исправления: Выбор кандидата из пары с наибольшим рангом.
Применение: Формирование измененной текстовой фразы и ее использование для поиска или предложения пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Тексты поисковых запросов из логов (Корпус текста).
- Контент веб-ресурсов из базы данных обходчика. Используется для расчета Признака присутствия слова (частота появления слов на веб-ресурсах).
Технические факторы (Структурные):
- URL-адреса из базы данных обходчика. Используются для расчета Признака URL (присутствие слов в URL).
Поведенческие факторы:
- Действия пользователя на SERP, хранящиеся в базе данных журнала поиска. В частности, данные о выборе пользователем предложенного поискового запроса (исправления). Используются для расчета Признака выбора пользователем.
Системные данные:
- Модели раскладок клавиатуры (используемая по умолчанию раскладка). Используются для расчета Оценки штрафа.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик для генерации кандидатов и их ранжирования.

Метрики для генерации кандидатов (Лучевой поиск):

Оценка совместного появления: Рассчитывается как частота появления символа после заданного префикса в корпусе текста (логах запросов).
Оценка штрафа: Рассчитывается на основе физического расстояния между клавишей фактического символа и клавишей возможного символа на стандартной раскладке клавиатуры. Если символ отсутствует на раскладке, назначается постоянное значение штрафа.
Значение оценки вероятности: Комбинация двух предыдущих метрик. В патенте указано, что она может соответствовать значению оценки совместного появления, уменьшенному на значение оценки штрафа.

Признаки для ранжирования (MLA):

Признак универсального указателя ресурсов (URL): Метрика, связанная с частотой обнаружения обучающего слова (опечатки) и исходного слова (исправления) в URL-адресах, хранящихся в базе данных обходчика.
Признак присутствия слова: Метрика, указывающая на частоту появления обучающего слова и исходного слова на веб-ресурсах (упоминается Wikipedia как пример).
Признак выбора пользователем: Метрика, основанная на данных из логов поиска, указывающая, как часто пользователи выбирали предложенное исправление (исходное слово) после ввода опечатки (обучающего слова), и наоборот.

Алгоритмы машинного обучения:

Используется MLA для обучения ранжированию на основе вышеуказанных признаков и автоматически сгенерированных меток (положительных/отрицательных).

Выводы

Автоматизация обучения систем исправления ошибок: Ключевая ценность патента — в методе автоматической генерации и разметки обучающих данных для MLA, что устраняет необходимость в ручном труде и поддержке больших словарей опечаток.
Моделирование реалистичных опечаток: Яндекс использует комбинированный подход для генерации кандидатов, учитывающий как статистику языка (частотность в логах запросов), так и физические ограничения ввода (модель клавиатуры и расстояние между клавишами). Это позволяет системе одновременно исправлять и опечатки, и ошибки раскладки.
Валидация слов через Веб и Поведение: Патент раскрывает три ключевых типа признаков, используемых для ранжирования исправлений. Это подтверждает, что Яндекс валидирует существование и релевантность терминов через их присутствие в URL, в контенте авторитетных веб-ресурсов и через агрегированное поведение пользователей (выбор исправлений на SERP).
Инфраструктурный фокус: Патент описывает процессы предобработки запроса. Он не содержит прямой информации об алгоритмах ранжирования документов.

Практика

Best practices (это мы делаем)

Хотя патент в основном инфраструктурный и направлен на улучшение внутренних процессов Яндекса (Query Processing), извлеченные из него инсайты о признаках валидации слов могут быть использованы в SEO-стратегии.

Использование ЧПУ (Человекопонятных URL): Признак URL используется для валидации корректности слова. Это подтверждает важность включения ключевых терминов (названий продуктов, категорий, тем) в структуру URL. Чистые и описательные URL помогают поисковой системе подтвердить релевантность и правильность используемых терминов.
Обеспечение присутствия на авторитетных ресурсах (Entity Validation): Признак присутствия слова рассчитывается на основе наличия терминов на веб-ресурсах (упомянута Wikipedia). Это подчеркивает важность стратегий по управлению присутствием бренда и ключевых сущностей (продуктов, авторов) на внешних авторитетных площадках, в справочниках и энциклопедиях.
Мониторинг орфографии и брендовых запросов: Понимание того, что система активно исправляет опечатки, позволяет фокусироваться на основном интенте, но также важно отслеживать частые ошибки в написании бренда. Если пользователи часто ищут бренд с ошибкой и принимают исправление Яндекса (Признак выбора пользователем), это положительный сигнал для системы.

Worst practices (это делать не надо)

Оптимизация под опечатки (Typosquatting): Создание страниц, оптимизированных под распространенные опечатки или неправильные раскладки, неэффективно. Система, описанная в патенте, предназначена для автоматического исправления таких запросов до того, как произойдет ранжирование.
Использование сложных или нечитаемых URL: Использование URL с параметрами или техническими идентификаторами вместо ключевых слов снижает потенциальную пользу от Признака URL для валидации терминов, связанных с сайтом.
Игнорирование внешнего присутствия: Фокусировка исключительно на собственном сайте без работы над упоминаниями на внешних авторитетных ресурсах может затруднить для Яндекса валидацию новых или нишевых терминов.

Стратегическое значение

Патент подтверждает стратегию Яндекса на максимальную автоматизацию внутренних процессов и использование машинного обучения на всех этапах обработки запроса. Для SEO стратегическое значение заключается в подтверждении того, что данные краулинга (URL и контент) и поведенческие данные используются не только для ранжирования, но и для базовых задач понимания языка, таких как исправление опечаток. Это укрепляет понимание важности комплексного подхода: техническая оптимизация (URL), контент (присутствие терминов) и поведение пользователей взаимосвязаны.

Практические примеры

Сценарий: Валидация нового термина через URL и контент

Задача: Компания выводит на рынок новый продукт с уникальным названием, например, «Квадрослайсер». Пользователи часто ошибаются и вводят «Квадрослайзер».
Действия SEO-специалиста:
- Создать страницу продукта с URL: `site.ru/catalog/kvadroslayser/`.
- Обеспечить упоминание термина «Квадрослайсер» на внешних авторитетных площадках (обзоры, маркетплейсы, возможно, отраслевые справочники).
Работа системы (на основе патента): Когда пользователь вводит «Квадрослайзер», система генерирует кандидата «Квадрослайсер». При ранжировании этой пары MLA анализирует признаки.
- Признак URL будет высоким, так как «Квадрослайсер» присутствует в URL.
- Признак присутствия слова будет высоким, так как термин есть на внешних ресурсах.
Результат: MLA присваивает паре высокий ранг, и Яндекс уверенно исправляет запрос пользователя, направляя его на релевантную выдачу.

Вопросы и ответы

Что такое «реалистичные опечатки» и как Яндекс их генерирует?

Реалистичные опечатки (в патенте — положительные переформулированные слова) — это синтетически созданные варианты написания слова, которые с высокой вероятностью могут быть введены пользователем из-за опечатки или ошибки раскладки. Яндекс генерирует их с помощью лучевого поиска, оценивая вероятность каждого символа на основе двух факторов: частоты его появления после префикса в логах запросов (Оценка совместного появления) и физической близости клавиш на клавиатуре (Оценка штрафа).

Зачем Яндекс генерирует обучающие данные автоматически?

Основная цель — повысить эффективность и снизить затраты. Создание и поддержка огромных баз данных опечаток и их исправлений вручную требует значительных ресурсов (времени асессоров, вычислительных мощностей, памяти). Автоматическая генерация и разметка данных (на положительные и отрицательные примеры) позволяет обучать систему машинного обучения (MLA) быстрее и дешевле.

Какие признаки использует MLA для определения лучшего исправления?

Патент выделяет три основных типа признаков для ранжирования потенциальных исправлений: 1) Признак URL (присутствие слов в URL-адресах из индекса); 2) Признак присутствия слова (наличие слов в контенте веб-ресурсов, например, в Wikipedia); 3) Признак выбора пользователем (как часто пользователи принимают это исправление на SERP). Это ключевые сигналы валидации терминов.

Влияет ли этот патент напрямую на ранжирование моего сайта?

Напрямую нет. Патент описывает систему исправления запроса (Query Processing), а не ранжирования документов (Ranking). Однако он влияет косвенно: если запрос пользователя будет исправлен некорректно, он увидит нерелевантную выдачу. Правильное понимание запроса системой — это первый шаг к получению трафика.

Подтверждает ли этот патент важность использования ключевых слов в URL?

Да, подтверждает. В патенте явно указан «Признак URL» как один из факторов, используемых MLA для оценки качества исправления. Если система видит, что предлагаемое исправление часто встречается в URL-адресах в индексе Яндекса, это повышает ее уверенность в корректности этого слова. Это подчеркивает важность использования ЧПУ для SEO.

Как система учитывает разные раскладки клавиатуры?

Система использует «Оценку штрафа», основанную на модели «используемой по умолчанию раскладки клавиатуры». Она рассчитывает физическое расстояние между клавишами. Если символ присутствует на раскладке, штраф зависит от расстояния (ближе — меньше штраф). Если символ отсутствует (например, из другой языковой раскладки), назначается постоянное значение штрафа. Это позволяет моделировать как опечатки, так и ввод в неверной раскладке.

Что такое «Оценка совместного появления»?

Это статистическая мера, основанная на анализе корпуса текста (в данном случае — логов поисковых запросов). Она показывает, как часто определенный символ встречается после заданного префикса (начала слова). Например, насколько часто после «ар» следует буква «б» по сравнению с буквой «р» в исторических данных поиска.

Использует ли Яндекс данные о моем сайте для обучения этой системы?

Да, косвенно. Система использует данные из «Базы данных обходчика» (ваш URL и контент) для расчета признаков URL и Присутствия слова. Также она использует логи запросов, по которым пользователи переходили на ваш сайт, и их поведение на SERP (Признак выбора пользователем).

Стоит ли оптимизировать контент под запросы с опечатками?

На основе этого патента — нет. Система активно работает над тем, чтобы исправить опечатки до этапа ранжирования. Фокусироваться следует на правильном написании и обеспечении того, чтобы система могла валидировать эти правильные термины через URL, внешний авторитетный контент и поведение пользователей.

Что такое лучевой поиск (Beam Search) в контексте этого патента?

Это алгоритм, используемый для эффективной генерации кандидатов на исправление. Вместо того чтобы рассматривать все возможные комбинации символов (что вычислительно дорого), лучевой поиск на каждом шаге (для каждой буквы) сохраняет только Топ-К наиболее вероятных вариантов, основываясь на оценке вероятности. Это позволяет быстро найти наиболее реалистичные варианты написания.