Как Яндекс исправляет опечатки в новых или редких запросах, используя историю похожих запросов

Яндекс патентует метод исправления опечаток в запросах, которые система видит впервые (проблема «холодного старта»). Если для нового запроса нет истории, система находит похожий редкий запрос в логах («приближенный запрос») и использует его прошлые исправления (трансформации) как основу для генерации вариантов исправления для нового запроса.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» (cold start problem) в системах исправления опечаток (spell correction). Традиционные методы, основанные на анализе поисковых логов, полагаются на исторические данные о том, как пользователи переформулировали запросы (предыдущие преобразования). Однако эти методы неэффективны для новых, редких или ранее не встречавшихся запросов с опечатками, так как для них история отсутствует. Изобретение направлено на автоматическое создание заменяющего запроса (исправленной версии) даже при полном отсутствии исторических данных по конкретному введенному запросу.

Что запатентовано

Запатентован метод и система для генерации заменяющего запроса для нового или редкого запроса путем аппроксимации его потенциальной истории. Суть изобретения заключается в поиске «запроса-посредника» в исторических логах — так называемого приближенного запроса (Approximate Query). Этот приближенный запрос должен быть текстуально похож на исходный запрос и иметь низкую частоту использования. Исторические данные о том, как этот приближенный запрос ранее исправлялся, используются в качестве прокси для исправления нового запроса.

Как это работает

Когда поступает новый запрос без истории, система сначала ищет кандидатов на замену среди прошлых запросов, используя метрики сходства строк (например, расстояние Левенштейна). Затем из этих кандидатов выбирается приближенный запрос — тот, который одновременно похож на исходный и редко использовался. Система анализирует, как этот приближенный запрос исторически трансформировался в другие запросы-кандидаты, и создает векторы свойств (Feature Vectors), описывающие эти трансформации. Эти векторы используются как оценка (приближенный вектор свойств) для исходного запроса. Наконец, алгоритм машинного обучения (MLA) ранжирует эти векторы, чтобы определить наиболее вероятный заменяющий запрос.

Актуальность для SEO

Средняя. Исправление опечаток и обработка редких запросов остаются фундаментальными задачами для любой поисковой системы. Описанный метод использования прокси-запросов для решения проблемы «холодного старта» логичен и может применяться как часть гибридной системы. Однако современные системы также активно используют продвинутые нейросетевые методы для генерации исправлений, которые могут снижать зависимость от явного поиска приближенных запросов в логах.

Важность для SEO

Влияние на SEO низкое (3/10). Патент описывает внутренние механизмы обработки и исправления запросов (Query Processing), а не ранжирования документов. Он не дает прямых рекомендаций по оптимизации контента или сайта. Его значение для SEO заключается в понимании того, как Яндекс стремится понять намерение пользователя даже при наличии ошибок ввода в редких или новых запросах, гарантируя, что пользователь увидит выдачу по корректному интенту.

Детальный разбор

Термины и определения

Введенный пользователем запрос (User Input Query): Исходный запрос, введенный пользователем. В контексте патента предполагается, что он никогда ранее не использовался в системе (новый или очень редкий) и потенциально содержит ошибку.
Заменяющий запрос (Replacement Query): Конечный результат работы системы; исправленная версия введенного пользователем запроса.
Заменяющие запросы-кандидаты (Replacement Query Candidates): Набор прошлых запросов, выбранных из логов на основе сходства строк с введенным запросом. Являются потенциальными исправлениями.
Приближенный запрос (Approximate Query): Ключевое понятие патента. Запрос из числа кандидатов, который (i) текстуально похож на введенный запрос и (ii) имеет низкую частоту использования. Он используется как прокси (посредник) для аппроксимации истории введенного запроса.
Сходство строк (String Similarity): Метрика, оценивающая текстуальную близость двух запросов.
Редакционное расстояние / Расстояние Левенштейна (Edit Distance / Levenshtein Distance): Конкретный тип метрики сходства строк, используемый для поиска кандидатов и приближенных запросов. Измеряет минимальное количество односимвольных правок (вставка, удаление, замена), необходимых для преобразования одной строки в другую.
Частота использования (Frequency of Use): Статистический показатель того, как часто прошлый запрос вводился в систему. Является критерием для выбора Приближенного запроса (предпочтение отдается низкой частоте),.
Данные о взаимозависимости прошлых запросов (Past Query Interdependency Data): Исторические данные из логов поисковых сессий, указывающие на предыдущие преобразования (трансформации) между парами прошлых запросов (например, пользователь ввел запрос А, затем сразу переформулировал его в запрос Б).
Вектор свойств (Feature Vector): Численное представление, описывающее взаимосвязь между парой запросов (например, между Приближенным запросом и Кандидатом). Включает данные о предыдущих преобразованиях, сходстве форм и т.д..
Приближенный вектор свойств (Proximate/Approximate Feature Vector): Вектор свойств, созданный для пары (Приближенный запрос, Кандидат), который используется как оценка (аппроксимация) вектора свойств для пары (Введенный запрос, Кандидат).
Область допустимого приближения гипотезы (Hypothesis Approximation Region): Область на графике «Сходство строк» vs «Частота использования», ограниченная пороговыми значениями. Кандидаты, попадающие в эту область, считаются допустимыми Приближенными запросами.
Алгоритм машинного обучения (MLA): Алгоритм (например, линейное ранжирование), используемый для оценки Приближенных векторов свойств и определения вероятности того, что соответствующий кандидат является правильной заменой.

Ключевые утверждения (Анализ Claims)

Патент защищает метод решения проблемы отсутствия исторических данных для исправления нового запроса путем использования истории похожего запроса.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы для запроса, который никогда ранее не использовался.

Выбор набора заменяющих запросов-кандидатов из прошлых запросов на основе сходства строк с введенным запросом.
Извлечение исторических данных (данные о взаимозависимости) о том, как эти кандидаты ранее трансформировались друг в друга. (Важно: данных о трансформации введенного запроса нет).
Выбор приближенного запроса из числа кандидатов. Критерии выбора: (i) сходство строк с введенным запросом И (ii) частота использования (предпочтительно низкая, согласно описанию).
Для каждой пары (Приближенный запрос, Кандидат) создается вектор свойств, основанный на исторических данных о трансформации между ними.
Критический шаг: Этот вектор свойств используется как приближенный вектор свойств для пары (Введенный запрос, Кандидат). То есть, история приближенного запроса используется как оценка истории введенного запроса.
Создание параметра ранжирования для каждого приближенного вектора свойств (например, с помощью MLA).
Определение финального заменяющего запроса на основе этих параметров ранжирования.

Claim 2 (Зависимый от п.1): Описывает сценарий с несколькими приближенными запросами.

Если выбрано более одного приближенного запроса.
Векторы свойств создаются для каждого из них по отношению к данному кандидату.
Эти векторы объединяются (например, усредняются) в объединенный вектор свойств.
Этот объединенный вектор используется как приближенный вектор свойств для ранжирования.

Где и как применяется

Изобретение применяется на ранних стадиях обработки запроса, до этапа основного поиска и ранжирования документов.

QUERY PROCESSING – Понимание Запросов

Идентификация проблемы: На этом этапе система определяет, что входящий запрос является новым (отсутствует в логах) и потенциально содержит ошибку (например, отсутствует в словаре). Это является триггером для активации описанного механизма.
Исправление запроса (Query Correction/Reformulation): Весь описанный алгоритм выполняется здесь. Система взаимодействует с базой данных журнала запросов (База 270) для извлечения прошлых запросов, частот и данных о взаимозависимости. Также используется обученная модель MLA для ранжирования кандидатов.
Данные на входе: Введенный пользователем запрос (текстовая строка).
Данные на выходе: Заменяющий запрос (исправленная текстовая строка), который затем передается на следующие этапы поиска (Ranking).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на «длинный хвост» (long-tail), редкие запросы, новые тренды или запросы со сложной терминологией, где вероятность опечаток выше и история использования отсутствует.
Типы контента и Ниши: Влияет на все типы контента и ниши в равной степени, поскольку механизм работает на уровне обработки текста запроса.

Когда применяется

Условия работы и Триггеры активации: Алгоритм активируется при выполнении двух условий,:
1. Введенный запрос никогда ранее не использовался (отсутствует в базе 270 данных журнала запросов).
2. Введенный запрос потенциально введен с ошибкой (например, отсутствует в базе 275 данных словаря).
Частота применения: Применяется в реальном времени при обработке запросов, удовлетворяющих условиям активации (т.е. для обработки проблемы «холодного старта»).

Пошаговый алгоритм

Процесс создания заменяющего запроса для нового запроса с потенциальной ошибкой.

Получение и Валидация запроса: Система получает запрос и определяет, что он новый и потенциально содержит ошибку-[88].
Выбор кандидатов (Candidate Selection):
1. Вычисление редакционного расстояния (например, Левенштейна) между введенным запросом и множеством прошлых запросов из логов.
2. Выбор Топ-N наиболее похожих запросов как заменяющих запросов-кандидатов.
Извлечение исторических данных: Для набора кандидатов извлекаются данные о взаимозависимости (история трансформаций между ними) и частоты использования.
Выбор Приближенного Запроса (Approximate Query Selection):
1. Оценка кандидатов по двум осям: Сходство строк с введенным запросом и Частота использования.
2. Определение Области допустимого приближения гипотезы (высокое сходство, низкая частота).
3. Выбор одного или нескольких кандидатов, попавших в эту область, в качестве Приближенных запросов,.
Создание Векторов Свойств (Feature Vector Generation):
1. Для каждой пары (Приближенный запрос, Кандидат) создается вектор свойств, описывающий их исторические трансформации-[134].
2. Если Приближенных запросов несколько (Сценарий 2), векторы для одного и того же Кандидата объединяются (например, усредняются) в единый объединенный вектор свойств.
Аппроксимация и Ранжирование:
1. Созданные векторы используются как Приближенные векторы свойств для введенного запроса,.
2. Применение MLA (например, линейного ранжирования) для создания параметра ранжирования для каждого приближенного вектора.
Определение Замены: Выбор Кандидата с наивысшим параметром ранжирования в качестве финального Заменяющего запроса.

Какие данные и как использует

Данные на входе

Контентные факторы (Текстовые): Текст введенного пользователем запроса. Тексты прошлых запросов из логов. Используются для расчета сходства строк.
Поведенческие факторы (Исторические): Критически важные данные из базы данных журнала запросов (База 270):
- Частота использования прошлых запросов. Критически важна для выбора Приближенного запроса.
- Данные о взаимозависимости прошлых запросов (предыдущие преобразования/трансформации) — информация о том, как пользователи меняли один запрос на другой в рамках сессии (явное исправление) или взаимодействовали с результатами по исправленному системой запросу (неявное исправление). Это основа для Векторов свойств.
- Данные о кликах (Click Data): Упоминаются как часть данных, связанных с прошлыми запросами, и могут входить в состав Вектора свойств.
Лексические данные: Данные из Базы данных словаря (База 275) для проверки, являются ли слова устоявшимися в языке.

Какие метрики используются и как они считаются

Редакционное расстояние (Edit Distance): Используется для измерения Сходства строк. Основной метрикой названо Расстояние Левенштейна (Levenshtein Distance). Также упомянуты как возможные: LCS, расстояние Хэмминга, Дамерау-Левенштейна, Джаро.
Вектор свойств (Feature Vector): Рассчитывается на основе данных о взаимозависимости, данных о кликах. Также может включать другие свойства: сходство фонетических форм, сходство внешних форм, словарные свойства.
Пороговые значения: Используются на двух этапах:
1. Для выбора кандидатов (максимальное редакционное расстояние или выбор Топ-N).
2. Для определения Области допустимого приближения гипотезы (пороговые линии частоты использования и сходства строк).
Объединение векторов: Если выбрано несколько Приближенных запросов, их векторы объединяются путем вычисления Усредненного вектора или Среднего вектора (Mediate vector).
Алгоритм машинного обучения (MLA): Обученный алгоритм (упоминается Линейное ранжирование) используется для расчета финального Параметра ранжирования на основе Векторов свойств.

Выводы

Решение проблемы «холодного старта» для опечаток: Патент предлагает конкретный механизм для исправления опечаток в запросах, по которым нет никакой статистики (новые, редкие), что позволяет улучшить качество поиска по «длинному хвосту».
Концепция «Приближенного запроса» (Proxy): Ядром изобретения является идея использования истории известного, похожего запроса в качестве заместителя (прокси) для неизвестного запроса. Это позволяет переносить знания о поведении пользователей.
Критерии выбора прокси: Важно, что Приближенный запрос должен быть не только текстуально похож (малое расстояние Левенштейна), но и иметь схожую (низкую) частоту использования. Гипотеза состоит в том, что редкие запросы имеют схожие паттерны преобразований.
Зависимость от исторических данных: Эффективность системы напрямую зависит от качества и объема накопленных данных о поведении пользователей (преобразованиях запросов) в логах Яндекса.
Инфраструктурное значение: Это улучшение инфраструктуры Понимания Запросов (Query Processing), а не изменение факторов ранжирования. Для SEO это значит, что Яндекс лучше понимает пользователей, но не меняет принципы оценки сайтов.

Практика

Best practices (это мы делаем)

Этот патент носит инфраструктурный характер и предлагает ограниченное количество прямых рекомендаций для SEO-специалистов, так как он сфокусирован на интерпретации ошибок ввода, а не на ранжировании контента.

Оптимизация под низкочастотные и long-tail запросы: Продолжайте прорабатывать точные низкочастотные запросы, включая уникальные названия товаров и узкоспециализированные термины. Этот патент подтверждает, что Яндекс обладает сложными механизмами для исправления опечаток даже в самых редких запросах, что повышает вероятность привода трафика на ваш контент, несмотря на ошибки пользователей при вводе.
Обеспечение корректности написания ключевых терминов и брендов: Убедитесь, что на сайте используется каноническое (правильное) написание ключевых терминов и брендов. Это гарантирует соответствие вашего контента тем заменяющим запросам (исправленным версиям), которые генерирует Яндекс.

Worst practices (это делать не надо)

Тайпсквоттинг (Typosquatting) и ориентация на опечатки: Создание контента или доменов, ориентированных на то, что пользователи будут вводить запросы с ошибками (Misspelling SEO), становится еще менее эффективным. Системы, подобные описанной, активно работают над тем, чтобы направить пользователя к авторитетному результату по правильно написанному запросу.

Стратегическое значение

Патент подтверждает инвестиции Яндекса в понимание «длинного хвоста» и сложных, редких запросов. Он снижает барьер для пользователей при поиске авторитетной информации, даже если они допускают ошибки ввода. Для долгосрочной SEO-стратегии это подчеркивает важность того, чтобы сайт был авторитетным ответом на ПРЕДПОЛАГАЕМЫЙ (правильный) интент пользователя, так как система будет стремиться исправить ошибку и показать именно его.

Практические примеры

Сценарий: Исправление редкого термина (на основе примера из патента-[146])

Введенный запрос (Новый, статистики нет): «oligopsony».
Действие системы: Система ищет похожие запросы в логах. Находит кандидатов: «oligophsony» (расстояние 1), «oligospoony» (2), «oligopoly» (2), «oligophrenia» (5).
Выбор Приближенного запроса: Система определяет, что запрос «oligophsony» текстуально очень близок и также имеет низкую частоту использования. Он выбирается как Приближенный запрос.
Анализ истории Приближенного запроса: Система проверяет логи и видит, что пользователи, которые искали «oligophsony», часто затем исправляли его на «oligopoly».
Перенос истории и Ранжирование: Система использует эту историческую связь («oligophsony» -> «oligopoly») как оценку для исходного запроса («oligopsony» -> «oligopoly»). MLA дает этой паре высокий скор.
Результат: Система определяет «oligopoly» как Заменяющий запрос для введенного «oligopsony».

Вопросы и ответы

Что такое «Приближенный запрос» (Approximate Query) и почему он так важен в этом патенте?

Приближенный запрос — это запрос из исторических логов, который используется как заместитель (прокси) для нового запроса, у которого нет истории. Он выбирается по двум критериям: высокая текстуальная схожесть и низкая частота использования. Это ключевое понятие патента, так как оно позволяет использовать историю трансформаций приближенного запроса для предсказания того, как должен быть исправлен новый запрос.

Какую проблему «холодного старта» решает этот патент?

В контексте исправления орфографии проблема «холодного старта» возникает, когда вводится новый или очень редкий запрос с опечаткой. Поскольку в логах нет истории о том, как пользователи ранее исправляли этот конкретный запрос, стандартные алгоритмы не могут предложить качественную замену. Этот патент решает проблему, находя похожий запрос с известной историей и используя его данные.

Почему для выбора Приближенного запроса важна низкая частота использования?

Исходный запрос является новым (частота ноль). Гипотеза патента состоит в том, что паттерны исправления редких запросов схожи между собой. Если бы система выбрала в качестве приближенного очень популярный запрос, его история исправлений могла бы не соответствовать поведению пользователей, вводящих редкий термин. Поэтому система ищет прокси среди запросов со схожей популярностью.

Что такое «Данные о взаимозависимости прошлых запросов»?

Это информация из логов поисковых сессий, которая указывает на «предыдущие преобразования» запросов. Проще говоря, это записи о том, что пользователь ввел запрос А, а затем в рамках той же сессии переформулировал его в запрос Б (явное исправление) или согласился с исправлением, предложенным системой (неявное исправление).

Как система определяет, какие запросы похожи?

Для измерения текстуальной схожести используется метрика Редакционного расстояния (Edit Distance), в частности, упоминается Расстояние Левенштейна. Это подсчет минимального количества вставок, удалений и замен символов, необходимых для превращения одного запроса в другой. Чем меньше расстояние, тем больше похожи запросы.

Что такое «Вектор свойств» в контексте этого патента?

Это численное представление взаимосвязи между двумя запросами. Он кодирует информацию об их исторических трансформациях, частоте использования, а также может включать данные о фонетическом и внешнем сходстве. Этот вектор используется алгоритмом машинного обучения (MLA) для определения вероятности правильного исправления.

Может ли система использовать несколько Приближенных запросов?

Да, патент описывает такой сценарий (Claim 2, Сценарий 2). Если найдено несколько подходящих Приближенных запросов, система анализирует историю каждого из них. Затем Векторы свойств, полученные от разных Приближенных запросов, объединяются (например, усредняются или берется медиана) в единый вектор для более точной оценки.

Влияет ли этот алгоритм на ранжирование моего сайта?

Напрямую на формулу ранжирования он не влияет. Это алгоритм предобработки запроса (Query Processing). Однако косвенно он влияет на то, по какому именно запросу будет сформирована выдача. Если пользователь допустил опечатку в названии вашего бренда или продукта, этот алгоритм поможет показать ему выдачу по правильному названию, где ваш сайт должен ранжироваться высоко.

Стоит ли мне оптимизировать сайт под запросы с опечатками (Misspelling SEO)?

Нет, это неэффективная тактика. Системы, подобные описанной в патенте, как раз направлены на то, чтобы исправлять опечатки и показывать пользователю качественную выдачу по правильному запросу. Фокусируйтесь на оптимизации под корректные ключевые слова и интенты.

Какой алгоритм машинного обучения (MLA) используется для ранжирования исправлений?

В патенте упоминается использование MLA, обученного на исторических данных. В качестве конкретного примера приводится «линейное ранжирование» (Linear Ranking). Это модель, которая вычисляет итоговый балл как взвешенную сумму признаков из Вектора свойств.