Как Яндекс исправляет опечатки в новых или редких запросах, используя данные похожих запросов-прокси

Яндекс патентует метод исправления опечаток для запросов, которые система видит впервые. Поскольку статистики для нового запроса нет, система находит похожий по написанию и также редкий запрос в истории (запрос-прокси). Исторические данные о том, как пользователи исправляли этот прокси-запрос, используются для предсказания правильного написания новой опечатки.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» для систем исправления опечаток (Spell Correction). Традиционные системы полагаются на логи поиска (search logs), фиксирующие, как пользователи ранее исправляли конкретную опечатку. Однако, если пользователь вводит запрос с опечаткой, который никогда ранее не встречался (never been used) или встречается крайне редко, исторических данных для его исправления нет. Изобретение предлагает механизм для генерации исправленного запроса (Replacement Query) в условиях полного отсутствия статистики.

Что запатентовано

Запатентован метод генерации замещающего запроса для новых и потенциально ошибочных запросов путем аппроксимации их поведения. Суть изобретения заключается в поиске «запроса-прокси» (называемого Approximated Query) в истории поиска. Этот прокси должен одновременно быть (а) максимально похожим по написанию (string similarity) на новый запрос и (б) также редко используемым (low usage frequency). История исправлений запроса-прокси используется для оценки вероятных исправлений нового запроса.

Как это работает

Когда система получает новый запрос без статистики, она ищет кандидатов на исправление на основе строковой близости. Затем она идентифицирует Approximated Query (прокси) — кандидата, который похож на исходный запрос и также является редким. Система анализирует, как этот прокси исторически исправлялся пользователями (past-query-interdependence data). Предполагается, что новый запрос будет исправляться так же, как и его прокси. Эти данные о переходах используются для генерации векторов признаков, которые затем ранжируются (MLA) для выбора наилучшего исправления.

Актуальность для SEO

Высокая. Обработка новых, редких и длиннохвостых запросов, включая их корректное написание, остается фундаментальной задачей для поисковых систем. Описанный механизм аппроксимации поведения для решения проблемы нехватки данных актуален для улучшения качества поиска.

Важность для SEO

Влияние на SEO умеренное (4/10). Этот патент описывает внутренние механизмы этапа Понимания Запросов (Query Processing), а не ранжирования. Он не вводит новых факторов ранжирования. Однако он важен для понимания того, как Яндекс обрабатывает опечатки в сложных, новых или редких терминах (например, названия брендов, продуктов). Система стремится прозрачно исправить ошибку пользователя, что делает стратегию продвижения по запросам с опечатками неэффективной.

Детальный разбор

Термины и определения

Approximated Feature Vector (Аппроксимированный вектор признаков): Вектор признаков, основанный на исторических переходах Approximated Query. Используется в качестве оценки (прокси) для вектора признаков нового запроса (которого не существует).
Approximated Query (Аппроксимированный запрос / Запрос-прокси): Запрос из числа кандидатов, который выбран в качестве прокси для нового запроса. Критерии выбора: высокая строковая схожесть с новым запросом И низкая частота использования (редкость).
Consolidated Feature Vector (Консолидированный вектор признаков): Вектор, полученный путем объединения (например, усреднения) векторов признаков от нескольких запросов-прокси (используется, если найдено более одного подходящего прокси).
Edit Distance / Levenshtein Distance (Расстояние редактирования / Расстояние Левенштейна): Метрики для количественной оценки String Similarity между двумя строками. Определяют минимальное количество операций (вставка, удаление, замена символа), необходимых для преобразования одной строки в другую.
Past-query-interdependence data (Данные о взаимозависимости прошлых запросов): Исторические данные из логов поиска, указывающие на переходы (past transitions) между парами запросов в рамках пользовательских сессий.
Replacement candidate queries (Кандидаты на замещающий запрос): Набор прошлых запросов, выбранных из логов на основе их строковой схожести с новым запросом.
Usage Frequency (Частота использования): Показатель того, как часто запрос ранее использовался в поисковой системе. Ключевой критерий для выбора запроса-прокси.
User-entered query (Введенный пользователем запрос): Исходный запрос, который система никогда ранее не видела (never been used) и который потенциально содержит ошибку (potentially erroneously entered).

Ключевые утверждения (Анализ Claims)

Патент описывает систему коррекции запросов, специально предназначенную для ситуаций, когда отсутствует история использования введенного запроса.

Claim 1 (Независимый пункт): Описывает основной метод генерации замещающего запроса для нового запроса.

Выбор набора кандидатов на замену из прошлых запросов на основе строковой схожести (string similarity) с новым запросом.
Извлечение исторических данных о переходах (past-query-interdependence data) между этими кандидатами. (Важно: данных о переходах от нового запроса нет).
Выбор Approximated Query (прокси) из числа кандидатов. Выбор основан на двух критериях: (i) строковая схожесть с новым запросом и (ii) частота использования (usage frequency). (Система ищет похожий И редкий запрос).
Генерация векторов признаков (feature vector) для пар, состоящих из Approximated Query и каждого из кандидатов, на основе исторических переходов между ними.
Ключевой шаг: Использование этих векторов в качестве Approximated Feature Vectors. Они представляют собой оценку предполагаемых переходов между новым запросом и кандидатами. (История прокси используется вместо истории нового запроса).
Генерация параметра ранжирования для каждого Approximated Feature Vector, указывающего на вероятность исправления.
Определение замещающего запроса на основе параметров ранжирования.

Claim 2 (Зависимый пункт): Описывает сценарий, когда выбирается более одного Approximated Query.

Если система находит несколько подходящих прокси-запросов:

Векторы признаков генерируются для каждого из них.
Эти векторы консолидируются (consolidating) в единый Consolidated Feature Vector.
Этот консолидированный вектор используется как финальный Approximated Feature Vector.

Claim 8 (Зависимый пункт): Уточняет метод консолидации.

Консолидация векторов может выполняться путем вычисления среднего вектора (mean vector) или усредненного вектора (average vector).

Где и как применяется

Изобретение применяется на ранних этапах обработки поискового запроса.

QUERY PROCESSING – Понимание Запросов
Алгоритм является частью подсистемы исправления опечаток (Spell Correction). Он активируется, когда система получает запрос и определяет, что он (а) потенциально содержит ошибку и (б) является новым или крайне редким (отсутствует в логах поиска).

Взаимодействие с компонентами:

Query Log Database: Система активно использует базу логов для получения списка прошлых запросов, их частот (usage frequency) и данных о взаимозависимости/переходах (past-query-interdependence data).
Lexicon Database: Может использоваться на предварительном этапе для определения того, является ли введенный запрос известным словом (и, следовательно, потенциально ошибочным, если он не найден).
Ranking System (MLA): На финальном этапе используется обученная модель (в патенте упоминается linear ranker) для оценки сгенерированных Approximated Feature Vectors и выбора лучшей замены.

Входные данные: Новый, потенциально ошибочный запрос (User-entered query).

Выходные данные: Замещающий запрос (Replacement Query), который передается на этап RANKING.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на редкие, новые (например, трендовые термины), длиннохвостые (long-tail) запросы, а также запросы, содержащие имена собственные, названия брендов или технические термины, в которых часто допускаются ошибки.
Типы контента: Влияет на все типы контента, так как обеспечивает правильное понимание запроса до начала ранжирования.

Когда применяется

Алгоритм применяется при выполнении строгих условий (механизм обработки исключений):

Запрос идентифицирован как потенциально ошибочный.
Запрос является новым или очень редким — в логах отсутствует история его использования и переходов от него к другим запросам (Cold Start).

Пошаговый алгоритм

Получение и анализ запроса: Система получает новый запрос (Q_new) и определяет, что он новый и потенциально ошибочный.
Выбор кандидатов: Система ищет в логах прошлые запросы и вычисляет строковую схожесть (например, Levenshtein distance). Отбирается набор Replacement candidate queries.
Извлечение данных: Для кандидатов извлекаются их частоты использования (usage frequency) и история переходов (past-query-interdependence data).
Выбор Аппроксимированного Запроса (Прокси): Каждый кандидат оценивается по двум параметрам: схожесть и частота. Система выбирает один или несколько Approximated Queries, которые находятся в допустимой зоне аппроксимации (acceptable approximation hypothesis region) — высокая схожесть И низкая частота.
Генерация Векторов Признаков:
- Сценарий 1 (Один прокси): Генерируются векторы признаков, описывающие его исторические переходы ко всем кандидатам.
- Сценарий 2 (Несколько прокси): Генерируются векторы для каждого прокси, а затем они консолидируются (например, усредняются) в единый Consolidated Feature Vector для каждого кандидата.
Аппроксимация (Подмена): Сгенерированные (или консолидированные) векторы используются как Approximated Feature Vectors — они считаются оценкой того, как новый запрос вел бы себя, если бы у него была история.
Ранжирование и Выбор: Approximated Feature Vectors подаются на вход обученной модели ранжирования (MLA/Linear Ranker). Модель генерирует Ranking Parameters (вероятности). Кандидат с наивысшим параметром выбирается как замещающий запрос.

Какие данные и как использует

Данные на входе

Контентные (Текстовые) факторы: Текст введенного запроса и тексты прошлых запросов. Используются для расчета строковой схожести.
Поведенческие факторы: Критически важные данные из логов поиска:
- Usage Frequency: Частота использования прошлых запросов. Используется для определения «редкости» при выборе прокси.
- Past-query-interdependence data: Данные о сессиях и переходах между запросами (явные и неявные исправления). Являются основой для генерации векторов признаков.

Какие метрики используются и как они считаются

String Similarity (Строковая схожесть): Вычисляется с помощью Edit Distance. В патенте явно упоминается Levenshtein distance.
Пороги аппроксимации (Approximation Hypothesis Region): Определяются порогами для Usage Frequency и String Similarity. Запросы, попадающие в эту зону (похожие и редкие), становятся Approximated Queries. Пороги могут определяться эмпирически или на основе квантилей.
Vector Consolidation (Консолидация векторов): Если используется несколько прокси, их векторы объединяются. В патенте упоминаются вычисление среднего вектора (mean vector) или усредненного вектора (average vector).
Ranking Parameter (Параметр ранжирования): Вычисляется с помощью Machine Learned Algorithm (MLA). Упоминается Linear Ranker, обученный на исторических данных. Параметр представляет собой вероятность того, что кандидат является правильным исправлением.

Выводы

Решение проблемы «холодного старта» для опечаток: Яндекс имеет специализированный механизм для исправления ошибок в запросах, по которым нет статистики. Это обеспечивает более полное покрытие и улучшает пользовательский опыт для новых и редких тем.
Использование поведенческих прокси: Ключевая идея патента — использование исторических данных похожей, но другой опечатки (Approximated Query) в качестве прокси для новой опечатки.
Критерии выбора прокси (Схожесть + Редкость): Прокси-запрос должен быть не просто похожим по написанию, но и редким (низкая Usage Frequency). Предполагается, что редкие похожие запросы имеют схожие паттерны исправления.
Обработка неопределенности через консолидацию: Если найдено несколько подходящих прокси-запросов, их данные консолидируются (усредняются), что делает итоговую оценку более робастной.
Фокус на исправлении, а не ранжировании опечаток: Алгоритм направлен на то, чтобы понять намерение пользователя и прозрачно исправить запрос до этапа ранжирования.

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренний механизм обработки запросов и не дает прямых рекомендаций по SEO, он подчеркивает важные аспекты стратегии:

Приоритет продвижения по корректным запросам: Сосредоточьте усилия на оптимизации контента под корректно написанные целевые запросы. Этот патент подтверждает, что система активно работает над тем, чтобы исправлять ошибки пользователей (даже новые или редкие) и приводить их на выдачу по корректному запросу.
Мониторинг брендовых запросов и сложных терминов: Если вы продвигаете бренд или продукт со сложным названием, этот механизм повышает вероятность того, что пользователи найдут ваш сайт, несмотря на ошибки ввода. Убедитесь, что на сайте используется корректная терминология.
Улучшение поведенческих факторов: Система полагается на исторические переходы (past transitions) для обучения базовых моделей коррекции. Обеспечивая позитивный пользовательский опыт по целевым запросам, вы косвенно помогаете улучшать эти модели.

Worst practices (это делать не надо)

Оптимизация страниц под опечатки (Typosquatting): Создание страниц под запросы с опечатками неэффективно. Система стремится исправить запрос пользователя, а не ранжировать контент, соответствующий ошибке.
Игнорирование правильного написания в контенте: Не стоит полагаться только на то, что поисковая система исправит все ошибки. Использование корректной терминологии важно для авторитетности контента.

Стратегическое значение

Патент демонстрирует сложность систем обработки запросов Яндекса и то, как система справляется с нехваткой данных, используя методы аппроксимации на основе поведенческих логов. Стратегически это означает, что Яндекс стремится максимально точно понять интент пользователя независимо от качества ввода. Для SEO это подтверждает стратегию фокуса на интент и качество контента для целевого (правильного) запроса, а не на манипуляции с вариантами написания.

Практические примеры

Сценарий: Исправление опечатки в названии нового продукта

Контекст: На рынок вышел новый препарат с названием «Цитофлавирин».
Новый запрос (User-entered query): Пользователь вводит «Цитофлавирын». Система видит этот запрос впервые.
Действие системы (Поиск прокси): Система ищет похожие редкие запросы в истории. Она находит запрос «Цитофлавирен» (другая опечатка), который ранее встречался редко, но по нему есть статистика. Он выбирается как Approximated Query.
Использование истории прокси: Система анализирует, что пользователи, вводившие «Цитофлавирен», часто переходили к запросу «Цитофлавирин».
Аппроксимация и Ранжирование: Система использует эту историю как прокси и рассчитывает высокую вероятность того, что пользователь, введший «Цитофлавирын», также имел в виду «Цитофлавирин».
Результат: Пользователю показывается выдача по запросу «Цитофлавирин». SEO-специалисту важно, чтобы сайт был оптимизирован именно под правильное написание.

Вопросы и ответы

Какую главную проблему решает этот патент?

Он решает проблему «холодного старта» при исправлении опечаток. Это ситуация, когда поисковая система сталкивается с новым или очень редким ошибочным запросом, для которого еще нет накопленной истории исправлений в логах. Патент предлагает способ найти исправление, используя косвенные данные от похожих запросов.

Что такое «Approximated Query» (Запрос-прокси) и как он выбирается?

Это запрос из истории поиска, который используется как замена для нового запроса. Он выбирается по двум строгим критериям: он должен быть очень похож на новый запрос текстуально (малое расстояние редактирования) и одновременно должен иметь низкую частоту использования (быть редким). Логика в том, что похожие и одинаково редкие запросы, вероятно, будут иметь схожие паттерны исправления.

Почему для выбора прокси важна именно низкая частота использования?

Новый запрос по определению имеет нулевую частоту. Чтобы аппроксимация была корректной, прокси-запрос также должен быть редким. Использование частотного запроса в качестве прокси для редкого запроса было бы некорректным, так как паттерны их использования и исправления сильно различаются.

Что происходит, если система находит несколько подходящих Запросов-прокси?

В этом случае (описано в Claim 2) система использует их все. Для каждого из них генерируются Векторы признаков, описывающие их связь с потенциальными исправлениями. Затем эти векторы консолидируются (например, усредняются) в единый Consolidated Feature Vector. Этот объединенный вектор используется для финальной оценки.

Влияет ли этот патент на ранжирование сайтов?

Прямого влияния на факторы ранжирования нет. Однако он влияет на то, какой именно запрос будет использоваться для ранжирования. Если пользователь ввел запрос с опечаткой, система благодаря этому алгоритму найдет правильный вариант и будет ранжировать сайты уже по нему. Это помогает качественным сайтам получать трафик, даже если пользователи ошибаются при вводе.

Стоит ли создавать страницы под запросы с опечатками?

Нет, это устаревшая и неэффективная тактика. Данный патент как раз направлен на то, чтобы активно исправлять опечатки, даже самые редкие, и направлять пользователя на выдачу по правильному запросу. Фокусируйтесь на создании качественного контента под корректные запросы.

Что такое «Past-query-interdependence data»?

Это исторические данные из логов поиска, которые показывают, как пользователи переходили от одного запроса к другому в прошлом (например, в рамках одной сессии). Если пользователи решают разные задачи с помощью одних и тех же сайтов, значит запросы семантически близки, даже если их текст отличается.

Как рассчитывается схожесть между запросами в этом патенте?

В патенте для определения текстуальной схожести (String Similarity) используется метрика Edit Distance (расстояние редактирования), в частности, упоминается Levenshtein distance. Это количество вставок, удалений или замен символов, необходимых для превращения одной строки в другую.

На каком этапе поиска работает этот механизм?

Он работает на этапе обработки запроса (Query Processing), до основного ранжирования. Это часть системы исправления опечаток, которая стремится уточнить запрос пользователя перед тем, как искать по нему документы.

Важен ли этот механизм для продвижения новых брендов или продуктов?

Да, он особенно важен. Когда на рынок выходит новый продукт или бренд со сложным названием, пользователи неизбежно будут допускать ошибки при его вводе. Этот механизм помогает системе быстро научиться исправлять эти новые опечатки, используя схожесть с уже известными ошибками, что минимизирует потерю брендового трафика.