Как Яндекс исправляет опечатки в новых и редких запросах, используя исторические данные похожих запросов как прокси

Яндекс патентует метод исправления опечаток для запросов, которые система видит впервые («холодный старт»). Поскольку истории по новому запросу нет, система находит известный редкий запрос, максимально похожий по написанию, и использует его как прокси («аппроксимированный запрос»). История переходов этого прокси-запроса используется для оценки вероятных исправлений нового запроса.

Описание

Какую задачу решает

Патент решает проблему «холодного старта» в системах исправления опечаток (spell correction). Традиционные системы полагаются на исторические данные о переходах (transitions) от ошибочного запроса к правильному. Однако если запрос новый, редкий или содержит уникальную опечатку, таких исторических данных не существует. Патент предлагает метод генерации замещающего запроса (replacement query) даже в отсутствие истории для введенного пользователем запроса (user-entered query).

Что запатентовано

Запатентована система генерации замещающего запроса для новых и потенциально ошибочных запросов. Суть изобретения заключается в использовании прокси-механизма. Система идентифицирует существующий прошлый запрос, который служит «аппроксимированным запросом» (approximated query) для нового запроса. Затем система использует исторические данные о переходах (past-query-interdependence data) этого аппроксимированного запроса, как если бы они принадлежали новому запросу, чтобы определить наилучшее исправление.

Как это работает

Когда поступает новый запрос, система сначала ищет кандидатов на замену на основе строкового сходства (string similarity). Затем она выбирает «аппроксимированный запрос» (прокси) из числа кандидатов. Критерии выбора прокси: высокая степень строкового сходства с новым запросом И низкая частота использования (usage frequency) в прошлом. Логика в том, что новый запрос (который имеет нулевую частоту) лучше всего моделируется редким, но похожим запросом. После выбора прокси система анализирует его исторические переходы к другим запросам-кандидатам. Эти данные используются для генерации признаков (feature vectors), которые подаются в ранжирующую модель (MLA) для выбора финального замещающего запроса.

Актуальность для SEO

Высокая. Обработка новых, редких и возникающих запросов (emerging queries) является постоянной задачей для поисковых систем. Способность корректно интерпретировать и исправлять ошибки в таких запросах без накопленной статистики критически важна для поддержания качества поиска на «длинном хвосте».

Важность для SEO

Влияние на SEO умеренное (6/10). Этот патент не описывает алгоритмы ранжирования контента, а фокусируется на этапе обработки запроса (Query Processing). Однако он напрямую влияет на то, как трафик достигает SERP. Это особенно важно для сайтов с новыми продуктами, сложной терминологией, брендами или в тематиках, подверженных частым опечаткам. Корректная работа этого механизма гарантирует, что пользователи, допустившие уникальную ошибку в названии вашего бренда или продукта, все равно попадут на релевантную выдачу.

Детальный разбор

Термины и определения

Acceptable Approximation Hypothesis Region (Область приемлемой гипотезы аппроксимации): Определяемая пороговыми значениями область на графике, координатами которого являются строковое сходство и частота использования. Запросы-кандидаты, попадающие в эту область (низкая частота и высокая схожесть с исходным запросом), считаются подходящими прокси.
Approximated Feature Vector (Аппроксимированный вектор признаков): Вектор признаков, сгенерированный на основе исторических данных аппроксимированного запроса, но используемый как оценка (estimation) признаков для нового введенного пользователем запроса.
Approximated Query (Аппроксимированный запрос / Запрос-Прокси): Прошлый запрос, выбранный из кандидатов, который используется как прокси (proxy) для нового запроса. Выбирается на основе строкового сходства и низкой частоты использования.
Consolidated Feature Vector (Консолидированный вектор признаков): Вектор, полученный путем объединения (например, усреднения) нескольких векторов признаков. Используется, когда для нового запроса выбрано более одного аппроксимированного запроса.
Feature Vector (Вектор признаков): Численное представление, описывающее взаимосвязь между двумя запросами, основанное на данных о прошлых переходах между ними.
Past-Query-Interdependence Data (Данные о взаимозависимости прошлых запросов): Исторические данные, указывающие на прошлые переходы (past transitions) между парами известных запросов (например, данные сессий, когда пользователь переформулировал один запрос в другой).
Replacement Candidate Queries (Запросы-кандидаты на замену): Набор прошлых запросов, выбранных на основе строкового сходства с введенным пользователем запросом.
User-Entered Query (Введенный пользователем запрос): Исходный запрос, который система никогда ранее не видела и который потенциально содержит ошибки.

Ключевые утверждения (Анализ Claims)

Патент описывает метод обработки новых запросов путем аппроксимации их поведения поведением известных, но редких запросов.

Claim 1 (Независимый пункт): Описывает основной процесс генерации замещающего запроса для нового запроса.

Система получает новый запрос, который никогда не использовался ранее и потенциально ошибочен.
Выбирается набор кандидатов на замену из прошлых запросов на основе строкового сходства (String Similarity).
Извлекаются данные о взаимозависимости (Past-Query-Interdependence Data) между этими кандидатами. Важно: данных о переходах от исходного нового запроса нет.
Выбирается Approximated Query (прокси) из числа кандидатов. Критерии выбора: (i) строковое сходство с новым запросом и (ii) частота использования (Usage Frequency).
Для каждой пары (Прокси, Кандидат) генерируется Feature Vector, основанный на известных переходах между Прокси и Кандидатом.
Ключевой шаг: Этот вектор используется как Approximated Feature Vector, который считается оценкой переходов между Новым Запросом и Кандидатом.
Генерируется параметр ранжирования для каждого аппроксимированного вектора (вероятность того, что кандидат является правильной заменой).
Определяется замещающий запрос на основе параметров ранжирования.

Claim 2 (Зависимый от 1): Описывает сценарий, когда выбирается более одного аппроксимированного запроса (multiple proxies).

Если выбрано несколько прокси (например, Прокси А и Прокси Б).
Генерируются векторы для всех комбинаций: (Прокси А, Кандидат 1), (Прокси Б, Кандидат 1) и т.д.
Векторы для одного и того же кандидата консолидируются (consolidating) в единый Consolidated Feature Vector. Например, векторы от Прокси А и Прокси Б к Кандидату 1 объединяются (согласно Claim 8, это может быть усреднение).
Этот консолидированный вектор используется как Approximated Feature Vector для Кандидата 1.

Claim 3, 4, 5 (Зависимые): Уточняют, что строковое сходство вычисляется с использованием Edit Distance, в частности, Levenshtein distance (расстояние Левенштейна), и что кандидаты выбираются путем ранжирования по этой дистанции.

Claim 6, 7 (Зависимые): Уточняют механизм выбора нескольких аппроксимированных запросов. Он включает маппинг кандидатов по схожести и частоте и выбор тех, кто попадает в Acceptable Approximation Hypothesis Region, ограниченную пороговыми значениями по обеим осям (т.е. выбираются редкие и похожие запросы).

Где и как применяется

Изобретение применяется на ранних этапах обработки запроса.

QUERY PROCESSING – Понимание Запросов
Механизм является частью подсистемы исправления опечаток (Spell Correction) или изменения запросов (Query Alteration).

Идентификация проблемы: Система должна сначала определить, что запрос потенциально ошибочен (например, не найден в лексиконе) и что он новый или очень редкий (отсутствует в логах или имеет недостаточную статистику).
Генерация и выборка: Происходит генерация кандидатов и выбор аппроксимированного запроса (прокси). Это требует доступа к индексу прошлых запросов с метаданными (частота использования) и возможности быстрого расчета строкового сходства.
Извлечение признаков и ранжирование: Система извлекает данные о переходах (Interdependence Data) для прокси, генерирует аппроксимированные векторы признаков и использует модель машинного обучения (MLA) для ранжирования кандидатов.

Входные данные: Новый, потенциально ошибочный запрос пользователя.
Выходные данные: Замещающий запрос (Replacement Query). Этот запрос затем используется для поиска и ранжирования (RANKING layer), или пользователю может быть предложено исправление.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на длиннохвостые (long-tail), редкие, новые (emerging) запросы. Также сильно влияет на запросы, содержащие сложные термины, имена собственные, названия брендов или продуктов, где вероятность уникальных опечаток высока.
Ниши и тематики: Технические, медицинские, научные ниши, а также e-commerce с большим ассортиментом уникальных артикулов.

Когда применяется

Алгоритм активируется при выполнении двух условий:

Запрос идентифицирован как потенциально содержащий ошибку (например, с использованием лексикона или статистических моделей языка).
Для данного конкретного написания запроса отсутствуют достаточные исторические данные о переходах (т.е. это новый или очень редкий вариант написания).

Пошаговый алгоритм

Получение и валидация запроса: Система получает запрос и определяет, что он никогда не использовался ранее и потенциально ошибочен.
Выбор кандидатов: Из базы прошлых запросов выбирается набор кандидатов на замену (Replacement Candidate Queries). Выбор основан на строковом сходстве (например, по дистанции Левенштейна).
Извлечение исторических данных: Для выбранного набора кандидатов извлекаются исторические данные о переходах (Past-Query-Interdependence Data) между парами этих кандидатов, а также их частота использования (Usage Frequency).
Выбор аппроксимированного запроса (Прокси): Кандидаты оцениваются по двум параметрам: (i) строковое сходство с новым запросом и (ii) их собственная частота использования. Выбираются кандидаты, попадающие в Acceptable Approximation Hypothesis Region (высокая схожесть И низкая частота). Может быть выбран один или несколько прокси.
Генерация векторов признаков:
- Если выбран один прокси: Для каждой пары (Прокси, Кандидат) генерируется вектор признаков на основе исторических переходов между ними.
- Если выбрано несколько прокси: Генерируются векторы для всех пар (Прокси 1, Кандидат), (Прокси 2, Кандидат) и т.д. Затем векторы для одного и того же кандидата консолидируются (например, усредняются) в Consolidated Feature Vector.
Применение аппроксимации: Сгенерированные (или консолидированные) векторы используются как Approximated Feature Vectors. Они считаются оценкой переходов между Новым Запросом и Кандидатом.
Ранжирование: Аппроксимированные векторы подаются в модель ранжирования (MLA), которая генерирует параметр ранжирования (ranking parameter) – вероятность того, что кандидат является искомой заменой.
Определение замены: Выбирается кандидат с наивысшим параметром ранжирования в качестве замещающего запроса.

Какие данные и как использует

Данные на входе

Контентные (Текстовые) факторы: Текст введенного пользователем запроса и тексты прошлых запросов из логов. Используются для расчета строкового сходства.
Поведенческие и Статистические факторы:
- Usage Frequency (Частота использования): Как часто каждый прошлый запрос использовался в сервисе. Критически важна для выбора Approximated Query (ищутся запросы с низкой частотой).
- Past-Query-Interdependence Data (Данные о взаимозависимости): Данные о прошлых переходах (past transitions) между парами известных запросов (например, статистика переформулировок в сессиях). Являются основой для генерации Feature Vector.

Какие метрики используются и как они считаются

String Similarity (Строковое сходство): Измеряется с помощью Edit Distance. В патенте явно упоминается Levenshtein distance (дистанция Левенштейна), а также LCS, Hamming, Damerau-Levenshtein и Jaro distance.
Пороги Аппроксимации: Определяются пороговые значения для частоты использования (Usage Frequency Threshold) и строкового сходства (String Similarity Threshold). Они формируют Acceptable Approximation Hypothesis Region. Запросы должны иметь частоту и дистанцию ниже этих порогов, чтобы считаться хорошими прокси.
Feature Vector Generation: Векторы генерируются на основе данных о взаимозависимости.
Vector Consolidation (Консолидация векторов): Если используется несколько прокси, их векторы объединяются. Патент упоминает вычисление среднего вектора (mean vector) или усредненного вектора (average vector).
Ranking Parameter (Параметр ранжирования): Вычисляется с помощью алгоритма машинного обучения (MLA). Патент упоминает, что это может быть линейный ранжировщик (Linear Ranker). Параметр указывает на вероятность того, что кандидат является заменой для исходного запроса.

Выводы

Решение проблемы «холодного старта» для опечаток: Яндекс разработал механизм, позволяющий исправлять опечатки в запросах, для которых еще нет статистики, используя данные других запросов в качестве прокси.
Критерии выбора прокси (Approximated Query): Ключевая идея патента в том, что хороший прокси для нового запроса (с нулевой частотой) должен быть не только похож по написанию (String Similarity), но и сам должен быть редким (Low Usage Frequency). Гипотеза: редкие похожие запросы имеют схожие паттерны исправления.
Гибкость аппроксимации: Система может использовать один или несколько прокси. Если используется несколько, их данные консолидируются (например, усредняются), что повышает надежность оценки.
Зависимость от исторических данных: Эффективность системы напрямую зависит от качества и полноты накопленных данных о переходах между прошлыми запросами (Past-Query-Interdependence Data).
Машинное обучение в основе выбора: Финальный выбор исправления осуществляется обученной моделью (MLA/Ranker), которая оценивает вероятность коррекции на основе аппроксимированных признаков.

Практика

Best practices (это мы делаем)

Мониторинг запросов для новых продуктов/брендов: При запуске новых продуктов или брендов со сложными или неоднозначными названиями важно тщательно отслеживать в системах аналитики, по каким запросам приходят пользователи. Этот патент повышает шансы, что Яндекс исправит даже уникальные опечатки, но не гарантирует 100% точности аппроксимации.
Обеспечение видимости по корректным написаниям: Убедитесь, что ваш сайт хорошо оптимизирован под все корректные варианты написания ключевых терминов и брендов. Это повышает вероятность того, что корректный запрос будет присутствовать в базе Яндекса и сможет быть выбран в качестве Replacement Query, когда пользователь допустит ошибку.
Работа со сложной терминологией: В технических или специализированных нишах этот механизм помогает пользователям находить нужную информацию, даже если они не знают точного написания термина. Необходимо использовать точную и общепринятую терминологию в контенте, чтобы стать целью для исправления.

Worst practices (это делать не надо)

Намеренное использование опечаток в контенте (Misspelling Optimization): Учитывая сложные механизмы исправления запросов, оптимизация страниц под опечатки является устаревшей и неэффективной тактикой. Система стремится привести запрос к правильной форме до начала ранжирования.
Игнорирование проблем с неймингом: Выбор слишком сложных или легко искажаемых названий для продуктов без должной информационной поддержки может привести к потере трафика, если система исправления опечаток не сможет эффективно подобрать замену или подберет ее некорректно на основе неудачного прокси.

Стратегическое значение

Патент демонстрирует, насколько глубоко Яндекс использует исторические логи для моделирования поведения пользователей, даже в ситуациях, когда прямых данных нет. Это подчеркивает стратегию Яндекса на максимальное понимание интента пользователя на самых ранних этапах обработки запроса. Для SEO это означает, что система становится умнее в обработке long-tail и emerging запросов, снижая барьер входа для пользователей, ищущих новую или сложную информацию.

Практические примеры

Сценарий: Исправление нового запроса с уникальной опечаткой

Пользователь вводит новый запрос, который никогда ранее не встречался: [олигопсония] (oligopsony).

Действие системы (Выбор кандидатов): Система ищет похожие по написанию запросы в логах. Кандидаты: К1=[олигофсония] (oligophsony, редкий), К2=[олигоспуния] (oligospoony, редкий), К3=[олигополия] (oligopoly, частый), К4=[олигофрения] (oligophrenia, частый).
Действие системы (Выбор Прокси): Система ищет прокси – запрос, который похож по написанию И является редким. К3 и К4 отбрасываются как слишком частые. К1 ([олигофсония]) выбирается как аппроксимированный запрос (Прокси).
Действие системы (Использование истории Прокси): Система анализирует, во что пользователи исправляли запрос К1 ([олигофсония]) в прошлом. Допустим, 80% исправляли его на К3 ([олигополия]) и 10% на К4 ([олигофрения]).
Действие системы (Ранжирование и Замена): Система применяет эту историю к новому запросу [олигопсония]. Генерируются аппроксимированные признаки. Ранкер определяет, что [олигополия] является наиболее вероятной заменой.
Результат: Пользователю показывается выдача по запросу [олигополия] (или предлагается исправление).

Вопросы и ответы

Какую главную проблему решает этот патент?

Он решает проблему «холодного старта» для систем исправления опечаток. Это ситуация, когда пользователь вводит запрос с уникальной опечаткой, которую поисковая система видит впервые. Поскольку нет исторических данных о том, как другие пользователи исправляли эту конкретную опечатку, стандартные методы не работают. Патент предлагает способ найти исправление, используя данные других похожих запросов.

Что такое «Approximated Query» (Аппроксимированный запрос) и как он выбирается?

Это известный запрос (имеющий историю в логах), который используется как прокси (замена) для нового запроса. Он выбирается по двум критериям: он должен быть очень похож по написанию (малое расстояние редактирования) на новый запрос И он также должен быть редким (иметь низкую частоту использования). Гипотеза в том, что его поведение похоже на то, как вел бы себя новый запрос.

Почему система предпочитает редкие запросы в качестве прокси, а не популярные?

Новый запрос имеет нулевую частоту использования. Гипотеза патента (Approximation Hypothesis) состоит в том, что поведение нового запроса лучше моделируется поведением похожего, но столь же редкого запроса. Популярные запросы имеют другую структуру поведения и переходов, поэтому они считаются плохими прокси для новых или редких опечаток.

Что такое «Past-Query-Interdependence Data»?

Это исторические данные из логов поисковых сессий, которые показывают переходы (transitions) между разными запросами. Например, если пользователи часто вводят Запрос А, а затем сразу же переформулируют его в Запрос Б, между ними существует сильная взаимозависимость. Эти данные являются основой для понимания того, как запросы связаны между собой.

Что происходит, если система находит несколько подходящих прокси-запросов?

Патент описывает этот сценарий (Claim 2). Если выбрано несколько аппроксимированных запросов, система анализирует исторические данные каждого из них. Затем векторы признаков, полученные от разных прокси для одного и того же кандидата на исправление, консолидируются (Consolidated Feature Vector) – например, путем усреднения. Это позволяет учесть информацию от всех надежных прокси.

Влияет ли этот патент на ранжирование сайтов?

Напрямую нет. Этот механизм работает на этапе обработки запроса (Query Processing), до того как начнется ранжирование (Ranking). Он определяет, по какому именно запросу будет осуществляться поиск. Однако косвенно он влияет на трафик, так как позволяет пользователям с уникальными опечатками попасть на релевантную выдачу.

Стоит ли мне добавлять опечатки на свой сайт, чтобы собрать трафик по редким запросам?

Категорически нет. Это устаревшая и вредная SEO-практика. Поисковые системы стремятся предоставлять качественный контент, а наличие опечаток является негативным сигналом. Алгоритмы, подобные описанному в патенте, созданы для того, чтобы исправлять ошибки пользователя и показывать ему выдачу по правильному запросу, а не поощрять оптимизацию под опечатки.

Как этот механизм влияет на продвижение новых брендов или терминов?

На старте, пока название новое и по нему нет статистики, система может классифицировать его как потенциально ошибочный и пытаться исправить через механизм аппроксимации. Это может приводить к неточным исправлениям. Важно быстро насытить индекс правильным написанием и накопить статистику, чтобы вывести запрос из-под действия этого алгоритма.

Какие метрики строкового сходства используются?

В патенте упоминается общее понятие «расстояние редактирования» (Edit Distance) и конкретно приводится пример расстояния Левенштейна (Levenshtein distance). Также упоминаются LCS distance, Hamming distance, Damerau-Levenshtein distance и Jaro distance как возможные варианты реализации.

Какой алгоритм машинного обучения (MLA) используется для выбора финального исправления?

Для финального ранжирования кандидатов на замену используется обученная модель (MLA), которая принимает на вход аппроксимированные векторы признаков. В патенте упоминается, что это может быть линейный ранжировщик (Linear Ranker), обученный на основе размеченных пар запросов.