Google анализирует предыдущие запросы пользователя в рамках текущей сессии, чтобы понять контекст. Если текущий запрос содержит ошибку (опечатку или неподходящее по смыслу слово), система предлагает исправление, которое соответствует этому контексту, отфильтровывая технически правильные, но семантически неверные варианты.
Описание
Какую задачу решает
Патент решает проблему нерелевантных автоматических исправлений запросов. Стандартные системы коррекции (например, проверка орфографии) могут предлагать технически правильные замены, которые не соответствуют текущему интересу пользователя (контексту поисковой сессии). Например, если пользователь ищет информацию о садоводстве и вводит запрос с ошибкой «fluer», стандартная система может предложить «flour» (мука) или «flier» (листовка), тогда как контекстуально верным является «flower» (цветок). Изобретение повышает точность интерпретации запросов.
Что запатентовано
Запатентована система контекстуальной ревизии запросов. Суть изобретения заключается в использовании истории запросов пользователя в рамках текущей поисковой сессии (Search Session) для определения контекста. Система идентифицирует потенциально неточные токены (Potentially Inaccurate Search Tokens) — будь то опечатки или неуместные слова — и валидирует предложенные исправления (Replacement Tokens) на соответствие этому контексту, используя исторические логи запросов (Query Logs).
Как это работает
Система работает путем сопоставления возможных исправлений с контекстом сессии:
- Определение контекста: Анализируются предыдущие запросы в текущей Search Session. На основе исторических данных (Query Logs) определяются связанные токены (Related Tokens), формирующие контекст.
- Идентификация неточности: В текущем запросе выявляется потенциально неточный токен (опечатка, неуместное слово или неудачное уточнение).
- Генерация кандидатов: Предлагаются возможные варианты замены (Replacement Tokens).
- Контекстуальная валидация: Система проверяет, присутствуют ли предложенные Replacement Tokens в списке Related Tokens.
- Модификация запроса: Если замена контекстуально релевантна, система генерирует модифицированный запрос.
Актуальность для SEO
Высокая. Понимание контекста, намерений пользователя и анализ поведения в рамках сессии являются центральными направлениями развития современных поисковых систем. Описанные принципы использования сессионных данных для уточнения запроса на лету остаются критически важными.
Важность для SEO
Влияние на SEO среднее (6/10). Патент фокусируется на этапе Понимания Запросов (Query Understanding), а не на ранжировании. Для SEO-специалистов он важен тем, что демонстрирует, как Google интерпретирует последовательные поиски и уточняет интент на основе контекста сессии и исторических данных. Это подчеркивает важность понимания семантических связей между терминами и того, как пользователи исследуют тему в рамках одной сессии (Search Journey).
Детальный разбор
Термины и определения
- Potentially Inaccurate Search Token (Потенциально неточный поисковый токен)
- Токен в текущем запросе, который система идентифицирует как содержащий опечатку (misspelled) или как неподходящий по смыслу в контексте сессии (misused).
- Query Log (Лог запросов)
- Хранилище исторических поисковых запросов из множества прошлых поисковых сессий. Используется для определения статистических связей между токенами.
- Related Tokens (Связанные токены)
- Группа токенов, которые статистически связаны с токенами из предыдущих запросов текущей сессии. Определяются на основе анализа Query Logs и формируют контекст сессии.
- Replacement Token (Токен замены)
- Кандидат на замену потенциально неточного токена. Источником могут быть системы проверки орфографии или списки часто путаемых слов.
- Search Session (Поисковая сессия)
- Последовательность запросов от одного пользователя, определяемая временными интервалами или взаимосвязью между запросами. Определяет контекст для исправления текущего запроса.
- Subject Context (Тематический контекст)
- Основная тема поисковой сессии (например, садоводство, спорт), определяемая путем анализа тематических весов (subject weights) токенов из предыдущих запросов.
- Token Cluster (Кластер токенов)
- Группа связанных токенов, которые часто встречаются вместе в исторических запросах. Формируются с помощью алгоритмов кластеризации (например, k-means).
Ключевые утверждения (Анализ Claims)
Анализ Claims патента US9305113B2.
Claim 1 (Независимый пункт): Описывает метод контекстуального исправления запроса, основанный на обнаружении попытки уточнения запроса пользователем и исторических паттернах.
- Система получает текущий поисковый запрос в рамках текущей сессии.
- Определяется, что текущий запрос является попыткой уточнить (refine) предыдущий запрос (на основе разницы в терминах между ними).
- Идентифицируется набор связанных терминов (related terms). Эта идентификация основана на «заданном термине» (given term), который присутствовал в предыдущем запросе, но отсутствует в текущем (т.е. термин, который пользователь удалил/заменил).
- Анализируются исторические данные (search log data). Определяется, что в значительном количестве прошлых сессий этот удаленный «заданный термин» заменялся на конкретный «другой термин» (different term), который также входит в набор связанных терминов.
- В ответ на это генерируется модифицированный запрос (modified search query), включающий этот «другой термин».
- Модифицированный запрос предоставляется для отображения.
Этот пункт описывает сценарий, когда пользователь пытается уточнить запрос, заменяя один термин другим, но делает это неудачно. Система распознает паттерн: она видит, какой термин был удален, и знает из исторических данных, на какой термин его обычно заменяют в этом контексте. Затем она предлагает этот исторически верный вариант.
Claim 4 и 5 (Зависимые): Детализируют механизм исправления опечаток (misspelled terms).
- Система определяет, что термин является потенциально неточным, так как он включен в набор терминов с опечатками.
- (Claim 5) Ключевое условие: Замена происходит только тогда, когда исправленный термин (matching term) одновременно присутствует и в списке возможных исправлений, и в наборе related terms (т.е. соответствует контексту сессии).
Claim 6 (Зависимый): Детализирует механизм обнаружения неуместных (misused) слов.
- Определяется тематический контекст (subject context) для текущей сессии на основе тематик предыдущих запросов.
- Термин в текущем запросе идентифицируется как потенциально неточный, если его схожесть с этим subject context ниже определенного уровня.
Где и как применяется
Изобретение целиком относится к этапу понимания запросов.
QUNDERSTANDING – Понимание Запросов
Система работает на этом этапе, интерпретируя введенный пользователем текст и модифицируя его до того, как он будет передан основным системам ранжирования.
- Взаимодействие: Система использует Query Analysis Module для обнаружения ошибок и генерации кандидатов, и Replacement Term Analysis Module для определения контекста и валидации замен. Она обращается к Replacement Token Data (например, словари) и Query Log.
- Офлайн-процессы: Система полагается на предварительный анализ Query Logs для построения Token Clusters и определения статистических связей.
- Онлайн-процессы: В реальном времени система отслеживает Search Session, определяет контекст и принимает решение о модификации запроса.
Входные данные:
- Текущий запрос пользователя.
- Предыдущие запросы в текущей Search Session.
- Query Log (исторические данные о сессиях).
- Replacement Token Data (словари опечаток, часто путаемые слова).
Выходные данные:
- Модифицированный запрос (Modified Search Query) или исходный запрос.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на запросы, содержащие опечатки, или многозначные термины, где контекст сессии помогает устранить неоднозначность. Также влияет на исследовательские сессии, где пользователь последовательно уточняет свой интент.
- Конкретные ниши: Актуально во всех нишах, особенно там, где терминология специфична или легко запутывается (техника, медицина, хобби).
Когда применяется
Алгоритм применяется при выполнении нескольких условий:
- Наличие сессии: Должна существовать история запросов в текущей Search Session, достаточная для определения контекста.
- Триггеры активации: Обнаружение Potentially Inaccurate Search Token. Это происходит в трех основных сценариях:
- Обнаружена орфографическая ошибка (Misspelled Token).
- Обнаружена попытка уточнения запроса (замена одного токена на другой по сравнению с предыдущим запросом).
- Обнаружен токен, который не соответствует тематическому контексту сессии (Misused Token).
- Условие применения: Система должна найти подходящий Replacement Token, который также присутствует в списке Related Tokens (т.е. соответствует контексту).
Пошаговый алгоритм
Патент описывает несколько вариантов работы системы.
Сценарий А: Исправление опечатки (Misspelled Token) с учетом контекста
- Получение запроса: Система получает текущий запрос в рамках сессии (например, «long stemmed fluer»).
- Идентификация неточности: Определяется, что токен («fluer») содержит опечатку.
- Генерация кандидатов: Система получает список возможных Replacement Tokens (например, «flier», «flower», «flour»).
- Определение контекста: Анализируются предыдущие запросы сессии (например, «yellow gardenia»).
- Идентификация связанных токенов: На основе Query Logs определяются Related Tokens для предыдущих запросов (например, для «gardenia» это «plant», «flower»).
- Валидация: Система сравнивает список кандидатов со списком связанных токенов.
- Выбор замены: Если найдено пересечение (например, «flower» есть в обоих списках), этот токен выбирается.
- Модификация запроса: Генерируется модифицированный запрос («long stemmed flower»).
Сценарий Б: Исправление неверно использованного слова (Misused Token)
- Получение запроса: Система получает текущий запрос (например, «long stemmed flour»).
- Обнаружение уточнения/несоответствия: Система сравнивает текущий запрос с предыдущим (например, «long stemmed bulbs»). Определяется, что пользователь заменил токен («bulbs» на «flour»). ИЛИ определяется, что Subject Context сессии — садоводство, а «flour» (мука) нерелевантен.
- Идентификация неточности: Токен («flour») помечается как Potentially Inaccurate Search Token.
- Определение связанных токенов: Система идентифицирует Related Tokens на основе контекста сессии (например, «rose», «flower», «tulip»).
- Идентификация замены: Система ищет среди Related Tokens тот, который наиболее похож на неточный токен («flour»). Схожесть может определяться с помощью вектора расстояния (distance vector). Например, «flower» наиболее похож.
- Модификация запроса: Генерируется модифицированный запрос («long stemmed flower»).
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на обработке запросов и контекста сессии.
- Поведенческие факторы:
- История запросов в сессии (Search Session Data): Последовательность запросов пользователя в реальном времени. Критически важна для определения контекста.
- Исторические логи запросов (Query Logs): Агрегированные данные о прошлых сессиях множества пользователей. Используются для определения статистических связей между токенами, построения Token Clusters и выявления паттернов уточнений.
- Лингвистические/Системные данные:
- Данные о замене токенов (Replacement Token Data): Словари для проверки орфографии, списки часто путаемых слов (омографы).
Контентные, ссылочные или технические факторы ранжирования в патенте не упоминаются.
Какие метрики используются и как они считаются
- Subject Weights (Веса тематик): Метрика для определения Subject Context. Упоминается, что токены могут иметь веса для различных тематик (история, садоводство и т.д.). Веса токенов в сессии суммируются, и наивысший суммарный вес указывает на контекст сессии.
- Distance Vector (Вектор расстояния): Метрика для определения схожести между потенциально неточным токеном и связанными токенами (используется в сценарии Misused Token).
- Threshold Percentage (Пороговый процент): Используется при формировании Token Clusters. Токен включается в кластер, если он присутствует в определенном проценте исторических запросов (например, 50%), содержащих другие токены этого кластера.
- Методы кластеризации: Упоминаются k-means clustering, c-means clustering для группировки связанных токенов на основе Query Logs.
Выводы
- Контекст сессии имеет приоритет при исправлении ошибок: Google не просто исправляет орфографию изолированно. Система активно использует предыдущие запросы пользователя в текущей сессии, чтобы убедиться, что предложенное исправление соответствует текущему намерению пользователя.
- Различие между опечатками и неверным использованием слов: Патент четко разделяет механизмы обработки Misspelled Tokens (опечатки) и Misused Tokens (слова, которые написаны верно, но не подходят по контексту сессии или являются результатом неудачного уточнения).
- Исторические данные как основа для понимания намерений: Query Logs играют ключевую роль. Система полагается на агрегированные данные о том, как пользователи исторически связывали термины (Related Tokens, Token Clusters) и исправляли свои запросы, чтобы предсказать правильное намерение текущего пользователя.
- Анализ эволюции запроса (Refinement Analysis): Система анализирует, как пользователь изменяет запрос в ходе сессии (Claim 1). Она смотрит на удаленные термины и предсказывает наиболее вероятную замену на основе исторических паттернов.
- Активное переписывание запросов: Если система уверена в контекстуально релевантной замене, она может автоматически сгенерировать и обработать модифицированный запрос, улучшая пользовательский опыт.
Практика
Best practices (это мы делаем)
- Построение Topical Authority через семантически связанные термины: Создавайте контент, который широко охватывает тему, используя естественный кластер связанных терминов (аналог Related Tokens). Это повышает вероятность того, что ваш контент будет признан релевантным для запросов, которые Google может контекстуально переписать. Если ваш контент содержит термины из одного семантического кластера, он лучше соответствует сессии пользователя.
- Анализ путей пользователя (Search Journey): Понимайте, как пользователи ищут информацию в вашей нише — какие запросы они вводят последовательно и как уточняют свои намерения. Убедитесь, что ваша контент-стратегия поддерживает эти пути и отвечает на эволюционирующий интент в рамках одной сессии.
- Использование четкой и общепринятой терминологии: Используйте термины так, как их использует большинство пользователей и как они отражены в Query Logs. Это помогает системе правильно интерпретировать запросы, ведущие на ваш сайт, и снижает риск неверной «коррекции» запроса.
Worst practices (это делать не надо)
- Тайпсквоттинг и оптимизация под опечатки: Стратегии, ориентированные на сбор трафика по опечаткам (misspellings), становятся менее эффективными. Google агрессивно исправит опечатку на контекстуально верный вариант, если это поддерживается данными сессии.
- Изолированная оптимизация под узкие запросы: Фокусировка на одном конкретном запросе без учета связанных терминов и более широкого контекста темы. Это снижает релевантность страницы для пользователей, проводящих исследовательскую сессию.
- Игнорирование семантической структуры и контекста: Создание контента, который не имеет четкой тематической направленности или использует двусмысленные термины без достаточного контекста.
Стратегическое значение
Патент подтверждает стратегический приоритет Google на понимание намерений пользователя на уровне сессии, а не только на уровне изолированного запроса. Это часть глобального перехода к семантическому и диалоговому поиску. Для долгосрочной SEO-стратегии это означает необходимость фокусироваться на создании авторитетного контента, который полностью отвечает на информационную потребность пользователя в рамках его исследовательской задачи (Task Completion).
Практические примеры
Сценарий 1: Исправление опечатки с учетом контекста (Садоводство)
Пример основан на описании в патенте (§2.1).
- Запрос 1 (Установка контекста): Пользователь ищет «yellow gardenia» (желтая гардения).
- Контекст: Установлен контекст садоводства. Related Tokens включают «plant», «flower».
- Запрос 2 (Текущий): «long stemmed fluer» (длинностебельный [ошибка]).
- Действие системы:
- «fluer» идентифицирован как опечатка.
- Кандидаты на замену: «flier» (листовка), «flower» (цветок), «flour» (мука).
- Валидация: Только «flower» присутствует среди Related Tokens.
- Результат: Запрос переписывается на «long stemmed flower».
Сценарий 2: Исправление неуместного слова (Misused Token)
Пример основан на описании в патенте (§2.2).
- Предыдущие запросы: Q1=»long stemmed bulbs», Q2=»long stemmed roses».
- Контекст: Subject Context определен как садоводство.
- Текущий запрос (Q3): «long stemmed flour» (длинностебельная мука).
- Действие системы:
- «flour» написан верно, но не соответствует контексту садоводства (Misused Token).
- Система ищет Related Tokens (например, «flower»), которые похожи на «flour».
- Результат: Запрос переписывается на «long stemmed flower».
Вопросы и ответы
Чем этот механизм отличается от стандартной проверки орфографии (Spell Check)?
Стандартная проверка орфографии предлагает исправление на основе лингвистической близости или частотности, без учета текущих действий пользователя. Описанный механизм добавляет обязательный слой контекстуальной валидации: исправление принимается, только если оно соответствует теме предыдущих запросов пользователя в этой же сессии (Search Session).
Что такое поисковая сессия (Search Session) и как она определяется?
Поисковая сессия — это последовательность запросов от одного пользователя, объединенная общим контекстом. Патент предлагает определять ее по времени между запросами (например, сессия завершается после 5-10 минут бездействия), по входу/выходу пользователя из системы или по тематической взаимосвязи между последовательными запросами.
В чем разница между Misspelled Token и Misused Token?
Misspelled Token — это токен с орфографической ошибкой или опечаткой (например, «fluer»). Misused Token — это токен, который написан правильно, но не соответствует тематическому контексту сессии (например, «flour» (мука) в сессии про садоводство) или является результатом неудачной попытки уточнения запроса.
Как система определяет контекст сессии?
Контекст определяется двумя основными способами. Первый — идентификация Related Tokens: система анализирует предыдущие запросы и ищет в Query Logs термины, которые статистически связаны с ними (например, через Token Clusters). Второй — расчет Subject Context: система использует тематические веса токенов для определения доминирующей тематики сессии.
Что такое Token Clusters и почему они важны для SEO?
Token Clusters — это группы терминов, которые статистически связаны и часто встречаются вместе в запросах пользователей. Для SEO это указание на то, как Google видит семантические связи. Создание контента, который естественно интегрирует термины из одного кластера, укрепляет тематическую релевантность и помогает системе правильно интерпретировать запросы, ведущие на ваш сайт.
Исправляет ли система все ошибки автоматически?
Нет. Система вмешивается только тогда, когда она идентифицирует потенциально неточный токен И когда предложенная замена (Replacement Token) соответствует контексту сессии (т.е. присутствует в списке Related Tokens). Если контекст неясен или замена не соответствует контексту, система обработает исходный запрос.
Как этот патент влияет на подбор ключевых слов для SEO?
Он подчеркивает важность использования кластеров ключевых слов и анализа поисковых путей (Search Journeys), а не отдельных фраз. Ваш контент должен включать естественный набор связанных терминов, которые пользователи могут использовать в рамках одной поисковой сессии, чтобы обеспечить релевантность даже при переписывании запроса.
Что подразумевается под анализом «уточнения запроса» в Claim 1?
Это анализ того, как пользователь изменяет запрос в рамках сессии (например, удаляет слово А и добавляет слово Б). Система анализирует удаленное слово А и исторические данные (Query Logs) о том, на что его обычно заменяют другие пользователи (например, на слово В). Затем система предлагает модифицированный запрос со словом В, корректируя путь пользователя.
Использует ли эта система данные о контенте сайтов или ссылки?
Нет. Согласно патенту, этот механизм работает исключительно на уровне обработки запросов (Query Understanding). Он использует только текст текущего и предыдущих запросов, данные сессии и исторические логи запросов. Факторы ранжирования сайтов здесь не задействованы.
Какова актуальность этого патента, учитывая развитие нейронных сетей типа BERT/MUM?
Актуальность высока. Хотя методы определения связанных токенов и контекста эволюционировали (например, с использованием векторных представлений вместо статистической кластеризации логов), сама логика — использование контекста сессии для валидации исправления запроса — остается фундаментальным принципом работы поиска и активно используется в современных системах.