Патент Google описывает систему коррекции запросов для сложных случаев: редких запросов (long-tail), сложных опечаток и путаницы между сущностями. Если система подозревает неточность термина, она генерирует производные запросы, удаляя или заменяя этот термин. Затем она анализирует результаты этих производных запросов (заголовки, анкоры, URL), чтобы найти правильный термин и скорректировать исходный запрос.
Описание
Какую задачу решает
Патент решает проблему неэффективности традиционных систем исправления запросов (основанных на словарях или логах запросов) при обработке сложных случаев. К ним относятся: уникальные и редкие запросы (long-tail queries), сложные орфографические ошибки (включая омофоны, например, «carat» и «carrot»), и запросы типа «класс-экземпляр» (class-instance queries), где пользователи путают схожие сущности (например, название бренда или телеканала). Традиционные методы часто не справляются с такими ситуациями из-за недостатка исторических данных.
Что запатентовано
Запатентована система для идентификации «потенциально неточных терминов» (potentially inaccurate terms) в запросе и их коррекции. Ключевая инновация заключается в генерации «производных запросов» (derivative queries), которые не содержат потенциально неточный термин. Коррекция определяется на основе анализа ресурсов, найденных по этим производным запросам, независимо от результатов исходного (ошибочного) запроса. Это позволяет находить исправления, опираясь на контент индекса, а не только на историю запросов.
Как это работает
Система работает в несколько этапов:
- Триггер: Процесс активируется, если исходный запрос приводит к низкокачественной выдаче (низкий Resource Quality Measure) и один из терминов соответствует критериям неточности (inaccuracy criterion).
- Генерация производных запросов: Система создает derivative queries. Это делается либо путем удаления подозрительного термина (для типографических ошибок), либо путем его замены на связанные сущности (для запросов типа class-instance).
- Поиск и анализ: Производные запросы отправляются в поиск. Система анализирует полученные результаты.
- Выбор коррекции: Для типографических ошибок система ищет кандидатов в заголовках (Titles), анкорах (Anchors) и URL найденных ресурсов, выбирая наиболее похожий термин. Для class-instance система выбирает ту замену, которая привела к наивысшему качеству выдачи (Resource Quality Measure).
- Применение: Формируется исправленный запрос, который затем используется для поиска.
Актуальность для SEO
Высокая. Обработка длинного хвоста запросов, понимание новых терминов и точная интерпретация сущностей являются критически важными задачами для современных поисковых систем. Описанный механизм, позволяющий корректировать запросы на основе контента индекса, а не только логов, остается актуальным для улучшения понимания запросов (Query Understanding), особенно с ростом голосового поиска и мобильного ввода.
Важность для SEO
Патент имеет значительное влияние на SEO, особенно в нишах с редкими запросами или сложной терминологией. Он подчеркивает, что авторитетные сайты фактически помогают определить «правильную» лексику для поисковой системы. Использование точных и общепринятых терминов в ключевых элементах страницы (Title, Anchors, URL) помогает Google корректно интерпретировать запросы пользователей, связанные с этой темой, и использовать ваш контент как эталон для коррекции.
Детальный разбор
Термины и определения
- Class of Related Terms (Класс связанных терминов)
- Группа терминов (сущностей), которые часто путают пользователи. Например, названия телеканалов (NBC, ABC, CBS) или бренды. Используется для исправления ошибок типа Класс-Экземпляр.
- Derivative Query (Производный запрос)
- Запрос, созданный на основе исходного, который не содержит potentially inaccurate term (термин либо удален, либо заменен на альтернативу).
- Inaccuracy Criterion (Критерий неточности)
- Условие, указывающее на то, что термин может быть неточным в контексте данного запроса (например, типографическая ошибка или ошибка класса).
- Potentially Inaccurate Term (Потенциально неточный термин)
- Термин в исходном запросе, идентифицированный системой как ошибочный или неуместный в данном контексте.
- Resource Quality Measure (RQM, Мера качества ресурсов)
- Метрика, оценивающая общее качество набора ресурсов (SERP), найденных в ответ на запрос. Может основываться на количестве результатов и их поисковых оценках (search scores). Низкий RQM является триггером для активации алгоритма.
- Synonym Quality Measure (Мера качества синонимов)
- Метрика, оценивающая качество и силу синонимических связей термина. Высокая оценка указывает на то, что термин устоявшийся и, вероятно, не является опечаткой.
- Usage Quality Measure (Мера качества использования)
- Метрика, оценивающая, насколько качественно термин или его синонимы используются в индексе. Учитывает частоту использования в биграммах (bigram usage), заголовках (title usage), анкорах (anchor usage) и URL.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод работы системы с многоступенчатым триггером.
- Получение исходного запроса и результатов поиска по нему (веб-страниц).
- Определение Resource Quality Measure (RQM) для этого набора результатов.
- Триггер 1 (Общее качество): Если RQM не достигает порогового значения (т.е. выдача низкого качества), система переходит к анализу отдельных терминов.
- Для каждого термина определяется его собственная мера качества (например, Usage Quality Measure), отличная от общего RQM.
- Триггер 2 (Качество термина): Термин идентифицируется как Potentially Inaccurate Term, если его собственная мера качества не достигает порога.
- Генерируются Derivative Queries, не включающие этот неточный термин.
- Выполняется поиск по каждому производному запросу.
- Определяется исправленный термин (corrected term) на основе результатов производных запросов. Критически важно: этот выбор не зависит от результатов исходного запроса.
- Генерируется исправленный запрос (corrected query) путем замены.
- Выполняется поисковая операция с использованием исправленного запроса.
Claim 2, 3, 4, 5 (Зависимые): Детализируют механизм для типографических ошибок.
- Неточный термин определяется как типографически некорректный. Производный запрос генерируется путем удаления этого термина (Claim 2).
- Критерии некорректности: низкая Synonym Quality Measure (Claim 3) и/или низкая Usage Quality Measure (Claim 4).
- Usage Quality Measure основывается на использовании термина/синонимов в биграммах, заголовках и анкорах (Claim 5).
Claim 6, 7, 8 (Зависимые): Детализируют выбор исправления для типографических ошибок.
- Кандидаты генерируются из терминов в найденных ресурсах (Claim 6), включая термины из URL (Claim 7), и из поисковых подсказок (query suggestions) (Claim 8).
- Выбор основывается на мере схожести (similarity measure) между кандидатом и неточным термином (Claim 6).
Claim 9, 10 (Зависимые): Детализируют механизм для запросов типа «класс-экземпляр».
- Неточный термин определяется как экземпляр Class of Related Terms. Производные запросы генерируются путем замены неточного термина на другие термины из этого класса (Claim 9).
- Для каждого производного запроса вычисляется RQM. В качестве исправления выбирается тот кандидат, чей производный запрос дал наивысший RQM (Claim 10).
Где и как применяется
Изобретение применяется на ранних этапах обработки запроса для его коррекции.
QUNDERSTANDING – Понимание Запросов
Это основная фаза применения патента. Система анализирует входящий запрос, оценивает потенциальную неточность терминов и принимает решение о необходимости генерации и использования derivative queries для переписывания запроса.
RANKING – Ранжирование
Система взаимодействует с этапом ранжирования несколько раз: для оценки качества исходной выдачи (RQM), для выполнения поиска по derivative queries и для выполнения финального поиска по исправленному запросу.
INDEXING – Индексирование и извлечение признаков
Алгоритм полагается на данные, извлеченные на этом этапе. Он использует индекс ресурсов (resource corpus) и анализирует специфические признаки контента, такие как заголовки (Titles), анкорные тексты (Anchors) и URL, чтобы найти кандидатов на исправление и рассчитать Usage Quality Measure.
Входные данные:
- Исходный запрос пользователя.
- Индекс ресурсов (контент, заголовки, анкоры, URL, биграммы).
- Данные о синонимах и классах связанных терминов (Class of Related Terms).
- Поисковые подсказки (Query Suggestions).
Выходные данные:
- Исправленный запрос (Corrected Query).
- Результаты поиска по исправленному запросу или предложение использовать исправленный запрос (query suggestion).
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на long-tail queries (редкие и уникальные запросы), где недостаточно исторических данных для коррекции. Также влияет на запросы с омофонами и сложными опечатками.
- Сущности (Entities): Сильно влияет на запросы, где пользователи путают схожие сущности (бренды, названия организаций, имена людей).
- Конкретные ниши: Ниши с новой или сложной терминологией, где пользователи часто допускают ошибки (например, технические, медицинские).
Когда применяется
Алгоритм применяется при выполнении строгой последовательности условий (многоступенчатый триггер):
- Триггер 1 (Качество SERP): Когда Resource Quality Measure (RQM) результатов поиска по исходному запросу не достигает определенного порога (т.е. качество SERP низкое).
- Триггер 2 (Качество Термина): Если Триггер 1 сработал, система проверяет индивидуальные показатели качества терминов. Алгоритм продолжается, если:
- (Для типографических ошибок): Термин имеет низкую Synonym Quality Measure и/или низкую Usage Quality Measure.
- (Для ошибок «класс-экземпляр»): Термин принадлежит к Class of Related Terms (группе часто путаемых сущностей).
Пошаговый алгоритм
Процесс разделяется на три этапа, причем второй этап имеет два параллельных пути.
Этап 1: Идентификация потенциальной неточности
- Первичная оценка: Система получает запрос и выполняет первичный поиск.
- Оценка качества SERP: Вычисляется Resource Quality Measure (RQM).
- Проверка порога RQM (Триггер 1): Если RQM выше порога, процесс останавливается. Если ниже, переходим к анализу терминов.
- Анализ терминов (Триггер 2): Проверяются метрики терминов (Synonym/Usage Quality Measure) и принадлежность к Class of Related Terms. Если условия выполняются, термин помечается как Potentially Inaccurate Term.
Этап 2: Генерация и выбор коррекции
Путь А: Коррекция типографических ошибок
- Генерация производного запроса: Создается Derivative Query путем удаления неточного термина.
- Поиск: Выполняется поиск по производному запросу.
- Сбор кандидатов: Из результатов поиска извлекаются кандидаты. Источники: Заголовки (Titles), Анкоры (Anchors), URL, а также query suggestions.
- Оценка кандидатов: Кандидаты сравниваются с неточным термином с использованием мер схожести (edit distance, фонетическое сходство, использование в биграммах).
- Выбор: Выбирается кандидат с наивысшей мерой схожести.
Путь Б: Коррекция ошибок Класс-Экземпляр
- Идентификация кандидатов: Определяются другие термины из того же Class of Related Terms.
- Генерация производных запросов: Создаются Derivative Queries путем замены неточного термина на кандидатов.
- Поиск и оценка: Выполняется поиск по каждому производному запросу и вычисляется его RQM.
- Выбор: Выбирается кандидат, чей производный запрос привел к наивысшему RQM.
Этап 3: Применение и верификация
- Создание исправленного запроса: Генерируется Corrected Query.
- Верификация (Опционально): Система может проверить, что исправленный запрос дает лучший RQM, чем исходный, и не содержит новых ошибок.
- Выполнение операции: Система выполняет поиск по исправленному запросу или предлагает его пользователю.
Какие данные и как использует
Данные на входе
Система активно использует данные из индекса для коррекции запросов.
- Контентные факторы:
- Заголовки (Titles): Используются как основной источник кандидатов на исправление и для расчета Usage Quality Measure (title usage).
- Текст: Анализируется для выявления контекста и частоты использования биграмм (bigram usage).
- Ссылочные факторы:
- Анкор-тексты (Anchors): Используются как источник кандидатов и для расчета Usage Quality Measure (anchor usage).
- Технические факторы:
- URL (Resource Locators): Термины из URL рассматриваются как кандидаты на исправление.
- Поведенческие факторы:
- Поисковые подсказки (Query Suggestions): Используются как дополнительный источник кандидатов (Claim 8).
Какие метрики используются и как они считаются
- Resource Quality Measure (RQM): Агрегированная оценка качества SERP. Базируется на количестве ресурсов и их поисковых оценках (search scores). Используется как триггер и как критерий выбора при ошибках класса.
- Synonym Quality Measure: Оценка силы синонимических связей термина. Используется для фильтрации намеренно использованных терминов.
- Usage Quality Measure: Комбинированная метрика, пропорциональная количеству вхождений термина или его синонимов в:
- Биграммы (bigrams).
- Заголовки (Titles).
- Анкорные тексты (Anchors).
- Similarity Measure (Мера схожести): Используется для сравнения кандидатов с неточным термином при типографических ошибках. Может включать:
- Edit Distance: Редакционное расстояние.
- Phonetic Similarity: Фонетическое сходство.
- Bigram Matching: Совпадение биграммов в исправленном запросе с частыми биграммами в ресурсах.
Выводы
- Независимость от исходных результатов для коррекции: Ключевое нововведение — коррекция определяется на основе результатов производных запросов (которые исключают ошибочный термин), а не на основе результатов исходного запроса. Это позволяет находить исправления, даже если исходная выдача полностью нерелевантна.
- Два различных механизма коррекции: Патент четко разделяет обработку типографических ошибок (удаление термина и поиск похожего в контексте) и путаницы сущностей (замена термина на альтернативы и выбор лучшего по качеству RQM).
- Многоступенчатая оценка качества (Триггеры): Процесс запускается только тогда, когда общее качество выдачи (RQM) низкое (Триггер 1), и подтверждается, когда специфические метрики термина (Synonym/Usage Quality Measure) также низкие (Триггер 2).
- Авторитетные сайты определяют лексикон: Для исправления типографических ошибок система ищет кандидатов в ключевых элементах страниц (Titles, Anchors, URLs) высококачественных ресурсов. То, как авторитетные сайты называют вещи, становится стандартом для коррекции.
- Критичность контекстуальных сигналов: Usage Quality Measure, основанная на использовании терминов в биграммах, заголовках и анкорах, является центральным элементом для подтверждения корректности термина.
Практика
Best practices (это мы делаем)
- Точность в ключевых элементах (Title, URL, Anchors): Убедитесь, что основная терминология и названия сущностей (бренды, продукты, имена) используются точно и в общепринятой форме в заголовках страниц, URL и во входящих анкорных текстах. Эти элементы используются Google как источник «правильных» терминов для коррекции запросов пользователей.
- Использование естественных фраз и биграмм: Структурируйте контент с использованием распространенных и естественных словосочетаний (bigrams). Система использует bigram usage для оценки Usage Quality Measure и для подтверждения правильности исправления. Сильные контекстуальные связи повышают доверие к терминологии.
- Укрепление связей между сущностями (для Class-Instance): Для сайтов, работающих с сущностями, которые могут быть перепутаны (например, разные модели продукта), необходимо четко устанавливать связь между сущностью и связанными темами. Это поможет системе выбрать вашу сущность, если она обеспечивает наивысший Resource Quality Measure при коррекции.
- Развитие Topical Authority: Становитесь авторитетным источником в своей нише. Чем выше качество вашего сайта и чем лучше он ранжируется по производным запросам (запросам без одного термина), тем больше вероятность, что ваша терминология будет использована для коррекции и вы получите этот трафик.
Worst practices (это делать не надо)
- Использование нестандартной орфографии или жаргона в Title/URL: Использование необычного написания ключевых терминов может снизить их Usage Quality Measure. Система может посчитать их опечатками и попытаться «исправить» на более общепринятый вариант, уводя трафик на другие сайты.
- Непоследовательное использование терминологии: Если вы используете разные термины для обозначения одного и того же понятия в заголовках, текстах и анкорах, это может запутать систему при оценке Usage Quality Measure.
- Ориентация на трафик по опечаткам: Создание контента, оптимизированного под опечатки, становится менее эффективным. Этот механизм активно ищет правильный вариант и может заменить результаты с опечатками на результаты с корректным написанием.
Стратегическое значение
Патент подтверждает стратегию Google по глубокому пониманию контекста запроса и использованию авторитетности ресурсов для валидации этого понимания. Для SEO это означает, что стратегический фокус должен быть на точности, ясности и авторитетности. Система предпочитает терминологию, используемую авторитетными сайтами в ключевых элементах (Title, Anchor, URL). Это критически важно для видимости по сложным и редким запросам (long-tail).
Практические примеры
Сценарий 1: Коррекция сложной орфографической ошибки (Типографический путь)
- Исходный запрос: [symptoms of pealacna disease]. Термин «pealacna» является ошибкой в слове «celiac» (целиакия).
- Идентификация: Поиск по исходному запросу дает низкий RQM. Usage Quality Measure для «pealacna» очень низкий.
- Производный запрос: Система удаляет неточный термин: [symptoms of disease].
- Анализ результатов: В результатах по производному запросу система анализирует Titles, Anchors и URL авторитетных медицинских сайтов.
- Выбор коррекции: Система находит термин «celiac». Он имеет высокую контекстуальную релевантность и, возможно, фонетическую схожесть или близкое редакционное расстояние к «pealacna».
- Результат: Система выполняет поиск по [symptoms of celiac disease].
Сценарий 2: Коррекция путаницы сущностей (Путь Класс-Экземпляр)
- Исходный запрос: [program schedule the voice AMC] (Расписание шоу «The Voice» на канале AMC).
- Идентификация: RQM может быть низким. Система определяет «AMC» как часть класса «Телеканалы» (Class of Related Terms).
- Производные запросы: Система генерирует запросы, заменяя AMC на другие каналы: [program schedule the voice NBC], [… CBS], [… ABC].
- Оценка RQM: Система сравнивает RQM этих запросов.
- Выбор коррекции: Запрос с «NBC» дает наивысший RQM (так как шоу идет на этом канале и результаты наиболее авторитетны).
- Результат: Система выполняет поиск по [program schedule the voice NBC].
Вопросы и ответы
Чем этот механизм отличается от обычной проверки орфографии Google?
Обычная проверка орфографии часто опирается на словари и историю запросов. Описанный механизм предназначен для ситуаций, когда этих данных недостаточно (редкие запросы) или когда ошибка сложная (омофоны, путаница сущностей). Ключевое отличие — он ищет исправления непосредственно в контенте веба (заголовки, анкоры, URL), анализируя результаты производных запросов, а не только сам ошибочный термин.
Что такое Resource Quality Measure (RQM) и почему он важен?
RQM — это оценка общего качества страницы результатов поиска (SERP) для данного запроса. В этом патенте RQM играет двойную роль. Во-первых, низкий RQM исходного запроса является основным триггером для запуска процесса коррекции. Во-вторых, при исправлении ошибок типа Класс-Экземпляр, система выбирает ту альтернативу (например, правильный бренд или канал), которая дает наивысший RQM.
Что такое «Usage Quality Measure» и как SEO-специалист может на него повлиять?
Это метрика, показывающая, насколько качественно и часто термин используется в индексе. Она учитывает вхождения термина в заголовки (Titles), анкорные тексты (Anchors) и частотные биграммы (словосочетания). SEO-специалисты могут повлиять на нее, обеспечивая последовательное и точное использование ключевой терминологии в этих элементах на своем сайте и во входящих ссылках.
Как система обрабатывает путаницу между похожими брендами или продуктами (ошибки Класс-Экземпляр)?
Если система определяет, что термин принадлежит к классу часто путаемых сущностей (например, бренды) и качество выдачи низкое, она перебирает альтернативы. Она генерирует запросы с другими брендами из этого класса и сравнивает качество результатов (RQM). Система выберет тот бренд, который дает наиболее качественную выдачу в контексте запроса.
Какое значение этот патент имеет для SEO под длинный хвост (long-tail)?
Значение велико, так как патент напрямую нацелен на улучшение понимания редких и уникальных запросов. Для long-tail стратегий критически важна точность терминологии в ключевых элементах (Title, URL, Anchors). Если ваш сайт использует правильные термины, Google может скорректировать ошибочный запрос пользователя и привести его на вашу страницу.
Почему система использует именно Titles, Anchors и URL для поиска исправлений?
Эти элементы традиционно являются сильными сигналами релевантности и кратко описывают содержание страницы или указывают на то, как другие сайты ссылаются на нее. Google доверяет этим элементам как надежному источнику устоявшейся и правильной терминологии по сравнению с основным текстом страницы.
Как система определяет, что термин является опечаткой, если он есть в словаре (например, омофон)?
Даже если термин есть в словаре, система может пометить его как потенциально неточный, если общая выдача низкого качества (низкий RQM) И сам термин редко используется в контексте других слов запроса (низкий Usage Quality Measure). Например, в запросе о рецептах слово «carat» будет иметь низкую меру использования по сравнению с «carrot».
Использует ли система результаты исходного (ошибочного) запроса для поиска исправления?
Нет, это ключевая особенность патента. В Claim 1 указано, что скорректированный термин определяется независимо (independent) от набора ресурсов, найденных по исходному запросу. Это сделано потому, что результаты по ошибочному запросу часто бывают низкого качества и не содержат нужной информации для коррекции.
Что произойдет, если мой сайт использует нестандартное написание термина?
Если это написание не распространено на других авторитетных сайтах, его Usage Quality Measure будет низким. Если пользователь использует это написание, система может посчитать его «потенциально неточным» и попытаться заменить его на более общепринятый вариант, найденный на других сайтах. Это может привести к потере трафика по этому специфическому написанию.
Что происходит, если система не может найти хорошее исправление?
Патент описывает опциональный шаг верификации. Если скорректированный запрос не удовлетворяет критериям верификации (например, не повышает RQM), система не будет его использовать и вернется к обработке исходного запроса, даже если его результаты низкого качества.