Google использует этот механизм для разрешения неоднозначности запросов. Система генерирует несколько возможных интерпретаций (интентов) запроса и создает уточненные запросы для каждой из них. Затем она сравнивает, насколько результаты выдачи по уточненным запросам похожи на результаты по исходному запросу. Та интерпретация, чьи результаты наиболее схожи, признается доминирующим интентом пользователя.
Описание
Какую задачу решает
Патент решает проблему неоднозначности (ambiguity) поисковых запросов. Когда запрос содержит термины (substring), которые могут относиться к разным сущностям или подразумевать разные намерения (например, запрос «Washington’s age» может относиться к президенту, актеру или штату), системе сложно определить истинный интент пользователя. Изобретение предлагает метод для систематической оценки различных семантических интерпретаций и выбора наиболее вероятной.
Что запатентовано
Запатентована система для оценки и валидации различных семантических интерпретаций (Semantic Interpretations) неоднозначного запроса. Суть метода заключается в генерации уточненных запросов (Modified Search Query) для каждой интерпретации и сравнении их результатов поиска с результатами исходного запроса. Степень сходства (Degree of Similarity) между этими наборами результатов используется как показатель достоверности интерпретации.
Как это работает
Механизм использует саму поисковую выдачу для валидации гипотез об интенте:
- Идентификация интерпретаций: Система определяет возможные Semantic Interpretations для неоднозначного запроса.
- Генерация модификаций: Для каждой интерпретации используется канонический шаблон (Canonical Search Query). На его основе генерируется Modified Search Query, который устраняет неоднозначность (например, добавлением уточняющих слов, таких как «книга» или «фильм»).
- Параллельный поиск: Система выполняет поиск по исходному запросу и по всем модифицированным запросам.
- Сравнение SERP: Вычисляется Degree of Similarity между результатами исходного запроса и результатами каждого модифицированного запроса.
- Выбор интента: Интерпретация, чей модифицированный запрос дал результаты, наиболее похожие на исходные, выбирается как наиболее вероятный интент.
Актуальность для SEO
Высокая. Понимание запросов (Query Understanding) и разрешение семантической неоднозначности являются фундаментальными задачами поиска. Учитывая, что среди изобретателей есть ключевые фигуры в области NLP (например, Jakob Uszkoreit, один из авторов архитектуры Transformer), этот патент описывает базовые принципы, которые остаются актуальными для современных систем интерпретации запросов (BERT, MUM).
Важность для SEO
Патент имеет высокое значение (7.5/10) для понимания процессов Query Understanding. Он демонстрирует механизм, с помощью которого Google определяет доминирующий интент для неоднозначных запросов. Это критически важно для SEO-стратегий: если контент сайта не соответствует доминирующему интенту, определенному этим механизмом, ранжироваться по неоднозначному запросу будет крайне сложно.
Детальный разбор
Термины и определения
- Canonical Search Query (Канонический поисковый запрос)
- Эталонный, хорошо сформированный запрос или шаблон, который однозначно выражает конкретную семантическую интерпретацию. Используется как источник уточняющих терминов для генерации модифицированного запроса.
- Degree of Similarity (Степень сходства)
- Метрика, оценивающая, насколько набор результатов поиска по модифицированному запросу похож на набор результатов поиска по исходному запросу. Рассчитывается на основе атрибутов наборов результатов.
- Modified Search Query (Модифицированный поисковый запрос)
- Запрос, сгенерированный путем модификации исходного запроса с использованием Canonical Search Query. Представляет собой уточненную и недвусмысленную версию исходного запроса.
- Semantic Interpretation (Семантическая интерпретация)
- Предполагаемый смысл неоднозначного запроса; кандидатское намерение (candidate intent) пользователя, часто связанное с конкретной сущностью.
- Substring (Подстрока)
- Часть терминов исходного запроса, которая является источником неоднозначности, так как может идентифицировать несколько разных сущностей (plurality of different entities).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод оценки семантических интерпретаций.
- Система получает результаты для исходного поискового запроса. Запрос содержит substring, которая может идентифицировать несколько разных сущностей (plurality of different entities).
- Система получает набор Semantic Interpretations. Каждая интерпретация представляет собой candidate intent, связанный с одной конкретной сущностью из возможных.
- Для каждой интерпретации система получает Canonical Search Query.
- Для каждой интерпретации генерируется Modified Search Query.
Детализация механизма генерации: Генерация включает модификацию substring в исходном запросе путем добавления к ней второго набора терминов из Canonical Search Query. Критически важно, что эти добавленные термины отсутствовали в исходном запросе. Комбинация исходной substring и добавленных терминов однозначно идентифицирует сущность, связанную с данной интерпретацией. (Например: Исходный запрос «how long is [harry potter]». Добавленные термины: «book». Модифицированный запрос: «how long is [harry potter book]»). - Система получает наборы результатов для каждого Modified Search Query.
- Определяется Degree of Similarity между результатами исходного запроса и результатами каждого модифицированного запроса. Сравнение основано на атрибутах наборов результатов.
- Выбирается конкретная Semantic Interpretation на основе вычисленных степеней сходства (обычно та, у которой сходство максимальное).
Claims 3-6 (Зависимые пункты): Детализируют методы вычисления Degree of Similarity.
- Claim 3: Степень сходства основана на размере пересечения (size of an intersection) между двумя наборами результатов. Большее пересечение указывает на большую схожесть.
- Claim 4: Степень сходства основана на размере разницы (size of a difference) между двумя наборами результатов. Меньшая разница указывает на большую схожесть.
- Claim 5: Степень сходства основана на частоте встречаемости (frequency of occurrence) ключевых слов исходного запроса в обоих наборах результатов.
- Claim 6: Степень сходства основана на сравнении порядка (comparing an order) результатов в двух наборах.
Где и как применяется
Изобретение применяется на этапе понимания запроса для разрешения неоднозначности и валидации интента.
QUNDERSTANDING – Понимание Запросов
Это основная область применения. Система (в патенте упоминается как Interpretation Evaluator) анализирует входящий запрос на предмет неоднозначности. Если она обнаружена, активируется описанный механизм для генерации, оценки и выбора наилучшей Semantic Interpretation до того, как будет сформирована финальная выдача.
RANKING – Ранжирование
Механизм взаимодействует с этапом ранжирования как с инструментом оценки. Система должна выполнить несколько параллельных поисковых операций: одну для исходного запроса и по одной для каждого сгенерированного Modified Search Query. Результаты этих операций используются для вычисления Degree of Similarity.
Входные данные:
- Исходный поисковый запрос пользователя.
- Данные для определения Semantic Interpretations и Canonical Queries (вероятно, из базы знаний или Knowledge Graph).
- Поисковый индекс для извлечения результатов поиска.
Выходные данные:
- Оценка (Degree of Similarity) для каждой рассмотренной семантической интерпретации.
- Выбранная (доминирующая) семантическая интерпретация запроса.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, особенно те, которые содержат названия сущностей с несколькими значениями (например, «Apple», «Jaguar») или фразовые запросы, где комбинация слов может иметь разный интент (как в примере с «how long is harry potter»).
Когда применяется
- Триггеры активации: Алгоритм активируется, когда система идентифицирует в запросе подстроку (substring), которая может относиться к нескольким различным сущностям или интентам, и для которой система может сгенерировать несколько валидных Semantic Interpretations.
Пошаговый алгоритм
- Получение исходного запроса и первичный поиск: Система получает запрос, идентифицирует неоднозначную подстроку и получает первый набор результатов для исходного запроса.
- Идентификация интерпретаций: Определяется набор возможных Semantic Interpretations (гипотез об интенте и сущностях).
- Получение канонических запросов: Для каждой интерпретации извлекается соответствующий Canonical Search Query.
- Генерация модифицированных запросов: Для каждой интерпретации создается Modified Search Query путем добавления уточняющих терминов из канонического запроса к неоднозначной подстроке исходного запроса.
- Вторичные поиски: Выполняется поиск и получаются наборы результатов для каждого Modified Search Query.
- Вычисление сходства: Для каждой интерпретации рассчитывается Degree of Similarity между ее набором результатов (вторичным) и результатами исходного запроса (первичным).
- Анализ метрик сходства: При вычислении используются метрики, такие как размер пересечения, разница, сравнение порядка ранжирования или частота ключевых слов.
- Выбор интерпретации: Выбирается Semantic Interpretation с наивысшей Degree of Similarity как наиболее вероятный интент пользователя.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст документов в результатах поиска используется для анализа. В частности, анализируется частота встречаемости (frequency of occurrence) ключевых слов исходного запроса в этих документах (Claim 5).
- Системные данные (SERP Data): Наборы результатов поиска для всех запросов. Это включает список ресурсов (URL) и их порядок (order) в выдаче (Claim 6).
- Поведенческие факторы (Косвенно): В описании патента упоминается, что использование результатов поиска для оценки интерпретаций позволяет учитывать данные, такие как клики (click-through data) и пользовательские данные (user-specific data), которые уже были использованы при генерации этих результатов (т.е. при их ранжировании), без необходимости их дополнительного анализа.
Какие метрики используются и как они считаются
Ключевой метрикой является Degree of Similarity. Патент предлагает несколько методов ее расчета:
- Intersection Size (Размер пересечения): Количество документов, которые присутствуют в обоих наборах результатов (Claim 3).
- Difference Size (Размер разницы): Количество документов, присутствующих в одном наборе, но отсутствующих в другом (Claim 4).
- Keyword Frequency (Частота ключевых слов): Сравнение частоты появления терминов исходного запроса в документах обоих наборов результатов (Claim 5).
- Order Comparison (Сравнение порядка): Анализ схожести ранжирования (позиций) общих документов в двух наборах результатов (Claim 6).
Выводы
- Валидация интента через сравнение SERP: Ключевой вывод заключается в том, что Google использует сами результаты поиска (SERP) как механизм обратной связи для валидации своих гипотез о намерении пользователя. Предполагается, что если уточненный (модифицированный) запрос возвращает похожий набор результатов, то интерпретация, лежащая в его основе, верна.
- Доминирующий интент определяется консенсусом ранжирования: Механизм склонен выбирать ту интерпретацию, которая уже лучше всего представлена в выдаче по исходному запросу. Это означает, что общее понимание темы, отраженное в алгоритмах ранжирования (включая поведенческие сигналы), определяет, как будет интерпретирован неоднозначный запрос.
- Активное разрешение неоднозначности сущностей: Патент описывает конкретный механизм уточнения сущности путем добавления дескрипторов из Canonical Query к исходной подстроке (например, добавление «book» или «movie» к «harry potter»). Это подчеркивает важность контекстуальных терминов.
- Многофакторная оценка сходства SERP: Сходство между наборами результатов оценивается комплексно: учитывается не только наличие общих документов (пересечение), но и их порядок ранжирования (Claim 6) и контентные сигналы (Claim 5).
Практика
Best practices (это мы делаем)
- Анализ SERP для определения доминирующего интента: При таргетинге на потенциально неоднозначные запросы необходимо анализировать текущую выдачу, чтобы понять, какую интерпретацию Google считает доминирующей. Контент должен соответствовать этому доминирующему интенту, так как именно он будет подтвержден описанным механизмом.
- Четкое позиционирование сущности и использование дескрипторов (Disambiguation): Создавайте контент, который недвусмысленно сигнализирует о своем предмете. Если контент посвящен сущности с неоднозначным названием (например, «Jaguar»), критически важно использовать соответствующие дескрипторы («автомобиль», «животное»). Это поможет Google правильно сопоставить страницу с соответствующим Modified Search Query.
- Оптимизация под канонические формулировки: Анализируйте, какие формулировки запросов являются наиболее частыми и однозначными (потенциальные Canonical Queries) для вашей тематики. Убедитесь, что контент хорошо оптимизирован под эти точные формулировки. Это повышает шансы на высокое ранжирование по Modified Search Query, что увеличит Degree of Similarity.
Worst practices (это делать не надо)
- Борьба с доминирующей интерпретацией: Попытка ранжироваться по неоднозначному термину с контентом, который обслуживает второстепенный интент. Например, пытаться ранжировать страницу о фрукте Apple по запросу «Apple», где доминирующий интент — технологическая компания. Система отдаст предпочтение доминирующей интерпретации.
- Изолированное использование неоднозначных ключевых слов: Оптимизация страницы только под короткий неоднозначный запрос без достаточного поддерживающего контекста и дескрипторов. Это затруднит системе валидацию правильной интерпретации для вашей страницы.
- Игнорирование порядка результатов в SERP: Недостаточно просто присутствовать в выдаче. Патент подчеркивает важность порядка результатов (Claim 6) при оценке схожести. Необходимо стремиться к топовым позициям по уточненным (каноническим) запросам, чтобы усилить релевантность для общих неоднозначных запросов.
Стратегическое значение
Патент подтверждает стратегический фокус Google на глубоком понимании интентов и сущностей. Он показывает, что Google активно разрешает неоднозначность и полагается на уже существующие паттерны ранжирования (консенсус выдачи) для определения того, что ищут пользователи. Для SEO это означает, что стратегически важно выравнивать контент с доминирующим интентом, который Google выявляет с помощью этого процесса, а анализ SERP является ключевым элементом семантического планирования.
Практические примеры
Сценарий: Определение интента для запроса «Скорость Меркурия»
- Исходный запрос (Q_orig): «Скорость Меркурия».
- Анализ (Система Google): Система идентифицирует две интерпретации: S1 (Планета Меркурий) и S2 (Лодочный мотор Mercury).
- Генерация модифицированных запросов (Система Google):
- Q_mod_1: «Орбитальная скорость планеты Меркурий»
- Q_mod_2: «Максимальная скорость лодочного мотора Mercury»
- Сравнение (Система Google): Система видит, что результаты Q_orig (исходная выдача) сильно пересекаются с результатами Q_mod_1 (планета) и минимально с Q_mod_2 (мотор). Degree of Similarity для S1 значительно выше.
- Вывод (Система Google): Интерпретация S1 (Планета) выбирается как доминирующая для запроса «Скорость Меркурия».
- Действия SEO: Если сайт посвящен астрономии, он должен использовать четкие термины (соответствующие Q_mod_1), чтобы закрепиться в выдаче Q_orig. Если сайт посвящен лодкам, оптимизироваться под общий запрос «Скорость Меркурия» неэффективно; нужно фокусироваться на уточненных запросах (Q_mod_2).
Вопросы и ответы
Как система определяет, что запрос является неоднозначным?
Патент указывает, что система идентифицирует в запросе подстроку (substring), которая может относиться к нескольким различным сущностям (plurality of different entities). На практике это означает, что система распознает термины, связанные с несколькими узлами в Knowledge Graph или имеющие несколько доминирующих интентов в истории поиска.
Что такое Canonical Search Query и откуда он берется?
Canonical Search Query — это эталонная, недвусмысленная формулировка или шаблон запроса, который четко выражает конкретный интент. Например, «возраст [Имя Сущности]». Эти данные, вероятно, хранятся в системе понимания запросов и связаны с типами сущностей и их атрибутами в Knowledge Graph или генерируются на основе анализа логов запросов.
Как именно генерируется Modified Search Query?
Согласно Claim 1, он генерируется путем модификации неоднозначной подстроки исходного запроса. Система добавляет к этой подстроке дополнительные термины из Canonical Search Query, которых не было в исходном запросе. Это добавление призвано однозначно идентифицировать сущность (например, добавление слова «movie» или «book»).
Как рассчитывается «Степень сходства» (Degree of Similarity) между двумя выдачами?
Патент предлагает несколько методов (Claims 3-6). Основные включают: размер пересечения результатов (сколько общих документов в ТОПе), размер разницы результатов, сравнение порядка ранжирования документов в обеих выдачах и сравнение частоты встречаемости ключевых слов в результатах. Чем выше сходство, тем вероятнее интерпретация.
Означает ли этот механизм, что Google всегда предпочитает самую популярную интерпретацию запроса?
Да, в значительной степени. Поскольку система сравнивает результаты с исходной выдачей, она фактически проверяет, какая интерпретация уже лучше всего представлена в индексе и ранжируется по этому запросу. Это обычно коррелирует с доминирующей или наиболее популярной интерпретацией, отражающей консенсус выдачи.
Учитывает ли этот метод поведенческие факторы или персонализацию?
Косвенно — да. В описании патента упоминается, что при генерации результатов могут учитываться «click-through data» и «user-specific data». Сравнивая готовые результаты поиска (SERP), которые уже ранжированы с учетом этих факторов, система косвенно учитывает поведенческие данные и персонализацию без необходимости их отдельного анализа.
Как я могу использовать это знание для улучшения SEO?
Основная стратегия — обеспечить максимальную четкость вашего контента и соответствие доминирующему интенту. Используйте дескрипторы сущностей (например, «фильм», «компания»). Оптимизируйте контент под точные, канонические формулировки запросов. Это поможет вашей странице хорошо ранжироваться по Modified Search Queries и подтверждать правильную интерпретацию.
Что делать, если мой сайт посвящен второстепенному значению популярного термина?
Вам следует избегать таргетинга только на этот неоднозначный термин. Сосредоточьтесь на long-tail запросах, которые включают уточняющие слова (например, «уход за животным ягуар» вместо «ягуар»). Это соответствует логике модифицированных запросов, описанных в патенте.
На каком этапе поиска работает этот механизм?
Он работает на этапе Понимания Запросов (Query Understanding). Этот механизм используется для интерпретации ввода пользователя и определения его намерения до того, как произойдет основное ранжирование и формирование финальной выдачи.
Как этот патент связан с BERT или MUM?
Патент описывает инфраструктуру для оценки интерпретаций. Модели типа BERT или MUM могут использоваться для генерации этих Semantic Interpretations (понимания нюансов языка). Описанный в патенте механизм затем используется для валидации и выбора лучшей интерпретации, предложенной этими моделями, используя результаты поиска как эталон. (Примечательно, что Jakob Uszkoreit является соавтором архитектуры Transformer).