Google использует механизм для понимания неоднозначных запросов, анализируя, какие документы пользователи выбирают (клики и время просмотра) и что еще они ищут в рамках одной сессии. Если пользователи часто выбирают документы определенной категории (например, «Товар») по данному запросу, Google присваивает эту категорию самому запросу и распространяет ее на связанные запросы в сессии.
Описание
Какую задачу решает
Патент решает проблему точной классификации коротких или неоднозначных поисковых запросов, когда текст запроса не дает достаточной информации о намерении пользователя (интенте). Например, запрос «lincoln» может относиться к президенту, городу или автомобилю. Точная классификация необходима для улучшения релевантности, активации нужных вертикалей поиска (например, товаров или новостей) и применения фильтров (например, SafeSearch).
Что запатентовано
Запатентована система классификации запросов путем распространения (propagation) классификаций от связанных «поисковых сущностей» (Search Entities – документы, сайты, другие запросы). Связь между запросом и сущностями определяется на основе агрегированных данных о поведении пользователей (User Behavior Data), таких как клики, время просмотра (Dwell Time) и данные поисковых сессий (Session Data).
Как это работает
Система использует несколько ключевых механизмов:
- Анализ поведения: Определяются документы, которые пользователи считают наиболее релевантными запросу (например, те, что получают long clicks).
- Перенос классификации: Если значительный процент этих релевантных документов имеет общую классификацию (например, «Продукт»), эта классификация переносится на сам запрос.
- Использование контекста сессии: Анализируются другие запросы и документы в той же поисковой сессии. Классификация может быть определена на основе этого контекста и распространена на все запросы в сессии.
- Взвешивание: Влияние связанных сущностей взвешивается по их релевантности (поведенческие данные) или близости к запросу в рамках сессии.
- Итеративный процесс: Классификации могут распространяться итеративно: от документов к запросам, а затем от запросов обратно к документам.
Актуальность для SEO
Высокая. Понимание интента пользователя за пределами буквального текста запроса является фундаментальной задачей современных поисковых систем. Использование поведенческих сигналов и контекста сессии для разрешения неоднозначности остается критически важным компонентом модуля Query Understanding в 2025 году.
Важность для SEO
Патент имеет высокое значение для SEO (8/10). Он демонстрирует, что интерпретация запроса Google напрямую зависит от коллективного поведения пользователей. Если ваш контент не соответствует классификации (интенту), которую Google вывел из кликов и сессий пользователей, он не будет считаться релевантным. Это подчеркивает стратегическую важность соответствия доминантному интенту и оптимизации пост-клик вовлеченности (Dwell Time).
Детальный разбор
Термины и определения
- Search Entity (Поисковая сущность)
- Общий термин для элементов, участвующих в поиске: документы (веб-страницы), сайты, домены, запросы, сессии.
- User Behavior Data (Данные о поведении пользователей)
- Данные, отражающие взаимодействие пользователей с результатами поиска. Включают Click Data, Dwell Time и Session Data. Используются для определения релевантности.
- Click Data (Данные о кликах)
- Информация о взаимодействии с результатами, в частности, длительность просмотра документа.
- Long Click / Short Click (Длинный / Короткий клик)
- Классификация кликов на основе Dwell Time. Long click указывает на удовлетворенность и релевантность, Short click — на их отсутствие.
- Session Data (Данные сессии)
- Запись последовательности запросов и взаимодействий пользователя в течение определенного периода. Используется для понимания контекста и поискового пути (Search Journey).
- Propagation (Распространение)
- Механизм переноса классификации между связанными Search Entities (например, от документа к запросу или между запросами в сессии).
- Classification Threshold (Порог классификации)
- Минимальный процент или количество связанных сущностей, которые должны иметь определенную классификацию, чтобы она была присвоена целевому запросу.
- Transition Probabilities (Вероятности перехода)
- Вероятность перехода пользователя от одной сущности к другой (например, Query-to-Query). Используется для определения связанности.
- Quality of Result Statistic (Статистика качества результата)
- Метрика релевантности документа запросу, производная от User Behavior Data (например, агрегированные long clicks).
Ключевые утверждения (Анализ Claims)
Патент US9659097B1 является продолжением (continuation) и фокусируется на использовании данных сессий для классификации.
Claim 1 (Независимый пункт): Описывает метод классификации запроса на основе данных сессии и распространения этой классификации внутри сессии.
- Система получает запрос на классификацию первого запроса (first query).
- Получаются данные сессий (Session Data), в которых он встречается. Сессия включает последовательные запросы одного пользователя и результирующие Search Entities.
- Из данных сессий выбирается множество Search Entities, которые часто встречаются (frequently occur) в ответ на выполнение первого запроса.
- Для потенциальной классификации определяется мера (first measure) того, сколько выбранных сущностей имеют эту классификацию.
- Проверяется, удовлетворяет ли эта мера порогу (classification threshold).
- Если ДА:
- Классификация присваивается первому запросу.
- Определяется, что второй запрос (second query) встречается в той же сессии, что и первый.
- Классификация также присваивается второму запросу.
Ядро изобретения — использование агрегированного контекста сессий для определения классификации запроса и активное распространение этого понимания на другие запросы в рамках того же поискового пути пользователя.
Claim 7 (Зависимый от 1): Детализирует расчет меры.
Классификация каждой сущности взвешивается в соответствии с мерой близости (measure of proximity) этой сущности к первому запросу в сессии. Сущности, находящиеся ближе в последовательности действий, имеют больший вес.
Claim 8 (Зависимый от 1): Альтернативный метод взвешивания.
Классификация каждой сущности взвешивается в соответствии с User Behavior Data относительно первого запроса. Сущности с лучшими поведенческими сигналами (например, long clicks) имеют больший вес.
Где и как применяется
Изобретение применяется преимущественно на этапе понимания запросов, используя данные, обработанные на этапе индексирования, и влияет на ранжирование.
INDEXING – Индексирование и извлечение признаков
На этом этапе собираются и обрабатываются User Behavior Data и Session Data. Также рассчитываются и сохраняются классификации для Search Entities (документов, сайтов). Вычисляются Quality of Result Statistics.
QUNDERSTANDING – Понимание Запросов
Основное применение патента. Query Classifier Engine использует описанные механизмы для определения классификации (интента, тематики) входящего запроса. Это может происходить офлайн (предварительный расчет для исторических запросов) или онлайн (анализ текущей сессии).
RANKING / RERANKING – Ранжирование / Переранжирование
Полученная Query Classification используется как входной сигнал для Ranking Engine или Rank Modifier Engine. Классификация влияет на выбор релевантных документов, активацию вертикалей поиска, применение фильтров (например, SafeSearch) и форматирование SERP.
Входные данные:
- Входящий запрос.
- User Behavior Data (клики, dwell time).
- Session Data (контекст сессии).
- Существующие классификации Search Entities.
Выходные данные:
- Классификация(и) для входящего запроса.
- Классификация(и) для других запросов в той же сессии (согласно Claim 1).
На что влияет
- Специфические запросы: Наибольшее влияние на неоднозначные (ambiguous) запросы, где ключевые слова не дают четкого интента (например, «apple», «java»), а также на короткие и редкие запросы.
- Конкретные ниши: Критично в e-commerce (определение товарного интента), новостях и чувствительных тематиках (например, adult content), где классификация определяет фильтрацию и формат выдачи.
Когда применяется
- Условия работы: Требуется наличие достаточного объема User Behavior Data или Session Data, связанных с запросом (FIG. 6A). Если данных недостаточно, система не сможет надежно классифицировать запрос этим методом.
- Пороговые значения: Применяется, когда достигается Classification Threshold – достаточный (часто взвешенный) процент связанных сущностей поддерживает определенную классификацию.
- Временные рамки: Применяется как офлайн (периодическое обновление классификаций), так и онлайн (при обработке запроса и анализе текущей сессии).
Пошаговый алгоритм
Патент описывает несколько методов (на основе документов, сессий, переходов). Ниже представлен обобщенный алгоритм классификации запроса.
- Получение запроса: Система получает запрос Q для классификации.
- Идентификация связанных сущностей: Определяются Search Entities (документы D, другие запросы Q’), связанные с Q. Это делается на основе:
- User Behavior Data (например, документы с наибольшим количеством long clicks по запросу Q).
- Session Data (сущности, встречающиеся в тех же сессиях, что и Q).
- Проверка достаточности данных: Проверяется, достаточно ли накоплено данных для надежной классификации. Если нет – стоп.
- Получение классификаций сущностей: Извлекаются существующие классификации для идентифицированных сущностей.
- Взвешивание (Опционально): Классификации сущностей взвешиваются. Вес может зависеть от:
- Релевантности сущности запросу Q (например, Quality of Result Statistic).
- Близости (Proximity) сущности к Q в рамках сессии.
- Агрегация и расчет меры: Рассчитывается процент или взвешенная мера сущностей, поддерживающих целевую классификацию C.
- Проверка порога: Сравнивается рассчитанная мера с Classification Threshold. Если ниже – стоп.
- Проверка согласованности (Опционально, FIG 6A): Проверяется, согласуется ли результат для Топ-N наиболее релевантных сущностей с общим результатом (Consistency Check). Если нет – стоп.
- Присвоение классификации: Классификация C присваивается запросу Q.
- Распространение (Claim 1): Классификация C распространяется на другие запросы, встречающиеся в той же сессии, что и Q.
Итеративный процесс (FIG. 11):
Система может выполнять процесс итеративно: использовать классификации документов для классификации запросов, а затем использовать полученные классификации запросов для обновления классификаций документов. Цикл повторяется для уточнения данных.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании поведенческих и контекстуальных данных.
- Поведенческие факторы: Критически важные данные.
- Click Data и Dwell Time: используются для определения Long Clicks и Short Clicks.
- Result Selection Logs: Агрегированные данные о взаимодействиях (запрос, документ, время, язык, страна).
- Контекстные факторы (Session Data): Последовательность запросов и кликов в рамках одной сессии. Используется для определения связи и близости (proximity) между сущностями.
- Системные данные:
- Предварительно рассчитанные классификации Search Entities.
- Transition Probabilities между сущностями.
Какие метрики используются и как они считаются
- Quality of Result Statistic: Метрика релевантности документа запросу. Рассчитывается на основе агрегированных User Behavior Data (например, взвешенное среднее long clicks).
- Classification Threshold: Заданный порог (процент или мера), необходимый для присвоения классификации.
- Веса (Weights): Множители, применяемые к классификациям сущностей. Рассчитываются на основе:
- Релевантности (Quality of Result Statistic).
- Близости в сессии (Proximity).
- Вероятности перехода (Transition Probability).
- Consistency Check: Проверка согласованности классификации между Топ-N наиболее релевантными сущностями и всем набором.
Выводы
- Поведение пользователей определяет интент запроса: Google в значительной степени полагается на коллективное поведение пользователей (клики, время пребывания) для определения классификации и, следовательно, доминирующего интента запроса. Это важнее, чем анализ ключевых слов в самом запросе.
- Long Clicks как ключевой сигнал релевантности: Dwell time и Long clicks используются для идентификации наиболее релевантных документов, которые затем определяют классификацию запроса. Это подтверждает важность удовлетворенности пользователя после клика.
- Контекст сессии критичен (Session Context): Запросы не обрабатываются изолированно. Система анализирует весь поисковый путь. Классификация одного запроса может быть определена на основе других сущностей в сессии и распространена на другие запросы в той же сессии (Claim 1).
- Итеративная классификация: Google использует итеративный подход, где классификация документов влияет на классификацию запросов, и наоборот. Это создает усиливающую петлю обратной связи, уточняя понимание системы.
- Разрешение неоднозначности через доминирующее поведение: Для неоднозначных запросов доминирующее поведение пользователей определяет основную классификацию. Система отдает предпочтение наиболее популярному интенту.
Практика
Best practices (это мы делаем)
- Точное соответствие доминирующему интенту: Анализируйте SERP, чтобы понять, как Google классифицирует ваши целевые запросы (информационный, коммерческий и т.д.) на основе поведения пользователей. Ваш контент должен строго соответствовать этой доминирующей классификации.
- Оптимизация вовлеченности и Dwell Time: Поскольку long clicks являются ключевым сигналом релевантности, критически важно оптимизировать контент и UX для удержания пользователя. Качественный, полный ответ на запрос, хорошая структура и быстрая загрузка способствуют генерации положительных поведенческих сигналов.
- Оптимизация под поисковый путь (Search Journey): Учитывайте контекст сессии. Понимайте, какие запросы пользователи вводят до и после целевого запроса. Создавайте контентные кластеры, которые поддерживают весь поисковый путь, учитывая, что классификация может распространяться между этими запросами.
- Построение тематического авторитета (Topical Authority): Становитесь авторитетным источником в рамках определенной классификации. Если ваши документы постоянно удовлетворяют пользователей (long clicks) по тематическим запросам, это укрепляет классификацию этих запросов в вашу пользу.
Worst practices (это делать не надо)
- Кликбейт и обман ожиданий: Использование заголовков для привлечения кликов на контент, который не соответствует интенту, приводит к short clicks. Это сигнализирует о низкой релевантности и негативно влияет на Quality of Result Statistic страницы.
- Игнорирование доминирующего интента: Попытки ранжироваться по неоднозначному запросу с контентом, который соответствует второстепенному интенту. Если поведение пользователей указывает на одну классификацию, борьба с ней неэффективна.
- Смешивание интентов на одной странице: Создание контента, который пытается охватить слишком много разных классификаций, может затруднить его четкую идентификацию системой и снизить его ценность в механизме распространения.
Стратегическое значение
Патент подтверждает стратегический переход от буквального сопоставления ключевых слов к пониманию намерений на основе поведенческих данных и контекста сессии. Для SEO это означает, что анализ поведения пользователей и соответствие этому поведению часто важнее традиционной текстовой оптимизации. Долгосрочная стратегия должна фокусироваться на создании контента, который наилучшим образом удовлетворяет потребность пользователя на протяжении всей его поисковой сессии.
Практические примеры
Сценарий 1: Разрешение неоднозначности запроса «Java»
- Запрос: Пользователь вводит «Java».
- Анализ поведения: Google анализирует User Behavior Data. 80% long clicks приходится на документы, классифицированные как «Язык программирования», 15% — на «Кофе», 5% — на «Остров».
- Применение порога: 80% превышает Classification Threshold. Consistency Check подтверждает, что Топ-10 документов также относятся к программированию.
- Результат: Запрос «Java» классифицируется как «Язык программирования». Выдача формируется соответствующим образом.
Сценарий 2: Распространение классификации в сессии (Claim 1)
- Запрос 1: Пользователь вводит «Купить билеты в Париж». Запрос классифицируется как «Коммерческий/Путешествия».
- Запрос 2 (в той же сессии): Пользователь вводит «Лучшие круассаны». Это неоднозначный запрос (рецепт, история, локации).
- Распространение: Система распространяет классификацию «Путешествия/Локальный» с первого запроса на второй.
- Результат: Выдача по запросу «Лучшие круассаны» будет адаптирована под локальный интент (пекарни в Париже), а не под рецепты, благодаря контексту сессии.
Вопросы и ответы
Как система определяет, какие документы наиболее релевантны запросу для целей классификации?
Система использует User Behavior Data, в частности Click Data и Dwell Time. Документы, которые получают наибольшее количество long clicks (длительное время пребывания пользователя после клика), считаются наиболее релевантными. На основе этого рассчитывается Quality of Result Statistic.
Что такое «Проверка согласованности» (Consistency Check) и зачем она нужна?
Это механизм валидации (описанный в FIG. 6A). Система проверяет, согласуется ли классификация, основанная на всем наборе релевантных документов, с классификацией, основанной только на Топ-N самых релевантных (наиболее кликабельных) документах. Это гарантирует, что классификация не искажена шумом и действительно отражает доминирующий интент.
Как патент учитывает контекст поисковой сессии (Session Data)?
Контекст используется двумя способами. Во-первых, классификации других запросов и документов в сессии могут использоваться для классификации текущего запроса (с весом по близости). Во-вторых, Claim 1 явно описывает механизм, когда классификация одного запроса напрямую распространяется на другие запросы в той же сессии (например, уточнения).
Может ли интент запроса измениться со временем согласно этому патенту?
Да. Поскольку классификация основана на текущих User Behavior Data, если поведение пользователей изменится (например, из-за новостного события или выхода нового продукта), классификация запроса также адаптируется. Это динамическая система.
Что означает итеративное распространение классификаций (Iterative Propagation)?
Это циклический процесс (FIG. 11). Сначала классификации документов используются для классификации запросов. Затем эти обновленные классификации запросов используются для уточнения классификаций документов. Этот цикл повторяется, позволяя классификациям распространяться и усиливаться по всему графу взаимосвязей.
Как SEO-специалист может повлиять на классификацию своих страниц или целевых запросов?
Необходимо создавать контент, который точно соответствует доминирующему интенту и генерирует сильные положительные поведенческие сигналы (long clicks). Если ваша страница постоянно удовлетворяет пользователей по запросу, она укрепляет связь между запросом и классификацией вашего контента.
Что произойдет, если по запросу недостаточно поведенческих данных?
Патент предусматривает проверку достаточности данных (Sufficient User Behavior Data). Если данных мало (например, для новых или очень редких запросов), система не будет использовать этот механизм классификации и будет полагаться на другие методы (например, анализ текста запроса).
Как используются «Вероятности переходов» (Transition Probabilities)?
Они измеряют вероятность того, что пользователь перейдет от одной сущности к другой (например, от Запроса А к Запросу Б). Если вероятность высока, это указывает на сильную связь. Система может использовать эту связь (FIG. 10) для распространения классификации между связанными запросами.
Влияет ли этот патент на появление SERP features?
Да, напрямую. Query Classification является ключевым триггером для активации функций SERP. Если запрос классифицирован как «Продукт», Google покажет товарные блоки. Если как «Локальный» — карты. Точное понимание классификации критично для оптимизации под SERP features.
Что важнее согласно патенту: текстовая релевантность или поведенческие сигналы?
Для целей классификации и разрешения неоднозначности, описанных в этом патенте, поведенческие сигналы играют решающую роль. Они определяют, что пользователи считают релевантным на практике, и именно это понимание используется для классификации запроса, перекрывая потенциальные текстовые интерпретации.