Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, «Pool»). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

Описание

Какую задачу решает

Патент решает проблему обработки поисковых запросов, которые имеют несколько различных значений или интерпретаций (неоднозначные запросы). Например, запрос «Pool» может относиться к бассейну, бильярдному столу или заведению. Цель — определить наиболее вероятное намерение пользователя на основе коллективного поведения и скорректировать выдачу так, чтобы избежать показа нерелевантных результатов, соответствующих второстепенным интерпретациям.

Что запатентовано

Запатентована система для разрешения неоднозначности запросов путем анализа исторических данных о предпочтениях пользователей. Система использует метрики (преимущественно Click-Through-Rate (CTR)), связанные с парами запрос/категория. Анализируя распределение этих метрик, система определяет, является ли запрос неоднозначным, идентифицирует доминирующие категории (предпочтения) и корректирует ранжирование, повышая результаты из этих категорий.

Как это работает

Система работает в несколько этапов:

Сбор данных: Система отслеживает исторические данные о кликах и показах для результатов из определенных категорий по конкретным запросам, вычисляя CTR для пар запрос/категория.
Определение неоднозначности: При получении запроса анализируется распределение CTR по категориям. Если ни одна категория значительно не доминирует или если энтропия (entropy) распределения высока, запрос считается неоднозначным.
Идентификация предпочтений: Если запрос неоднозначен, система определяет предпочтительные категории одним из двух методов: (1) Проверка превышения порогового значения CTR (возможно, с подъемом по иерархии категорий); (2) Поиск «резкого падения» (sharp drop-off) в значениях CTR для выявления «несущественных» категорий.
Корректировка ранжирования: Результаты, относящиеся к предпочтительным категориям, повышаются (boosting) в ранжировании.

Актуальность для SEO

Высокая. Понимание интента пользователя и обработка неоднозначных запросов являются фундаментальными задачами поиска. Хотя современные NLP-модели (BERT, MUM) значительно продвинулись в семантическом анализе, исторические поведенческие данные (CTR) остаются мощным сигналом для определения доминирующей интерпретации терминов-омонимов (например, «Apple», «Java»). Описанные механизмы лежат в основе определения основного интента для широких запросов.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно при работе с широкими или неоднозначными ключевыми словами. Он демонстрирует конкретный механизм, как Google определяет доминирующий интент на основе агрегированных поведенческих сигналов (CTR по категориям). Если сайт нацелен на второстепенное намерение, он может быть систематически понижен, если система классифицирует этот интент как «несущественный» (inconsequential).

Детальный разбор

Термины и определения

Ambiguous Query (Неоднозначный запрос): Запрос, имеющий более одной интерпретации. Определяется системой, если распределение метрик по категориям имеет высокую энтропию или не имеет явного лидера.
Category Hierarchy (Иерархия категорий): Структура организации категорий по уровням (например, Японский ресторан -> Азиатский ресторан -> Рестораны). Используется для агрегации метрик на более высоких уровнях.
Click-Through-Rate (CTR): Основная метрика предпочтений пользователя в патенте. Рассчитывается как отношение количества кликов к общему количеству показов для определенной пары запрос/категория.
Entropy (Энтропия): Мера неопределенности распределения метрик категорий для данного запроса. Высокая энтропия (распределение не является резко пиковым) указывает на неоднозначность запроса.
Inconsequential Category (Несущественная категория): Категория, идентифицированная как маловероятное намерение пользователя. Определяется, если ее метрика находится после «резкого падения» (sharp drop-off) в упорядоченном списке метрик.
Metric (Метрика): Числовое значение, указывающее на предпочтение пользователя (user preference). Примеры включают CTR, продолжительность взаимодействия или количество взаимодействий.
Query/Category Metric Store (Хранилище метрик запросов/категорий): База данных, хранящая пары запрос/категория и связанные с ними метрики, вычисленные на основе исторических данных.
Sharp Drop-off (Резкое падение): Значительное снижение значения метрики между двумя последовательными категориями в списке, упорядоченном по убыванию метрик. Используется для идентификации Inconsequential Categories.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод разрешения неоднозначных запросов.

Система получает поисковый запрос.
Идентифицируется множество категорий и соответствующих им метрик категорий. Каждая метрика указывает на предпочтение пользователя к результатам из этой категории для данного запроса.
Определяется, является ли запрос неоднозначным, на основе распределения (distribution) этих метрик.
Если запрос неоднозначен:
- Идентифицируются одна или несколько предпочтительных категорий (preferred categories) на основе метрик.
- Генерируется ранжированный набор результатов, при этом повышаются (boosting rankings) ранги результатов, соответствующих предпочтительным категориям.
Набор результатов предоставляется пользователю.

Claim 2 (Зависимый от 1): Уточняет, что метрикой является CTR, рассчитанный на основе исторических данных.

Claims 3 и 4 (Зависимые от 1): Уточняют методы определения неоднозначности.

Claim 3: Определение неоднозначности включает проверку того, что ни одна категория не имеет метрику, которая превышает метрики всех других категорий на заранее определенную величину (отсутствие доминирования).
Claim 4: Определение неоднозначности включает определение того, превышает ли энтропия (entropy) распределения метрик заранее определенное значение.

Claims 5 и 6 (Зависимые от 1): Уточняют методы идентификации предпочтительных категорий.

Claim 5 (Пороговый метод): Идентификация категорий, чьи метрики превышают заранее определенное значение.
Claim 6 (Метод резкого падения): Идентификация падения (drop-off), превышающего заранее определенное значение, между двумя последовательными метриками в упорядоченном списке. Категории до падения считаются предпочтительными.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры, в основном связанных с пониманием запроса и ранжированием.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна классифицировать контент (веб-страницы, сущности) по категориям. Эта информация необходима для последующего агрегирования метрик.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Включает:

Офлайн-обработку: Анализ исторических логов для вычисления и хранения метрик (CTR) для пар запрос/категория в Query/Category Metric Store.
Онлайн-анализ: При получении запроса система извлекает метрики и определяет, является ли запрос неоднозначным (используя энтропию или анализ доминирования).
Разрешение неоднозначности: Если запрос неоднозначен, система идентифицирует предпочтительные категории (используя пороговые значения или анализ падения).

RANKING – Ранжирование / RERANKING – Переранжирование
Результаты этапа QUNDERSTANDING используются для влияния на ранжирование. Система получает информацию о предпочтительных категориях и использует ее для повышения (boosting) результатов, связанных с этими категориями, или понижения результатов из inconsequential categories.

Входные данные:

Входящий поисковый запрос.
Исторические данные о взаимодействии пользователей (показы и клики).
Категоризация поисковых результатов (из индекса).
Query/Category Metric Store.
Иерархия категорий (если используется).

Выходные данные:

Определение статуса запроса (неоднозначный/однозначный).
Список предпочтительных категорий.
Скорректированные оценки ранжирования (с учетом бустинга по категориям).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на широкие, короткие или полисемичные запросы (запросы-омонимы), где существует несколько возможных интерпретаций (например, «Ягуар», «Pool», «Apple»).
Локальный поиск и карты: Патент явно упоминает применение в картографических приложениях (mapping application) для поиска точек интереса (POI), например, для разрешения неоднозначности между типами бизнеса.
Конкретные типы контента: Влияет на любой контент, который может быть четко классифицирован в рамках используемой системы категорий.

Когда применяется

Алгоритм активируется при обработке поискового запроса, но его корректирующее воздействие применяется только при выполнении определенных условий.

Триггер активации: Система должна определить, что запрос является неоднозначным (Ambiguous Query). Это происходит, если:
- Энтропия распределения метрик по категориям превышает порог.
- ИЛИ: Ни одна категория не доминирует над всеми остальными с достаточным отрывом (в патенте упоминаются примеры порогов в 30% или 50%).
Условия применения корректировки: После того как запрос признан неоднозначным, система должна успешно идентифицировать предпочтительные категории одним из двух методов (Пороговый или Резкий спад).

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов.

Процесс А: Сбор данных и вычисление метрик (Офлайн или в реальном времени)

Получение запроса и результатов: Система предоставляет набор результатов пользователю.
Отслеживание показов: Для каждого показанного результата инкрементируется счетчик просмотров (views counter) для всех связанных с ним категорий.
Отслеживание кликов: Если пользователь кликает на результат, инкрементируется счетчик кликов (clicks counter) для всех связанных с ним категорий.
Вычисление метрик: Вычисляются CTR для каждой пары запрос/категория.
Сохранение: Данные сохраняются в Query/Category Metric Store.

Процесс Б: Обработка запроса (Основной поток)

Получение запроса и метрик: Система получает запрос и извлекает связанные метрики из хранилища.
Определение неоднозначности: Анализируется распределение метрик (энтропия или доминирование).
- Если НЕ неоднозначен: Ранжировать стандартным способом.
- Если неоднозначен: Перейти к Процессу В или Г для идентификации предпочтений.
Корректировка ранжирования: Если предпочтения определены, ранжировать результаты, используя идентифицированные предпочтения (бустинг предпочтительных категорий).
Представление результатов: Показать ранжированные результаты.

Процесс В: Идентификация предпочтений методом порогов и иерархий

Проверка порогов: Определить, превышают ли метрики категорий на текущем иерархическом уровне заранее определенное значение (например, 40%).
Принятие решения:
- Если ДА: Эти категории идентифицируются как предпочтительные. Завершить.
- Если НЕТ: Перейти к шагу 3.
Проверка уровня иерархии: Достигнут ли самый высокий уровень?
- Если ДА: Завершить (предпочтения не определены).
- Если НЕТ: Инкрементировать уровень иерархии.
Агрегация метрик: Определить метрики для категорий более высокого уровня (например, путем суммирования метрик дочерних категорий). Вернуться к шагу 1.

Процесс Г: Идентификация предпочтений методом резкого падения

Сортировка метрик: Упорядочить метрики по убыванию значения.
Анализ падения: Сравнить значения последовательных метрик. Обнаружено ли резкое падение (sharp drop-off), превышающее порог (например, > 40%)?
Принятие решения:
- Если ДА: Категории до падения считаются предпочтительными. Категории после падения идентифицируются как несущественные (inconsequential). Завершить.
- Если НЕТ: Завершить (предпочтения не определены этим методом).

Какие данные и как использует

Данные на входе

Поведенческие факторы: Это ключевые данные для патента. Используются исторические данные о взаимодействии пользователей с результатами поиска:
- Показы (Views/Impressions): Количество раз, когда результат из определенной категории был показан в ответ на запрос.
- Клики (Clicks): Количество кликов на результат из определенной категории в ответ на запрос.
- Альтернативные метрики: Патент упоминает возможность использования продолжительности взаимодействия (duration of interaction) или количества взаимодействий.
Структурные/Контентные факторы (Косвенно): Данные, используемые для категоризации контента. Патент упоминает, что категоризация может быть получена из внешних источников (например, Yellow Pages для бизнесов) или путем анализа ключевых слов на веб-страницах.

Какие метрики используются и как они считаются

Click-Through-Rate (CTR): Основная метрика предпочтения пользователя.
Формула:

Выводы

Поведение пользователей определяет доминирующий интент: Патент описывает механизм, где агрегированные исторические данные о кликах (CTR) используются как источник истины для определения того, какие интерпретации (категории) неоднозначного запроса являются наиболее популярными.
Неоднозначность определяется статистически: Система активно определяет неоднозначность, используя статистические методы (энтропия, анализ доминирования). Только если запрос неоднозначен, активируются механизмы корректировки.
Два конкретных метода разрешения неоднозначности: Система может использовать (1) Пороговые значения CTR (абсолютный подход) или (2) Анализ резкого падения CTR (относительный подход) для отделения основных интентов от второстепенных.
Использование иерархий для обобщения интента: Если предпочтения не ясны на детальном уровне, система может подняться по иерархии и определить более широкую предпочтительную категорию (например, обобщить до «Азиатский ресторан»).
Влияние на ранжирование: Идентифицированные предпочтения напрямую влияют на ранжирование путем повышения (boosting) результатов из предпочтительных категорий и потенциального подавления результатов из несущественных категорий (inconsequential).
Зависимость от категоризации: Эффективность системы напрямую зависит от качества и гранулярности системы категоризации контента, используемой поисковой системой.

Практика

Best practices (это мы делаем)

Ориентация на доминирующий интент: При таргетинге на неоднозначные запросы необходимо фокусироваться на доминирующем намерении пользователя, которое Google определяет на основе исторических CTR. Анализируйте текущую выдачу, чтобы понять, какая интерпретация является основной.
Четкая сигнализация категории контента: Помогайте поисковой системе правильно классифицировать ваш контент. Используйте релевантную микроразметку (Schema.org), четкую структуру сайта и тематические ключевые слова. Это критично для того, чтобы ваши данные корректно агрегировались в Query/Category Metric Store.
Оптимизация под родительские категории (Topical Authority): Создавайте авторитет в рамках широкой тематики. Поскольку система может использовать агрегацию метрик на более высоком уровне иерархии (Процесс В), авторитетность в родительской категории может помочь при ранжировании по неоднозначным дочерним запросам.
Повышение CTR для укрепления интента: Высокий CTR вашего контента вносит вклад в глобальную статистику для пары запрос/категория. Демонстрируя высокую вовлеченность, вы помогаете укрепить связь между запросом и вашей категорией в глазах Google.

Worst practices (это делать не надо)

Таргетинг на «несущественные» интенты: Попытка ранжироваться по неоднозначному запросу с контентом, который соответствует редкому или непопулярному намерению. Если система определит эту категорию как inconsequential (например, с помощью анализа резкого падения), ваш контент будет систематически понижаться.
Неоднозначная категоризация контента: Создание контента, который смешивает несколько разных категорий или не имеет четкой тематической направленности. Это затрудняет классификацию и может привести к тому, что контент не будет ассоциирован с предпочтительной категорией.
Игнорирование коллективных предпочтений: Полагаться только на семантическую релевантность без учета того, как большинство пользователей интерпретирует запрос. Google отдает приоритет коллективному поведению при разрешении неоднозначности.

Стратегическое значение

Патент подтверждает, что Google активно интерпретирует запросы, опираясь на «мудрость толпы» (агрегированные данные CTR), чтобы определить, что *на самом деле* ищут пользователи. Это подчеркивает переход от чисто текстовой релевантности к релевантности намерениям. Стратегически важно понимать не только семантику запроса, но и контекст его использования большинством пользователей. Борьба с устоявшимся доминирующим интентом по неоднозначному запросу обычно является проигрышной стратегией.

Практические примеры

Сценарий: Оптимизация сайта о бильярде под запрос «Pool»

Анализ запроса: Запрос «Pool» неоднозначен. Категории: «Swimming Pools» (Бассейны), «Pool Tables» (Бильярдные столы), «Sports Lounges» (Бильярдные).
Предполагаемые данные Google (CTR):
- Swimming Pools: 65%
- Pool Tables: 20%
- Sports Lounges: 15%
Действие системы (Метод падения): Система обнаруживает резкое падение между «Swimming Pools» (65%) и «Pool Tables» (20%). Если порог падения, например, 40%, то падение на ~69% является резким.
Результат: «Swimming Pools» идентифицируется как предпочтительная категория. «Pool Tables» и «Sports Lounges» могут быть признаны inconsequential. Результаты о бассейнах получают бустинг.
SEO-стратегия для сайта о бильярде: Ранжирование по общему запросу «Pool» будет крайне сложно. Стратегия должна фокусироваться на точных запросах («Pool tables for sale», «How to play pool»), где интент ясен и категория «Pool Tables» будет доминирующей.

Вопросы и ответы

Как система определяет, является ли запрос неоднозначным?

Патент предлагает два основных метода, основанных на распределении CTR по категориям. Первый — измерение энтропии (entropy). Если энтропия высока (распределение равномерное, без явных пиков), запрос неоднозначен. Второй — проверка доминирования. Если ни одна категория не имеет CTR, значительно превышающий все остальные (например, на 30-50%), запрос также считается неоднозначным.

Что такое «резкое падение» (sharp drop-off) и как оно используется?

«Резкое падение» — это значительное снижение CTR между двумя соседними категориями в списке, упорядоченном по популярности. Например, Категория А (35%), Категория Б (30%), Категория В (13%). Падение между Б и В составляет около 57%. Если это превышает установленный порог (например, 40%), система считает Категорию В и все последующие «несущественными» (inconsequential) для данного запроса.

Что происходит с результатами из «несущественных» категорий?

Патент указывает, что результаты из несущественных категорий могут быть проигнорированы (т.е. не представлены в выдаче) или пенализированы в их оценках ранжирования. Это означает, что если ваш контент соответствует интенту, который Google считает несущественным для данного запроса, он будет активно понижаться в выдаче.

Как используется иерархия категорий в этом патенте?

Иерархия используется в методе пороговых значений. Если на низком уровне (например, «Японский ресторан» и «Тайский ресторан») ни одна категория не превышает порог CTR, система поднимается на уровень выше. Она агрегирует метрики дочерних категорий в родительскую (например, «Азиатский ресторан») и проверяет порог на этом уровне. Если родительская категория превышает порог, она используется для бустинга результатов.

Насколько важен мой собственный CTR для этого алгоритма?

Ваш CTR важен двояко. Во-первых, он влияет на ранжирование вашей страницы напрямую (как поведенческий сигнал). Во-вторых, он вносит вклад в глобальную статистику для пары запрос/категория, хранящуюся в Query/Category Metric Store. Поддерживая высокий средний CTR для вашей категории, вы увеличиваете вероятность того, что система будет считать эту категорию предпочтительной.

Как я могу помочь Google правильно категоризировать мой контент?

Патент упоминает, что категоризация может основываться на анализе ключевых слов или данных из внешних источников. Для SEO это означает необходимость использования четкой терминологии, соответствующей вашей нише, использование микроразметки Schema.org для явного указания типа контента или сущности, а также поддержание сильной тематической фокусировки и иерархии сайта.

Что делать, если мой бизнес нацелен на второстепенный интент неоднозначного запроса?

Если вы продаете бильярдные столы, а запрос «pool» в основном интерпретируется как бассейны, ранжирование по этому термину будет крайне затруднено. Стратегия должна заключаться в отказе от борьбы за этот общий термин и фокусировке на более длинных и точных запросах (long-tail), где ваше намерение является доминирующим и неоднозначность отсутствует.

Использует ли этот патент только CTR в качестве метрики?

Хотя CTR используется в качестве основного примера метрики предпочтения пользователя и фигурирует в Claims, патент упоминает, что могут использоваться и другие метрики. Примеры включают продолжительность взаимодействия пользователя с результатом (duration of interaction) и количество взаимодействий.

Применяется ли этот механизм ко всем типам поиска?

Патент упоминает применение как для веб-поиска, так и для поиска в картографических приложениях (mapping application). Концептуально он может применяться в любой поисковой системе, где контент может быть категоризирован, а поведение пользователей отслеживается.

Как этот патент соотносится с современными алгоритмами типа BERT или MUM?

BERT и MUM фокусируются на семантическом и контекстуальном понимании языка. Этот патент фокусируется на поведенческом анализе для определения доминирующего интента. Вероятно, современные системы используют комбинацию подходов: NLP-модели (BERT/MUM) для понимания возможных интерпретаций и классификации контента, а поведенческие данные (как в этом патенте) для определения того, какая интерпретация является наиболее популярной на практике.