Google использует систему для анализа и генерации списков популярных или быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования, система группирует связанные запросы в тематические кластеры и выбирает лучший репрезентативный запрос. Кластеры ранжируются на основе общей популярности темы, качества результатов (используя CTR, PageRank) и популярности категории, обеспечивая разнообразный список трендов.
Описание
Какую задачу решает
Патент решает проблемы, возникающие при генерации списков самых популярных (Top Volume Queries) или быстрорастущих (Top Rising Queries) запросов на основе анализа логов поиска:
- Избыточность (Redundancy): Когда одно событие порождает множество похожих запросов (например, «sixth pay commission», «6pc»), стандартные списки заполняются дубликатами, вытесняя другие темы.
- Фрагментация (Fragmentation): Интерес к теме может быть распределен по множеству разных формулировок (например, «Jennifer Lopez», «J Lo»). В результате ни один отдельный запрос не набирает достаточного объема, и тема не попадает в топ, хотя совокупный интерес высок.
- Качество и Свежесть: Необходимо гарантировать, что трендовые запросы ведут на качественный и свежий контент, а не на спам или статические авторитетные источники, которые не являются актуальными трендами.
Что запатентовано
Запатентована система ранжирования запросов (Query Ranking System), которая генерирует списки популярных или трендовых тем. Вместо ранжирования отдельных запросов система группирует связанные запросы в кластеры. Для каждого кластера выбирается репрезентативный запрос, а сами кластеры ранжируются на основе совокупной популярности всех входящих в них запросов, показателей качества/свежести результатов и популярности связанной категории.
Как это работает
Система обрабатывает данные из поисковых логов (Query Log, Click Log):
- Кластеризация: Популярные или растущие запросы группируются в кластеры на основе схожести их поисковых терминов или пересечения результатов поиска (общие URL).
- Выбор репрезентативного запроса: Для каждого кластера выбирается один запрос. Выбор основан на популярности запроса (Query Popularity Score) и его эффективности (Query Performance Score), которая учитывает качество и свежесть результатов (например, PageRank, CTR, длительность клика).
- Категоризация: Каждому кластеру присваивается репрезентативная категория (например, «Развлечения»).
- Ранжирование кластеров: Кластеры ранжируются на основе трех ключевых метрик: Cluster Popularity Score (совокупная популярность темы), Cluster Performance Score (качество и свежесть результатов) и Category Popularity Score (общая популярность категории).
- Презентация: Пользователю предоставляется отсортированный список репрезентативных запросов.
Актуальность для SEO
Высокая (для анализа трендов). Механизмы, описанные в патенте, лежат в основе работы инструментов типа Google Trends. Кластеризация запросов для понимания тем, а также использование метрик вовлеченности (CTR, длительность клика) и индикаторов свежести для оценки качества являются фундаментальными концепциями в современном поиске и анализе данных.
Важность для SEO
Низкое (3/10). Этот патент НЕ описывает, как Google ранжирует веб-страницы в основной поисковой выдаче (SERP). Он описывает внутреннюю систему Google для анализа собственных логов запросов с целью генерации отчетов о том, ЧТО ищут пользователи. Патент дает ценное представление о том, какие метрики качества (CTR, вовлеченность) Google измеряет, но не предлагает прямых стратегий для повышения рейтинга сайта в основном поиске.
Детальный разбор
Термины и определения
- Category Popularity Score (Оценка популярности категории)
- Метрика, отражающая популярность тематической категории. Может основываться на общем объеме веб-трафика, связанного с категорией, или количестве кластеров, связанных с ней. Используется для корректировки ранга кластера.
- Click-through Duration (Длительность клика)
- Время, которое пользователь проводит на целевой странице после клика по результату поиска. Длительные клики (Long Clicks) считаются сигналом интереса и качества контента.
- Click-through Rate (CTR)
- Показатель кликабельности результатов поиска. Используется для оценки релевантности и привлекательности результатов.
- Click-through Reversion Rate (Показатель возвратов)
- Частота, с которой пользователи быстро возвращаются на страницу результатов поиска после клика. Высокий показатель сигнализирует о нерелевантности или низком качестве контента (аналог Short Click).
- Cluster Performance Score (Оценка эффективности кластера)
- Метрика, оценивающая качество, свежесть и релевантность результатов поиска для запросов в кластере. Основана на Query Performance Scores входящих в него запросов.
- Cluster Popularity Score (Оценка популярности кластера)
- Метрика, отражающая общую популярность темы, представленной кластером. Рассчитывается путем агрегации Query Popularity Scores всех запросов в кластере.
- Freshness indicator (Индикатор свежести)
- Метрика, определяющая, ведут ли запросы на часто обновляемый и важный контент (например, из новостного индекса).
- K-medoids algorithm (Алгоритм K-медоидов)
- Алгоритм кластеризации, упомянутый в патенте, который группирует запросы путем минимизации расстояния между запросами и центром кластера (медоидом).
- PageRank
- Метрика важности/авторитетности веб-страницы. В контексте патента используется для фильтрации: слишком низкий PageRank результатов может указывать на низкое качество, а слишком высокий — на статический авторитетный источник (например, Википедия), а не на свежий тренд.
- Query Performance Score (Оценка эффективности запроса)
- Метрика, оценивающая качество результатов, которые возвращает конкретный запрос. Рассчитывается на основе индикаторов качества: PageRank, CTR, Click-through Duration, Click-through Reversion Rate и Freshness indicator.
- Query Popularity Score (Оценка популярности запроса)
- Метрика, отражающая популярность отдельного запроса. Основана на общем объеме поиска (Search Volume) или скорости роста объема поиска (Rate of Increase).
- Representative Query (Репрезентативный запрос)
- Один запрос, выбранный из кластера для представления всей группы связанных запросов в финальном списке трендов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод идентификации трендовых запросов (trending search queries).
- Система получает запрос на идентификацию трендовых запросов.
- Множество поисковых запросов группируется в кластеры.
- Каждый кластер ассоциируется с репрезентативной категорией.
- Для каждого кластера определяется оценка кластера (Cluster Score). Эта оценка основана на Cluster Performance Score ИЛИ Category Popularity Score.
- Category Popularity Score коррелирует с количеством кластеров, ассоциированных с данной категорией.
- Cluster Performance Score коррелирует с рангом (например, PageRank) страниц, найденных по запросам, входящим в этот кластер.
- Генерируется ранжирование кластеров на основе их оценок.
- Система предоставляет информацию, идентифицирующую подмножество кластеров в соответствии с ранжированием, как представление трендовых запросов.
Claim 5 (Зависимый от 1): Уточняет способ представления информации.
Представление включает выбор репрезентативного запроса (Representative Query) из каждого кластера и отображение этих репрезентативных запросов в соответствии с ранжированием их кластеров.
Claims 6 и 7 (Зависимые от 5): Уточняют критерии выбора репрезентативного запроса.
Репрезентативный запрос выбирается на основе оценок популярности (Query Popularity Scores) (Claim 6) И/ИЛИ оценок эффективности (Query Performance Scores) (Claim 7). Оценки эффективности базируются на PageRank, CTR, длительности клика или показателе возвратов.
Claims 2, 3, 4 (Зависимые от 1): Детализируют основу для кластеризации.
Группировка может основываться на адресах (URL) результатов поиска (Claim 2), наборе документов результатов поиска (Claim 3) или поисковых терминах самих запросов (Claim 4).
Где и как применяется
Это изобретение представляет собой аналитическую систему (Query Ranking System), которая работает параллельно основному поисковому процессу. Она не участвует в ранжировании результатов для пользователя в реальном времени (SERP), а используется для анализа логов и генерации отчетов (например, Google Trends).
INDEXING – Индексирование и извлечение признаков
Система использует данные, сгенерированные на этом этапе: PageRank результатов поиска, индикаторы свежести, а также данные, необходимые для категоризации контента.
RANKING – Ранжирование (Сбор данных)
Процессы ранжирования генерируют данные, которые записываются в Query Log (объемы запросов) и Click Log (CTR, длительность кликов, возвраты). Эти логи являются основным источником данных для системы анализа трендов.
Офлайн-анализ (Query Ranking System)
Основное применение патента. Система периодически обрабатывает данные из логов и индекса для выполнения кластеризации, категоризации и ранжирования трендовых тем.
Входные данные:
- Query Log: Списки запросов, их объемы и динамика изменений.
- Click Log: Данные о поведении пользователей на выдаче (CTR, Duration, Reversion Rate).
- Index Database: Данные о результатах поиска для запросов (URL, сниппеты, PageRank, категории контента).
Выходные данные:
- Отсортированные списки репрезентативных запросов (Top Rising Queries, Top Volume Queries), очищенные от дубликатов и отфильтрованные по качеству.
На что влияет
- Инструменты анализа трендов: Напрямую влияет на данные, отображаемые в сервисах типа Google Trends, Zeitgeist и аналогичных аналитических отчетах.
- Типы запросов: Влияет на все типы запросов, которые демонстрируют значительный объем или рост, особенно связанные с новостными событиями или популярными темами, где возникает множество вариантов формулировок.
- Не влияет: Патент не описывает механизмы, влияющие на ранжирование веб-сайтов в основной поисковой выдаче (SERP).
Когда применяется
- Условия применения: Алгоритм применяется при генерации отчетов о самых популярных или быстрорастущих запросах.
- Временные рамки и частота: Применяется для анализа данных за определенный период (час, день, неделя) и в определенном географическом регионе. Запускается по расписанию или по запросу для обновления данных о трендах.
Пошаговый алгоритм
- Сбор и отбор запросов: Из Query Log выбираются запросы, удовлетворяющие пороговым значениям по общему объему или скорости роста.
- Кластеризация запросов: Отобранные запросы группируются в кластеры. Схожесть определяется на основе:
- Пересечения поисковых терминов (например, методом самой длинной общей подпоследовательности).
- Пересечения результатов поиска (общие URL, сниппеты, заголовки).
- Патент упоминает алгоритм K-medoids как пример реализации.
- Выбор репрезентативного запроса (для каждого кластера):
- Получение Query Popularity Score и Query Performance Score (на основе PageRank, CTR, Duration, Reversion Rate, Freshness) для каждого запроса.
- Фильтрация запросов с неприемлемым Performance Score (например, слишком низкое качество или слишком высокая авторитетность/статичность результатов).
- Выбор запроса с наивысшим Query Popularity Score среди оставшихся кандидатов.
- Категоризация кластеров:
- Каждый запрос ассоциируется с категориями на основе его результатов поиска (с оценками уверенности).
- Выбирается репрезентативная категория для всего кластера (например, категория, связанная с наибольшим числом запросов в кластере; упоминается алгоритм K-nearest neighbor).
- Ранжирование кластеров:
- Расчет Cluster Popularity Score (агрегация популярности запросов кластера).
- Расчет Cluster Performance Score (агрегация эффективности запросов).
- Получение Category Popularity Score для репрезентативной категории.
- Расчет финального Cluster Score на основе комбинации этих трех метрик и сортировка кластеров.
- Презентация результатов: Формирование финального списка трендов путем отображения репрезентативных запросов. Может применяться ограничение на количество запросов от одной категории для обеспечения разнообразия.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Являются критически важными. Используются Query Logs для определения объема и роста запросов. Используются Click Logs для расчета CTR, Click-through Duration (длительность клика) и Click-through Reversion Rate (показатель возвратов).
- Ссылочные факторы (Косвенно): Используется PageRank документов, являющихся результатами поиска по анализируемым запросам.
- Контентные и Технические факторы: URL, заголовки, сниппеты и контент результатов поиска используются для определения схожести запросов (при кластеризации) и для категоризации запросов.
- Временные факторы: Используются индикаторы свежести (Freshness indicator), например, анализ того, происходят ли результаты из часто обновляемого индекса (например, Новости).
Какие метрики используются и как они считаются
- Query/Cluster Popularity Score: Рассчитывается на основе объема поиска или скорости его роста (агрегируется на уровне кластера).
- Query/Cluster Performance Score: Комплексная метрика, агрегирующая индикаторы качества результатов:
- PageRank: Используется как фильтр с порогами. Слишком низкий PageRank ведет к понижению оценки (низкое качество). Слишком высокий PageRank также может вести к понижению, так как это может указывать на авторитетный, но статический (не трендовый) источник.
- CTR: Высокий CTR повышает оценку.
- Click-through Duration: Длительные клики повышают оценку.
- Click-through Reversion Rate: Высокий показатель возвратов понижает оценку.
- Freshness indicator: Высокая свежесть повышает оценку.
- Category Popularity Score: Рассчитывается на основе общего интереса к категории (например, трафик, количество связанных кластеров).
Выводы
- Фокус на темах, а не ключевых словах: Патент демонстрирует механизм идентификации популярных тем (кластеров) путем агрегации сигналов от множества связанных запросов. Это позволяет выявлять тренды, даже если интерес фрагментирован по разным формулировкам.
- Снижение избыточности и повышение разнообразия: Основная цель системы — очистка списков трендов от дубликатов путем выбора одного репрезентативного запроса для каждой темы и ограничения количества трендов на категорию.
- Многофакторное ранжирование трендов: Ранжирование тем зависит не только от объема поиска, но и от качества/вовлеченности (Performance Score) и общей популярности категории (Category Popularity Score).
- Фильтрация по качеству и свежести: Система активно использует поведенческие метрики (CTR, длительность клика, возвраты) и индикаторы свежести для оценки актуальности тренда.
- Специфическое использование PageRank: В отличие от основного поиска, здесь PageRank используется как фильтр для отсеивания как низкокачественного спама, так и сверхавторитетных, но статичных источников (например, главной страницы Википедии), чтобы сфокусироваться именно на свежих трендах.
- Не алгоритм ранжирования SERP: Важно понимать, что описанные механизмы применяются для анализа логов запросов (например, для Google Trends), а не для ранжирования сайтов в основной выдаче.
Практика
Best practices (это мы делаем)
Хотя патент не описывает ранжирование в SERP, он дает полезное понимание процессов Google и подтверждает важность определенных метрик.
- Оптимизация под удовлетворенность пользователя (User Satisfaction): Сосредоточьтесь на метриках, коррелирующих с описанными индикаторами качества. Необходимо максимизировать Click-Through Duration (Long Clicks) и минимизировать Click-Through Reversion Rate (Short Clicks). Это достигается полным ответом на интент пользователя.
- Оптимизация сниппетов для релевантного CTR: Работайте над заголовками и описаниями, чтобы повысить CTR, при этом точно отражая содержание страницы, чтобы избежать быстрых возвратов на выдачу.
- Создание контента под кластеры (Topical Authority): Понимание того, что Google кластеризует запросы на основе общих результатов (URL) и агрегирует интерес на уровне темы, подтверждает важность создания тематических хабов, отвечающих на множество связанных запросов.
- Акцент на свежести для трендовых тем: Для тем, подверженных трендам, критически важно создавать актуальный контент. Патент упоминает Freshness indicator как положительный фактор для трендовых запросов.
- Интерпретация данных Google Trends: Активно используйте Google Trends, понимая, что отображаемые там запросы являются Representative Queries для целых кластеров. Это канонические формулировки, выбранные Google как наиболее эффективные.
Worst practices (это делать не надо)
- Путать анализ трендов с ранжированием SERP: Не следует применять логику фильтрации высокого PageRank из этого патента к основному ранжированию. В SERP авторитетность крайне важна.
- Кликбейт: Использование кликбейтных заголовков для повышения CTR приведет к высокому Click-Through Reversion Rate, что негативно скажется на Performance Score.
- Игнорирование поведенческих сигналов: Стратегии, не учитывающие поведение пользователей на сайте (время на сайте, возвраты на выдачу), противоречат принципам оценки качества, описанным в патенте.
Стратегическое значение
Патент подтверждает стратегический переход от анализа отдельных ключевых слов к анализу тем и интентов (кластеров). Он также демонстрирует, что поведенческие метрики (клики и их качество) являются прямыми компонентами оценки производительности и качества в системах Google. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на реальной удовлетворенности пользователя.
Практические примеры
Сценарий: Использование данных Google Trends для контент-стратегии
Предположим, вы работаете в нише электроники и видите новость о запуске нового гаджета «Product X».
- Наблюдение: Пользователи ищут: «Product X release date», «Product X цена», «новый Product X характеристики».
- Работа системы (по патенту): Google кластеризует эти запросы. Допустим, «Product X цена» имеет наибольший объем, но низкий CTR. «Product X обзор» имеет чуть меньший объем, но отличный CTR и длительные клики.
- Вывод системы: Google выбирает «Product X обзор» как Representative Query для этого кластера и показывает его в Google Trends.
- Действие SEO-специалиста: Вы видите, что «Product X обзор» является лидирующим трендом. Вы понимаете, что это канонический запрос, выбранный Google, и фокусируете создание контента именно на этом интенте (детальный обзор), обеспечивая высокое качество для захвата трендового трафика.
Вопросы и ответы
Описывает ли этот патент, как Google ранжирует сайты в поисковой выдаче (SERP)?
Нет. Этот патент описывает систему для анализа логов поисковых запросов с целью выявления популярных или быстрорастущих тем (трендов), например, для Google Trends. Он объясняет, как Google ранжирует сами запросы и темы, а не веб-страницы в основной выдаче.
Что такое кластеризация запросов и как она работает согласно патенту?
Это процесс группировки различных, но связанных поисковых запросов в одну тему для устранения дубликатов и точной оценки популярности. Google делает это, анализируя схожесть терминов в запросах или, что более важно, проверяя, ведут ли эти запросы к одним и тем же результатам поиска (общие URL и сниппеты).
Что такое репрезентативный запрос (Representative Query) и как он выбирается?
Это один запрос, выбранный из кластера для представления всей темы. Он выбирается как наиболее популярный запрос в группе, при условии, что он также имеет приемлемый Query Performance Score. Если самый популярный запрос ведет на некачественные или устаревшие результаты, система выберет другой.
Какие поведенческие факторы использует эта система для оценки качества?
Система активно использует данные из Click Logs. Ключевые метрики: CTR (показатель кликабельности), Click-through Duration (длительность клика, где длительные клики — это хорошо) и Click-through Reversion Rate (показатель возвратов на выдачу, что плохо). Это подтверждает, что Google использует метрики вовлеченности для оценки качества контента.
В патенте упоминается PageRank. Как он используется в контексте трендов?
PageRank используется как фильтр качества с двух сторон. Результаты с очень низким PageRank считаются некачественными. Интересно, что результаты с очень высоким PageRank (например, Википедия) также могут быть отфильтрованы, так как система ищет свежие тренды, а не статические авторитетные источники.
Как Google решает, какой кластер (тема) более важен?
Ранжирование кластеров основано на трех факторах. Во-первых, Cluster Popularity Score — совокупный объем поиска всех запросов в кластере. Во-вторых, Cluster Performance Score — насколько качественные, свежие и интересные результаты получают пользователи. В-третьих, Category Popularity Score — насколько популярна сама категория темы.
Как этот патент помогает в повседневной работе SEO-специалиста?
Он помогает лучше интерпретировать данные из Google Trends, понимая, что отображаемый запрос является каноническим представителем целого кластера. Также он подчеркивает критическую важность оптимизации под удовлетворенность пользователя (CTR, вовлеченность) как универсального сигнала качества в системах Google.
Что означает «фрагментация интереса» и как Google ее преодолевает?
Фрагментация возникает, когда интерес к теме распределен по множеству разных запросов (например, «J Lo», «Jennifer Lopez»). Ни один запрос может не попасть в топ. Google преодолевает это путем кластеризации: он объединяет все эти запросы и суммирует их популярность (Cluster Popularity Score), позволяя теме всплыть в трендах.
Учитывает ли система свежесть контента при ранжировании трендов?
Да, свежесть критична. В патенте упоминается использование Freshness indicator при расчете Cluster Performance Score. Например, если запросы возвращают много результатов из часто обновляемых индексов (таких как Новости), это повышает вероятность того, что тема является актуальным и свежим трендом.
Какие алгоритмы кластеризации и категоризации упоминаются?
Для кластеризации запросов в патенте явно упоминается алгоритм K-medoids (а также альтернативы вроде K-means и иерархической кластеризации). Для выбора репрезентативной категории упоминается использование алгоритма K-nearest neighbor (KNN) на основе оценок уверенности категоризации отдельных запросов.