Как Google использует анализ временных трендов и вейвлеты для поиска связанных запросов

Google идентифицирует связанные запросы, анализируя схожесть их исторических трендов популярности, а не только семантику. Система преобразует данные об объеме запросов в многомерные изображения и применяет вейвлет-анализ для извлечения ключевых характеристик трендов. Сравнение этих характеристик позволяет находить запросы с похожими паттернами роста или падения интереса.

Описание

Какую задачу решает

Патент решает задачу идентификации связанных поисковых запросов за пределами их текстуального или семантического сходства. Цель — выявить запросы, которые демонстрируют схожие паттерны пользовательского интереса во времени (например, схожие подъемы или спады популярности), что указывает на скрытую связь в поведении пользователей, даже если ключевые слова различаются.

Что запатентовано

Запатентована система и метод идентификации связанных запросов путем анализа временных рядов их объемов (Query Volume). Суть изобретения заключается в преобразовании данных об объеме запросов в многомерные представления (изображения) и применении техник обработки изображений, в частности, вейвлет-анализа (Wavelet Analysis). Схожесть между запросами определяется путем сравнения извлеченных характеристик трендов.

Как это работает

Система работает в несколько этапов:

Нормализация: Исторический объем запроса нормализуется относительно общего объема всех запросов для расчета Relative Volume (доли трафика).
Генерация Представления: Нормализованные данные преобразуются в многомерное представление (например, 2D-изображение), где осями могут быть время (например, день недели и номер недели), география или тип поиска.
Вейвлет-анализ: К изображению применяется вейвлет-преобразование. Идентифицируются Top Wavelets (с высокими коэффициентами магнитуды), которые отражают ключевые характеристики тренда.
Генерация Сигнатур: Top Wavelets сжимаются в компактные сигнатуры (Signatures), например, с помощью квантования или алгоритма Min-Hash.
Сравнение: Сигнатуры сравниваются (например, с использованием Locality-Sensitive Hashing, LSH) для эффективного поиска запросов со схожими временными паттернами.

Актуальность для SEO

Средняя/Высокая. Концепция использования временной корреляции для понимания взаимосвязи запросов остается фундаментальной для Google (например, в Google Trends и Related Searches). Однако конкретные технические методы (вейвлет-анализ), описанные в патенте 2007 года, вероятно, были дополнены или заменены более современными подходами машинного обучения для анализа временных рядов.

Важность для SEO

Влияние на SEO умеренное (6/10). Патент не описывает алгоритмы ранжирования, но важен для понимания механизмов Query Understanding. Он влияет на формирование блоков «Похожие запросы» и анализ трендов. Для SEO-стратегии это подчеркивает важность анализа темпорального поведения аудитории и создания контент-плана, учитывающего сезонность и коррелирующие интересы.

Детальный разбор

Термины и определения

Image / Representation (Изображение / Представление): Многомерное представление данных об объеме запроса (например, 2D, 3D). Оси могут представлять переменные, такие как время (например, день недели и номер недели), география или тип поиска. Значение в ячейке (пикселе) — это Relative Volume.
Locality-Sensitive Hashing (LSH) (Локально-чувствительное хеширование): Метод для эффективного поиска похожих элементов в больших наборах данных. Используется для группировки похожих сигнатур запросов в одни «корзины» (bins), избегая необходимости попарного сравнения всех запросов.
Min-Hash (Мин-хеширование): Алгоритм для сжатия набора данных (в данном случае Top Wavelets) в компактную сигнатуру (Signature) с сохранением информации о схожести.
Normalization (Нормализация): Процесс расчета Relative Volume путем деления объема конкретного запроса на общий объем всех запросов за тот же период. Нивелирует общие колебания трафика.
Quantization (Квантование): Процесс преобразования Top Wavelets в сжатый формат, например, в бинарный вектор с ограниченным числом битов (например, 2 бита для обозначения положительного, отрицательного или незначительного коэффициента).
Query Volume (Объем запроса): Абсолютное количество раз, когда запрос был введен пользователями за период времени.
Relative Volume (Относительный объем): Нормализованный объем запроса; доля конкретного запроса от общего числа запросов.
Signature (Сигнатура): Компактное представление основных характеристик временного тренда запроса, сгенерированное на основе Top Wavelets (например, через Квантование или Min-Hash).
Top Wavelets (Топовые вейвлеты): Вейвлет-коэффициенты с высокой магнитудой (high magnitude coefficients), которые представляют наиболее значимые характеристики изображения (ключевые особенности тренда — пики и спады).
Wavelets (Вейвлеты): Математические функции, используемые для иерархического разложения сигналов или изображений. Позволяют анализировать тренды на разных масштабах времени.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод сравнения двух разных запросов на основе анализа их объемов.

Доступ к историческим данным о вводе первого (Q1) и второго (Q2) запросов.
Определение объема Q1 и Q2 за определенные периоды времени.
Генерация первого и второго представлений (изображений) этих объемов относительно двух или более переменных.
Обработка представлений для генерации первого и второго наборов вейвлетов.
Идентификация подмножеств вейвлетов с высокими магнитудными коэффициентами (Top Wavelets) для каждого набора.
Генерация первой и второй сигнатур на основе этих подмножеств.
Определение связанности Q1 и Q2 путем сравнения их сигнатур.

Claim 3 и 4 (Зависимые): Уточняют критерии и данные.

Запросы связаны, если их представления демонстрируют схожие подъемы или спады (similar rises or decreases) объема (Claim 3). При этом используется нормализованный объем (Relative Volume) относительно объема всех запросов (Claim 4).

Claim 18 (Независимый пункт): Описывает применение метода в масштабе (для множества запросов).

Процесс аналогичен Claim 1, но применяется к множеству запросов: генерация представлений, вейвлетов, Top Wavelets и сигнатур для каждого запроса, с последующим сравнением сигнатур для выявления связей.

Claims 19, 20, 21 (Зависимые от 18): Детализируют механизмы масштабирования и эффективности.

Генерация сигнатур осуществляется с использованием алгоритма Min-Hash (Claim 19). Для эффективного поиска сигнатур, подлежащих сравнению, используется Locality Sensitive Hashing (LSH) (Claims 20, 21).

Где и как применяется

Изобретение применяется в основном на этапе анализа данных и понимания запросов, и не является частью real-time ранжирования контента.

CRAWLING (Data Acquisition)
Система требует сбора и хранения обширных исторических логов поисковых запросов (Query Logs), включая временные метки и метаданные (география, тип поиска).

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система анализирует логи запросов офлайн (в пакетном режиме) для построения моделей взаимосвязей между запросами на основе их темпорального поведения. Этот анализ помогает понять, как интересы пользователей эволюционируют и коррелируют во времени. Результаты используются для генерации предложений «Связанные запросы» (Related Searches) и в инструментах аналитики (Google Trends).

METASEARCH – Метапоиск и Смешивание (Косвенно)
В патенте упоминается (Claims 6, 7), что идентифицированные связанные запросы могут быть показаны пользователю, или результаты для связанного запроса могут быть предоставлены вместе с результатами исходного запроса. Это может влиять на финальное формирование SERP.

Входные данные:

Исторические логи поисковых запросов (текст, временная метка).
Дополнительные метаданные (география, тип поиска: web, images, local, froogle).

Выходные данные:

Сигнатуры (Signatures) для каждого запроса, инкапсулирующие его тренд.
Наборы связанных запросов, основанные на схожести временных паттернов.

На что влияет

Специфические запросы: Наибольшее влияние на запросы с выраженной сезонностью (праздники), событийностью (выборы, спорт) или регулярными трендами (например, запросы, популярные по выходным).
Ниши: Влияет на понимание спроса в нишах, где интересы пользователей сильно коррелируют во времени (путешествия, финансы, развлечения, ритейл).
Географические ограничения: Система может использовать географию как одну из осей анализа (многомерное представление), позволяя выявлять региональные тренды и корреляции.

Когда применяется

Условия работы: Алгоритм работает офлайн для анализа исторических данных за значительный период (дни, месяцы, год).
Частота применения: Периодическое обновление базы связанных запросов на основе свежих логов.
Особые случаи: Патент упоминает возможность сравнения трендов, которые смещены во времени (темпорально сдвинутые). Это достигается либо за счет предварительного размытия (blurring), либо за счет использования представлений без временной оси (например, География vs Тип запроса).

Пошаговый алгоритм

Процесс идентификации связанных запросов:

Сбор данных: Определение общего объема всех запросов и объема конкретного запроса ‘Q’ для каждой временной единицы ‘H’ (например, день) за исторический период ‘D’ (например, год).
Нормализация: Вычисление Relative Volume для ‘Q’. $\text{Relative Volume}(Q, H) = \frac{\text{Volume}(Q, H)}{\text{Total Volume}(H)}$ .
Генерация Изображения: Создание многомерного (например, 2D) изображения Relative Volume. Например, оси: Неделя (X) и День Недели (Y).
Предварительная обработка (Опционально): Применение размытия (blurring, например, Гауссов фильтр) к изображению. Это сглаживает резкие края и помогает находить совпадения, даже если тренды немного смещены.
Вейвлет-преобразование: Обработка изображения для генерации набора вейвлет-коэффициентов.
Извлечение Признаков: Идентификация Top Wavelets – коэффициентов, магнитуда которых превышает пороговое значение.
Генерация Сигнатуры: Создание компактного представления тренда.
1. Вариант A (Квантование): Преобразование Top Wavelets в бинарный вектор (например, 2 бита на коэффициент: положительный, отрицательный, незначительный).
2. Вариант B (Сжатие): Применение алгоритма Min-Hash к набору Top Wavelets для создания компактной сигнатуры.
Повторение процесса: Шаги 1-7 повторяются для всех анализируемых запросов.
Сравнение и Идентификация: Использование Locality Sensitive Hashing (LSH) для группировки схожих сигнатур в общие корзины. Сравнение выполняется только внутри корзин для быстрого поиска связанных запросов. Запросы с наиболее похожими сигнатурами идентифицируются как связанные.

Какие данные и как использует

Данные на входе

Система использует исключительно данные из логов поисковой системы.

Поведенческие факторы: Исторические логи запросов (Query Logs). Анализируется частота ввода запросов пользователями с течением времени.
Временные факторы: Временные метки запросов критически важны для построения временных рядов. Данные агрегируются по временным единицам (часы, дни, недели).
Географические факторы (Опционально): Страна или регион происхождения запроса могут использоваться как одна из осей многомерного представления.
Системные факторы (Опционально): Тип поиска или вертикаль (например, Web, Images, Froogle, Local) могут использоваться как дополнительное измерение.

Какие метрики используются и как они считаются

Query Volume: Подсчет количества вводов конкретного запроса за единицу времени.
Relative Volume (Относительный объем): Нормализованная метрика популярности (доля трафика).
Wavelet Coefficients Magnitude (Магнитуда коэффициентов вейвлетов): Величина вейвлет-коэффициентов. Используется для определения Top Wavelets по пороговому значению.
Similarity Score (Оценка схожести): Мера схожести между сигнатурами или бинарными векторами.
Методы анализа данных: Вейвлет-анализ, Фильтр Гаусса (для размытия), Min-Hash, LSH.

Выводы

Связь через тренды, а не только семантику: Патент описывает механизм определения связанности запросов на основе корреляции их популярности во времени. Это позволяет Google идентифицировать запросы, которые часто ищут в одно и то же время, даже если они семантически различны.
Важность нормализации данных: Система использует Relative Volume (долю трафика), а не абсолютный объем. Это ключевой момент, позволяющий выявлять реальные тренды интереса к теме, игнорируя общие колебания поискового трафика.
Многомерный анализ трендов: Данные о популярности представляются как многомерные изображения. Это позволяет анализировать тренды не только во времени, но и в разрезе других переменных (география, тип поиска).
Вейвлеты для мульти-масштабного анализа: Использование вейвлетов позволяет улавливать как долгосрочные тренды (сезонность), так и краткосрочные всплески (события), поскольку вейвлет-анализ работает на разных масштабах времени.
Масштабируемость через хеширование: Для эффективного сравнения миллионов запросов используются техники сжатия данных (Min-Hash) и быстрого поиска похожих элементов (LSH).
Идентификация темпорально смещенных трендов: Система потенциально может идентифицировать запросы с похожими трендами, даже если они происходят в разное время, либо за счет предварительного размытия (blurring), либо за счет использования представлений без временной оси.

Практика

Best practices (это мы делаем)

Глубокий анализ темпоральных трендов (Temporal Content Strategy): Активно используйте Google Trends для планирования контент-стратегии. Понимайте, что Google анализирует эти тренды на глубоком уровне. Создавайте и обновляйте контент заблаговременно, чтобы соответствовать пикам спроса.
Выявление и использование коррелирующих интересов: Изучайте, какие темы интересуют вашу аудиторию одновременно с вашей основной темой (даже если они семантически не близки). Если Google видит временную корреляцию между запросами А и Б, полезно создавать контент, который охватывает эти связанные интересы.
Учет региональных и платформенных трендов: Поскольку система может использовать многомерные представления (включая географию и тип запроса), убедитесь, что ваша стратегия учитывает различия в трендах для разных регионов и вертикалей поиска (Web, Images, Local).
Комплексное планирование сезонного контента: При подготовке к сезону создавайте контент не только по основным запросам, но и по всем связанным темам, которые начинают расти одновременно. Это укрепляет тематический авторитет в период пикового спроса.

Worst practices (это делать не надо)

Игнорирование временного контекста: Создание контента без учета того, когда именно пользователи ищут эту информацию. Рассмотрение ключевых слов как статических единиц без учета их жизненного цикла и сезонности.
Ориентация только на семантически близкие ключи: Ограничение семантического ядра только прямыми синонимами. Патент показывает, что Google видит связи шире – через совместное поведение пользователей во времени.
Запоздалая реакция на тренды: Публикация контента о трендовом событии после того, как пик интереса прошел. Контент должен быть проиндексирован и доступен в момент формирования тренда.

Стратегическое значение

Патент подтверждает, что Google рассматривает поведение пользователей во времени как важный сигнал для понимания взаимосвязей в мире (Query Understanding). Для SEO это означает, что стратегия должна быть ориентирована не только на то, что ищут пользователи, но и на то, когда они это ищут, и что еще они ищут в это же время. Понимание темпоральной динамики спроса и создание комплексного контента, отвечающего коррелирующим интересам, является важной частью долгосрочной стратегии.

Практические примеры

Сценарий 1: Планирование контента на основе сезонных корреляций (Пасха)

Анализ трендов: SEO-специалист кулинарного сайта видит, что запросы «рецепт кулича» и «как красить яйца» семантически различны.
Интерпретация (на основе патента): Google анализирует исторические данные и видит, что временные тренды (Signatures) этих запросов почти идентичны (резкий рост перед Пасхой). Система идентифицирует их как тесно связанные.
Действия: Создать хаб-страницу «Меню на Пасху», которая охватывает обе темы и активно перелинковывает соответствующие статьи. Контент обновляется заблаговременно до пика спроса.
Ожидаемый результат: Сайт лучше отвечает набору связанных интересов пользователя в конкретный период времени, улучшая видимость по всему кластеру темпорально связанных запросов.

Сценарий 2: Реакция на событие (Выход фильма)

Анализ трендов: Система фиксирует синхронный всплеск запросов «Дюна 2 дата выхода», «Тимоти Шаламе» и «Зендея».
Интерпретация (на основе патента): Несмотря на разную семантику (фильм и актеры), система идентифицирует их как связанные благодаря схожему временному паттерну (одинаковые Top Wavelets).
Действия SEO-специалиста (Новостной сайт): При создании контента о фильме необходимо убедиться, что материалы, посвященные ключевым актерам, также актуализированы и связаны с основным материалом о фильме для полного охвата интента.

Вопросы и ответы

Основан ли этот патент на семантической близости запросов?

Нет. Ключевая особенность этого патента в том, что он определяет связанность запросов исключительно на основе схожести их временных трендов (Query Volume patterns). Система может идентифицировать как связанные запросы, которые семантически различны, но демонстрируют схожие всплески популярности в одно и то же время (например, запросы, связанные с определенным праздником).

Что такое вейвлеты и зачем они используются?

Вейвлеты — это математический инструмент для анализа сигналов и изображений. В контексте патента они используются для разложения тренда популярности на компоненты на разных масштабах (multi-resolution analysis). Это позволяет обнаруживать как долгосрочные тренды (годовую сезонность), так и краткосрочные резкие всплески (события) и использовать эту информацию для сравнения запросов.

Почему Google нормализует объем запросов?

Нормализация (расчет Relative Volume) критически важна для выявления реальных трендов. Она позволяет определить долю конкретного запроса от общего числа поисков в данный момент. Это нивелирует общие колебания трафика (например, ночью ищут меньше). Система ищет рост интереса к теме, а не просто рост общего числа запросов.

Что такое Top Wavelets?

Top Wavelets – это вейвлет-коэффициенты с наибольшей магнитудой (величиной). Они представляют собой наиболее значимые характеристики временного тренда запроса (например, самые сильные пики или падения). Система фокусируется только на них при сравнении запросов, отбрасывая менее значимую информацию (шум).

Как система справляется со сравнением миллионов запросов?

Патент описывает механизмы масштабирования. Во-первых, Top Wavelets сжимаются в компактные сигнатуры (например, с помощью Min-Hash). Во-вторых, для быстрого поиска похожих сигнатур используется Locality Sensitive Hashing (LSH). LSH позволяет группировать похожие запросы вместе, избегая необходимости сравнивать каждый запрос с каждым.

Может ли система найти связанные запросы, тренды которых смещены во времени?

Да, в патенте предусмотрена такая возможность. Во-первых, предварительное размытие (blurring) изображения помогает находить схожие тренды с небольшим смещением. Во-вторых, если многомерное представление не использует время как одну из осей (например, География vs Тип поиска), система может идентифицировать схожие паттерны, даже если они произошли в разное время.

Как этот патент используется в поиске Google?

Этот патент не описывает алгоритм ранжирования. Он используется в системах Понимания Запросов (Query Understanding). Наиболее вероятные применения – это генерация блока «Связанные запросы» (Related Searches), анализ данных в Google Trends, а также потенциальное подмешивание результатов из связанных запросов в основную выдачу (как упомянуто в Claims 6, 7).

Какое значение этот патент имеет для SEO-стратегии?

Он подчеркивает важность темпоральной контент-стратегии. SEO-специалистам необходимо понимать не только ЧТО ищут пользователи, но и КОГДА, а также ЧТО ЕЩЕ они ищут в это же время. Необходимо синхронизировать создание и продвижение контента с временными паттернами спроса и охватывать смежные темы, которые трендят одновременно.

Учитывает ли система географию при анализе трендов?

Да, в патенте явно упоминается возможность добавления географических данных (например, страны происхождения запроса) как дополнительного измерения (оси) в многомерное представление. Это позволяет системе находить связанные запросы с учетом локальных трендов.

Что подразумевается под «многомерным представлением» или «изображением» объема запросов?

Это способ организации данных о популярности запроса. Например, можно создать 2D-изображение, где ось X – это недели года, а ось Y – дни недели. Значение в каждой ячейке (пикселе) – это Relative Volume запроса в этот день. Также можно использовать другие измерения, например, географию или тип вертикали поиска (Web, Images).