Google использует анализ уточнений запросов (refinements) для определения тематической категории и интента. Система анализирует дополнительные слова (мета-термины), которые пользователи добавляют к исходному запросу. Если разные запросы уточняются схожим образом, система считает их похожими и присваивает им общую категорию, что влияет на ранжирование и показ рекламы.
Описание
Какую задачу решает
Патент решает задачу автоматической и масштабируемой классификации поисковых запросов по тематическим категориям (category labels), особенно для коротких или неоднозначных запросов, где анализ только текста запроса затруднен. Система использует поведение пользователей — то, как они уточняют свои запросы — как сильный сигнал для определения категории и интента. Цель — использовать эту классификацию для улучшения релевантности ранжирования, применения специализированных алгоритмов, повышения эффективности рекламы и улучшения фильтрации контента (например, safe search).
Что запатентовано
Запатентован метод классификации запросов, основанный на анализе их уточнений (query refinements). Ключевая идея заключается в том, чтобы определять схожесть (similarity) между двумя разными запросами не на основе их собственных терминов, а на основе дополнительных терминов (называемых meta-terms), которые пользователи добавляют при уточнении. Если два запроса уточняются схожим образом, система делает вывод, что они принадлежат к одной категории.
Как это работает
Система работает путем офлайн-анализа логов поисковых запросов:
- Сбор и Агрегация: Собирается и агрегируется коллекция поисковых запросов.
- Идентификация Уточнений: Для каждого запроса Q определяются его уточнения R (запросы, содержащие Q плюс дополнительные слова).
- Извлечение Meta-terms: Дополнительные слова из R становятся meta-terms для Q.
- Расчет Схожести: Схожесть между запросами рассчитывается на основе их meta-terms. Используется метрика word-vector cosine similarity, взвешенная с помощью TF-IDF.
- Классификация: Используется небольшой набор вручную размеченных запросов (labeled seed queries). Остальные запросы классифицируются путем нахождения наиболее похожих (ближайших соседей) среди размеченных запросов и присвоения им соответствующей категории.
Актуальность для SEO
Высокая. Понимание запросов (Query Understanding) и их точная классификация являются фундаментальными задачами поиска. Методы, которые используют поведенческие данные (в данном случае, паттерны уточнения запросов) для глубокого понимания контекста и интента, остаются крайне актуальными и продолжают развиваться наряду с нейросетевыми моделями.
Важность для SEO
Патент имеет значительное влияние на SEO (75/100). Он раскрывает конкретный механизм, как Google определяет тематическую категорию и интент запроса, опираясь на поведение пользователей. Это критически важно для SEO-стратегии, так как классификация запроса определяет, какие типы ресурсов будут считаться релевантными, какие факторы ранжирования будут приоритетными для данной категории и какие специализированные элементы выдачи будут показаны.
Детальный разбор
Термины и определения
- Category Labels (Метки категорий)
- Классификационные метки из предопределенной иерархии, присваиваемые запросам (например, [class: music]).
- Consensus Label (Консенсусная метка)
- Метка категории, выбранная для классификации запроса на основе голосования меток его ближайших соседей.
- Distance Metric (Метрика расстояния)
- Метод расчета схожести между парой запросов. Меньшее расстояние означает большую схожесть. В патенте упоминается использование word-vector cosine similarity.
- Meta-terms (Additional terms) (Мета-термины)
- Дополнительные термины, присутствующие в уточнении запроса, но отсутствующие в исходном запросе. Являются ключевыми признаками для расчета схожести.
- Query Refinement (Уточнение запроса)
- Новый запрос, который включает все термины исходного запроса плюс один или несколько meta-terms.
- Seed Queries (Labeled seed queries) (Начальные/Размеченные запросы)
- Выборка запросов, классифицированных вручную. Используются как эталон (обучающий набор) для автоматической классификации остальных запросов.
- TF-IDF (Term Frequency-Inverse Document Frequency)
- Статистическая мера, используемая для взвешивания meta-terms. Позволяет определить важность и специфичность термина в контексте коллекции запросов.
- Word-vector cosine similarity (Косинусное сходство векторов слов)
- Конкретная реализация Distance Metric, используемая для сравнения векторов meta-terms двух запросов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод классификации запросов, имеющих уточнения.
- Система получает коллекцию поисковых запросов.
- Для каждого запроса определяются его уточнения (refinements) и извлекаются дополнительные термины (meta-terms).
- Рассчитывается схожесть (similarity) между парами запросов. Ключевой момент: схожесть определяется с использованием именно дополнительных терминов (meta-terms) из уточнений.
- Получается набор размеченных начальных запросов (labeled search queries / seed queries).
- Производится классификация остальных запросов (имеющих уточнения). Для каждого запроса:
- Определяется заданное количество ближайших (nearest) размеченных запросов согласно метрике расстояния (distance metric).
- Метки этих ближайших запросов используются для определения классификации текущего запроса.
Claim 4, 5, 6 (Зависимые): Детализируют механизм расчета схожести.
Определение схожести включает расчет метрики расстояния (distance metric) между двумя запросами (Claim 4). Эта метрика основана на косинусном сходстве векторов слов (word-vector cosine similarity) (Claim 5). Метрика взвешивается с использованием оценки TF-IDF, рассчитанной на основе частоты дополнительных терминов (meta-terms) в уточнении запроса (Claim 6).
Claim 7 (Зависимый): Детализирует механизм классификации.
Для определения классификации используется консенсусная метка (consensus label), основанная на метках заданного числа ближайших размеченных запросов (механизм голосования).
Claim 2, 3 (Зависимые): Описывают классификацию запросов, не имеющих уточнений (un-refined search queries).
Система классифицирует запросы без уточнений путем распространения (propagating) меток от уже классифицированных запросов (Claim 2). Распространение включает идентификацию не уточненного запроса, который имеет общие термины с данным классифицированным запросом (Claim 3).
Где и как применяется
Изобретение применяется преимущественно на этапе понимания запросов, но его результаты критически влияют на последующие этапы поиска.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Система анализирует логи запросов офлайн, рассчитывает схожесть между ними на основе уточнений и классифицирует их по категориям. Результат — обогащенное представление запроса, включающее его категорию.
RANKING – Ранжирование
Классификация используется на этапе ранжирования. В патенте указано, что классифицированные запросы могут использоваться для улучшения ранжирования на основе различных критериев ранжирования для разных классов запросов.
METASEARCH – Метапоиск и Смешивание
Классификация запроса может использоваться для предоставления специализированного контента (specialized content) в ответ на определенные типы запросов (например, активация вертикального поиска или SERP features). Также используется для улучшения подбора рекламы.
RERANKING – Переранжирование
Классификация может использоваться для улучшения фильтрации результатов, например, применения разного уровня фильтрации (safe search) к разным классам запросов.
Входные данные:
- Логи поисковых запросов (collection of search queries).
- Коллекция предопределенных меток категорий (collection of category labels).
- Размеченные вручную выборки запросов (labeled seed queries).
Выходные данные:
- Классифицированные запросы (запрос + метка категории).
- Метрики схожести между запросами.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные, короткие или новые запросы, которые сложно классифицировать только по тексту. Анализ уточнений позволяет понять контекст (например, отличить «Jaguar» как автомобиль от «Jaguar» как животное по тому, как пользователи уточняют запрос).
- Конкретные ниши или тематики: Влияет на все ниши. Позволяет системе лучше различать тематики и применять релевантные алгоритмы ранжирования (например, отличать коммерческие запросы от информационных по характерным meta-terms).
- Географические факторы: В патенте упоминается, что коллекция запросов может быть специфична для одного или нескольких географических регионов (страны, штаты), что позволяет учитывать локальные особенности уточнений.
Когда применяется
- Временные рамки: Сбор данных происходит за определенный период времени (в патенте упоминаются периоды: год, шесть месяцев и т.д.). Расчет схожести и классификация происходят периодически (офлайн-процесс).
- Условия работы: Основной алгоритм расчета схожести применяется только к запросам, для которых были найдены уточнения (refinements) в логах. Для запросов без уточнений используется вторичный механизм распространения меток.
Пошаговый алгоритм
Процесс классификации запросов:
- Сбор данных: Получение коллекции поисковых запросов из логов за определенный период.
- Агрегация и нормализация: Агрегация дубликатов запросов, подсчет частоты. Возможна предобработка (исправление ошибок, удаление стоп-слов).
- Идентификация уточнений (Refinements): Для каждого запроса Q находятся все запросы R в коллекции, такие что R содержит все термины Q плюс дополнительные термины.
- Извлечение мета-терминов (Meta-terms): Дополнительные термины из уточнений R становятся meta-terms запроса Q.
- Расчет весов мета-терминов: Для каждого мета-термина рассчитывается вес с использованием TF-IDF, чтобы определить его важность и специфичность.
- Расчет схожести (Similarity Calculation): Для пар запросов рассчитывается схожесть на основе их meta-terms. Используется word-vector cosine similarity, применяемая к взвешенным векторам мета-терминов.
- Получение Seed Queries: Выборка запросов классифицируется вручную (labeled seed queries).
- (Опционально) Модификация весов: Веса meta-terms могут быть скорректированы так, чтобы запросы с одинаковыми метками становились ближе друг к другу в пространстве схожести, а с разными метками — дальше.
- Классификация запросов с уточнениями: Для неразмеченного запроса находятся K ближайших соседей (наиболее похожих запросов) среди seed queries или уже классифицированных запросов. Запросу присваивается метка на основе голосования (consensus label) меток его соседей. Голоса могут взвешиваться по степени схожести.
- Классификация запросов без уточнений: Метки распространяются от классифицированных запросов к неклассифицированным запросам без уточнений, которые имеют с ними общие термины.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе текста запросов и их взаимосвязей в логах.
- Поведенческие факторы: Основной источник данных — логи поисковых запросов (collection of search queries). Система анализирует паттерны поведения пользователей, а именно то, как они последовательно уточняют свои запросы (query refinements). Также используется частота запросов и частота появления мета-терминов.
- Контентные факторы (Текст запросов): Используются тексты самих запросов для определения, является ли один запрос уточнением другого, а также тексты meta-terms.
- Временные факторы: Запросы собираются за определенный период времени (specified time period).
- Географические факторы: Коллекция запросов может быть специфична для одного или нескольких географических регионов.
Какие метрики используются и как они считаются
- Term Frequency-Inverse Document Frequency (TF-IDF): Используется для взвешивания мета-терминов. Вес увеличивается пропорционально частоте термина в уточнениях данного запроса, но уменьшается, если термин часто встречается в уточнениях других запросов в коллекции. Это позволяет выделить специфичные для категории мета-термины и отфильтровать общие.
- Distance Metric / Word-vector cosine similarity: Метрика для расчета схожести между двумя запросами. Каждый запрос представляется как взвешенный вектор его мета-терминов. Косинусное сходство измеряет угол между этими векторами.
- Алгоритмы машинного обучения: Используется метод классификации, соответствующий K-Nearest Neighbors (K-NN). Классификация определяется путем нахождения заданного числа ближайших (nearest) размеченных запросов и применения консенсусной метки (consensus label) (голосование).
- Confidence measure (Мера уверенности): Может рассчитываться на основе результатов консенсусного голосования (например, доля голосов за победившую метку).
Выводы
- Схожесть запросов определяется поведением пользователей: Ключевой вывод — Google может определять схожесть и категорию запросов не по семантике самих слов запроса, а по тому, как пользователи их уточняют. Если два разных запроса уточняются одинаковыми словами (meta-terms), они считаются похожими и принадлежат к одной категории.
- Мета-термины как ключ к контексту и интенту: Дополнительные слова (meta-terms), используемые при уточнении, раскрывают истинное намерение пользователя и контекст запроса. Они являются основными признаками для классификации.
- Важность специфичности уточнений (TF-IDF): Система придает больший вес уникальным, специфичным для ниши уточнениям. Использование TF-IDF позволяет отфильтровать общие слова (например, «купить», «фото») и сфокусироваться на терминах, характерных для конкретной категории (например, «mpg», «horsepower» для автомобилей).
- Масштабируемость классификации (Semi-Supervised Learning): Метод позволяет автоматически классифицировать огромный массив запросов, используя относительно небольшую выборку вручную размеченных данных (seed queries) и алгоритм ближайших соседей.
- Классификация влияет на весь процесс поиска: Понимание категории запроса является фундаментом для последующих этапов: применения специализированных алгоритмов ранжирования, таргетинга рекламы и адаптации выдачи (фильтры, SERP features).
Практика
Best practices (это мы делаем)
- Анализ паттернов уточнения запросов в нише: Необходимо исследовать, как пользователи уточняют ключевые запросы в вашей тематике. Анализируйте блоки «People Also Ask» (PAA), «Related Searches» и поисковые подсказки. Эти уточнения являются теми самыми meta-terms, которые Google использует для классификации вашего запроса.
- Использование мета-терминов в контенте и структуре: Включайте выявленные специфичные meta-terms в контент страницы (заголовки, текст, списки). Это поможет Google понять, что ваш контент соответствует ожиданиям пользователей в данной категории, и повысит релевантность страницы контексту запроса.
- Построение Topical Authority через охват мета-терминов: Создавайте структуру сайта и контент-план так, чтобы покрывать все ключевые аспекты темы, выраженные через meta-terms. Если вы продаете автомобили (запрос «Mustang»), убедитесь, что на сайте есть информация по всем ключевым уточнениям: «цена», «комплектации», «расход топлива», «мощность».
- Оптимизация под интент категории: Понимая, к какой категории Google относит запрос и какие уточнения для него характерны, можно более точно оптимизировать страницу под реальное намерение пользователя и критерии ранжирования, применяемые к этой категории.
Worst practices (это делать не надо)
- Игнорирование контекста и смежных интентов: Фокусировка исключительно на основном ключевом слове без учета того, как пользователи его развивают и уточняют. Это приводит к созданию поверхностного контента, не соответствующего интенту.
- Создание контента, не отвечающего на последующие вопросы: Если контент не покрывает информацию, которую пользователи ищут через уточнения (meta-terms), он будет считаться менее полезным и релевантным в рамках данной категории.
- Переоптимизация общими терминами: Не стоит злоупотреблять общими словами из уточнений (например, «купить», «отзывы»). Система использует TF-IDF для снижения веса таких терминов, если они не сопровождаются специфическими признаками категории.
Стратегическое значение
Патент подтверждает стратегическую важность понимания пути пользователя (User Journey) и семантического контекста. Google не просто ищет совпадения ключевых слов; он классифицирует намерение и контекст запроса, используя поведение пользователей как основной сигнал. Для SEO это означает, что стратегия должна строиться вокруг глубокого понимания тем, интентов и паттернов поиска в нише, а не вокруг отдельных ключевых запросов. Успешные сайты — это те, которые соответствуют модели уточнений пользователей в своей категории.
Практические примеры
Сценарий: Классификация неоднозначного запроса и SEO-действия
- Исходный запрос: «Java».
- Анализ уточнений (Google): Google анализирует логи и видит разные паттерны уточнений:
- Паттерн A: «Java download», «Java update», «Java programming tutorial». (Meta-terms: download, update, programming, tutorial).
- Паттерн B: «Java island», «Java map», «Java population». (Meta-terms: island, map, population).
- Расчет схожести и классификация (Google): Запросы, уточняемые по Паттерну A, классифицируются как [class: Technology/Programming]. Запросы по Паттерну B — как [class: Geography]. Meta-terms в каждом паттерне специфичны (высокий TF-IDF).
- SEO-действие (для сайта о программировании): SEO-специалист, продвигающий сайт по Java-программированию, должен проанализировать meta-terms Паттерна A.
- Реализация: Необходимо убедиться, что на сайте и на целевой странице присутствуют сущности и термины, соответствующие этим уточнениям: разделы о «скачивании», «туториалы», упоминания «программирования». Это поможет Google связать контент сайта с правильной классификацией запроса «Java».
- Результат: Сайт лучше ранжируется для пользователей, чей интент соответствует категории [Technology/Programming], так как он соответствует ожидаемым паттернам уточнения.
Вопросы и ответы
Что такое «мета-термин» (meta-term) в контексте этого патента?
Мета-термин — это дополнительное слово, которое пользователь добавляет к исходному запросу для его уточнения (refinement). Например, если исходный запрос — «кроссовки», а уточнение — «кроссовки для бега зимой», то мета-терминами будут «для бега» и «зимой». Именно эти слова используются системой для определения схожести между запросами и их классификации.
Чем схожесть по мета-терминам отличается от обычной семантической схожести запросов?
Обычная семантическая схожесть анализирует значения слов самого запроса. Схожесть по мета-терминам фокусируется исключительно на словах, используемых для уточнения. Например, запросы «Jaguar» и «Mustang» семантически разные, но если пользователи часто уточняют их словами «цена», «мощность», «расход топлива», то по мета-терминам они будут очень похожи и попадут в одну категорию [Автомобили].
Как SEO-специалист может узнать мета-термины для своих запросов?
Хотя прямого доступа к логам Google нет, мета-термины можно выявить косвенно. Основные источники — это блоки «Related Searches» (Связанные запросы), «People Also Ask» (Похожие вопросы), а также поисковые подсказки при вводе запроса. Анализ этих данных позволяет понять, какие дополнительные слова пользователи чаще всего используют для уточнения запросов в вашей нише.
Влияет ли этот патент на ранжирование напрямую?
Патент описывает механизм классификации запросов, а не ранжирования. Однако классификация имеет сильное косвенное влияние. В патенте прямо указано, что классификация может использоваться для применения различных критериев ранжирования для разных классов запросов. Правильная классификация запроса определяет, какие сайты вообще будут рассматриваться как релевантные кандидаты.
Как использовать знание о мета-терминах при создании контента?
Мета-термины показывают, какие аспекты темы интересуют пользователей в первую очередь. Их необходимо интегрировать в структуру контента: использовать в заголовках, подзаголовках, списках и основном тексте. Это демонстрирует поисковой системе, что ваш контент полностью раскрывает тему и соответствует ожиданиям пользователей в данной категории.
Что означает использование TF-IDF в этом патенте?
TF-IDF применяется для взвешивания мета-терминов. Это позволяет системе отличать общие слова уточнения от специфичных. Например, слово «купить» может использоваться в уточнениях многих запросов, поэтому его вес будет низким. Слово «мощность» используется реже и более специфично для категорий вроде автомобилей или техники, поэтому его вес будет выше при определении схожести.
Применяется ли этот метод для классификации страниц или только запросов?
Этот патент описывает исключительно классификацию поисковых запросов. Он не описывает методы анализа контента страниц или классификации сайтов. Однако, логично предположить, что классификация запроса затем используется для поиска страниц, соответствующих этой категории.
Как Google обрабатывает запросы, которые пользователи редко уточняют?
Патент предусматривает механизм для запросов без уточнений (un-refined queries). Они классифицируются путем распространения (propagating) меток от уже классифицированных запросов, которые имеют общие термины с ними. Это позволяет присвоить категорию даже тем запросам, по которым недостаточно данных об уточнениях.
Важен ли этот патент для работы с длинными (long-tail) запросами?
Да, важен. Длинные запросы часто сами являются уточнениями более коротких запросов. Система анализирует их как часть цепочки уточнений. Понимание того, как формируются long-tail запросы (какие мета-термины добавляются к основному запросу), является ключом к оптимизации под них.
Как этот патент связан с пониманием Интента пользователя?
Патент напрямую связан с определением интента. Уточнения запроса (мета-термины) часто явно указывают на намерение пользователя. Например, добавление слова «купить» сигнализирует о транзакционном интенте, а слова «как сделать» — об информационном. Классификация запроса на основе этих терминов является формой определения интента.