Google использует систему для определения коммерческого намерения пользователя в реальном времени. Система использует предварительно созданный список коммерческих шаблонов, основанный на данных рекламодателей, анализе логов и выявлении манипулятивных техник (например, доменов с множеством дефисов). Если запрос классифицируется как коммерческий, Google применяет измененный алгоритм ранжирования, например, снижая вес ключевых слов в доменном имени, чтобы обеспечить непредвзятые результаты.
Описание
Какую задачу решает
Патент решает проблему манипулирования поисковой выдачей, когда компании пытаются искусственно завысить свои позиции по коммерческим запросам. В частности, он направлен на нейтрализацию тактик, таких как включение популярных поисковых терминов в доменные имена (например, buy-credit-cards-online.com), чтобы воспользоваться тем, что поисковые системы могут придавать больший вес словам в домене. Это может приводить к предвзятым результатам поиска. Цель – улучшить ранжирование, обнаруживая коммерческие запросы и применяя к ним скорректированные веса факторов для нейтрализации манипуляций.
Что запатентовано
Запатентована система классификации поисковых запросов на коммерческие и некоммерческие с последующей дифференциальной обработкой. Система использует предварительно сгенерированный список Commercial Query Patterns, созданный на основе анализа различных источников: данных рекламодателей, логов запросов и признаков манипуляций (например, доменов с множеством дефисов). При получении запроса система определяет его тип и применяет различную логику ранжирования в зависимости от классификации.
Как это работает
Система работает в два этапа:
- Офлайн-генерация списка: Система агрегирует данные из рекламных систем (Ad list), анализирует домены и хосты на наличие множественных дефисов (признак манипуляции), изучает Competitive Queries (запросы для проверки позиций) и использует списки высококоммерческих слов (Short-Circuit Words). Путем пересечения и анализа этих данных формируется список Commercial Query Patterns.
- Обработка в реальном времени: При получении запроса система быстро проверяет (например, используя Bloom filter), соответствует ли он (точно или через стемминг/синонимы) шаблону из списка. Если да, запрос помечается как коммерческий.
- Адаптация ранжирования: Если запрос коммерческий, система применяет измененную логику ранжирования («второй способ»). Например, она может «весить доменные имена документов менее тяжело» при расчете оценки релевантности.
Актуальность для SEO
Высокая. Классификация интента запроса является фундаментальной частью современных поисковых систем. Хотя конкретные эвристики, описанные в патенте (например, подсчет дефисов), могут быть частично заменены нейросетевыми классификаторами, сам принцип идентификации коммерческого намерения для адаптации ранжирования и борьбы со спамом (ключевой для YMYL и E-E-A-T) остается критически важным. Участие ключевых фигур (Amit Singhal, Matt Cutts) подчеркивает важность этой концепции для Google.
Важность для SEO
Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает конкретный механизм, позволяющий Google применять разные алгоритмы ранжирования в зависимости от типа запроса. Это напрямую влияет на эффективность классических SEO-тактик. Например, он объясняет механизм, с помощью которого Google может подавлять Exact Match Domains (EMD) по коммерческим запросам, снижая вес ключевых слов в домене, если система считает, что это попытка манипуляции.
Детальный разбор
Термины и определения
- Ad List (Рекламный список)
- Список фраз и ключевых слов, которые представляют интерес для рекламодателей или вебмастеров. Включает термины, используемые в рекламе (например, купленные ключевые слова) или мета-тегах.
- Bloom filter (Фильтр Блума)
- Эффективная структура данных, упомянутая для быстрого определения того, включен ли запрос в финальный список коммерческих шаблонов.
- Commercial Query Patterns (Шаблоны коммерческих запросов)
- Предварительно сгенерированный список запросов, фраз и шаблонов, которые система использует для классификации входящих запросов в реальном времени.
- Competitive Queries (Конкурентные запросы)
- Запросы, часто используемые компаниями для мониторинга своих позиций относительно конкурентов, а также запросы, направленные на поиск товаров (например, через Froogle).
- Hyphenated Domain/Host Names (Доменные имена/Имена хостов с дефисами)
- Домены или хосты, содержащие более определенного числа дефисов (в патенте указано 2 или более). Используются как сигнал попытки манипуляции ранжированием путем включения ключевых слов в URL.
- N-gram
- Список из N слов, порядок которых не зависит друг от друга. Используется для анализа содержания доменных имен и запросов.
- Short-Circuit Words (Слова быстрого определения)
- Слова, которые с высокой вероятностью таргетируются рекламодателями (например, «hotels», «mortgage», «Viagra», «cheap», «free»). Их наличие в запросе позволяет быстро классифицировать его как коммерческий.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс обработки запроса и адаптации ранжирования.
- Система получает запрос.
- Система определяет, является ли запрос коммерческим. Это делается путем проверки, соответствуют ли термины запроса (в любом порядке) шаблону в списке Commercial Query Patterns.
- Важное уточнение: этот список шаблонов включает шаблоны, связанные (associated with) или сгенерированные из (generated from) имен хостов или доменов, которые содержат больше определенного количества дефисов.
- Если запрос НЕ коммерческий: он обрабатывается первым способом (first processing manner), что включает ранжирование первым способом.
- Если запрос коммерческий: он обрабатывается вторым, отличным способом (second, different processing manner), что включает ранжирование вторым, отличным способом.
Ядро изобретения — это метод классификации запроса с использованием специфических сигналов манипуляции (анализ дефисов в доменах) и последующее применение одного из двух различных методов ранжирования в зависимости от результата классификации.
Claim 9 (Независимый пункт): Описывает аналогичную систему, но с акцентом на совпадение подмножества терминов запроса (subset of the one or more terms) со списком паттернов.
Claim 2, 3, 10, 11 (Зависимые): Уточняют механизм определения коммерческого запроса при отсутствии точного совпадения.
Если запрос точно не совпадает с шаблоном из списка, система проверяет, «связан» ли он (relates to) или «похож» ли (similar to) на шаблон. Эта связь может определяться с помощью стемминга (совпадение основ слов) или синонимов.
Claim 5 (Зависимый): Уточняет разницу в обработке.
Обработка коммерческого запроса включает оценку документов на основе второго, отличного набора критериев по сравнению с некоммерческим запросом. Это подтверждает динамическое изменение весов факторов.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, объединяя офлайн-анализ и обработку запросов в реальном времени.
INDEXING – Индексирование и извлечение признаков
На этом этапе система собирает данные, необходимые для генерации списка шаблонов. Это включает анализ структуры URL (подсчет дефисов в доменах и хостах) и анализ атрибутов документов (например, использование мета-тегов).
QUNDERSTANDING – Понимание Запросов (Офлайн/Пакетная обработка)
Основная часть работы по генерации Commercial Query Patterns происходит здесь. Система анализирует логи запросов, данные рекламных систем и данные индекса для создания и обновления списка шаблонов.
QUNDERSTANDING – Понимание Запросов (Реальное время)
Это ключевой этап применения патента. Входящий запрос пользователя мгновенно сравнивается с сохраненным списком Commercial Query Patterns (например, через Bloom filter) для классификации его как коммерческого или некоммерческого.
RANKING – Ранжирование
Результат классификации на этапе QUNDERSTANDING определяет, какая логика ранжирования или какие весовые коэффициенты будут применены. Система выбирает между «первым способом ранжирования» и «вторым способом ранжирования».
Входные данные (Офлайн):
- Логи пользовательских запросов.
- Ad List (данные рекламодателей).
- Списки доменов и хостов с 2+ дефисами.
- Competitive Queries.
- Short-Circuit Words.
- Данные об атрибутах документов из индекса.
- Данные о ставках (CPC/CPM).
Входные данные (Реальное время):
- Входящий запрос пользователя.
- Список Commercial Query Patterns.
Выходные данные:
- Классификация запроса (коммерческий/некоммерческий).
- Набор результатов поиска, отранжированный в соответствии с примененным способом ранжирования.
На что влияет
- Специфические запросы: Влияет преимущественно на коммерческие запросы (транзакционные и некоторые информационные с сильным коммерческим интентом).
- Конкретные ниши или тематики: Наибольшее влияние в конкурентных коммерческих нишах (финансы, страхование, e-commerce, фармакология), где ранее были распространены манипуляции с ключевыми словами в доменах. Патент упоминает примеры: hotels, mortgages, Viagra, Celebrex.
Когда применяется
- Триггер активации: Классификация применяется к каждому запросу в реальном времени.
- Условие применения: Измененный (второй) способ ранжирования активируется только в том случае, если запрос классифицирован как коммерческий.
- Временные рамки: Генерация списка происходит периодически (офлайн).
Пошаговый алгоритм
Процесс А: Офлайн-генерация списка Commercial Query Patterns
- Сбор исходных данных: Получение списков: User Queries, Ad List, Domains (2+ дефиса), Host Names (2+ дефиса), Competitive Queries, Short-Circuit Words.
- Очистка данных: Удаление стоп-слов, цифр, пунктуации из запросов, доменов и хостов.
- Генерация N-грамм (Опционально): Вычисление общих N-грамм (например, 2-5 слов) для списков доменов и хостов.
- Создание списков пересечений (Опционально):
- Список 1: Пересечение N-грамм с User Queries.
- Список 2: Пересечение N-грамм с Competitive Queries.
- Создание Списка 3 (Опционально): Фильтрация Списков 1 и 2 на основе правил частотности. Например, 2-словные запросы включаются, если встречаются 5+ раз; 5-словные — если 2+ раза.
- Создание Списка 4 (Опционально): Для запросов, не попавших в Ad List или Список 3, проверяется наличие Short-Circuit Words.
- Создание Списка 5 (Опционально): Для оставшихся запросов выполняется запрос к рекламному серверу. Если запрос вызывает >M рекламных объявлений (например, M=3) или имеет высокую совокупную цену CPC/CPM, он добавляется в список.
- Создание Списка 6 (Опционально): Для оставшихся запросов анализируются атрибуты соответствующих документов. Если атрибуты указывают на коммерческий характер (например, избыток ключевых слов в мета-тегах), запрос добавляется в список.
- Объединение и расширение: Ad List и Списки 3-6 объединяются. Полученный список расширяется за счет стемминга, синонимов и связанных слов.
- Сохранение: Итоговый список Commercial Query Patterns сохраняется (например, в виде Bloom filter для быстрого доступа).
Процесс Б: Обработка запроса в реальном времени
- Получение запроса: Система получает запрос от пользователя.
- Проверка точного совпадения: Система проверяет, содержится ли запрос (или его термины в любом порядке) в списке Commercial Query Patterns.
- Проверка связанности: Если точного совпадения нет, система проверяет, связан ли запрос с шаблоном в списке (например, совпадение подмножества слов, стемминг, синонимы).
- Классификация:
- Если совпадение или связь найдены: Запрос классифицируется как Коммерческий.
- Иначе: Запрос классифицируется как Некоммерческий.
- Адаптивное ранжирование:
- Если Некоммерческий: Применяется первый способ ранжирования (стандартный).
- Если Коммерческий: Применяется второй способ ранжирования. Например, снижается вес фактора наличия ключевых слов в доменном имени.
Какие данные и как использует
Данные на входе
- Технические факторы: Структура URL. Анализируются доменные имена и имена хостов на предмет наличия 2 или более дефисов. Это используется как сигнал потенциальной манипуляции.
- Поведенческие/Пользовательские факторы:
- Логи пользовательских запросов (User Queries) используются для определения частотности и паттернов.
- Competitive Queries (запросы от компаний для проверки позиций или запросы на покупку товаров) используются как прямой индикатор коммерческой ценности.
- Рекламные данные (Ad Data):
- Ad List: Ключевые слова, таргетированные или купленные рекламодателями.
- Количество вызванных рекламных объявлений (advertisement-related items) по запросу.
- Цены за клик (CPC) или за показ (CPM) используются как прокси для определения коммерческой ценности.
- Контентные факторы: Атрибуты документов, соответствующих запросу. Упоминается анализ мета-тегов: документы, таргетирующие коммерческие термины, могут содержать много ключевых слов в мета-тегах.
- Лексические данные: Short-Circuit Words – заранее определенный список высококоммерческих терминов.
Какие метрики используются и как они считаются
- Количество дефисов (N): Пороговое значение для определения манипулятивных доменов/хостов (в патенте N >= 2).
- Количество рекламных объявлений (M): Пороговое значение количества объявлений, вызванных запросом, для классификации его как коммерческого (в патенте предлагается M=3).
- Частотность N-грамм: Правила для включения N-грамм в список коммерческих шаблонов, основанные на длине N-граммы и частоте ее встречаемости в логах и доменах. Пример правил:
- 2 слова: 5+ раз.
- 3 слова: 4+ раза.
- 4 слова: 3+ раза.
- 5 слов: 2+ раза.
- Стоимость рекламы: Совокупная стоимость CPC или CPM, наивысшая цена объявления или медианная цена для запроса.
Выводы
- Классификация интента как основа ранжирования: Патент демонстрирует, что Google использует классификацию запросов (коммерческий/некоммерческий) как триггер для изменения логики ранжирования. Это фундаментальный принцип: разные интенты требуют разных весов факторов.
- Активная нейтрализация манипуляций (Анти-EMD): Система специально разработана для борьбы с конкретными SEO-тактиками, такими как создание доменов с ключевыми словами (особенно с несколькими дефисами). Если запрос коммерческий, вес ключевых слов в домене снижается.
- Использование данных рекламодателей для органического поиска: Данные из рекламных систем (Ad List, количество объявлений, CPC/CPM) напрямую используются для обучения классификатора органического поиска. Коммерческая ценность запроса в Ads влияет на его обработку в органике.
- Многофакторная модель классификации: Коммерческий интент определяется комбинацией лексических признаков (Short-Circuit Words), поведенческих данных (Competitive Queries), технических признаков (дефисы в доменах) и анализа контента (мета-теги).
- Гибкость сопоставления: Система использует не только точные совпадения запросов, но и гибкие методы (стемминг, синонимы, совпадение подмножества слов, порядок слов не важен), чтобы обеспечить широкий охват при классификации.
Практика
Best practices (это мы делаем)
- Фокус на бренде и авторитетности, а не на EMD: При работе с коммерческими проектами приоритет следует отдавать развитию сильного бренда и авторитетности домена. Патент показывает, что Google активно снижает влияние ключевых слов в домене для коммерческих запросов, чтобы бороться с манипуляциями.
- Анализ коммерческого интента кластера: Необходимо четко понимать, классифицирует ли Google ваши целевые запросы как коммерческие. Если да, то следует ожидать применения более строгих критериев качества (E-E-A-T) и потенциального снижения веса простых текстовых факторов (включая доменное имя).
- Использование данных Google Ads для органики: Анализируйте данные из Google Ads (ставки CPC, уровень конкуренции). Высокие ставки и большое количество рекламодателей подтверждают, что запрос является высококоммерческим, и к нему, вероятно, применяются механизмы, описанные в патенте.
- Качественная структура URL для пользователей: Используйте чистые, понятные URL. Избегайте избыточного использования дефисов (2 и более) и перечисления ключевых слов в доменном имени, так как это может быть воспринято как сигнал манипуляции (Hyphenated Domain/Host Names).
Worst practices (это делать не надо)
- Создание мульти-дефисных доменов с ключевыми словами: Регистрация доменов типа buy-cheap-blue-widgets-online.com. Патент прямо указывает, что наличие 2 и более дефисов используется как сигнал для идентификации коммерческих запросов и активации подавляющих механизмов ранжирования.
- Ставка на Exact Match Domains (EMD) в коммерческих нишах: Полагаться на то, что наличие ключевого слова в домене даст значительное преимущество по коммерческому запросу. Система спроектирована так, чтобы нейтрализовать это преимущество, если запрос идентифицирован как коммерческий.
- Избыточное использование мета-тегов (Keyword Stuffing): Переполнение мета-тегов коммерческими терминами может служить сигналом для классификации связанных запросов как коммерческих (при генерации Списка 6) и указывать на попытку манипуляции.
Стратегическое значение
Этот патент подтверждает, что адаптация ранжирования на основе интента запроса является давней и стратегически важной частью архитектуры Google. Для Senior SEO-специалистов это подчеркивает, что не существует единого алгоритма ранжирования; веса факторов динамически меняются. Стратегии, основанные на манипулировании легковесными сигналами (такими как ключевые слова в домене), будут неэффективны в коммерческих нишах, где Google применяет контрмеры. Долгосрочная стратегия должна фокусироваться на сигналах, которые сложнее подделать и которые подтверждают ценность ресурса.
Практические примеры
Сценарий: Выбор домена для интернет-магазина
- Ситуация: Запуск нового интернет-магазина по продаже ортопедических матрасов. Целевой запрос: «купить ортопедический матрас».
- Анализ интента: Запрос является транзакционным (коммерческим). Это подтверждается наличием слов-маркеров («купить») и высокой конкуренцией в Google Ads.
- Плохое решение (на основе Worst Practices): Выбрать домен kupit-deshevo-ortopedicheskiy-matras.com. Система обнаружит множественные дефисы (4 дефиса) и классифицирует связанные запросы как коммерческие. При ранжировании вес ключевых слов в этом домене будет снижен.
- Хорошее решение (на основе Best Practices): Выбрать брендовый домен (например, DreamSleep.com) или гибридный (MatrasDream.com). Фокусироваться на построении авторитетности этого домена. Ранжирование будет зависеть от качества сайта и внешних сигналов, а не от манипулятивных факторов в домене.
Вопросы и ответы
Означает ли этот патент, что домены точного вхождения (EMD) больше не работают?
Не совсем. Патент указывает, что Google снижает вес ключевых слов в доменном имени, когда запрос классифицируется как коммерческий. Это делается для борьбы с манипуляциями. EMD могут по-прежнему работать для информационных или низкоконкурентных запросов. Однако в конкурентных коммерческих нишах полагаться на EMD рискованно, так как их влияние может быть активно подавлено.
Как Google определяет, что запрос является коммерческим?
Патент описывает комплексный подход. Используются данные рекламодателей (купленные слова, количество рекламы, ставки CPC), наличие специфических слов (например, «cheap», «free», «mortgage»), анализ поведения конкурентов (запросы для проверки позиций), а также технические сигналы, такие как частое использование ключевых слов в доменах с множеством дефисов. Эти данные агрегируются для создания списка коммерческих шаблонов.
Является ли использование дефисов в домене плохой практикой?
Согласно патенту, наличие одного дефиса является распространенным явлением. Однако наличие двух или более дефисов рассматривается как индикатор того, что компания пытается манипулировать ранжированием, включая несколько ключевых слов в домен. Это используется как сигнал для более тщательной проверки и потенциальной корректировки ранжирования.
Как система обрабатывает новые коммерческие запросы, которых еще нет в списке?
Патент описывает несколько механизмов. Во-первых, список регулярно обновляется офлайн. Во-вторых, система использует гибкое сопоставление: если новый запрос содержит подмножество слов, стемминговые формы или синонимы уже известного коммерческого шаблона, он также будет классифицирован как коммерческий. В-третьих, упоминается возможность анализа атрибутов документов в выдаче.
Как связаны данные Google Ads и органический поиск согласно этому патенту?
Связь прямая и очень тесная. Патент явно указывает на использование «Ad List» (слова, купленные рекламодателями), количества вызванных рекламных объявлений и даже ставок (CPC/CPM) как входных данных для обучения системы классификации органического поиска. Коммерческая ценность запроса в Ads напрямую влияет на его обработку в органике.
Что такое «Competitive Queries» и почему они важны?
Это запросы, которые компании часто используют для проверки своих позиций в поиске относительно конкурентов, или запросы, направленные на покупку товаров (например, направленные на Froogle). Они важны, потому что показывают, какие именно фразы компании считают наиболее ценными и за какие они активно борются. Google использует эти данные как сильный индикатор коммерческого интента.
Насколько актуальны сигналы, описанные в патенте (например, подсчет дефисов), в 2025 году?
Хотя основные принципы классификации интента и адаптивного ранжирования критически важны, конкретные эвристики, такие как подсчет дефисов или анализ мета-тегов, вероятно, уступили место более сложным моделям машинного обучения. Однако они дают представление о философии Google: выявлять и нейтрализовывать попытки манипуляции, особенно в коммерческой выдаче.
Как этот патент соотносится с E-E-A-T и YMYL?
Этот патент можно рассматривать как ранний предшественник концепций YMYL. Он фокусируется на коммерческих запросах, многие из которых попадают в категорию YMYL (например, финансы, здоровье). Патент демонстрирует, что для таких важных запросов Google готов изменять стандартные веса ранжирования, чтобы обеспечить более качественные и непредвзятые результаты, что перекликается с целями E-E-A-T.
Что такое «Short-Circuit Words»?
Это слова, которые с высокой вероятностью указывают на коммерческое намерение (например, «купить», «дешево», «скидка», названия лекарств, «ипотека»). Их наличие позволяет системе быстро («short-circuit») классифицировать запрос как коммерческий, минуя более сложные этапы анализа пересечений и N-грамм.
Если я работаю в коммерческой нише, что мне делать, чтобы мое ранжирование не было подавлено этим механизмом?
Поскольку механизм направлен на нейтрализацию манипулятивных тактик, таких как EMD или переспам, необходимо сосредоточиться на фундаментальных факторах качества. Используйте чистый брендовый домен без множества дефисов, создавайте авторитетный контент и работайте над получением качественных внешних сигналов. Это позволит вам ранжироваться на основе реальной ценности ресурса.