
Google использует систему для автоматического определения релевантных бизнес-категорий (например, «Желтые страницы») для поискового запроса. Система основана на статистической модели (например, Naïve Bayes), которая обучается на различных источниках данных: каталогах, веб-сайтах компаний, логах запросов и рекламном трафике. Это позволяет сопоставлять запросы с категориями, даже если они не имеют общих слов.
Патент решает проблему неточного сопоставления поисковых запросов с релевантными бизнес-категориями (по типу «Желтых страниц»). Традиционные методы, основанные на прямом совпадении ключевых слов в запросе и названии категории, часто неэффективны. Например, запрос «проявка пленки» должен соответствовать категории «фотоуслуги», хотя у них нет общих слов. Использование простых синонимов также не решает проблему из-за контекстуальной зависимости терминов (например, «пленка» может относиться к кино, фотографии или химии). Цель изобретения — более эффективно классифицировать поисковые запросы в одну или несколько подходящих бизнес-категорий.
Запатентована система автоматического построения модели классификации категорий (Category Classification Model) на основе обучающих данных из различных источников. Система использует статистическую модель (в частности, упоминается классификатор на основе Naïve Bayes) для изучения ассоциаций между терминами поисковых запросов и бизнес-категориями. Это позволяет определять вероятность принадлежности запроса к той или иной категории.
Система работает в двух режимах: обучение и классификация в реальном времени.
Category Model, которая хранит статистические вероятности ассоциации терминов с категориями. При использовании веб-документов для обучения может применяться Inverse Document Frequency (IDF) для взвешивания важности терминов.Classification Component) использует обученную модель для расчета вероятности принадлежности этого запроса к каждой из возможных категорий. Выбираются и возвращаются пользователю категории с наибольшей вероятностью.Средняя. Хотя базовые принципы категоризации запросов и использования разнообразных данных для обучения остаются актуальными (особенно в локальном и коммерческом поиске), конкретные методы, описанные в патенте (например, Naïve Bayes), вероятно, уступили место более сложным нейросетевым моделям (таким как Трансформеры) в современных системах Google. Однако патент дает фундаментальное понимание того, как Google решает задачу сопоставления запросов с коммерческими категориями.
Патент имеет высокое значение для понимания основ Local SEO и коммерческого поиска. Он демонстрирует, что Google не полагается только на ключевые слова в названии бизнеса или категории, а строит сложные статистические ассоциации между запросами и категориями, используя данные из всего интернета и поведение пользователей. Это подчеркивает важность наличия на сайте бизнеса богатого семантического контента, который помогает поисковой системе правильно классифицировать компанию, даже если этот контент не содержит точных формулировок целевых запросов.
Category Model. Включает примеры поисковых запросов, связанных с их корректными категориями. Источники включают Directory Listings, Categorized web sites, Query traffic data и Advertisement traffic data.Примечание: В предоставленном тексте патента доступен только Claim 1. Claims 2-32 аннулированы (canceled). Анализ основан на Claim 1 и его интерпретации через Description.
Claim 1 (Независимый пункт): Описывает метод определения категорий, релевантных поисковому запросу.
classification component).category model), которая была обучена (trained) с использованием обучающих данных (training data).transmitting) эти одну или несколько категорий.Ядро изобретения заключается в использовании обученной статистической модели (как указано в Description, например, Naïve Bayes) для классификации запросов, причем обучение происходит на разнообразных источниках данных (не только на названиях категорий или бизнеса). Это позволяет системе изучать сложные ассоциации, выходящие за рамки простого совпадения текста или синонимов.
Изобретение применяется на этапе понимания запроса и влияет на формирование выдачи, особенно в контексте локального или коммерческого поиска (Business Listings Search).
QUNDERSTANDING – Понимание Запросов
Основное применение патента. Category Classification Component анализирует входящий запрос в реальном времени (run-time classification mode) для определения его коммерческой или локальной направленности и сопоставления с предопределенными бизнес-категориями. Это помогает системе понять интент пользователя (например, ищет ли он услугу или конкретную компанию).
INDEXING / Офлайн-процессы
Система также работает в режиме обучения (training mode) офлайн. На этом этапе происходит сбор Training Data из различных источников (каталоги, веб-сайты) и построение/обновление Category Model. Рассчитываются статистические вероятности и IDF для терминов.
RANKING / METASEARCH
Результаты классификации (определенные категории) используются для извлечения и ранжирования релевантных бизнес-листингов. Если запрос классифицирован как «Итальянские рестораны», система будет искать и ранжировать бизнесы в этой категории.
Входные данные:
Training Data (пары категория-запрос/термины) из источников: Directory Listings, Categorized web sites, Misc. pre-classified business data, Query traffic data, Advertisement traffic data.Выходные данные:
Category Model (набор статистических вероятностей).Процесс разделен на две основные фазы: Обучение и Работа в реальном времени.
Фаза 1: Обучение (Training)
Training Data из одного или нескольких источников (Каталоги, Категоризированные веб-сайты, Прочие бизнес-данные). Данные представляют собой наборы категорий (X) и связанных с ними запросов/терминов (Y).Inverse Document Frequency (IDF) для терминов. Термины с более высоким IDF получают больший вес.Naïve Bayes). Это включает расчет и сохранение в Category Model следующих вероятностей: Фаза 2: Работа в реальном времени (Run-time operation)
Category Model. Naïve Bayes расчет ведется по формуле (упрощенно, ищется максимум числителя): P[Y∣Xi]⋅P[Xi].Category Model на основе взаимодействия пользователя с результатами поиска (Query traffic data) или рекламой (Advertisement traffic data). Например, если пользователь ввел «пленка» и кликнул на результат из категории «Фотоуслуги», вероятность P[«пленка»|«Фотоуслуги»] может быть увеличена.Патент детально описывает источники обучающих данных:
Directory Listings (например, Желтые страницы) и Misc. pre-classified business data (например, ресторанные гиды, потребительские отчеты). Используются названия бизнесов и их предопределенные категории.Categorized web sites. Используется текст с веб-сайтов компаний, чья категория уже известна. Это позволяет системе изучать терминологию, используемую в конкретной нише.Query traffic data: Данные о том, какие результаты (и из каких категорий) пользователи выбирают после ввода определенных запросов. Используется для уточнения вероятностей для неоднозначных терминов.Advertisement traffic data: Данные о кликах по рекламе. Если пользователь кликает на рекламу определенной категории после ввода запроса, это считается сигналом связи между запросом и категорией.Category Model. Naïve Bayes). Система не ищет прямые совпадения, а рассчитывает вероятности на основе изученных ассоциаций.Categorized web sites) напрямую используется для обучения классификатора. Система анализирует термины на сайте и связывает их с категорией бизнеса, используя IDF для определения наиболее значимых слов.IDF для взвешивания терминов. Не избегайте использования узкоспециализированных терминов, которые точно описывают ваш бизнес. Они могут иметь больший вес при классификации, так как реже встречаются в других тематиках.Query traffic data используется для обучения, важно создавать привлекательные сниппеты, которые мотивируют пользователей кликать на ваш результат по релевантным запросам. Высокий CTR по целевым запросам может укрепить ассоциацию вашего сайта (и категории) с этими запросами в модели Google.Directory Listings), так как они являются первичным источником обучающих данных. Информация на вашем сайте должна подтверждать эту категоризацию.Business Listings Search. Некорректный выбор категорий в GBP или расхождение информации в нем с данными на сайте противоречит принципам, заложенным в патенте.Патент подтверждает, что для успешного продвижения в локальном и коммерческом поиске недостаточно просто иметь ключевые слова в названии или тексте. Google стремится понять суть бизнеса на основе совокупности сигналов из разных источников. Стратегически это означает, что SEO должно фокусироваться на построении четкого и последовательного семантического образа бизнеса в интернете. Контент на сайте должен быть не просто «оптимизирован под ключи», а служить источником знаний о том, чем занимается компания, помогая поисковой системе правильно её классифицировать.
Сценарий: Помощь классификатору в определении узкой специализации бизнеса
Ситуация: Компания занимается реставрацией старинных фотографий. Владелец хочет, чтобы сайт появлялся по запросам типа «восстановление фото», но также и по более специфическим, например, «ремонт дагеротипов».
Действия на основе патента:
Ожидаемый результат: Модель классификации Google изучает ассоциации между специфическими терминами на сайте и категорией бизнеса. Это повышает вероятность того, что запросы, содержащие эти термины (или даже семантически связанные с ними), будут классифицированы правильно, и бизнес будет показан в результатах.
Как именно система определяет категорию, если в запросе нет слов из названия категории?
Система использует статистическую модель (например, Naïve Bayes), обученную на большом объеме данных. Она знает, какие слова статистически часто ассоциируются с определенной категорией. Например, если в обучающих данных слова «пленка», «проявка» и «печать» часто встречались у бизнесов из категории «Фотоуслуги», система присвоит высокую вероятность этой категории для запроса «проявка пленки», даже если слово «фотоуслуги» отсутствует.
В патенте упоминается Naïve Bayes. Значит ли это, что Google до сих пор его использует?
Патент описывает Naïve Bayes как один из примеров реализации. Учитывая дату публикации (2010 год) и развитие технологий NLP, весьма вероятно, что современные системы Google используют гораздо более сложные модели (например, основанные на архитектуре Трансформер). Однако базовые принципы — использование статистических ассоциаций и обучение на разнообразных данных — остаются актуальными.
Как контент на моем сайте влияет на то, как Google классифицирует мой бизнес?
Контент вашего сайта является одним из ключевых источников обучающих данных (Categorized web sites). Система анализирует текст на вашем сайте и связывает используемые термины с категорией вашего бизнеса. Чем точнее и подробнее контент описывает вашу деятельность, тем лучше классификатор поймет вашу специализацию.
Что такое Inverse Document Frequency (IDF) и почему это важно для SEO?
IDF — это метрика, которая определяет важность слова. Чем реже слово встречается в интернете в целом, тем выше его IDF. Патент указывает, что при анализе контента сайта термины с высоким IDF могут получать больший вес. Для SEO это означает, что использование узкоспециализированной терминологии, точно описывающей ваш бизнес, помогает выделиться и точнее классифицироваться.
Как поведение пользователей влияет на классификацию запросов согласно патенту?
Патент описывает использование Query traffic data и Advertisement traffic data для обновления модели. Если пользователи вводят определенный запрос и затем кликают на результаты или рекламу из конкретной категории, система усиливает связь между этим запросом и категорией. Это подчеркивает важность высокого CTR и релевантности сниппетов.
Стоит ли регистрироваться во множестве внешних каталогов?
Да, патент указывает Directory Listings (например, Желтые страницы) как важный источник обучающих данных. Регистрация в релевантных и авторитетных каталогах с правильным выбором категории помогает предоставить системе точные данные для обучения классификатора и укрепляет понимание вашего бизнеса.
Что делать, если Google неправильно классифицирует запросы, по которым я хочу ранжироваться?
Необходимо усилить сигналы, связывающие ваш бизнес с нужной категорией. Проанализируйте контент вашего сайта: достаточно ли он подробно описывает услуги, используя специфическую терминологию (высокий IDF)? Убедитесь в правильности категорий во внешних каталогах. Также работайте над повышением CTR по этим запросам, чтобы показать системе через Query traffic data, что ваш результат релевантен.
Применяется ли этот патент только к локальному поиску?
Патент сфокусирован на Business Listings Search, что тесно связано с локальным поиском (например, рестораны, услуги). Однако описанные принципы классификации запросов в коммерческие категории применимы шире, включая eCommerce и B2B, где необходимо сопоставить запрос с категориями товаров или услуг.
Может ли этот механизм привести к тому, что запрос будет отнесен к нескольким категориям?
Да. Статистическая модель рассчитывает вероятности для всех возможных категорий. Если несколько категорий имеют высокие вероятности, система может вернуть их все. Например, запрос «фильм» может иметь вероятности для категорий «Кинотеатры», «Фотопленка» и «Химическое оборудование», и система может вернуть результаты из нескольких из них.
Как бороться с неоднозначностью запросов (например, «ключ» как инструмент и «ключ» как источник воды)?
Система разрешает неоднозначность, анализируя все слова в запросе и их совместные вероятности. Если запрос просто «ключ», система может вернуть несколько категорий. Если запрос «гаечный ключ», совместная вероятность будет выше для категории «Инструменты». Также используется обратная связь от пользователей (Query traffic data), чтобы понять, какой смысл чаще всего ищут пользователи.

Local SEO
Поведенческие сигналы
Семантика и интент

Поведенческие сигналы
Семантика и интент
Структура сайта

Семантика и интент
SERP

Персонализация
Поведенческие сигналы
SERP

Мультимедиа
SERP
Поведенческие сигналы

SERP
Поведенческие сигналы
EEAT и качество

Семантика и интент
Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
SERP
EEAT и качество

Поведенческие сигналы
SERP
Мультимедиа

Поведенческие сигналы
SERP

Персонализация
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Антиспам
