Google использует статистический анализ для выявления сильных корреляций между поисковыми запросами и категориями документов (например, бизнес-листингами). Система анализирует частоту запросов и частоту их появления внутри категорий. Если ключевое слово тесно связано с категорией (например, «суши-бар» и «Японские рестораны»), Google повышает ранжирование документов этой категории при поиске по этому ключевому слову.
Описание
Какую задачу решает
Патент решает проблему неэффективного использования данных о категоризации документов в поисковых системах. В тексте патента отмечается, что на момент изобретения (приоритет от 2006 г.) «категоризация документов не особенно полезна для поисковых систем». Цель изобретения — создать механизм, который автоматически определяет, какие поисковые термины (ключевые слова) статистически значимо связаны с определенными категориями (например, категориями бизнеса в локальном поиске), и использовать эту связь для улучшения релевантности и ранжирования результатов.
Что запатентовано
Запатентована система для автоматического определения сильных ассоциаций между ключевыми словами (часто извлекаемыми из логов поисковых запросов) и категориями документов. Система использует статистические методы (например, F-measure) для анализа больших объемов данных, чтобы выявить, какие ключевые слова являются определяющими для конкретной категории. Эта связь затем используется в ранжировании: если запрос содержит такое ключевое слово, документы соответствующей категории получают повышение (boost).
Как это работает
Система работает путем анализа логов запросов и корпуса документов (например, бизнес-листингов):
- Извлечение кандидатов: Идентифицируются термины из поисковых запросов, которые также встречаются в документах.
- Категоризация: Документы соотносятся с категориями (например, название бизнеса с типом бизнеса).
- Расчет частот: Вычисляется, как часто термин запрашивается (Query Frequency) и как часто он встречается внутри определенной категории (Category Frequency).
- Статистический анализ: Рассчитывается оценка (например, F-measure), чтобы найти ключевые слова, которые имеют сильную корреляцию внутри категории (strong «within» category correlation) и слабую корреляцию между категориями (weak «between» category correlation), а также являются значимыми поисковыми терминами.
- Применение в поиске: Когда пользователь вводит запрос, содержащий идентифицированное ключевое слово, система повышает ранжирование документов, принадлежащих к сильно ассоциированной категории.
Актуальность для SEO
Высокая. Связывание неструктурированных запросов со структурированными данными (категориями, сущностями) является фундаментальным элементом современного поиска. Этот патент описывает конкретный статистический метод для установления таких связей, что особенно актуально для локального поиска (Local Search), электронной коммерции и понимания интента пользователя на основе ключевых слов.
Важность для SEO
Патент имеет высокое значение (8.5/10), особенно для локального SEO и сайтов с четкой структурой категорий (например, e-commerce, агрегаторы). Он подчеркивает критическую важность правильной категоризации (например, в Google Business Profile или через Schema.org) и использования в контенте именно тех ключевых слов, которые пользователи статистически сильно ассоциируют с данной категорией. Использование этих «определяющих» ключевых слов может активировать описанный механизм повышения ранжирования.
Детальный разбор
Термины и определения
- Keyword (Ключевое слово)
- Keyword Candidate, который прошел статистическую проверку и был признан сильно ассоциированным с определенной Category.
- Keyword Candidate (Кандидат в ключевые слова)
- Слово или фраза, извлеченная из логов поисковых запросов (search queries), которая также встречается в корпусе документов.
- Category (Категория)
- Класс, к которому принадлежит документ. Примеры в патенте включают категории бизнеса (attorneys, auto repair, restaurants) или другие тематические классы.
- Document Information (Информация о документе)
- Текстовая информация в документе, используемая для его категоризации. В примерах патента часто используется как бизнес-листинг (название, адрес, телефон).
- F-measure (F-мера)
- Статистическая оценка, используемая для измерения силы связи между ключевым словом и категорией. Она балансирует точность (precision) и полноту (recall) и рассчитывается на основе вероятностей P(keyword), P(category) и P(keyword, category).
- P(keyword) (Вероятность ключевого слова)
- Вероятность появления ключевого слова в логах поисковых запросов.
- P(category) (Вероятность категории)
- Вероятность появления категории в корпусе документов.
- P(keyword, category) (Совместная вероятность)
- Вероятность совместного появления ключевого слова и категории.
- Strong «within» category correlation (Сильная внутрикатегориальная корреляция)
- Показатель того, что ключевое слово часто встречается в документах, принадлежащих к данной категории.
- Weak «between» category correlation (Слабая межкатегориальная корреляция)
- Показатель того, что ключевое слово редко встречается в документах, не принадлежащих к данной категории (т.е. слово специфично для категории).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод идентификации ключевых слов для категорий.
- Идентификация первого слова (keyword candidate) из ранее отправленных запросов.
- Создание пары, включающей первое слово и второе слово, описывающее конкретную категорию.
- Вычисление первого значения на основе частоты появления первого слова в запросах (Query Frequency).
- Вычисление второго значения на основе частоты появления первого слова в документах, классифицированных в данной категории (Category Frequency).
- Определение того, удовлетворяет ли первое значение первому порогу (проверка значимости запроса).
- Определение того, удовлетворяет ли второе значение второму порогу (проверка корреляции с категорией).
- Если оба порога удовлетворены, первое слово определяется как keyword для данной категории.
- Ассоциация этого keyword с документами категории.
Claim 4 (Зависимый от 1): Добавляет условие для определения keyword.
- Вычисление третьего значения на основе общей частоты появления первого слова во всей коллекции документов (не только в категории).
- Определение keyword также основывается на том, что это третье значение НЕ удовлетворяет третьему порогу.
Это условие гарантирует, что ключевое слово специфично для категории (weak «between» category correlation), а не является общеупотребимым термином.
Claim 7 (Зависимый от 1): Описывает применение изобретения в поиске.
- Получение поискового запроса, включающего форму идентифицированного keyword.
- Повышение ранжирования документа, связанного с соответствующей категорией, в упорядоченном списке результатов поиска.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя офлайн-вычисления для влияния на онлайн-ранжирование.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор документов и извлечение Document Information. Также система должна иметь возможность классифицировать документы по категориям (Category), используя эту информацию.
QUNDERSTANDING – Понимание Запросов (Офлайн-анализ)
Основная часть вычислений происходит здесь, но в офлайн-режиме. Система анализирует логи поисковых запросов (search queries) и корпус проиндексированных документов для выполнения статистического анализа (расчет F-measure) и генерации базы данных ассоциаций между Keywords и Categories.
RANKING / RERANKING – Ранжирование и Переранжирование
Во время обработки запроса пользователя система проверяет, содержит ли запрос Keyword, для которого существует сильная ассоциация с Category. Если да, то документы, принадлежащие к этой категории, получают повышение в ранжировании.
Входные данные:
- Логи поисковых запросов (Search Queries).
- Корпус документов с ассоциированной информацией (Documents and Associated Information), например, бизнес-листинги.
- Данные о маппинге информации в категории.
Выходные данные:
- База данных ассоциаций Keyword—Category с рассчитанными оценками (Scores, например, F-measure).
- Скорректированные ранги документов во время выполнения поиска.
На что влияет
- Конкретные ниши и типы контента: Наибольшее влияние оказывается на области с четкой категоризацией. Патент явно приводит примеры из локального поиска (Local Search) и бизнес-листингов (business listings): рестораны, юристы, автосервисы и т.д. Также применимо к e-commerce (категории товаров) и агрегаторам услуг.
- Специфические запросы: Влияет на запросы, содержащие термины, которые статистически являются определяющими для категории (например, запрос «sushi bar» для категории «Japanese Restaurants»).
Когда применяется
- Условия активации (Офлайн): Алгоритм генерации ассоциаций активируется, когда Keyword Candidate удовлетворяет нескольким статистическим порогам:
- Он достаточно часто встречается в логах запросов (значимый термин).
- Он часто встречается внутри определенной категории (strong «within» category correlation).
- Он редко встречается вне этой категории (weak «between» category correlation).
- Условия активации (Онлайн): Механизм повышения ранжирования активируется, когда входящий поисковый запрос содержит Keyword, для которого в базе данных существует сильная ассоциация с Category.
Пошаговый алгоритм
Процесс А: Офлайн-генерация ассоциаций Keyword-Category
- Извлечение кандидатов: Из логов поисковых запросов и корпуса документов извлекаются Keyword Candidates.
- Создание пар (Кандидат/Информация): Кандидаты связываются с информацией в документах, где они найдены (например, название бизнеса).
- Расчет частот (Запросы): Вычисляется частота появления каждого кандидата в логах запросов.
- Расчет частот (Документы): Вычисляется частота появления пар (Кандидат/Информация) в корпусе документов.
- Маппинг в категории: Информация о документе сопоставляется с Category. Создаются новые пары (Кандидат/Категория).
- Агрегация и подсчет: Вычисляется частота появления пар (Кандидат/Категория).
- Определение ключевых слов (Статистический анализ): Для каждой пары (Кандидат/Категория) проводится анализ:
- Проверка значимости термина в запросах (порог частоты).
- Проверка сильной внутрикатегориальной корреляции (порог).
- Проверка слабой межкатегориальной корреляции (порог).
- Расчет итоговой оценки, например, F-measure(keyword, category).
- Сохранение ассоциаций: Кандидаты, чьи оценки превышают пороговые значения, признаются Keywords и сохраняются вместе с ассоциированными Categories.
- Ассоциация с документами: Идентифицированные Keywords ассоциируются с документами, которые содержат этот Keyword и принадлежат к соответствующей Category.
Процесс Б: Применение в поиске (Онлайн)
- Получение запроса: Система получает поисковый запрос.
- Идентификация документов: Определяется набор документов, релевантных запросу.
- Проверка ключевых слов: Определяется, содержит ли запрос один из идентифицированных Keywords.
- Проверка категорий: Определяется, ассоциированы ли найденные документы с Category, соответствующей Keyword.
- Ранжирование (Бустинг): Документы, удовлетворяющие условиям (содержат Keyword и принадлежат к Category), получают повышение в ранжировании.
- Сортировка и выдача: Документы сортируются на основе итоговых рангов, и генерируются результаты поиска.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Логи запросов): Критически важные данные. Search queries используются для идентификации Keyword Candidates и расчета их общей частоты (значимости).
- Контентные факторы (Document Information): Текст документов (например, названия бизнесов, описания) используется для нахождения Keyword Candidates в контенте и для категоризации документов.
- Структурные/Системные данные (Categories): Предварительно определенные категории документов, к которым привязываются документы.
Какие метрики используются и как они считаются
Система использует статистический подход, основанный на вероятностях.
- P(keyword): Вероятность ключевого слова в запросах.
- P(category): Вероятность категории в документах.
- P(keyword, category): Совместная вероятность.
- F-measure(keyword, category): Основная метрика для определения силы связи. Рассчитывается по формуле: P(keyword, category) / (a*P(keyword) + (1-a)*P(category)). Где ‘a’ — константа между 0 и 1 для балансировки точности и полноты.
- Пороги значимости: Используются для определения:
- Является ли термин значимым в поиске (на основе Query Frequency).
- Является ли связь сильной (strong «within» category correlation).
- Является ли связь специфичной (weak «between» category correlation).
Выводы
- Статистическая связь между запросами и категориями: Патент описывает механизм, позволяющий Google автоматически, на основе анализа больших данных (логи запросов и корпус документов), определять, какие слова в сознании пользователей тесно связаны с определенными категориями.
- Автоматическое определение «Определяющих ключевых слов»: Система выявляет ключевые слова, которые являются сильными индикаторами интереса пользователя к определенной категории (например, «oil change» для «auto repair»).
- Критичность специфичности (Weak «between» category correlation): Чтобы слово было признано ключевым для категории, оно должно не только часто встречаться в ней, но и редко встречаться в других категориях. Это предотвращает бустинг по общеупотребимым словам.
- Категоризация как фактор ранжирования: Изобретение превращает принадлежность документа к категории в активный фактор ранжирования, который активируется при наличии специфических ключевых слов в запросе.
- Фокус на локальном поиске и E-commerce: Примеры в патенте (рестораны, юристы, флористы) явно указывают на применение этой технологии для улучшения качества локального поиска и ранжирования бизнес-листингов, но также применимо и к категориям товаров.
Практика
Best practices (это мы делаем)
- Обеспечение точной категоризации: Для локального бизнеса критически важно выбрать максимально точные основные и дополнительные категории в Google Business Profile. Для контентных сайтов и e-commerce — использовать релевантную разметку (например, breadcrumbs, Product category в Schema.org) и четкую структуру сайта. Правильная категоризация является необходимым условием для работы этого механизма.
- Использование «Определяющих ключевых слов»: Необходимо идентифицировать и использовать в контенте (заголовках, описаниях, тексте листингов) те ключевые слова, которые статистически сильно ассоциируются с вашей категорией. Это повышает вероятность активации бустинга.
- Анализ языка целевой аудитории: Изучайте логи запросов (Google Search Console), чтобы понять, какие именно формулировки используют пользователи при поиске услуг или товаров в вашей категории. Используйте эту лексику, а не внутренний жаргон.
- Усиление тематической специфичности: Контент должен быть сфокусирован на категории. Это усиливает strong «within» category correlation и уменьшает weak «between» category correlation, что положительно влияет на расчет F-measure.
Worst practices (это делать не надо)
- Неправильная категоризация (Category Spam): Попытки присвоить сайту или листингу популярную, но нерелевантную категорию неэффективны. Система требует, чтобы ключевое слово статистически коррелировало с контентом внутри категории.
- Игнорирование общепринятой терминологии: Использование синонимов или нишевых терминов вместо общепринятых «определяющих ключевых слов» может привести к тому, что система не распознает сильную связь между запросом и вашей категорией.
- Размытие тематики: Создание контента, охватывающего слишком много разных категорий на одной странице или сайте без четкой структуры, может ослабить статистические связи между ключевыми словами и конкретными категориями.
Стратегическое значение
Патент подтверждает важность структурированных данных (категорий) в алгоритмах ранжирования Google. Он показывает, как Google использует анализ поведения пользователей (логи запросов) для понимания семантической связи между словами и категориями. Для SEO-стратегии это означает, что оптимизация должна строиться не только вокруг контента страницы, но и вокруг правильной классификации этого контента в рамках глобальной системы категорий, а также использования терминологии, которая подтверждает эту классификацию.
Практические примеры
Сценарий: Оптимизация для локального автосервиса
- Задача: Повысить видимость автосервиса по запросам, связанным с заменой масла.
- Анализ (на основе патента): Система Google статистически определила (см. Таблицу 1 в патенте), что ключевое слово «oil change» имеет сильную связь с категорией «auto repair».
- Действия SEO-специалиста:
- Убедиться, что в Google Business Profile выбрана основная категория «Auto Repair Shop» (Автосервис).
- Создать отдельную страницу услуги или раздел на главной странице, оптимизированный под ключевое слово «oil change».
- Включить этот термин в описание бизнеса и услуг.
- Ожидаемый результат: Когда пользователь ищет «oil change», механизм, описанный в патенте, активируется. Поскольку запрос содержит Keyword («oil change»), а листинг принадлежит к ассоциированной Category («auto repair»), листинг получает дополнительное повышение в ранжировании локальной выдачи по сравнению с бизнесами других категорий.
Вопросы и ответы
Как Google определяет категорию документа?
Патент не детализирует методы категоризации, но указывает, что она может быть предоставлена документом, определена из информации, содержащейся в нем (Document Information), или получена из сторонних источников. На практике для локального поиска это часто данные из Google Business Profile, а для веб-страниц — анализ контента, структуры сайта и разметки Schema.org.
Что такое F-measure и почему это важно?
F-measure — это статистическая метрика, которая объединяет точность (precision) и полноту (recall). В контексте патента она используется для оценки качества связи между ключевым словом и категорией. Высокая F-measure означает, что слово часто встречается в этой категории И редко встречается вне ее. Это позволяет системе находить действительно значимые и специфичные связи.
Основан ли этот алгоритм на поведении пользователей?
Да, в значительной степени. Исходные данные для анализа — это логи поисковых запросов (search queries). Система анализирует, какие термины пользователи вводят в поиск, чтобы определить Keyword Candidates и рассчитать их значимость (P(keyword)). Это подчеркивает важность использования реального языка пользователей в SEO.
Что означают термины «strong within» и «weak between» category correlation?
Strong within означает, что ключевое слово часто встречается в документах данной категории. Weak between означает, что это же слово редко встречается в других категориях. Для того чтобы слово было признано «определяющим» для категории, необходимы оба условия: оно должно быть частым внутри и редким снаружи.
Как этот патент влияет на Local SEO?
Он имеет прямое и сильное влияние на локальный поиск. Примеры в патенте почти полностью сосредоточены на бизнес-категориях (юристы, автосервисы, рестораны). Это означает, что правильный выбор категорий в GBP и использование ключевых слов, тесно связанных с этими категориями, может привести к значительному повышению ранжирования в локальной выдаче.
Применяется ли это только к локальному поиску?
Хотя примеры фокусируются на локальном поиске, механизм является общим и может применяться к любым документам, которые можно четко категоризировать. Это может включать категории товаров в e-commerce, типы статей в медиа, жанры контента и так далее.
Что делать, если мой бизнес относится к нескольким категориям?
Необходимо четко структурировать контент и использовать соответствующие ключевые слова для каждой категории. Если система идентифицирует сильные связи для нескольких ваших категорий, вы сможете получать бустинг по соответствующим запросам. Важно не смешивать сигналы, чтобы сохранить специфичность (weak between correlation) для каждой отдельной категории.
Как часто обновляются эти ассоциации ключевых слов и категорий?
Патент указывает, что процесс генерации ассоциаций происходит офлайн и может периодически обновляться, поскольку поведение пользователей постоянно меняется. Это означает, что ключевые слова, которые были определяющими вчера, могут потерять свою силу завтра, если изменятся тренды поиска или контент в интернете.
Может ли этот механизм понизить мой сайт в выдаче?
Патент описывает механизм повышения (boosting) для документов релевантной категории. Прямого понижения не описано, но если конкуренты получат бустинг за счет правильной категоризации и использования определяющих ключевых слов, а ваш сайт — нет, то ваш сайт косвенно потеряет позиции.
Как определить, какие ключевые слова Google считает «определяющими» для моей категории?
Патент не предоставляет публичного списка, но дает методологию. SEO-специалистам следует анализировать высокочастотные запросы в своей нише (используя GSC, планировщики ключевых слов) и анализировать выдачу, чтобы понять, какие категории ранжируются при использовании этих запросов. Использование этих терминов в контексте правильной категоризации является лучшей стратегией.