Google анализирует результаты поиска, особенно в локальной выдаче и E-commerce, и определяет, к каким категориям относятся топовые листинги. Система оценивает эти категории на основе позиций ранжирования или частоты встречаемости связанных документов. Наиболее релевантные категории предлагаются пользователю в качестве динамических фильтров для уточнения запроса.
Описание
Какую задачу решает
Патент решает проблему навигации и уточнения результатов поиска при широких или неоднозначных запросах, особенно в контексте локального поиска (Local Search) или поиска по директориям. Пользователям сложно ориентироваться в иерархических каталогах. Система улучшает пользовательский опыт, автоматически определяя и предлагая наиболее релевантные категории (фасеты) для фильтрации на основе анализа уже сформированной выдачи.
Что запатентовано
Запатентована система (Category Suggestion Engine) для автоматической генерации предложений категорий на основе результатов поиска. Система анализирует категории, присвоенные Топ-N документам в выдаче (в частности, Business Listings). Для каждой категории рассчитывается оценка, которая может базироваться либо на частоте ее встречаемости, либо на агрегированных оценках ранжирования связанных документов. Наиболее высоко оцененные категории предлагаются пользователю как опции для уточнения поиска.
Как это работает
Механизм работает на этапе пост-обработки результатов:
- Генерация выдачи: Поисковая система формирует ранжированный список результатов с оценками релевантности (Information Retrieval (IR) Score).
- Анализ Топ-N: Анализируются Топ-N (например, 1000) документов и извлекаются их категории.
- Оценка категорий: Для каждой категории рассчитывается оценка. Патент описывает два метода: (1) на основе позиций/IR Scores связанных документов; (2) на основе количества документов в этой категории (частотность).
- Агрегация и Выбор: Оценки для одинаковых (или нормализованных) категорий комбинируются.
- Представление: Категории с наивысшими оценками отображаются как предложения (фильтры).
- Уточнение: При выборе категории система может отфильтровать исходные результаты или выполнить новый поиск по этой категории.
Актуальность для SEO
Высокая. Хотя патент является продолжением заявки 2004 года, описанный механизм является фундаментальным для фасетного поиска и систем уточнения запросов. Эти функции активно используются в современных продуктах Google, таких как Google Maps (Локальный поиск) и Google Shopping. Динамическое определение релевантных фильтров на основе содержания выдачи остается ключевым элементом UX.
Важность для SEO
Влияние на SEO значительное (6.5/10), особенно для Локального SEO и E-commerce. Патент не описывает алгоритм первичного ранжирования, но подчеркивает критическую важность точной категоризации ресурсов (бизнесов, товаров). Если ресурс неправильно категоризирован (например, в Google Business Profile), он не внесет вклад в оценку релевантной категории и будет исключен из выдачи, когда пользователь применит уточняющий фильтр. Это напрямую влияет на видимость в уточненных поисках.
Детальный разбор
Термины и определения
- Business Listings (Бизнес-листинги)
- Документы или записи в базе данных, представляющие информацию о компаниях в локальном поиске. Основной тип документов, рассматриваемый в патенте.
- Category (Категория)
- Классификация, присвоенная документу. Источниками (category providers) могут быть Желтые страницы (Yellow Pages), веб-директории или системы автоматической классификации текста.
- Category Suggestion Engine
- Компонент поисковой системы, отвечающий за анализ результатов поиска, идентификацию, оценку и выбор наиболее релевантных категорий для предложения пользователю.
- Information Retrieval (IR) Score
- Числовая оценка, генерируемая поисковой системой, отражающая релевантность документа запросу. Используется для ранжирования и может использоваться для расчета оценки категории.
- Local Search (Локальный поиск)
- Поиск, направленный на нахождение результатов в определенной географической области. Примеры в патенте сосредоточены на этом типе поиска.
- Top N Documents
- Определенное количество документов в верхней части списка результатов (например, топ 1000), которые анализируются для генерации предложений категорий.
Ключевые утверждения (Анализ Claims)
Патент описывает два основных метода оценки категорий и два варианта уточнения поиска.
Claim 1 (Независимый пункт): Описывает основной процесс.
- Получение запроса и выбор релевантных документов, каждый с IR Score.
- Идентификация множества категорий на основе этих документов.
- Определение оценки для каждой категории. Ключевой момент: оценка базируется ЛИБО на количестве документов, связанных с категорией, ЛИБО на IR Score документов, связанных с категорией.
- Выбор одной или нескольких рекомендуемых категорий на основе их оценок.
- Предоставление результатов и рекомендуемых категорий.
Методы оценки категорий:
Claim 4 (Зависимый от 1): Метод на основе релевантности.
Оценка категории генерируется путем комбинирования (например, суммирования) IR Scores подмножества документов, которые релевантны запросу и связаны с этой категорией. Категории, связанные с высокоранжируемыми результатами, получают более высокую оценку.
Claim 13 (Независимый пункт): Метод на основе частотности.
Описывает альтернативный процесс, где оценка для каждой категории определяется строго на основе количества документов (number of the plurality of documents), связанных с этой категорией, независимо от их IR Scores.
Варианты уточнения поиска (Claims 5, 6 и другие зависимые):
- Фильтрация (Claim 5): Система предоставляет информацию только о тех документах из исходного набора результатов, которые связаны с выбранной пользователем категорией.
- Новый поиск/Pivoting (Claim 6): Система генерирует новый список документов, связанных с выбранной категорией, и предоставляет его пользователю (потенциально заменяя исходные результаты).
Где и как применяется
Изобретение применяется на финальных этапах обработки запроса для улучшения пользовательского интерфейса и навигации.
INDEXING – Индексирование и извлечение признаков
Документы (Business Listings) должны быть предварительно классифицированы. Система сохраняет информацию о категориях, полученную из внешних источников или с помощью автоматической классификации.
RANKING – Ранжирование
Search Engine выполняет стандартный поиск и генерирует список результатов, отсортированных по IR Score. Патент упоминает, что IR Score может быть комбинацией текстовой релевантности и ссылочных факторов (link-based scores, например, PageRank).
RERANKING / METASEARCH (Пост-обработка и генерация UI)
Основное применение патента. Category Suggestion Engine активируется после этапа RANKING.
- Анализирует Топ-N результатов.
- Извлекает связанные с ними категории.
- Рассчитывает и агрегирует оценки для этих категорий.
- Выбирает топовые категории и добавляет их к финальной выдаче (SERP) в качестве фильтров.
Входные данные:
- Поисковый запрос (часто с локацией).
- Список Топ-N результатов поиска.
- IR Scores (оценки ранжирования) для каждого результата.
- Информация о категориях (из индекса).
Выходные данные:
- Список результатов поиска.
- Список предложенных категорий (динамические фильтры).
На что влияет
- Конкретные типы контента и ниши: Наибольшее влияние на вертикали с четкой таксономией. В патенте фокус на Local Search и Business Listings. Также критично для E-commerce (категории товаров) и других структурированных данных (недвижимость, вакансии).
- Специфические запросы: Влияет на широкие или неоднозначные запросы, где результаты могут принадлежать к разным категориям и требуется уточнение интента (например, запрос [apple] может требовать уточнения: фрукт или компания).
Когда применяется
- Условия работы алгоритма: Применяется динамически после выполнения поиска.
- Триггеры активации: Активируется, если в Топ-N результатов присутствуют документы, имеющие присвоенные им категории, и разнообразие этих категорий позволяет сгенерировать полезные для пользователя фильтры.
Пошаговый алгоритм
Процесс генерации предложений категорий
- Получение запроса и Ранжирование: Search Engine генерирует ранжированный список документов с IR Scores.
- Выборка Топ-N: Определяется подмножество лучших результатов для анализа (например, N=1000).
- Идентификация категорий: Category Suggestion Engine извлекает категории, связанные с каждым из Топ-N документов.
- Оценка категорий: Рассчитывается оценка для каждой извлеченной категории. Применяется один из методов:
- Метод A (на основе IR Score): Оценка определяется на основе IR Scores связанных документов. Высокоранжируемые документы вносят больший вклад.
- Метод B (на основе частотности): Оценка определяется количеством появлений категории в Топ-N.
- Агрегация и Нормализация: Оценки для идентичных категорий суммируются. Система также может нормализовать названия категорий от разных провайдеров (например, «pizza restaurant» и «restaurant: pizza» считаются одной категорией).
- Выбор и Представление: Выбираются категории с наивысшими агрегированными оценками и представляются пользователю как фильтры.
Процесс уточнения поиска (при выборе категории)
- Получение выбора пользователя.
- Модификация результатов: Система модифицирует выдачу одним из двух способов:
- Фильтрация: Исходный список фильтруется по выбранной категории.
- Новый поиск (Pivoting): Выполняется новый поиск, используя категорию в качестве запроса.
- Представление модифицированных результатов.
Какие данные и как использует
Данные на входе
- Структурные факторы (Категоризация): Критически важные данные. Информация о принадлежности документа к категориям. Источники: веб-директории, Yellow Pages, автоматическая классификация текста.
- Географические факторы: В Local Search используются данные о местоположении и географической области запроса.
- Системные данные (Оценки ранжирования): Используются итоговые оценки ранжирования (IR Scores). Патент детализирует, что эти оценки могут базироваться на:
- Контентных факторах (Косвенно): Текстовая релевантность (количество вхождений терминов, их расположение (заголовок, контент), характеристики (шрифт, размер) и близость терминов).
- Ссылочных факторах (Косвенно): link-based scores. Патент явно ссылается на метод PageRank (U.S. Pat. No. 6,285,999) как возможный компонент итоговой оценки ранжирования.
Какие метрики используются и как они считаются
- Information Retrieval (IR) Score: Стандартная оценка ранжирования документа по запросу.
- Category Score (Оценка категории): Агрегированная метрика, определяющая релевантность категории для данного SERP.
- Методы вычислений Category Score:
- Взвешивание по релевантности (Суммирование IR Scores): Category Score = сумма IR Scores всех документов в Топ-N, принадлежащих к этой категории. Приоритет у категорий с наиболее релевантными результатами.
- Взвешивание по частотности (Frequency Count): Category Score = количество документов в Топ-N, принадлежащих к этой категории. Приоритет у наиболее распространенных категорий.
- Пороговые значения: Порог N (например, N=1000) для ограничения количества анализируемых документов.
Выводы
- Динамическая генерация фасетов на основе SERP: Google не использует предопределенный набор фильтров, а динамически генерирует их, анализируя категории топовых результатов для конкретного запроса. Интерфейс адаптируется к выдаче.
- Ранжирование определяет фильтры: При использовании метода на основе IR Scores, категории, связанные с высокоранжируемыми результатами, имеют значительно больше шансов быть предложенными в качестве фильтров. Высокие позиции в основном поиске напрямую влияют на видимость в уточнениях.
- Критичность точной категоризации: Система полагается на точность присвоенных категорий, особенно для Business Listings. Ошибки в классификации исключают ресурс из участия в этом механизме.
- Фокус на структурированные данные: Механизм наиболее эффективен для структурированных данных, таких как Локальный поиск и E-commerce.
- Нормализация данных: Система предусматривает обработку различных схем именования категорий от разных провайдеров (синонимизация категорий).
- Гибкость уточнения: Система предусматривает как фильтрацию текущих результатов, так и запуск нового поиска по категории (pivoting).
Практика
Best practices (это мы делаем)
- (Local SEO) Точная категоризация в Google Business Profile (GBP): Критически важно выбрать максимально точную основную категорию и релевантные дополнительные категории в GBP. Это гарантирует, что ваш бизнес будет правильно учтен Category Suggestion Engine и появится при применении соответствующих динамических фильтров пользователем.
- (Local SEO) Консистентность во внешних источниках: Патент упоминает использование данных из различных директорий (Yellow Pages). Убедитесь, что категория вашего бизнеса консистентна в GBP, на сайте и в ключевых каталогах (Citations), чтобы повысить уверенность системы в классификации.
- (E-commerce) Использование стандартной таксономии и разметки: Используйте четкую иерархическую структуру категорий и размечайте товары с помощью Schema.org (Product, BreadcrumbList). Это помогает системе корректно классифицировать товары и использовать эти данные для генерации динамических фасетов (фильтров).
- Фокус на высоком ранжировании (Повышение IR Score): Чем выше ранжируется ваш ресурс по исходному запросу, тем больший вес его категория вносит в общую оценку Category Score (при использовании метода на основе релевантности). Усилия по улучшению основного ранжирования (включая контент и ссылочный авторитет, упомянутый в патенте как PageRank) напрямую влияют на видимость в фильтрах.
- Анализ предложений в выдаче: Мониторьте, какие фильтры предлагает Google по вашим ключевым запросам. Это дает понимание того, как система классифицирует текущую выдачу и какие направления уточнения она считает наиболее релевантными.
Worst practices (это делать не надо)
- Неправильная категоризация (Mis-categorization): Выбор неверной категории в GBP или на сайте создает риск исключения из выдачи, когда пользователи применяют релевантные динамические фильтры, для которых ваш ресурс фактически подходит, но не классифицирован.
- Спам категориями (Category Stuffing): Добавление нерелевантных категорий неэффективно. Система анализирует категории результатов, которые уже признаны релевантными исходному запросу. Если IR score низкий, вклад в оценку категории будет минимальным.
- Выбор слишком общих категорий: Использование только широкой категории, когда существует более точная (например, «Ресторан» вместо «Пиццерия»), снижает потенциал видимости через механизмы точной фильтрации.
Стратегическое значение
Патент подтверждает важность таксономии и классификации сущностей в поиске. Он демонстрирует, как Google использует коллективные данные из топа выдачи для понимания релевантных фасетов (аспектов) запроса. Поиск часто является многоэтапным процессом: сначала ранжирование по запросу, затем уточнение через фильтры. SEO-стратегия должна учитывать этот второй этап, что требует точной классификации и сильного авторитета в рамках конкретной категории.
Практические примеры
Сценарий: Разрешение неоднозначности в локальном поиске
- Запрос пользователя: «Apple» в локации «New York».
- Исходная выдача (Топ-N): Система находит результаты, относящиеся к магазинам техники Apple и к продуктовым магазинам, продающим яблоки.
- Анализ категорий: Извлекаются категории: «Computer Store», «Electronics Store», «Grocery Store», «Farmers Market».
- Оценка категорий (Метод на основе IR Scores): Допустим, магазины техники имеют значительно более высокие IR Scores по запросу «Apple», чем продуктовые. Оценки для «Computer Store» и «Electronics Store» будут выше.
- Предложения: Система предлагает пользователю уточнить поиск, показывая фильтры: «Computer Store» и «Grocery Store» (если последняя также набрала достаточный балл).
- Уточнение: Пользователь выбирает «Computer Store».
- Результат: Выдача фильтруется (Claim 5), показывая только магазины техники Apple в Нью-Йорке из исходного набора результатов.
Вопросы и ответы
Как этот патент влияет на оптимизацию Google Business Profile (GBP)?
Он имеет прямое влияние на Local SEO. Патент подчеркивает, что система использует категории, присвоенные бизнес-листингам, для генерации фильтров. Если вы выберете неправильные категории в GBP, ваш бизнес не будет учтен при расчете оценок для релевантных категорий и исчезнет из выдачи, когда пользователь применит соответствующий динамический фильтр. Точный выбор основной и дополнительных категорий критически важен.
Откуда Google берет данные о категориях?
Патент упоминает несколько источников (category providers): Желтые страницы (Yellow Pages), веб-директории, а также системы автоматической классификации текста. На практике это означает данные из GBP, данные от авторитетных агрегаторов и каталогов (Citations), микроразметку Schema.org, а также собственные алгоритмы Google, анализирующие контент вашего сайта.
Применяется ли этот механизм за пределами Локального поиска?
Да. Хотя все примеры в патенте относятся к Local Search, описанный механизм является общим и применим в любой вертикали с четкой классификацией. Наиболее очевидные примеры сегодня — это Google Shopping (категории товаров), поиск недвижимости или вакансий, где также используются динамические фасеты для фильтрации результатов.
Какой метод оценки категорий важнее: на основе частотности или на основе суммы IR Scores?
Патент описывает оба метода как возможные реализации. Метод на основе суммы IR Scores (Claim 4) является более качественным, так как он отдает предпочтение категориям, связанным с наиболее релевантными и высокоранжируемыми результатами. Логично предположить, что Google использует более продвинутые методы, учитывающие качество и ранжирование.
Влияет ли позиция в выдаче на то, будет ли моя категория предложена в качестве фильтра?
Да, особенно если используется метод оценки на основе IR Scores. Чем выше ранжируются документы вашей категории, тем выше будет агрегированная оценка этой категории и тем вероятнее она будет предложена в качестве фильтра. Таким образом, работа над улучшением позиций в основном поиске косвенно влияет на видимость в фильтрах.
Как система обрабатывает разные названия одной и той же категории?
Патент учитывает эту проблему и упоминает процесс нормализации. Система может рассматривать похожие названия категорий от разных поставщиков (например, «pizza restaurant» и «restaurant: pizza») как одну и ту же категорию для целей подсчета и оценки. При отображении может использоваться наиболее авторитетное или частотное название.
Что произойдет, если мой сайт принадлежит к нескольким категориям?
Патент учитывает, что документ может иметь несколько связанных категорий. В этом случае ваш сайт будет вносить вклад в расчет оценок для всех этих категорий. Это подчеркивает важность использования релевантных дополнительных категорий в GBP или на сайте для максимизации охвата.
Влияет ли этот патент на основное ранжирование (initial ranking)?
Нет, напрямую не влияет. Этот механизм работает на этапе пост-обработки, анализируя уже сформированную выдачу. Однако он определяет, какие сайты останутся видимыми после того, как пользователь применит уточняющий фильтр, что делает его важным для итоговой видимости и трафика.
Упоминаются ли в патенте конкретные факторы ранжирования?
Да, косвенно. Патент упоминает, что IR Score может рассчитываться на основе стандартных контентных факторов (частота терминов, их расположение, близость). Кроме того, он явно упоминает возможность использования link-based scores и ссылается на патент PageRank (US6285999) как часть расчета итоговой оценки ранжирования, которая затем используется для взвешивания категорий.
Если пользователь выбирает категорию, Google фильтрует текущую выдачу или запускает новый поиск?
Патент предусматривает оба варианта (Claims 5 и 6). Система может либо уточнить поиск (отфильтровать исходные результаты, оставив только те, что соответствуют и запросу, и категории), либо заменить исходный запрос выбранной категорией и выполнить новый поиск (pivoting). Реализация зависит от контекста и продукта.