Как Google использует логи поисковых запросов и кликов для классификации бизнеса и улучшения распознавания сущностей

Патент Google, раскрывающий, как система анализирует поведение пользователей (поисковые запросы и последующие клики) для понимания того, как люди интуитивно классифицируют бизнесы. На основе этих данных Google строит динамические иерархические деревья категорий. Эта классификация используется для значительного повышения точности распознавания названий компаний в голосовом поиске, особенно при запросе навигации.

Описание

Какую задачу решает

Патент решает две ключевые проблемы в системах голосового поиска и навигации:

Точность распознавания: Сложность точного распознавания названия конкретного бизнеса (сущности) среди огромного количества вариантов и схожих названий.
Жесткость классификации: Несоответствие между стандартными категориями в справочниках (например, Yellow Pages) и тем, как реальные пользователи интуитивно классифицируют или ищут эти бизнесы.

Что запатентовано

Запатентована система, которая использует информацию о категории бизнеса и его местоположении для значительного повышения точности распознавания названия бизнеса в голосовом запросе. Ключевым элементом является механизм динамического построения структуры категорий (Hierarchical tree of clustered category nodes). Эта структура создается путем анализа логов пользовательского поведения (Call logs и Search logs), чтобы понять, какие ключевые слова (категории) пользователи ассоциируют с конкретными бизнесами (сущностями) через клики.

Как это работает

Система работает в двух режимах: Офлайн-обучение и Онлайн-обработка.

Офлайн-обучение (Кластеризация):

Система анализирует Search logs: какие ключевые слова вводил пользователь и какой результат (бизнес) он затем выбрал (кликнул). Это формирует category-business pair.
Модуль кластеризации (Category clustering module) группирует эти пары в иерархическое дерево, отражающее классификацию на основе поведения пользователей.
Для каждого узла дерева создается специализированная языковая модель распознавания речи (Speech recognition language model).

Онлайн-обработка (Голосовой запрос):

Пользователь произносит запрос (например, «Навигация к Il Fornaio, итальянский ресторан, рядом с Пало-Альто»).
Система идентифицирует местоположение и категорию.
Mapping module находит в иерархическом дереве наиболее соответствующий узел.
Система использует специализированную языковую модель этого узла для точного распознавания названия бизнеса, сужая пространство поиска.

Актуальность для SEO

Высокая. Хотя базовая технология разрабатывалась ранее (оригинальная заявка 2006 года), этот патент является продолжением (continuation), выданным в 2022 году. Технологии распознавания речи, локального поиска и понимания сущностей (Entity Understanding) на основе поведения пользователей лежат в основе современных систем Google (Assistant, Maps). Понимание того, как Google связывает ключевые слова с сущностями через анализ логов, остается критически важным.

Важность для SEO

Патент имеет высокое значение (75/100) для SEO, особенно в области Local SEO и Entity SEO. Он не описывает ранжирование веб-страниц, но раскрывает конкретный механизм того, как Google учится ассоциировать ключевые слова (запросы/категории) с конкретными бизнес-сущностями. Это подтверждает важность сигналов поведения пользователей (поисковые запросы и последующие клики) в формировании понимания Google о релевантности бизнеса определенным тематикам.

Детальный разбор

Термины и определения

Category-business pair (Пара категория-бизнес): Связь между типом бизнеса (категорией или ключевым словом из запроса) и конкретным бизнесом (сущностью). Формируется на основе действий пользователя в Search logs или Call logs.
Hierarchical tree of clustered category nodes (Иерархическое дерево кластеризованных узлов категорий): Структура данных, используемая для организации категорий бизнеса. Строится динамически на основе поведения пользователей. Каждый узел представляет собой кластер связанных категорий и ассоциирован со специализированной языковой моделью.
Search logs (Логи поиска): Данные о прошлых поисковых сессиях. Включают введенные ключевые слова (запросы) и последующий выбор результатов пользователем (например, клики на ссылки).
Call logs (Логи звонков): Данные из прошлых взаимодействий с голосовой справочной системой, фиксирующие, как пользователи вербально классифицировали бизнесы.
Pairing module (Модуль сопоставления): Компонент системы, который анализирует Search logs для извлечения category-business pairs. Определяет связь между запросом и выбранным результатом.
Category clustering module (Модуль кластеризации категорий): Компонент, который строит и обновляет Hierarchical tree, группируя category-business pairs на основе сходства и частоты (Counts).
Mapping module (Модуль маппинга): Во время голосового запроса этот модуль сравнивает указанную пользователем категорию с узлами в Hierarchical tree, чтобы найти наиболее подходящую языковую модель.
Similarity score/measure (Оценка/Мера сходства): Метрика, используемая для определения, насколько категория или пара похожа на содержимое узла в дереве. В описании упоминается возможность использования TF (Term Frequency) и IDF (Inverse Document Frequency).
Entropy (Энтропия): Мера вариативности внутри узла. Используется в алгоритме кластеризации: узлы с высокой энтропией разбиваются на дочерние узлы для уменьшения вариативности и повышения однородности.
Speech recognition language model (Языковая модель распознавания речи): Статистическая модель (например, N-grams), используемая для предсказания слов в речи. В патенте модели специализированы (biased) для распознавания названий бизнесов в рамках конкретной категории и/или локации.

Ключевые утверждения (Анализ Claims)

Текущая версия патента (US11341970B2) фокусирует свои Claims на применении технологии для предоставления навигационных инструкций.

Claim 1 (Независимый пункт): Описывает метод предоставления навигационных инструкций.

Система получает на пользовательском терминале голосовой запрос.
Запрос содержит речевое высказывание, указывающее на: (i) категорию бизнеса, (ii) название бизнеса, (iii) название географического местоположения и (iv) указание на то, что бизнес расположен рядом (near) с этим местоположением.
Происходит идентификация бизнеса на основе этого высказывания.
Система предоставляет навигационные инструкции к этому бизнесу.

Claim 5 (Зависимый): Уточняет механизм идентификации.

Распознавание названия бизнеса включает смещение (biasing) модуля распознавания речи в сторону языковых моделей, ассоциированных с указанным типом бизнеса (категорией).

Claim 6 (Зависимый): Уточняет механизм выбора языковых моделей.

Система выбирает подмножество языковых моделей распознавания речи из общего набора, основываясь на указанном местоположении.

Ядром изобретения является использование комбинации Категории и Местоположения для выбора специализированной, более точной языковой модели, что позволяет корректно идентифицировать целевой бизнес в голосовом запросе. Хотя Claims сфокусированы на навигации, Description патента детально описывает критически важный механизм того, как эти категории и ассоциации строятся — через анализ Search logs и Call logs.

Где и как применяется

Изобретение затрагивает этапы индексирования (офлайн-анализ данных) и понимания запросов (онлайн-обработка).

INDEXING – Индексирование и извлечение признаков

Анализ логов: Происходит офлайн-обработка Search logs и Call logs с помощью Pairing module для извлечения category-business pairs.
Кластеризация сущностей: Category clustering module использует эти пары для построения Hierarchical tree of clustered category nodes. Это процесс аннотирования и классификации бизнес-сущностей на основе реального поведения пользователей.
Создание моделей: Для каждого узла дерева создаются специализированные языковые модели.

QUNDERSTANDING – Понимание Запросов

Обработка голосового запроса: Система получает голосовой запрос и извлекает из него компоненты: Местоположение, Категорию и Название.
Выбор модели: Mapping module использует извлеченные Категорию и Местоположение для навигации по Hierarchical tree и выбора наиболее релевантной языковой модели (или взвешенной комбинации моделей, включая локальные и общие).
Распознавание сущности: Speech recognition engine использует выбранную модель для точного распознавания Названия бизнеса.

Входные данные (Офлайн):

Search logs (запросы и клики).
Call logs (голосовые взаимодействия).

Входные данные (Онлайн):

Голосовой запрос пользователя.
Hierarchical tree и ассоциированные языковые модели.

Выходные данные:

Идентифицированная бизнес-сущность и запрошенная информация (например, навигационные инструкции).

На что влияет

Специфические запросы: Наибольшее влияние на голосовые запросы, связанные с поиском локальных бизнесов, навигацией и получением контактной информации. Влияет на запросы с указанием близости («рядом», «near me»).
Конкретные типы контента: Влияет на видимость бизнес-сущностей (Local Entities) в системах Google (Assistant, Maps, Local Pack).
Конкретные ниши или тематики: Влияет на все локальные бизнесы, особенно в нишах, где пользователи используют нестандартные или интуитивные категории (например, «суши» вместо «японский ресторан»).

Когда применяется

Триггеры активации: Активируется при обработке голосового запроса, содержащего намерение найти конкретный бизнес, особенно для навигации или справочной информации.
Условия работы: Система использует этот механизм, когда пользователь явно или неявно указывает категорию и местоположение, что позволяет применить специализированную языковую модель для повышения точности распознавания названия.

Пошаговый алгоритм

Процесс А: Офлайн-построение дерева категорий

Сбор данных: Система собирает данные из Search logs (ключевые слова и клики) и Call logs.
Извлечение пар: Pairing module анализирует логи для извлечения category-business pairs. Фиксируется частота (Counts) каждой пары.
Инициализация дерева: Все пары назначаются корневому узлу.
Итеративная кластеризация:
1. Система находит узел с наивысшей вариативностью (Entropy).
2. В этом узле идентифицируется категория с наибольшей частотой (Count).
3. Создается новый дочерний узел, ассоциированный с этой категорией.
4. Все пары перераспределяются между родительским и дочерним узлами на основе метрики сходства (Similarity score, например, TF-IDF).
Завершение: Процесс повторяется до тех пор, пока энтропия всех конечных узлов не станет ниже порогового значения.
Обновление моделей: Для каждого узла создается или обновляется специализированная языковая модель.

Процесс Б: Онлайн-обработка голосового запроса

Получение запроса: Система получает голосовой запрос.
Извлечение компонентов: Система распознает Местоположение и Категорию (Тип бизнеса) из запроса.
Маппинг категории: Mapping module вычисляет Similarity scores между указанной Категорией и узлами в Hierarchical tree (с учетом Местоположения, используя как общие, так и локально-специфичные деревья).
Выбор узла: Выбирается узел с наивысшей оценкой сходства.
Выбор языковой модели: Система выбирает языковую модель, ассоциированную с этим узлом. Может использоваться взвешенная комбинация моделей из этого узла, родительских узлов (для подстраховки) и соседних локаций.
Распознавание названия: Speech recognition engine использует выбранную модель(и) для распознавания Названия бизнеса в запросе.
Поиск и ответ: Система ищет информацию о бизнесе и предоставляет ответ пользователю (например, навигационные инструкции).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных для построения системы классификации.

Поведенческие факторы (Ключевые):
- Search Logs: Данные о том, какие ключевые слова вводят пользователи и какие результаты они выбирают (клики/click-through data). Это основной источник для понимания того, как пользователи ассоциируют запросы с бизнесами.
- Call Logs: Данные о том, как пользователи вербально классифицируют бизнесы при взаимодействии с голосовыми системами.
Географические факторы: Местоположение пользователя или указанное в запросе местоположение бизнеса используется для выбора локально-специфичных языковых моделей и деревьев (location-specific hierarchical trees).

Какие метрики используются и как они считаются

Counts (Частота): Количество раз, когда определенная category-business pair наблюдалась в логах. Используется для определения важности категории и построения дерева.
Entropy (Энтропия): Метрика вариативности категорий и бизнесов внутри узла. Рассчитывается как отрицательная сумма вероятности каждой пары, умноженной на логарифм этой вероятности. Используется для определения необходимости дальнейшего разделения узла.
Similarity Score (Оценка сходства): Метрика для кластеризации и маппинга. В описании предлагается использовать методы, основанные на TF (Term Frequency) и IDF (Inverse Document Frequency), для оценки схожести терминов в категории и названии бизнеса с содержимым узла.
Weights (Веса): Коэффициенты, применяемые при комбинировании нескольких языковых моделей (например, локальной и общей). Веса могут определяться на основе Similarity Score и географической близости.

Выводы

Классификация сущностей основана на поведении пользователей: Это ключевой вывод. Google динамически классифицирует бизнес-сущности, анализируя Search Logs (запросы и клики). Система учится на том, как реальные пользователи ищут и взаимодействуют с бизнесом, а не только на предопределенных категориях (например, из GBP).
Связь Запрос-Сущность через клики: Патент явно описывает использование Pairing Module для анализа ключевых слов и кликов. Это подтверждает, что поведение пользователей в поиске (Click-through data) напрямую используется как обучающий сигнал для систем классификации и понимания сущностей (Entity Understanding).
Иерархическая и интуитивная структура категорий: Google организует эти ассоциации в Hierarchical tree, отражая интуитивное понимание пользователей. Это позволяет системе учитывать, что пользователи могут использовать разные термины для одной и той же категории (например, «суши» и «японский ресторан»).
Точность через специализацию и контекст: Основная цель системы — повышение точности распознавания (особенно в голосовом поиске) за счет использования контекста (Категория и Местоположение) для выбора специализированных языковых моделей.
Важность Local и Entity SEO: Для SEO-специалистов критически важно обеспечить, чтобы их бизнес стабильно ассоциировался с нужными категориями в поиске, так как это напрямую влияет на его идентификацию системой.

Практика

Best practices (это мы делаем)

Оптимизация ассоциаций сущности (Entity Association Optimization): Необходимо добиться того, чтобы пользователи, ищущие по целевым категориальным запросам, находили и кликали на ваш бизнес. Это означает необходимость ранжироваться и иметь привлекательные сниппеты по запросам [Категория] + [Локация]. Это напрямую обучает Google через Search logs.
Анализ реальных запросов и интуитивных категорий: Тщательно анализируйте данные (например, в Google Search Console), чтобы понять, какие ключевые слова приводят пользователей на ваш сайт. Эти ключевые слова являются теми категориями, которые Google изучает для вашего бизнеса. Оптимизируйте контент под эти интуитивные категории.
Построение Тематического Авторитета (Topical Authority): Создавайте контент, который подтверждает принадлежность вашего бизнеса к тем категориям, которые используют пользователи. Это увеличит вероятность формирования правильных category-business pairs.
Оптимизация под голосовые и локальные запросы: Поскольку технология направлена на улучшение голосового и навигационного поиска (включая запросы «рядом»), необходимо оптимизировать контент под естественный язык и усиливать локальные сигналы (GBP, локальные ссылки, отзывы).

Worst practices (это делать не надо)

Игнорирование пользовательского поведения: Полагаться только на официальные категории (например, только в GBP) и игнорировать то, как пользователи реально ищут ваш бизнес. Если ваше позиционирование не совпадает с поведением пользователей в Search logs, система не сформирует нужные ассоциации.
Нечеткое позиционирование: Если сайт посылает смешанные сигналы о своей деятельности, это может привести к размыванию ассоциаций в Hierarchical tree и ухудшению распознавания бренда в контексте целевых категорий.
Манипуляции с категориями: Попытки ассоциироваться с нерелевантными категориями могут быть неэффективны, если реальное поведение пользователей не подтверждает эту связь. Система валидирует классификацию через анализ глобального поискового поведения.

Стратегическое значение

Этот патент подтверждает стратегическую важность данных о поведении пользователей для систем понимания сущностей (Entity Understanding). Для SEO это означает, что управление сущностью и ее ассоциациями становится центральным элементом стратегии. Необходимо не просто ранжироваться по ключевым словам, а добиться того, чтобы система сформировала устойчивые ассоциации между вашим бизнесом и релевантными категорийными запросами, отражающими реальное поведение пользователей.

Практические примеры

Сценарий: Улучшение классификации ресторана на основе поведения пользователей

Ситуация: Ресторан «Sushitomi» официально зарегистрирован как «Японский ресторан», но большинство пользователей ищут его по запросу «суши».
Анализ Google (согласно патенту): Pairing module анализирует Search logs и видит, что пользователи, вводящие «суши», часто кликают на сайт Sushitomi. Формируется высокая частота (Count) для пары («суши», Sushitomi).
Действие Google: Category clustering module укрепляет узел для категории «суши» в Hierarchical tree и ассоциирует с ним Sushitomi.
SEO-действие: SEO-специалист ресторана должен убедиться, что сайт хорошо оптимизирован под запросы, связанные с «суши», чтобы максимизировать видимость и CTR по этим запросам, тем самым усиливая нужные поведенческие сигналы.
Результат: Когда пользователь скажет голосовому ассистенту: «Маршрут до Sushitomi, категория суши», система точно распознает бизнес, используя специализированную языковую модель для узла «суши».

Вопросы и ответы

Означает ли этот патент, что клики (CTR) напрямую влияют на ранжирование?

Патент не описывает алгоритмы ранжирования веб-страниц. Однако он детально описывает, как анализ логов поиска (включая запросы и последующие клики) используется для классификации бизнес-сущностей. Это влияет на то, как Google понимает релевантность сущности определенной тематике (Entity Understanding), что косвенно влияет на видимость бизнеса в поиске (особенно локальном и голосовом).

Как Google определяет категории для моего бизнеса согласно этому патенту?

Google анализирует Search logs, чтобы увидеть, какие ключевые слова вводят пользователи перед тем, как взаимодействовать с вашим бизнесом (например, кликнуть на ваш сайт). Если многие пользователи ищут «лучшая пицца» и кликают на ваш сайт, Google начнет ассоциировать ваш бизнес с этой фразой как с категорией. Также используются Call logs из голосовых систем.

Что такое «Hierarchical tree of clustered category nodes»?

Это динамическая структура данных, которую Google строит для организации бизнесов на основе поведения пользователей. Она организует категории от общих к частным (например, Рестораны -> Итальянские рестораны). Она используется для быстрого выбора специализированных языковых моделей при обработке голосового запроса, что повышает точность распознавания названия бизнеса.

Как используется метрика «Entropy» (Энтропия)?

Энтропия измеряет степень вариативности или «беспорядка» внутри узла категории. Если узел содержит слишком много разных типов бизнеса (высокая энтропия), система стремится разбить его на более однородные дочерние узлы (низкая энтропия) во время процесса кластеризации. Это позволяет создавать более точные группы категорий.

Как я могу повлиять на то, в какой узел иерархического дерева попадет мой бизнес?

Вы можете повлиять на это, управляя сигналами, которые формируют category-business pairs в Search Logs. Это означает оптимизацию вашего сайта таким образом, чтобы он был высоко релевантен нужным категорийным запросам и привлекал клики по ним. Убедитесь, что пользователи, ищущие по этим ключевым словам, выбирают ваш сайт.

Имеет ли этот патент отношение к категориям Google Business Profile (GBP)?

Прямой связи в патенте нет. Категории GBP выбирает владелец бизнеса. Описанная в патенте система строит собственную, динамическую классификацию, основанную на поведении пользователей. Вероятно, Google использует обе системы: GBP для базовой информации, а описанную систему для более тонкого понимания интуитивных категорий и валидации.

Насколько важен этот патент для голосового поиска и навигации?

Он критически важен. Точность голосового поиска и навигации сильно зависит от способности системы правильно распознать название сущности. Используя категорию и местоположение для сужения возможных вариантов (как описано в патенте), Google значительно повышает точность идентификации бизнесов в голосовых запросах, включая запросы близости («рядом»).

Что такое TF-IDF и как он используется здесь?

TF-IDF (Term Frequency-Inverse Document Frequency) упоминается как возможная метрика сходства (Similarity score). Она используется для определения, насколько category-business pair подходит к определенному узлу в дереве во время кластеризации, а также помогает найти лучший узел во время обработки запроса пользователя.

Патент упоминает «location-specific hierarchical trees». Что это значит?

Это означает, что Google строит отдельные деревья категорий для разных географических регионов. Это позволяет учитывать локальные особенности в том, как пользователи классифицируют бизнесы, и использовать локально-специфичные языковые модели. Система может комбинировать общие и локальные модели при обработке запроса.

Актуален ли этот патент, если оригинальная заявка подана давно?

Да, этот конкретный патент (US11341970B2) является продолжением (continuation), выданным в 2022 году. Это указывает на то, что Google активно поддерживает и развивает описанные в нем технологии. Фундаментальные принципы использования поведения пользователей для классификации сущностей остаются крайне актуальными.