Google анализирует исторические данные поиска и действия пользователей (например, клики на построение маршрута), чтобы понять, когда термин в запросе (например, «забегаловка») является синонимом формальной категории бизнеса (например, «ресторан»). Система использует статистические методы (Name Perplexity и F-Measure) для фильтрации названий брендов и подкатегорий, чтобы точно определить синонимы и улучшить результаты локального поиска.
Описание
Какую задачу решает
Патент решает проблему несоответствия между терминами, которые пользователи используют в поисковых запросах, и формальными категориями, присвоенными элементам в структурированных базах данных (например, листингам компаний в Локальном поиске). Если пользователь ищет «забегаловка» (diner), а релевантный бизнес категоризирован только как «ресторан» (restaurant), стандартный поиск может пропустить этот результат. Изобретение направлено на автоматическое выявление таких синонимичных отношений для улучшения полноты поиска (Recall).
Что запатентовано
Запатентована система для автоматического вывода (inferring) синонимов категорий на основе анализа исторических данных о результатах поиска (prior result data). Система анализирует успешные поисковые сессии, идентифицированные по поведенческим сигналам, чтобы статистически определить, когда пользовательский запрос и категория результата являются эквивалентными (синонимами), а не просто связанными (например, подкатегорией).
Как это работает
Система работает в несколько этапов:
- Сбор данных: Анализируются логи поиска для выявления «Хороших триплетов» (Good Triples) — комбинаций (Запрос, Название результата, Категория результата), которые привели к успешному действию пользователя (например, запрос маршрута).
- Фильтрация запросов по названиям: Система отличает Categorical Queries (запросы по типу бизнеса) от Name Queries (запросы по названию бренда), используя метрику Name Perplexity. Синонимы выводятся только для категориальных запросов.
- Фильтрация гипонимов: Используется статистический расчет F-Measure (баланс точности и полноты), чтобы отделить истинные синонимы от гипонимов (отношений «часть-целое» или подкатегорий).
- Применение: Выявленные синонимы используются для расширения будущих запросов. Поиск по запросу пользователя также запускает поиск по его категориальным синонимам.
Актуальность для SEO
Высокая для Локального поиска (Local Search/Maps) и Поиска по товарам (Shopping). Эти системы критически зависят от точного сопоставления пользовательского интента с категориями в структурированных базах данных. Использование поведенческих сигналов и статистического анализа для понимания семантики запросов является стандартной практикой в современных поисковых системах.
Важность для SEO
Патент имеет значительное влияние на стратегии Локального SEO (Local SEO) и оптимизации под Google Business Profile (GBP). Он раскрывает механизм, как Google учится сопоставлять неформальные запросы пользователей с официальными категориями GBP. Понимание этого процесса критически важно для выбора правильной основной категории и анализа поведенческих метрик в профиле компании, так как именно эти данные используются для обучения системы.
Детальный разбор
Термины и определения
- Categorical Query (Категориальный запрос)
- Запрос, относящийся к типу или категории сущности (например, «китайский ресторан»). Характеризуется высокой Name Perplexity.
- EXACTCATEGORYMATCH
- Функция, упомянутая в патенте, которая гарантирует, что выявленный синоним точно соответствует полному названию категории в базе данных, избегая частичных совпадений.
- F-Measure
- Статистическая метрика, используемая для оценки качества вывода синонимов. Балансирует Precision и Recall. Используется для фильтрации гипонимов (подкатегорий).
- Good Triple (Хороший триплет)
- Триплет, который привел к предопределенному успешному действию пользователя (например, клик на построение маршрута). Служит индикатором релевантности и основой для анализа.
- Hyponym (Гипоним)
- Слово, обозначающее подкласс или подчиненное понятие (например, «китайский ресторан» является гипонимом «ресторана»). Система стремится исключить гипонимы из списка синонимов.
- Name Entropy / Name Perplexity (Энтропия/Неопределенность названия)
- Метрика, оценивающая разнообразие названий результатов для данного запроса. H(name|query). Высокая неопределенность указывает на Categorical Query, низкая — на Name Query.
- Name Query (Запрос по названию)
- Запрос, относящийся к конкретному названию сущности или бренда (например, «Joe’s Bar and Grill»). Характеризуется низкой Name Perplexity.
- Precision (Точность)
- В контексте патента: P(query|category) — вероятность запроса при условии категории. Высокая точность помогает исключить гипонимы.
- Prior Result Data (Данные предыдущих результатов)
- Исторические логи поиска, включающие запросы, результаты и действия пользователей.
- Recall (Полнота)
- В контексте патента: P(category|query) — вероятность категории при условии запроса.
- Triple (Триплет)
- Базовая единица данных для анализа, включающая: (1) Термины запроса, (2) Название результата (например, бизнеса), (3) Категория результата.
Ключевые утверждения (Анализ Claims)
Примечание: Патентная заявка US20120203778A1 является продолжением (continuation). Пункты 1-25 отменены (canceled). Анализ основан на оставшихся пунктах.
Claim 26 (Независимый пункт): Описывает основной метод вывода синонимов.
- Система идентифицирует первый запрос и первую категорию результата, связанную с результатом поиска, релевантным этому запросу (на основе prior result data).
- Система классифицирует первый запрос как Categorical Query.
- На основании этой классификации система определяет, что запрос и категория результата должны рассматриваться как синонимы.
- Система назначает категорию результата в качестве категориального синонима для первого запроса.
Claim 29 (Зависимый от 26): Уточняет критерий для определения синонимичности.
Определение того, что запрос и категория должны рассматриваться как синонимы, основывается на том, что запрос имеет высокую Name Perplexity.
Claim 30 (Зависимый от 29): Уточняет, как определяется высокая Name Perplexity.
Определение высокой Name Perplexity включает определение количества названий бизнесов, связанных с запросом, и идентификацию высокой неопределенности, если это количество превышает пороговое значение.
Claim 31 (Зависимый от 26): Описывает обратный сценарий (фильтрация Name Queries).
- Система идентифицирует второй запрос и вторую категорию.
- Определяется, что запрос и категория НЕ должны рассматриваться как синонимы, основываясь на том, что запрос имеет низкую Name Perplexity.
- Система воздерживается от назначения категории в качестве синонима для запроса.
Где и как применяется
Изобретение применяется в системах, работающих со структурированными данными, в первую очередь в Локальном поиске (Local Search) и, возможно, в Поиске по товарам (Shopping).
QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Основная часть работы алгоритма происходит офлайн, на этапе анализа данных.
- Обработка логов: Система анализирует Prior Result Data (логи запросов, результаты, поведенческие сигналы).
- Вычисление статистик: Рассчитываются метрики Name Perplexity и F-Measure для пар запрос-категория.
- Вывод синонимов: Генерируется база данных категориальных синонимов.
QUNDERSTANDING – Понимание Запросов (Онлайн)
Это основной этап применения результатов работы алгоритма в реальном времени.
- Переписывание запроса (Query Rewriting/Expansion): Когда поступает новый запрос, система обращается к базе выведенных синонимов. Если для запроса найден категориальный синоним, запрос расширяется. Например, запрос [doctors] может быть переписан как [doctors OR EXACTCATEGORYMATCH(Physicians-General Practice)].
RANKING – Ранжирование
Этап ранжирования использует расширенный запрос для поиска и сортировки результатов из структурированной базы данных.
Входные данные (Офлайн):
- Логи поисковых запросов.
- Структурированная база данных листингов (Названия, Категории).
- Логи поведенческих сигналов (клики, запросы маршрутов и т.д.).
Выходные данные (Офлайн):
- База данных категориальных синонимов.
Входные данные (Онлайн):
- Запрос пользователя.
- База данных категориальных синонимов.
Выходные данные (Онлайн):
- Расширенный (переписанный) поисковый запрос.
На что влияет
- Конкретные типы контента: В первую очередь влияет на листинги компаний (Google Business Profiles), объекты на картах. Потенциально влияет на карточки товаров в Google Shopping, если они используют схожую систему категоризации.
- Специфические запросы: Влияет на локальные информационные и транзакционные запросы, где пользователи ищут тип бизнеса или услуги (Categorical Queries). Явно не влияет на навигационные запросы по конкретным брендам (Name Queries).
- Конкретные ниши или тематики: Наибольшее влияние в нишах с большим разнообразием терминологии для обозначения одного и того же типа бизнеса (например, общепит, медицина, юридические услуги).
Когда применяется
- Условия применения: Алгоритм применяется, когда система обрабатывает запрос, направленный на поиск в структурированной базе данных, где элементы имеют предопределенные категории.
- Триггеры активации (Офлайн): Активируется для запросов, которые удовлетворяют нескольким критериям:
- Запрос привел к достаточному количеству успешных взаимодействий (Good Triples).
- Запрос классифицирован как Categorical Query (превышен порог Name Perplexity).
- Пара запрос-категория имеет достаточно высокое значение F-Measure, указывающее на синонимию, а не гипонимию.
Пошаговый алгоритм
Алгоритм состоит из двух основных процессов: офлайн-вывод синонимов и онлайн-обработка запроса.
Процесс А: Офлайн-вывод синонимов (Synonym Inference)
- Идентификация «Хороших триплетов»: Анализ исторических логов для поиска триплетов (Запрос, Название, Категория), которые привели к успешному действию пользователя (например, запрос маршрута). Вес успешного действия распределяется поровну, если листинг имеет несколько категорий.
- Классификация запросов: Для каждого запроса вычисляется Name Perplexity (или Name Entropy).
Формула энтропии: — Σ P(name|query)logP(name|query).
- Фильтрация по типу запроса: Определяется, является ли запрос Name Query (низкая perplexity) или Categorical Query (высокая perplexity). Name Queries исключаются из дальнейшего анализа синонимов.
- Расчет F-Measure: Для оставшихся пар (Категориальный запрос, Категория) вычисляется F-Measure для определения типа связи (синонимия vs. гипонимия).
Расчет требует вычисления Precision (P(query|category)) и Recall (P(category|query)) на основе частоты совместной встречаемости в «Хороших триплетах».
Формула F-Measure: P(query,category) / (a * P(category) + (1-a) * P(query)). Константа ‘a’ (например, 0.85) настраивается для баланса между Precision и Recall, обычно смещая баланс в сторону Precision для исключения гипонимов.
- Применение порогов и выбор синонимов: Значение F-Measure сравнивается с пороговыми значениями. Пороги могут быть абсолютными, относительными (например, 50% от максимального F-Measure для данного запроса) или выбираться Топ-N пар. Также могут учитываться дополнительные пороги по Name Perplexity, Category Perplexity и частоте запроса.
- Сохранение синонимов: Пары, прошедшие все фильтры, сохраняются как категориальные синонимы.
- (Опционально) Ручная проверка: Выведенные синонимы могут быть отправлены на ручную проверку (labellers).
Процесс Б: Онлайн-обработка запроса (Query Processing)
- Получение запроса: Система получает запрос от пользователя.
- Идентификация категорий и синонимов: Система идентифицирует категории, связанные с запросом, и проверяет базу выведенных синонимов.
- Расширение запроса: Запрос переписывается с использованием оператора OR и функции EXACTCATEGORYMATCH для включения найденных синонимов.
- Выполнение поиска: Поиск выполняется по расширенному запросу в структурированной базе данных.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе исторических и структурированных данных.
- Поведенческие факторы: Критически важные данные. Используются логи действий пользователей, связанных с результатами поиска. Конкретный пример — клик на ссылку для получения маршрута (driving directions link). Эти данные используются для идентификации Good Triples.
- Структурные факторы (Данные листингов): Используются названия бизнесов (result business name) и присвоенные им категории (result business category) из базы данных.
- Данные запросов: Журналы поисковых запросов (query terms).
Какие метрики используются и как они считаются
- Name Perplexity (Энтропия/Неопределенность названия): Метрика разнообразия названий для запроса. Рассчитывается как условная энтропия названия при условии запроса H(name|query). Используется для различения Name Queries и Categorical Queries.
- P(name|query): Вероятность того, что данное название будет возвращено для данного запроса.
- P(query, category): Совместная вероятность того, что запрос и категория являются синонимами. Оценивается по частоте их совместного появления в Good Triples.
- Precision (Точность): P(query|category). Вероятность запроса при условии категории.
- Recall (Полнота): P(category|query). Вероятность категории при условии запроса.
- F-Measure: Гармоническое среднее между Precision и Recall, с возможностью взвешивания (константа ‘a’). Используется для финальной оценки синонимичности и фильтрации гипонимов.
- Пороговые значения: Применяются к Name Perplexity (для классификации запросов) и к F-Measure (для выбора синонимов).
Выводы
- Поведенческие сигналы как основа семантического понимания: Google активно использует данные о взаимодействии пользователей с результатами поиска (например, клики на маршруты) как сигнал релевантности (Good Triple) для понимания семантической связи между запросами и категориями в структурированных данных.
- Двухуровневая статистическая фильтрация: Система использует сложный статистический подход для обеспечения точности вывода синонимов:
- Фильтр 1 (Name Perplexity): Исключает запросы по конкретным брендам (Name Queries), фокусируясь только на общих категориях (Categorical Queries).
- Фильтр 2 (F-Measure): Исключает гипонимы (подкатегории), гарантируя, что выявляется именно эквивалентность (синонимия), а не просто связь.
- Цель — Расширение запроса (Query Expansion): Конечная цель механизма — переписать исходный запрос пользователя, добавив в него формальные категории через оператор OR, чтобы повысить полноту выдачи в Локальном поиске или Поиске по товарам.
- Фокус на структурированных данных: Патент явно ориентирован на среды, где сущности имеют предопределенные категории (Local, Shopping), и имеет ограниченное применение для ранжирования неструктурированного веб-контента.
- Важность точной категоризации: Механизм полагается на существующую систему категорий. Точность выбора категории бизнеса (например, в GBP) напрямую влияет на то, как система будет сопоставлять запросы с этим бизнесом.
Практика
Best practices (это мы делаем)
Рекомендации применимы в первую очередь к Локальному SEO и оптимизации Google Business Profile (GBP).
- Выбор максимально точной Основной категории GBP: Это критически важно. Основная категория — это та сущность, с которой Google пытается сопоставить запросы пользователей. Выбирайте категорию, которая наиболее точно и полно описывает ваш бизнес, так как это повышает вероятность правильного вывода синонимов для релевантных запросов.
- Стимулирование целевых действий в GBP: Поскольку система использует успешные действия (например, запросы маршрутов, звонки, переходы на сайт) для идентификации Good Triples, необходимо максимизировать эти сигналы. Убедитесь, что профиль полностью заполнен, информация актуальна, и пользователи мотивированы взаимодействовать с ним.
- Мониторинг поведенческих метрик в GBP Insights: Анализируйте, по каким запросам пользователи находят ваш профиль и какие действия они совершают. Эти данные являются входными для описанного алгоритма. Высокий уровень конверсии действий по определенным запросам помогает Google укрепить связь между этими запросами и вашей категорией.
- Использование категориальных терминов на сайте: Убедитесь, что на вашем сайте (особенно на лендингах, связанных с GBP) четко указан тип вашего бизнеса с использованием как формальных, так и неформальных (синонимичных) терминов. Это может косвенно поддерживать релевантность.
Worst practices (это делать не надо)
- Выбор слишком общих категорий в надежде на широкий охват: Если выбрать слишком общую категорию (например, «Ресторан» вместо «Пиццерия»), система может испытывать трудности с сопоставлением специфических запросов из-за фильтрации гипонимов (F-Measure). Кроме того, это увеличивает конкуренцию.
- Игнорирование поведенческих сигналов: Рассматривать трафик и позиции в Локальном поиске в отрыве от действий пользователей опасно. Если пользователи не совершают целевых действий в вашем профиле, Google не получит данных для Good Triples, что затруднит вывод синонимов для вашего бизнеса.
- Накрутка поведенческих факторов: Попытки искусственно генерировать клики на маршруты или другие действия для манипуляции Good Triples, скорее всего, будут отфильтрованы стандартными системами борьбы со спамом и не дадут долгосрочного эффекта.
Стратегическое значение
Патент подтверждает стратегию Google по использованию машинного обучения и анализа больших данных о поведении пользователей для улучшения понимания запросов (Query Understanding). В контексте Локального поиска это означает, что Google не просто полагается на ключевые слова в названии или описании бизнеса, но активно учится тому, как пользователи ищут различные типы бизнесов. Это подчеркивает переход от статического сопоставления ключевых слов к динамическому семантическому маппингу, основанному на реальных данных.
Практические примеры
Сценарий: Оптимизация GBP для кофейни
Бизнес: Небольшая независимая кофейня.
- Выбор категории: SEO-специалист выбирает основную категорию GBP «Кофейня» (Coffee Shop).
- Пользовательский запрос: Пользователь ищет «место для латте» (latte spot).
- Сбор данных Google (Офлайн): Google анализирует исторические данные и видит, что многие пользователи, искавшие «место для латте», в итоге запрашивали маршрут (Good Triple) к бизнесам с категорией «Кофейня».
- Анализ (Офлайн):
- Name Perplexity для «место для латте» высокая (много разных названий кофеен). Это Categorical Query.
- F-Measure для пары («место для латте», «Кофейня») высокая, что указывает на синонимию.
- Вывод синонима: Google сохраняет «Кофейня» как синоним для «место для латте».
- Обработка запроса (Онлайн): Когда следующий пользователь ищет «место для латте», Google переписывает запрос как [«место для латте» OR EXACTCATEGORYMATCH(«Кофейня»)].
- Результат: Оптимизированная кофейня появляется в результатах поиска, даже если в ее названии или описании нет фразы «место для латте».
Вопросы и ответы
Что такое «Хороший триплет» (Good Triple) и почему он важен?
Это комбинация (Запрос, Название результата, Категория результата), которая привела к успешному действию пользователя, например, запросу маршрута или звонку. Это ключевой поведенческий сигнал, который показывает Google, что результат был релевантен запросу. Анализ этих триплетов лежит в основе всего механизма вывода синонимов.
Как Google отличает поиск бренда от поиска категории?
Google использует метрику Name Perplexity (Неопределенность названия). Если запрос приводит к большому разнообразию названий бизнесов (высокая неопределенность), это считается категориальным запросом (например, «пицца»). Если запрос приводит только к одному или нескольким конкретным названиям (низкая неопределенность), это считается запросом по названию (например, «Додо Пицца на Ленина»). Синонимы выводятся только для категориальных запросов.
Почему Google так заботится о гипонимах (подкатегориях)?
Система стремится найти эквивалентность, а не просто связь. Например, «Китайский ресторан» является подкатегорией «Ресторана». Если бы Google считал их синонимами, то поиск по запросу «Ресторан» мог бы быть слишком сильно смещен в сторону китайских ресторанов, или наоборот. Для фильтрации таких отношений используется расчет F-Measure, который балансирует точность (Precision) и полноту (Recall).
Влияет ли этот патент на обычный (не локальный) поиск?
В основном нет. Патент явно ориентирован на структурированные базы данных, где сущности имеют четкие названия и предопределенные категории, такие как листинги компаний в Картах или товары в Google Shopping. Для ранжирования обычных веб-страниц используются другие механизмы понимания запросов и синонимов.
Как этот патент влияет на выбор категорий в Google Business Profile (GBP)?
Он подчеркивает критическую важность выбора правильной Основной категории. Это та категория, которую Google будет использовать в качестве потенциального синонима для запросов пользователей. Выбор неточной или слишком широкой категории может привести к тому, что ваш бизнес не будет сопоставляться с релевантными неформальными запросами.
Могу ли я повлиять на то, какие синонимы Google выберет для моей категории?
Напрямую — нет, так как процесс автоматизирован и основан на глобальном анализе поведения пользователей. Однако косвенно вы можете повлиять, обеспечивая высокий уровень успешных взаимодействий (Good Triples) с вашим профилем по релевантным запросам. Чем чаще пользователи находят вас по определенному запросу и совершают целевое действие, тем сильнее связь между этим запросом и вашей категорией.
Что такое EXACTCATEGORYMATCH?
Это функция, которую Google использует при расширении запроса. Она гарантирует, что выведенный синоним точно соответствует полной категории в базе данных. Например, если синоним — «Physicians-General Practice», EXACTCATEGORYMATCH предотвратит совпадение с категорией «PHYSICIAN-Obstetrician», обеспечивая точность поиска.
Как используется константа ‘a’ в расчете F-Measure?
Константа ‘a’ (в патенте предлагается значение около 0.85) используется для настройки баланса между Точностью (Precision) и Полнотой (Recall). Значение выше 0.5 смещает баланс в сторону Точности. Это важно для того, чтобы строго фильтровать гипонимы и оставлять только те пары, которые с высокой вероятностью являются истинными синонимами.
Если мой бизнес имеет несколько категорий в GBP, как это учитывается?
Если пользователь совершает успешное действие с вашим листингом, который имеет несколько категорий, вес этого действия распределяется поровну между всеми категориями. Например, если у вас 2 категории, каждая получит вес 0.5 в статистике Good Triples. Это гарантирует, что общая сумма весов в наборе данных остается корректной.
Происходит ли вывод синонимов в реальном времени?
Нет. Процесс анализа логов, расчета Name Perplexity и F-Measure, а также вывод синонимов происходит офлайн в пакетном режиме. В реальном времени (онлайн) система только использует уже готовую базу выведенных синонимов для быстрого расширения входящего запроса пользователя.