Google использует систему для обнаружения спама в локальной выдаче (например, в Google Maps). Система сравнивает характеристики бизнес-листингов (названия, адреса, телефоны) из надежных источников (например, официальные справочники) и ненадежных источников (например, открытые веб-формы). Анализ проводится в контексте конкретной категории бизнеса, чтобы выявить подозрительные аномалии (например, ключевые слова в названии), которые статистически чаще встречаются в спамных листингах.
Описание
Какую задачу решает
Патент решает проблему идентификации спамных бизнес-листингов (spam listings), которые пытаются манипулировать системой для ложного привлечения трафика. В качестве примера приводится такси-сервис, указывающий ложное местоположение, чтобы казаться ближе к пользователю. Изобретение направлено на выявление таких манипуляций в данных, получаемых из различных источников для локального поиска, учитывая, что индикаторы спама сильно зависят от категории бизнеса (контекста).
Что запатентовано
Запатентована система контекстуального обнаружения спама в бизнес-листингах. Суть метода заключается в сравнении частоты определенных характеристик (например, длины названия, конкретных терминов) в листингах, полученных из надежных источников (Trusted Sources), и листингах из ненадежных источников (Untrusted Sources). Анализ проводится строго в рамках определенного контекста (Context), например, категории бизнеса. Характеристики, которые значительно чаще встречаются в ненадежных источниках, считаются индикаторами спама для этого контекста.
Как это работает
Система работает путем статистического анализа и калибровки:
- Сбор данных и контекстуализация: Листинги собираются из Trusted Sources (например, телефонные справочники) и Untrusted Sources (например, открытые веб-формы) и группируются по контекстам (например, «Флористы», «Сантехники»).
- Анализ частотности: Определяется частота характеристик в обеих группах источников для данного контекста.
- Выявление дифференциальных характеристик: Система рассчитывает разницу в частотности (Frequency Differential). Если характеристика значительно чаще встречается в ненадежных источниках, она помечается как подозрительная (Differential Characteristic).
- Расчет Spam Score: Для конкретного листинга вычисляется оценка спамности (Spam Score) на основе наличия в нем дифференциальных характеристик.
- Калибровка и определение порогов: Spam Score преобразуется в вероятность спама с помощью контекстно-зависимой функции (например, сигмоидной кривой). Также для каждого контекста определяется оптимальный порог (Cutoff Threshold) для классификации листинга как спама.
Актуальность для SEO
Высокая. Борьба со спамом в локальной выдаче (Google Maps, Local Pack) остается критически важной задачей для Google. Манипуляции с названиями (keyword stuffing), ложными адресами и виртуальными офисами распространены. Описанный механизм, основанный на статистическом сравнении надежных и ненадежных данных с учетом контекста категории, является фундаментальным подходом к обеспечению качества локальных данных в 2025 году.
Важность для SEO
Патент имеет критическое значение для Local SEO (8.5/10). Он описывает конкретный механизм, который Google может использовать для идентификации и пессимизации бизнес-листингов (Google Business Profiles), использующих манипулятивные тактики. Понимание того, что система анализирует характеристики в контексте конкретной категории и сравнивает их с эталонными (надежными) данными, подчеркивает риски агрессивной оптимизации (например, добавления ключевых слов в название компании), если это статистически нехарактерно для данной ниши согласно надежным источникам.
Детальный разбор
Термины и определения
- Business Listing (Бизнес-листинг)
- Запись, содержащая информацию о бизнесе: название, адрес, телефон, URL, описание.
- Buckets (Корзины)
- Диапазоны оценок Spam Score, используемые для калибровки и преобразования сырой оценки в вероятность спама.
- Context / Business Listing Context (Контекст)
- Набор бизнес-листингов со схожими характеристиками, обычно определяемый типом бизнеса или рынком (например, «Флористы», «Сантехники»). Анализ характеристик проводится строго внутри контекста.
- Cutoff Threshold (Порог отсечения)
- Значение вероятности, выше которого листинг классифицируется как спам. Определяется индивидуально для каждого контекста путем оптимизации Precision и Recall.
- Differential Characteristic (Дифференциальная характеристика)
- Характеристика листинга (например, термин в названии, длина названия), частота которой значительно отличается между Trusted Sources и Untrusted Sources в данном контексте. Является индикатором спама.
- Frequency Differential (Разница в частотности)
- Статистическая разница между частотой появления характеристики в надежных и ненадежных источниках.
- Precision (Точность)
- Доля истинно спамных листингов среди всех листингов, классифицированных системой как спам. Используется для определения Cutoff Threshold.
- Recall (Полнота)
- Доля спамных листингов, обнаруженных системой, от общего числа спамных листингов. Используется для определения Cutoff Threshold.
- Spam Listing (Спамный листинг)
- Бизнес-листинг, который пытается манипулировать системой для ложного привлечения трафика (например, путем указания ложного адреса).
- Spam Score (Оценка спамности)
- Числовое значение, присваиваемое листингу на основе его характеристик. Более высокое значение указывает на большую вероятность спама.
- Trusted Source (Надежный источник)
- Источник данных с высокой репутацией, который с низкой вероятностью содержит спам (например, официальные телефонные справочники Yellow Pages).
- Untrusted Source (Ненадежный источник)
- Источник данных, который легко подвержен спаму (например, веб-форма для добавления бизнеса без верификации).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод идентификации спамных бизнес-листингов.
- Система определяет первую частоту (first frequency value) характеристики в наборе данных из первого источника для определенного контекста.
- Система определяет вторую частоту (second frequency value) той же характеристики в наборе данных из второго источника для того же контекста.
- Вычисляется разница в частотности (frequency differential).
- Если разница превышает пороговое значение (threshold differential), характеристика идентифицируется как дифференциальная (differential characteristic).
- Конкретный бизнес-листинг идентифицируется как спам (spam listing) с использованием этой дифференциальной характеристики.
Ядро изобретения — это статистическое сравнение частоты характеристик между двумя источниками (обычно Trusted vs Untrusted, как уточняется в Claim 8) в рамках одного контекста для выявления индикаторов спама.
Claim 4 (Зависимый от 1): Уточняет типы характеристик.
Характеристикой может быть длина названия (title length), текстовый термин (text term), номер телефона (phone number) или адрес (address).
Claim 5 (Зависимый от 1): Детализирует процесс идентификации спама с использованием оценки.
Идентификация листинга как спама включает расчет оценки спамности (spam score). Листинг классифицируется как спам, если spam score превышает порог.
Claim 6 (Зависимый от 5): Описывает механизм преобразования оценки в вероятность.
Система преобразует spam score в вероятность спама, используя контекстно-зависимую кривую (context-specific curve). Листинг классифицируется как спам, если вероятность превышает порог вероятности (probability threshold). Это вводит механизм калибровки, учитывающий специфику контекста.
Где и как применяется
Изобретение применяется преимущественно в инфраструктуре локального поиска (Local Search) и системах управления бизнес-профилями.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает бизнес-листинги из различных источников и классифицирует эти источники как Trusted или Untrusted.
INDEXING – Индексирование и извлечение признаков
Основная часть работы алгоритма происходит здесь, включая как офлайн-вычисления (обучение модели), так и онлайн-оценку (применение модели).
- Контекстуализация и Извлечение характеристик: Листинги распределяются по контекстам и из них извлекаются характеристики (термины, длина названия и т.д.).
- Определение дифференциальных характеристик (Офлайн): Система сравнивает частоты характеристик между Trusted и Untrusted источниками и выявляет статистически значимые различия (Differential Characteristics).
- Калибровка и определение порогов (Офлайн): Система рассчитывает контекстно-зависимые функции для преобразования Spam Score в вероятность и определяет оптимальные Cutoff Thresholds.
- Оценка листингов (Онлайн): При индексации нового или обновленного листинга система вычисляет его Spam Score, преобразует в вероятность и классифицирует как спам или не спам.
RANKING / RERANKING – Ранжирование / Переранжирование
Результаты классификации используются для фильтрации выдачи. Листинги, идентифицированные как спам, исключаются или понижаются в ранжировании (например, в Local Pack или Google Maps).
Входные данные:
- Бизнес-листинги из различных источников.
- Классификация источников (Trusted/Untrusted).
- Контекст (категория) для каждого листинга.
Выходные данные:
- Набор Differential Characteristics для каждого контекста.
- Контекстно-зависимые функции калибровки и пороги.
- Идентификация конкретных листингов как спама.
На что влияет
- Конкретные типы контента: Влияет исключительно на бизнес-листинги (Local SEO).
- Конкретные ниши или тематики: Механизм контекстно-зависимый. Он особенно сильно влияет на ниши, подверженные спаму (например, услуги на выезде: сантехники, слесари, такси, юристы). Патент приводит примеры: «AAA» может быть спамом для слесаря, но не для автоклуба; «билеты» (tickets) — спам для юриста, но не для турагента.
Когда применяется
- Триггеры активации: Офлайн-процессы выполняются периодически для обновления моделей. Онлайн-оценка применяется при обработке конкретного бизнес-листинга (добавление или обновление).
- Условия работы: Необходимо наличие достаточного объема данных как из Trusted Sources, так и из Untrusted Sources для одного и того же контекста, чтобы провести статистический анализ.
Пошаговый алгоритм
Алгоритм состоит из офлайн-процессов (обучение модели) и онлайн-процесса (применение модели).
Процесс А: Идентификация подозрительных характеристик (Офлайн)
- Идентификация листингов: Выборка бизнес-листингов из надежного и ненадежного источников в определенном контексте.
- Расчет частот: Определение частоты характеристик (термины, длина названия и т.д.) отдельно для надежной и ненадежной выборок.
- Определение разницы: Расчет Frequency Differentials между частотами в ненадежных и надежных выборках (с нормализацией).
- Идентификация дифференциальных характеристик: Выявление характеристик, чья разница превышает пороговое значение (например, стандартное отклонение). Они помечаются как индикаторы спама для данного контекста.
Процесс Б: Калибровка оценок и порогов (Офлайн)
Часть 1: Преобразование Spam Score в Вероятность (Калибровка)
- Расчет Spam Score: Определение Spam Score для выборки листингов в контексте.
- Распределение по корзинам (Buckets): Разделение пространства оценок на диапазоны.
- Анализ корзин: Определение средней оценки Spam Score и реальной доли спама (на основе размеченных данных) для каждой корзины.
- Подбор функции: Подбор замкнутой функции (сигмоидной кривой), которая наилучшим образом соответствует точкам данных (средняя оценка, доля спама). Эта функция используется для преобразования сырого Spam Score в вероятность.
Часть 2: Определение Cutoff Threshold (Порог отсечения)
- Ранжирование выборки: Сортировка выборки листингов по их Spam Score.
- Расчет Precision и Recall: Оценка Точности и Полноты для всех возможных порогов отсечения.
- Определение оптимального порога: Выбор порога, который максимизирует функцию F (баланс между Precision и Recall).
Процесс В: Оценка листинга (Онлайн/Индексация)
- Идентификация контекста: Определение контекста для оцениваемого бизнес-листинга.
- Расчет Spam Score: Анализ листинга с использованием контекстно-зависимых Differential Characteristics (из Процесса А) и расчет сырой оценки.
- Определение вероятности: Преобразование Spam Score в контекстно-зависимую вероятность с помощью функции калибровки (из Процесса Б.1).
- Сравнение с порогом: Сравнение вероятности с контекстно-зависимым Cutoff Threshold (из Процесса Б.2).
- Классификация: Если вероятность превышает порог, листинг идентифицируется как спам.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе метаданных бизнес-листингов и источнике этих данных.
- Контентные/Структурные факторы:
- Название бизнеса (title): анализируется длина (title length) и наличие конкретных текстовых терминов (text term).
- Описание бизнеса.
- URL.
- Технические/Системные факторы:
- Источник данных (Data Source) и его классификация (Trusted/Untrusted).
- Категория бизнеса (используется для определения Context).
- Географические факторы:
- Адрес бизнеса (address). Упоминается как характеристика для анализа.
- Другие факторы:
- Номер телефона (phone number). Упоминается как характеристика для анализа.
Какие метрики используются и как они считаются
- Frequency Value (Значение частоты): Количество появлений характеристики в наборе листингов (может быть нормализовано).
- Frequency Differential (Разница в частотности): Статистическое сравнение частот (соотношение, процентное превышение или количество стандартных отклонений).
- Spam Score (Оценка спамности): Агрегированная оценка на основе наличия дифференциальных характеристик. В патенте приводится пример структуры формулы: titlescore + lengthfactor + phonepenalty + specialpenalties.
- Вероятность спама (Калибровка): Используется логистическая регрессия и сигмоидная кривая вида: σa,b(x) = 1 / (1 + e-a(x-b)).
- Параметры a и b для кривой: Определяются путем минимизации функции ошибки f(a,b): f(a,b) = Σ(x,y)(σa,b(x) — y)2 (сумма квадратов разностей между предсказанной вероятностью и реальной долей спама).
- Precision и Recall: Стандартные метрики оценки качества классификаторов.
- Функция F (F-score): Используется для определения оптимального порога отсечения путем максимизации гармонического среднего между Precision и Recall: F(cutoff) = (precision × recall) / (precision + recall).
Выводы
- Контекст критичен для обнаружения спама: Система не использует универсальные правила. Анализ проводится строго в рамках контекста (категории бизнеса). То, что является спамом для одной категории (например, длинное название для ресторана), может быть нормой для другой (например, для юридической фирмы).
- Опора на надежные источники как эталон: Ключевым механизмом является сравнение данных из ненадежных источников с данными из Trusted Sources (например, официальные справочники). Статистические отклонения от эталона в данном контексте считаются индикаторами спама.
- Идентифицируемые характеристики спама: Патент явно указывает, что анализируются длина названия, конкретные термины в названии, адреса и номера телефонов. Это позволяет автоматически выявлять Keyword Stuffing и использование фейковых локаций.
- Сложная система калибровки оценок: Система не просто присваивает Spam Score, но и преобразует его в вероятность с помощью статистических методов (логистическая регрессия). Это позволяет стандартизировать оценки между разными контекстами.
- Индивидуальные пороги для разных ниш: Пороги для классификации листинга как спама (Cutoff Thresholds) рассчитываются для каждого контекста индивидуально на основе анализа Precision и Recall, чтобы минимизировать ложные срабатывания и максимизировать обнаружение реального спама.
Практика
Best practices (это мы делаем)
- Обеспечение консистентности данных (NAP Consistency): Необходимо убедиться, что основные данные бизнеса (Name, Address, Phone) соответствуют информации в авторитетных источниках (Trusted Sources). Это помогает системе верифицировать легитимность листинга и избежать ложной классификации как спама.
- Использование реального юридического названия: В Google Business Profile (GBP) следует использовать официальное название компании. Соответствие названия эталону из надежных источников снижает Spam Score.
- Выбор точной категории бизнеса: Корректный выбор категории гарантирует, что листинг будет оцениваться в правильном Context. Это важно, так как пороги спама и подозрительные характеристики индивидуальны для каждой категории.
- Использование реальных физических адресов и локальных телефонов: Поскольку address и phone number являются анализируемыми характеристиками, использование реальных, верифицируемых данных критически важно, особенно в нишах, где распространены виртуальные офисы или подменные номера.
Worst practices (это делать не надо)
- Добавление ключевых слов в название (Keyword Stuffing): Это одна из основных целей патента. Если ключевые слова (например, название города, услуги) статистически редко встречаются в названиях компаний вашей категории в Trusted Sources, их использование будет идентифицировано как Differential Characteristic и увеличит Spam Score.
- Использование слишком длинных названий: Длина названия (title length) является фактором. Если средняя длина названия в вашей категории короче, использование длинного названия повышает риск классификации как спама.
- Создание листингов с ложными адресами или виртуальными офисами: Попытки манипулировать местоположением являются прямым нарушением, которое система стремится обнаружить, анализируя характеристику address.
Стратегическое значение
Патент подтверждает, что Google использует сложные статистические методы и машинное обучение для поддержания чистоты индекса локальных данных. Для Local SEO это означает, что любая оптимизация, отклоняющаяся от реальных, верифицируемых данных о бизнесе, несет высокие риски. Стратегия должна фокусироваться на легитимности, консистентности данных и построении авторитета в реальном мире. Контекстуальный подход означает, что SEO-специалисты должны глубоко понимать нормы в конкретной нише, чтобы не выделяться как статистическая аномалия (спам).
Практические примеры
Сценарий: Обнаружение Keyword Stuffing у юристов
- Контекст: «Юридические услуги».
- Анализ Trusted Sources: Система анализирует официальный справочник юристов и видит, что названия обычно имеют формат «Фамилия, Имя» или «Название фирмы» (например, «Smith & Partners»).
- Анализ Untrusted Sources: Система анализирует открытые веб-формы и видит много названий типа «Лучший адвокат по ДТП в Москве Дешево».
- Выявление Differential Characteristics: Система определяет, что термины «Лучший», «ДТП», «Москва», «Дешево» и большая длина названия значительно чаще встречаются в ненадежных источниках. Эти характеристики помечаются как индикаторы спама для этого контекста.
- Оценка нового листинга: При добавлении нового листинга «Иванов — Адвокат по ДТП Москва», система вычисляет высокий Spam Score.
- Результат: Вероятность спама превышает Cutoff Threshold для этой категории, и листинг блокируется или понижается в выдаче.
Вопросы и ответы
Как система определяет, является ли источник надежным (Trusted) или ненадежным (Untrusted)?
Патент указывает, что классификация может основываться на репутации источника, предыдущем взаимодействии с ним или может быть настроена вручную. Надежные источники – это те, которые трудно заспамить (например, официальные телефонные справочники Yellow Pages). Ненадежные источники – это те, которые легко заспамить (например, веб-формы для добавления листингов без верификации).
Что такое «Контекст» (Context) и почему он так важен в этом патенте?
Контекст обычно определяется типом бизнеса (например, «Флористы», «Отели»). Он критически важен, потому что разные типы бизнеса имеют разные типичные характеристики. Например, длинное название может быть нормой для юридической фирмы, но спамом для ресторана. Анализ внутри контекста позволяет избежать ложных срабатываний и точно настроить индикаторы спама для каждой ниши.
Какие именно части бизнес-листинга анализирует эта система?
Патент явно упоминает анализ следующих характеристик: длина названия (title length), конкретные текстовые термины (text term) в названии или описании, номер телефона (phone number) и адрес (address). Аномалии в любом из этих элементов могут привести к увеличению Spam Score.
Как этот патент влияет на практику добавления ключевых слов или названий городов в название компании в Google Business Profile (Keyword Stuffing)?
Это напрямую противодействует такой практике. Если в надежных источниках компании вашей категории не используют ключевые слова в официальных названиях, а в ненадежных источниках это распространено, система пометит это как индикатор спама (Differential Characteristic). Использование таких названий значительно увеличивает риск пессимизации.
Что такое калибровка Spam Score и зачем она нужна?
Калибровка – это процесс преобразования сырой оценки Spam Score в стандартизированную вероятность (от 0 до 1). Это необходимо, потому что диапазоны сырых оценок сильно различаются между контекстами (например, у Отелей от 0 до 130,000, у Такси от 0 до 49,000). Калибровка с помощью сигмоидной кривой позволяет унифицировать оценки и применять пороговые значения.
Одинаков ли порог для определения спама во всех категориях бизнеса?
Нет. Патент подчеркивает, что порог отсечения (Cutoff Threshold) определяется индивидуально для каждого контекста. Система использует анализ Точности (Precision) и Полноты (Recall) для определения оптимального порога в конкретной нише, чтобы сбалансировать обнаружение спама и минимизацию ложных срабатываний.
Может ли этот механизм бороться с сетями виртуальных офисов или ложными адресами?
Да. Адрес (address) является одной из анализируемых характеристик. Если определенные адреса (например, адреса бизнес-центров или почтовых ящиков) статистически чаще встречаются в ненадежных источниках для определенного контекста, система может идентифицировать их как индикаторы спама и пессимизировать такие листинги.
Как SEO-специалисту использовать знания из этого патента для защиты клиента от блокировки GBP?
Ключевая стратегия – максимальное соответствие реальным данным и консистентность NAP. Убедитесь, что данные в GBP точно совпадают с данными в авторитетных и официальных источниках (Trusted Sources). Избегайте любой оптимизации (особенно в названии), которая делает листинг статистически аномальным для вашей категории.
Применяется ли этот анализ мгновенно при изменении листинга?
Оценка листинга (онлайн-процесс) применяется при обработке изменений. Однако само определение того, какие характеристики являются подозрительными и какие пороги использовать (офлайн-процессы обучения модели), выполняется периодически путем анализа больших наборов данных, а не мгновенно.
Влияет ли этот патент на обычный веб-поиск (Web SEO)?
Патент напрямую сфокусирован на бизнес-листингах (Local SEO). Он не описывает ранжирование веб-страниц. Однако он влияет на веб-поиск косвенно, поскольку эти листинги отображаются в результатах поиска (например, в Local Pack) и используются для ответа на локальные запросы.