Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует статистический анализ (BTF-IDF) для выявления спам-терминов и борьбы с фейковыми листингами в Google Maps

    IDENTIFYING TERMS (Идентификация терминов)
    • US9123046B1
    • Google LLC
    • 2015-09-01
    • 2012-04-27
    2012 Baris Yuksel Антиспам Индексация Патенты Google

    Google применяет метрику BTF-IDF (Blacklist Term Frequency-Inverse Document Frequency) для борьбы со спамом в Картах (Local SEO). Система сравнивает частоту термина в известных спам-листингах (BTF) с тем, насколько редко этот термин встречается в проверенных легитимных листингах (IDF). Это позволяет выявлять языковые паттерны спама и автоматически классифицировать новые листинги.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «Map Spam» (спам на картах) — практику, когда компании создают фейковые бизнес-листинги в сервисах веб-картографии (например, Google Maps) в локациях, где у них нет физического присутствия. Это вводит пользователей в заблуждение и наносит ущерб реальным локальным компаниям. Изобретение направлено на автоматическое выявление текстовых паттернов и терминов, которые статистически характерны для таких фейковых листингов, с целью их фильтрации.

    Что запатентовано

    Запатентован метод статистического анализа для идентификации спам-терминов (spam terms), основанный на новой метрике: Blacklist Term Frequency-Inverse Document Frequency (BTF-IDF). Суть метода заключается в сравнении частоты использования термина в корпусе известных спам-документов (Blacklist или BTF) с его редкостью в корпусе легитимных документов (IDF). Это позволяет вычислить «spam likelihood» (вероятность спама) для терминов и использовать эти данные для автоматической классификации новых аккаунтов.

    Как это работает

    Система работает путем контрастного анализа двух разных корпусов данных:

    • Корпус спама (Blacklist): Документы (описания, контакты) из аккаунтов, которые уже были идентифицированы как спам, объединяются в один большой документ (Merged Document).
    • Легитимный корпус (Non-Spam): Документы из аккаунтов, которые не были обозначены как спам.

    Для каждого термина вычисляется:

    1. BTF: Как часто термин встречается в объединенном корпусе спама.
    2. IDF: Насколько редко термин встречается в легитимном корпусе.
    3. BTF-IDF Score: Произведение BTF и IDF.

    Высокий BTF-IDF Score означает, что термин часто используется спамерами И одновременно редко — легитимными компаниями. Эти термины помечаются как spam terms и используются компонентом Account Scorer для автоматической оценки и фильтрации новых аккаунтов.

    Актуальность для SEO

    Высокая. Спам в локальном поиске (Local SEO) и на картах (Google Maps, Google Business Profile) остается критической проблемой. Описанный механизм BTF-IDF предоставляет масштабируемый статистический подход к выявлению паттернов спама. Хотя патент фокусируется на Map Spam, методология универсальна и применима для борьбы с другими видами текстового спама.

    Важность для SEO

    Влияние на SEO высокое (7.5/10), с сильным уклоном в Local SEO. Патент описывает конкретный механизм для поддержания качества локального индекса. Он напрямую влияет на модерацию и видимость листингов. Это подчеркивает риски использования шаблонных, переоптимизированных или неестественных текстов, которые статистически коррелируют со спамом в данной нише.

    Детальный разбор

    Термины и определения

    Account Scorer (Оценщик аккаунтов)
    Компонент системы (часть Account Manager), который вычисляет общий спам-скор (Account Score) для нового аккаунта на основе BTF-IDF оценок содержащихся в нем терминов.
    BTF (Blacklist Term Frequency / Частота термина в черном списке)
    Метрика, показывающая, сколько раз термин встречается в Merged Document (объединенном корпусе всех известных спам-аккаунтов).
    BTF-IDF (Blacklist Term Frequency-Inverse Document Frequency)
    Основная метрика патента. Рассчитывается как произведение BTF и IDF. Используется для оценки того, насколько термин характерен для спама.
    Document (Документ)
    Набор информации, связанный с аккаунтом (например, Google Business Profile). Включает названия, адреса, описания услуг, слоганы и т.д.
    IDF (Inverse Document Frequency / Обратная частота документа)
    Модифицированная метрика. В этом патенте она рассчитывается ИСКЛЮЧИТЕЛЬНО на основе корпуса легитимных (не спам) аккаунтов. Показывает, насколько редко термин встречается среди них.
    k
    Количество не-спам документов (non-spam accounts), в которых встречается конкретный термин.
    Map Spam (Спам на картах)
    Практика создания фейковых листингов бизнеса в локациях, где бизнес физически не существует.
    Merged Document / Blacklist (Объединенный документ / Черный список)
    Единый документ, созданный путем объединения контента всех аккаунтов, которые были предварительно помечены как спам.
    N
    Общее количество не-спам аккаунтов (non-spam accounts) в наборе данных.
    Spam Terms (Спам-термины)
    Термины, идентифицированные системой как характерные для спама, обычно на основе высокого BTF-IDF Score.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод идентификации спам-терминов и их использования для классификации новых аккаунтов.

    1. Система получает документы, связанные с множеством аккаунтов.
    2. Идентифицируются аккаунты, помеченные как спам (designated as spam accounts).
    3. Документы из этих спам-аккаунтов объединяются в единый Merged Document.
    4. Для каждого термина вычисляется BTF (частота его появления в этом документе).
    5. Определяется количество аккаунтов, не помеченных как спам (N).
    6. Для каждого термина определяется количество не-спам документов, в которых он встречается (k).
    7. Вычисляется IDF на основе N и k.
    8. Вычисляется BTF-IDF Score путем умножения BTF на IDF.
    9. Термины, чей BTF-IDF Score удовлетворяет пороговому значению, выбираются как spam terms.
    10. Система автоматически определяет, следует ли пометить новый аккаунт как спам, основываясь на наличии этих spam terms в документе нового аккаунта.

    Claim 2 (Зависимый от 1): Уточняет критически важный аспект: расчет IDF основывается только на корпусе не-спам аккаунтов. Это позволяет измерять редкость термина именно в легитимной среде.

    Claim 3 (Зависимый от 1): Определяет конкретную формулу для расчета BTF-IDF.

    Формула: BTF-IDF = BTF * log((N+1)/(k+1)).

    Эта формула гарантирует, что высокий балл получат только те термины, которые часто встречаются в спаме (высокий BTF) И одновременно редко встречаются в легитимных листингах (N велико относительно k, что дает высокий IDF). Добавление «+1» (сглаживание Лапласа) предотвращает деление на ноль.

    Claim 6 (Зависимый от 1): Определяет контекст применения изобретения.

    Метод применяется к аккаунтам, связанным с сущностями, запрашивающими представление информации в определенной гео-локации на онлайн-карте. Это подтверждает фокус на Local SEO и Google Maps.

    Где и как применяется

    Изобретение применяется в инфраструктуре сервисов веб-картографии (например, Google Maps) и связано с обработкой данных Google Business Profiles.

    INDEXING – Индексирование и извлечение признаков (Офлайн-анализ)
    Это этап обучения модели (Training/Feature Engineering). Система периодически анализирует существующий индекс, разделяя его на корпус спама и легитимный корпус. На этом этапе вычисляются BTF-IDF scores и обновляется список спам-терминов (Spam terms list).

    CRAWLING – Сбор данных (Data Acquisition / Онлайн-классификация)
    Когда пользователь пытается создать или обновить листинг бизнеса (Proposed Account), система (Account Manager) активируется в реальном времени. Account Scorer использует сохраненную модель (список спам-терминов) для расчета общего спам-скора (Account Score).

    RERANKING – Переранжирование (Фильтрация)
    На основе рассчитанного Account Score система принимает решение о классификации аккаунта. Если аккаунт классифицируется как спам, он может быть отклонен (Account denied), отправлен на ручную проверку или значительно понижен в результатах локального поиска (фильтрация выдачи).

    Входные данные (Офлайн):

    • Данные существующих аккаунтов (индекс).
    • Метки спам/не спам для существующих аккаунтов (полученные вручную или иными методами).

    Выходные данные (Офлайн):

    • Список спам-терминов с их BTF-IDF Scores.

    Входные данные (Онлайн):

    • Данные нового/предлагаемого аккаунта (текстовое содержимое).

    Выходные данные (Онлайн):

    • Account Score и классификация нового аккаунта (спам/не спам).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на листинги бизнеса в Google Maps и Local Search (Local SEO). Влияет на текстовые поля: названия компаний, описания, услуги, контактные данные, слоганы.
    • Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, подверженные map spam. В патенте упоминаются сантехники (Plumbers). Это актуально для экстренных служб, ремонта, эвакуаторов и т.д.
    • Другие типы спама: В патенте упоминается, что технология может быть применена также для борьбы с email spam и web spam, так как методология BTF-IDF универсальна.

    Когда применяется

    • Триггеры активации (Офлайн): Периодическое обновление списка спам-терминов на основе анализа текущего индекса и новых данных о спаме.
    • Триггеры активации (Онлайн): Когда пользователь пытается зарегистрировать новый аккаунт (Proposed Account) или обновить существующий.
    • Пороговые значения: Используются два типа порогов: 1) Порог для BTF-IDF Score, чтобы определить, является ли термин спам-термином. 2) Порог для Account Score, чтобы определить, является ли аккаунт спамом.

    Пошаговый алгоритм

    Алгоритм состоит из двух основных процессов: А) Генерация списка спам-терминов (Training) и Б) Классификация новых аккаунтов (Scoring).

    Процесс А: Генерация списка спам-терминов (BTF-IDF Calculation)

    1. Сбор данных и Идентификация корпусов: Разделение аккаунтов на две группы: помеченные как спам и не помеченные как спам (легитимные).
    2. Создание черного списка: Объединение всех документов из спам-аккаунтов в единый Merged Document.
    3. Расчет BTF: Подсчет частоты каждого термина (слова или N-граммы) в Merged Document.
    4. Расчет IDF:
      1. Определение общего числа легитимных аккаунтов (N).
      2. Для каждого термина подсчет количества легитимных документов, в которых он встречается (k).
      3. Вычисление IDF по формуле: log((N+1)/(k+1)).
    5. Расчет BTF-IDF: Умножение BTF на IDF для каждого термина.
    6. Генерация списка спам-терминов: Сортировка терминов по BTF-IDF Score и выбор терминов, превышающих пороговое значение.

    Процесс Б: Классификация новых аккаунтов (Account Scoring)

    1. Получение данных: Получение документа для нового или предлагаемого аккаунта.
    2. Извлечение терминов: Идентификация всех терминов в документе.
    3. Оценка терминов: Для каждого термина система извлекает его BTF-IDF Score из списка, сгенерированного в Процессе А. Если термина нет в списке, его оценка равна 0.
    4. Расчет Account Score: Суммирование BTF-IDF Scores всех терминов в документе. (В патенте описаны варианты: суммирование всех вхождений или только уникальных терминов).
    5. Классификация: Сравнение Account Score с пороговым значением. Если оценка выше порога, аккаунт помечается как спам.
    6. Действие: Аккаунт принимается (Account accepted), отклоняется (Account denied) или отправляется на проверку.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на анализе текстовых данных, связанных с аккаунтами.

    • Контентные факторы: Текстовое содержимое листингов. В патенте упоминаются: идентификаторы бизнеса (названия), описания продуктов или услуг, рекламная информация, слоганы, boilerplate information (шаблонная информация).
    • Структурные факторы (Данные аккаунта): Адреса (street addresses), геолокационная информация (geo-location information), контактная информация (contact information), информация о веб-сайте (website information). Все эти данные анализируются как текст.
    • Системные данные (Метки): Предварительная классификация аккаунтов как спам или не-спам (Spam (Y), Spam (N), Spam (?)). Эти метки критичны для разделения корпусов на обучающей стадии.

    Какие метрики используются и как они считаются

    Ключевые метрики основаны на статистическом анализе частотности терминов (TF-IDF-подобный подход).

    • N: Общее количество аккаунтов в легитимном корпусе.
    • k: Количество документов в легитимном корпусе, содержащих конкретный термин.
    • BTF (Blacklist Term Frequency): Количество вхождений термина в объединенном корпусе спама (Merged Document).
    • IDF (Inverse Document Frequency): Мера редкости термина в легитимном корпусе. Формула: log((N+1)/(k+1)).
    • BTF-IDF Score: Основная оценка спамности термина. Формула: BTF * IDF.
    • Account Score: Оценка спамности аккаунта. Рассчитывается как сумма BTF-IDF Scores терминов, присутствующих в документе аккаунта.

    Методы анализа текста: Патент упоминает, что термины могут быть как отдельными словами, так и N-граммами (фразами).

    Выводы

    1. Контрастный анализ для выявления спама (BTF-IDF): Патент демонстрирует конкретный метод выявления языковых паттернов спама, основанный на контрасте. Система обучается на различиях между корпусом спама и корпусом легитимного контента. Термин считается подозрительным, только если он ОДНОВРЕМЕННО часто встречается в спаме (высокий BTF) и редко в легитимном контенте (высокий IDF).
    2. Важность чистого корпуса (IDF): Ключевая особенность — расчет IDF исключительно на основе легитимного корпуса. Это позволяет изолировать индикаторы спама от общеупотребительных слов (которые будут иметь высокий BTF, но низкий IDF).
    3. Фокус на Local SEO и Map Spam: Патент четко сфокусирован на защите целостности данных в картографических сервисах и борьбе с фейковыми листингами, что критично для Local SEO.
    4. Уязвимость шаблонного контента: Система особенно эффективна против спамеров, использующих шаблонный или повторяющийся контент (boilerplate text) для массового создания листингов, так как это приводит к высокому значению BTF для этих шаблонов.
    5. Автоматизация модерации: Механизм позволяет автоматически фильтровать новые листинги с помощью Account Scorer, предотвращая попадание спама в индекс в реальном времени.

    Практика

    Best practices (это мы делаем)

    Рекомендации в первую очередь касаются Local SEO и управления Google Business Profiles (GBP).

    • Использование уникального и естественного языка: При заполнении описания бизнеса и услуг избегайте шаблонных фраз. Контент должен быть уникальным для каждого филиала и написан естественным языком. Это снижает риск того, что используемые термины будут иметь высокий BTF-IDF Score.
    • Мониторинг ниши на предмет спам-паттернов: Анализируйте язык, используемый спамерами в вашей нише (например, чрезмерное употребление ключевых слов в названии, перечисление районов обслуживания). Старайтесь дистанцироваться от этих паттернов, чтобы избежать ложных срабатываний классификатора.
    • Фокус на локализации контента (для сетей): Для сетей с большим количеством филиалов критически важно обеспечить уникальность описаний для каждой точки. Контент должен быть локализирован и отражать специфику конкретного филиала, чтобы избежать срабатывания фильтров, настроенных на повторяющийся контент.
    • Работа над сигналами легитимности: Поскольку система опирается на сравнение с легитимным корпусом, важно усиливать сигналы, подтверждающие реальность бизнеса (фотографии, отзывы, локальные ссылки), чтобы аккаунт с большей вероятностью попал в легитимный корпус (N) при обучении системы.

    Worst practices (это делать не надо)

    • Создание фейковых листингов (Map Spam): Это прямая цель патента. Массовое создание листингов в локациях без физического присутствия будет обнаружено.
    • Использование шаблонного контента (Boilerplate Text): Использование одинакового или минимально измененного текста для описания множества листингов. Если этот шаблон коррелирует со спамом, все листинги могут быть пессимизированы.
    • Keyword Stuffing и Location Stuffing: Насыщение текста ключевыми словами или перечисление десятков городов/районов в названии или описании. Это классические паттерны локального спама, которые легко детектируются с помощью BTF-IDF.
    • Агрессивные или вводящие в заблуждение формулировки: Использование клише, агрессивных призывов или фраз, которые часто применяются спамерами для имитации присутствия. В патенте (FIG. 1) термин «storefront» (в контексте «Not a storefront») приведен как пример спам-термина с высоким BTF-IDF.

    Стратегическое значение

    Патент подчеркивает, что Google использует статистические методы для выявления аномалий и паттернов манипуляций на уровне языка. Для SEO-специалистов это сигнал о том, что любые массовые и шаблонные подходы к созданию контента (особенно в Local SEO) могут быть легко обнаружены и классифицированы как спам, если они отклоняются от языковой нормы легитимных ресурсов. Стратегия должна строиться на создании аутентичного и естественного контента.

    Практические примеры

    Сценарий 1: Анализ термина с высоким риском («Срочный выезд 24/7») в нише сантехников

    1. Сбор данных: Анализируются 1000 спам-листингов и 5000 легитимных (N=5000).
    2. Расчет BTF: В корпусе спама фраза «Срочный выезд 24/7» встречается 800 раз. BTF = 800.
    3. Расчет IDF: Из 5000 легитимных листингов только 50 используют эту фразу (k=50). IDF = log((5000+1)/(50+1)) ≈ log(98) ≈ 1.99.
    4. Расчет BTF-IDF: Score = 800 * 1.99 = 1592. Это высокий показатель.
    5. Применение: Новый листинг с этой фразой получает +1592 к Account Score, что значительно повышает риск блокировки.

    Сценарий 2: Анализ общеупотребительного термина («Услуги»)

    1. Расчет BTF: В спам-корпусе слово «Услуги» встречается 900 раз. BTF = 900.
    2. Расчет IDF: Из 5000 легитимных листингов (N=5000) 4000 используют это слово (k=4000). IDF = log((5000+1)/(4000+1)) ≈ log(1.25) ≈ 0.096.
    3. Расчет BTF-IDF: Score = 900 * 0.096 = 86.4. Это низкий показатель.
    4. Применение: Наличие слова «Услуги» в новом листинге незначительно увеличит его Account Score.

    Вопросы и ответы

    Чем BTF-IDF отличается от стандартного TF-IDF?

    Стандартный TF-IDF измеряет важность термина внутри одного документа относительно всего корпуса и используется для понимания тематики документа. BTF-IDF измеряет «спамность» термина. Он сравнивает частоту термина в известном корпусе спама (BTF) с его редкостью в известном легитимном корпусе (IDF). Это принципиально разные задачи и метрики.

    Применяется ли этот патент только к Local SEO (Google Maps)?

    Основные примеры и Claims в патенте сосредоточены на Map Spam. Однако в тексте патента указано, что технология может быть применена и в других областях, таких как email spam и web spam. Метод BTF-IDF универсален для выявления паттернов нежелательного контента, если есть возможность сформировать корпуса спама и легитимного контента.

    Как Google определяет, какие аккаунты изначально являются спамом для обучения системы?

    Патент предполагает наличие аккаунтов, которые уже были «designated as spam accounts». В описании упоминается, что это может быть результатом других процессов, например, ручных жалоб пользователей, сообщающих о несоответствии адреса, работы модераторов или других алгоритмов. Эти проверенные данные используются как ground truth (эталон) для запуска анализа BTF-IDF.

    Что делать, если мой легитимный бизнес был ошибочно классифицирован как спам?

    Если это произошло из-за механизма BTF-IDF, значит, языковые паттерны вашего листинга сильно совпадают с паттернами спамеров в вашей нише. Необходимо пересмотреть контент листинга (название, описание, услуги), убрать элементы, которые могут выглядеть как keyword stuffing или шаблонный текст. Используйте уникальный, естественный язык.

    Как рассчитывается итоговая оценка спамности аккаунта (Account Score)?

    Account Score рассчитывается путем суммирования BTF-IDF Scores всех терминов, найденных в документе аккаунта. В патенте описаны варианты: можно суммировать оценки для всех вхождений слов (учитывая повторы) или только для уникальных слов. Если итоговая сумма превышает заданный порог, аккаунт классифицируется как спам.

    Может ли этот алгоритм наказывать за использование общеупотребительных слов?

    Нет. Для этого используется компонент IDF, рассчитанный на легитимном корпусе. Если слово часто используется как спамерами (высокий BTF), так и легитимными компаниями (высокий k, низкий IDF), то его общий BTF-IDF Score будет низким, и слово не будет считаться индикатором спама.

    Влияет ли этот алгоритм на названия компаний в GBP?

    Да, напрямую. Название компании является частью документа (Document), анализируемого системой. Если название содержит термины, имеющие высокий BTF-IDF (например, перечисление ключевых слов или городов, популярное у спамеров), это увеличит общую оценку спамности аккаунта (Account Score).

    Учитывает ли система только отдельные слова или также фразы (N-граммы)?

    Патент использует термин «term», который может включать как отдельные слова, так и N-граммы (фразы). В одном из примеров упоминается анализ фразы «prompt service or the service is free» как единого термина. Это означает, что система способна выявлять сложные языковые паттерны спама.

    Что означает термин «storefront» в примере патента (FIG. 1)?

    В примере патента термин «storefront» имеет высокий BTF-IDF. Это связано с тем, что спамеры, создавая листинги для бизнеса без физического адреса (например, услуги на выезде), часто использовали фразы вроде «Not a storefront» (Не является точкой обслуживания). Поскольку эта фраза часто встречалась в спаме и редко у легитимных бизнесов, она стала сильным индикатором спама.

    Что означает (N+1) и (k+1) в формуле IDF?

    Это форма математического сглаживания (например, сглаживание Лапласа). Она гарантирует, что знаменатель (k+1) никогда не будет равен нулю, даже если термин совсем не встречается в легитимном корпусе (k=0). Это предотвращает ошибку деления на ноль и обеспечивает более стабильный расчет метрики.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.