
Google использует систему для обнаружения спамных бизнес-листингов (Local SEO), сравнивая данные из доверенных и ненадежных источников в рамках конкретных бизнес-контекстов (например, «сантехники» против «юристов»). Система выявляет характеристики, статистически связанные со спамом в данной нише, генерирует оценку спама и калибрует её в вероятность с помощью логистической регрессии для точной фильтрации.
Патент решает проблему обнаружения и фильтрации спамных бизнес-листингов (spam listings) — записей, которые манипулируют системой для привлечения трафика (например, указание ложного адреса или переспам ключевыми словами в названии). Проблема усложняется тем, что индикаторы спама сильно зависят от Context (ниши): то, что является спамом для ресторана, может быть нормой для юридической фирмы. Изобретение направлено на повышение точности обнаружения спама путем учета этого контекста и калибровки оценок.
Запатентована система для контекстно-зависимого обнаружения спама в бизнес-листингах. Суть изобретения включает два ключевых механизма. Во-первых, это метод выявления индикаторов спама путем сравнения частоты характеристик в Trusted Sources (например, официальные справочники) и Untrusted Sources (например, пользовательский контент) в рамках определенного Context. Во-вторых, это метод калибровки необработанных оценок спама (Spam Scores) в точные вероятности (0-1) с использованием статистических методов (логистическая регрессия) и определения оптимальных порогов отсечения для каждой ниши.
Система работает в несколько этапов:
Differential Characteristics).Spam Score на основе присутствия этих индикаторов.Spam Score преобразуется в вероятность (0-1) с помощью заранее рассчитанной калибровочной кривой (сигмоидной функции) для данного контекста.Cutoff Threshold), оптимизированным по точности (Precision) и полноте (Recall), для классификации листинга как спама.Высокая. Борьба со спамом, фейковыми профилями и манипуляциями в Google Maps и Local Search остается критически важной задачей. Описанные методы контекстуального анализа и статистической калибровки являются фундаментальными для современных систем машинного обучения, используемых для поддержания качества локальной выдачи.
Патент имеет высокое значение для специалистов по локальному SEO (Local SEO). Он раскрывает механизмы, с помощью которых Google выявляет манипуляции с бизнес-профилями, такие как Keyword Stuffing в названии (titlescore, lengthfactor) или использование подозрительных номеров (phonepenalty). Понимание контекстно-зависимой природы этих сигналов критично для оптимизации профилей без риска попасть под фильтры.
Spam Score в интерпретируемую вероятность (от 0 до 1) с помощью математической функции.Trusted Sources и Untrusted Sources в рамках определенного контекста. Являются индикаторами спама.Precision) и полнотой (Recall). Используется для определения оптимального Cutoff Threshold.Spam Score в вероятность. Обеспечивает значения от 0 до 1.Патент содержит утверждения, касающиеся как общего метода контекстуального анализа (описанного в Abstract и Description), так и специфического метода калибровки оценок спама (детализированного в Claims 1-20).
Claim 1 (Независимый пункт): Описывает метод калибровки вероятности спама.
Spam Score для набора бизнес-листингов (обучающая выборка).Buckets) на основе их Spam Score.Spam Score.Closed-form Function), которая отображает средний Spam Score (ось X) на фактическое соотношение спама (ось Y).Spam Score.Это процесс калибровки классификатора, позволяющий преобразовать произвольные оценки в интерпретируемую вероятность от 0 до 1.
Claim 2 (Зависимый от 1): Уточняет, что Closed-form Function выбирается из семейства сигмоидных кривых (логистическая функция):
Claim 3 (Зависимый от 2): Описывает метод подбора параметров 'a' и 'b' для сигмоидной функции. Используется метод минимизации ошибки (например, метод наименьших квадратов), чтобы найти параметры, при которых функция наилучшим образом соответствует данным из корзин:
Claim 6 (Зависимый от 1): Предоставляет пример формулы для расчета исходного Spam Score (который используется на входе Claim 1):
Spam Score = titlescore * lengthfactor + phonepenalty + specialpenalties
Где:
titlescore: оценка на основе частоты подозрительных терминов в заголовке.lengthfactor: штраф за длину заголовка.phonepenalty: штраф за наличие определенного (подозрительного) номера телефона.specialpenalties: штрафы за наличие определенных ключевых слов.Этот пункт демонстрирует конкретные факторы, используемые для обнаружения спама в Local SEO, такие как переоптимизация названия и подозрительные контактные данные.
Изобретение применяется в инфраструктуре локального поиска (Google Maps/Local) для обеспечения качества данных.
CRAWLING – Сканирование и Сбор данных
Система собирает данные из различных источников, классифицируя их как Trusted Sources и Untrusted Sources. Это включает сканирование веб-справочников и прием данных от пользователей (например, через Google Business Profile).
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Значительная часть работы происходит в офлайн-процессах, связанных с индексированием:
Differential Characteristics. Происходит калибровка Spam Score и определение оптимальных Cutoff Thresholds для каждого контекста.Spam Score, калибруется в вероятность, и принимается решение о классификации (спам/не спам).RANKING / RERANKING – Ранжирование / Переранжирование
Во время ранжирования локальных результатов (Local Pack, Google Maps) вероятность спама используется как сильный сигнал для понижения или исключения листингов из выдачи.
Входные данные:
Trusted и Untrusted источников.Выходные данные:
Differential Characteristics (индикаторы спама) для каждого контекста.Cutoff Thresholds для каждого контекста.Процесс состоит из офлайн-построения модели и онлайн-применения.
Процесс А: Офлайн — Идентификация подозрительных характеристик
Trusted Source и рассчитывается частота характеристик (термины, длина заголовка и т.д.).Untrusted Source и рассчитывается частота характеристик.Differential Characteristics (индикаторы спама) для данного контекста.Процесс Б: Офлайн — Калибровка Spam Score в Вероятность
Spam Score (например, по формуле из Claim 6).Buckets).Spam Score и фактическая доля спама для каждой корзины (используя Ground Truth).Процесс В: Офлайн — Определение порога отсечения
Spam Score.Cutoff Thresholds.Precision) и полнота (Recall).Процесс Г: Онлайн/Индексация — Классификация листинга
Differential Characteristics (Процесс А), и определяется Spam Score.Spam Score преобразуется в вероятность с использованием контекстной калибровочной функции (Процесс Б).Cutoff Threshold (Процесс В).Патент фокусируется на данных, специфичных для бизнес-листингов (Local SEO).
titlescore), специальных ключевых слов (specialpenalties) и общую длину (lengthfactor).phonepenalty).Trusted или Untrusted.Untrusted и Trusted источниками.titlescore * lengthfactor + phonepenalty + specialpenalties.Cutoff Threshold.Context). То, что считается переоптимизацией для одной категории бизнеса, может быть приемлемым для другой.Trusted Sources служат эталоном легитимности. Аномально высокая частота определенных характеристик в Untrusted Sources является сильным сигналом спама.Spam Score: переоптимизация названия (Keyword Stuffing), длина названия, использование подозрительных номеров телефонов и специфических ключевых слов.Cutoff Thresholds) также зависят от контекста и оптимизируются с использованием F-меры, чтобы сбалансировать обнаружение максимального количества спама (Recall) и минимизацию ложных срабатываний на легитимных бизнесах (Precision).Рекомендации касаются исключительно Local SEO и работы с Google Business Profile (GBP).
lengthfactor) и наличие подозрительных терминов (titlescore) являются ключевыми факторами для расчета Spam Score.Trusted Sources) именно в вашей нише. Следование этим паттернам поможет избежать классификации как спама, так как ваш листинг не будет содержать Differential Characteristics.phonepenalty указывает на то, что Google отслеживает подозрительные номера.Trusted Sources (например, крупные каталоги) для установления эталона, важно обеспечить точность и консистентность ваших данных (Name, Address, Phone) в этих источниках.titlescore и specialpenalties.phonepenalty.Патент подтверждает, что борьба со спамом в локальном поиске является сложной задачей машинного обучения, требующей тонкой настройки под каждую нишу. Для SEO-специалистов это означает, что легитимность, достоверность данных и соблюдение правил Google Business Profile являются основой долгосрочной стратегии в Local SEO. Манипулятивные тактики выявляются статистически и контекстуально, что делает их использование крайне рискованным.
Сценарий 1: Контекстно-зависимая оценка длины названия
Trusted Sources и видит, что средняя длина названия короткая (1-3 слова). В Untrusted Sources много длинных названий с ключевыми словами. Длинные названия помечаются как Differential Characteristic для спама.Trusted Sources названия часто длинные из-за перечисления партнеров (например, «Иванов, Петров, Сидоров и Партнеры»). Длина названия НЕ помечается как сильный индикатор спама в этом контексте.lengthfactor), так как калибровка и пороги для этих ниш различны.Сценарий 2: Борьба с Keyword Stuffing в нише экстренных услуг (Слесари)
Untrusted Sources аномально часто встречаются названия, начинающиеся с «ААА» или содержащие слово «Срочно».Differential Characteristic (спам) для этого контекста.Spam Score за счет specialpenalties и titlescore.Cutoff Threshold для данной ниши.Что такое «Контекст» в этом патенте и почему он важен для Local SEO?
Контекст — это, как правило, тип бизнеса или ниша (например, «сантехники», «отели», «юристы»). Он критически важен, потому что патент показывает: Google не использует универсальные правила для обнаружения спама. Индикаторы спама выявляются и калибруются отдельно для каждого контекста, так как то, что является спамом в одной нише (например, очень длинное название для ресторана), может быть нормой в другой (например, для юридической фирмы).
Как Google определяет, какие источники являются доверенными (Trusted), а какие нет (Untrusted)?
Патент не детализирует метод классификации, но упоминает, что это может основываться на репутации источника, предыдущих взаимодействиях или ручной настройке. На практике доверенными источниками могут быть официальные государственные реестры, крупные авторитетные каталоги (например, Yellow Pages), а ненадежными — источники, которые легко спамить, например, пользовательский контент без строгой модерации или веб-формы без верификации.
На какие конкретные части бизнес-профиля (GBP) обращает внимание этот алгоритм?
Согласно примеру формулы Spam Score в Claim 6, алгоритм анализирует название бизнеса (на предмет подозрительных терминов и длины), номер телефона (на предмет связи с известным спамом) и наличие специальных ключевых слов. Также упоминаются адрес, URL и описание как части листинга, которые могут анализироваться.
Означает ли этот патент, что Keyword Stuffing в названии GBP всегда приведет к пессимизации?
Да, это один из основных рисков. Использование ключевых слов, не являющихся частью реального названия бизнеса, увеличивает titlescore и Spam Score. Если итоговая вероятность спама превысит порог отсечения (Cutoff Threshold) для вашей ниши, листинг будет пессимизирован или заблокирован. Риск особенно высок, если эта тактика статистически не характерна для авторитетных бизнесов в вашем контексте.
Что такое калибровка Spam Score и зачем она нужна?
Калибровка — это процесс преобразования необработанной оценки спама (которая может быть любым числом и различаться по диапазону в разных нишах) в стандартизированную вероятность от 0 до 1 с помощью сигмоидной функции. Это необходимо, чтобы сделать оценки интерпретируемыми и сравнимыми между разными контекстами, а также для установки точных порогов фильтрации.
Как Google определяет порог, после которого листинг считается спамом?
Порог (Cutoff Threshold) определяется для каждого контекста отдельно путем анализа точности (Precision) и полноты (Recall). Google выбирает порог, который максимизирует F-меру — баланс между обнаружением как можно большего количества спама и минимизацией ложных срабатываний на легитимных бизнесах.
Мой легитимный бизнес был заблокирован как спам. Что делать в контексте этого патента?
Необходимо проанализировать ваш листинг на предмет наличия Differential Characteristics, которые могут быть интерпретированы как спам в вашем контексте. Проверьте название на соответствие реальному бренду (уберите ключевые слова), убедитесь в чистоте номера телефона и адреса. При подаче апелляции предоставьте доказательства легитимности бизнеса (фотографии вывески, документы), чтобы подтвердить, что вы соответствуете критериям Trusted Source.
Влияет ли этот патент на ранжирование обычных веб-страниц?
Нет, этот патент специфичен для бизнес-листингов (Business Listings) и направлен на борьбу со спамом в локальном поиске (Google Maps, Local Pack). Он не описывает механизмы ранжирования стандартной органической выдачи.
Что важнее для этого алгоритма: источник данных или содержание листинга?
Оба компонента критичны. Источник данных (Trusted vs Untrusted) используется на этапе офлайн-обучения для выявления индикаторов спама (Differential Characteristics). Содержание листинга (его характеристики) используется на этапе онлайн-оценки для расчета Spam Score и классификации конкретного листинга. Система учится на источниках, чтобы оценивать содержание.
Использует ли Google машинное обучение для определения Spam Score?
Да. Весь описанный процесс — от выявления контекстно-зависимых характеристик до калибровки с помощью логистической регрессии (Logistic Regression) и оптимизации порогов с помощью F-меры — является стандартным пайплайном машинного обучения для задач классификации. Это позволяет системе автоматически адаптироваться к данным.

Антиспам
Local SEO
EEAT и качество

Антиспам
Local SEO

Антиспам
Local SEO

Антиспам
Local SEO

Антиспам
Local SEO

Поведенческие сигналы
Ссылки
SERP

Семантика и интент
SERP
Поведенческие сигналы

Ссылки
SERP
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

Knowledge Graph
Семантика и интент
EEAT и качество

Поведенческие сигналы
SERP
Семантика и интент

Ссылки
Поведенческие сигналы
EEAT и качество

Персонализация
Семантика и интент
Мультимедиа

EEAT и качество
Поведенческие сигналы
SERP

Поведенческие сигналы
Персонализация
Семантика и интент
