Google использует статистический метод для борьбы со спамом в данных о компаниях (например, в названиях или категориях). Система сравнивает частоту использования фраз в доверенных источниках (где спама нет) с частотой в недоверенных источниках. Если фраза встречается значительно чаще в недоверенных данных, она помечается как вероятный спам. Это позволяет автоматически обнаруживать keyword stuffing и неестественные формулировки в Google Maps и локальном поиске.
Описание
Какую задачу решает
Патент решает проблему выявления спама в информации о компаниях (business entities), собранной из различных источников (например, агрегаторов данных, справочников, пользовательского ввода). В контексте патента «спам» определяется как информация, которая искажает идентичность (skews the identity) или неточно представляет компанию. Это включает в себя субъективные описания (например, «лучший», «дешевый»), перечисление ключевых слов (keyword stuffing) в названиях или категориях, а также несоответствие формата данных (например, текст в поле номера телефона). Цель — автоматизированное выявление таких манипуляций для улучшения качества поисковой выдачи.
Что запатентовано
Запатентован метод вероятностного анализа для определения спама в текстовых данных, основанный на сравнении паттернов из доверенных и недоверенных источников. Система рассчитывает spam likelihood (вероятность спама) для отдельных фраз (n-грамм), анализируя, насколько часто эти фразы встречаются в untrusted source по сравнению с trusted source (источником, который заведомо не содержит спама). Затем эти вероятности используются для оценки новых текстовых элементов.
Как это работает
Система работает на основе Байесовского вывода и сравнения распределений частот:
- Разделение источников: Источники данных классифицируются как Trusted (эталон без спама) и Untrusted (могут содержать спам).
- Анализ частотности (Pre-computation): Система анализирует текстовые элементы (например, названия компаний) из обоих типов источников и разбивает их на фразы (n-граммы). Для каждой фразы подсчитывается частота ее встречаемости в обоих корпусах.
- Определение базового уровня спама: Эмпирически (например, вручную) оценивается общая вероятность спама в недоверенном источнике (P(S)).
- Расчет вероятности спама для фразы: Используя частотные соотношения и P(S), система вычисляет вероятность того, что конкретная фраза является спамом (P(S|phrase)).
- Оценка нового контента (Scoring): Когда поступает новый текстовый элемент, система идентифицирует содержащиеся в нем фразы (предпочитая более длинные и значимые), извлекает их рассчитанные вероятности спама и комбинирует их для получения итоговой оценки спамности всего элемента.
Актуальность для SEO
Высокая. Борьба со спамом в Google Maps и Google Business Profile является постоянной задачей. Манипуляции с названиями компаний и категориями для повышения ранжирования — распространенная проблема в Local SEO. Описанный статистический подход к выявлению таких нарушений путем сравнения с эталонными данными остается фундаментальным и актуальным в 2025 году.
Важность для SEO
Патент имеет критическое значение для Local SEO (8.5/10). Он описывает конкретный механизм, который Google может использовать для автоматического обнаружения и пессимизации компаний, использующих keyword stuffing или неестественные формулировки в своих названиях, категориях или описаниях. Понимание этого механизма жизненно важно для обеспечения соответствия рекомендациям Google и избежания фильтров при продвижении локального бизнеса.
Детальный разбор
Термины и определения
- Business Entity (Компания / Бизнес-субъект)
- Объект, информация о котором собирается источниками (например, магазин, ресторан).
- Trusted Source (Доверенный источник)
- Источник данных, который, по определению системы, не содержит спама. Используется как эталон «чистых» данных. Может быть определен на основе репутации или вручную.
- Untrusted Source (Недоверенный источник)
- Источник данных, который может содержать спам (например, пользовательский ввод, немодерируемые каталоги). Данные из этого источника подлежат проверке.
- Spam (Спам)
- Информация, которая искажает идентичность или неточно представляет компанию (например, keyword stuffing, субъективные прилагательные).
- Text Item (Текстовый элемент)
- Единица информации, связанная с компанией, например, значение атрибута (название, категория).
- Phrase (Фраза)
- Последовательность слов (n-грамма), извлеченная из текстового элемента.
- Spam Likelihood (Вероятность спама, P(S|phrase))
- Числовая оценка, указывающая на вероятность того, что фраза является спамом.
- Confidence Measure (Мера уверенности / Значимости)
- Метрика, используемая для определения того, является ли фраза «логически связной» (logically coherent). В патенте определяется как частота встречаемости фразы в Trusted Source. Используется для выбора наиболее релевантных фраз при анализе текста.
- P(S) (Probability of Spam in Source)
- Базовая вероятность того, что данные из Untrusted Source являются спамом. Определяется эмпирически.
- Pre-computation System (Система предварительных вычислений)
- Компонент, который в офлайн-режиме анализирует данные из источников и рассчитывает Spam Likelihood для всех фраз.
- Scoring System (Система оценки)
- Компонент, который оценивает новые текстовые элементы, используя предварительно рассчитанные вероятности.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения вероятности спама для фразы и ее использования для оценки нового текста.
- Определить первую частоту встречаемости фразы в текстовых элементах из Trusted Source.
- Определить первое соотношение (Ratio 1): Первая частота / Общее количество элементов из Trusted Source. (Нормализованная частота).
- Определить вторую частоту встречаемости той же фразы в текстовых элементах из Untrusted Source.
- Определить второе соотношение (Ratio 2): Вторая частота / Общее количество элементов из Untrusted Source.
- Определить базовую вероятность того, что элементы из Untrusted Source содержат спам (P(S)).
- Определить вероятность того, что фраза является спамом (P(S|phrase)), основываясь на Ratio 1, Ratio 2 и P(S).
- Определить вероятность того, что новый текстовый элемент, содержащий эту фразу, является спамом, основываясь на P(S|phrase).
Claim 2 (Зависимый от 1): Уточняет, как определяется P(S).
Она рассчитывается как соотношение количества элементов, помеченных как спам (например, вручную) в выборке из Untrusted Source, к общему количеству элементов в этой выборке.
Claim 3 и 4 (Зависимые от 2): Уточняют один из методов пометки элемента как спам.
Если формат данных элемента (например, числовой) несовместим с ожидаемым форматом (например, текстовым), элемент помечается как спам.
Claim 5 (Зависимый от 1): Детализирует процесс оценки нового текстового элемента.
Система выбирает из нового элемента самые длинные фразы (longest phrases), из которых можно составить элемент. Оценка спама базируется на вероятностях этих выбранных фраз.
Claim 6 и 7 (Зависимые от 5): Описывают механизм выбора между фразами одинаковой длины.
Если есть несколько фраз одинаковой длины, выбирается та, у которой наибольшая Confidence Measure. Claim 7 определяет Confidence Measure как частоту встречаемости фразы в Trusted Source.
Где и как применяется
Изобретение применяется в системах обработки данных о компаниях (Local Search, Google Maps) и затрагивает несколько этапов поисковой архитектуры.
CRAWLING – Сканирование и Сбор данных
Система собирает информацию (Text Items) о компаниях из множества источников, которые классифицируются как Trusted и Untrusted.
INDEXING – Индексирование и извлечение признаков
Основная часть работы происходит на этом этапе:
- Офлайн-анализ (Pre-computation): Текстовые элементы разбиваются на n-граммы. Подсчитываются частоты в доверенных и недоверенных корпусах. Вычисляются Confidence Measure и Spam Likelihood для каждой фразы с использованием Байесовского вывода. Результаты сохраняются в базе данных.
- Оценка новых данных (Scoring): При получении нового или обновленного текстового элемента система рассчитывает его итоговую вероятность спама.
RANKING / RERANKING – Ранжирование и Переранжирование
Рассчитанная вероятность спама для атрибута (например, названия компании) используется как сигнал ранжирования. Элементы с высоким показателем спама могут быть понижены (демоутинг) или отфильтрованы (culling) из локальной выдачи.
Входные данные:
- Корпуса текстовых данных из Trusted и Untrusted Sources.
- Эмпирическая оценка базовой вероятности спама (P(S)).
- Новый текстовый элемент для оценки.
Выходные данные:
- База данных фраз с их Spam Likelihood и Confidence Measure.
- Итоговая вероятность спама для нового текстового элемента.
На что влияет
- Конкретные типы контента: В первую очередь влияет на атрибуты компаний в локальном поиске и картах: названия (Titles) и категории (Business Category).
- Специфические запросы: Влияет на локальные запросы (например, «ремонт холодильников Москва»), где манипуляции с названиями компаний распространены для повышения релевантности.
- Конкретные ниши или тематики: Наибольшее влияние в высококонкурентных локальных нишах (услуги, отели, рестораны), где часто встречается спам в листингах.
Когда применяется
- Триггеры активации: Применяется при обработке информации о компаниях, полученной из источников, не классифицированных как полностью доверенные (Untrusted Sources). Это включает пользовательский контент (UGC), данные из сторонних каталогов и данные, предоставленные владельцами бизнеса (например, через Google Business Profile).
- Временные рамки: Расчет вероятностей для фраз (Pre-computation) происходит периодически в офлайн-режиме. Оценка конкретных текстовых элементов (Scoring) происходит при их получении или обновлении.
Пошаговый алгоритм
Алгоритм состоит из двух основных процессов.
Процесс А: Предварительный расчет вероятностей (Офлайн)
- Сбор данных: Получение текстовых элементов из Trusted Source (T) и Untrusted Source (U).
- Токенизация и подсчет частот:
- Разбивка всех элементов на фразы (n-граммы).
- Подсчет частоты каждой фразы в T (Freq_T) и U (Freq_U).
- Подсчет общего количества элементов в T (Count_T) и U (Count_U).
- Расчет Confidence Measure: Для каждой фразы Confidence Measure устанавливается равной Freq_T (или функции от нее).
- Определение базовой вероятности спама (P(S)):
- Выборка элементов из U.
- Эмпирическая (например, ручная) оценка того, какие из них спам.
- P(S) = Количество спама / Размер выборки.
- Расчет Spam Likelihood для фраз: Использование Байесовского вывода для расчета P(S|phrase) на основе нормализованных частот (Freq_T/Count_T, Freq_U/Count_U) и P(S).
- Хранение: Сохранение Spam Likelihood и Confidence Measure для каждой фразы.
Процесс Б: Оценка нового текстового элемента (Онлайн)
- Получение элемента: Получение нового текстового элемента из Untrusted Source.
- Идентификация фраз: Разбивка элемента на все возможные фразы, для которых есть рассчитанные вероятности.
- Выбор ключевых фраз (Оптимизация):
- Выбор самых длинных фраз (longest phrases), из которых состоит элемент.
- Если есть фразы одинаковой длины, выбор той, у которой выше Confidence Measure.
- Извлечение вероятностей: Получение Spam Likelihood (P(S|phrase)) для выбранных ключевых фраз.
- Комбинирование оценок: Расчет итоговой вероятности спама для элемента путем комбинирования вероятностей фраз (например, предполагая условную независимость или используя формулу P(A или B) = X+Y-(X*Y)).
- Применение: Сравнение итоговой вероятности с порогом для классификации элемента как спам или не спам.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе текстовых данных и их источников.
- Контентные факторы: Текст атрибутов компаний (Text Items), таких как названия и категории. Анализируется частота и распределение фраз (n-грамм) в этом тексте.
- Системные данные (Источники): Классификация источника данных как Trusted или Untrusted.
- Эмпирические данные (Обучающая выборка): Ручная разметка выборки данных из Untrusted Source для определения базовой вероятности спама (P(S)).
- Технические факторы (Формат данных): Проверка формата данных (например, текст vs число). Несоответствие формата используется как способ идентификации спама (Claim 3, 4).
Какие метрики используются и как они считаются
- Частота фразы (Frequency of Occurrence): Количество раз, когда фраза появляется в корпусе данных (отдельно для Trusted и Untrusted).
- Соотношение частоты (Ratio / Нормализованная частота): Частота фразы / Общее количество текстовых элементов в корпусе. Это аппроксимация P(phrase|Source).
- P(S) (Базовая вероятность спама): Эмпирически определенная вероятность того, что случайный элемент из Untrusted Source является спамом.
- Spam Likelihood (P(S|phrase)): Вероятность того, что источник содержит спам, при условии наличия данной фразы. Рассчитывается с использованием теоремы Байеса (Eqn. 1 в патенте).
- Confidence Measure: Метрика значимости фразы. Определяется как частота встречаемости фразы в Trusted Source.
- Методы анализа текста: Используется N-граммный анализ (n-gram analysis) для разбивки текста на фразы.
- Статистические методы: Применяется Байесовский вывод (Bayesian probability) для расчета вероятностей.
Выводы
- Статистический подход к определению спама: Google использует вероятностные модели для выявления неестественного использования языка. Система сравнивает распределение фраз в проверяемых данных с эталонным «чистым» набором данных (Trusted Source).
- Важность эталонных данных (Trusted Sources): Качество работы системы напрямую зависит от качества и объема доверенных источников. Они формируют представление системы о том, как выглядит естественное, неспамное описание бизнеса.
- Механизм выбора значимых фраз (Confidence Measure): При анализе текста система предпочитает более длинные фразы (longest phrases). Если длина одинакова, предпочтение отдается фразам, которые чаще встречаются в доверенных источниках (высокий Confidence Measure). Это позволяет фокусироваться на наиболее содержательных и естественных конструкциях.
- Прямая борьба с Keyword Stuffing: Механизм напрямую направлен против включения неестественных комбинаций ключевых слов в названия или категории компаний. Фразы, характерные для спама, будут иметь высокую Spam Likelihood, если они редко встречаются в доверенных источниках.
- Необходимость калибровки: Система требует эмпирической (часто ручной) оценки базового уровня спама (P(S)) для калибровки вероятностной модели под конкретный недоверенный источник.
Практика
Best practices (это мы делаем)
Рекомендации касаются в первую очередь Local SEO и работы с Google Business Profile (GBP) и каталогами.
- Используйте реальное название компании: В поле «Название» указывайте только юридическое название или название бренда, под которым компания известна клиентам. Избегайте добавления городов, услуг или маркетинговых слоганов. Ваш листинг должен соответствовать паттернам Trusted Sources.
- Придерживайтесь естественного языка: Формулируйте описания и выбирайте категории так, как это делают авторитетные, не склонные к спаму источники. Избегайте неестественного повторения ключевых слов.
- Следите за корректностью формата данных: Убедитесь, что в поля, предназначенные для чисел (телефон, индекс), не попадает текст. Несоответствие формата является сильным сигналом спама (Claim 3, 4).
- Анализируйте авторитетные источники: Изучайте, как компании описаны в крупных, доверенных каталогах или официальных реестрах. Это поможет понять, какие фразы имеют высокий Confidence Measure и низкий Spam Likelihood.
Worst practices (это делать не надо)
- Keyword Stuffing в названии компании: Добавление ключевых слов в название (например, «Иванов Ремонт Квартир Москва Дешево») является основной целью этого патента. Система статистически выявит, что такие фразы редко встречаются в доверенных источниках, и присвоит им высокую Spam Likelihood.
- Использование субъективных и маркетинговых прилагательных: Слова типа «лучший», «дешевый», «скидки», «акция» в названиях или категориях повышают вероятность классификации элемента как спам.
- Манипуляции с категориями: Выбор слишком большого количества категорий или попытка создать неестественные формулировки категорий для охвата ключевых слов.
- Манипуляция данными через UGC: Поскольку пользовательский ввод (например, предложение изменений в Google Maps) рассматривается как Untrusted Source, массовые попытки изменить данные компании на спамные будут автоматически обнаружены этой системой.
Стратегическое значение
Патент подтверждает, что Google использует сложные статистические методы для поддержания качества данных в локальном поиске. Он демонстрирует механизм, который позволяет автоматически выявлять манипуляции без необходимости ручной модерации каждого случая. Для SEO-специалистов это подчеркивает важность соблюдения правил Google Business Profile и использования естественных, неоптимизированных формулировок. Стратегии, основанные на насыщении текста ключевыми словами, становятся неэффективными против таких вероятностных моделей.
Практические примеры
Сценарий: Оценка названия компании в Local SEO
- Ситуация: SEO-специалист хочет оптимизировать название отеля в Google Business Profile.
- Неправильное действие (Спам): Изменение названия с «Отель Ромашка» на «Отель Ромашка — Лучший Дешевый Отель в Сочи с Бассейном».
- Анализ системой (Процесс Б):
- Система получает новое название (Text Item) из Untrusted Source (заявка владельца).
- Она анализирует фразы типа «Лучший Дешевый Отель», «Отель в Сочи».
- Оценка вероятности: Система проверяет Spam Likelihood для этих фраз. Так как в Trusted Sources (например, официальных реестрах отелей) такие фразы редко встречаются в названиях, их Spam Likelihood будет высоким, а Confidence Measure — низким.
- Результат: Система комбинирует вероятности и классифицирует новое название как спам. Изменение может быть отклонено автоматически, или листинг может быть пессимизирован в ранжировании.
- Правильное действие: Использовать название «Отель Ромашка». Указать релевантные категории (Отель, Бассейн). Это соответствует паттернам Trusted Sources.
Вопросы и ответы
Что такое «Trusted Source» и «Untrusted Source» в контексте этого патента?
Trusted Source — это источник данных, который система считает эталоном качества, заведомо не содержащим спама (например, официальные государственные реестры или авторитетные каталоги с жесткой модерацией). Untrusted Source — это любой другой источник, данные из которого могут содержать спам (например, пользовательский ввод в Google Maps, мелкие каталоги). Система учится выявлять спам, сравнивая паттерны использования языка между этими двумя типами источников.
Как система определяет, является ли конкретная фраза спамом?
Система использует статистический подход (Байесовский вывод). Она сравнивает, насколько часто фраза встречается в недоверенных источниках по сравнению с доверенными. Если фраза (например, «купить дешево Москва») встречается значительно чаще в недоверенных данных, и при этом редко встречается в эталонных доверенных данных, система присваивает этой фразе высокую вероятность спама (Spam Likelihood).
Что такое «Confidence Measure» и как она используется?
Confidence Measure (Мера уверенности/Значимости) показывает, насколько фраза является естественной или значимой. Она рассчитывается как частота встречаемости этой фразы в Trusted Sources. При анализе текста система использует эту метрику для выбора между фразами одинаковой длины, предпочитая те, которые чаще встречаются в эталонных данных. Это помогает системе фокусироваться на осмысленных и распространенных формулировках.
Как система решает, какие фразы анализировать в тексте?
Патент описывает четкий алгоритм (Claim 5, 6). Сначала система ищет самые длинные фразы (longest phrases), из которых можно составить текст и для которых у нее есть рассчитанные вероятности. Если есть несколько фраз одинаковой максимальной длины, она выбирает ту, у которой выше Confidence Measure.
Насколько важен этот патент для Local SEO и Google Business Profile?
Он критически важен. Патент напрямую описывает механизм борьбы с распространенными манипуляциями в Local SEO, такими как keyword stuffing в названиях компаний и категориях. Понимание этого механизма объясняет, почему добавление ключевых слов в название часто приводит к пессимизации или блокировке профиля, и подчеркивает необходимость использования реальных, естественных названий.
Упоминает ли патент ручную модерацию?
Да, но только для калибровки системы. Ручная модерация (или эмпирическая оценка) используется для определения базовой вероятности спама (P(S)) в недоверенном источнике. Однако основная работа по обнаружению спама в потоке новых данных выполняется автоматически системой оценки (Scoring System).
Влияет ли этот патент только на текст?
В основном да, но в патенте также упоминается (Claim 3, 4) использование несоответствия формата данных как сигнала спама. Например, если в поле, предназначенном для номера телефона (числовой формат), обнаружен текст (текстовый формат), это автоматически классифицируется как спам. Это важно учитывать при заполнении профилей и создании микроразметки.
Как SEO-специалисту использовать знание этого патента на практике?
Ключевой вывод — избегать любых формулировок, которые выглядят неестественно или переоптимизированно. В названиях компаний, категориях и описаниях следует использовать только реальные данные и естественный язык. Не пытайтесь «скормить» алгоритму ключевые слова там, где их не должно быть, так как статистическая модель легко обнаружит это отклонение от нормы.
Может ли этот механизм применяться для анализа отзывов или другого UGC?
Хотя патент фокусируется на атрибутах компаний (названия, категории), описанный метод является универсальным. Он может применяться для анализа любого контента, где можно выделить доверенные и недоверенные источники. Например, его можно использовать для сравнения языка в подтвержденных отзывах с языком в подозрительных отзывах для выявления накруток или фейков.
Может ли система со временем начать считать Untrusted Source доверенным?
Да, патент упоминает такую возможность. Если система определяет, что вероятность спама в текстовых элементах, полученных из Untrusted Source, падает ниже определенного порога, она может впоследствии обозначить этот источник как Trusted Source. Это стимулирует источники улучшать качество своих данных.