SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google борется со спамом в бизнес-профилях (Local SEO), используя контекстуальный анализ и калибровку оценок спама

DETECTION OF SPAM USING CONTEXTUAL ANALYSIS OF DATA SOURCES (Обнаружение спама с использованием контекстуального анализа источников данных)
  • US8738557B1
  • Google LLC
  • 2011-07-26
  • 2014-05-27
  • Антиспам
  • Local SEO
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для обнаружения спамных бизнес-листингов (Local SEO), сравнивая данные из доверенных и ненадежных источников в рамках конкретных бизнес-контекстов (например, «сантехники» против «юристов»). Система выявляет характеристики, статистически связанные со спамом в данной нише, генерирует оценку спама и калибрует её в вероятность с помощью логистической регрессии для точной фильтрации.

Описание

Какую проблему решает

Патент решает проблему обнаружения и фильтрации спамных бизнес-листингов (spam listings) — записей, которые манипулируют системой для привлечения трафика (например, указание ложного адреса или переспам ключевыми словами в названии). Проблема усложняется тем, что индикаторы спама сильно зависят от Context (ниши): то, что является спамом для ресторана, может быть нормой для юридической фирмы. Изобретение направлено на повышение точности обнаружения спама путем учета этого контекста и калибровки оценок.

Что запатентовано

Запатентована система для контекстно-зависимого обнаружения спама в бизнес-листингах. Суть изобретения включает два ключевых механизма. Во-первых, это метод выявления индикаторов спама путем сравнения частоты характеристик в Trusted Sources (например, официальные справочники) и Untrusted Sources (например, пользовательский контент) в рамках определенного Context. Во-вторых, это метод калибровки необработанных оценок спама (Spam Scores) в точные вероятности (0-1) с использованием статистических методов (логистическая регрессия) и определения оптимальных порогов отсечения для каждой ниши.

Как это работает

Система работает в несколько этапов:

  • Контекстуальный анализ: Листинги группируются по контекстам (например, тип бизнеса).
  • Сравнение источников: Анализируется частота характеристик (например, длина заголовка, ключевые слова) в доверенных и ненадежных источниках для данного контекста.
  • Выявление дифференциальных характеристик: Характеристики, которые значительно чаще встречаются в ненадежных источниках, помечаются как индикаторы спама (Differential Characteristics).
  • Оценка спама: Для нового листинга вычисляется Spam Score на основе присутствия этих индикаторов.
  • Калибровка: Необработанный Spam Score преобразуется в вероятность (0-1) с помощью заранее рассчитанной калибровочной кривой (сигмоидной функции) для данного контекста.
  • Применение порога: Вероятность сравнивается с контекстно-зависимым порогом (Cutoff Threshold), оптимизированным по точности (Precision) и полноте (Recall), для классификации листинга как спама.

Актуальность для SEO

Высокая. Борьба со спамом, фейковыми профилями и манипуляциями в Google Maps и Local Search остается критически важной задачей. Описанные методы контекстуального анализа и статистической калибровки являются фундаментальными для современных систем машинного обучения, используемых для поддержания качества локальной выдачи.

Важность для SEO

Патент имеет высокое значение для специалистов по локальному SEO (Local SEO). Он раскрывает механизмы, с помощью которых Google выявляет манипуляции с бизнес-профилями, такие как Keyword Stuffing в названии (titlescore, lengthfactor) или использование подозрительных номеров (phonepenalty). Понимание контекстно-зависимой природы этих сигналов критично для оптимизации профилей без риска попасть под фильтры.

Детальный разбор

Термины и определения

Business Listing (Бизнес-листинг)
Запись, содержащая информацию о бизнесе (название, адрес, телефон, URL, описание). В контексте SEO это относится к Google Business Profile и данным локального поиска.
Calibration (Калибровка)
Процесс преобразования необработанного Spam Score в интерпретируемую вероятность (от 0 до 1) с помощью математической функции.
Context (Контекст)
Набор бизнес-листингов, имеющих общие характеристики. Обычно определяется типом бизнеса или нишей (например, «флористы», «отели», «сантехники»).
Cutoff Threshold (Порог отсечения)
Значение вероятности спама, выше которого листинг классифицируется как спам. Этот порог оптимизируется для каждого контекста.
Differential Characteristics (Дифференциальные характеристики)
Характеристики листинга (например, термины, длина заголовка), частота которых статистически значимо различается между Trusted Sources и Untrusted Sources в рамках определенного контекста. Являются индикаторами спама.
F-score (F-мера)
Метрика для оценки качества классификатора, рассчитываемая как гармоническое среднее между точностью (Precision) и полнотой (Recall). Используется для определения оптимального Cutoff Threshold.
Precision (Точность)
Доля листингов, классифицированных как спам, которые действительно являются спамом (минимизация ложных срабатываний).
Recall (Полнота)
Доля всех спамных листингов, которые были успешно обнаружены классификатором (минимизация пропусков спама).
Sigmoid Function (Сигмоидная функция)
S-образная математическая кривая (логистическая функция), используемая для калибровки Spam Score в вероятность. Обеспечивает значения от 0 до 1.
Spam Score (Оценка спама)
Необработанное числовое значение, генерируемое классификатором, которое указывает на подозрительность листинга. Требует калибровки.
Trusted Source (Доверенный источник)
Источник данных, который с высокой вероятностью содержит легитимные листинги и не подвержен спаму (например, официальные бизнес-справочники, лицензионные базы).
Untrusted Source (Ненадежный источник)
Источник данных, который легко подвержен спаму (например, веб-формы без верификации, немодерируемый пользовательский контент).

Ключевые утверждения (Анализ Claims)

Патент содержит утверждения, касающиеся как общего метода контекстуального анализа (описанного в Abstract и Description), так и специфического метода калибровки оценок спама (детализированного в Claims 1-20).

Claim 1 (Независимый пункт): Описывает метод калибровки вероятности спама.

  1. Система определяет Spam Score для набора бизнес-листингов (обучающая выборка).
  2. Листинги распределяются по «корзинам» (Buckets) на основе их Spam Score.
  3. Для каждой корзины вычисляется средний Spam Score.
  4. Для каждой корзины определяется фактическое соотношение спамных и легитимных листингов.
  5. Определяется функция замкнутого вида (Closed-form Function), которая отображает средний Spam Score (ось X) на фактическое соотношение спама (ось Y).
  6. Эта функция используется для определения вероятности спама для любого нового листинга путем отображения его Spam Score.

Это процесс калибровки классификатора, позволяющий преобразовать произвольные оценки в интерпретируемую вероятность от 0 до 1.

Claim 2 (Зависимый от 1): Уточняет, что Closed-form Function выбирается из семейства сигмоидных кривых (логистическая функция):

σa,b(x)=11+e−a(x−b)\sigma_{a,b}(x) = \frac{1}{1+e^{-a(x-b)}}

Claim 3 (Зависимый от 2): Описывает метод подбора параметров 'a' и 'b' для сигмоидной функции. Используется метод минимизации ошибки (например, метод наименьших квадратов), чтобы найти параметры, при которых функция наилучшим образом соответствует данным из корзин:

f(a,b)=∑(x,y)(σa,b(x)−y)2f(a,b) = \sum_{(x,y)}(\sigma_{a,b}(x)-y)^2

Claim 6 (Зависимый от 1): Предоставляет пример формулы для расчета исходного Spam Score (который используется на входе Claim 1):

Spam Score = titlescore * lengthfactor + phonepenalty + specialpenalties

Где:

  • titlescore: оценка на основе частоты подозрительных терминов в заголовке.
  • lengthfactor: штраф за длину заголовка.
  • phonepenalty: штраф за наличие определенного (подозрительного) номера телефона.
  • specialpenalties: штрафы за наличие определенных ключевых слов.

Этот пункт демонстрирует конкретные факторы, используемые для обнаружения спама в Local SEO, такие как переоптимизация названия и подозрительные контактные данные.

Где и как применяется

Изобретение применяется в инфраструктуре локального поиска (Google Maps/Local) для обеспечения качества данных.

CRAWLING – Сканирование и Сбор данных
Система собирает данные из различных источников, классифицируя их как Trusted Sources и Untrusted Sources. Это включает сканирование веб-справочников и прием данных от пользователей (например, через Google Business Profile).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Значительная часть работы происходит в офлайн-процессах, связанных с индексированием:

  1. Извлечение признаков и Контекстуализация: Из листингов извлекаются характеристики (термины, длина заголовка, телефон), и определяется их контекст (ниша).
  2. Анализ и Моделирование (Офлайн): Система анализирует частоту характеристик в разных источниках для выявления Differential Characteristics. Происходит калибровка Spam Score и определение оптимальных Cutoff Thresholds для каждого контекста.
  3. Применение Модели (Индексация): При обработке листинга вычисляется его Spam Score, калибруется в вероятность, и принимается решение о классификации (спам/не спам).

RANKING / RERANKING – Ранжирование / Переранжирование
Во время ранжирования локальных результатов (Local Pack, Google Maps) вероятность спама используется как сильный сигнал для понижения или исключения листингов из выдачи.

Входные данные:

  • Бизнес-листинги из Trusted и Untrusted источников.
  • Классификация источников (уровень доверия).
  • Контекст листингов (тип бизнеса).
  • Обучающая выборка с известной истиной (спам/не спам) для калибровки.

Выходные данные:

  • Набор Differential Characteristics (индикаторы спама) для каждого контекста.
  • Калибровочные функции и оптимальные Cutoff Thresholds для каждого контекста.
  • Финальная классификация листинга (спам/не спам) и вероятность спама.

На что влияет

  • Конкретные типы контента: Влияет исключительно на бизнес-листинги (Local SEO, Google Maps, Local Pack). Не влияет на стандартное веб-ранжирование.
  • Специфические запросы: Наибольшее влияние на локальные запросы (например, «сантехник рядом», «ресторан Москва»).
  • Конкретные ниши или тематики: Влияние сильно зависит от ниши. Патент подчеркивает, что анализ проводится контекстно-зависимо. Наибольшее влияние оказывается на ниши, подверженные спаму (услуги на дому, юридические услуги и т.д.). Например, использование «AAA» в названии может быть спамом для слесаря, но не для автомобильного клуба.

Когда применяется

  • Условия работы алгоритма: Алгоритм применяется при обработке и ранжировании бизнес-листингов.
  • Временные рамки: Выявление характеристик, калибровка и определение порогов выполняются офлайн (периодически). Применение моделей для классификации листингов происходит во время индексации (при добавлении/обновлении листинга) или в реальном времени при ранжировании.

Пошаговый алгоритм

Процесс состоит из офлайн-построения модели и онлайн-применения.

Процесс А: Офлайн — Идентификация подозрительных характеристик

  1. Выбор контекста: Определяется ниша для анализа (например, «Отели»).
  2. Сбор и анализ Trusted Data: Идентифицируются листинги в этом контексте из Trusted Source и рассчитывается частота характеристик (термины, длина заголовка и т.д.).
  3. Сбор и анализ Untrusted Data: Идентифицируются листинги в этом же контексте из Untrusted Source и рассчитывается частота характеристик.
  4. Расчет дифференциалов: Определяются разницы в частотах (с учетом нормализации) между ненадежным и доверенным наборами.
  5. Идентификация индикаторов: Характеристики, чья разница превышает статистический порог (например, определенное число стандартных отклонений), идентифицируются как Differential Characteristics (индикаторы спама) для данного контекста.

Процесс Б: Офлайн — Калибровка Spam Score в Вероятность

  1. Расчет Spam Score: Для обучающей выборки листингов в контексте рассчитывается Spam Score (например, по формуле из Claim 6).
  2. Разделение на корзины: Пространство оценок делится на интервалы (Buckets).
  3. Анализ корзин: Определяется средний Spam Score и фактическая доля спама для каждой корзины (используя Ground Truth).
  4. Подбор функции (Логистическая регрессия): Идентифицируется сигмоидная функция, которая наилучшим образом отображает средний балл на долю спама (используя метод минимизации ошибки).
  5. Сохранение функции: Функция сохраняется как калибровочная модель для данного контекста.

Процесс В: Офлайн — Определение порога отсечения

  1. Ранжирование выборки: Листинги в обучающей выборке ранжируются по Spam Score.
  2. Определение возможных порогов: Идентифицируются возможные Cutoff Thresholds.
  3. Расчет Precision и Recall: Для каждого возможного порога вычисляются точность (Precision) и полнота (Recall).
  4. Определение оптимального порога: Выбирается порог, который максимизирует F-меру (F-score): F=Precision×RecallPrecision+RecallF = \frac{Precision \times Recall}{Precision + Recall}.

Процесс Г: Онлайн/Индексация — Классификация листинга

  1. Идентификация контекста: Определяется контекст бизнес-листинга.
  2. Расчет Spam Score: Листинг оценивается с использованием контекстно-зависимых Differential Characteristics (Процесс А), и определяется Spam Score.
  3. Калибровка вероятности: Spam Score преобразуется в вероятность с использованием контекстной калибровочной функции (Процесс Б).
  4. Сравнение с порогом: Вероятность сравнивается с контекстным Cutoff Threshold (Процесс В).
  5. Классификация: Если вероятность выше порога, листинг идентифицируется как спам.

Какие данные и как использует

Данные на входе

Патент фокусируется на данных, специфичных для бизнес-листингов (Local SEO).

  • Контентные факторы:
    • Название (Title): Критически важный фактор. Анализируется на наличие подозрительных терминов (titlescore), специальных ключевых слов (specialpenalties) и общую длину (lengthfactor).
    • Описание (Description): Упоминается как часть листинга.
  • Контактные и Географические факторы:
    • Номер телефона: Анализируется на наличие известных спамных номеров (phonepenalty).
    • Адрес (Address): Упоминается как характеристика для анализа.
  • Технические факторы:
    • URL: Упоминается как часть листинга.
  • Системные данные:
    • Источник данных: Классификация источника как Trusted или Untrusted.
    • Тип бизнеса (Context): Категория бизнеса, используемая для сегментации анализа.

Какие метрики используются и как они считаются

  • Frequency Differential (Разница частот): Статистическая разница в частоте появления характеристики между Untrusted и Trusted источниками.
  • Spam Score: Необработанная оценка спама. Пример расчета (Claim 6): titlescore * lengthfactor + phonepenalty + specialpenalties.
  • Precision (Точность) и Recall (Полнота): Стандартные метрики машинного обучения для оценки эффективности классификатора.
  • F-score (F-мера): Агрегированная метрика качества, используемая для выбора оптимального Cutoff Threshold.
  • Вероятность спама: Калиброванная оценка (от 0 до 1). Рассчитывается с помощью сигмоидной функции (логистическая регрессия): σa,b(x)=11+e−a(x−b)\sigma_{a,b}(x) = \frac{1}{1+e^{-a(x-b)}}.
  • Методы анализа: Используются статистический анализ частот, логистическая регрессия (для калибровки) и оптимизация функций (метод наименьших квадратов для подбора параметров кривой).

Выводы

  1. Контекст критичен в борьбе со спамом (Local SEO): Ключевой вывод — индикаторы спама не универсальны. Google анализирует тактики спама отдельно для каждой ниши (Context). То, что считается переоптимизацией для одной категории бизнеса, может быть приемлемым для другой.
  2. Сравнение с эталоном (Trusted vs. Untrusted): Google активно использует сравнение данных из источников с разным уровнем доверия для выявления аномалий. Trusted Sources служат эталоном легитимности. Аномально высокая частота определенных характеристик в Untrusted Sources является сильным сигналом спама.
  3. Фокус на конкретных признаках локального спама: Патент явно указывает на факторы, которые анализируются для расчета Spam Score: переоптимизация названия (Keyword Stuffing), длина названия, использование подозрительных номеров телефонов и специфических ключевых слов.
  4. Систематическая калибровка оценок (Машинное обучение): Google не полагается на необработанные оценки. Система использует строгие статистические методы (логистическую регрессию) для калибровки оценок в вероятности. Это позволяет сравнивать разные сигналы и устанавливать точные пороги.
  5. Оптимизация порогов для минимизации ошибок: Пороги для фильтрации спама (Cutoff Thresholds) также зависят от контекста и оптимизируются с использованием F-меры, чтобы сбалансировать обнаружение максимального количества спама (Recall) и минимизацию ложных срабатываний на легитимных бизнесах (Precision).

Практика

Best practices (это мы делаем)

Рекомендации касаются исключительно Local SEO и работы с Google Business Profile (GBP).

  • Соблюдение правил именования GBP: Название в профиле должно соответствовать реальному названию бизнеса. Патент явно указывает, что длина названия (lengthfactor) и наличие подозрительных терминов (titlescore) являются ключевыми факторами для расчета Spam Score.
  • Анализ конкурентов в контексте ниши: Изучайте, как именуют себя и какие данные предоставляют авторитетные лидеры (аналог Trusted Sources) именно в вашей нише. Следование этим паттернам поможет избежать классификации как спама, так как ваш листинг не будет содержать Differential Characteristics.
  • Использование чистых контактных данных: Убедитесь, что используемые номера телефонов и адреса не связаны со спам-активностью. Фактор phonepenalty указывает на то, что Google отслеживает подозрительные номера.
  • Поддержание консистентности данных (NAP): Поскольку система опирается на Trusted Sources (например, крупные каталоги) для установления эталона, важно обеспечить точность и консистентность ваших данных (Name, Address, Phone) в этих источниках.

Worst practices (это делать не надо)

  • Keyword Stuffing в названии бизнеса: Добавление ключевых слов, геолокаций или услуг в название GBP (например, «Лучшая Пицца Доставка Москва 24/7» вместо «Пиццерия Ромашка»). Это основная цель факторов titlescore и specialpenalties.
  • Создание фейковых листингов и виртуальных офисов: Система направлена на выявление листингов, которые пытаются манипулировать локацией. Использование адресов, не соответствующих реальному местоположению бизнеса, повышает риск пессимизации.
  • Использование общих или подозрительных номеров телефонов: Использование номеров (например, для коллтрекинга), которые ранее были замечены в спамных листингах или используются множеством других бизнесов, может привести к активации phonepenalty.
  • Игнорирование специфики ниши: Применение агрессивных тактик оптимизации без учета контекста вашей бизнес-категории. Система Google оценивает листинги относительно стандартов конкретной ниши.

Стратегическое значение

Патент подтверждает, что борьба со спамом в локальном поиске является сложной задачей машинного обучения, требующей тонкой настройки под каждую нишу. Для SEO-специалистов это означает, что легитимность, достоверность данных и соблюдение правил Google Business Profile являются основой долгосрочной стратегии в Local SEO. Манипулятивные тактики выявляются статистически и контекстуально, что делает их использование крайне рискованным.

Практические примеры

Сценарий 1: Контекстно-зависимая оценка длины названия

  1. Анализ контекста (Ресторан): Система анализирует Trusted Sources и видит, что средняя длина названия короткая (1-3 слова). В Untrusted Sources много длинных названий с ключевыми словами. Длинные названия помечаются как Differential Characteristic для спама.
  2. Анализ контекста (Юридическая фирма): Система видит, что даже в Trusted Sources названия часто длинные из-за перечисления партнеров (например, «Иванов, Петров, Сидоров и Партнеры»). Длина названия НЕ помечается как сильный индикатор спама в этом контексте.
  3. Действие SEO-специалиста:
    • Для ресторана: Использовать короткое название («Ресторан Аврора»).
    • Для юрфирмы: Можно использовать полное официальное название с перечислением партнеров.
  4. Результат: Оба листинга соответствуют нормам своего контекста и не получают штрафов за длину названия (lengthfactor), так как калибровка и пороги для этих ниш различны.

Сценарий 2: Борьба с Keyword Stuffing в нише экстренных услуг (Слесари)

  1. Анализ контекста: Google определяет, что в нише «Слесари» (Locksmiths) в Untrusted Sources аномально часто встречаются названия, начинающиеся с «ААА» или содержащие слово «Срочно».
  2. Идентификация индикатора: Термины «ААА» и «Срочно» помечаются как Differential Characteristic (спам) для этого контекста.
  3. Расчет Spam Score: Листинг «ААА Срочный Слесарь» получает высокий Spam Score за счет specialpenalties и titlescore.
  4. Действие SEO-специалиста: Избегать подобных тактик и использовать реальное название бренда («Мастер Ключей»).
  5. Результат: Листинг «Мастер Ключей» ранжируется выше спамных вариантов, так как его вероятность спама ниже Cutoff Threshold для данной ниши.

Вопросы и ответы

Что такое «Контекст» в этом патенте и почему он важен для Local SEO?

Контекст — это, как правило, тип бизнеса или ниша (например, «сантехники», «отели», «юристы»). Он критически важен, потому что патент показывает: Google не использует универсальные правила для обнаружения спама. Индикаторы спама выявляются и калибруются отдельно для каждого контекста, так как то, что является спамом в одной нише (например, очень длинное название для ресторана), может быть нормой в другой (например, для юридической фирмы).

Как Google определяет, какие источники являются доверенными (Trusted), а какие нет (Untrusted)?

Патент не детализирует метод классификации, но упоминает, что это может основываться на репутации источника, предыдущих взаимодействиях или ручной настройке. На практике доверенными источниками могут быть официальные государственные реестры, крупные авторитетные каталоги (например, Yellow Pages), а ненадежными — источники, которые легко спамить, например, пользовательский контент без строгой модерации или веб-формы без верификации.

На какие конкретные части бизнес-профиля (GBP) обращает внимание этот алгоритм?

Согласно примеру формулы Spam Score в Claim 6, алгоритм анализирует название бизнеса (на предмет подозрительных терминов и длины), номер телефона (на предмет связи с известным спамом) и наличие специальных ключевых слов. Также упоминаются адрес, URL и описание как части листинга, которые могут анализироваться.

Означает ли этот патент, что Keyword Stuffing в названии GBP всегда приведет к пессимизации?

Да, это один из основных рисков. Использование ключевых слов, не являющихся частью реального названия бизнеса, увеличивает titlescore и Spam Score. Если итоговая вероятность спама превысит порог отсечения (Cutoff Threshold) для вашей ниши, листинг будет пессимизирован или заблокирован. Риск особенно высок, если эта тактика статистически не характерна для авторитетных бизнесов в вашем контексте.

Что такое калибровка Spam Score и зачем она нужна?

Калибровка — это процесс преобразования необработанной оценки спама (которая может быть любым числом и различаться по диапазону в разных нишах) в стандартизированную вероятность от 0 до 1 с помощью сигмоидной функции. Это необходимо, чтобы сделать оценки интерпретируемыми и сравнимыми между разными контекстами, а также для установки точных порогов фильтрации.

Как Google определяет порог, после которого листинг считается спамом?

Порог (Cutoff Threshold) определяется для каждого контекста отдельно путем анализа точности (Precision) и полноты (Recall). Google выбирает порог, который максимизирует F-меру — баланс между обнаружением как можно большего количества спама и минимизацией ложных срабатываний на легитимных бизнесах.

Мой легитимный бизнес был заблокирован как спам. Что делать в контексте этого патента?

Необходимо проанализировать ваш листинг на предмет наличия Differential Characteristics, которые могут быть интерпретированы как спам в вашем контексте. Проверьте название на соответствие реальному бренду (уберите ключевые слова), убедитесь в чистоте номера телефона и адреса. При подаче апелляции предоставьте доказательства легитимности бизнеса (фотографии вывески, документы), чтобы подтвердить, что вы соответствуете критериям Trusted Source.

Влияет ли этот патент на ранжирование обычных веб-страниц?

Нет, этот патент специфичен для бизнес-листингов (Business Listings) и направлен на борьбу со спамом в локальном поиске (Google Maps, Local Pack). Он не описывает механизмы ранжирования стандартной органической выдачи.

Что важнее для этого алгоритма: источник данных или содержание листинга?

Оба компонента критичны. Источник данных (Trusted vs Untrusted) используется на этапе офлайн-обучения для выявления индикаторов спама (Differential Characteristics). Содержание листинга (его характеристики) используется на этапе онлайн-оценки для расчета Spam Score и классификации конкретного листинга. Система учится на источниках, чтобы оценивать содержание.

Использует ли Google машинное обучение для определения Spam Score?

Да. Весь описанный процесс — от выявления контекстно-зависимых характеристик до калибровки с помощью логистической регрессии (Logistic Regression) и оптимизации порогов с помощью F-меры — является стандартным пайплайном машинного обучения для задач классификации. Это позволяет системе автоматически адаптироваться к данным.

Похожие патенты

Как Google использует отзывы пользователей для обнаружения спама и фейковых компаний в локальном поиске (Google Maps)
Google анализирует текст отзывов о компаниях для выявления спама в бизнес-листингах. Система ищет стоп-слова (например, "фейк", "не существует"), выявляет нерелевантные термины для категории бизнеса и сравнивает отзывы с базой известного спама. При превышении порога подозрительных сигналов листинг помечается как спам.
  • US8621623B1
  • 2013-12-31
  • Антиспам

  • Local SEO

  • EEAT и качество

Как Google добавляет случайный шум к оценкам спама в бизнес-листингах (Local SEO), чтобы помешать обратному инжинирингу фильтров
Google использует механизм для защиты своих алгоритмов обнаружения спама в бизнес-листингах (Local SEO). Чтобы спамеры не могли определить точные пороги фильтров путем тестирования, система добавляет контролируемый случайный шум к рассчитанной оценке спамности (Spam Score). Это делает применение санкций (удаление или понижение) недетерминированным и затрудняет обратный инжиниринг.
  • US8612436B1
  • 2013-12-17
  • Антиспам

  • Local SEO

Как Google использует закон Ципфа для выявления спама и манипуляций с названиями в локальных листингах
Google анализирует все известные названия (Titles), связанные с локальным бизнесом. Система сравнивает распределение частотности слов в этих названиях с двумя моделями: равномерным распределением (характерно для легитимных данных из разных источников) и распределением по закону Ципфа (характерно для маркетинговых текстов и спама). Если распределение ближе к закону Ципфа, листинг помечается как потенциальный спам и понижается в локальной выдаче.
  • US9483566B2
  • 2016-11-01
  • Антиспам

  • Local SEO

Как Google выявляет спам в Локальном Поиске, анализируя частоту изменений в листингах и коммерческую ценность ключевых слов
Google использует систему для выявления спама в локальной выдаче (например, на Картах). Система анализирует, насколько часто определенные термины появляются в обновлениях бизнес-листингов (Flux) и какова их потенциальная коммерческая ценность (Monetary Value). Если высокодоходные термины часто изменяются или добавляются, система помечает эти термины и использующие их листинги как потенциальный спам и понижает их в ранжировании.
  • US20150154612A1
  • 2015-06-04
  • Антиспам

  • Local SEO

Как Google использует «Оценку Неожиданности» (Surprisingness Value) для выявления и фильтрации переспама в названиях компаний в локальном поиске
Google использует статистический анализ для борьбы со спамом в названиях компаний (например, в Google Maps). Система анализирует корпус легитимных названий, чтобы понять естественные комбинации слов. Затем для проверяемого названия вычисляется «Оценка Неожиданности» (Surprisingness Value). Если сочетание слов слишком маловероятно (например, «Ресторан Слесарь»), листинг помечается как спам и исключается из выдачи.
  • US8473491B1
  • 2013-06-25
  • Антиспам

  • Local SEO

Популярные патенты

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента
Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.
  • US7788245B1
  • 2010-08-31
  • Ссылки

  • SERP

  • Семантика и интент

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"
Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.
  • US8244749B1
  • 2012-08-14
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко
Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.
  • US8521725B1
  • 2013-08-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

seohardcore