Как Google тестирует и проверяет работоспособность своих антиспам-алгоритмов

METHOD AND SYSTEM FOR TESTING SPAM RESULT DETECTION ALGORITHMS (Метод и система для тестирования алгоритмов обнаружения спам-результатов)

US20150154301A1
Google LLC
2011-04-25
2015-06-04

Антиспам

Google использует внутреннюю систему для проверки своих антиспам-алгоритмов. Система хранит базу "запросов высокого риска" (тех, что ранее приводили к спаму) и периодически отправляет их в поиск. Если спам проходит через фильтры, соответствующий алгоритм помечается как неисправный.

Какую проблему решает

Патент решает проблему поддержания эффективности и надежности алгоритмов фильтрации спама с течением времени. Он обеспечивает механизм для постоянной верификации того, что фильтры, которые ранее успешно блокировали определенные виды спама, продолжают это делать. Это устраняет риск деградации антиспам-систем или случайного отключения фильтров при обновлении поисковой инфраструктуры (предотвращение регрессий).

Что запатентовано

Запатентована система внутреннего тестирования и аудита антиспам-алгоритмов. Система создает и поддерживает базу данных High Risk Queries (запросов, которые, как известно, генерируют спам) и использует их для проверки эффективности действующих Spam Filtering Algorithms. Это инфраструктурный механизм для обеспечения качества (Quality Assurance) работы антиспам-компонентов поиска.

Как это работает

Система работает в два этапа:

Накопление данных: Когда Spam Filtering Algorithm обнаруживает и фильтрует спам в результатах поиска, исходный запрос сохраняется как High Risk Query и связывается с этим конкретным алгоритмом в базе данных.
Тестирование и Верификация: Система (Spam Detection Test Module) периодически или по требованию выбирает сохраненный High Risk Query и повторно отправляет его в Query Processing Server как тестовый запрос (Test Query). Затем система проверяет полученные результаты. Если спам, который должен был быть отфильтрован, присутствует в выдаче, тестируемый алгоритм идентифицируется как неисправный (faulty). Если спама нет – как работающий (functioning properly).

Актуальность для SEO

Средняя. Патент подан в 2011 году. Задача поддержания эффективности антиспам-систем актуальна всегда, и базовый принцип регрессионного тестирования (тестирование на известных примерах спама) остается фундаментальным. Однако конкретная реализация, описанная в патенте, вероятно, эволюционировала в более сложные системы внутреннего аудита.

Важность для SEO

(1/10). Патент имеет минимальное значение для практического SEO. Он описывает исключительно внутренние процессы Google (Quality Assurance для антиспам-команд) и не содержит информации о том, как именно работают алгоритмы ранжирования или методы обнаружения спама. Он лишь подтверждает, что Google системно подходит к тестированию и поддержанию работоспособности своих фильтров.

Термины и определения

High Risk Query (Запрос высокого риска): Запрос, который с высокой вероятностью может генерировать спам-результаты. В контексте патента, это любой запрос, который ранее уже приводил к появлению спама в выдаче. Часто имеет коммерческий аспект.
Spam Filtering Algorithm (Алгоритм фильтрации спама): Метод или алгоритм, используемый для обнаружения и удаления спам-результатов из поисковой выдачи. Примеры включают черные списки (blacklisting) сайтов или пользователей, идентификацию ключевых слов, коррелирующих со спамом.
Spam Result (Спам-результат): Результат поиска, часто определяемый как предоставленный с коммерческой целью, но не имеющий прямого отношения к запросу пользователя. Обычно это страницы, созданные для искусственного завышения рейтинга (artificially inflate page ranking).
Query Processing Server (Сервер обработки запросов): Компонент системы, который принимает запросы, генерирует результаты и применяет к ним фильтры.
Spam Detection Test Module (Модуль тестирования обнаружения спама): Компонент, отвечающий за выполнение автоматизированных тестов для верификации работы Spam Filtering Algorithms.
High Risk Query Database (База данных запросов высокого риска): Хранилище данных, содержащее известные High Risk Queries и информацию о том, какие алгоритмы их ранее обнаружили.
Test Query (Тестовый запрос): Запрос, сгенерированный на основе High Risk Query и отправленный в систему специально для проверки работоспособности Spam Filtering Algorithms.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод тестирования алгоритмов обнаружения спама.

Система получает первый запрос на сервере обработки запросов.
Система идентифицирует этот запрос как High Risk Query с помощью первого алгоритма фильтрации спама (first spam filtering algorithm).
Запрос сохраняется в хранилище данных, и устанавливается ассоциация между запросом и первым алгоритмом.
Система генерирует тестовый запрос (test query), основываясь на сохраненных High Risk Queries и их ассоциациях с алгоритмами.
Тестовый запрос отправляется на сервер обработки запросов.
Система определяет, содержит ли ответ на тестовый запрос спам-результат, чтобы протестировать второй алгоритм фильтрации спама (second spam filtering algorithm).

Claim 8 (Зависимый): Уточняет результат тестирования.

Если в ответе на тестовый запрос обнаружен Spam Result, тестируемый алгоритм фильтрации спама идентифицируется как неисправный (faulty).

Claim 9 (Зависимый): Уточняет результат тестирования.

Если в ответе на тестовый запрос Spam Result не обнаружен (то есть он был успешно отфильтрован), алгоритм фильтрации спама идентифицируется как функционирующий должным образом (functioning properly).

Claim 21 (Зависимый от 1): Уточняет, что первый и второй алгоритмы фильтрации спама могут быть одним и тем же алгоритмом. Это подтверждает использование системы для регрессионного тестирования: проверки, что алгоритм все еще блокирует спам, который он обнаружил ранее.

Где и как применяется

Этот патент описывает внутреннюю инфраструктуру тестирования (Internal Testing Framework), которая работает параллельно с основной поисковой системой, а не является частью стандартного процесса обработки запроса пользователя.

Тестируемая среда (RANKING / RERANKING):

Система имитирует реальные запросы (используя High Risk Queries) и анализирует результаты, которые генерируются на этапах RANKING и RERANKING, где применяются антиспам-фильтры (Spam Filtering Algorithms). Цель – проверить работоспособность этих фильтров в среде, максимально приближенной к боевой.

Автономные процессы (Internal QA):

Процессы накопления базы High Risk Queries и запуска тестов (Spam Detection Test Module) являются внутренними служебными процессами Google.

Входные данные:

High Risk Query Database (известные спам-запросы и идентификаторы связанных с ними алгоритмов).
Текущие версии Spam Filtering Algorithms, развернутые на Query Processing Server.

Выходные данные:

Отчеты об аудите (audit report).
Статус тестируемых алгоритмов (faulty или functioning properly).
Журналы (logs) с результатами тестирования.

На что влияет

Патент не влияет напрямую на SEO-стратегии или конкретные типы контента. Он влияет на надежность и стабильность работы внутренних антиспам-систем Google.

Специфические запросы и ниши: Механизм фокусируется на High Risk Queries. В патенте отмечается, что такие запросы часто имеют коммерческий аспект (например, запрос "Cheap Hotel Near City X"). Система обеспечивает чистоту выдачи в нишах, подверженных спаму.

Когда применяется

Условия применения: Алгоритм тестирования применяется при наличии базы данных High Risk Queries.
Триггеры активации: Тестирование может быть инициировано:
- Периодически (на регулярной основе).
- В ответ на ввод пользователя (администратора системы).
- Как часть аудита безопасности (security audit).
- В ответ на обнаружение спам-результата в реальной выдаче.
- После обновления Spam Filtering Algorithms (для проверки отсутствия регрессий).

Пошаговый алгоритм

Система состоит из двух основных процессов.

Процесс А: Накопление данных (Building High Risk Query Database)

Получение запроса: Query Processing Server получает входящий запрос.
Идентификация спама: Запрос обрабатывается, и один из Spam Filtering Algorithms идентифицирует наличие спам-результатов в выдаче. Запрос классифицируется как High Risk Query.
Идентификация алгоритма: Система определяет, какой именно алгоритм обнаружил спам-результаты.
Сохранение: Запрос сохраняется в High Risk Query Database вместе со ссылкой (link) на алгоритм, который его обнаружил.

Процесс Б: Тестирование алгоритмов (Testing Spam Detection Algorithms)

Инициация теста: Запуск теста (автоматически или вручную).
Генерация тестового запроса: Spam Detection Test Module создает тестовый запрос, используя один или несколько High Risk Queries из базы данных. Тестовый запрос может быть идентичен сохраненному High Risk Query.
Обработка запроса: Тестовый запрос отправляется на Query Processing Server и обрабатывается так, как если бы это был легитимный запрос от пользователя. К результатам применяются тестируемые Spam Filtering Algorithms.
Анализ результатов: Система определяет, содержатся ли спам-результаты в итоговом наборе результатов. Это может делаться путем мониторинга логов сервера, использования отладочных хуков или сравнения результатов с оригинальными спам-результатами, которые также могут храниться в базе.
Верификация и вывод:
- Если спам НЕ обнаружен в результатах (т.е. он был успешно отфильтрован): Тестируемый алгоритм идентифицируется как работающий (working / functioning properly).
- Если спам ОБНАРУЖЕН в результатах (т.е. он прошел через фильтр): Тестируемый алгоритм идентифицируется как неисправный (faulty).
Логирование: Результат (успех или сбой) записывается в лог или отчет об аудите для последующего анализа администратором или автоматической корректировки алгоритма.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре тестирования и минимально детализирует используемые данные.

Системные данные: High Risk Query Database. Ключевые данные – это текстовые строки (text string) ранее идентифицированных спам-запросов и идентификаторы Spam Filtering Algorithms, связанных с этими запросами.
Входные данные для антиспам-алгоритмов: Патент не указывает, какие именно факторы (контентные, ссылочные и т.д.) используют тестируемые Spam Filtering Algorithms для обнаружения спама. Он лишь упоминает, что они могут использовать черные списки, анализ ключевых слов, Байесовские фильтры и т.д.

Какие метрики используются и как они считаются

Патент не описывает сложных метрик, формул или пороговых значений.

Основная метрика: Бинарное состояние – наличие или отсутствие Spam Result в выдаче по тестовому запросу после применения фильтра.
Статус алгоритма: Faulty (неисправный) или Functioning Properly (работающий).

Инфраструктурный патент без прямых SEO-рекомендаций: Патент описывает внутренние инфраструктурные процессы Google (Quality Assurance) и не дает практических выводов для SEO-специалистов о том, как оптимизировать сайты.
Автоматизированное регрессионное тестирование: Google использует автоматизированную систему для тестирования своих антиспам-алгоритмов. Это гарантирует, что обновления поисковой системы не снижают эффективность существующих антиспам-механизмов и не позволяют старым видам спама вернуться в выдачу.
База данных известных угроз: Система поддерживает "эталонную" базу спам-запросов (High Risk Queries). Эта база пополняется каждый раз, когда антиспам-алгоритмы успешно обнаруживают спам.
Связь Запрос-Алгоритм: Система хранит информацию о том, какой именно алгоритм обнаружил конкретный спам-запрос. Это позволяет проводить целевое тестирование конкретных фильтров.
Цель – стабильность фильтрации: Основная задача механизма – убедиться, что известный спам стабильно фильтруется. Если алгоритм перестает блокировать спам, который он должен блокировать, он немедленно помечается как неисправный (faulty).

ВАЖНО: Патент является инфраструктурным и описывает внутренние механизмы тестирования Google. Он не дает практических выводов для SEO.

Best practices (это мы делаем)

Поскольку патент не описывает факторы ранжирования или конкретные методы обнаружения спама, он не предлагает новых SEO-практик. Он лишь подтверждает стратегическую необходимость следовать общим рекомендациям Google:

Соблюдение правил для вебмастеров: Патент подтверждает, что Google имеет сложные системы не только для обнаружения спама, но и для постоянного контроля за эффективностью этих систем. Это подчеркивает важность создания качественного контента и избегания любых спам-тактик.

Worst practices (это делать не надо)

Использование устаревших спам-тактик: Не стоит рассчитывать, что старые методы спама (например, наполнение страниц ключевыми словами для искусственного завышения рейтинга) могут сработать из-за сбоя в алгоритмах Google. Описанная система тестирования специально разработана для того, чтобы гарантировать, что старые виды спама не начнут снова проникать в выдачу.
Надежда на временные лазейки: Стратегии, основанные на поиске временных уязвимостей в спам-фильтрах, крайне рискованны. Как только лазейка будет обнаружена, она попадет в систему тестирования, которая обеспечит ее постоянное блокирование.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент дает понимание того, насколько серьезно Google подходит к контролю качества своих антиспам-систем. Борьба со спамом – это не разовое действие, а постоянный, систематизированный процесс, включающий автоматизированное тестирование и аудит фильтров. Это подтверждает зрелость инженерных процессов Google.

Практические примеры

Практических примеров применения для SEO нет, так как это внутренний инструмент тестирования Google.

Описывает ли этот патент новые способы обнаружения спама?

Нет. Патент не описывает, как Google обнаруживает спам. Он описывает исключительно метод тестирования уже существующих алгоритмов обнаружения спама (Spam Filtering Algorithms), чтобы убедиться, что они продолжают работать корректно и эффективно.

Что такое "High Risk Query" (Запрос высокого риска)?

Это запрос, который с высокой вероятностью генерирует спам-результаты. В контексте патента это любой запрос, который ранее уже приводил к появлению спама в выдаче и был зафиксирован системой. В патенте приводится пример коммерческого запроса "Cheap Hotel in City X".

Как система узнает, что запрос является "High Risk"?

Система узнает об этом в процессе обычной работы поиска. Когда один из антиспам-алгоритмов срабатывает и фильтрует спам из выдачи по какому-либо запросу, этот запрос автоматически сохраняется в High Risk Query Database для последующего использования в тестировании.

Как именно происходит тестирование алгоритма?

Система берет сохраненный High Risk Query и повторно отправляет его в поиск (Query Processing Server) как Test Query. Затем она анализирует полученные результаты. Если спам, который должен был быть заблокирован, присутствует в выдаче, значит, тестируемый алгоритм не сработал и помечается как неисправный (faulty).

Влияет ли этот патент на ранжирование моего сайта?

Напрямую нет. Патент не описывает факторы ранжирования. Однако он обеспечивает надежность работы антиспам-систем Google. Эти системы, в свою очередь, влияют на общую картину ранжирования, удаляя спамные сайты из выдачи и освобождая место для качественных ресурсов.

Можно ли использовать информацию из этого патента для улучшения SEO-стратегии?

Нет. Патент носит чисто технический, инфраструктурный характер и описывает внутренние процессы контроля качества (QA) в Google. Он не содержит информации о факторах ранжирования или методах оптимизации, которую можно было бы применить на практике.

Зачем Google нужна такая система тестирования?

Поисковая система постоянно обновляется и изменяется. Эта система тестирования гарантирует, что новые обновления не "сломают" существующие антиспам-фильтры. Это форма регрессионного тестирования, направленная на поддержание стабильного качества фильтрации спама.

Может ли система тестировать один алгоритм с помощью запроса, который был обнаружен другим алгоритмом?

Да. Патент (Claim 1) предусматривает возможность использования High Risk Query, идентифицированного первым алгоритмом, для тестирования второго алгоритма. Это позволяет проверить общую эффективность всей совокупности антиспам-мер против известных угроз.

Как часто проводятся эти тесты?

Патент указывает, что тесты могут инициироваться периодически, вручную администратором, в рамках аудита безопасности или в ответ на обнаружение спама в реальной выдаче. Конкретная частота в документе не указана.

Что происходит, если алгоритм помечается как "неисправный" (faulty)?

Система регистрирует сбой в журнале или отчете об аудите (audit report). Эта информация используется для анализа причин сбоя и корректировки алгоритма инженерами. Также в патенте упоминается возможность автоматической настройки (automatically tuned) алгоритма в ответ на сбой.

Как Google тестирует, сравнивает и выбирает лучшие алгоритмы ранжирования

Патент описывает инфраструктуру Google для сравнения и оценки различных алгоритмов ранжирования (Scoring Functions). Система выбирает два алгоритма, которые дают максимально разные результаты (Diversity Score), показывает обе выдачи для сравнения (Side-by-Side) и собирает данные для определения лучшего алгоритма, фильтруя при этом ненадежную обратную связь.

US8060497B1
2011-11-15

SERP

Как Google визуально выделяет популярные профили в поиске и использует частоту запросов для борьбы с фейковыми аккаунтами

Google использует данные о популярности (количество связей) и качестве (вовлеченность) профилей пользователей, чтобы визуально выделить наиболее авторитетные результаты при поиске людей или брендов. Если один профиль значительно популярнее других, он отображается крупнее. Система также динамически регулирует порог качества в зависимости от частоты запроса: чем популярнее имя, тем выше требования к профилю для его отображения, что помогает бороться со спамом.

US8935245B1
2015-01-13

SERP
Антиспам
EEAT и качество

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов

Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.

US8001118B2
2011-08-16

Поведенческие сигналы
SERP

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи

Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.

US7996379B1
2011-08-09

Семантика и интент
Ссылки
SERP

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи

Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.

US9623119B1
2017-04-18

EEAT и качество
Поведенческие сигналы
SERP