Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google перехватывает навигацию пользователя для защиты от низкокачественных сайтов (паркинги, фермы контента)

    PROCESSING WEB PAGES BASED ON CONTENT QUALITY (Обработка веб-страниц на основе качества контента)
    • US8775924B1
    • Google LLC
    • 2014-07-08
    • 2012-03-09
    2012 Антиспам Безопасный поиск Патенты Google Ссылки

    Механизм защиты пользователей, который перехватывает запрос на загрузку веб-страницы. Если страница идентифицирована как низкокачественная (паркинг домена, ферма контента или ссылочная ферма), система показывает предупреждение и предлагает перейти на альтернативный релевантный сайт вместо запрошенного.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу защиты пользователей от посещения низкокачественных веб-сайтов (low-quality websites), которые не несут пользы, содержат преимущественно рекламу или созданы для манипуляций. Система нацелена на борьбу с конкретными типами сайтов: припаркованные домены (parked web pages), фермы контента (content farm web pages) и ссылочные фермы (link farm web pages). Механизм защищает пользователя независимо от источника перехода, включая прямые заходы, клики по ссылкам, тайпсквоттинг или даже запросы, инициированные вредоносным ПО (вирусы, трояны).

    Что запатентовано

    Запатентована система перехвата и обработки запросов к веб-страницам. Система оценивает качество контента (content quality) запрашиваемой страницы до ее загрузки. Если качество определяется как низкое (ниже установленного порога), система вмешивается в процесс навигации и отображает промежуточный графический компонент (graphical component), например, предупреждение. Пользователю предлагается выбор: продолжить переход или перейти на альтернативную релевантную страницу (alternate web page).

    Как это работает

    Механизм может быть реализован на стороне клиента (браузер, плагин, ОС) или на промежуточном сервере.

    • Перехват запроса: Система перехватывает запрос пользователя на посещение веб-страницы до ее загрузки.
    • Оценка качества: Проверяется Content Quality Value страницы. Эта оценка берется из базы данных или вычисляется на лету путем сравнения страницы с паттернами низкокачественных сайтов.
    • Сравнение с порогом: Оценка сравнивается с пороговым значением (threshold value).
    • Вмешательство: Если качество низкое, пользователю отображается предупреждение (graphical component) с вариантами действий.
    • Адаптация: Выбор пользователя и время, проведенное на странице, могут использоваться для корректировки Content Quality Value в будущем.

    Актуальность для SEO

    Высокая. Описанные в патенте принципы оценки качества контента и методы идентификации ферм контента, паркингов и ссылочных ферм крайне актуальны для понимания алгоритмов Google. Хотя патент описывает инфраструктурное решение (защита на уровне навигации, а не ранжирования), подобные технологии интегрированы в системы безопасности браузеров (например, Google Safe Browsing) и отражают типы контента, которые Google стремится исключить из экосистемы.

    Важность для SEO

    Патент имеет важное стратегическое значение для SEO (Оценка 6/10). Он не описывает алгоритмы ранжирования в SERP. Однако он детально раскрывает технические, контентные и структурные признаки, по которым Google идентифицирует самые низкокачественные сайты (content farms, link farms, parked web pages). Понимание этих паттернов критично для избежания такой классификации. Система активно снижает трафик на такие сайты, независимо от его источника, и подтверждает использование поведенческих факторов (например, время на сайте) для уточнения оценок качества.

    Детальный разбор

    Термины и определения

    Alternate web page (Альтернативная веб-страница)
    Страница, предлагаемая пользователю в качестве замены, если запрошенная страница имеет низкое качество. Релевантна исходному запросу.
    Content farm web page (Ферма контента)
    Веб-страница с текстовым контентом, созданным для максимизации просмотров на основе поисковых запросов, часто низкого качества и без уникальной ценности.
    Content Quality (Качество контента)
    Ценность, которую предлагает контент веб-страницы.
    Content Quality Value (Оценка качества контента)
    Числовая метрика качества страницы. Определяется путем сравнения страницы с паттернами (patterns), найденными на известных низкокачественных сайтах.
    Graphical Component (Графический компонент)
    Интерфейс (предупреждение, всплывающее окно), который отображается при попытке доступа к низкокачественной странице. Предоставляет выбор действий.
    Link farm web page (Ссылочная ферма)
    Страница, являющаяся частью группы веб-страниц, которые взаимно ссылаются друг на друга, часто с целью манипуляции ранжированием.
    Low-quality web pages (Низкокачественные веб-страницы)
    Общий термин для паркингов, ферм контента, ссылочных ферм, дефолтных страниц, страниц без полезного контента или страниц с преимущественно рекламой.
    Parked web page (Припаркованная веб-страница)
    Страница-заглушка на зарегистрированном домене, не предлагающая полезного контента, часто содержит только рекламу.
    Threshold Value (Пороговое значение)
    Настраиваемая граница Content Quality Value. Если оценка страницы ниже или равна этому порогу, активируется Graphical Component.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки веб-страниц.

    1. Система получает запрос на веб-страницу.
    2. Определяется качество контента на основе того, является ли страница паркингом, фермой контента или ссылочной фермой.
    3. На основе качества отображается graphical component, предлагающий опции: перейти на запрошенную страницу или на альтернативную.
    4. Система получает выбор пользователя и предоставляет выбранную страницу.

    Claim 1 также детально описывает механизм использования и обновления базы данных качества (Гибридный подход):

    1. Система обращается к базе данных, хранящей content quality values веб-страниц.
    2. Ищет запрошенную страницу и получает ее оценку.
    3. Сравнивает оценку с threshold value.
    4. Если страницы нет в базе данных (Анализ на лету):
      • Система определяет content quality value на основе анализа контента страницы.
      • Присваивает эту оценку и сравнивает ее с порогом.
      • Обновляет базу данных, добавляя туда страницу и ее оценку.

    Claims 2 и 3 (Зависимые): Определяют условия отображения предупреждения. Graphical component отображается, если content quality value равно или меньше порогового значения (Claim 2), и не отображается, если оно больше порога (Claim 3).

    Claim 4 (Зависимый): Указывает, что content quality value может основываться на обратной связи (feedback), полученной от пользователей.

    Claim 6 и 7 (Зависимые): Определение качества основано на сравнении запрошенной веб-страницы с паттернами (patterns), найденными на низкокачественных веб-страницах (Claim 6). Эти паттерны включают: макет (layout), текст (text), графику (graphics), ссылки (links) или исходный код (source code) (Claim 7).

    Claim 8 (Зависимый): Запрос на веб-страницу перехватывается (intercepting) до того, как он будет выполнен.

    Где и как применяется

    Этот патент не вписывается в стандартную архитектуру генерации поисковой выдачи (RANKING, RERANKING). Он описывает систему перехвата навигации, работающую на этапе доступа к контенту.

    INDEXING – Индексирование и извлечение признаков (Косвенное влияние)
    На этом этапе происходит предварительная работа. Веб-страницы анализируются на наличие паттернов низкого качества. Рассчитываются Content Quality Values, которые сохраняются в базе данных для последующего использования системой перехвата.

    Этап доступа к контенту (Клиентская сторона / Навигация)
    Основное применение. Система функционирует в момент попытки пользователя получить доступ к URL. Запрос перехватывается до загрузки страницы. Это может быть реализовано через программное обеспечение на клиентском устройстве: интеграция в веб-браузер (например, Chrome, плагины, расширения), интеграция в операционную систему или через промежуточный сервер.

    Входные данные:

    • Запрос пользователя на веб-страницу (URL).
    • База данных с предварительно рассчитанными Content quality values.
    • Контент запрашиваемой страницы (если требуется анализ в реальном времени).

    Выходные данные:

    • Запрошенная веб-страница (если качество высокое или пользователь решил продолжить).
    • Graphical component (предупреждение с опциями).
    • Альтернативная веб-страница (если пользователь выбрал ее).

    На что влияет

    • Конкретные типы контента и сайтов: Наибольшее влияние оказывается на сайты, соответствующие определениям parked domains, content farms и link farms. Также влияет на сайты, использующие шаблоны по умолчанию, содержащие бессмысленный или автоматически сгенерированный текст.
    • Способы навигации: Влияет на все типы переходов — прямой ввод URL, клики по ссылкам, переходы из приложений и даже запросы, инициированные вредоносным ПО (вирусами, троянами).
    • Специфические домены: Влияет на доступ к доменам, содержащим общие термины или опечатки популярных брендов (typosquatting).

    Когда применяется

    • Условие применения: Алгоритм применяется при каждом перехваченном запросе на веб-страницу в среде, где он реализован.
    • Триггер активации предупреждения: Graphical component активируется, только если Content quality value запрошенной страницы равен или ниже установленного Threshold value.
    • Настройка порога: Threshold value может быть настроен пользователем, программным обеспечением, а также адаптироваться на основе обратной связи от других пользователей.

    Пошаговый алгоритм

    1. Перехват запроса: Система получает и перехватывает запрос на веб-страницу до его выполнения.
    2. Определение качества контента: Система определяет Content quality value.
      1. Проверка базы данных: Поиск URL в базе данных оценок качества. Если найдено, используется сохраненная оценка.
      2. Анализ на лету (Если не найдено): Система анализирует контент и характеристики страницы на соответствие паттернам низкокачественных сайтов. Вычисляется оценка качества.
      3. Обновление базы данных: Сохранение рассчитанной оценки для будущего использования.
    3. Сравнение с порогом: Полученная оценка сравнивается с Threshold value.
    4. Принятие решения о вмешательстве:
      • Если Качество > Порога: Продолжить загрузку запрошенной страницы без вмешательства. Процесс завершен.
      • Если Качество <= Порога: Перейти к шагу 5.
    5. Отображение графического компонента: Показать пользователю graphical component с опциями (продолжить или перейти на альтернативу).
    6. Обработка выбора пользователя: Система ожидает выбор пользователя. Если выбор не сделан в течение определенного времени, происходит таймаут.
    7. Финальная навигация:
      • Если выбрано «Продолжить»: Загрузить запрошенную страницу.
      • Если выбрана альтернатива: Загрузить альтернативную страницу.
      • При таймауте: Загрузить наиболее релевантную страницу или предопределенную страницу (например, стартовую страницу браузера).
    8. Обратная связь (Адаптация оценок): Content quality value может быть скорректирован на основе действий пользователя (выбор опции) и времени, проведенного на странице (быстрый уход может снизить оценку).

    Какие данные и как использует

    Данные на входе

    Патент детально описывает факторы, используемые для выявления паттернов низкого качества и расчета Content quality value.

    • Технические и Сетевые факторы:
      • IP-адрес: Принадлежность к IP-адресам, известным обслуживанием припаркованных страниц, конкретных регистраторов или провайдеров контент-ферм.
      • DNS-сервер: Использование DNS-серверов, ассоциированных со страницами, содержащими мало контента, кроме рекламы.
      • URL: Анализ текста URL на наличие общих терминов (generic terms) или распространенных опечаток (typosquatting).
      • HTTP Response Code: Коды ответа, отличные от 200 (например, 404), указывают на то, что сайт не полностью функционален.
      • DNS записи и ответ сервера: Отсутствие авторитетных записей для хоста или отсутствие ответа от IP-адреса в течение определенного времени.
    • Контентные факторы:
      • Текстовые строки: Наличие специфических фраз, ассоциированных с низкокачественными страницами (например, «domain is for sale», «buy this domain», «this page is parked»).
      • Объем контента: Страницы с малым количеством контента или без него.
      • Качество текста: Бессмысленный (nonsensical text) или автоматически сгенерированный текст.
    • Структурные факторы (Паттерны):
      • Макет (Layout) и Исходный код (Source code).
      • Пропорции контента: Соотношение различных типов контента. В патенте указано: страница с 99% гиперссылок и 1% текста скорее всего является низкокачественной по сравнению со страницей 50/50.
    • Ссылочные факторы:
      • Исходящие ссылки: Наличие гиперссылок, указывающих на известные низкокачественные страницы.
      • Атрибуты ссылок: Атрибуты a href и img src, указывающие на известные рекламные сети, сервисы парковки или провайдеров ферм контента.
    • Поведенческие факторы (Обратная связь):
      • Выбор пользователя: Выбор опции в graphical component (Claim 4).
      • Время на странице (amount of time spent on that page): Кратковременные визиты (быстрый уход со страницы) могут привести к снижению оценки качества.

    Какие метрики используются и как они считаются

    • Content Quality Value: Агрегированная метрика. Рассчитывается путем сравнения веб-страницы с паттернами (patterns) низкого качества. Присутствие каждого паттерна снижает Content quality value. В патенте указано, что разные паттерны могут иметь разный вес (weighted differently) при расчете оценки.
    • Threshold Value: Конфигурируемое пороговое значение для активации предупреждения.
    • Blacklist (Черный список): Упоминается возможность использования черного списка известных низкокачественных страниц, который может генерироваться вручную или автоматически на основе обнаружения паттернов.

    Выводы

    1. Четкие определения низшего качества: Патент предоставляет конкретные определения и методы идентификации трех типов низкокачественных сайтов: parked domains, content farms и link farms. Это ключевая информация для понимания того, что Google считает контентом нулевой ценности.
    2. Использование технических «отпечатков»: Для идентификации низкого качества Google полагается не только на контент, но и на техническую инфраструктуру (IP, DNS) и специфические атрибуты в коде (a href, img src), связанные с сервисами монетизации низкокачественного трафика.
    3. Структура контента как фактор качества: Соотношение уникального контента к ссылкам и рекламе является важным сигналом. Экстремальные пропорции (например, 99% ссылок) являются сильным индикатором низкого качества.
    4. Гибридная оценка качества (Кэш и Анализ на лету): Система использует базу данных для хранения Content Quality Values, но также способна анализировать новые страницы на лету, присваивать им оценку и кэшировать результат.
    5. Адаптивная оценка качества и поведенческие сигналы: Патент явно указывает на использование обратной связи от пользователей (выбор альтернативы, время, проведенное на сайте) для корректировки Content quality value. Короткие визиты интерпретируются как признак низкого качества.

    Практика

    Best practices (это мы делаем)

    • Обеспечение существенного уникального контента: Убедитесь, что каждая страница содержит достаточный объем полезного контента. Избегайте создания страниц, которые могут быть восприняты как content farm (поверхностный контент, оптимизированный только под ключи для показа рекламы).
    • Поддержание здоровой структуры контента: Следите за соотношением основного контента к рекламе и ссылкам. Структура страницы не должна состоять преимущественно из ссылок (что характерно для link farms и parked domains). Соотношение 99% ссылок к 1% текста недопустимо.
    • Использование чистой технической инфраструктуры: Используйте надежный хостинг и DNS-сервисы. Избегайте инфраструктуры (IP, DNS), которая массово используется для парковки доменов или низкокачественных сайтов, так как это является прямым сигналом для системы.
    • Мониторинг поведения пользователей и вовлеченности: Анализируйте метрики вовлеченности. Высокий показатель быстрых возвратов (short clicks/bounces) может снижать Content quality value. Работайте над удержанием посетителей на странице.
    • Контроль исходящих ссылок и рекламных интеграций: Тщательно проверяйте, куда ведут исходящие ссылки (включая img src). Избегайте ссылок на спамные ресурсы или использование рекламных сетей, ассоциированных с припаркованными доменами.

    Worst practices (это делать не надо)

    • Создание контент-ферм (Content Farms/MFA): Генерация большого количества поверхностного или автоматически сгенерированного контента с целью максимизации показов рекламы.
    • Парковка доменов и использование заглушек: Использование сервисов парковки или размещение на сайте страниц с текстом типа «domain for sale» приведет к классификации сайта как low-quality.
    • Использование Typosquatting: Регистрация доменов с опечатками популярных брендов для перехвата трафика. Это явно указано как паттерн низкокачественного сайта.
    • Игнорирование технических проблем: Наличие большого количества ошибок 404, некорректная настройка DNS или медленные ответы сервера могут привести к снижению оценки качества, так как сайт считается не полностью функциональным.
    • Участие в ссылочных фермах (Link Farms): Создание сетей сайтов для взаимного обмена ссылками является отслеживаемым паттерном низкого качества.

    Стратегическое значение

    Патент подтверждает стратегию Google по борьбе с контентом нулевой ценности на всех уровнях — не только в ранжировании, но и при прямой навигации (например, через браузеры и системы безопасности). Для SEO-специалистов это подчеркивает важность дистанцирования от любых практик, которые могут ассоциировать сайт с контент-фермами или припаркованными доменами. Крайне вероятно, что сигналы, используемые здесь для идентификации ферм, коррелируют с теми, что используются основными алгоритмами качества (например, Helpful Content System).

    Практические примеры

    Сценарий 1: Перехват Typosquatting и защита от паркинга

    1. Действие пользователя: Пользователь хочет зайти на сайт «example-brand.com», но допускает опечатку и вводит в адресной строке «exampel-brand.com».
    2. Исходная ситуация: Домен «exampel-brand.com» является припаркованным (parked domain) и содержит только рекламные ссылки.
    3. Перехват и Анализ: Браузер (использующий описанную систему) перехватывает запрос. Система проверяет его Content quality value в базе данных и определяет его как низкий (ниже порога). Также система распознает опечатку в URL.
    4. Результат (Вмешательство): Вместо загрузки страницы с рекламой, система отображает предупреждение (Graphical component): «Возможно, вы ищете example-brand.com? Страница, на которую вы переходите, содержит мало полезного контента».
    5. Выбор: Пользователю предлагается перейти на правильный сайт (альтернатива) или продолжить переход на «exampel-brand.com». Пользователь выбирает альтернативу, и припаркованный домен теряет трафик.

    Сценарий 2: Оптимизация структуры страницы для повышения качества

    1. Задача: Улучшить восприятие качества контентного сайта с монетизацией.
    2. Действия на основе патента: Проанализировать соотношение основного контента к рекламе и ссылкам. Патент указывает, что дисбаланс (например, 99% ссылок/рекламы и 1% текста) является признаком низкого качества.
    3. Как делать: Увеличить объем уникального полезного контента на странице, оптимизировать размещение рекламных блоков и убедиться, что основной контент доминирует над вспомогательными элементами.
    4. Ожидаемый результат: Повышение Content Quality Value за счет улучшения структурных факторов и избежания паттернов контент-ферм.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование сайтов в поиске Google?

    Нет, напрямую не влияет. Патент описывает не алгоритм ранжирования (Ranking), а систему, которая работает на этапе навигации пользователя (например, в браузере). Она вмешивается в процесс загрузки страницы уже после того, как пользователь кликнул по ссылке или ввел URL. Однако система использует оценки качества (Content Quality Value), которые, вероятно, рассчитываются схожими алгоритмами Google, что влияют и на ранжирование.

    Какие типы сайтов являются основной целью этого патента?

    Патент явно выделяет три основные цели: parked web pages (припаркованные домены), content farm web pages (фермы контента, созданные для максимизации просмотров и рекламы) и link farm web pages (ссылочные фермы). Также упоминаются дефолтные страницы и любые сайты, содержащие преимущественно рекламу и мало полезного контента.

    Как система определяет, что сайт является «контент-фермой» (Content Farm)?

    Патент определяет контент-фермы как сайты, содержащие текст, написанный для максимизации просмотров по поисковым запросам. Для их идентификации система ищет паттерны: низкое соотношение уникального контента к рекламе/ссылкам (например, 99% ссылок и 1% текста), наличие специфических текстовых строк, а также технические признаки, такие как использование DNS или IP, связанных с провайдерами контент-ферм или агрессивными рекламными сетями.

    Подтверждает ли этот патент использование поведенческих факторов для оценки качества?

    Да, подтверждает. В патенте явно указано, что Content Quality Value может адаптироваться на основе обратной связи от пользователей (Claim 4). Упоминается два типа данных: выбор пользователя на странице предупреждения и время, проведенное на странице (amount of time spent on that page). Короткие визиты (быстрые отказы) могут привести к снижению оценки качества.

    Какие технические сигналы могут выдать низкокачественный сайт?

    Патент выделяет несколько ключевых технических сигналов: использование IP-адресов, известных обслуживанием припаркованных доменов; использование DNS-серверов, ассоциированных с парковочными сервисами; анализ URL на наличие общих терминов или опечаток (typosquatting); а также проверка функциональности сайта по кодам ответа HTTP (например, избыток 404) и скорости ответа.

    Может ли система оценить качество страницы, которую видит впервые?

    Да. Система в первую очередь проверяет кэшированную оценку в базе данных. Однако, если страница не найдена в базе, система способна проанализировать контент на лету, сравнить его с паттернами низкого качества, вычислить Content Quality Value и затем принять решение о блокировке. После этого оценка сохраняется в базу данных.

    Где именно реализован этот механизм? Это часть Google Поиска или браузера Chrome?

    Патент предполагает реализацию на стороне клиента или через промежуточный сервер. Упоминаются интеграция в браузер (например, Chrome), плагины, расширения или операционную систему. Это не часть основного движка Google Поиска, но, вероятно, реализовано в системах типа Google Safe Browsing.

    Как SEO-специалисту использовать информацию о технических факторах (IP/DNS) из этого патента?

    Необходимо убедиться, что ваш сайт не использует IP-адреса или DNS-серверы, которые ассоциируются с крупными сервисами парковки доменов или хостингами низкокачественных сайтов. «Плохое соседство» на уровне сетевой инфраструктуры может негативно повлиять на оценку качества (Content Quality Value) вашего сайта.

    Как этот патент связан с Google Panda или Helpful Content Update?

    Хотя этот патент не описывает эти алгоритмы ранжирования, он использует ту же философию и, вероятно, те же базовые сигналы для идентификации контент-ферм и тонкого контента. Понимание того, как Google определяет Content Quality Value в этом патенте, дает ценные инсайты о том, какие факторы могут влиять на работу алгоритмов качества в основном поиске.

    Что произойдет, если пользователь проигнорирует предупреждение и перейдет на низкокачественную страницу?

    Система разрешит доступ к странице. Однако это действие пользователя может быть использовано для адаптации Content Quality Value. Если пользователь перешел и сразу же покинул страницу (короткий визит), это может подтвердить низкое качество. Если же он провел там время, система может немного повысить оценку качества этой страницы.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.