SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует сайты-трамплины (Bounce Pads/Дорвеи) и исключает их из индекса при выборе канонической версии

DETECTION OF BOUNCE PAD SITES (Обнаружение сайтов-трамплинов / Bounce Pad Sites)
  • US8037073B1
  • Google LLC
  • 2008-12-29
  • 2011-10-11
  • Индексация
  • Антиспам
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для обнаружения «Bounce Pads» — сайтов, основная цель которых — перенаправление пользователей на другие ресурсы. Система анализирует долю редиректов на сайте (Redirect Score) и разнообразие внешних целей перенаправления (Spam Score). Обнаруженные сайты-трамплины помечаются и исключаются из рассмотрения при выборе канонической (главной) версии страницы среди дубликатов, что предотвращает их попадание в поисковую выдачу.

Описание

Какую проблему решает

Патент решает проблему засорения поискового индекса дублированным контентом, особенно когда спамеры копируют контент и используют его на сайтах-трамплинах (Bounce Pads) или дорвеях. Задача изобретения — алгоритмически идентифицировать такие сайты и гарантировать, что при обнаружении кластера дубликатов система не выберет страницу с сайта-трамплина в качестве канонической (представительской) версии для индексации и показа в результатах поиска.

Что запатентовано

Запатентована система для автоматического обнаружения сайтов-трамплинов (Bounce Pad Sites). Изобретение анализирует набор связанных документов (например, веб-сайт) и вычисляет две ключевые метрики: Redirect Score (доля страниц с редиректами) и Spam Score (распределение и разнообразие целей этих редиректов на внешние организации). На основе этих оценок сайт классифицируется как Bounce Pad. Эта классификация затем используется системой индексирования для предотвращения выбора страниц с таких сайтов в качестве канонических версий.

Как это работает

Система работает в два основных этапа: обнаружение и применение.

  1. Обнаружение (Bounce Pad Analyzer): Система анализирует веб-сайт, подсчитывая, сколько страниц содержат редиректы на внешние организации. Вычисляется Redirect Score (процент редиректов). Затем анализируются цели редиректов: система ранжирует целевые организации по популярности, разделяет их на "Голову" (Head - самые популярные цели) и "Хвост" (Tail - остальные цели) и вычисляет Spam Score как соотношение редиректов на Хвост к Голове. Высокие значения обеих метрик указывают на Bounce Pad.
  2. Применение (Indexing Engine): При обработке кластера дублированных страниц система проверяет, не являются ли участники кластера частью идентифицированного Bounce Pad. Если да, такие страницы перемещаются в конец списка кандидатов на каноникализацию, гарантируя, что они не будут выбраны в качестве представительской версии для индекса.

Актуальность для SEO

Высокая. Борьба с дублированным контентом, спамом, дорвеями и некачественными сайтами, включая те, что злоупотребляют редиректами, остается ключевой задачей для Google. Механизмы каноникализации и выбора наиболее качественного источника контента критически важны. Описанный метод предоставляет конкретный алгоритм для идентификации и нейтрализации специфического типа нежелательного поведения (сайтов-трамплинов).

Важность для SEO

Патент имеет высокое значение (8.5/10). Он напрямую описывает механизм, который может привести к фактическому исключению сайта из поисковой выдачи, если он будет классифицирован как Bounce Pad и его контент дублируется. Это критически важно для сайтов, использующих агрессивные модели аффилиатного маркетинга, основанные на редиректах, а также для понимания процессов каноникализации. Если сайт злоупотребляет редиректами на множество разных организаций и имеет мало собственного контента, он рискует быть признанным сайтом-трамплином.

Детальный разбор

Термины и определения

Bounce Pad (Сайт-трамплин, Сайт-прокладка)
Документ или коллекция документов (веб-сайт), основная цель которых — перенаправление (редирект) на документы, связанные с другими организациями.
Bounce Pad Analyzer (Анализатор сайтов-трамплинов)
Компонент системы, который анализирует веб-сайт и вычисляет Redirect Score и Spam Score для определения, является ли сайт Bounce Pad.
Cluster of duplicate documents (Кластер дубликатов)
Набор документов, идентифицированных системой как дубликаты или почти дубликаты друг друга.
Head (Голова)
Набор наиболее популярных организаций, на которые ведут редиректы с анализируемого сайта.
Organization (Организация)
Сущность, владеющая доменом или сайтом. Система определяет, что разные домены (например, abc.com и abc.co.uk) могут принадлежать одной организации.
Redirect (Редирект)
Техника перенаправления пользователя с одного адреса на другой. Патент учитывает разные типы: HTTP статус-коды (3xx), meta refresh, Javascript redirects, frame redirects и полноэкранные pop-ups.
Redirect Score (Оценка редиректов)
Метрика, основанная на количестве документов веб-сайта, которые являются источниками редиректов. Обычно выражается как процент страниц с редиректами от общего числа страниц сайта.
Representative Document / Canonical (Представительский / Канонический документ)
Документ, выбранный из кластера дубликатов для индексации и показа в результатах поиска.
Spam Score (Оценка спама)
Метрика, основанная на количестве и распределении организаций, которые являются целями редиректов. Вычисляется как соотношение между Tail и Head.
Tail (Хвост)
Набор менее популярных организаций (все, кроме Head), на которые ведут редиректы с анализируемого сайта.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации Bounce Pad.

  1. Система идентифицирует набор связанных документов (например, сайт).
  2. Определяются документы в этом наборе, которые являются источниками редиректов.
  3. Идентифицируются организации, являющиеся целями этих редиректов.
  4. Вычисляется Redirect Score на основе количества документов-источников редиректов.
  5. Вычисляется Spam Score на основе количества организаций-целей редиректов.
  6. На основе Redirect Score и Spam Score система определяет, классифицировать ли набор документов как Bounce Pad.
  7. Результат классификации сохраняется.

Claim 5 и 6 (Зависимые): Детализируют расчет Spam Score.

Система подсчитывает, сколько раз каждая организация является целью редиректа, и создает ранжированный список организаций (Claim 5). Далее (Claim 6):

  1. Определяется первый набор организаций из списка как Head (Голова).
  2. Определяется второй набор как Tail (Хвост).
  3. Вычисляется Head number (сумма редиректов на организации в Голове).
  4. Вычисляется Tail number (сумма редиректов на организации в Хвосте).
  5. Spam Score генерируется на основе соотношения Tail number к Head number (или наоборот).

Высокое соотношение Tail/Head указывает на широкое распределение редиректов по множеству разных целей, что характерно для спама.

Claim 8 (Зависимый от 7): Описывает применение идентификации Bounce Pad в индексировании.

После сохранения списка Bounce Pads (Claim 7):

  1. Система идентифицирует кластер дублированных документов.
  2. Проверяется, соответствует ли конкретный документ в кластере сайту из списка Bounce Pads.
  3. При выборе представительского (канонического) документа для кластера система НЕ учитывает (исключает из рассмотрения) документ, если он идентифицирован как Bounce Pad.
  4. Выбранный представительский документ индексируется.

Claim 9 (Зависимый от 8): Уточняет механизм исключения Bounce Pad из рассмотрения.

Система создает ранжированный список документов в кластере дубликатов. Если документ идентифицирован как Bounce Pad, он перемещается ближе к концу (bottom) этого ранжированного списка.

Где и как применяется

Изобретение затрагивает этапы сканирования и, главным образом, индексирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе Crawler Engine собирает данные, необходимые для анализа. Это включает обнаружение редиректов (HTTP коды, meta refresh, Javascript) и идентификацию исходных и целевых URL.

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этом этапе и состоит из двух частей:

  1. Анализ и Классификация (Bounce Pad Analyzer): Система обрабатывает собранные данные для всего сайта. Вычисляются Redirect Score и Spam Score. По результатам анализа сайт может быть добавлен в список Bounce Pads. Этот процесс может происходить периодически или при обработке значительного объема данных сайта.
  2. Обнаружение Дубликатов и Каноникализация (Duplicate Detector & Indexer): При обработке отдельных документов система идентифицирует кластеры дубликатов. Документы в кластере ранжируются по качеству (например, на основе ссылочных метрик — link-based score). Затем система проверяет список Bounce Pads. Если документ в кластере помечен как Bounce Pad, он пессимизируется (перемещается в конец списка кандидатов). Indexer выбирает лучшего кандидата (не Bounce Pad) в качестве канонической версии для включения в индекс.

Входные данные:

  • Набор связанных документов (веб-сайт).
  • Данные сканирования: URL, статус-коды, метаданные (refresh tags, headers), контент (для обнаружения Javascript редиректов).
  • Целевые URL редиректов и связанные с ними организации.
  • Данные о качестве документов (например, link-based score) для ранжирования дубликатов.
  • Список идентифицированных Bounce Pads.

Выходные данные:

  • Обновленный список Bounce Pads.
  • Redirect Score и Spam Score для проанализированных сайтов.
  • Выбранные канонические документы для индексации.

На что влияет

  • Конкретные типы сайтов: Влияет на сайты, которые агрегируют или копируют контент с других ресурсов и затем перенаправляют пользователей для монетизации:
    • Дорвеи (Doorway pages).
    • Тонкие аффилиатные сайты (Thin affiliate sites).
    • Агрегаторы без добавленной стоимости.
    • Фишинговые сайты, использующие редиректы.
  • Техники редиректов: Влияет на использование любых типов редиректов (3xx, meta refresh, Javascript и т.д.), если они ведут на внешние организации.
  • Каноникализация: Напрямую влияет на процесс выбора канонической версии страницы.

Когда применяется

  • Триггеры активации (Анализ): Анализ сайта запускается, вероятно, после сканирования значительной части его документов или периодически для переоценки.
  • Условия срабатывания (Классификация): Классификация сайта как Bounce Pad происходит, когда Redirect Score превышает определенный порог И/ИЛИ Spam Score превышает определенный порог. Патент предполагает взаимосвязь: чем выше один показатель, тем ниже может быть пороговое значение для другого.
  • Триггеры активации (Индексирование): Механизм пессимизации активируется каждый раз, когда система обнаруживает кластер дубликатов и один из участников кластера находится в списке Bounce Pads.

Пошаговый алгоритм

Процесс А: Идентификация Bounce Pad (Bounce Pad Analyzer)

  1. Идентификация набора документов: Определение границ анализируемого набора связанных документов (например, сайта, домена, хоста).
  2. Идентификация редиректов: Анализ каждого документа в наборе для определения, является ли он источником редиректа.
  3. Расчет Redirect Score: Подсчет количества документов с редиректами и документов без них. Вычисление процента документов с редиректами.
  4. Идентификация целевых организаций: Определение организаций, которым принадлежат целевые URL редиректов. (Редиректы внутри одной организации могут исключаться из анализа).
  5. Ранжирование целей: Подсчет количества редиректов на каждую организацию и создание ранжированного списка.
  6. Сегментация (Head и Tail): Разделение ранжированного списка на Head (топ-N самых популярных целей) и Tail (остальные цели).
  7. Расчет Spam Score: Суммирование редиректов в Head (Head Number) и Tail (Tail Number). Вычисление соотношения Tail Number / Head Number.
  8. Определение Bounce Pad: Применение функции, использующей Redirect Score и Spam Score и сравнивающей их с пороговыми значениями для классификации сайта.
  9. Сохранение результата: Добавление идентификатора сайта в список Bounce Pads при положительной классификации.

Процесс Б: Применение при индексировании (Indexing Engine)

  1. Идентификация кластера дубликатов: Обнаружение набора документов с одинаковым или очень похожим контентом (используя, например, хэши контента или анализ URL).
  2. Ранжирование дубликатов: Создание ранжированного списка документов в кластере на основе метрик качества (например, link-based score).
  3. Идентификация Bounce Pads в кластере: Проверка каждого документа в списке на предмет его принадлежности к сайту из списка Bounce Pads.
  4. Пессимизация Bounce Pads: Перемещение идентифицированных документов-трамплинов в конец ранжированного списка (или снижение их оценки качества).
  5. Выбор представителя (Каноникализация): Выбор документа с наивысшим рейтингом в скорректированном списке в качестве канонической версии.
  6. Индексация: Индексация выбранного канонического документа.

Какие данные и как использует

Данные на входе

  • Технические факторы:
    • URL-структура: Используется для определения принадлежности документов к сайту и идентификации организаций (домены, поддомены).
    • Код ответа сервера: HTTP статус-коды (особенно 3xx) используются для идентификации редиректов.
    • HTTP заголовки: Refresh header используется для идентификации редиректов.
  • Контентные и Структурные факторы:
    • Мета-теги: Meta refresh tag используется для идентификации редиректов.
    • HTML структура: Используется для обнаружения Frame redirects.
    • Javascript: Анализируется для обнаружения клиентских редиректов.
    • Контент документов: Используется для обнаружения дубликатов (например, через хэширование).
  • Ссылочные факторы:
    • Метрики качества (Measure of quality): Патент упоминает link-based score (ссылочный ранг) как способ ранжирования документов в кластере дубликатов перед выбором канонической версии.

Какие метрики используются и как они считаются

  1. Redirect Score:

    Вычисляется как процент документов на сайте, которые являются редиректами.

    RedirectScore∝Число документов с редиректамиОбщее число документовRedirect Score \propto \frac{\text{Число документов с редиректами}}{\text{Общее число документов}}

  2. Head Number и Tail Number:

    Определяются путем ранжирования целевых организаций по количеству редиректов. Head — топ-N организаций, Tail — остальные.

  3. Spam Score:

    Вычисляется как соотношение количества редиректов на Хвост к количеству редиректов на Голову.

    SpamScore∝Tail NumberHead NumberSpam Score \propto \frac{\text{Tail Number}}{\text{Head Number}}

  4. Bounce Pad Determination (Определение Bounce Pad):

    Функция, зависящая от обеих метрик. F(Redirect Score, Spam Score)=XF(\text{Redirect Score, Spam Score}) = X, где X указывает, является ли сайт Bounce Pad. Функция использует пороговые значения (Redirect Threshold, Spam Threshold) и может учитывать взаимосвязь между метриками (чем выше один балл, тем ниже порог для другого).

Выводы

  1. Комплексная оценка редиректов на уровне сайта: Google анализирует редиректы в контексте всего сайта, а не изолированно. Оценивается как объем (Redirect Score), так и цели/намерение (Spam Score).
  2. Идентификация паттернов поведения (Head/Tail): Ключевым элементом является расчет Spam Score через соотношение Tail/Head. Легитимные сайты (например, при переезде домена) обычно имеют низкий Spam Score (все редиректы ведут в Head). Спам-сайты имеют высокий Spam Score, так как распределяют трафик по множеству разных организаций (высокий Tail).
  3. Bounce Pads исключаются при каноникализации: Патент четко определяет механизм применения этой классификации. Идентификация сайта как Bounce Pad приводит к его автоматическому исключению из числа кандидатов на роль канонической страницы при обнаружении дубликатов.
  4. Переопределение метрик качества: Даже если Bounce Pad имеет высокие метрики качества (например, ссылочный профиль), его классификация как Bounce Pad приводит к принудительному понижению в ранге внутри кластера дубликатов, делая эти метрики неэффективными для попадания в индекс.
  5. Важность собственного контента: Чтобы избежать классификации как Bounce Pad, сайт должен иметь достаточное количество страниц, которые не являются редиректами и предоставляют собственную ценность (низкий Redirect Score).

Практика

Best practices (это мы делаем)

  • Обеспечение преобладания оригинального контента: Убедитесь, что большая часть страниц сайта предоставляет ценность пользователю напрямую, а не служит только для перенаправления. Это помогает поддерживать низкий Redirect Score.
  • Консолидация целей редиректов (для аффилиатов и агрегаторов): Если сайт использует аффилиатную модель с редиректами, старайтесь работать с ограниченным числом крупных, авторитетных партнеров. Это поможет сконцентрировать редиректы в Head и поддерживать низкий Spam Score (низкое соотношение Tail/Head).
  • Корректная настройка редиректов при миграции: При переезде сайта убедитесь, что все редиректы ведут на новый домен (одну организацию). Это легитимный сценарий, который приведет к высокому Redirect Score, но минимальному Spam Score (Tail будет пуст), что не должно привести к классификации как Bounce Pad.
  • Использование редиректов внутри сайта: Патент фокусируется на редиректах на внешние организации. Внутренние редиректы для управления структурой сайта (например, с /index.html на /) не должны учитываться в расчете Spam Score, согласно описанию.
  • Мониторинг исходящих редиректов: Регулярно проверяйте, куда и как часто ваш сайт перенаправляет пользователей, чтобы контролировать паттерн редиректов и исключить несанкционированные перенаправления (например, после взлома).

Worst practices (это делать не надо)

  • Создание дорвеев и сайтов-трамплинов: Создание сайтов, состоящих преимущественно из страниц, перенаправляющих пользователей на другие ресурсы (высокий Redirect Score), является прямой целью этого патента.
  • Массовые редиректы на множество мелких партнеров: Использование партнерских программ, которые требуют редиректов на сотни разных доменов (высокий Tail), значительно увеличивает Spam Score и риск признания сайта Bounce Pad.
  • Копирование чужого контента и добавление редиректов: Создание дублированного контента с целью перенаправления трафика. Даже если такой сайт привлечет трафик, он будет исключен из индекса на этапе каноникализации, так как система предпочтет оригинальный источник.
  • Злоупотребление клиентскими редиректами для маскировки целей: Использование сложных Javascript редиректов или meta refresh для скрытия факта перенаправления неэффективно, так как система учитывает эти типы редиректов при анализе.

Стратегическое значение

Патент подчеркивает стремление Google к индексации оригинального и ценного контента, а не посредников. Он демонстрирует сложный механизм для алгоритмического определения намерений сайта на основе анализа его технической реализации (редиректов). Для SEO-стратегии это означает, что техническая структура и модель поведения сайта могут служить сильными сигналами качества. Стратегии, основанные на массовом перенаправлении трафика без создания собственной ценности, являются высокорискованными.

Практические примеры

Сценарий 1: Легитимный переезд сайта (Низкий риск)

  1. Сайт A.com переезжает на B.com (та же организация).
  2. 100% страниц A.com настраиваются с 301 редиректом на B.com.
  3. Анализ: Redirect Score = 100%. Целевая организация одна (B.com). Head = 100%, Tail = 0%. Spam Score = 0/100 = 0.
  4. Результат: Несмотря на высокий Redirect Score, сайт не классифицируется как Bounce Pad из-за нулевого Spam Score.

Сценарий 2: Агрессивный аффилиатный сайт / Дорвей (Высокий риск)

  1. Сайт С.com содержит 1000 страниц с обзорами товаров, скопированными с других сайтов. 900 страниц содержат аффилиатные редиректы.
  2. Редиректы ведут на 50 разных интернет-магазинов (Организации D-Z).
  3. Анализ: Redirect Score = 90%.
  4. Распределение: Топ-3 магазина (D, E, F) получают по 100 редиректов (Head = 300). Остальные 47 магазинов получают 600 редиректов (Tail = 600).
  5. Расчет: Spam Score = 600/300 = 2.
  6. Результат: Высокий Redirect Score и высокий Spam Score приводят к классификации C.com как Bounce Pad. При индексации, когда система найдет оригинальные обзоры, C.com будет исключен из выбора канонической версии.

Вопросы и ответы

Что такое Bounce Pad Site согласно патенту?

Это веб-сайт или набор документов, основная цель которого — перенаправлять посетителей на сайты, принадлежащие другим организациям. Он идентифицируется по двум параметрам: высокому проценту страниц с редиректами (Redirect Score) и широкому распределению целей этих редиректов по разным организациям (Spam Score).

Как рассчитывается Spam Score и почему важно соотношение Tail/Head?

Spam Score рассчитывается путем деления количества редиректов на менее популярные цели (Tail) на количество редиректов на самые популярные цели (Head). Высокое соотношение указывает на то, что сайт распыляет трафик по множеству разных направлений, что характерно для спама или дорвеев. Низкое соотношение указывает на консолидированное перенаправление (например, при переезде сайта), что считается легитимным поведением.

Что происходит, если мой сайт классифицирован как Bounce Pad?

Патент не описывает прямое пенальти в ранжировании. Вместо этого, во время индексации, когда система обнаруживает дублированный контент (ваш и чужой), ваша страница будет автоматически исключена из рассмотрения при выборе канонической версии. Она перемещается в конец списка кандидатов и, следовательно, не будет проиндексирована и не появится в поиске по этому контенту.

Означает ли этот патент, что все редиректы — это плохо?

Нет. Патент признает легитимные причины для использования редиректов, такие как переезд на новый домен или исправление опечаток в URL. Алгоритм разработан так, чтобы отличать эти сценарии от злонамеренных, используя Spam Score. Легитимные сценарии обычно имеют очень низкий Spam Score.

Какие типы редиректов учитывает система?

Патент перечисляет широкий спектр техник: HTTP статус-коды (например, 301, 302), Meta Refresh (в HTML или HTTP заголовках), Frame redirects, Javascript redirects, и даже полноэкранные Pop-ups. Система стремится учесть все методы автоматического перенаправления пользователя.

Как этот патент влияет на аффилиатные сайты?

Аффилиатные сайты находятся в зоне риска, если они имеют мало собственного контента и в основном перенаправляют пользователей на большое количество разных партнеров. Чтобы минимизировать риск, аффилиатный сайт должен предоставлять значительную собственную ценность (снижая Redirect Score) и, по возможности, консолидировать партнеров (снижая Spam Score).

Учитываются ли редиректы внутри одного сайта?

Патент акцентирует внимание на идентификации внешних организаций, которые являются целями редиректов. В описании упоминается, что при расчете Redirect Score и Spam Score система может исключать редиректы, направленные на ту же организацию, что и исходный сайт. Таким образом, внутренние технические редиректы не должны негативно влиять на оценку.

Как система определяет качество документа при выборе канонической версии?

Перед тем как исключить Bounce Pads, система ранжирует дубликаты в кластере. Патент упоминает использование информации, отражающей качество документов, например, "link-based score" (ссылочный ранг). Bounce Pads перемещаются в конец этого ранжированного списка, независимо от их исходного ссылочного ранга.

Как система определяет «организацию» при анализе целей редиректов?

Патент упоминает, что существуют техники для определения принадлежности разных доменов и субдоменов к одной организации (например, f.com и xyz.abc.f.com, или abc.com и abc.co.uk считаются одной организацией). Это необходимо для точного расчета Head и Tail и корректной оценки Spam Score.

Если мой сайт взломали и разместили много редиректов на спам-ресурсы, будет ли он помечен как Bounce Pad?

Да, это возможно. Взлом может привести к резкому увеличению как Redirect Score (если добавлено много страниц с редиректами), так и Spam Score (если редиректы ведут на множество разных спам-сайтов). Необходимо как можно быстрее устранить последствия взлома и удалить несанкционированные редиректы.

Похожие патенты

Как Google вычисляет «Proxy Pad Score» для обнаружения сайтов, копирующих чужой контент, и пессимизирует их при каноникализации
Google использует механизм для борьбы с сайтами, которые массово копируют контент (Proxy Pads). Система анализирует, как часто контент сайта проигрывает дубликатам с других сайтов по метрикам качества. На основе этого вычисляется «Proxy Pad Score». Если оценка плохая, сайт пессимизируется на этапе индексации при выборе канонической версии, снижая вероятность попадания скопированного контента в индекс.
  • US8874565B1
  • 2014-10-28
  • Антиспам

  • Индексация

  • Техническое SEO

Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.
  • US8661069B1
  • 2014-02-25
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.
  • US8055626B1
  • 2011-11-08
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса
Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.
  • US7627613B1
  • 2009-12-01
  • Краулинг

  • Индексация

  • Техническое SEO

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Популярные патенты

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях
Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.
  • US10628511B2
  • 2020-04-21
  • Ссылки

  • Индексация

  • Поведенческие сигналы

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
  • US9244985B1
  • 2016-01-26
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
  • US8577893B1
  • 2013-11-05
  • Антиспам

  • Ссылки

  • Семантика и интент

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами
Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.
  • US20250209127A1
  • 2025-06-26
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.
  • US8868592B1
  • 2014-10-21
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
  • US8423538B1
  • 2013-04-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов
Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.
  • US9009146B1
  • 2015-04-14
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore