SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google вычисляет «Proxy Pad Score» для обнаружения сайтов, копирующих чужой контент, и пессимизирует их при каноникализации

DETECTION OF PROXY PAD SITES (Обнаружение сайтов-прокси-прокладок)
  • US8874565B1
  • Google LLC
  • 2008-12-29
  • 2014-10-28
  • Антиспам
  • Индексация
  • Техническое SEO
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для борьбы с сайтами, которые массово копируют контент (Proxy Pads). Система анализирует, как часто контент сайта проигрывает дубликатам с других сайтов по метрикам качества. На основе этого вычисляется «Proxy Pad Score». Если оценка плохая, сайт пессимизируется на этапе индексации при выборе канонической версии, снижая вероятность попадания скопированного контента в индекс.

Описание

Какую проблему решает

Патент решает проблему идентификации и нейтрализации так называемых Proxy Pad Sites. Это сайты или организации, чья основная цель — копирование контента с других ресурсов. Спамеры используют такие сайты, пытаясь искусственно повысить их ранг (например, с помощью ссылок), чтобы добиться их индексации. Изобретение направлено на то, чтобы предотвратить выбор контента с Proxy Pad Sites в качестве канонической (представительской) версии при обработке дубликатов, тем самым улучшая качество индекса и защищая оригинальные источники.

Что запатентовано

Запатентована система для вычисления оценки Proxy Pad Score (PPS) на уровне организации (например, веб-сайта). Эта оценка отражает вероятность того, что организация систематически копирует контент. PPS рассчитывается путем анализа всех документов организации и сравнения их Quality Scores (оценок качества) с Quality Scores дублирующегося контента на других сайтах. Полученный PPS затем используется на этапе индексации для пессимизации документов с высоким (плохим) PPS при выборе представительного документа (representative document) из кластера дубликатов.

Как это работает

Система работает в два основных этапа:

Этап 1: Расчет Proxy Pad Score (Офлайн)

  • Система анализирует документы организации и определяет, в какие кластеры дубликатов они входят.
  • В каждом кластере сравниваются Quality Scores. Определяется статус документа: "Победитель" (Winner), "Проигравший" (Loser) или "Тривиальный" (Trivial).
  • Рассчитывается Spam Score, который анализирует разнообразие сайтов, которым организация проиграла. Проигрыш множеству разных сайтов усиливает негативный сигнал.
  • Все эти данные агрегируются в итоговый Proxy Pad Score (PPS) с учетом поправок.

Этап 2: Применение PPS (Индексация/Каноникализация)

  • Когда система индексации обрабатывает кластер дубликатов, она извлекает PPS для участвующих организаций.
  • Quality Scores документов, принадлежащих организациям с высоким PPS, искусственно занижаются (модифицируются).
  • Затем выбирается представительный (канонический) документ на основе этих модифицированных оценок.

Актуальность для SEO

Высокая. Борьба с дублированным, скопированным и автоматически сгенерированным контентом остается приоритетом для Google. Процесс каноникализации критически важен для качества индекса. Описанный механизм предоставляет системный подход к идентификации источников неоригинального контента и их исключению из индекса на этапе выбора канонической версии, что полностью соответствует современным требованиям к качеству контента.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно для стратегий, связанных с агрегацией контента, синдикацией и электронной коммерцией. Он демонстрирует, что Google анализирует оригинальность контента на уровне всего сайта (организации) и использует эту оценку (Proxy Pad Score) как мощный фактор при каноникализации. Сайты, полагающиеся на неуникальный контент, рискуют систематически проигрывать в выборе канонической версии и, как следствие, терять возможность индексации и ранжирования.

Детальный разбор

Термины и определения

Duplicate Cluster (Кластер дубликатов)
Группа документов, идентифицированных как имеющие одинаковое или практически одинаковое содержание. Кластер может содержать от одного документа до миллионов.
Head (Голова)
При расчете Spam Score: небольшое количество организаций, которым анализируемый сайт проиграл наибольшее количество раз.
Loser (Проигравший)
Статус документа организации в кластере дубликатов, если его Quality Score ниже, чем Quality Score хотя бы одного документа другой организации в этом же кластере.
Organization (Организация)
Сущность, с которой связана коллекция документов. Например, веб-сайт, домен, хост или директория.
Proxy Pad / Proxy Pad Site (Сайт-прокси, Прокладка)
Документ или коллекция документов (сайт), чья основная цель – копирование контента у других организаций, часто с целью спама поискового индекса.
Proxy Pad Score (PPS)
Метрика, рассчитываемая для организации, которая отражает вероятность того, что эта организация является Proxy Pad. Используется для модификации Quality Score при выборе представительного документа.
Quality Score (Оценка качества)
Метрика качества документа. В патенте упоминается, что это может быть ссылочный балл (link-based score) или включать другие сигналы (дата создания, вероятность спама и т.д.).
Representative Document (Представительный документ)
Документ, выбранный из кластера дубликатов для включения в поисковый индекс (каноническая версия).
Spam Score (Оценка спама)
Промежуточная метрика, используемая при расчете PPS. Отражает разнообразие источников, с которых организация копирует контент (проигрывает им). Рассчитывается как отношение Tail/Head.
Tail (Хвост)
При расчете Spam Score: большое количество организаций, которым анализируемый сайт проиграл небольшое количество раз.
Trivial (Тривиальный)
Статус документа организации в кластере, если кластер содержит только документы этой организации (т.е. уникальный контент или внутренние дубликаты).
Winner (Победитель)
Статус документа организации в кластере дубликатов, если его Quality Score выше, чем у всех остальных документов других организаций в этом кластере.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных процесса: расчет Proxy Pad Score и его применение при индексации.

Claim 1 (Независимый пункт): Описывает комплексный метод обнаружения и обработки Proxy Pads.

  1. Система идентифицирует набор первых документов, связанных с организацией.
  2. Идентифицируются кластеры дубликатов, куда входят эти документы. Часть кластеров содержит также вторые документы от других организаций.
  3. Определяется Quality Score для каждого документа в кластерах.
  4. Для каждого кластера определяется, выше ли Quality Score первого документа, чем у вторых документов.
  5. Генерируется Proxy Pad Score (PPS) для организации на основе этих определений. PPS указывает на вероятность того, что организация копирует контент.
  6. Quality Score первых документов модифицируется на основе PPS.
  7. Происходит индексация одного или нескольких первых документов на основе их модифицированных Quality Scores.

Claim 6 (Зависимый от 3): Детализирует механизм учета спама (разнообразия источников копирования) при расчете PPS.

  1. Определяется количество кластеров, в которых документ организации проиграл (Loser).
  2. На основе этого количества (и распределения проигрышей, как детализировано в описании) генерируется Spam Score.
  3. Агрегированная информация о проигрышах (Total Loser Score) увеличивается на основе Spam Score перед расчетом финального PPS.

Claim 9 (Зависимый от 8): Детализирует учет уникального контента (Trivial) и противодействие тактике «разбавления».

  1. Агрегированная информация о тривиальных документах (Total Trivial Score) уменьшается на определенную величину.
  2. Уменьшенная оценка добавляется к агрегированным оценкам Winner и Loser для генерации PPS. Это сделано для того, чтобы спамеры не могли компенсировать скопированный контент большим объемом уникального контента.

Claim 27 (Независимый пункт): Описывает процесс применения Proxy Pad Score во время каноникализации.

  1. Идентифицируется кластер дубликатов.
  2. Определяется мера качества (Quality Score) для каждого документа.
  3. Документы ранжируются на основе этой меры качества.
  4. Мера качества одного из документов модифицируется (понижается) на основе Proxy Pad Score организации, которой он принадлежит.
  5. Выбирается представительный документ (канонический) для кластера на основе модифицированной меры качества.
  6. Выбранный документ индексируется.

Где и как применяется

Изобретение применяется в рамках глобального конвейера индексирования.

CRAWLING – Сканирование и Сбор данных
Crawler Engine собирает документы, которые являются источником данных для системы.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Он включает несколько подпроцессов:

  1. Извлечение Признаков: На этом этапе рассчитываются базовые Quality Scores (например, на основе ссылок) для документов.
  2. Обнаружение Дубликатов: Duplicate Detector анализирует контент или использует предиктивную кластеризацию для группировки документов в Duplicate Clusters.
  3. Анализ Proxy Pad (Офлайн): Proxy Pad Analyzer (в частности, Proxy Scorer) использует данные о кластерах и Quality Scores для расчета Proxy Pad Score (PPS) для организаций. Это ресурсоемкий офлайн-процесс.
  4. Выбор Представителя (Каноникализация): Representative Selector обрабатывает кластеры дубликатов. Он извлекает заранее рассчитанный PPS и использует его для модификации (понижения) Quality Scores документов. Затем он выбирает Representative Document.
  5. Индексация: Indexer включает в поисковый индекс только выбранный Representative Document.

Входные данные:

  • Корпус просканированных документов и данные о кластерах дубликатов.
  • Quality Scores для документов (например, PageRank или аналоги).
  • Данные для идентификации Организаций (домены, хосты).

Выходные данные:

  • Proxy Pad Score (PPS) для каждой организации.
  • Выбранный Representative Document (канонический URL) для каждого кластера.

На что влияет

  • Конкретные типы контента: Влияет на любой тип контента, который может быть продублирован: статьи, описания товаров, справочная информация, новостные ленты.
  • Конкретные ниши или тематики: Наибольшее влияние в нишах, где распространено копирование и агрегация контента: новости, электронная коммерция (eCommerce), сайты с отзывами, аффилиатные сайты, полагающиеся на контент партнеров.

Когда применяется

  • Расчет PPS: Выполняется периодически в офлайн-режиме (batch processing), так как требует анализа взаимосвязей между большим количеством документов и организаций.
  • Применение PPS: Происходит постоянно в процессе индексации, конкретно на этапе выбора представительного документа (каноникализации) для каждого обнаруженного кластера дубликатов.
  • Условия активации пессимизации: Пессимизация применяется, если Proxy Pad Score организации превышает определенный порог (в патенте предлагается порог в 70% от максимального нормализованного значения PPS).

Пошаговый алгоритм

Процесс А: Расчет Proxy Pad Score (Офлайн)

  1. Идентификация документов и кластеров: Выбирается организация (например, сайт A.com), идентифицируются ее документы и кластеры дубликатов, к которым они принадлежат.
  2. Определение Quality Scores: Для всех документов во всех затронутых кластерах извлекаются Quality Scores.
  3. Определение статуса: Для каждого кластера анализируется статус документов организации A.com:
    • Winner: Если Quality Score документа A.com самый высокий в кластере.
    • Loser: Если Quality Score документа A.com ниже, чем у документа другой организации.
    • Trivial: Если в кластере только документы A.com.
  4. Расчет агрегированных оценок:
    • Total Winner Score (W): Сумма Quality Scores всех Winners.
    • Total Loser Score (L): Сумма разниц между Quality Score проигравшего и Quality Score победителя для всех Losers (отрицательное значение).
    • Total Trivial Score (T): Сумма Quality Scores всех Trivials.
  5. Расчет Spam Score (Анализ разнообразия источников):
    • Составляется ранжированный список организаций, которым A.com проиграл, с указанием частоты проигрышей.
    • Список делится на Head (Топ-N организаций, которым проиграли чаще всего) и Tail (остальные).
    • Spam Score рассчитывается как соотношение суммы проигрышей в Tail к сумме проигрышей в Head. Высокий балл указывает на копирование из множества источников.
  6. Определение коэффициентов:
    • Определяется коэффициент деления XX для Trivial Score (например, 2), чтобы снизить влияние уникального контента.
    • Определяется коэффициент умножения YY для Loser Score на основе Spam Score (например, от 1 до 3), чтобы увеличить вес поражений при высоком Spam Score.
  7. Расчет Proxy Pad Score (PPS): Вычисляется итоговый балл. Формула: PPS=T/XX+W+L∗YYPPS = T/XX + W + L*YY.
  8. Нормализация и Логарифмирование: PPS может быть подвергнут логарифмической операции и нормализован (например, в диапазон 0-1000).

Процесс Б: Применение Proxy Pad Score (Индексация/Каноникализация)

  1. Обнаружение кластера: Система индексации идентифицирует Duplicate Cluster.
  2. Первичное ранжирование: Документы в кластере ранжируются на основе их исходных Quality Scores.
  3. Получение PPS: Для каждого документа извлекается Proxy Pad Score его организации.
  4. Расчет коэффициента понижения (Division Factor): PPS конвертируется в коэффициент понижения. Если PPS высокий (например, >70% от максимума), фактор может варьироваться от 1 до 2. Если низкий, фактор равен 1.
  5. Модификация Quality Scores: Исходный Quality Score документа делится на этот фактор. ModifiedScore=QualityScore/DivisionFactorModified Score = Quality Score / Division Factor.
  6. Выбор представителя: Документ с наивысшим Modified Score выбирается как Representative Document (канонический).
  7. Индексация: Представительный документ включается в индекс.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Содержимое документов или их хеши/чексуммы используются для обнаружения дубликатов и формирования Duplicate Clusters (content-based clustering).
  • Технические факторы: URL-адреса, параметры URL и редиректы используются для идентификации дубликатов (predictive clustering). Данные о хостинге/домене используются для идентификации Organization.
  • Ссылочные факторы: Являются основным примером для расчета Quality Score документа. Патент прямо указывает на link-based score.
  • Временные факторы: Дата создания документа упоминается как возможный компонент Quality Score.

Какие метрики используются и как они считаются

  • Quality Score: Входная метрика качества документа (например, PageRank).
  • Winner/Loser/Trivial Scores (W, L, T): Агрегированные метрики. Loser Score рассчитывается как сумма разниц между оценкой проигравшего и победителя в кластере.
  • Spam Score: Метрика, оценивающая паттерны копирования. Рассчитывается как отношение Tail/HeadTail/Head. Высокий Spam Score указывает на копирование из множества разных источников.
  • Весовые коэффициенты (XX и YY):
    • XX: Коэффициент для понижения влияния Total Trivial Score (например, 2).
    • YY: Множитель для увеличения влияния Total Loser Score, определяется на основе Spam Score (например, от 1 до 3).
  • Proxy Pad Score (PPS): Итоговая оценка организации. Рассчитывается по формуле: PPS=T/XX+W+L∗YYPPS = T/XX + W + L*YY.
  • Division Factor: Коэффициент, получаемый из нормализованного PPS (например, от 1 до 2). Используется для понижения Quality Score документа во время индексации.

Выводы

  1. Систематическое выявление копирования на уровне организации: Google располагает механизмом для оценки сайтов на предмет систематического копирования контента. Proxy Pad Score — это метрика на уровне организации, основанная на анализе поведения сайта в кластерах дубликатов по всему интернету.
  2. Пессимизация на этапе индексации (Каноникализация): Proxy Pad Score используется для модификации Quality Score во время выбора канонического представителя. Это механизм контроля индексации: если сайт не выбран каноническим, он не может ранжироваться по данному контенту.
  3. Механизм Spam Score (Tail/Head) для определения намерений: Система не просто считает количество скопированного контента, но и анализирует разнообразие источников. Копирование с множества разных сайтов (высокое соотношение Tail/Head) увеличивает Spam Score и приводит к более агрессивной пессимизации (увеличение веса Loser Score). Это позволяет отличать скрапинг от легитимного дублирования (например, переезда сайта).
  4. Противодействие тактике «разбавления»: Уникальный контент (Trivial) учитывается, но его вес намеренно снижается (коэффициент XX). Это сделано для того, чтобы спамеры не могли компенсировать скопированный контент большим объемом уникального, но низкокачественного контента.
  5. Агрессивность пессимизации: Предлагаемый механизм может уменьшить Quality Score документа вплоть до 50% (деление на 2) при выборе канонической версии, если сайт имеет очень высокий (плохой) Proxy Pad Score.

Практика

Best practices (это мы делаем)

  • Приоритет оригинального контента и добавленной ценности: Основная стратегия – минимизировать статус Loser. Создание оригинального контента является лучшей защитой. Если контент дублируется (например, описания товаров), необходимо добавлять значительную уникальную ценность.
  • Построение авторитета (Quality Score): Поскольку выбор канонической версии основан на Quality Score, необходимо наращивать авторитет сайта (например, через качественные ссылки). Высокий базовый Quality Score позволяет «выигрывать» в кластерах дубликатов, если ваш контент был скопирован.
  • Правильное управление синдикацией: При синдикации вашего контента на другие площадки требуйте использования тега rel="canonical", указывающего на ваш оригинал. Это помогает системе правильно определить источник и избежать нежелательной конкуренции в кластере дубликатов.
  • Уникализация шаблонного контента (E-commerce): Для интернет-магазинов критически важно уникализировать описания товаров от поставщиков, добавляя обзоры, пользовательский контент или уникальные характеристики. В противном случае сайт рискует получить массовые Loser исходы.

Worst practices (это делать не надо)

  • Скрапинг и автоматическая агрегация без добавленной ценности: Сайты, которые массово копируют контент из множества источников, будут идентифицированы через высокий Spam Score (соотношение Tail/Head) и получат высокий Proxy Pad Score, что приведет к исключению их контента из индекса.
  • Использование стандартных описаний производителя: Использование описаний товаров, идентичных сотням других магазинов, без добавления уникального контента увеличивает риск потери канонического статуса в пользу более авторитетных сайтов.
  • Искусственное разбавление контента: Попытки обмануть систему путем добавления большого количества уникального, но бесполезного контента для увеличения Trivial Score неэффективны, так как патент предусматривает снижение веса Trivial Score (коэффициент XX).
  • Покупка ссылок на скопированный контент: Попытки повысить Quality Score скопированного контента рискованны. Даже если удастся превзойти оригинал по базовому Quality Score, высокий Proxy Pad Score может нивелировать это преимущество на этапе каноникализации.

Стратегическое значение

Патент подтверждает стратегическую важность уникальности и авторитетности контента. Он демонстрирует, что Google рассматривает копирование контента как характеристику всего сайта (организации), а не только отдельных страниц. Для SEO-стратегии это означает, что управление дубликатами и создание уникальной ценности являются критически важными не только для ранжирования, но и для базовой возможности присутствия в индексе. Систематическое копирование контента приводит к технической пессимизации на уровне инфраструктуры индексирования.

Практические примеры

Сценарий 1: Электронная коммерция и описания товаров

  1. Ситуация: Магазин А (низкий авторитет) и Магазин Б (высокий авторитет) используют идентичное описание товара от Производителя В.
  2. Анализ Кластера: Все три страницы попадают в один кластер. Магазин Б имеет наивысший Quality Score. Магазин А и Производитель В получают статус Loser.
  3. Расчет PPS для Магазина А: Если Магазин А систематически проигрывает по тысячам товаров разным крупным ритейлерам и производителям, он накапливает большой отрицательный Total Loser Score и высокий Spam Score.
  4. Каноникализация: Система сравнивает модифицированные Quality Scores. Quality Score Магазина А дополнительно снижается из-за его плохого PPS.
  5. Результат: Магазин Б выбирается канонической версией. Страница Магазина А не индексируется по этому контенту.

Сценарий 2: Сайт-агрегатор рецептов против оригинальных блогов

  1. Ситуация: Агрегатор копирует рецепты с 1000 разных фуд-блогов.
  2. Расчет Spam Score: Агрегатор проигрывает (статус Loser) сотням разных блогов. Head будет небольшим, а Tail огромным. Spam Score (Tail/Head) будет очень высоким.
  3. Расчет PPS: Высокий Spam Score значительно увеличит вес поражений (коэффициент YY). PPS будет плохим.
  4. Индексация: Даже если у агрегатора исходный Quality Score (QS=100) выше, чем у блога (QS=80). Из-за плохого PPS у агрегатора применяется Division Factor (например, 1.8). Модифицированный QS агрегатора = 100/1.8 = 55.5.
  5. Результат: Оригинальный блог (QS=80) выбирается канонической версией.

Вопросы и ответы

Влияет ли Proxy Pad Score напрямую на ранжирование?

Нет, напрямую не влияет. Патент описывает использование Proxy Pad Score исключительно на этапе индексации для выбора канонической версии (Representative Document). Однако это имеет критическое косвенное влияние: если ваша страница не выбрана канонической из-за плохого PPS, она не будет проиндексирована и, следовательно, не сможет ранжироваться по этому контенту.

Как система определяет Quality Score, упоминаемый в патенте?

Патент не дает точного определения, но приводит в качестве основного примера оценку, основанную на ссылках (link-based score), что подразумевает PageRank или аналогичные метрики авторитетности. Также кратко упоминается возможность использования других сигналов, таких как дата создания документа или предсказание того, является ли документ спамом.

Как система отличает переезд сайта или легитимное зеркало от скрапинга?

Это достигается с помощью механизма Spam Score (анализ Head/Tail). Если сайт А копирует много контента, но весь он взят с сайта Б (переезд), то сайт Б будет в Head, а Tail будет пустым. Spam Score (Tail/Head) будет низким, и пессимизация будет минимальной. Если же сайт А копирует понемногу с сотен разных сайтов (высокий Tail), Spam Score будет высоким, что является сильным индикатором скрапинга и приведет к сильной пессимизации.

Что делать, если мой контент скопировали, и скрапер ранжируется выше меня?

Это означает, что скрапер был выбран канонической версией. Согласно патенту, это может произойти, если базовый Quality Score скрапера значительно выше вашего, и при этом его Proxy Pad Score еще не успел ухудшиться или недостаточно плох, чтобы нивелировать это преимущество. Ваша стратегия должна заключаться в повышении собственного Quality Score (авторитетности сайта).

Как безопасно синдицировать контент, не ухудшая Proxy Pad Score?

Ключевым моментом является использование технических сигналов каноникализации. Если вы публикуете чужой контент, необходимо использовать rel="canonical", указывающий на оригинал. Это должно помочь системе правильно атрибутировать контент и защитить вас от получения статуса Loser по этому документу.

Почему система снижает вес уникального контента (Trivial Score)?

Патент предполагает, что спамеры могут пытаться обмануть систему, смешивая скопированный контент с большим количеством уникального контента (например, автоматически сгенерированного или низкокачественного). Снижение веса Trivial Score (деление на коэффициент XX) уменьшает положительный вклад этого уникального контента в общий Proxy Pad Score, не позволяя маскировать копирование.

Насколько сильно может быть пессимизирован документ из-за Proxy Pad Score?

Согласно патенту, пессимизация реализуется через коэффициент деления (Division Factor), который может достигать значения 2. Это означает, что Quality Score документа может быть уменьшен вдвое перед сравнением с другими документами в кластере дубликатов при выборе канонической версии.

Применяется ли этот механизм к частичному дублированию контента (near-duplicates)?

Патент говорит о дубликатах или "существенных дубликатах" (substantially duplicated). Если система кластеризации определяет два документа как существенные дубликаты и помещает их в один кластер, то описанный механизм будет применен. Если же контент достаточно отличается, они не попадут в один кластер.

Как этот патент влияет на сайты электронной коммерции, использующие стандартные описания?

Такие сайты находятся в зоне риска. Если они используют идентичные описания и не имеют достаточного авторитета (Quality Score), они будут систематически проигрывать более крупным ритейлерам или производителям. Это приведет к плохому Proxy Pad Score и риску исключения страниц товаров из индекса. Критически важно добавлять уникальный контент и ценность.

Может ли авторитетный сайт быть классифицирован как Proxy Pad?

Теоретически да, если он систематически копирует контент и проигрывает в кластерах дубликатов (например, если он копирует контент у еще более авторитетных сайтов). Однако высокий базовый Quality Score авторитетного сайта дает ему значительное преимущество. Чтобы его пессимизировать, Proxy Pad Score должен быть очень плохим, чтобы преодолеть высокий базовый авторитет.

Похожие патенты

Как Google идентифицирует сайты-трамплины (Bounce Pads/Дорвеи) и исключает их из индекса при выборе канонической версии
Google использует механизм для обнаружения «Bounce Pads» — сайтов, основная цель которых — перенаправление пользователей на другие ресурсы. Система анализирует долю редиректов на сайте (Redirect Score) и разнообразие внешних целей перенаправления (Spam Score). Обнаруженные сайты-трамплины помечаются и исключаются из рассмотрения при выборе канонической (главной) версии страницы среди дубликатов, что предотвращает их попадание в поисковую выдачу.
  • US8037073B1
  • 2011-10-11
  • Индексация

  • Антиспам

  • Техническое SEO

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами
Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.
  • US7783639B1
  • 2010-08-24
  • Ссылки

  • Антиспам

  • EEAT и качество

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.
  • US8055626B1
  • 2011-11-08
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи
Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.
  • US7996379B1
  • 2011-08-09
  • Семантика и интент

  • Ссылки

  • SERP

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
  • US9767157B2
  • 2017-09-19
  • Семантика и интент

  • Техническое SEO

  • EEAT и качество

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных
Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.
  • US10318581B2
  • 2019-06-11
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи
Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.
  • US9940367B1
  • 2018-04-10
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу
Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.
  • US20150310100A1
  • 2015-10-29
  • Персонализация

  • Индексация

  • Поведенческие сигналы

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток
Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.
  • US9465871B1
  • 2016-10-11
  • Антиспам

  • SERP

  • Ссылки

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

seohardcore