Как Google фильтрует дубликаты в выдаче, сравнивая только релевантные запросу фрагменты контента (сниппеты)

Google использует механизм для динамического определения дубликатов в поисковой выдаче. Вместо сравнения документов целиком, система извлекает из них части, наиболее релевантные запросу (сниппеты). Если эти сниппеты у разных документов совпадают или очень похожи, документы считаются дубликатами для данного конкретного запроса, и менее релевантные удаляются из выдачи.

Описание

Какую задачу решает

Патент решает проблему неэффективности традиционных методов обнаружения дубликатов, которые сравнивают документы целиком. Эти методы часто не могут идентифицировать дублирование, когда документы в целом различаются (например, из-за разных шаблонов, навигации или агрегации контента), но содержат идентичную информацию, релевантную конкретному запросу. Это приводит к засорению поисковой выдачи (SERP) избыточными результатами. Изобретение улучшает разнообразие SERP, фильтруя дубликаты на основе только той части контента, которая отвечает на запрос пользователя.

Что запатентовано

Запатентована система и метод для обнаружения дубликатов документов в зависимости от конкретного поискового запроса (Query-Specific Duplicate Detection). Суть изобретения заключается в том, чтобы перед сравнением двух документов на схожесть, «конденсировать» их контент на основе запроса. Система извлекает релевантные запросу части (Query-Relevant Parts или Snippets) из документов и сравнивает только эти извлеченные части, а не документы целиком.

Как это работает

Механизм работает на этапе формирования финальной выдачи:

Генерация кандидатов: Поисковая система генерирует стандартный набор ранжированных результатов (Candidate Set).
Извлечение сниппетов: Для каждого документа извлекаются Query-Relevant Parts. Патент подробно описывает метод «скользящего окна» (sliding window) для поиска сегментов с наибольшей плотностью ключевых слов из запроса.
Сравнение: Система последовательно сравнивает сниппеты текущего документа со сниппетами всех документов с более высоким рейтингом, уже добавленных в финальный набор результатов (Final Set).
Фильтрация: Если сниппеты признаны «похожими» (используя метрики сходства, такие как shingling или cosine distance), текущий документ считается дубликатом для этого запроса и исключается из выдачи.

Актуальность для SEO

Высокая. Обеспечение разнообразия выдачи (SERP Diversity) и борьба с дублированием контента (особенно синдицированным и агрегированным) являются фундаментальными задачами современных поисковых систем. Описанный механизм динамического определения схожести контента в контексте запроса остается критически важным для качества поиска.

Важность для SEO

Патент имеет высокое стратегическое значение (85/100). Он радикально меняет понимание «дублированного контента» в SEO. Дублирование определяется не на уровне всего документа, а на уровне конкретного ответа на запрос пользователя. Это означает, что даже уникальная в целом страница может быть отфильтрована как дубликат, если ее основной контент, релевантный запросу (сниппет), идентичен контенту более высоко ранжирующегося сайта.

Детальный разбор

Термины и определения

Candidate Result (CR) (Кандидатский результат): Документ, отобранный поисковой системой на начальном этапе ранжирования (Candidate Set) до применения дедупликации.
Duplicate (Дубликат): В контексте патента — документ, чьи Query-Relevant Parts признаны достаточно похожими на Query-Relevant Parts другого документа, уже включенного в Final Set.
Final Set (Финальный набор): Набор результатов поиска после удаления дубликатов, готовый к показу пользователю.
Query-Relevant Information/Parts (QRI/QR) (Информация/Части, релевантные запросу): Извлеченные из документа фрагменты (текст), которые наиболее связаны с запросом. Часто называются «сниппетами» (snippets). Являются основой для сравнения.
Segment (Сегмент): Фрагмент документа, который анализируется на предмет релевантности запросу. Может быть определен как окно фиксированного размера (fixed-length window), предложение или параграф.
Shingle / Shingling (Шингл / Шинглинг): Метод анализа схожести (метод Бродера). Shingle — это непрерывная последовательность слов. Схожесть определяется путем сравнения наборов шинглов двух фрагментов.
Similarity Metric (S) (Метрика сходства): Алгоритм для количественной оценки схожести двух Query-Relevant Parts. Примеры: точное совпадение, edit distance, cosine distance, shingling.
Sliding Window (Скользящее окно): Метод извлечения QRI, при котором окно фиксированной длины перемещается по тексту для поиска сегментов с наибольшей плотностью ключевых слов.

Ключевые утверждения (Анализ Claims)

Важно: Патент US8452766B1 является продолжением (continuation) более ранних заявок (приоритет от 2000 года). В то время как общее описание фокусируется на системе дедупликации, конкретные Claims этого патента сосредоточены на методе извлечения релевантных частей (QRI).

Claim 1 (Независимый пункт): Описывает метод идентификации Query-Relevant Part документа с использованием скользящего окна.

Система получает результаты поиска (документы) в ответ на запрос.
Для каждого документа идентифицируется набор сегментов путем скольжения окна фиксированной длины (fixed-length window) по контенту.
Важная деталь: процесс скольжения включает пропуск пробелов и символов, которые привели бы к разрыву слова (splitting a word) в конце окна.
Для каждого сегмента определяется количество вхождений слов из запроса.
Сегменты документа ранжируются на основе этих подсчетов.
Один или несколько сегментов с наивысшим рейтингом идентифицируются как Query-Relevant Part этого документа.

Claim 5 (Зависимый от 1): Уточняет применение этого метода.

Метод далее включает определение того, что пара документов является дубликатами, на основе сравнения их соответствующих Query-Relevant Parts (извлеченных согласно Claim 1).

Claims 6 и 7 (Зависимые от 5): Уточняют критерии сравнения.

Дублирование фиксируется, если Query-Relevant Parts идентичны (Claim 6) или схожи (Claim 7).

Claims 8 и 9 (Зависимые от 1): Детализируют метод подсчета вхождений.

Подсчет может учитывать каждое вхождение любого слова запроса в сегменте (Claim 8) или только первое вхождение любого слова запроса в сегменте (Claim 9). Это позволяет настраивать чувствительность метода извлечения.

Где и как применяется

Изобретение применяется после основного ранжирования для фильтрации результатов перед их показом пользователю.

INDEXING – Индексирование и извлечение признаков
Система должна поддерживать репозиторий (Repository) с полными (декомпрессированными) текстами документов для возможности извлечения сниппетов на лету.

RANKING – Ранжирование
На этом этапе генерируется первоначальный набор ранжированных результатов (Candidate Set), который служит входными данными для процесса удаления дубликатов.

RERANKING – Переранжирование (или METASEARCH – Смешивание)
Основное место применения патента. Процесс Duplicate Removal Management Process активируется для фильтрации набора кандидатов.

Извлечение: Query Relevant Information Extraction Process генерирует QRI для каждого документа, используя методы, описанные в патенте (например, Sliding Window).
Сравнение: Query Dependent Similarity Process сравнивает эти QRI.
Фильтрация: Дубликаты подавляются для формирования Final Set.

Входные данные:

Поисковый запрос (Keywords).
Ранжированный список кандидатов (Candidate Set).
Полные тексты документов (из Repository).

Выходные данные:

Финальный набор результатов без дубликатов, специфичных для запроса (Final Set).
Сгенерированные QRI (сниппеты), которые могут быть показаны в SERP.

На что влияет

Типы контента: Сильно влияет на агрегированный контент, синдицированные новости, зеркала сайтов, страницы с параметрами (фасеты), где релевантная информация может быть идентичной, несмотря на разные URL или шаблоны.
Ниши и тематики: Критично для E-commerce (описания от производителей), новостных порталов, справочников и любых ниш с высокой степенью перепечатки информации.

Когда применяется

Условия работы: Применяется в реальном времени во время обработки поискового запроса, после этапа основного ранжирования.
Пороговые значения: Эффективность зависит от настроек параметров извлечения (например, размер окна) и порога сходства (Similarity Threshold). Патент отмечает, что чем меньше информации извлекается, тем выше должен быть порог сходства, и наоборот.

Пошаговый алгоритм

Процесс состоит из основного цикла управления и подпроцессов извлечения QRI.

Процесс А: Управление удалением дубликатов

Инициализация: Получение ранжированного списка кандидатов (CR). Добавление результата с наивысшим рейтингом (CR1) в финальный набор (Final Set).
Итерация по кандидатам: Начало итерации по остальным кандидатам (CRi), начиная с i=2.
Извлечение QRI: Генерация релевантной запросу части (QRIi) для текущего документа CRi (См. Процесс Б или В).
Сравнение: Сравнение QRIi с релевантными частями (QRIj) *каждого* документа, уже присутствующего в Final Set.
Проверка сходства: Применение метрики сходства к паре (QRIi, QRIj).
- Если Похожи (превышен порог): Подавить CRi (он является дубликатом). Прервать сравнение и перейти к следующему кандидату (Шаг 2).
- Если Не похожи: Продолжить сравнение со следующим QRIj.
Добавление в финал: Если QRIi не признан похожим ни с одним QRIj в Final Set, добавить CRi в Final Set.
Завершение: Повторение до тех пор, пока не будет получено достаточное количество результатов или не будет исчерпан список кандидатов.

Процесс Б: Извлечение QRI (Метод скользящего окна, согласно Claim 1)

Подготовка: Принять документ и ключевые слова запроса. Удалить форматирование/пунктуацию (опционально). Установить размер окна (например, 100 символов).
Скольжение Окна: Перемещать окно по документу. Перемещение происходит с учетом того, чтобы не разрывать слова в конце окна и пропускать пробелы.
Оценка Сегмента: Для каждой позиции окна (сегмента) подсчитать количество содержащихся в нем ключевых слов запроса (используя методы из Claim 8 или 9).
Ранжирование: Отсортировать все сегменты по количеству ключевых слов.
Выбор QRI: Выбрать предопределенное количество (например, 2) сегментов с наивысшим рейтингом.

Процесс В: Извлечение QRI (Альтернативный метод: Лингвистический)

Сегментация: Разделить документ на предложения или параграфы.
Фильтрация: Выбрать все сегменты, которые содержат предопределенное количество ключевых слов запроса (например, хотя бы одно).

Какие данные и как использует

Данные на входе

Контентные факторы: Полный текст декомпрессированного документа (decompressed document). Во время извлечения сниппетов форматирующие коды и пунктуация могут быть удалены. Заголовки (Titles) также могут быть включены в QRI.
Пользовательские факторы (Данные запроса): Ключевые слова из запроса пользователя (Query Keywords), часто за исключением стоп-слов.
Системные данные (Ранжирование): Первоначальный порядок ранжирования кандидатов определяет последовательность сравнения и то, какой результат будет сохранен в случае дублирования.

Какие метрики используются и как они считаются

Система использует метрики для двух задач: извлечения QRI и сравнения QRI.

1. Метрики Извлечения QRI:

Keyword Count (Подсчет ключевых слов): Основная метрика для оценки сегмента. Подсчитывается количество вхождений слов из запроса в пределах сегмента. Может учитывать каждое вхождение или только первое вхождение слова в сегменте.

2. Метрики Сравнения QRI (Similarity Metrics): Патент упоминает несколько возможных методов:

Exact Match (Точное совпадение): QRI должны быть идентичны.
Edit Distance (Расстояние редактирования): Измерение количества операций для преобразования одного QRI в другой.
Cosine Distance (Косинусное расстояние): Сравнение векторов признаков (частотности слов) QRI. Результат, близкий к 1, указывает на высокую схожесть. Не чувствителен к порядку слов.
Shingling (Шинглинг / Метод Бродера): Сравнение наборов смежных последовательностей (шинглов). Схожесть определяется как размер пересечения наборов, деленный на размер их объединения. Эффективен для обнаружения переставленных фраз.

Во всех случаях результат сравнения сопоставляется с пороговым значением (Similarity Threshold) для принятия бинарного решения (дубликат / не дубликат).

Выводы

Дублирование зависит от контекста запроса (Query-Specific): Документ не является дубликатом сам по себе; он является дубликатом в контексте конкретного запроса. Если части, релевантные запросу (QRI), идентичны, документы рассматриваются как дубликаты, даже если остальная часть контента сильно различается.
Сниппеты (QRI) — основа для сравнения: Система игнорирует нерелевантные запросу части документа (шаблоны, навигацию, дополнительный контент) при обнаружении дубликатов. Сходство определяется исключительно на основе сравнения QRI.
Метод извлечения сниппетов критичен: Способ генерации QRI (например, метод скользящего окна, фокусирующийся на плотности ключевых слов) определяет, что именно будет сравниваться. Патент детально защищает этот механизм.
Фильтрация не транзитивна: Сходство не передается по цепочке. Если A похож на B, и B похож на C, но A не похож на C, то A и C могут оба присутствовать в выдаче (если B будет удален как дубликат A). Это предотвращает чрезмерную фильтрацию.
Ранк определяет выжившего: При обнаружении группы дубликатов сохраняется только тот результат, который имел наивысший ранг в исходном списке кандидатов.

Практика

Best practices (это мы делаем)

Обеспечение уникальности ключевых сегментов контента: Сосредоточьтесь на том, чтобы фрагменты текста, которые наиболее точно отвечают на целевой запрос (и, следовательно, будут извлечены как QRI), были уникальными. Это важнее, чем техническая уникальность всего документа.
Добавленная ценность при агрегации/синдикации: При использовании стороннего контента (описания товаров, новости) необходимо добавлять существенный объем уникального релевантного контента (аналитику, обзоры, сравнения). Если ваш QRI будет состоять только из агрегированного текста, страница будет отфильтрована.
Дифференциация стандартизированной информации: Если вы публикуете информацию, которая есть у других (технические характеристики, определения), дифференцируйте ее представление. Добавляйте уникальный контекст, чтобы ваш QRI отличался от QRI конкурентов.
Оптимизация под генерацию сниппетов: Структурируйте контент так, чтобы ключевые фразы находились в плотных, информативных и уникально сформулированных блоках. Это поможет алгоритму скользящего окна выбрать ваш уникальный текст в качестве QRI.

Worst practices (это делать не надо)

Поверхностный рерайтинг и спиннинг: Легкая перестановка слов или замена синонимов может быть недостаточной. Методы сравнения, такие как Cosine Distance или Shingling, могут идентифицировать такие фрагменты как дубликаты, несмотря на текстовые различия.
Полагаться на уникальный дизайн/шаблон: Изменение дизайна сайта, навигации или футера не предотвратит проблемы с дублированным контентом. Если основной релевантный контент идентичен, Google это обнаружит, так как шаблонный текст игнорируется при генерации QRI.
Дословное копирование/скрейпинг: Создание страниц, которые копируют информацию без добавления ценности. Этот патент напрямую нацелен на подавление такого контента в SERP.

Стратегическое значение

Патент подчеркивает приверженность Google разнообразию и полезности SERP. Он демонстрирует механизм, позволяющий системе анализировать уникальность на гранулярном уровне, специфичном для интента пользователя. Стратегия SEO должна быть сосредоточена на предоставлении уникальной ценности и уникальном представлении информации, а не просто на уникальных URL или шаблонах. Это также объясняет, почему авторитетные сайты часто «выигрывают» битвы за синдикацию, поскольку они изначально ранжируются выше и подавляют дубликаты с более низким рейтингом.

Практические примеры

Сценарий 1: Обработка описаний от производителя в E-commerce

Контекст: Сайт электронной коммерции (Сайт B) использует описание товара, предоставленное производителем. Конкурент (Сайт A) занимает позицию №1, используя то же самое описание.
Механизм: Пользователь ищет название продукта. Google извлекает описание продукта как Query-Relevant Part для Сайта A (QRA) и Сайта B (QRB), так как там наибольшая плотность ключевых слов.
Действие: Duplicate Removal Management Process добавляет Сайт A в финальный набор. Затем он сравнивает QRB с QRA.
Результат: Поскольку QRA и QRB идентичны (или очень похожи), Сайт B подавляется в SERP для этого запроса.
SEO-решение: Сайт B должен существенно переписать описание, добавив уникальный анализ или детали, гарантируя, что сегменты, которые извлечет Google (QRI), будут отличаться от сегментов Сайта A.

Сценарий 2: Дедупликация новостных статей

Запрос: «Запуск ракеты Falcon 9 Starlink»
Кандидаты: Сайт А (Оригинальный источник) и Сайт Б (Агрегатор, скопировавший новость).
Извлечение QRI: Google извлекает ключевые абзацы новости с обоих сайтов. Они практически идентичны.
Сравнение: Система применяет метрику схожести (например, шинглы). Метрика показывает высокую степень схожести.
Результат: Если Сайт А ранжируется выше, он остается в выдаче. Сайт Б признается дубликатом Сайта А для этого запроса и исключается.

Вопросы и ответы

Могут ли две страницы считаться дубликатами, если текст на них сильно различается?

Да. Ключевая идея патента в том, что дублирование зависит от запроса. Если части страниц, наиболее релевантные конкретному запросу (Query-Relevant Parts), являются идентичными или очень похожими, они могут быть признаны дубликатами для этого запроса, даже если остальной текст (например, шаблоны или дополнительный контент) на страницах полностью отличается.

Как система определяет, какие части документа являются «релевантными запросу» (QRI)?

Патент описывает конкретные методы. Основной метод (описанный в Claim 1) использует Sliding Window (например, 100 символов), которое перемещается по тексту. Система подсчитывает, сколько ключевых слов запроса содержится в каждом окне. Сегменты (окна) с наибольшим количеством ключевых слов выбираются как QRI для сравнения.

Влияет ли шаблонный текст (boilerplate), такой как навигация или футер, на обнаружение дубликатов по этому патенту?

Как правило, нет. Поскольку система извлекает только те сегменты, которые содержат ключевые слова запроса, шаблонный текст игнорируется, если он не содержит этих ключевых слов. Это позволяет Google игнорировать различия в дизайне и фокусироваться на сходстве основного релевантного контента.

Что произойдет, если два документа похожи, но не идентичны (например, после рерайтинга)?

Система использует Similarity Metric и порог. Патент упоминает такие методы, как Shingling, Edit Distance или Cosine Distance, которые могут обнаружить высокую степень сходства, даже если текст не совпадает на 100%. Поверхностный рерайтинг часто не может обмануть эти метрики.

Если мой контент синдицирован на более авторитетном сайте, будет ли мой оригинал подавлен?

Это зависит от того, кто ранжируется выше в первоначальных результатах. Система обрабатывает результаты последовательно сверху вниз. Если авторитетный сайт ранжируется выше вас, его результат добавляется в финальный набор первым. Когда система доходит до вашего результата и обнаруживает, что сниппеты идентичны, ваш результат будет подавлен. Ранк имеет решающее значение.

Как этот патент влияет на агрегаторы контента?

Он представляет значительный риск для агрегаторов. Если агрегатор просто копирует релевантную информацию (например, новостную сводку или описание продукта) без добавления существенного уникального контекста, его страница, скорее всего, будет подавлена как дубликат по сравнению с первоисточником или другим агрегатором, который ранжируется выше.

Является ли сходство транзитивным? Если A похож на B, а B похож на C, будет ли C подавлен из-за A?

Нет, согласно описанному алгоритму, сходство не транзитивно. Документ C подавляется, только если он похож на документ, уже находящийся в финальном наборе. Если B был подавлен из-за сходства с A, то C будет сравниваться только с A. Если C не похож на A (даже если он похож на B), C будет включен в финальный набор.

В чем разница между методами подсчета ключевых слов, упомянутыми в Claims 8 и 9?

Claim 8 описывает подсчет каждого вхождения любого слова запроса в сегменте (если слово «apple» встречается 3 раза, счетчик увеличивается на 3). Claim 9 описывает подсчет только первого вхождения любого слова запроса (если слово «apple» встречается 3 раза, счетчик увеличивается только на 1). Это позволяет настраивать, что важнее: общее количество упоминаний или разнообразие ключевых слов в сегменте.

Может ли этот механизм применяться к внутреннему дублированию на моем собственном сайте?

Да. Если у вас есть несколько страниц (например, из-за фасетной навигации или архивов), которые возвращают идентичные или очень похожие сниппеты для определенного запроса, Google может выбрать только одну из этих страниц для показа в SERP, подавляя остальные как дубликаты, специфичные для запроса.

Как этот патент соотносится с тегом canonical?

Тег canonical помогает управлять техническими дубликатами (полными копиями) на этапе индексирования. Описанный в патенте алгоритм работает на этапе обработки запроса и решает более сложную проблему частичного или контекстного дублирования, анализируя релевантные фрагменты контента. Они дополняют друг друга.