
Google использует механизм для улучшения разнообразия поисковой выдачи, предотвращая показ нескольких результатов с идентичным контентом по конкретному запросу. Вместо сравнения документов целиком, система извлекает только те части (сниппеты), которые релевантны запросу. Если эти сниппеты у разных документов слишком похожи, они считаются дубликатами для данного запроса, и менее релевантные результаты фильтруются.
Патент решает проблему избыточности в результатах поиска. Пользователи не хотят видеть несколько ссылок, ведущих на одну и ту же информацию, даже если документы, содержащие эту информацию, не являются полными копиями (например, из-за разного форматирования, агрегации контента, разных шаблонов сайта или наличия зеркал). Традиционные методы обнаружения дубликатов, сравнивающие документы целиком, могут пропустить такие случаи. Изобретение повышает разнообразие SERP и улучшает пользовательский опыт.
Запатентована система и метод для обнаружения дубликатов, специфичных для запроса (Query-Specific Duplicate Documents). Суть изобретения заключается в том, что схожесть документов определяется не путем сравнения всего их содержимого, а путем сравнения только тех частей (Query Relevant Information (QRI) или snippets), которые релевантны введенному запросу. Если эти релевантные части достаточно похожи, документы считаются дубликатами в контексте данного запроса.
Система работает на этапе формирования финальной выдачи:
Candidate Results Set).snippets), которые наиболее релевантны запросу.Высокая. Хотя патент датирован 2003 годом, описанный принцип является фундаментальным для обеспечения разнообразия SERP (SERP Diversity). Концепция определения схожести на основе контекста запроса (а не только статического анализа документов) критически важна для качества поиска. Методы извлечения сниппетов и определения схожести, вероятно, эволюционировали (например, с использованием эмбеддингов и нейронных сетей), но базовая архитектура остается актуальной.
Патент имеет высокое значение (85/100) для SEO. Он объясняет, как Google оценивает уникальность контента в контексте конкретного запроса, а не на уровне всего документа. Это напрямую влияет на стратегии синдикации контента, управления шаблонным контентом (например, в e-commerce или локальном SEO) и агрегации. Понимание этого механизма критично для разработки эффективной контент-стратегии и обеспечения видимости страниц в SERP.
cosine distance.Snippet. Именно эти части используются для сравнения схожести.shingling или метод Бродера).Основное ядро изобретения сосредоточено в независимых пунктах 3, 15 и 26, которые описывают процесс фильтрации и метод определения схожести на основе запроса.
Claim 3 и 15 (Независимые пункты): Описывают основной метод обработки результатов поиска.
Ключевой аспект — схожесть определяется между частями (A и B), извлеченными на основе запроса, а не между документами в целом. Формулировка Claim 15 критически важна для избегания транзитивной схожести (сравнение только с принятыми результатами).
Claim 26 (Независимый пункт): Описывает метод определения схожести двух документов в контексте запроса.
Метод включает принятие запроса, извлечение Query-relevant information из первого и второго документа на основе этого запроса, и последующее сравнение этой извлеченной информации. Если извлеченная информация похожа, документы считаются похожими для данного запроса.
Зависимые пункты (Claims 4-13, 16-25, 27-36): Детализируют методы извлечения QRI.
hit count) в каждом окне. Выбирается Топ-N окон с наибольшим количеством попаданий.Изобретение применяется на финальных стадиях обработки запроса, после основного ранжирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна обеспечить хранение полных (или декомпрессированных) версий документов в Repository, чтобы они были доступны для извлечения сниппетов в реальном времени.
RANKING – Ранжирование
Search Process генерирует первоначальный ранжированный список кандидатов (Candidate Results Set). Этот список является входными данными для системы удаления дубликатов.
RERANKING – Переранжирование (Twiddlers)
Основное применение патента. Duplicate Removal Management Process активируется после этапа RANKING и до финального формирования SERP. Он действует как механизм фильтрации (Twiddler), который удаляет элементы из списка.
Repository для получения полных текстов.Query Relevant Information Extraction Process для генерации сниппетов на лету, используя текущий запрос.Query Dependent Similarity Process для сравнения сгенерированных сниппетов.Входные данные:
Candidate Results Set).Repository).Выходные данные:
Final Set).Процесс управления удалением дубликатов (Duplicate Removal Management)
Final Set).Final Set.Shingling или Cosine Distance).Final Set.Final Set.Final Set или пока не закончатся кандидаты.Repository). В частности, используются слова, предложения и абзацы для извлечения Query Relevant Parts. Упоминается возможность использования заголовка (Title) документа как части QRI. Коды форматирования (например, HTML) могут быть удалены перед анализом.Query Keywords) являются критически важными, так как они определяют, какие части документа будут извлечены. Стоп-слова могут исключаться.Система использует метрики для двух задач: извлечения сниппетов (QRI) и определения их схожести.
Метрики извлечения QRI:
Метрики схожести (Similarity Metrics):
Патент предлагает несколько взаимозаменяемых методов:
feature vectors) для каждого QRI. Вычисляется косинус угла между нормализованными векторами. Чем ближе к 1, тем больше схожесть (игнорирует порядок слов).Similarity Threshold (Порог схожести): Настраиваемый параметр. Результат метрики схожести сравнивается с этим порогом для принятия бинарного решения (похож / не похож). Патент отмечает, что при сравнении QRI порог можно установить достаточно высоко.
Query Relevant Parts. Это позволяет эффективно обнаруживать дубликаты даже в документах, которые сильно различаются в целом (например, из-за шаблонов или агрегации), но содержат одинаковую релевантную информацию.Query Relevant Parts отличались от других страниц вашего или чужих сайтов.Query Relevant Parts этих страниц будут идентичны (например, описание услуги), они будут отфильтрованы как дубликаты.Shingling или Feature Vectors. Если информационное ядро не меняется, страницы будут признаны дубликатами.Патент подчеркивает важность уникальности контента не на уровне URL или технической реализации, а на уровне предоставляемой информации в контексте запроса. Он подтверждает, что Google стремится показывать разнообразную информацию (SERP Diversity). Для SEO-стратегии это означает, что фокус должен быть на создании действительной добавленной ценности в тех частях документа, которые отвечают на интент пользователя, а не на технических методах обхода проверок уникальности.
Сценарий 1: Фильтрация дубликатов в E-commerce (Описание от производителя)
Сценарий 2: Локальное SEO и шаблонные страницы
Означает ли этот патент, что два совершенно разных документа могут быть признаны дубликатами?
Да. Если два документа сильно различаются в целом (например, один — короткая статья, а второй — большая компиляция, включающая эту статью), но фрагменты (QRI), которые система сочтет наиболее релевантными конкретному запросу, идентичны или очень похожи, они будут считаться дубликатами для этого запроса. Схожесть определяется контекстом запроса.
Как система определяет, какие части документа являются "Query Relevant Information" (QRI)?
Патент предлагает несколько методов. Основные — это метод скользящего окна, где ищутся фрагменты фиксированной длины с наибольшей плотностью ключевых слов из запроса, и метод сегментации, где анализируются предложения или абзацы на наличие определенного количества ключевых слов. На практике это те фрагменты, которые вы видите в сниппетах выдачи.
Чем этот механизм отличается от каноникализации (rel=canonical)?
Каноникализация работает на этапе индексирования и объединяет сигналы для идентичных страниц с разными URL. Описанный механизм работает на этапе формирования выдачи (Reranking) в ответ на конкретный запрос и фильтрует страницы, которые могут не быть полными дубликатами, но являются таковыми в контексте запроса.
Как этот механизм влияет на синдикацию контента или пресс-релизы?
Он напрямую влияет на них. Если пресс-релиз опубликован на 10 сайтах дословно, то Query Relevant Parts будут идентичны. Система определит их как дубликаты и покажет только один результат (обычно наиболее авторитетный или тот, что ранжируется выше), подавив остальные. Это объясняет, почему сложно ранжироваться по синдицированному контенту без добавления уникальной ценности.
Что такое "избегание транзитивной схожести" и почему это важно?
Это означает, что система сравнивает текущий результат только с теми, которые уже приняты в финальный набор. Если А похож на Б, а Б похож на В, но А не похож на В. Система примет А, удалит Б (так как он похож на А). Затем она сравнит В с А. Так как В не похож на А, он также попадет в выдачу. Это увеличивает разнообразие (diversity) SERP.
Если я изменю порядок предложений в статье, поможет ли это избежать определения дубликата?
Это зависит от метода сравнения схожести. Если используется косинусное расстояние (Cosine Distance), то изменение порядка не поможет, так как этот метод учитывает только частотность слов. Если используется метод шинглов (Shingling), который учитывает последовательности слов, то изменение порядка может увеличить различие и помочь пройти порог схожести.
Может ли этот механизм отфильтровать оригинальный контент в пользу копии?
Да, это возможно. Механизм работает на основе ранжированного списка. Если копия по каким-то причинам ранжируется выше оригинала (например, у сайта копии выше авторитетность), оригинал будет обработан позже. При сравнении сниппетов оригинал будет признан дубликатом копии (которая уже в финальном наборе) и отфильтрован.
Как этот патент влияет на локальное SEO и страницы филиалов?
Влияние значительно. Если страницы для разных локаций используют шаблонный текст и отличаются только названием города, существует риск, что по общему запросу система сгенерирует одинаковые сниппеты. В этом случае большинство страниц будет отфильтровано. Необходимо уникализировать контент локальных страниц.
Актуальны ли описанные методы схожести (Cosine Distance, Shingling) в 2025 году?
Хотя базовые принципы актуальны, современные системы Google, вероятно, используют более продвинутые методы, основанные на нейронных сетях (например, сравнение векторных эмбеддингов текста, сгенерированных моделями типа MUM). Эти методы лучше понимают семантическую близость, а не только совпадение слов или фраз.
Как этот патент связан с кластеризацией результатов (indented results) в выдаче?
Этот механизм может быть основой для кластеризации. Вместо того чтобы полностью удалять дубликат из выдачи, система может сгруппировать его под основным результатом с отступом. Решение о фильтрации или кластеризации, вероятно, зависит от степени схожести сниппетов и того, принадлежат ли результаты одному домену.

Поведенческие сигналы
SERP

SERP
Техническое SEO
Индексация

Семантика и интент
Индексация
SERP

Индексация
Техническое SEO

SERP

Knowledge Graph
EEAT и качество
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP

Персонализация
Поведенческие сигналы
SERP

Ссылки
Мультиязычность
Семантика и интент

Семантика и интент
EEAT и качество

Поведенческие сигналы
Семантика и интент

Ссылки
Индексация
Краулинг

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
SERP
