
Google анализирует структурированные данные (например, Schema.org) на веб-страницах, чтобы определить, какие сущности (товары, объекты) на них представлены. Если несколько страниц, особенно с одного сайта, содержат одинаковый набор сущностей (например, листинги с разной сортировкой), Google идентифицирует их как дубликаты. Система понижает или удаляет эти дубликаты из выдачи для повышения разнообразия результатов.
Патент решает проблему избыточности и дублирования в результатах поиска, когда несколько страниц, часто с одного и того же веб-сайта, представляют идентичный набор базовых сущностей. Это типично для E-commerce и сайтов-каталогов, где один и тот же список товаров может быть доступен по разным URL из-за параметров сортировки (по цене, популярности) или фасетной навигации. Цель — повысить разнообразие поисковой выдачи (SERP diversity) и предотвратить засорение выдачи одним сайтом (host crowding).
Запатентована система дедупликации, основанная на анализе структурированных данных (markup language structured data items). Система идентифицирует сущности (entities) на веб-страницах и формирует для каждой страницы «Набор сущностей» (Entity Set). Сравнивая эти наборы, система выявляет дубликаты (duplicative) и модифицирует их индексацию или ранжирование, чтобы уменьшить их присутствие в выдаче.
Механизм работает в несколько этапов:
aliases) для идентификации сущностей в своей базе знаний.Entity Sets разных страниц (обычно с одного сайта). Дублирование определяется, если один набор является подмножеством другого (Subset) или с помощью алгоритмов покрытия множеств (Set Cover Problem) для поиска оптимального представления.Ranking Score понижается или результат удаляется из выдачи).Высокая. Понимание контента через сущности (Entities) и использование структурированных данных являются фундаментальными элементами современного поиска Google. Управление фасетной навигацией, сортировками и обеспечение разнообразия выдачи остаются критически важными задачами, особенно в E-commerce. Этот патент описывает конкретный семантический подход к дедупликации контента.
Патент имеет высокое значение (8/10) для SEO-стратегий, особенно для E-commerce, маркетплейсов и агрегаторов. Он напрямую влияет на то, как индексируются и ранжируются страницы листингов и фасетной навигации. Понимание этого механизма критично для разработки стратегии индексации и внедрения микроразметки, гарантируя, что в выдачу попадут наиболее ценные и уникальные представления контента, а не технические дубликаты.
Entity Identifier) и хранит информацию о ней.Entity Set, который признан избыточным по сравнению с другими наборами (например, является подмножеством другого набора или не требуется для оптимального покрытия всех сущностей).Entity Alias Index (сопоставляет псевдонимы с сущностями и оценками вероятности) и Entity Relationship Index (хранит связи между сущностями и оценки значимости связей).Entity Sets), необходимого для представления всех сущностей. Страницы, не вошедшие в минимальный набор, могут считаться дублирующимися.Патент описывает два основных сценария применения механизма дедупликации: во время ранжирования и во время индексации.
Claim 1 (Независимый пункт) — Дедупликация при Ранжировании: Описывает метод реагирования на поисковый запрос.
Entity Set.Entity Set является дублирующим (duplicative).ranking score результата поиска, связанного с этим дублирующим Entity Set.Claim 2 (Зависимый от 1): Уточняет, что модификация ранга включает применение понижения (demotion) к оценке или удаление результата из выдачи.
Claim 3 (Зависимый от 2): Важное уточнение: определение дублирования может происходить по отношению к Entity Sets ресурсов, расположенных на том же самом веб-сайте (same web site).
Claim 15 (Независимый пункт) — Дедупликация при Индексировании: Описывает метод индексации ресурсов.
Indexing Engine получает ресурсы со структурированными данными.Entity Sets. Значения свойств используются как Entity Alias.Entity Set является дублирующим.Claims 5, 6, 7 (Зависимые): Детализируют процесс идентификации сущностей, включая получение свойств из разметки, сопоставление их с псевдонимами сущностей и использование связанных сущностей (через другие свойства) для подтверждения идентификации.
Изобретение применяется на этапах индексирования и ранжирования для управления видимостью и разнообразием результатов.
CRAWLING – Сканирование и Сбор данных
Система собирает сырой контент, включая HTML с разметкой структурированных данных.
INDEXING – Индексирование и извлечение признаков
Основной этап обработки. Indexing Engine и Structured Data Engine взаимодействуют для:
Entity Set для каждого ресурса.Entity Sets (часто в рамках одного сайта). Дублирующиеся ресурсы помечаются в индексе. Патент также упоминает возможность исключения дубликатов из основного (primary index), но сохранения их во вторичном (secondary index).RANKING / RERANKING – Ранжирование и Переранжирование
Корректировка выдачи в реальном времени.
Entity Sets из индекса.Ranking Engine анализирует Entity Sets результатов (особенно с одного сайта). Если обнаружены дубликаты, система модифицирует Ranking Scores (понижает или удаляет результаты) для повышения разнообразия SERP.same web site), и их Entity Sets пересекаются или идентичны.Процесс можно разделить на три части: Идентификация сущностей, Дедупликация при индексации и Дедупликация при ранжировании.
Часть А: Идентификация Сущностей (Entity Identification)
Structured Data Engine парсит структурированные данные и извлекает свойства (пары имя-значение).Aliases для запроса к Entity Alias Index. Возвращается список сущностей-кандидатов (CE) и их начальные оценки (Initial Score, IS).Entity Relationship Index извлекаются оценки связей (Link Score, W) между CE и RE.
Entity Set ресурса.Часть Б: Дедупликация при Индексации (Indexing Deduplication)
Entity Sets группы ресурсов (часто с одного сайта).Entity Set B является подмножеством A, B может быть признан дубликатом.Entity Sets индексируются с соответствующей пометкой или исключаются из основного индекса.Часть В: Дедупликация при Ранжировании (Ranking Deduplication)
Entity Sets.demotion) ranking score, или они удаляются из выдачи.markup language structured data items. Извлекаются свойства (itemprop), такие как "name", "manufacturer", "productID". Значения этих свойств используются как Entity Aliases.Entity Index Database: псевдонимы, идентификаторы, связи между сущностями и предварительно рассчитанные оценки (IS, W).Метрики используются в основном для идентификации и разрешения неоднозначности сущностей:
Entity Alias Index.Entity Relationship Index.
Критерии дедупликации:
Entity Sets на предмет включения.Entity Set — точный список сущностей на странице. Именно этот набор служит основой для сравнения страниц, независимо от порядка сортировки или текстового оформления.same web site). Google стремится показать разнообразную выдачу, а не разные версии одной и той же информации от одного источника.Schema.org/Product и Schema.org/ItemList). Это позволяет Google сформировать точный Entity Set.productID) в разметку. Это помогает системе использовать свойства как надежные Entity Aliases и упрощает процесс Disambiguation.brand, category). Эти связанные сущности используются системой для разрешения неоднозначности основных сущностей на странице.Entity Set, необходимо использовать rel="canonical", указывающий на основную версию категории. Это позволяет контролировать дедупликацию.Entity Sets и отвечают реальному поисковому спросу. Избегайте индексации страниц, которые являются незначительными подмножествами основной категории.Entity Sets. Данный патент напрямую направлен на борьбу с такой практикой, что приведет к пессимизации или исключению этих страниц из выдачи.Entity Sets.Патент подтверждает стратегию Google по переходу к Entity-First пониманию контента. Для сайтов с каталогами и листингами управление структурированными данными и архитектура сайта становятся определяющими факторами для успешной индексации. Патент показывает, что SEO-стратегия должна фокусироваться на уникальности предлагаемого контента на уровне набора сущностей, а не только на уникальности текста.
Сценарий 1: Дедупликация страниц с разной сортировкой в E-commerce
Сайт продает 4 модели камер (C1, C2, C3, C4). Есть три страницы категории:
Entity Sets всех трех страниц идентичны.Ranking Scores для Page B и C понижаются (demotion) или они удаляются из SERP. В выдаче остается только Page A (или другая страница, выбранная на основе стандартных сигналов ранжирования).Сценарий 2: Применение метода Set Cover
Сайт недвижимости имеет три страницы:
Entity Sets.Как этот патент влияет на управление фасетной навигацией и страницами фильтров?
Патент напрямую влияет на обработку URL, сгенерированных фасетной навигацией. Если разные комбинации фильтров или сортировок приводят к страницам с идентичными или очень похожими наборами товаров (Entity Sets), Google может классифицировать большинство этих страниц как дубликаты и исключить их из выдачи. Это подчеркивает необходимость открывать для индексации только те комбинации, которые формируют уникальные наборы сущностей и отвечают реальному спросу.
Означает ли это, что разные варианты сортировки (например, по цене и по алфавиту) всегда будут считаться дубликатами?
Да, если они содержат один и тот же набор товаров. С точки зрения патента, порядок представления сущностей не меняет сам Entity Set. Если набор сущностей идентичен, страницы являются кандидатами на дедупликацию. Необходимо использовать rel="canonical" для консолидации сигналов на основной версии страницы.
Как Google определяет, какую страницу оставить, а какую считать дубликатом, если Entity Sets идентичны?
Патент не уточняет, как выбирается "главная" страница среди идентичных дубликатов. Он фокусируется на механизме идентификации дублирования. На практике выбор, вероятно, основывается на стандартных сигналах ранжирования: страница с более высоким исходным Ranking Score, лучшими поведенческими факторами, сильным ссылочным профилем или явно указанная как каноническая будет выбрана в качестве основной.
Что такое "Задача о покрытии множества" (Set Cover Problem) в контексте SEO?
Это концепция, согласно которой Google стремится найти минимальное количество страниц с вашего сайта, которое наилучшим образом представляет весь ассортимент ваших сущностей (товаров, услуг). Вместо того чтобы показывать 10 страниц с перекрывающимся контентом, Google может выбрать 2-3 страницы, которые вместе покрывают все уникальные сущности с наименьшим дублированием. Это стимулирует создание четко структурированных категорий.
Как обеспечить точную идентификацию сущностей в микроразметке?
Ключ к точной идентификации — использование однозначных данных в разметке. Используйте глобальные идентификаторы (GTIN, MPN) в свойстве productID или соответствующих полях. Указывайте точное название бренда и модели в name. Заполнение связанных свойств (brand, manufacturer) помогает в процессе разрешения неоднозначности (Disambiguation), описанном в патенте.
Влияет ли этот механизм на страницы пагинации?
Да, может влиять. Каждая страница пагинации имеет свой Entity Set. Если существует страница «Показать все», то Entity Sets отдельных страниц пагинации будут являться подмножествами страницы «Показать все». В этом случае отдельные страницы пагинации могут быть признаны дубликатами согласно методу Subset в пользу более полной страницы.
Применяется ли эта дедупликация только к результатам с одного сайта?
Патент (в частности, Claim 3 и Claim 17) делает явный акцент на дедупликации ресурсов, расположенных на одном и том же веб-сайте (same web site). Он направлен на борьбу с внутренним дублированием и host crowding, а не на дедупликацию контента между разными сайтами.
Что произойдет, если на сайте нет структурированных данных?
Если структурированные данные отсутствуют, описанный в патенте механизм не может быть применен, так как он основан на парсинге markup language structured data items. В этом случае Google будет полагаться на другие, традиционные методы дедупликации (например, анализ текста, заголовков, ссылок), которые могут быть менее точными для страниц листингов.
Как этот патент взаимодействует с атрибутом rel="canonical"?
Патент не упоминает rel="canonical". Однако каноникализация обычно происходит до этапа ранжирования. Если каноникализация настроена корректно, Google консолидирует сигналы на канонической версии. Описанный механизм, вероятно, применяется к набору уже каноникализированных страниц или в ситуациях, когда сигналы каноникализации отсутствуют или противоречивы, позволяя Google алгоритмически определить семантическое дублирование.
Происходит ли дедупликация во время индексирования или ранжирования?
Патент описывает оба варианта. Дедупликация может происходить во время индексирования (Claim 15), когда ресурс помечается как дубликат в индексе или исключается из основного индекса. Также она может происходить во время ранжирования (Claim 1), когда Ranking Score дублирующегося результата модифицируется непосредственно перед показом пользователю. Это дает Google гибкость в применении.

Knowledge Graph

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Knowledge Graph
Семантика и интент
Структура сайта

SERP
Техническое SEO
Индексация

Google Shopping

Поведенческие сигналы
EEAT и качество
SERP

Семантика и интент
Поведенческие сигналы

Local SEO
SERP
Ссылки

SERP
Ссылки
Структура сайта

Семантика и интент
SERP
Ссылки

SERP
Поведенческие сигналы
Семантика и интент

Ссылки
EEAT и качество
Свежесть контента

Поведенческие сигналы
SERP
Антиспам

EEAT и качество
Семантика и интент
SERP

Индексация
Поведенческие сигналы
