
Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.
Патент решает проблему наличия множества версий одного и того же документа в интернете. Это приводит к двум основным проблемам: 1) Зашумление поисковой выдачи дубликатами, что снижает разнообразие (diversity) и ухудшает пользовательский опыт. 2) Распыление сигналов ранжирования. Например, значимость документа (особенно citation count для научных работ) распределяется между его версиями, не давая точной оценки общей авторитетности.
Запатентована система для автоматической идентификации и кластеризации различных версий одного документа. Ключевая особенность — генерация нескольких candidate identifiers (кандидатных идентификаторов) для каждого документа на основе его метаданных (автор, заголовок, дата и т.д.). Эти идентификаторы нормализуются с помощью language specific rules и сравниваются с использованием similarity measure (меры сходства), что позволяет обнаруживать дубликаты даже при наличии вариаций в метаданных.
Система работает следующим образом:
candidate identifiers путем комбинирования разных элементов метаданных (например, {Фамилия автора, Заголовок} и {Фамилия автора, Издатель, Дата}).language specific rules — удаление пунктуации, стоп-слов, приведение к нижнему регистру, стандартизация дат.similarity measure (например, Edit Distance). Документы с похожими идентификаторами группируются в кластеры.citation count.Высокая. Дедупликация и каноникализация являются фундаментальными процессами. Хотя методы Google эволюционировали, идентификация на основе метаданных остается критически важной, особенно для структурированного контента, Google Scholar (изобретатели патента являются его ключевыми разработчиками) и сущностей в Knowledge Graph. Механизм обеспечивает надежный способ консолидации сигналов.
Патент имеет высокое значение для SEO (75/100), особенно для издателей, академических ресурсов и сайтов со структурированным контентом. Он описывает механизм, лежащий в основе консолидации сигналов ранжирования (таких как цитируемость или PageRank) с разных версий контента на каноническую версию. Это подчеркивает критическую важность точности и согласованности метаданных для правильной атрибуции авторитетности.
citation count всех версий документа.candidate identifiers.Similarity Measure. Это минимальное количество операций (вставка, удаление, замена символа), необходимых для преобразования одного идентификатора в другой.candidate identifiers. Включает удаление пунктуации, приведение к нижнему регистру, удаление стоп-слов (например, "the", "vol"), нормализацию лигатур и стандартизацию дат.candidate identifiers. Может быть основана на строковых метриках (например, Edit Distance, Jaccard Coefficient) или на формате идентификатора.Claim 1 (Независимый пункт): Описывает основной метод идентификации версий документов.
candidate identifiers для каждого документа на основе его текстовых элементов (метаданных).language specific rules (в зависимости от языка документа) для создания стандартизированных идентификаторов.similarity measures.Ядром изобретения является использование множественных идентификаторов, их нормализация и последующее сравнение на основе схожести (а не точного совпадения), что обеспечивает устойчивость к вариациям в метаданных.
Claim 2 (Зависимый): Уточняет типы документов.
Метод применим к научной литературе: журнальные статьи, материалы конференций, академические работы и записи о цитировании.
Claim 3 и 4 (Зависимые): Уточняют состав candidate identifiers.
Первый идентификатор может включать фамилию первого автора и заголовок. Второй может включать имя издателя, дату публикации или информацию о цитировании. Это подтверждает стратегию использования разных комбинаций метаданных.
Claim 5 (Зависимый): Описывает вариативность генерации идентификаторов.
Создание идентификаторов может включать обработку по правилам изменения, таким как ротация, реверсия или перестановка элементов метаданных.
Claim 8 (Зависимый): Уточняет similarity measure.
Мера схожести определяется, по крайней мере частично, на основе edit distance между идентификаторами. Это позволяет системе считать идентификаторы похожими, даже если они не идентичны.
Claim 10 (Зависимый): Описывает итеративный процесс кластеризации.
Документ сравнивается с существующими кластерами. Если найдено сходство, он добавляется в кластер; в противном случае создается новый кластер.
Claim 14 (Зависимый): Описывает многоуровневую кластеризацию.
Документы могут сначала кластеризоваться на основе сходства первого идентификатора, а затем сортироваться и перекластеризоваться на основе общих мер сходства (включая другие идентификаторы) для повышения эффективности и точности.
Этот патент описывает процессы, происходящие на этапе индексирования, для обеспечения качества и чистоты индекса.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает документы и их сырые метаданные, которые будут использоваться в качестве входных данных.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Процесс является частью конвейера индексирования (Indexing System), отвечающего за дедупликацию и каноникализацию.
candidate identifiers для группировки версий одного документа (выполняется Document Matching Subsystem).Citation Count) всех документов в кластере. Эти консолидированные данные сохраняются в индексе.RANKING – Ранжирование
Механизм напрямую не участвует в ранжировании, но оказывает на него критическое влияние. Он гарантирует, что система ранжирования оперирует чистым набором уникальных документов с консолидированными сигналами авторитетности.
RERANKING – Переранжирование
Благодаря работе этого механизма, система может гарантировать, что в выдаче не будут показаны разные версии одного и того же документа, улучшая разнообразие SERP (SERP diversity).
Входные данные:
Citation Count) для каждой версии.Language Specific Rules.Выходные данные:
Citation Count) для каждого кластера.scholarly literature) и юридическим документам. Механизм наиболее эффективен для контента с богатыми и структурированными метаданными (академические исследования, издательское дело, возможно, e-commerce с уникальными идентификаторами товаров).Процесс А: Идентификация и Кластеризация Версий
candidate identifiers путем комбинирования его метаданных. Например: Similarity Measure (например, Edit Distance). Это может включать: Edit Distance <= 4), или создает новый кластер.Процесс Б: Консолидация сигналов
Citation Count = Сумма Citation Count всех версий.Система полагается в первую очередь на метаданные, извлеченные из документов.
language specific rules.Citation Count (Количество цитирований документа другими документами).Candidate Identifiers. Патент перечисляет несколько возможных метрик: Edit Distance (Редакционное расстояние, Levenshtein Distance).Hamming Distance.Jaccard Coefficient.Dice's Coefficient.Edit Distance меньше определенного значения (в описании патента упоминается пример порога 4), идентификаторы считаются похожими.Citation Count всех документов, сгруппированных в один кластер.language specific rules для стандартизации данных перед сравнением.candidate identifiers, агрессивная нормализация (удаление стоп-слов, пунктуации) и применение метрик схожести (Edit Distance) вместо точного совпадения обеспечивают высокую точность дедупликации.Citation Count. Логично предположить, что аналогичный подход применяется и к другим сигналам, таким как PageRank.INDEXING, организуя данные и обеспечивая чистоту индекса до того, как произойдет ранжирование.candidate identifiers.candidate identifiers и значительно упрощают дедупликацию.ScholarlyArticle, Product, Book) для четкой передачи метаданных поисковой системе. Убедитесь, что поля author, name, datePublished, identifier заполнены корректно и стандартизированы.language specific rules.rel=canonical), чтобы гарантировать консолидацию сигналов на нужной версии.Патент подтверждает фундаментальную важность процессов дедупликации и каноникализации в Google. Он демонстрирует, что Google стремится идентифицировать уникальный "документ" (сущность/работу) за разными его представлениями (URL/форматами) для консолидации авторитетности. Для долгосрочной SEO-стратегии критически важно управлять тем, как контент синдицируется и как структурируются его метаданные, чтобы обеспечить максимальную консолидацию сигналов ранжирования.
Сценарий: Консолидация авторитетности научной статьи (Google Scholar)
candidate identifiers для А, Б и В. Благодаря согласованности данных, идентификаторы очень похожи.Edit Distance).Citation Count увеличивается, повышая авторитетность статьи в Google Scholar.Какова основная цель этого патента с точки зрения SEO?
Основная цель — обеспечить консолидацию сигналов ранжирования. Патент описывает, как Google идентифицирует разные версии одного документа, чтобы объединить их авторитетность (например, Citation Count или PageRank). Это предотвращает распыление сигналов между дубликатами и позволяет наиболее авторитетному контенту ранжироваться выше.
Означает ли этот патент, что Google использует только метаданные для поиска дубликатов?
Нет. Этот патент фокусируется конкретно на методе использования метаданных, который особенно эффективен для научной литературы и структурированного контента. Google использует множество других методов для дедупликации, включая сравнение содержимого (например, с помощью хэширования или векторного анализа) и сигналы каноникализации (rel=canonical). Этот метод дополняет другие.
Как система справляется с ошибками или различиями в метаданных?
Система обладает высокой устойчивостью к ошибкам благодаря трем механизмам. Во-первых, она генерирует несколько candidate identifiers из разных комбинаций метаданных. Во-вторых, она агрессивно нормализует данные (language specific rules), удаляя стоп-слова, пунктуацию и стандартизируя форматы. В-третьих, она использует метрики схожести (Similarity Measure), такие как Edit Distance, а не требует точного совпадения.
Насколько важна согласованность метаданных для моего сайта?
Она критически важна, особенно если вы публикуете контент в нескольких местах или форматах (например, HTML и PDF). Необходимо обеспечить максимальную идентичность заголовков, авторов и дат. Несогласованность может привести к тому, что Google будет рассматривать версии как отдельные документы, что снизит их потенциал ранжирования.
Как этот патент связан с Google Scholar?
Этот механизм является фундаментальным для Google Scholar. Изобретатели патента (Verstak и Acharya) являются ключевыми фигурами в его развитии. Патент явно фокусируется на научной литературе и описывает, как консолидируется Citation Count — основная метрика авторитетности в академическом поиске.
Применим ли этот механизм к E-commerce?
Да, концепция применима. Товары также имеют структурированные метаданные (название, бренд, GTIN, MPN). Система может использовать аналогичный подход для идентификации одного и того же товара у разных продавцов или на разных страницах одного сайта, генерируя candidate identifiers из этих данных для кластеризации и консолидации сигналов (например, отзывов или ссылок).
Что такое "Language Specific Rules" и почему они важны?
Это правила нормализации, адаптированные под конкретный язык (например, удаление артиклей в английском). Они важны, потому что позволяют системе игнорировать синтаксические различия (пунктуация, стоп-слова, регистр) и фокусироваться на семантическом значении метаданных, что повышает точность сопоставления идентификаторов.
Как использование структурированных данных (Schema.org) взаимодействует с этим механизмом?
Структурированные данные значительно помогают этому механизму, предоставляя метаданные в чистом и стандартизированном формате. Разметка ScholarlyArticle, Book или Product напрямую предоставляет системе данные для генерации candidate identifiers, снижая вероятность ошибок при извлечении информации.
Что произойдет, если система ошибочно объединит два разных документа?
Это может привести к неправильной каноникализации и некорректной консолидации сигналов. Один документ может быть исключен из выдачи в пользу другого, или их метрики авторитетности будут объединены неверно. Использование точных метаданных и уникальных идентификаторов (DOI, ISBN, GTIN) минимизирует этот риск.
Заменяет ли этот механизм необходимость использования тега rel=canonical?
Нет, не заменяет. Тег rel=canonical является явным указанием владельца сайта на предпочтительную версию. Описанный механизм — это алгоритмическая попытка Google самостоятельно разобраться в дубликатах, особенно когда явные сигналы отсутствуют или противоречивы. Лучшая практика — использовать rel=canonical и поддерживать чистоту метаданных.

Индексация

Свежесть контента
EEAT и качество

Индексация

Семантика и интент
Индексация
SERP

Индексация
Техническое SEO
Структура сайта

Local SEO
Поведенческие сигналы
Семантика и интент

Семантика и интент
Индексация
Структура сайта

Семантика и интент
Персонализация
Поведенческие сигналы

Индексация
Краулинг
Ссылки

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Семантика и интент
EEAT и качество
Индексация

Ссылки
Индексация
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам

Поведенческие сигналы
Персонализация
Семантика и интент
