
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
Патент решает проблему наличия множества версий одного и того же документа в интернете (например, полные тексты, аннотации, зеркальные копии на разных сайтах). Это приводит к дублированию контента в результатах поиска, что снижает разнообразие выдачи и затрудняет пользователю понимание того, какая версия является наиболее авторитетной или полной. Цель изобретения — идентифицировать одну «основную версию» (Primary Version), которая будет представлять документ в поиске.
Запатентована система для выбора канонической (основной) версии документа из множества его вариантов. Система использует иерархический подход к выбору. На первом этапе приоритет отдается версиям, которые удовлетворяют критериям как авторитетности источника (Priority of Authority), так и полноты контента (Qualified Length). Если идеальная версия не найдена, система переходит ко второму этапу и выбирает версию с «наибольшим объемом информации» (на основе Information Measure).
Ключевой механизм работы системы:
Priority of Authority. Этот приоритет основан на источнике документа и правах публикации (например, источник с эксклюзивными правами получает высший приоритет).Qualified Length (чтобы отсеять аннотации и краткие версии).Qualified Priority), так и квалифицированную длину. Если такая версия найдена, она становится основной.PageRank, количество цитирований или дата модификации.Total Citation Count).Высокая. Каноникализация является фундаментальным процессом в работе поисковых систем. Хотя конкретные методы обнаружения дубликатов и сигналы выбора канонической версии могли эволюционировать с момента подачи патента (2005 год), заложенные принципы — предпочтение авторитетных источников и полноты контента — остаются центральными в SEO и работе Google. Описанная логика лежит в основе таких систем, как Google Scholar.
Патент имеет высокое значение (8/10) для SEO. Понимание того, как Google выбирает каноническую версию, критически важно, поскольку именно она будет индексироваться и ранжироваться. Патент раскрывает, что авторитетность домена (источника) и полнота контента являются ключевыми факторами в этом процессе. Это особенно важно для стратегий синдикации контента, управления пресс-релизами и публикации исследований на разных платформах.
Priority of Authority.PageRank, цитируемости (Citation Count), количестве ссылок в документе (Reference Count) или дате модификации.Priority Rule), например, на основе прав публикации или предопределенного списка Source-Priority List.minimum length threshold), чтобы предпочесть полные тексты аннотациям или кратким версиям.Priority of Authority выше определенного порога или является наивысшим в группе.Priority of Authority. Может формироваться на основе репутации источника, размера корпуса публикаций и т.д.Claim 1 (Независимый пункт): Описывает основной метод идентификации основной версии документа.
Priority of Authority на основе источника (source) этой версии.Source-Priority List.Priority of Authority присваивается версии, источник которой обладает Exclusive Publication Right (эксклюзивным правом публикации) на документ.Primary Version) выбирается на основе этого Priority of Authority.Ядром изобретения является использование авторитетности источника, конкретно привязанной к правам публикации, для выбора канонической версии.
Claim 3 (Зависимый от 1): Уточняет критерии выбора основной версии.
Выбор осуществляется путем определения версии, которая имеет И Qualified Priority (на основе меры приоритета), И Qualified Length (на основе меры длины).
Это подтверждает, что идеальная основная версия должна быть одновременно авторитетной и полной.
Claim 5 (Зависимый от 3): Описывает резервный механизм (Fallback).
Если ни одна из версий не имеет одновременно Qualified Priority и Qualified Length, выбирается версия с наибольшей длиной (greatest length).
Claims 6, 7, 8 (Зависимые от 3): Описывают альтернативные резервные механизмы, если основные критерии не выполнены. Выбор может основываться на:
Reference Count (количество документов, на которые ссылается данная версия).Modification Time (время модификации) в сочетании с Qualified Length.Citation Count (количество документов, цитирующих данную версию) в сочетании с Qualified Length.Claim 9 (Зависимый от 1): Описывает консолидацию сигналов.
Вычисляется общее количество цитирований (Total Citation Count) на основе Citation Count каждой версии документа в группе.
Изобретение применяется на этапе индексирования для обработки обнаруженного контента и выбора канонической версии.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются различные версии документов и их метаданные из разных источников (веб-сайты, базы данных).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Indexing System выполняет следующие шаги:
Document Matching Subsystem) идентифицирует разные версии одного и того же документа.PageRank и Source-Priority List.Primary Version Identification Subsystem) применяет описанный алгоритм для выбора Primary Version.Total Citation Count) и ассоциируются с основной версией.RANKING – Ранжирование
На этапе ранжирования используется только выбранная Primary Version, которая наследует консолидированные сигналы.
PRESENTATION (Отображение результатов)
Система отображает Primary Version в качестве основного результата. Также могут предоставляться ссылки на другие версии и отображаться Total Citation Count (как показано на примере интерфейса Google Scholar в патенте).
Входные данные:
Exclusive Publication Right, Licensing Right).Source-Priority List.PageRank, Citation Count, Reference Count).Выходные данные:
Primary Version.Total Citation Count для документа.scholarly literature) как основной кандидат из-за наличия четких метаданных об источнике. Также влияет на синдицированный контент, пресс-релизы, описания продуктов в e-commerce.Процесс выбора основной версии документа.
Priority of Authority. Это делается на основе источника версии, используя Priority Rule (проверка Source-Priority List или определение прав публикации, где приоритет отдается эксклюзивным правам).Qualified Priority (приоритет выше порога или наивысший в наборе).Qualified Length (длина выше минимального порога для полнотекстовых документов).Primary Version. При наличии нескольких таких версий могут использоваться тай-брейкеры (например, PageRank, наивысший приоритет, наибольшая длина).Information Measure. Метрика может быть настроена по-разному: Reference Count.Citation Count среди версий с Qualified Length.PageRank среди версий с Qualified Length.Qualified Length.Primary Version система вычисляет агрегированные метрики, например, Total Citation Count путем суммирования цитирований всех версий.Primary Version используется для индексации и ранжирования.Система использует широкий спектр данных для принятия решения о каноникализации:
Priority of Authority.PageRank: Явно упоминается как мера важности и может использоваться как Information Measure.Citation Count: Количество документов, цитирующих данную версию (входящие цитирования).Reference Count: Количество документов, на которые ссылается данная версия (исходящие цитирования).Source-Priority List: Предварительно составленный список авторитетности источников.Exclusive Publication Right (Эксклюзивное право публикации).Licensing Right (Право лицензирования).Priority Rule. Пример правила: Если источник имеет Exclusive Publication Right, приоритет наивысший; если Licensing Right, приоритет средний; иначе низкий. Или же приоритет берется напрямую из Source-Priority List.Priority Measure. Может быть пороговым значением (например, приоритет должен быть >= X) или относительным (например, наивысший приоритет среди всех версий).Length Measure. Сравнение длины документа с минимальным порогом (minimum length threshold).PageRank, Максимальный Citation Count).Citation Count всех версий в группе.
Exclusive Publication Right и Licensing Right для определения Priority of Authority. Это подчеркивает важность статуса контента при определении его канонической версии.PageRank, цитируемость, длина контента и его свежесть (Modification Time).Primary Version в рамках резервного механизма.PageRank как фактор каноникализации: PageRank явно упоминается как один из возможных критериев выбора основной версии в резервном механизме. Это подтверждает, что ссылочная авторитетность может определить, какая из версий будет выбрана канонической.Total Citation Count) из всех версий документа. Это подтверждает, что Google стремится консолидировать авторитет вокруг выбранной основной версии.Qualified Length). Если вы публикуете только аннотацию или краткое содержание, а полный текст доступен в другом месте, ваш URL вряд ли станет каноническим.E-E-A-T). Это увеличивает вероятность того, что ваш сайт будет иметь высокий Priority of Authority, что является первичным фактором выбора при каноникализации.PageRank и Citation Count используются как тай-брейкеры или в резервном механизме, версия с большим количеством ссылок имеет больше шансов стать Primary Version.Modification Time используется как один из критериев выбора в резервном механизме, поэтому более свежая версия (при условии полноты) может быть предпочтительнее.Priority of Authority без четких сигналов каноникализации может привести к тому, что версия на партнерском сайте станет Primary Version.Патент демонстрирует, что каноникализация — это не просто технический процесс устранения точных дубликатов, а стратегическое решение, основанное на оценке авторитетности источника и качества контента. Он подтверждает важность построения авторитетного бренда (источника), который имеет право на «владение» каноническим статусом своего контента. Для SEO-стратегии это означает, что для закрепления за собой трафика необходимо быть либо первоисточником с эксклюзивными правами, либо наиболее полным и авторитетным ресурсом.
Сценарий 1: Публикация научного исследования (Основной механизм)
Исследователь публикует статью в трех местах:
Действие системы: Система присваивает наивысший Priority of Authority версии C. Затем она проверяет Qualified Length. Версия C полная.
Результат: Версия C (журнал) выбирается как Primary Version, так как удовлетворяет обоим критериям. Все цитирования версий A, B и C консолидируются для версии C.
Сценарий 2: Новостная статья (Резервный механизм)
Срочная новость опубликована:
Qualified Length).Qualified Length).Действие системы: Ни одна версия не удовлетворяет обоим критериям одновременно (A не имеет длины, B может не иметь достаточного приоритета). Система переходит к Этапу 2 (резервный механизм).
Результат: Если Information Measure настроена на максимальную длину, сайт нишевого издания (B) будет выбран как Primary Version, несмотря на более низкую авторитетность.
Что такое «Priority of Authority» и как он определяется?
Priority of Authority — это оценка авторитетности версии документа, основанная на ее источнике. Патент предлагает два основных метода: использование предопределенного списка Source-Priority List (где доменам заранее присвоены оценки авторитетности) или анализ прав публикации. Источник с эксклюзивными правами (Exclusive Publication Right) получает наивысший приоритет, за ним следуют источники с лицензионными правами.
Что важнее для выбора основной версии: авторитетность источника или полнота текста?
В идеале Google ищет сочетание обоих факторов. Алгоритм сначала ищет версии, которые удовлетворяют пороговым значениям и авторитетности (Qualified Priority), и полноты (Qualified Length). Однако, если такой идеальной версии нет, система переходит к резервному механизму, где полнота текста часто становится решающим фактором (например, выбирается самая длинная версия).
Что произойдет, если самая авторитетная версия документа неполная (например, только аннотация)?
Если версия с наивысшим Priority of Authority не удовлетворяет критерию Qualified Length, она не будет выбрана на первом этапе. Система перейдет к резервному механизму и выберет версию с «наибольшим объемом информации». Это может быть менее авторитетная версия, но которая является полной и имеет сильные сигналы (например, самую большую длину или наивысший PageRank).
Как этот патент влияет на стратегии синдикации контента?
Влияние критическое. Если вы синдицируете контент на платформу, которая имеет более высокий Priority of Authority, чем ваш сайт, и ваша версия не обладает явными преимуществами, версия на партнерском сайте может быть выбрана как основная. Необходимо гарантировать, что ваша оригинальная версия является наиболее полной и концентрирует на себе максимум сигналов авторитетности.
Влияет ли PageRank на выбор основной (канонической) версии?
Да, PageRank явно упоминается в патенте. Он используется в резервном механизме (Information Measure) для выбора основной версии, если ни одна версия не удовлетворяет одновременно критериям авторитетности и длины. Версия с наибольшим PageRank (среди полных версий) может быть выбрана как основная.
Применяется ли этот патент только для Google Scholar?
Хотя в патенте в качестве примеров часто используется научная литература (scholarly literature) и интерфейс похож на Google Scholar, описанные механизмы являются общими для идентификации основных версий документов. Принципы применимы к любому типу контента, где существуют множественные версии, включая новости, блоги, e-commerce и т.д.
Подтверждает ли патент, что ссылочный вес дубликатов передается канонической версии?
Да, патент явно подтверждает консолидацию сигналов. В нем описан расчет Total Citation Count путем суммирования цитирований всех версий документа. Логично предположить, что аналогичный подход применяется и к другим ссылочным сигналам, таким как PageRank, которые агрегируются и приписываются выбранной Primary Version.
Как Google узнает, у кого есть «эксклюзивные права публикации»?
Патент предполагает, что эта информация может быть найдена в метаданных, связанных с версией документа. Также упоминается возможность использования списка правообладателей (document-right holder list), составленного из реестров авторских прав/собственности или из библиографических цитирований.
Как этот патент соотносится с тегом rel=canonical?
Патент (подан в 2005 г.) описывает алгоритмический способ выбора канонической версии, основанный на анализе контента, источника и ссылок. Тег rel=canonical (введен в 2009 г.) предоставляет вебмастерам способ явно указать предпочтительную версию. Можно предположить, что современные системы используют указания вебмастеров как сильный сигнал, но алгоритмы, подобные описанному в патенте, используются для принятия окончательного решения, особенно когда указания отсутствуют или противоречивы.
Что делать, если Google выбрал не мой сайт в качестве Primary Version?
Проанализируйте ситуацию по двум основным критериям патента. 1) Авторитетность: Возможно, Google считает домен конкурента более авторитетным источником (Priority of Authority). 2) Полнота: Убедитесь, что ваша версия контента не короче и не менее полная, чем версия конкурента (Qualified Length). Работайте над улучшением этих двух аспектов и концентрацией ссылочных сигналов.

Knowledge Graph
Семантика и интент
SERP

EEAT и качество
Свежесть контента
SERP

Краулинг
Индексация
Техническое SEO

Индексация
Поведенческие сигналы

Мультимедиа
EEAT и качество

SERP
Ссылки
Структура сайта

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Мультимедиа
Семантика и интент

Поведенческие сигналы
Ссылки
SERP

Поведенческие сигналы
SERP

Local SEO
Антиспам
Поведенческие сигналы

Поведенческие сигналы
SERP
Антиспам

Поведенческие сигналы
Персонализация
EEAT и качество
