Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google выбирает каноническую (основную) версию документа среди дубликатов и консолидирует сигналы ранжирования

    IDENTIFYING A PRIMARY VERSION OF A DOCUMENT (Идентификация основной версии документа)
    • US10275434B1
    • Google LLC
    • 2019-04-30
    • 2005-11-18
    2005 Индексация Краулинг Патенты Google Ссылки

    Google использует систему для выбора одной «основной версии» документа из множества дубликатов. Выбор основан на авторитетности источника, полноте контента и PageRank. Система агрегирует сигналы (например, цитирования и ссылки) всех версий и приписывает их основной версии, которая представляется в результатах поиска.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает фундаментальную проблему дублирования контента в поисковой выдаче. Он устраняет необходимость показывать пользователю несколько версий одного и того же документа (например, полные копии, рефераты, синдицированный контент), что засоряет выдачу, вытесняет разнообразный контент и затрудняет выбор наиболее авторитетного или полного источника. Также решается проблема распыления ранжирующих сигналов между дубликатами.

    Что запатентовано

    Запатентована система и метод для идентификации «основной версии» (Primary Version) документа среди его дубликатов или близких копий. Система использует правила приоритета (Priority Rules), основанные на авторитетности источника и полноте контента (Length Qualification), для выбора лучшей версии. Кроме того, описан механизм агрегации сигналов ранжирования (например, цитирований) со всех версий к выбранной основной версии.

    Как это работает

    Система работает на этапе индексирования:

    • Идентификация дубликатов: Система обнаруживает разные версии одного и того же документа.
    • Присвоение приоритета: Каждой версии присваивается «Приоритет авторитетности» (Priority of Authority) на основе репутации источника или прав публикации.
    • Оценка полноты: Проверяется «Квалификация длины» (Qualified Length), чтобы предпочесть полные тексты кратким.
    • Выбор основной версии: Предпочтение отдается версии с высоким приоритетом И достаточной длиной.
    • Резервный механизм: Если явного лидера нет, выбирается версия с наибольшей «Мерой информации» (Information Measure), например, самая длинная, самая цитируемая или с наибольшим PageRank.
    • Агрегация сигналов: Сигналы, такие как количество цитирований (Citation Count), суммируются со всех версий.
    • Представление: В SERP показывается основная версия, к которой привязаны агрегированные сигналы и ссылки на альтернативные версии.

    Актуальность для SEO

    Высокая. Каноникализация, борьба с дублированным контентом и консолидация сигналов являются фундаментальными задачами для Google. Хотя этот патент является продолжением (continuation) заявок, начиная с 2005 года, описанные в нем принципы лежат в основе современных систем индексирования и, в частности, работы Google Scholar (учитывая изобретателей).

    Важность для SEO

    Патент имеет высокое значение для SEO (8.5/10). Он описывает фундаментальные принципы, по которым Google алгоритмически выбирает каноническую версию контента. Понимание того, что выбор основан на авторитетности источника, полноте контента и внешних сигналах (PageRank), и что сигналы консолидируются, критически важно для управления индексацией, стратегиями синдикации контента и обеспечения того, чтобы правильная версия документа получала весь заслуженный авторитет.

    Детальный разбор

    Термины и определения

    Primary Version (Основная версия)
    Каноническая версия документа, выбранная системой из набора дубликатов для представления в результатах поиска.
    Priority of Authority (Приоритет авторитетности)
    Оценка, присваиваемая версии документа на основе Priority Rule. Отражает авторитетность или предпочтительность данной версии.
    Priority Rule (Правило приоритета)
    Логика для определения Priority of Authority. Может основываться на источнике документа (используя Source-Priority List) или на правах публикации (например, эксклюзивные права выше лицензионных).
    Source-Priority List (Список приоритетов источников)
    Хранилище данных, содержащее список источников (веб-сайтов, баз данных) с соответствующими им заранее определенными оценками приоритета, основанными на репутации, размере корпуса и т.д.
    Length Qualification / Qualified Length (Квалификация длины)
    Проверка, соответствует ли длина документа минимальному порогу (minimum length threshold). Используется для того, чтобы отличить полные тексты от рефератов или абстрактов.
    Information Measure (Мера информации)
    Метрика, используемая для выбора Primary Version, если стандартные критерии (приоритет и длина) не выявили явного лидера. Может основываться на длине, Citation Count, Reference Count, свежести или PageRank.
    Citation Count (Количество цитирований)
    Количество внешних документов, ссылающихся на данную версию. Система рассчитывает общее количество цитирований (Total Citation Count) путем агрегации Citation Count всех версий документа.
    PageRank
    Мера важности версии документа, определяемая ссылающимися на нее документами. Явно упоминается как фактор выбора Primary Version.
    Metadata (Метаданные)
    Информация, ассоциированная с документом: автор, заголовок, издатель, дата публикации, URL, PageRank, идентификаторы (ISBN, DOI) и т.д.

    Ключевые утверждения (Анализ Claims)

    Примечание: Данный патент (US10275434B1) является продолжением (continuation) более ранних патентов (например, US 8,095,876). Его Claims сосредоточены в основном на представлении результатов поиска (UI/Presentation) после того, как основная версия была выбрана, в то время как сам механизм выбора подробно описан в теле патента (Description).

    Claim 1 (Независимый пункт): Описывает метод генерации отображения результата поиска (SERP snippet) для документа, который имеет несколько версий.

    1. Получение результатов поиска в ответ на запрос.
    2. Генерация отображения для конкретного результата, включающая:
      • Рендеринг первой гиперссылки, которая ссылается на первую (основную) версию документа.
      • Рендеринг информации о публикации (publishing information), относящейся к этой версии.
      • Рендеринг сниппета из этой версии.
      • Рендеринг второй гиперссылки, которая ссылается на набор цитирующих документов (set of citing documents), причем каждый цитирующий документ ссылается хотя бы на одну из версий исходного документа.

    Ключевой защищаемый элемент здесь — это отображение ссылки на агрегированный набор цитирований («Cited by»), собранных со всех версий документа, рядом с основной версией.

    Claim 2 (Зависимый): Уточняет, что первая версия является «основной версией» (Primary Version), которая определяется, по крайней мере частично, на основе источника (Source) документа.

    Claim 4 (Зависимый от 3): Уточняет, что отображение также включает гиперссылку, анкорный текст которой содержит количество идентифицированных различных версий документа (например, ссылка «Все версии»).

    Claim 7 (Зависимый от 1): Уточняет, что анкорный текст второй гиперссылки (на цитирующие документы) включает общее количество документов, цитирующих хотя бы одну версию документа (Total Citation Count).

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения механизма. В рамках Indexing System (110):

    • Идентификация дубликатов: Document Matching Subsystem (160) идентифицирует разные версии одного и того же документа.
    • Анализ версий: Primary Version Identification Subsystem (170) анализирует эти версии. Он использует извлеченные признаки (длина, PageRank, метаданные) и внешние данные (Source-Priority List) для расчета Priority of Authority и Information Measure.
    • Каноникализация: Система выбирает Primary Version.
    • Агрегация сигналов: Система агрегирует сигналы (например, Citation Count) со всех версий и связывает их с Primary Version.
    • Хранение: Результаты сохраняются в Index Database (150).

    RANKING – Ранжирование
    Системы ранжирования (Search System 120) используют агрегированные сигналы (например, общий Citation Count или консолидированный авторитет), приписанные к Primary Version, для определения ее релевантности и важности.

    METASEARCH / RERANKING (Presentation)
    Presentation System (130) использует данные из индекса для формирования SERP, как описано в Claims. Она отображает Primary Version как основной результат и предоставляет доступ к агрегированным цитатам и другим версиям.

    На что влияет

    • Конкретные типы контента: Наиболее актуально для контента, который часто дублируется или синдицируется: научные статьи, новости, описания товаров (e-commerce), техническая документация. В патенте особо выделяется научная литература (scholarly literature) из-за наличия структурированных метаданных и цитирований.
    • Конкретные ниши: Академический поиск (Google Scholar), издательское дело, агрегаторы новостей, E-commerce.

    Когда применяется

    • Триггер активации: Обнаружение системой индексирования нескольких версий (дубликатов или близких копий) одного и того же документа.
    • Условия применения: Наличие достаточных данных для сравнения версий — информация об источнике, длина контента, наличие внешних сигналов (ссылки, цитирования).

    Пошаговый алгоритм (Выбор основной версии)

    Алгоритм основан на логике, описанной в патенте и проиллюстрированной на FIG. 2.

    1. Сбор данных: Получение набора различных версий одного документа и их метаданных (источник, длина, PageRank, Citation Count и т.д.).
    2. Присвоение приоритета: Каждой версии присваивается Priority of Authority на основе Priority Rule. Это может включать проверку источника по Source-Priority List или анализ прав публикации (эксклюзивные права имеют наивысший приоритет).
    3. Оценка квалификации: Система определяет, есть ли хотя бы одна версия, удовлетворяющая двум условиям одновременно:
      • Имеет «квалифицированный приоритет» (Qualified Priority) (например, выше порога авторитетности или наивысший среди всех версий).
      • Имеет «квалифицированную длину» (Qualified Length) (например, длиннее минимального порога, установленного для отделения полных текстов от абстрактов).
    4. Выбор (Сценарий А): Если такие версии существуют (ДА на шаге 3), одна из них выбирается как Primary Version. Если кандидатов несколько, для разрешения коллизии используются дополнительные сигналы (например, PageRank).
    5. Выбор (Сценарий Б — Резервный): Если таких версий НЕТ (НЕТ на шаге 3), система переключается на альтернативную логику.
    6. Применение Меры Информации: В Сценарии Б выбирается версия с максимальным значением Information Measure. Это может быть самая длинная версия, версия с наибольшим Citation Count (среди достаточно длинных), или версия с наибольшим PageRank (среди достаточно длинных).
    7. Агрегация сигналов: После выбора Primary Version система агрегирует сигналы. Например, суммирует Citation Count всех версий для расчета Total Citation Count.
    8. Индексирование: Primary Version помечается как каноническая, и с ней связываются агрегированные сигналы.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Содержимое документа используется для оценки его длины (Length Qualification) и для извлечения сниппетов.
    • Технические факторы: URL (для идентификации источника/Source). Дата последней модификации (Last Modified time) может использоваться в Information Measure.
    • Ссылочные факторы:
      • PageRank версии документа (явно указан как фактор выбора).
      • Citation Count (количество входящих цитирований на эту версию).
      • Reference Count (количество исходящих ссылок из этой версии).
    • Структурные факторы и Метаданные: Автор, заголовок, издатель, дата публикации, идентификаторы (DOI, ISBN). Информация о правах публикации (Publication rights).
    • Системные данные: Source-Priority List (предварительно определенные приоритеты источников).

    Какие метрики используются и как они считаются

    • Priority of Authority: Рассчитывается на основе Priority Rule. Использует Source-Priority List или тип прав публикации (эксклюзивные права дают более высокий приоритет).
    • Length Qualification: Сравнение длины документа (в байтах, словах и т.д.) с минимальным пороговым значением (minimum length threshold).
    • Information Measure: Метрика, используемая для выбора каноникала при отсутствии явного лидера. Может быть функцией от длины, Citation Count, Reference Count, PageRank или свежести. Конкретные формулы в патенте не приводятся.
    • Total Citation Count: Агрегированная метрика. Рассчитывается как сумма Citation Count всех идентифицированных версий документа.

    Выводы

    1. Авторитетность источника — ключевой фактор каноникализации: Google использует Priority of Authority, основанный на источнике документа (Source) или правах на публикацию, как первичный критерий для выбора Primary Version. Это подтверждает важность репутации домена и статуса первоисточника.
    2. Полнота контента (Length) имеет значение: Система явно использует Length Qualification, чтобы предпочесть полные версии документов кратким. Неполный контент имеет меньше шансов стать каноникалом, даже если размещен на авторитетном ресурсе.
    3. Гибкая логика выбора каноникала (Fallback Mechanism): Если авторитетная версия не является полной или наоборот, система использует альтернативную логику (Information Measure). Это означает, что менее авторитетная, но более полная или лучше ранжируемая (PageRank) версия может быть выбрана в качестве канонической.
    4. PageRank как фактор каноникализации: PageRank явно указан как критерий выбора в рамках Information Measure или как тай-брейкер. Это подтверждает роль ссылочных сигналов в процессе выбора канонической версии.
    5. Подтверждение агрегации сигналов (Консолидация): Патент явно описывает механизм агрегации сигналов ранжирования (на примере Citation Count) со всех дубликатов к Primary Version. Это фундаментальный принцип, подтверждающий, что Google стремится консолидировать ссылочный вес и авторитет на канонической странице.

    Практика

    Best practices (это мы делаем)

    • Публикуйте оригинал на самом авторитетном домене: Так как Priority of Authority источника является первичным фактором выбора каноникала, убедитесь, что ваш основной сайт имеет наивысший авторитет среди всех площадок, где размещается этот контент.
    • Обеспечивайте максимальную полноту контента: Убедитесь, что версия на вашем основном сайте является наиболее полной (удовлетворяет Length Qualification). Не публикуйте урезанные версии или только абстракты на URL, который вы хотите сделать каноническим.
    • Наращивайте внешние сигналы на канонической версии: Поскольку система использует PageRank и Citation Count в качестве Information Measure для выбора Primary Version (особенно в спорных ситуациях), критически важно направлять ссылки и цитирования именно на предпочтительную версию URL.
    • Контролируйте синдикацию контента: При синдикации контента на другие площадки необходимо использовать явные сигналы каноникализации (например, rel=canonical, указывающий на оригинал) и требовать ссылки на источник, чтобы помочь алгоритмам Google выбрать вашу версию как Primary Version и консолидировать PageRank.
    • Используйте полные и точные метаданные: Для контента типа статей, исследований или продуктов предоставляйте полные метаданные и структурированные данные (автор, дата, издатель, права), так как они могут использоваться в процессе идентификации дубликатов и определении приоритета (Priority Rule).

    Worst practices (это делать не надо)

    • Распространение дубликатов без стратегии: Создание множества версий контента на разных доменах или зеркалах без четкой стратегии каноникализации. Это заставляет Google алгоритмически выбирать Primary Version, и выбор может не совпасть с вашими целями.
    • Публикация сначала на сторонних ресурсах: Если новый контент сначала публикуется на стороннем ресурсе (например, в рамках гостевого постинга), этот ресурс рискует быть выбранным как Primary Version, особенно если его Priority of Authority выше.
    • Размещение полного контента только на неавторитетных доменах: Если полный текст размещен на слабом домене, а на основном авторитетном сайте доступен только абстракт, система может выбрать неавторитетный домен как каноникал на основе Information Measure (длины).

    Стратегическое значение

    Патент подтверждает, что каноникализация — это не просто выбор URL на основе тега rel=canonical, а сложный алгоритмический процесс. Система взвешивает авторитетность источника, качество и полноту контента, а также внешние сигналы (PageRank). Долгосрочная SEO-стратегия должна фокусироваться на создании однозначно лучшей и наиболее полной версии контента на наиболее авторитетном домене и обеспечении консолидации всех сигналов ранжирования на ней.

    Практические примеры

    Сценарий: Управление синдицированной статьей или пресс-релизом

    • Ситуация: Компания (Source A) публикует статью на своем блоге и синдицирует ее на крупном новостном портале (Source B).
    • Работа алгоритма: Google видит две версии. Если новостной портал (Source B) имеет значительно более высокий Priority of Authority (например, внесен в Source-Priority List как авторитетный издатель) и обе версии полные (Qualified Length), он будет выбран как Primary Version (Сценарий А).
    • SEO-действие для Source A: Чтобы повысить шансы выбора Source A, необходимо:
      1. Настоять, чтобы Source B использовал rel=canonical или хотя бы ставил прямую ссылку на оригинал.
      2. Активно получать внешние ссылки на версию Source A. Это увеличит ее PageRank. Если разница в авторитетности доменов не критична, более высокий PageRank страницы может сработать как тай-брейкер или через Information Measure.
      3. Долгосрочно: повышать авторитетность Source A.

    Сценарий: Выбор между полной и краткой версией

    • Ситуация: Научная статья доступна на сайте издателя (Source C, высокий авторитет, только абстракт) и в университетском репозитории (Source D, средний авторитет, полный текст PDF).
    • Работа алгоритма: Source C имеет высокий приоритет, но не имеет Qualified Length. Source D имеет Qualified Length. Система не находит идеального кандидата (Сценарий А не сработал).
    • Резервный выбор: Система переключается на Сценарий Б (Information Measure). Если мера основана на длине или PageRank среди полных версий, Source D будет выбран как Primary Version.
    • SEO-действие для Source C: Чтобы стать Primary Version, издатель должен опубликовать полный текст.

    Вопросы и ответы

    Что важнее для выбора канонической версии: авторитетность сайта или полнота контента?

    Согласно патенту, система в первую очередь ищет версию, которая одновременно обладает высоким «Приоритетом авторитетности» (Priority of Authority) и «Квалифицированной длиной» (Qualified Length). Если такой версии нет, система переключается на «Меру информации» (Information Measure), где полнота контента или PageRank могут перевесить авторитетность источника. Идеально иметь и то, и другое.

    Как Google определяет авторитетность источника для каноникализации?

    Патент упоминает два основных способа. Первый — использование заранее составленного списка приоритетов источников (Source-Priority List), где сайтам присвоены оценки авторитетности на основе репутации. Второй — анализ прав публикации: источники с эксклюзивными правами на публикацию получают наивысший приоритет, лицензиаты — средний, остальные — низкий.

    Подтверждает ли этот патент, что ссылочный вес (PageRank) с дубликатов передается канонической странице?

    Да, патент явно описывает механизм агрегации сигналов. В качестве примера приводится суммирование количества цитирований (Citation Count) со всех версий и приписывание этого общего числа к Primary Version. Логично предположить, что аналогичный механизм консолидации применяется и к другим ссылочным сигналам, таким как PageRank.

    Используется ли PageRank при выборе самой канонической версии?

    Да, PageRank явно упоминается в патенте как один из критериев выбора. Он может использоваться для разрешения коллизий (как тай-брейкер), когда несколько версий претендуют на статус канонической, или как основной фактор выбора в рамках Information Measure, если стандартные критерии (приоритет источника и длина) не выявили лидера.

    Что произойдет, если авторитетный сайт публикует только краткое описание, а полный текст находится на менее авторитетном сайте?

    В этом случае система может не найти версию, удовлетворяющую и приоритету, и длине. Она перейдет к использованию Information Measure. Если эта мера основана на длине контента, система, вероятно, выберет менее авторитетный сайт с полным текстом в качестве Primary Version. Это подчеркивает важность размещения полного контента на основном домене.

    Как этот патент связан с тегом rel=canonical?

    Патент описывает алгоритмический способ выбора канонической версии, который не зависит от тегов, предоставленных вебмастером. Этот механизм служит страховкой на случай, если вебмастера не указали каноническую версию или указали ее некорректно. Использование rel=canonical помогает этим алгоритмам сделать правильный выбор, но алгоритм может переопределить его.

    Влияет ли этот патент только на Google Scholar или на основной поиск тоже?

    Хотя примеры в патенте и фокус на цитированиях явно указывают на применение в академическом поиске (Google Scholar), описанные принципы идентификации дубликатов, приоритизации источников и агрегации сигналов являются фундаментальными и применимы ко всей системе индексирования Google, включая основной веб-поиск и поиск новостей.

    Что такое «Квалификация длины» (Qualified Length)?

    Это проверка, предназначенная для того, чтобы отличить полные версии документов от их рефератов или абстрактов. Система сравнивает длину документа с минимальным пороговым значением (minimum length threshold). Только версии, превышающие этот порог, считаются полными и могут быть выбраны в качестве Primary Version.

    Может ли дата публикации или свежесть повлиять на выбор канонической версии?

    Да, патент упоминает время последней модификации (Last Modified time) как один из факторов, который может использоваться в «Мере информации» (Information Measure). В спорных ситуациях система может выбрать самую свежую версию среди документов с квалифицированной длиной.

    Что делать, если Google выбрал неправильную версию моего контента в качестве основной?

    Необходимо проанализировать, почему это произошло, исходя из логики патента. Возможно, выбранная версия размещена на более авторитетном источнике, она более полная, или на нее ведет больше внешних ссылок (выше PageRank). Для исправления ситуации нужно улучшить сигналы вашей предпочтительной версии (убедиться в полноте, получить больше ссылок) и использовать явные сигналы каноникализации (rel=canonical) с дубликатов на оригинал.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.