SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса

DUPLICATE DOCUMENT DETECTION IN A WEB CRAWLER SYSTEM (Обнаружение дубликатов документов в системе веб-краулера)
  • US7627613B1
  • Google LLC
  • 2003-07-03
  • 2009-12-01
  • Краулинг
  • Индексация
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.

Описание

Какую проблему решает

Патент решает проблему наличия множественных копий одного и того же документа в интернете (точных дубликатов). Сканирование, индексирование и хранение дубликатов неэффективно расходует ресурсы поисковой системы (пропускную способность сети, дисковое пространство, вычислительные мощности). Кроме того, наличие дубликатов в индексе ухудшает пользовательский опыт, вытесняя разнообразный контент из результатов поиска.

Что запатентовано

Запатентована система и метод для обнаружения дубликатов документов непосредственно в процессе работы веб-краулера (web crawler system). Система (называемая Dupserver) группирует документы с идентичным контентом в «классы эквивалентности» (Equivalence Classes) и выбирает единственный «канонический» (Canonical Page) документ для индексации. Выбор основан на независимой от запроса метрике (Query-Independent Score), например, PageRank, с применением теста гистерезиса для стабильности.

Как это работает

Система работает на этапе фильтрации контента после сканирования. Для каждого документа вычисляются фингерпринты контента и URL. Эти фингерпринты используются для поиска в специализированных таблицах (CFT, UFT) для идентификации существующих дубликатов. Если дубликаты найдены, система определяет каноническую версию. Приоритет отдается версии с наивысшим Document Score (например, PageRank). Для предотвращения частого переключения канонической версии при незначительных колебаниях оценок используется тест гистерезиса (Hysteresis Test). Система также отдельно обрабатывает постоянные (301) редиректы, сохраняя их в PRT, и активно заменяет старые URL на новые во всех найденных исходящих ссылках.

Актуальность для SEO

Высокая. Каноникализация является фундаментальным процессом в Google Поиске. Хотя современные системы Google учитывают более сложные сигналы, описанные в патенте принципы остаются актуальными. Использование метрик авторитетности (подобных PageRank) для разрешения конфликтов дубликатов и применение гистерезиса для стабилизации выбора являются ключевыми аспектами работы поиска в 2025 году.

Важность для SEO

Патент имеет критическое значение (9/10) для SEO. Он описывает базовый механизм, определяющий, какая версия страницы будет проиндексирована при наличии точных дубликатов. Он подчеркивает, что авторитетность (PageRank) является решающим фактором при выборе канонической версии среди идентичных страниц. Также патент демонстрирует важность правильной реализации 301 редиректов для консолидации сигналов и объясняет задержки при смене канонических URL (из-за гистерезиса).

Детальный разбор

Термины и определения

Canonical Page (Каноническая страница)
Единственный репрезентативный документ, выбранный из Equivalence Class для индексации поисковой системой.
CFT (Content Fingerprint Table)
Таблица отпечатков контента. Структура данных, которая хранит информацию о документах, имеющих одинаковый Content Fingerprint. Индексируется по contentfp.
Content Fingerprint (contentfp)
Отпечаток контента. Идентификатор фиксированной длины (например, 64-битный), вычисленный на основе содержания документа. Используется для идентификации точных дубликатов контента.
Dupserver
Сервер или система, отвечающая за обнаружение дубликатов, поддержание таблиц CFT/UFT/PRT и определение каноничности.
Equivalence Class (Класс эквивалентности)
Набор дублирующихся документов, имеющих одинаковый contentfp или одинаковый Target URL Fingerprint.
Hysteresis Test (Тест гистерезиса)
Метод, используемый для определения того, следует ли заменить текущую каноническую страницу новой. Требует, чтобы оценка новой страницы значительно превышала оценку текущей (по аддитивным и мультипликативным порогам), чтобы предотвратить частое переключение (flapping).
Permanent Redirect (Постоянный редирект)
Индикация (например, HTTP 301), что исходный URL (Source URL) окончательно заменен целевым URL (Target URL). Краулер не скачивает контент по этому редиректу сразу.
PRT (Permanent Redirect Table)
Таблица постоянных редиректов. Структура данных, хранящая соответствия между исходными и целевыми URL постоянных редиректов. Используется для перезаписи исходящих ссылок.
Query-Independent Score / Document Score
Независимая от запроса метрика, указывающая на важность или популярность документа. В патенте явно упоминается PageRank в качестве примера.
Temporary Redirect (Временный редирект)
Индикация (например, HTTP 302), что контент временно доступен по другому адресу. Краулер следует по редиректу и скачивает контент.
UFT (URL Fingerprint Table)
Таблица отпечатков URL. Хранит информацию о документах (в основном, временных редиректах), имеющих одинаковый целевой URL. Индексируется по Target URL Fingerprint.
URL Fingerprint (urlfp)
Отпечаток URL. Идентификатор фиксированной длины, вычисленный на основе URL документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов.

  1. Система создает таблицы для хранения идентификаторов контента (Document Content Identifier) и рангов документов (Document Rank).
  2. Получает новый сканированный документ с его идентификатором и рангом.
  3. Читает таблицы, чтобы найти набор документов с тем же идентификатором, и определяет текущий репрезентативный (канонический) документ.
  4. Обновляет информацию в таблицах на основе рангов найденного набора и нового документа.
  5. Определяет новый репрезентативный документ для объединенного набора.
  6. Индексирует документ, если он определен как репрезентативный.

Claim 3 (Зависимый от 2): Детализирует процесс определения репрезентативного документа (каноникализация).

  1. Сравнивается Document Rank нового документа и текущего канонического документа в соответствии с предопределенными критериями сравнения.
  2. Новый документ выбирается как канонический, только если критерии выполнены. В противном случае текущий документ сохраняет статус.

Это описание механизма гистерезиса (Hysteresis Test).

Claim 4 (Зависимый от 3): Определяет критерии сравнения (гистерезис).

Критерии включают как минимум два параметра: один для сравнения с абсолютной разницей (absolute difference) оценок, а другой для сравнения с отношением (ratio) оценок между новым и текущим каноническим документом.

Claim 7 (Независимый пункт): Описывает метод работы с сегментированным адресным пространством (архитектура Dupserver).

  1. Создается N+1 таблиц, где N таблиц соответствуют прошлым фазам сканирования (эпохам), а одна – текущей фазе.
  2. При получении нового документа информация ищется во всех N+1 таблицах для формирования полного Equivalence Class.
  3. Обновление информации происходит только в текущей таблице.
  4. По завершении текущей фазы сканирования самая старая из N таблиц выводится из эксплуатации (retiring).

Где и как применяется

Изобретение применяется на стыке этапов сканирования и индексирования.

CRAWLING – Сканирование и Сбор данных
Краулеры (Robots) получают страницы и передают их в Content Filters. Краулеры также передают информацию о типе документа (обычный, 301 или 302 редирект) и его PageRank (полученный от Page Rankers).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Content Filters взаимодействуют с Dupserver для выполнения следующих задач:

  1. Обнаружение дубликатов: Использование CFT и UFT для определения, является ли страница дубликатом.
  2. Каноникализация: Выбор единственной репрезентативной версии на основе Document Score и Hysteresis Test.
  3. Управление редиректами: Регистрация 301 редиректов в PRT.
  4. Перезапись ссылок (Link Cleanup): Замена исходящих ссылок в контенте на целевые URL известных 301 редиректов (Permanent Redirect Replacement) перед сохранением в Link logs.

Только канонические страницы передаются далее индексаторам (Indexers) через RTlogs.

Входные данные:

  • Новый сканированный документ (контент).
  • URL документа (Source URL и Target URL, если это редирект).
  • Тип документа (обычный, 301, 302).
  • Document Score (например, PageRank) документа.

Выходные данные:

  • Статус каноничности нового документа.
  • Обновленные таблицы CFT, UFT, PRT.
  • Пересмотренный набор фингерпринтов исходящих ссылок (после замены по PRT).
  • Список URL других (неканонических) страниц в классе эквивалентности (используется для индексации их анкорного текста вместе с канонической страницей).

На что влияет

  • Конкретные типы контента: Влияет на любой контент, который является точным дубликатом. Особенно актуально для синдицированного контента, товаров в интернет-магазинах, зеркал сайтов, страниц с URL-параметрами, версий HTTP/HTTPS или WWW/без-WWW.
  • Ограничения: Патент фокусируется исключительно на точных дубликатах (идентичный contentfp). Он не описывает обработку близких дубликатов (near-duplicates).

Когда применяется

  • Условия применения: Алгоритм применяется каждый раз, когда краулер получает новый документ или обновленную версию существующего документа.
  • Временные рамки: Процесс происходит в реальном времени во время обработки сканированного контента, до его индексации.
  • Сегментированная обработка: Dupserver поддерживает N+1 набор данных, соответствующий сегментам сканирования интернета. Это позволяет поддерживать глобальную актуальность данных о дубликатах, обрабатывая интернет по частям.

Пошаговый алгоритм

Процесс обработки нового сканированного документа в Content Filter и Dupserver.

Этап 1: Получение и классификация документа

  1. Система получает новый документ от краулера.
  2. Определяется тип документа: Постоянный редирект (301), Временный редирект (302) или Обычный документ.

Этап 2А: Обработка Постоянного редиректа (301)

  1. Вычисляются фингерпринты исходного (src_urlfp) и целевого (trgt_urlfp) URL.
  2. Информация регистрируется в PRT. Если запись для src_urlfp уже существует, она обновляется новым trgt_urlfp.
  3. Процесс завершается. Контент не скачивается и не анализируется.

Этап 2Б: Обработка Обычного документа или Временного редиректа (302)

  1. Вычисляются contentfp, src_urlfp, trgt_urlfp (для обычного документа src=trgt) и получается Score (PageRank).
  2. Поиск в CFT (по контенту):
    • Система ищет contentfp в CFT (во всех N+1 сегментах).
    • Если не найден: создается новый Equivalence Class в текущем сегменте, документ помечается как канонический по контенту.
    • Если найден: система объединяет данные из всех сегментов и проверяет, нужно ли обновить класс в текущем сегменте (если класс не полон или Score нового документа выше минимального в классе).
  3. Поиск в UFT (по целевому URL):
    • Система ищет trgt_urlfp в UFT (применяется в основном для 302 редиректов).
    • Процесс аналогичен поиску в CFT.
  4. Выбор Канонической Страницы (Hysteresis Test):
    • Для сформированных классов в CFT и UFT применяется тест гистерезиса.
    • Система сравнивает Score претендента (S_new) с Score текущей канонической страницы (S_original).
    • Смена канонической страницы происходит ТОЛЬКО если выполнены оба условия (преодолены пороги H_arithmetic и H_multiplicative).
  5. Определение итоговой каноничности: Документ считается каноническим, если он признан таковым и в CFT, и в UFT (если применимо).

Этап 3: Постобработка канонического документа

  1. Если документ признан каноническим, выполняется перезапись исходящих ссылок (Permanent Redirect Replacement).
  2. Для каждой исходящей ссылки выполняется рекурсивный поиск в PRT.
  3. Если ссылка является источником 301 редиректа, она заменяется на конечный целевой URL.
  4. Цепочки редиректов сжимаются (если A->B и B->C, то A обновляется на A->C).
  5. Канонический документ и пересмотренный список ссылок передаются для индексации.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Весь контент документа используется для вычисления Content Fingerprint и извлечения исходящих ссылок.
  • Технические факторы: HTTP статус коды (301, 302) используются для классификации типа документа. URL (Source и Target) используются для вычисления URL Fingerprints и индексации в UFT и PRT.
  • Ссылочные факторы (Авторитетность): Используется Query-Independent Score (явно упоминается PageRank) для выбора канонической версии среди дубликатов.

Какие метрики используются и как они считаются

  • Content Fingerprint (contentfp) и URL Fingerprint (urlfp): Вычисляются с помощью односторонней хеш-функции от контента/URL.
  • Document Score (Score): Независимая от запроса метрика (например, PageRank).
  • Предельный размер класса эквивалентности (K): Предопределенное число (например, от 2 до 6). Система хранит только K самых авторитетных дубликатов в памяти Dupserver.
  • Hysteresis Test (Тест гистерезиса): Механизм выбора канонической страницы. Используются два порога:
    • H_arithmetic: Пороговое значение для абсолютной разницы Score.
    • H_multiplicative: Пороговое значение для относительной разницы (отношения) Score.
  • Метрики сравнения: Чтобы новый претендент (

Выводы

  1. Каноникализация происходит на раннем этапе: Решение о том, является ли страница дубликатом и какая версия является канонической, принимается сразу после сканирования и до основной индексации.
  2. Идентификация по контенту: Основным методом идентификации точных дубликатов является сравнение отпечатков контента (Content Fingerprint).
  3. PageRank как решающий фактор для точных дубликатов: При наличии идентичного контента система выбирает в качестве канонической версию с наивысшим Query-Independent Score (например, PageRank). Авторитетность является главным критерием выбора.
  4. Гистерезис обеспечивает стабильность (Stickiness): Система намеренно затрудняет смену канонической версии. Чтобы заменить текущий каноникал, новая версия должна быть значительно авторитетнее. Это предотвращает частое переключение (flapping) в индексе из-за незначительных колебаний метрик.
  5. Четкое разделение обработки 301 и 302 редиректов: Постоянные (301) редиректы регистрируются в PRT для консолидации сигналов и перезаписи ссылок. Временные (302) редиректы обрабатываются через UFT, где система выбирает канонический источник среди нескольких временных ссылок.
  6. Автоматическая консолидация ссылочного веса (Link Cleanup): Система активно перезаписывает исходящие ссылки на лету (Permanent Redirect Replacement). Если страница А ссылается на URL B, а система знает о 301 редиректе с B на C, ссылка будет учтена как ведущая на C.
  7. Индексация анкорного текста неканонических версий: Система передает список неканонических URL из класса эквивалентности индексатору, чтобы он мог связать их анкорный текст с канонической страницей.

Практика

Best practices (это мы делаем)

  • Консолидация авторитетности на предпочтительных URL: Поскольку PageRank (или аналогичная метрика авторитетности) является решающим фактором для выбора канонической версии среди точных дубликатов, необходимо гарантировать, что предпочтительная версия URL получает максимум внутренних и внешних ссылок.
  • Корректное использование 301 редиректов: Используйте постоянные (301) редиректы для окончательного перемещения страниц. Патент подтверждает, что Dupserver регистрирует эти редиректы (в PRT) и использует их для автоматической перезаписи исходящих ссылок, обеспечивая эффективную консолидацию ссылочного веса.
  • Последовательное внутреннее связывание: Убедитесь, что все внутренние ссылки указывают на канонические URL. Это помогает направить внутренний PageRank на нужные страницы и усилить сигнал для выбора канонической версии.
  • Управление цепочками редиректов: Хотя система умеет обрабатывать и сжимать цепочки редиректов (Compress permanent redirect path), рекомендуется держать их короткими (в идеале один шаг) для обеспечения эффективной обработки.
  • Мониторинг канонических версий с учетом гистерезиса: Отслеживайте выбранные Google канонические версии (например, через GSC). Если выбрана неверная версия, необходимо значительно усилить сигналы авторитетности для предпочтительного URL, чтобы преодолеть пороги Hysteresis Test. Не ожидайте мгновенных изменений.

Worst practices (это делать не надо)

  • Использование 302 редиректов вместо 301: Использование временных (302) редиректов для постоянного перемещения контента не приведет к консолидации сигналов через PRT. 302 редиректы обрабатываются сложнее (через UFT) и могут запутать сигналы каноникализации.
  • "Флаппинг" канонических URL (Canonical Flapping): Частое изменение структуры сайта, URL или сигналов каноникализации без крайней необходимости. Из-за Hysteresis Test система будет сопротивляться изменениям, что может привести к нестабильности в индексе.
  • Распыление сигналов авторитетности между дубликатами: Наличие множества внутренних или внешних ссылок на разные версии одного и того же контента (например, URL с параметрами отслеживания). Это затрудняет выбор канонической версии и увеличивает риск выбора неоптимального URL.
  • Создание длинных цепочек и циклов редиректов: Это усложняет процесс Permanent Redirect Replacement. Циклы помечаются как ошибки, а цепочки замедляют обработку.

Стратегическое значение

Патент подтверждает, что PageRank (или его современные эквиваленты) является не просто фактором ранжирования, а фундаментальным элементом инфраструктуры индексирования и каноникализации. Стратегии SEO должны учитывать, что архитектура сайта и управление ссылочным весом напрямую влияют на то, какие страницы будут проиндексированы. Механизм гистерезиса подчеркивает стратегический приоритет Google на стабильность индекса: система предпочитает устоявшийся выбор, если нет веских причин его менять.

Практические примеры

Сценарий: Консолидация дублей с близким авторитетом (Hysteresis Test)

  1. Ситуация: Сайт имеет две версии страницы с идентичным контентом: /page-old (текущая каноническая версия) и /page-new (предпочтительная версия).
  2. Авторитетность: /page-old имеет Score 50. /page-new имеет Score 52 (из-за недавних изменений во внутренней перелинковке).
  3. Обработка: Google сканирует /page-new. Система запускает Hysteresis Test.
  4. Результат: Предположим, пороги гистерезиса:

Вопросы и ответы

Что такое «Тест гистерезиса» (Hysteresis Test) и почему он важен для SEO?

Это механизм, который предотвращает частую смену канонического URL (flapping), если разница в оценках авторитетности (Score) между текущей канонической версией и претендентом незначительна. Чтобы произошла смена, новая страница должна быть значительно авторитетнее (преодолеть как абсолютный, так и относительный порог). Для SEO это означает, что изменения в сигналах (например, перелинковка) могут не привести к немедленной смене канонической версии, если разница в PageRank мала.

На основе чего Google выбирает каноническую версию среди точных дубликатов?

Согласно патенту, основным фактором является Query-Independent Score, примером которого является PageRank. Система стремится выбрать URL с наивысшей оценкой из Equivalence Class. Однако этот выбор подчиняется Hysteresis Test, поэтому не всегда страница с самым высоким баллом является текущей канонической версией.

Означает ли этот патент, что атрибут rel=canonical игнорируется?

Нет. Этот патент был подан в 2003 году, до широкого внедрения rel=canonical (2009). Патент описывает базовую логику системы обнаружения дубликатов, основанную на контенте и авторитетности. Современные системы Google учитывают множество сигналов каноникализации, включая rel=canonical, но этот патент подчеркивает, что Score (PageRank) исторически является фундаментальным входным сигналом для алгоритмов каноникализации.

Как обрабатываются 301 и 302 редиректы во время сканирования?

Патент описывает четкое различие. 301 (Постоянный): краулер не переходит по нему сразу, а регистрирует соответствие в Permanent Redirect Table (PRT). Эта информация используется для замены ссылок в контенте других страниц. 302 (Временный): краулер переходит по нему, получает контент и обрабатывает его как потенциальный дубликат, регистрируя в URL Fingerprint Table (UFT) по целевому URL.

Что такое «Замена постоянных редиректов» (Permanent Redirect Replacement)?

Это процесс нормализации исходящих ссылок в каноническом документе. Если ссылка в контенте указывает на URL, который, по данным PRT, является источником 301 редиректа, система немедленно заменяет эту ссылку на конечный целевой URL. Это гарантирует, что индекс и граф ссылок строятся на основе актуальных, финальных адресов.

Как система обрабатывает цепочки редиректов?

Система выполняет рекурсивный поиск в PRT, чтобы найти конечный целевой URL цепочки. Если обнаруживается петля, URL помечается ошибкой. Если цепочка корректна (например, A->B->C), система выполняет «сжатие пути» (Compress permanent redirect path), обновляя промежуточные записи в PRT так, чтобы A указывал напрямую на C (A->C), ускоряя будущие проверки.

Что такое «Класс эквивалентности» (Equivalence Class)?

Это набор всех известных системе URL, которые имеют идентичный контент (одинаковый Content Fingerprint) или ведут на один и тот же целевой URL (для временных редиректов). Из этого класса выбирается одна каноническая страница для индексации.

Хранит ли Google информацию обо всех дубликатах?

Не обязательно. Патент описывает механизм ограничения размера Equivalence Class предопределенным числом K (например, 4). В классе хранятся только K документов с наивысшими оценками (Score). Если новый дубликат имеет оценку ниже, чем у существующих членов класса, и класс полон, он не будет сохранен в структуре Dupserver.

Как используется анкорный текст неканонических страниц?

Патент утверждает, что список топовых неканонических страниц из Equivalence Class передается индексатору вместе с канонической страницей. Индексатор использует этот список для извлечения анкорного текста ссылок, указывающих на эти неканонические страницы, и ассоциирует его с канонической страницей. Это обогащает индекс и позволяет канонической странице ранжироваться по более широкому спектру анкоров.

Что означает сегментированная архитектура Dupserver (N+1 таблиц)?

Это связано с тем, как Google сканирует интернет сегмент за сегментом (Claim 7). Система хранит данные о дубликатах для всех сегментов одновременно (N прошлых и 1 текущий). При проверке нового документа система объединяет данные из всех сегментов для формирования полного Equivalence Class, но обновляет только данные текущего сегмента. Это позволяет поддерживать актуальность данных о дубликатах по всему интернету, обрабатывая его по частям.

Похожие патенты

Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.
  • US8661069B1
  • 2014-02-25
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг
Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.
  • US7680773B1
  • 2010-03-16
  • Техническое SEO

  • Краулинг

  • Индексация

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования
Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).
  • US7930400B1
  • 2011-04-19
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
  • US8095876B1
  • 2012-01-10
  • EEAT и качество

  • Техническое SEO

  • Ссылки

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
  • US7886032B1
  • 2011-02-08
  • Краулинг

  • Техническое SEO

  • Индексация

Популярные патенты

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента
Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.
  • US7788245B1
  • 2010-08-31
  • Ссылки

  • SERP

  • Семантика и интент

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).
  • US7096214B1
  • 2006-08-22
  • EEAT и качество

  • Антиспам

  • SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска
Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.
  • US20170277702A1
  • 2017-09-28
  • Семантика и интент

  • Local SEO

  • Персонализация

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

seohardcore