
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.
Патент решает проблему неточного обнаружения дубликатов контента. Традиционные методы часто дают сбой из-за различий в окружающем контенте (boilerplate), таком как навигация или реклама, при идентичном основном содержании (core content). Кроме того, они неэффективны при обработке динамического контента (JavaScript, AJAX), который изменяет страницу во время рендеринга, и уязвимы к спам-тактикам (например, скрытым ключевым словам). Цель изобретения — повысить точность (precision) и полноту (recall) обнаружения дубликатов, что позволяет улучшить качество выдачи и оптимизировать ресурсы сканирования.
Запатентована система обнаружения дубликатов, использующая гибридный подход, который анализирует как нерендеренные (non-rendered), так и рендеренные (rendered) версии документов. Система генерирует множество сигналов (signals) сравнения различных атрибутов обеих версий. Эти сигналы, включая сигналы, основанные на контексте запроса (query-based signals), объединяются в вектор и передаются обученной модели машинного обучения (Machine Learning classifier model), которая вычисляет уверенность (confidence) в том, что два документа являются дубликатами.
Ключевой механизм заключается в сравнении двух состояний документа:
DOM) после выполнения динамического контента (например, JavaScript).Система выполняет множество тестов для сравнения атрибутов (текст, заголовки, ссылки, сниппеты) в обоих состояниях. Результаты этих тестов формируют Signal Vector. Этот вектор обрабатывается ML Model, которая обучена распознавать паттерны, характерные для дубликатов, игнорируя различия в динамическом или шаблонном контенте.
Высокая. Рендеринг контента и каноникализация являются фундаментальными процессами в современном поиске. Архитектурный подход, описанный в патенте — сравнение контента до и после рендеринга с использованием машинного обучения для принятия окончательного решения — остается крайне актуальным, особенно с учетом повсеместного использования JavaScript-фреймворков. Хотя конкретные сигналы и модели ML могли эволюционировать, общая методология является стандартом.
Патент имеет высокое значение для SEO (8/10). Он описывает инфраструктуру, лежащую в основе каноникализации и индексирования. Он подчеркивает, что Google оценивает контент в его финальном, отрендеренном состоянии (Synthetic Body). Это означает, что SEO-специалисты должны анализировать DOM после выполнения JavaScript, чтобы понять, как поисковая система видит уникальность контента. Это критически важно для технического SEO и оптимизации сайтов, активно использующих динамический контент.
non-rendered version). Исходный HTML-код, полученный с сервера.ML Model.rendered version), используемая для анализа. Сериализованная версия DOM, включающая весь контент после рендеринга.Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов с использованием машинного обучения и анализа двух версий документов.
Fetched Body) первого и второго документов для определения первого набора сигналов. Сравниваются атрибуты тела документа (document body attributes).Synthetic Body) документов для определения второго набора сигналов. Сравниваются атрибуты синтетического тела (synthetic body attributes).query-based signal), который базируется на сравнении соответствующих сниппетов (snippet) документов.signal vector), включающего первый и второй наборы сигналов.ML Model, обученной определять уверенность (confidence) в том, являются ли документы дубликатами.Ядром изобретения является обязательная комбинация анализа сырого HTML и финального отрендеренного DOM, использование широкого спектра сигналов, включая специфичные для запроса (сниппеты), и применение ML для принятия финального решения.
Claims 3-6 (Зависимые): Уточняют типы и примеры сигналов.
distance-based, simple или query-based (Claim 3).Claim 9 (Зависимый): Описывает процесс улучшения модели ML (Active Learning).
Если уверенность (confidence), выданная моделью, ниже порога, система может запросить оценку у человека-асессора (human comparison). Эта оценка затем используется для дообучения классификатора и создания новой модели с улучшенной точностью.
Изобретение применяется преимущественно на этапе индексирования для управления качеством индекса и каноникализации.
CRAWLING – Сканирование и Сбор данных
Система может использовать результаты обнаружения дубликатов для оптимизации краулингового бюджета, избегая сканирования зеркального контента (mirrored content) и бесконечных хостов (infinite hosts).
INDEXING – Индексирование и извлечение признаков
Основной этап применения.
Fetched Body и выполняет рендеринг для получения DOM и Synthetic Body.ML Model используется для определения дубликатов. Результат (confidence score) влияет на выбор канонической версии и решение о включении документа в основной индекс.RANKING – Ранжирование
На этом этапе могут вычисляться или учитываться query-based signals (например, сравнение сниппетов), так как они зависят от контекста конкретного запроса.
Входные данные:
Fetched Body и Synthetic Body двух сравниваемых документов.query-based signals).Выходные данные:
confidence), указывающая на вероятность того, что два документа являются дубликатами.query-based signals. Это означает, что решение о дублировании может зависеть от контекста запроса. Два документа могут быть признаны дубликатами для одного запроса, но уникальными для другого.Алгоритм применяется в процессе индексирования для определения уникальности нового или обновленного документа и выбора канонической версии.
simple screening tests). Если предварительные тесты показывают низкую вероятность дублирования, полный анализ может не проводиться.Процесс обнаружения дубликатов для пары документов (Документ 1 и Документ 2):
Fetched Body (исходный код) для обоих документов.DOM.DOM сериализуется в Synthetic Body для обоих документов.Fetched Bodies и Synthetic Bodies. Может применяться фильтрация для исключения изменчивого контента (например, рекламы) из некоторых тестов.Distance-based, Simple, Query-based) для сравнения атрибутов Fetched Bodies.Synthetic Bodies.Signal Vector.Signal Vector подается на вход обученной модели машинного обучения.Confidence Score ниже порога, документы могут быть отправлены на ручную проверку асессорам для дообучения модели.Патент предоставляет обширный список атрибутов (TABLE 1), которые могут использоваться:
title), видимый текст (для сниппетов), коллекции слов и N-грамм, самая длинная общая подстрока.length), длина сжатой версии.anchors), домены входящих и исходящих ссылок и их частота.clicks) в результатах поиска.Система использует комбинацию метрик для генерации сигналов (TABLE 2):
1. Метрики схожести (Distance-based signals):
longest subsequence). Расстояние Жаккара (Jaccard distance).Term frequency-inverse document frequency (TF-IDF). Упоминается сравнение топ-100 TF-IDF терминов.Charikar random-hyperplane hashing.Modified normal compression distance (MCD). 2. Простые метрики (Simple signals):
Body length distance - BLD). 3. Метрики на основе запроса (Query-based signals):
Методы машинного обучения:
Для агрегации сигналов используется обученный классификатор. Упоминаются propositional rule learner (JRIP, RIPPER), decision tree classifier (J48, ID3, C4.5), нейронные сети, байесовские сети, логистическая регрессия и другие.
Fetched Body), так и после (Synthetic Body) рендеринга. Google оценивает дублирование на основе того, что пользователь видит в браузере, включая контент, загруженный динамически через JavaScript.ML Model, агрегирующей множество сигналов, делает систему устойчивой к попыткам обмана отдельных алгоритмов. Различия в шаблонном или динамическом контенте (например, рекламе) могут игнорироваться, если основной контент идентичен.query-based signals (в частности, сравнение сниппетов). Это означает, что оценка уникальности контента может меняться в зависимости от того, какой запрос ввел пользователь.DOM (или Synthetic Body), а не только исходный HTML-код. Это особенно важно для сайтов на JavaScript (SPA). Используйте инструменты Google (GSC URL Inspection, Mobile-Friendly Test) для проверки отрендеренного контента.boilerplate), таких как навигация или футер.query-based signals и сравнение сниппетов являются обязательной частью системы (Claim 1), важно, чтобы видимый текст на странице позволял генерировать уникальные сниппеты для целевых запросов. Это поможет дифференцировать похожие страницы (например, карточки товаров).Synthetic Body будет неполным, вызывая неправильную классификацию страницы.Fetched Body и Synthetic Body с целью манипуляции поисковой системой. Система анализирует обе версии.Патент подтверждает фундаментальную важность этапа рендеринга в архитектуре Google. Стратегии, основанные только на анализе статического HTML, устарели. Для успешного SEO необходимо глубокое понимание того, как Googlebot сканирует, рендерит и интерпретирует контент. Кроме того, патент демонстрирует, что каноникализация — это сложный процесс, основанный на машинном обучении и учитывающий контекст запроса, а не просто набор жестких правил. Это подчеркивает необходимость комплексного подхода к созданию уникального контента и технической оптимизации рендеринга.
Сценарий 1: Сравнение AMP и основной версии страницы
Fetched Body) сильно различается из-за спецификаций AMP.Synthetic Body.Сценарий 2: Управление вариантами товара в E-commerce
Distance-based signals (например, TF-IDF) покажут очень высокую степень сходства.Simple signals зафиксируют разницу в заголовке и тексте. Query-based signals по запросу "красная футболка" покажут разницу в сниппетах.ML Model учитывает эти различия. Если модель обучена распознавать значимость таких атрибутов в контексте E-commerce, она может классифицировать страницы как уникальные. Если различия минимальны и не влияют на сниппеты, они могут быть признаны дубликатами, что требует использования rel="canonical".В чем разница между Fetched Body, Rendered Body и Synthetic Body?
Fetched Body — это исходный HTML-код, полученный от сервера до рендеринга (как "View Source"). Rendered Body — это то, как страница выглядит в браузере после обработки HTML, CSS и выполнения JavaScript. Synthetic Body — это техническое представление Rendered Body (сериализованная версия DOM), которое система использует для анализа отрендеренного контента.
Означает ли этот патент, что Google всегда выполняет JavaScript перед определением дубликатов?
Да, патент описывает систему, которая специально разработана для анализа как исходного кода, так и контента после рендеринга (Synthetic Body), что включает выполнение JavaScript. Это позволяет системе видеть финальную версию страницы и принимать более точные решения о дублировании, особенно для динамических сайтов.
Как система обрабатывает шаблонный контент (boilerplate), например, навигацию или футер?
Система использует несколько механизмов. Во-первых, использование множества сигналов и ML Model позволяет системе научиться распознавать и игнорировать несущественные различия в шаблонных элементах. Во-вторых, в патенте упоминается возможность выбора атрибутов (Attribute Selection), что позволяет исключать изменчивый или нерелевантный контент (например, рекламу или boilerplate) из некоторых тестов сравнения.
Что такое "сигналы, основанные на запросе" (query-based signals) и почему они важны?
Query-based signals — это сравнения, которые выполняются в контексте конкретного поискового запроса, например, сравнение сниппетов (обязательное по Claim 1) или анализ данных о кликах. Они важны, потому что позволяют определить, являются ли два документа взаимозаменяемыми ответами на данный запрос. Две похожие страницы могут быть признаны дубликатами для общего запроса, но уникальными для более специфического.
Могут ли две страницы с разным HTML-кодом быть признаны дубликатами?
Да, абсолютно. Если разный HTML-код (включая скрипты) в результате рендеринга приводит к созданию идентичных или очень похожих Synthetic Bodies (финального контента), система классифицирует их как дубликаты. Система анализирует результат рендеринга, а не только путь его достижения.
Могут ли две страницы с одинаковым HTML-кодом быть признаны уникальными?
Да, это возможно. Если в HTML-коде содержатся скрипты, которые при рендеринге загружают разный динамический контент (например, в зависимости от времени суток или параметров пользователя), то их Synthetic Bodies будут отличаться. Если эти отличия затрагивают основной контент, ML Model может классифицировать их как уникальные.
Использует ли эта система поведенческие факторы (например, CTR) для определения дубликатов?
Да, патент явно упоминает использование поведенческих данных. В списке атрибутов указаны "пропорция или абсолютное число кликов", а в списке query-based signals упоминается "сравнение данных о релевантности" (relevance data), например, количество кликов на документ в результатах поиска.
Как этот патент влияет на SEO для сайтов на JavaScript-фреймворках (SPA)?
Влияние значительно. Для SPA критически важно, чтобы Googlebot мог корректно отрендерить контент и получить полный Synthetic Body. Если рендеринг не удается, система не сможет оценить уникальность контента. SEO-специалисты должны уделять особое внимание технической оптимизации рендеринга (например, используя Dynamic Rendering или SSR), чтобы гарантировать корректную индексацию и каноникализацию.
Может ли система проигнорировать тег rel="canonical", если обнаружит дубликат?
Да. Тег rel="canonical" является сильной подсказкой, но не директивой. Описанная в патенте система — это механизм, который Google использует для определения дубликатов на основе анализа контента и других сигналов. Если ML Model с высокой уверенностью определяет, что страница А является дубликатом Б, она может выбрать Б в качестве канонической версии, даже если теги указывают иначе.
Что происходит, если модель машинного обучения не уверена в своем решении?
Патент описывает механизм обратной связи (Claim 9). Если оценка уверенности (confidence) модели ниже определенного порога, пара документов может быть отправлена на ручную проверку асессорам. Их вердикт затем используется для дообучения и улучшения точности ML Model в будущем (Active Learning).

SERP
Семантика и интент
Персонализация

Техническое SEO
Индексация
SERP

Структура сайта
SERP
Ссылки

SERP
Техническое SEO
Индексация

SERP

Семантика и интент
SERP
Поведенческие сигналы

Local SEO
Поведенческие сигналы
Семантика и интент

Ссылки
SERP

Поведенческие сигналы
Персонализация
SERP

Структура сайта
SERP
Ссылки

Local SEO
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
Поведенческие сигналы
Антиспам

Индексация
Семантика и интент
Ссылки

Техническое SEO
Поведенческие сигналы
SERP
