Как Google идентифицирует перемещенный контент при сравнении версий веб-страниц во время индексации

Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые были перемещены в другое место. Используя метрику «Information Content», Google отличает существенные изменения контента от реорганизации макета.

Описание

Какую задачу решает

Патент решает проблему неточности стандартных инструментов сравнения (diff tools) при анализе документов, в которых контент был перемещен. Традиционные инструменты часто идентифицируют перемещенный блок как «удаленный» из исходного места и «вставленный» в новое, хотя содержание блока не изменилось. Это затрудняет точный анализ эволюции документа, будь то программный код или веб-страницы в поисковом индексе.

Что запатентовано

Запатентован итеративный метод сравнения двух версий документа для точного обнаружения перемещенного контента. Система многократно идентифицирует наборы совпадающих элементов (sets of matching elements), концептуально удаляет их и повторяет поиск в оставшихся частях. Это позволяет находить контент, присутствующий в обеих версиях, но в разных местах. Для оценки значимости совпадений используется метрика Information Content.

Как это работает

Система работает итеративно:

Итеративное сравнение: Используется техника, такая как Longest-Common-Subsequence (LCS), для поиска совпадений. Найденные совпадения удаляются, и процесс повторяется на остатках документов до тех пор, пока совпадения не закончатся.
Идентификация перемещений: Совпадения, найденные на первом проходе, обычно находятся на тех же местах. Совпадения, найденные на последующих проходах, часто указывают на перемещенный контент.
Вычисление Information Content: Для каждого совпадения вычисляется его значимость, чтобы отфильтровать тривиальные совпадения (например, пустые строки).
Присвоение меток: На основе местоположения и Information Content блокам присваиваются метки: ‘Unchanged’, ‘Moved’ или ‘Changed’.

Актуальность для SEO

Высокая. Эффективное сканирование и индексирование требует точного понимания того, как эволюционирует контент. Способность отличать редизайн или реструктуризацию макета от фактического обновления контента является фундаментальной задачей для инфраструктуры индексирования. Патент прямо упоминает применение к документам, собранным из сети (веб-страницам).

Важность для SEO

Влияние на SEO умеренное (6/10), преимущественно инфраструктурное. Патент не описывает сигналы ранжирования, но критически важен для понимания того, как Google технически обрабатывает обновления и редизайны. Он показывает, что система способна распознать перемещение контента, что позволяет ей отличать реальное обновление (влияющее на сигналы свежести) от простой реорганизации макета.

Детальный разбор

Термины и определения

Additional Sets of Matching Elements (Дополнительные наборы совпадающих элементов): Совпадающие элементы, идентифицированные во время последующих (не первых) итераций процесса сравнения. Если их местоположение отличается в двух документах, они соответствуют перемещенному контенту.
Information Content (Информационное содержание): Метрика значимости набора совпадающих элементов. Рассчитывается для фильтрации тривиальных совпадений. Может основываться на количестве символов или взвешенной сумме, где разные символы (например, пробелы) имеют разный вес.
Labels (Метки): Классификаторы, присваиваемые элементам документа. Основные метки: ‘Unchanged’ (не изменен), ‘Moved’ (перемещен), ‘Changed’ (изменен), а также ‘Moved and Changed’ (перемещен и изменен).
Longest-Common-Subsequence (LCS) (Наибольшая общая подпоследовательность): Алгоритмическая техника, упомянутая как метод для поиска самых длинных последовательностей элементов, общих для двух документов.
Marker (Маркер): Идентификатор, который может быть добавлен в документ на место удаленного совпадения в процессе итеративного анализа для отслеживания изменений.
Set of Matching Elements (Набор совпадающих элементов): Группа элементов (символов, слов, строк), которая идентична в обоих сравниваемых документах. Часто относится к совпадениям, найденным на первой итерации.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод сравнения.

Идентификация первого набора совпадающих элементов (set of matching elements) и их местоположений в первом и втором документах.
Повторяющаяся идентификация дополнительных наборов (additional sets of matching elements) до тех пор, пока совпадений больше нет. Каждый набор отличается от других.
Вычисление Information Content для заданного набора.
Присвоение меток (Labels) на основе вычисленного Information Content.
Детализация: Метка ‘Unchanged’ присваивается, если Information Content больше или равен пороговому значению (pre-determined value). Метка ‘Changed’ присваивается, если меньше.

Claim 6 (Зависимый от 1): Указывает на применение в контексте поисковой системы.

Документы хранятся в репозитории, который включает документы, извлеченные (scraped) с хост-сайтов в сети (например, Интернет).

Claim 10 (Зависимый от 1): Уточняет, что идентификация может выполняться с использованием техники Longest-Common-Subsequence (LCS).

Claim 11 и 12 (Зависимые от 1): Описывают итеративный процесс.

Все экземпляры найденных наборов удаляются из документов перед поиском последующих дополнительных наборов. На место удаленных экземпляров может быть добавлен Marker.

Claim 13 (Зависимый от 1): Определяет возможность перемещения.

Местоположение дополнительного набора в Документе 2 может отличаться от его местоположения в Документе 1.

Claim 18 (Зависимый от 1): Вводит метку ‘Moved’ для дополнительных наборов.

Метка ‘Moved’ присваивается экземплярам additional sets, если их Information Content больше или равен другому пороговому значению (another pre-determined value).
Метка ‘Changed’ присваивается, если меньше этого порога.

Claim 21 (Зависимый): Описывает слияние смежных блоков.

Если два набора с меткой ‘Moved’ разделены промежуточным набором с меткой ‘Changed’, они могут быть объединены в единую группу с меткой ‘Moved and Changed’.

Где и как применяется

Изобретение применяется на этапе обработки данных после сканирования для эффективного сравнения новой версии документа со старой.

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает новую версию веб-страницы. Этот контент служит входом для механизма сравнения.

INDEXING – Индексирование и извлечение признаков
Основное применение. Система индексирования (например, Caffeine) сравнивает только что сканированный контент с последней версией, хранящейся в репозитории (Claim 6). Это позволяет:

Анализировать эволюцию контента: Система определяет, изменился ли основной контент (‘Changed’) или произошла реорганизация макета (‘Moved’). Это влияет на необходимость переоценки страницы и на сигналы свежести.
Эффективно обновлять индекс: Позволяет обрабатывать только те части страницы, которые действительно изменились.

Входные данные:

Первый документ (например, версия веб-страницы из индекса).
Второй документ (например, только что сканированная версия).
Пороговые значения для Information Content.

Выходные данные:

Структурированное представление различий.
Метки (Labels) для каждого блока контента (‘Moved’, ‘Changed’, ‘Unchanged’).
Контекстная информация (Context Information), включая указатели на старые/новые местоположения перемещенных блоков.

На что влияет

Конкретные типы контента: Патент явно упоминает применение к web pages (веб-страницам) (Claim 3) и computer-software instructions (программному коду) (Claim 2).
Структура документа: Алгоритм особенно важен для анализа страниц, где часто меняется макет или порядок блоков (например, редизайн, изменение шаблонов, перемещение виджетов).

Когда применяется

Условия применения: Алгоритм применяется, когда краулер повторно посещает URL и обнаруживает, что контент изменился с момента последнего сканирования.
Триггеры активации: Необходимость сравнить новую версию документа с предыдущей версией, хранящейся в репозитории.

Пошаговый алгоритм

Процесс сравнения Документа 1 (Старый) и Документа 2 (Новый).

Инициализация: Получение двух версий документа.
Итеративная идентификация совпадений (Цикл):
1. Поиск совпадений: Применение техники (например, LCS) для идентификации совпадающих наборов элементов в текущем состоянии документов.
2. Маркировка и удаление (Опционально): Найденные совпадения удаляются из документов для следующей итерации, а на их место ставятся маркеры.
3. Проверка выхода: Если совпадений больше не найдено, выход из цикла. Иначе повторить шаг 2a.
Вычисление Information Content: Для всех идентифицированных наборов (найденных на всех итерациях) вычисляется Information Content (например, взвешенная сумма символов).
Присвоение меток (Labels): Анализ каждого набора с учетом итерации, на которой он был найден, и его Information Content:
- Наборы первой итерации: Если Information Content выше Порога 1, присвоить ‘Unchanged’. Если ниже, ‘Changed’.
- Наборы последующих итераций (Additional Sets): Если Information Content выше Порога 2 (может отличаться от Порога 1), присвоить ‘Moved’ (так как их местоположение, вероятно, отличается). Если ниже, ‘Changed’.
- Остаток: Элементам, не вошедшим ни в один набор совпадений, присваивается ‘Changed’.
Слияние смежных наборов (Опционально): Смежные блоки объединяются. Например, последовательность ‘Moved’ -> ‘Changed’ -> ‘Moved’ может быть объединена в один блок ‘Moved and Changed’.
Генерация вывода: Формирование итогового представления с контекстной информацией.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке содержимого документов.

Контентные факторы: Основные данные — это содержимое сравниваемых документов. Алгоритм анализирует последовательности элементов, которыми могут быть символы, слова или строки (Claim 8).
Структурные факторы: Порядок и расположение (locations) элементов в каждом документе критически важны для обнаружения перемещений.
Технические факторы: Упоминается возможность определения языка документа (например, языка программирования), что может влиять на расчет Information Content (Claim 17).

Какие метрики используются и как они считаются

Information Content (Информационное содержание): Ключевая метрика значимости совпадения. Методы расчета включают:
- Количество символов: Базовый расчет (Claim 15).
- Взвешивание символов: Применение разных весов к разным символам (Claim 16). Например, пробелы и табуляция могут иметь меньший вес, чем текст.
Pre-determined values (Пороговые значения): Пороги, используемые для сравнения с Information Content. Определяют, будет ли совпадение помечено как значимое (‘Unchanged’ или ‘Moved’) или тривиальное (‘Changed’). Пороги могут отличаться для разных итераций.
Методы анализа:
- Longest-Common-Subsequence (LCS): Упоминается как техника для нахождения совпадений (Claim 10).

Выводы

Google точно распознает перемещенный контент: Патент описывает конкретный механизм, позволяющий системе идентифицировать блоки контента, перемещенные в пределах страницы, не помечая их как удаленные и заново добавленные.
Различение реорганизации и обновления: Система способна технически отличить изменение макета (редизайн, перемещение блоков) от фактического обновления содержания текста.
Оценка значимости изменений (Information Content): Вводится метрика Information Content, которая позволяет игнорировать тривиальные изменения и фокусироваться на существенных блоках контента при анализе обновлений.
Применение к индексации веб-страниц: Механизм используется для сравнения веб-страниц, хранящихся в репозитории Google (Claim 6), что подтверждает его применение в конвейере индексации.
Влияние на сигналы свежести: Поскольку система знает, что контент был перемещен (‘Moved’), а не обновлен (‘Changed’), простое перемещение контента вряд ли активирует сильные сигналы свежести, которые могли бы быть активированы при добавлении аналогичного объема нового контента.

Практика

Best practices (это мы делаем)

Уверенное проведение редизайна и реструктуризации: Не стоит опасаться, что перемещение ключевых блоков контента (например, при смене шаблона или улучшении UX) приведет к потере релевантности. Механизм, описанный в патенте, позволяет Google понять, что это тот же самый контент в новом месте (метка ‘Moved’).
Сохранение целостности блоков при перемещении: При реструктуризации старайтесь перемещать блоки контента с минимальными изменениями внутри блока. Это максимизирует Information Content совпадения и гарантирует, что система корректно классифицирует его как ‘Moved’, а не ‘Changed’.
Фокус на реальном обновлении контента для свежести: При актуализации страниц вносите существенные изменения в содержание (высокий Information Content изменений), а не просто меняйте порядок абзацев. Это необходимо, чтобы Google распознал обновление как значимое (‘Changed’).

Worst practices (это делать не надо)

Имитация свежести через перемещение контента: Попытки обмануть алгоритмы свежести путем изменения порядка существующих блоков на странице неэффективны. Патент напрямую описывает механизм для обнаружения такого перемещения (метка ‘Moved’), и система не будет интерпретировать это как новый контент.
Внесение только тривиальных изменений: Обновление страницы путем изменения нескольких незначительных слов или форматирования (низкий Information Content) может быть классифицировано как незначительное изменение и не приведет к существенной переоценке страницы.
Полное переписывание во время перемещения: Если блок контента перемещается и одновременно полностью переписывается, система не найдет совпадений и интерпретирует это как удаление старого и добавление нового контента. Если цель — сохранить сигналы старого контента, этого следует избегать без необходимости.

Стратегическое значение

Патент подтверждает, что Google обладает сложными инфраструктурными инструментами для анализа эволюции контента на блочном уровне. Это подчеркивает, что система оценивает не только финальное состояние страницы, но и процесс ее изменения. Стратегически важно понимать, что Google различает перемещение и обновление, что позволяет более уверенно проводить работы по улучшению архитектуры сайта и шаблонов страниц, снижая риски потери накопленных сигналов при редизайне.

Практические примеры

Сценарий 1: Редизайн сайта и изменение макета страницы товара

Ситуация: Проводится редизайн интернет-магазина. Блок с основным описанием перемещается из правой колонки под изображение товара. Текст описания не меняется.
Обработка Google: Система сравнения использует итеративный LCS. Она идентифицирует блок описания как Additional Set of Matching Elements.
Анализ: Так как блок содержит много текста (высокий Information Content), ему присваивается метка ‘Moved’.
Результат: Google понимает, что основной контент не изменился, а был реорганизован. Страница не требует полной переоценки релевантности, как если бы этот контент был заменен новым.

Сценарий 2: Попытка «освежить» старую статью

Ситуация: SEO-специалист меняет местами 3-й и 5-й абзацы старой статьи и обновляет дату публикации.
Обработка Google: Система сравнения идентифицирует эти абзацы как перемещенные (‘Moved’).
Результат: Google видит, что новый контент добавлен не был (нет значимых блоков ‘Changed’). Система может проигнорировать сигнал свежести, так как фактическое содержание статьи не обновилось.

Вопросы и ответы

Если я перемещу важный абзац с низа страницы в самый верх, посчитает ли Google это добавлением нового контента?

Нет. Согласно патенту, система использует итеративный анализ (LCS) для идентификации таких блоков. Если содержание абзаца не изменилось и имеет достаточный Information Content, он будет помечен как ‘Moved’ (перемещенный). Google поймет, что это тот же самый контент в новом месте, а не новый контент.

Что такое «Information Content» и почему это важно?

Information Content — это метрика значимости блока текста. Она может рассчитываться как взвешенное количество символов (например, пробелы весят меньше текста). Это важно, так как позволяет системе игнорировать тривиальные совпадения (например, пустые строки или общие элементы разметки) и фокусироваться на реальном контенте при определении того, что было перемещено или осталось неизменным.

Как этот механизм влияет на редизайн сайта?

Он значительно снижает риски, связанные с редизайном. Если вы меняете шаблон и HTML-структуру, перемещая блоки основного контента, этот механизм позволяет Google понять, что контент остался прежним. Это помогает сохранить релевантность и позиции страницы, несмотря на значительные технические изменения в верстке.

Влияет ли этот патент напрямую на ранжирование?

Напрямую нет, он не описывает расчет Ranking Score. Однако он влияет косвенно, определяя, как Google интерпретирует изменения на странице на этапе индексации. Если система видит существенное обновление контента (‘Changed’), это может активировать сигналы свежести. Если же система видит только перемещение блоков (‘Moved’), реакция будет иной.

Что произойдет, если я перемещу контент и одновременно немного изменю его?

Патент предусматривает такую ситуацию (Claim 21). Если система обнаруживает смежные блоки, например, ‘Moved’, затем ‘Changed’, затем снова ‘Moved’, она может объединить их в один большой блок и присвоить ему метку ‘Moved and Changed’ (Перемещено и Изменено). Это позволяет Google понять, что основной массив контента сохранился, но претерпел некоторые изменения.

Как Google определяет пороги значимости (pre-determined values) для Information Content?

Патент не указывает конкретных значений, но упоминает, что они могут быть разными для разных итераций. Например, порог для идентификации ‘Moved’ может отличаться от порога для ‘Unchanged’. В описании упоминаются примеры порогов от 5 до 100 символов, что указывает на настраиваемый характер этих значений.

Применяется ли этот анализ к изображениям или только к тексту?

Патент описывает сравнение «элементов», которые определены как символы, слова или строки (Claim 8). Он не описывает анализ визуального содержания изображений. Однако он применяется к HTML-коду, включая теги изображений и их атрибуты (например, если тег <img> был перемещен).

Как этот патент связан с обработкой boilerplate (сквозных блоков)?

Этот механизм помогает идентифицировать сквозные блоки как ‘Unchanged’ или ‘Moved’, если они перемещаются из-за изменения шаблона. Это позволяет системе отделить изменения в основном контенте от изменений в навигации или футере при оценке обновления страницы.

Используется ли этот механизм для обнаружения дубликатов контента между разными сайтами?

Патент фокусируется на сравнении двух версий одного документа (Claim 1), например, для контроля версий или анализа эволюции одного URL (Claim 6). Хотя базовая технология (LCS) может использоваться в системах обнаружения дубликатов, описанный итеративный подход с метками ‘Moved’/‘Changed’ предназначен именно для анализа изменений внутри документа.

Работает ли этот алгоритм в реальном времени во время ранжирования?

Нет. Это сравнение происходит на этапе Индексирования, после того как страница была сканирована и до того, как индекс будет полностью обновлен. Это часть конвейера обработки данных, а не процесса ранжирования в реальном времени.