
Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые были перемещены в другое место. Используя метрику «Information Content», Google отличает существенные изменения контента от реорганизации макета.
Патент решает проблему неточности стандартных инструментов сравнения (diff tools) при анализе документов, в которых контент был перемещен. Традиционные инструменты часто идентифицируют перемещенный блок как «удаленный» из исходного места и «вставленный» в новое, хотя содержание блока не изменилось. Это затрудняет точный анализ эволюции документа, будь то программный код или веб-страницы в поисковом индексе.
Запатентован итеративный метод сравнения двух версий документа для точного обнаружения перемещенного контента. Система многократно идентифицирует наборы совпадающих элементов (sets of matching elements), концептуально удаляет их и повторяет поиск в оставшихся частях. Это позволяет находить контент, присутствующий в обеих версиях, но в разных местах. Для оценки значимости совпадений используется метрика Information Content.
Система работает итеративно:
Longest-Common-Subsequence (LCS), для поиска совпадений. Найденные совпадения удаляются, и процесс повторяется на остатках документов до тех пор, пока совпадения не закончатся.Information Content блокам присваиваются метки: 'Unchanged', 'Moved' или 'Changed'.Высокая. Эффективное сканирование и индексирование требует точного понимания того, как эволюционирует контент. Способность отличать редизайн или реструктуризацию макета от фактического обновления контента является фундаментальной задачей для инфраструктуры индексирования. Патент прямо упоминает применение к документам, собранным из сети (веб-страницам).
Влияние на SEO умеренное (6/10), преимущественно инфраструктурное. Патент не описывает сигналы ранжирования, но критически важен для понимания того, как Google технически обрабатывает обновления и редизайны. Он показывает, что система способна распознать перемещение контента, что позволяет ей отличать реальное обновление (влияющее на сигналы свежести) от простой реорганизации макета.
'Unchanged' (не изменен), 'Moved' (перемещен), 'Changed' (изменен), а также 'Moved and Changed' (перемещен и изменен).Claim 1 (Независимый пункт): Описывает основной метод сравнения.
set of matching elements) и их местоположений в первом и втором документах.additional sets of matching elements) до тех пор, пока совпадений больше нет. Каждый набор отличается от других.Information Content для заданного набора.Labels) на основе вычисленного Information Content.'Unchanged' присваивается, если Information Content больше или равен пороговому значению (pre-determined value). Метка 'Changed' присваивается, если меньше.Claim 6 (Зависимый от 1): Указывает на применение в контексте поисковой системы.
Документы хранятся в репозитории, который включает документы, извлеченные (scraped) с хост-сайтов в сети (например, Интернет).
Claim 10 (Зависимый от 1): Уточняет, что идентификация может выполняться с использованием техники Longest-Common-Subsequence (LCS).
Claim 11 и 12 (Зависимые от 1): Описывают итеративный процесс.
Все экземпляры найденных наборов удаляются из документов перед поиском последующих дополнительных наборов. На место удаленных экземпляров может быть добавлен Marker.
Claim 13 (Зависимый от 1): Определяет возможность перемещения.
Местоположение дополнительного набора в Документе 2 может отличаться от его местоположения в Документе 1.
Claim 18 (Зависимый от 1): Вводит метку 'Moved' для дополнительных наборов.
'Moved' присваивается экземплярам additional sets, если их Information Content больше или равен другому пороговому значению (another pre-determined value).'Changed' присваивается, если меньше этого порога.Claim 21 (Зависимый): Описывает слияние смежных блоков.
Если два набора с меткой 'Moved' разделены промежуточным набором с меткой 'Changed', они могут быть объединены в единую группу с меткой 'Moved and Changed'.
Изобретение применяется на этапе обработки данных после сканирования для эффективного сравнения новой версии документа со старой.
CRAWLING – Сканирование и Сбор данных
На этом этапе система получает новую версию веб-страницы. Этот контент служит входом для механизма сравнения.
INDEXING – Индексирование и извлечение признаков
Основное применение. Система индексирования (например, Caffeine) сравнивает только что сканированный контент с последней версией, хранящейся в репозитории (Claim 6). Это позволяет:
'Changed') или произошла реорганизация макета ('Moved'). Это влияет на необходимость переоценки страницы и на сигналы свежести.Входные данные:
Information Content.Выходные данные:
Labels) для каждого блока контента ('Moved', 'Changed', 'Unchanged').Context Information), включая указатели на старые/новые местоположения перемещенных блоков.web pages (веб-страницам) (Claim 3) и computer-software instructions (программному коду) (Claim 2).Процесс сравнения Документа 1 (Старый) и Документа 2 (Новый).
LCS) для идентификации совпадающих наборов элементов в текущем состоянии документов.Information Content (например, взвешенная сумма символов).Information Content: Information Content выше Порога 1, присвоить 'Unchanged'. Если ниже, 'Changed'.Information Content выше Порога 2 (может отличаться от Порога 1), присвоить 'Moved' (так как их местоположение, вероятно, отличается). Если ниже, 'Changed'.'Changed'.'Moved' -> 'Changed' -> 'Moved' может быть объединена в один блок 'Moved and Changed'.Патент фокусируется на обработке содержимого документов.
locations) элементов в каждом документе критически важны для обнаружения перемещений.Information Content (Claim 17).Information Content. Определяют, будет ли совпадение помечено как значимое ('Unchanged' или 'Moved') или тривиальное ('Changed'). Пороги могут отличаться для разных итераций.Information Content, которая позволяет игнорировать тривиальные изменения и фокусироваться на существенных блоках контента при анализе обновлений.'Moved'), а не обновлен ('Changed'), простое перемещение контента вряд ли активирует сильные сигналы свежести, которые могли бы быть активированы при добавлении аналогичного объема нового контента.'Moved').Information Content совпадения и гарантирует, что система корректно классифицирует его как 'Moved', а не 'Changed'.Information Content изменений), а не просто меняйте порядок абзацев. Это необходимо, чтобы Google распознал обновление как значимое ('Changed').'Moved'), и система не будет интерпретировать это как новый контент.Information Content) может быть классифицировано как незначительное изменение и не приведет к существенной переоценке страницы.Патент подтверждает, что Google обладает сложными инфраструктурными инструментами для анализа эволюции контента на блочном уровне. Это подчеркивает, что система оценивает не только финальное состояние страницы, но и процесс ее изменения. Стратегически важно понимать, что Google различает перемещение и обновление, что позволяет более уверенно проводить работы по улучшению архитектуры сайта и шаблонов страниц, снижая риски потери накопленных сигналов при редизайне.
Сценарий 1: Редизайн сайта и изменение макета страницы товара
LCS. Она идентифицирует блок описания как Additional Set of Matching Elements.Information Content), ему присваивается метка 'Moved'.Сценарий 2: Попытка «освежить» старую статью
'Moved').'Changed'). Система может проигнорировать сигнал свежести, так как фактическое содержание статьи не обновилось.Если я перемещу важный абзац с низа страницы в самый верх, посчитает ли Google это добавлением нового контента?
Нет. Согласно патенту, система использует итеративный анализ (LCS) для идентификации таких блоков. Если содержание абзаца не изменилось и имеет достаточный Information Content, он будет помечен как 'Moved' (перемещенный). Google поймет, что это тот же самый контент в новом месте, а не новый контент.
Что такое «Information Content» и почему это важно?
Information Content — это метрика значимости блока текста. Она может рассчитываться как взвешенное количество символов (например, пробелы весят меньше текста). Это важно, так как позволяет системе игнорировать тривиальные совпадения (например, пустые строки или общие элементы разметки) и фокусироваться на реальном контенте при определении того, что было перемещено или осталось неизменным.
Как этот механизм влияет на редизайн сайта?
Он значительно снижает риски, связанные с редизайном. Если вы меняете шаблон и HTML-структуру, перемещая блоки основного контента, этот механизм позволяет Google понять, что контент остался прежним. Это помогает сохранить релевантность и позиции страницы, несмотря на значительные технические изменения в верстке.
Влияет ли этот патент напрямую на ранжирование?
Напрямую нет, он не описывает расчет Ranking Score. Однако он влияет косвенно, определяя, как Google интерпретирует изменения на странице на этапе индексации. Если система видит существенное обновление контента ('Changed'), это может активировать сигналы свежести. Если же система видит только перемещение блоков ('Moved'), реакция будет иной.
Что произойдет, если я перемещу контент и одновременно немного изменю его?
Патент предусматривает такую ситуацию (Claim 21). Если система обнаруживает смежные блоки, например, 'Moved', затем 'Changed', затем снова 'Moved', она может объединить их в один большой блок и присвоить ему метку 'Moved and Changed' (Перемещено и Изменено). Это позволяет Google понять, что основной массив контента сохранился, но претерпел некоторые изменения.
Как Google определяет пороги значимости (pre-determined values) для Information Content?
Патент не указывает конкретных значений, но упоминает, что они могут быть разными для разных итераций. Например, порог для идентификации 'Moved' может отличаться от порога для 'Unchanged'. В описании упоминаются примеры порогов от 5 до 100 символов, что указывает на настраиваемый характер этих значений.
Применяется ли этот анализ к изображениям или только к тексту?
Патент описывает сравнение «элементов», которые определены как символы, слова или строки (Claim 8). Он не описывает анализ визуального содержания изображений. Однако он применяется к HTML-коду, включая теги изображений и их атрибуты (например, если тег <img> был перемещен).
Как этот патент связан с обработкой boilerplate (сквозных блоков)?
Этот механизм помогает идентифицировать сквозные блоки как 'Unchanged' или 'Moved', если они перемещаются из-за изменения шаблона. Это позволяет системе отделить изменения в основном контенте от изменений в навигации или футере при оценке обновления страницы.
Используется ли этот механизм для обнаружения дубликатов контента между разными сайтами?
Патент фокусируется на сравнении двух версий одного документа (Claim 1), например, для контроля версий или анализа эволюции одного URL (Claim 6). Хотя базовая технология (LCS) может использоваться в системах обнаружения дубликатов, описанный итеративный подход с метками 'Moved'/'Changed' предназначен именно для анализа изменений внутри документа.
Работает ли этот алгоритм в реальном времени во время ранжирования?
Нет. Это сравнение происходит на этапе Индексирования, после того как страница была сканирована и до того, как индекс будет полностью обновлен. Это часть конвейера обработки данных, а не процесса ранжирования в реальном времени.

Свежесть контента
Индексация
Техническое SEO

Свежесть контента
Ссылки
Техническое SEO

Индексация
Мультимедиа

Индексация

Индексация
Техническое SEO
Свежесть контента

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Knowledge Graph
Ссылки
EEAT и качество

Ссылки
SERP
Поведенческие сигналы

Семантика и интент
Структура сайта
Ссылки

SERP
Поведенческие сигналы
Семантика и интент

Ссылки
SERP
Техническое SEO

Антиспам
Ссылки
Семантика и интент

Персонализация
Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP
