
Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.
Патент решает проблему идентификации и фильтрации Transient Content (временного контента) на веб-страницах в масштабах всего интернета. Временный контент — это данные, которые часто меняются и не характеризуют основное содержание страницы (например, текущая дата, время, погода, ротируемая реклама, динамические виджеты). Такой контент ухудшает релевантность поиска, если попадает в индекс, и снижает точность таргетинга рекламы. Изобретение предлагает эффективный (линейной сложности) метод для обнаружения такого контента и обобщения этих находок на весь сайт через идентификацию Transient Paths (временных путей в HTML-структуре).
Запатентована система для идентификации структурных элементов веб-сайта (HTML-путей), которые систематически содержат временный, часто меняющийся контент. Система сначала определяет временный контент путем сравнения разных версий одной и той же страницы. Затем она анализирует HTML-путь этого контента и проверяет, как часто контент меняется в этом же пути на других страницах сайта. Если частота изменений превышает порог, путь маркируется как Transient Path, а его содержимое игнорируется поисковой системой.
Механизм работает в два основных этапа:
<html><body><div>...) для найденного временного контента. Затем она агрегирует статистику по всем страницам сайта: как часто этот путь встречается (Subtree Count) и как часто контент внутри него меняется (Marked Subtree Count). Если отношение изменений к общему числу появлений превышает порог, весь путь маркируется как Transient Path для всего сайта.В дальнейшем контент, расположенный по этим путям, исключается из индекса и может игнорироваться при расчете PageRank.
Высокая. Отделение основного содержания страницы от шаблонных элементов, рекламы и динамических вставок остается критически важной задачей для качества поиска. Описанный механизм обеспечивает метод обнаружения не статического, а именно динамического шума. Учитывая рост использования JavaScript для инъекции динамического контента и виджетов, такие методы фильтрации необходимы для точной оценки релевантности и авторитетности контента.
Патент имеет высокое значение (75/100). Он описывает конкретный механизм, который может привести к игнорированию части контента страницы при индексации и, что более важно, к игнорированию ссылок, расположенных в динамических блоках, при расчете PageRank. Если важный контент или навигационные ссылки расположены в структурных блоках, которые Google классифицирует как Transient Path из-за частых изменений (например, блок "Рекомендуемые статьи", меняющийся при каждой загрузке), это может негативно сказаться на SEO-показателях.
Transient Content на сайте. Определяется статистически на основе частоты изменений контента внутри этого пути на разных страницах.Indexing Engine может игнорировать ссылки, появляющиеся во временном контенте, при расчете PageRank.Claim 1 (Независимый пункт): Описывает метод обобщения временного контента и его применение.
Transient Content на первой веб-странице сайта.Transient Content.transient frequency) контента внутри этого пути на основе нескольких версий страницы.Transient Path.Transient Content на основе Transient Path.Transient Content, исключается из рассмотрения.Claim 6 (Независимый пункт): Описывает статистический метод идентификации временного пути.
Subtree Count: количество раз, когда этот путь появляется на других страницах сайта.Marked Subtree Count: количество раз, когда контент, связанный с этим путем, менялся между версиями соответствующих страниц.Subtree Count сравнивается с Marked Subtree Count.Transient Path.Claim 7 (Зависимый от 6): Уточняет критерий идентификации.
Путь идентифицируется как Transient Path, если отношение (ratio) количества изменений (Marked Subtree Count) к общему количеству появлений (Subtree Count) превышает пороговую частоту (threshold frequency).
Claim 12 (Независимый пункт): Альтернативное описание статистического метода (аналогично Claim 6).
Описывает метод, включающий получение известного временного контента, идентификацию его пути, подсчет общего числа появлений пути на сайте (Subtree Count), подсчет числа изменений контента в этом пути (Marked Subtree Count), сравнение этих счетчиков и идентификацию пути как временного на основе сравнения.
Изобретение затрагивает несколько ключевых этапов работы поисковой системы.
CRAWLING – Сканирование и Сбор данных
Для работы алгоритма необходим доступ к нескольким версиям (snapshots) одних и тех же страниц, собранных в разное время. Это подразумевает частое пересканирование контента и хранение истории.
INDEXING – Индексирование и извлечение признаков
Основное место применения патента. Процесс происходит во время анализа контента перед его добавлением в индекс.
Transient Content.Transient Paths.Transient Content удаляется перед индексацией (улучшение IR-scores).Transient Content или Transient Paths, могут быть проигнорированы при расчете PageRank.RANKING – Ранжирование
Патент напрямую не влияет на процесс ранжирования в реальном времени, но оказывает косвенное влияние через качество индекса и скорректированные значения PageRank. Отсутствие временного шума в индексе позволяет точнее рассчитывать релевантность (IR score).
Входные данные:
Выходные данные:
Bit Vectors), маркирующие временные токены на конкретных страницах.Transient Paths для сайта.PageRank.Transient Path активируется, если частота изменений контента в определенном пути превышает заданный порог (например, 50%).Алгоритм состоит из двух взаимосвязанных процессов.
Процесс А: Идентификация временного контента (Сравнение версий)
Процесс Б: Идентификация временных путей (Анализ сайта)
subtrees (общий счетчик), marked_subtrees (счетчик изменений), unique_children (счетчик уникальных дочерних путей). Ключом является строка HTML-пути.subtrees для данного пути инкрементируется.unique_children для родительского пути инкрементируется.marked_subtrees для этого пути инкрементируется.Transient Path, если выполняется условие: subtrees(path)marked_subtrees(path)>Порог T (например, T=0.5).Marked Subtree Count к Subtree Count.Token Change Ratio для классификации пути как временного.Transient Paths на всем сайте. Если определенный блок шаблона (HTML-путь) систематически содержит меняющийся контент, Google научится игнорировать этот блок на всех страницах.PageRank. Это критически важно для стратегий внутренней перелинковки.Transient Content и проигнорированными для PageRank. Важная навигация должна быть стабильной.Патент подтверждает стратегию Google на глубокое понимание структуры страницы и отделение сигнала от шума. Это не просто обнаружение дублирующегося boilerplate-контента (статических шаблонов), а идентификация динамически меняющихся элементов. Для SEO это означает, что стабильность и предсказуемость контента и структуры являются факторами доверия. Системы, которые полагаются на агрессивную динамическую оптимизацию или манипуляцию ссылками через часто меняющиеся блоки, рискуют тем, что их усилия будут полностью проигнорированы алгоритмами индексации и расчета PageRank.
Сценарий 1: Игнорирование ссылок в блоке E-commerce
<body><div id="daily-deals">...). Анализируя статистику по другим страницам или по истории этой страницы, система видит, что контент в этом пути меняется в 100% случаев (Порог T достигнут). Путь маркируется как Transient Path.PageRank. Товары получают меньше ссылочного веса, что может замедлить их индексацию и ухудшить ранжирование.Сценарий 2: Фильтрация контента новостного виджета
Transient Path из-за высокой частоты изменений контента.Что такое "Transient Content" и "Transient Path" в контексте этого патента?
Transient Content — это контент, который часто меняется между посещениями страницы краулером (например, реклама, дата, виджеты) и не характеризует её основную тему. Transient Path — это HTML-структура (путь в DOM-дереве), которая систематически содержит такой меняющийся контент на всем сайте. Если система определяет путь как временный, его содержимое, скорее всего, будет проигнорировано.
Как этот патент влияет на внутреннюю перелинковку и PageRank?
Влияние критическое. В патенте прямо указано, что ссылки, найденные во временном контенте, могут игнорироваться при расчете PageRank. Если вы используете динамические блоки для перелинковки (например, "Случайные статьи" или "Рекомендуемые товары", которые полностью меняются при каждой загрузке), эти ссылки могут не передавать вес.
Означает ли это, что любой динамический контент вреден для SEO?
Нет, не любой. Вреден тот контент, который система классифицирует как неважный шум из-за слишком частых и полных изменений. Если динамический контент является основным содержанием страницы (например, доска объявлений или лента социальной сети), он не должен быть классифицирован как временный, если только сами элементы ленты не меняются хаотично. Важно, чтобы ключевой контент оставался относительно стабильным между сканированиями.
Как система определяет, что контент является временным?
Система использует два основных метода. Первый — сравнение разных версий одной страницы: если контент изменился, он маркируется как временный. Второй — статистический анализ по всему сайту: если контент в определенном HTML-пути меняется чаще, чем заданный порог (например, в 50% случаев), этот путь считается временным.
Отличается ли это от обнаружения Boilerplate (шаблонного контента)?
Да, отличается. Boilerplate-контент обычно статичен, но повторяется на многих страницах (например, футер, меню). Transient Content — это контент, который меняется во времени в одном и том же месте. Этот патент направлен на борьбу с динамическим шумом, а не со статическими повторениями.
Что произойдет, если я сделаю полный редизайн сайта? Будет ли весь контент помечен как временный?
Патент предусматривает защиту от этого. Если процент изменений между двумя версиями страницы слишком велик (превышает определенный порог), система предполагает, что произошла полная реорганизация или редизайн. В этом случае она не будет маркировать эти изменения как временные, чтобы избежать массового исключения контента из индекса.
Как этот патент влияет на рекламу на моем сайте?
Патент направлен на то, чтобы игнорировать рекламные блоки при определении тематики страницы. Это улучшает качество поиска (страница не ранжируется по тексту рекламы) и улучшает таргетинг контекстной рекламы Google (реклама подбирается под основное содержание, а не под другие рекламные блоки). Ротируемая реклама является классическим примером Transient Content.
Как проверить, считает ли Google часть моего контента временным?
Прямых инструментов для этого нет. Косвенным признаком может быть сравнение текстовой версии кэша Google для вашей страницы в разные дни. Если вы видите, что определенные блоки постоянно меняются, и при этом ссылки из этих блоков плохо индексируются или страницы-акцепторы ранжируются слабо, возможно, срабатывает подобный механизм фильтрации.
Влияет ли использование JavaScript для загрузки контента на этот алгоритм?
Да, если Googlebot рендерит страницу. Если JavaScript используется для вставки динамического контента, который меняется при каждой загрузке (например, A/B тестирование элементов интерфейса, виджеты реального времени), этот контент может быть классифицирован как временный. Алгоритм анализирует итоговую структуру и контент после рендеринга.
Какая частота обновления контента считается безопасной?
Патент не указывает конкретных временных рамок, он оперирует сравнением последовательных версий, полученных краулером. Безопасной считается частота, при которой контент остается стабильным между визитами Googlebot. Если вы обновляете блок раз в день, а Googlebot приходит дважды в день, он может заметить изменение. Ключевым является статистический порог (Threshold T): если изменения происходят слишком часто относительно общего числа наблюдений, это рискованно.

Антиспам
SERP
Техническое SEO

Структура сайта
Семантика и интент
Техническое SEO

Техническое SEO
Индексация
SERP

Краулинг
Индексация
Техническое SEO

Семантика и интент
Структура сайта
Техническое SEO

Поведенческие сигналы
SERP

Knowledge Graph
SERP
Семантика и интент

Персонализация
Семантика и интент
Мультимедиа

Антиспам
Ссылки
Техническое SEO

Ссылки
Антиспам
SERP

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
Семантика и интент
Мультимедиа

Поведенческие сигналы
SERP

Персонализация
Ссылки
