SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

IDENTIFYING TRANSIENT PATHS WITHIN WEBSITES (Идентификация временных путей внутри веб-сайтов)
  • US8121991B1
  • Google LLC
  • 2008-12-19
  • 2012-02-21
  • Индексация
  • Техническое SEO
  • Структура сайта
  • Ссылки
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

Описание

Какую проблему решает

Патент решает проблему идентификации и фильтрации Transient Content (временного контента) на веб-страницах в масштабах всего интернета. Временный контент — это данные, которые часто меняются и не характеризуют основное содержание страницы (например, текущая дата, время, погода, ротируемая реклама, динамические виджеты). Такой контент ухудшает релевантность поиска, если попадает в индекс, и снижает точность таргетинга рекламы. Изобретение предлагает эффективный (линейной сложности) метод для обнаружения такого контента и обобщения этих находок на весь сайт через идентификацию Transient Paths (временных путей в HTML-структуре).

Что запатентовано

Запатентована система для идентификации структурных элементов веб-сайта (HTML-путей), которые систематически содержат временный, часто меняющийся контент. Система сначала определяет временный контент путем сравнения разных версий одной и той же страницы. Затем она анализирует HTML-путь этого контента и проверяет, как часто контент меняется в этом же пути на других страницах сайта. Если частота изменений превышает порог, путь маркируется как Transient Path, а его содержимое игнорируется поисковой системой.

Как это работает

Механизм работает в два основных этапа:

  1. Идентификация временного контента на странице: Система загружает несколько версий одной страницы, разбивает их на токены (теги и текст) и генерирует для них фингерпринты (хеши). Сравнивая фингерпринты между версиями, система быстро находит токены, которые изменились, и маркирует их как временные.
  2. Идентификация временных путей на сайте: Система определяет HTML-путь (например, <html><body><div>...) для найденного временного контента. Затем она агрегирует статистику по всем страницам сайта: как часто этот путь встречается (Subtree Count) и как часто контент внутри него меняется (Marked Subtree Count). Если отношение изменений к общему числу появлений превышает порог, весь путь маркируется как Transient Path для всего сайта.

В дальнейшем контент, расположенный по этим путям, исключается из индекса и может игнорироваться при расчете PageRank.

Актуальность для SEO

Высокая. Отделение основного содержания страницы от шаблонных элементов, рекламы и динамических вставок остается критически важной задачей для качества поиска. Описанный механизм обеспечивает метод обнаружения не статического, а именно динамического шума. Учитывая рост использования JavaScript для инъекции динамического контента и виджетов, такие методы фильтрации необходимы для точной оценки релевантности и авторитетности контента.

Важность для SEO

Патент имеет высокое значение (75/100). Он описывает конкретный механизм, который может привести к игнорированию части контента страницы при индексации и, что более важно, к игнорированию ссылок, расположенных в динамических блоках, при расчете PageRank. Если важный контент или навигационные ссылки расположены в структурных блоках, которые Google классифицирует как Transient Path из-за частых изменений (например, блок "Рекомендуемые статьи", меняющийся при каждой загрузке), это может негативно сказаться на SEO-показателях.

Детальный разбор

Термины и определения

Transient Content (Временный контент)
Контент на веб-странице, который, вероятно, не будет присутствовать на ней в будущем и, следовательно, не помогает охарактеризовать основное содержание страницы. Определяется путем сравнения изменений между разными версиями страницы.
Transient Path (Временный путь)
Путь в структуре документа (например, HTML-путь), который систематически содержит Transient Content на сайте. Определяется статистически на основе частоты изменений контента внутри этого пути на разных страницах.
Tokens (Токены)
Элементарные единицы, на которые парсер разбивает веб-страницу. Включают открывающие/закрывающие HTML-теги и текстовый контент между ними.
Fingerprint (Фингерпринт / Отпечаток)
Короткое числовое описание токена (результат хеш-функции). Используется для быстрого сравнения токенов. Одинаковые токены имеют одинаковые фингерпринты.
Bit Vector (Битовый вектор)
Структура данных, используемая для маркировки токенов. Содержит по одному биту для каждого токена страницы. Если бит установлен (например, в 1), соответствующий токен считается временным.
Subtree Count / subtrees (Счетчик поддеревьев)
Общее количество раз, когда определенный путь (и соответствующее ему поддерево) появляется на всех проанализированных страницах сайта.
Marked Subtree Count / marked_subtrees (Счетчик маркированных поддеревьев)
Количество раз, когда контент, соответствующий определенному пути, был идентифицирован как временный (т.е. изменился между версиями страницы).
Indexing Engine (Механизм индексирования)
Компонент поисковой системы, который обрабатывает контент и создает поисковый индекс. Использует данные о временном контенте для его исключения из индекса.
PageRank
Мера качества страницы, рассчитываемая на основе входящих ссылок. Патент предполагает, что Indexing Engine может игнорировать ссылки, появляющиеся во временном контенте, при расчете PageRank.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод обобщения временного контента и его применение.

  1. Система получает идентификацию известного Transient Content на первой веб-странице сайта.
  2. Определяется HTML-путь, связанный с этим контентом.
  3. Система получает другие страницы этого же сайта.
  4. Определяется, существует ли этот же путь на других страницах.
  5. Если ДА, контент, расположенный по этому пути на других страницах, идентифицируется как вероятный Transient Content.
  6. Далее для каждой страницы, содержащей этот путь, вычисляется частота изменений (transient frequency) контента внутри этого пути на основе нескольких версий страницы.
  7. Частота сравнивается с пороговым значением.
  8. Если частота превышает порог, путь идентифицируется как Transient Path.
  9. Система идентифицирует финальный Transient Content на основе Transient Path.
  10. Применение: Идентификация таргетированной рекламы для сайта, при этом контент, идентифицированный как Transient Content, исключается из рассмотрения.

Claim 6 (Независимый пункт): Описывает статистический метод идентификации временного пути.

  1. После получения идентификации временного контента и определения его пути, система выполняет статистический анализ.
  2. Идентифицируется Subtree Count: количество раз, когда этот путь появляется на других страницах сайта.
  3. Идентифицируется Marked Subtree Count: количество раз, когда контент, связанный с этим путем, менялся между версиями соответствующих страниц.
  4. Subtree Count сравнивается с Marked Subtree Count.
  5. На основе сравнения путь идентифицируется как Transient Path.

Claim 7 (Зависимый от 6): Уточняет критерий идентификации.

Путь идентифицируется как Transient Path, если отношение (ratio) количества изменений (Marked Subtree Count) к общему количеству появлений (Subtree Count) превышает пороговую частоту (threshold frequency).

Claim 12 (Независимый пункт): Альтернативное описание статистического метода (аналогично Claim 6).

Описывает метод, включающий получение известного временного контента, идентификацию его пути, подсчет общего числа появлений пути на сайте (Subtree Count), подсчет числа изменений контента в этом пути (Marked Subtree Count), сравнение этих счетчиков и идентификацию пути как временного на основе сравнения.

Где и как применяется

Изобретение затрагивает несколько ключевых этапов работы поисковой системы.

CRAWLING – Сканирование и Сбор данных
Для работы алгоритма необходим доступ к нескольким версиям (snapshots) одних и тех же страниц, собранных в разное время. Это подразумевает частое пересканирование контента и хранение истории.

INDEXING – Индексирование и извлечение признаков
Основное место применения патента. Процесс происходит во время анализа контента перед его добавлением в индекс.

  1. Парсинг и Токенизация: Страницы разбираются на токены и анализируется их HTML-структура (пути).
  2. Анализ изменений: Система сравнивает текущую версию страницы с предыдущими для выявления Transient Content.
  3. Статистический анализ путей: Система агрегирует данные по всему сайту для выявления Transient Paths.
  4. Фильтрация контента: Transient Content удаляется перед индексацией (улучшение IR-scores).
  5. Анализ ссылок: Ссылки, найденные внутри Transient Content или Transient Paths, могут быть проигнорированы при расчете PageRank.

RANKING – Ранжирование
Патент напрямую не влияет на процесс ранжирования в реальном времени, но оказывает косвенное влияние через качество индекса и скорректированные значения PageRank. Отсутствие временного шума в индексе позволяет точнее рассчитывать релевантность (IR score).

Входные данные:

  • Несколько версий (snapshots) веб-страниц одного сайта.
  • HTML-код этих страниц.

Выходные данные:

  • Битовые векторы (Bit Vectors), маркирующие временные токены на конкретных страницах.
  • Список идентифицированных Transient Paths для сайта.
  • Очищенный контент для индексации.
  • Скорректированный граф ссылок для расчета PageRank.

На что влияет

  • Типы контента: Наибольшее влияние оказывается на страницы с большим количеством динамических элементов: новостные порталы (блоки "Срочные новости"), E-commerce (блоки "Рекомендуемые товары", ротация баннеров), блоги с виджетами (погода, курсы валют).
  • Структура сайта: Влияет на сайты, использующие общие шаблоны для генерации страниц, где динамический контент вставляется в одни и те же структурные блоки (HTML-пути).

Когда применяется

  • Триггеры активации (Анализ контента): При обработке новой версии страницы во время индексирования.
  • Триггеры активации (Анализ путей): Периодически, при накоплении достаточного количества данных об изменениях на страницах сайта.
  • Пороговые значения (Threshold T): Алгоритм идентификации Transient Path активируется, если частота изменений контента в определенном пути превышает заданный порог (например, 50%).
  • Исключения: Если процент изменений между двумя версиями страницы слишком велик (превышает отдельный порог), система может решить, что произошла полная реорганизация сайта (редизайн), и не маркировать изменения как временные, чтобы избежать ложных срабатываний. Также упоминается ограничение на максимальную длину пути (например, 1000 символов) для поддержания эффективности.

Пошаговый алгоритм

Алгоритм состоит из двух взаимосвязанных процессов.

Процесс А: Идентификация временного контента (Сравнение версий)

  1. Получение данных: Извлечение двух версий одной веб-страницы (Версия 1 и Версия 2).
  2. Парсинг и Токенизация: Каждая версия разбирается на последовательность токенов (теги и текст). Парсер также определяет родительский элемент для каждого токена, используя стек открытых тегов (для обработки некорректного HTML).
  3. Генерация фингерпринтов: Для каждого токена вычисляется фингерпринт (хеш).
  4. Создание структур данных: Фингерпринты сохраняются в структурах данных (например, хеш-таблицах) для каждой версии.
  5. Сравнение (V1 vs V2): Система перебирает токены Версии 1. Для каждого токена она проверяет, присутствует ли его фингерпринт в структуре данных Версии 2.
  6. Маркировка (V1): Если фингерпринт не найден в V2, соответствующий бит в Битовом векторе 1 устанавливается (маркируется как временный).
  7. Сравнение (V2 vs V1): Повторение шага 5 для токенов Версии 2, проверяя их наличие в Версии 1.
  8. Маркировка (V2): Если фингерпринт не найден в V1, соответствующий бит в Битовом векторе 2 устанавливается.
  9. Постобработка: Области временных токенов могут быть расширены, чтобы включить охватывающие их HTML-теги, если весь контент между тегами является временным.

Процесс Б: Идентификация временных путей (Анализ сайта)

  1. Инициализация: Создание трех хеш-таблиц для хранения статистики по сайту: subtrees (общий счетчик), marked_subtrees (счетчик изменений), unique_children (счетчик уникальных дочерних путей). Ключом является строка HTML-пути.
  2. Сбор данных: Выполнение Процесса А для множества страниц сайта и их версий.
  3. Агрегация статистики: Для каждой проанализированной страницы система сканирует список токенов и их пути:
    • Счетчик subtrees для данного пути инкрементируется.
    • Если это первое появление пути, счетчик unique_children для родительского пути инкрементируется.
    • Если битовый вектор (из Процесса А) показывает, что все токены в поддереве, начинающемся с текущего токена, маркированы как временные, счетчик marked_subtrees для этого пути инкрементируется.
  4. Анализ и Идентификация: Система анализирует собранную статистику. Путь идентифицируется как Transient Path, если выполняется условие: marked_subtrees(path)subtrees(path)>Порог T\frac{marked\_subtrees(path)}{subtrees(path)} > Порог Tsubtrees(path)marked_subtrees(path)​>Порог T (например, T=0.5).
  5. Иерархическая обработка: Если родительский путь идентифицирован как временный, все дочерние пути также считаются временными.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текстовое содержимое между HTML-тегами (анализируется как токены).
  • Структурные факторы: HTML-теги (анализируются как токены) и иерархия этих тегов (используется для определения путей).
  • Временные факторы: Критически важные данные. Система требует наличия нескольких версий (snapshots) страниц, собранных в разное время, для анализа изменений.

Какие метрики используются и как они считаются

  • Фингерпринты токенов: Вычисляются с помощью хеш-функции от текстового представления токена.
  • Subtree Count: Простой счетчик появлений определенного HTML-пути на сайте.
  • Marked Subtree Count: Счетчик случаев, когда контент внутри HTML-пути изменился между версиями страницы.
  • Token Change Ratio (Коэффициент изменения токенов): Отношение Marked Subtree Count к Subtree Count.
  • Порог T (Threshold Frequency): Предопределенное значение (например, 0.5 или 1.0), с которым сравнивается Token Change Ratio для классификации пути как временного.
  • Порог максимальных изменений страницы: Если отношение маркированных (измененных) токенов к общему числу токенов на странице превышает этот порог, считается, что страница была полностью реорганизована, и результаты анализа аннулируются для этой пары версий.

Выводы

  1. Google активно борется с динамическим шумом: Патент демонстрирует механизм, направленный на отделение основного, постоянного контента от временных элементов (виджеты, реклама, дата/время). Контент, который меняется слишком часто, считается неважным для характеристики страницы.
  2. Структура HTML используется для обобщения на уровне сайта: Ключевым моментом является переход от идентификации временного контента на одной странице к идентификации Transient Paths на всем сайте. Если определенный блок шаблона (HTML-путь) систематически содержит меняющийся контент, Google научится игнорировать этот блок на всех страницах.
  3. Влияние на индексацию (IR Scores): Временный контент исключается из индекса. Это означает, что ключевые слова, присутствующие только в таких блоках, не будут способствовать ранжированию страницы по этим запросам.
  4. Влияние на ссылочный вес (PageRank): В патенте прямо указано, что ссылки, обнаруженные во временном контенте, могут игнорироваться при вычислении PageRank. Это критически важно для стратегий внутренней перелинковки.
  5. Эффективность за счет статистики: Система не полагается на сложный анализ контента, а использует быструю (линейной сложности) статистическую оценку частоты изменений в привязке к структуре документа (токены, фингерпринты, пути).
  6. Риск ложных срабатываний при редизайне: Система имеет защиту от массовых изменений на сайте (редизайн), чтобы не классифицировать весь контент как временный в этот период.

Практика

Best practices (это мы делаем)

  • Размещайте ключевой контент в стабильных блоках: Убедитесь, что основное содержание страницы (Main Content) находится в HTML-структурах, которые не подвержены постоянным изменениям. Контент должен быть постоянным между разными сканированиями Googlebot.
  • Критически оценивайте динамическую перелинковку: Ссылки в блоках, которые полностью меняются при каждой загрузке или очень часто (например, "Случайные товары", "Самые комментируемые статьи за последний час"), имеют высокий риск быть классифицированными как Transient Content и проигнорированными для PageRank. Важная навигация должна быть стабильной.
  • Используйте чистую и семантическую HTML-структуру: Хотя это всегда хорошая практика, данный патент подчеркивает, что Google анализирует HTML-пути. Четкое отделение основного контента от сайдбаров и динамических виджетов помогает системе корректно интерпретировать структуру страницы.
  • Мониторинг кэша Google и результатов сканирования: Сравнивайте, как Google видит вашу страницу в разные моменты времени (используя кэш или инструменты анализа логов сервера). Если важные блоки контента постоянно меняются, это повод для беспокойства.

Worst practices (это делать не надо)

  • Размещение важной навигации в ротируемых блоках: Использование JavaScript для генерации основного меню или важных ссылок таким образом, что их состав или порядок полностью меняется при каждом визите, может привести к их игнорированию.
  • Чрезмерное использование динамических вставок в основном контенте: Если основной текст статьи постоянно перемежается динамическими виджетами (например, курсы валют, погода) или агрессивной ротацией рекламы, это увеличивает риск того, что части основного контента или даже весь блок будут признаны временными.
  • Использование нестабильных идентификаторов и классов в шаблонах: Хотя патент фокусируется на путях (иерархии тегов), нестабильная структура HTML в целом затрудняет сравнение версий и может привести к некорректной идентификации изменений.

Стратегическое значение

Патент подтверждает стратегию Google на глубокое понимание структуры страницы и отделение сигнала от шума. Это не просто обнаружение дублирующегося boilerplate-контента (статических шаблонов), а идентификация динамически меняющихся элементов. Для SEO это означает, что стабильность и предсказуемость контента и структуры являются факторами доверия. Системы, которые полагаются на агрессивную динамическую оптимизацию или манипуляцию ссылками через часто меняющиеся блоки, рискуют тем, что их усилия будут полностью проигнорированы алгоритмами индексации и расчета PageRank.

Практические примеры

Сценарий 1: Игнорирование ссылок в блоке E-commerce

  1. Ситуация: Интернет-магазин размещает на главной странице блок "Специальные предложения дня". Контент этого блока (товары и ссылки на них) полностью меняется каждые 24 часа.
  2. Анализ Google (Процесс А): Googlebot сканирует страницу сегодня и завтра. Сравнивая версии, он видит, что токены внутри этого блока полностью изменились. Контент маркируется как временный.
  3. Анализ Google (Процесс Б): Система определяет HTML-путь этого блока (например, <body><div id="daily-deals">...). Анализируя статистику по другим страницам или по истории этой страницы, система видит, что контент в этом пути меняется в 100% случаев (Порог T достигнут). Путь маркируется как Transient Path.
  4. Результат: Ссылки на товары внутри этого блока игнорируются при расчете PageRank. Товары получают меньше ссылочного веса, что может замедлить их индексацию и ухудшить ранжирование.

Сценарий 2: Фильтрация контента новостного виджета

  1. Ситуация: Корпоративный блог размещает в сайдбаре виджет, показывающий последние заголовки из внешнего новостного источника. Виджет обновляется каждый час.
  2. Анализ Google: Система идентифицирует HTML-путь этого виджета как Transient Path из-за высокой частоты изменений контента.
  3. Результат: Текст заголовков из виджета не попадает в индекс блога. Это хорошо, так как предотвращает ранжирование блога по нерелевантным новостным запросам и улучшает тематическую чистоту индекса.

Вопросы и ответы

Что такое "Transient Content" и "Transient Path" в контексте этого патента?

Transient Content — это контент, который часто меняется между посещениями страницы краулером (например, реклама, дата, виджеты) и не характеризует её основную тему. Transient Path — это HTML-структура (путь в DOM-дереве), которая систематически содержит такой меняющийся контент на всем сайте. Если система определяет путь как временный, его содержимое, скорее всего, будет проигнорировано.

Как этот патент влияет на внутреннюю перелинковку и PageRank?

Влияние критическое. В патенте прямо указано, что ссылки, найденные во временном контенте, могут игнорироваться при расчете PageRank. Если вы используете динамические блоки для перелинковки (например, "Случайные статьи" или "Рекомендуемые товары", которые полностью меняются при каждой загрузке), эти ссылки могут не передавать вес.

Означает ли это, что любой динамический контент вреден для SEO?

Нет, не любой. Вреден тот контент, который система классифицирует как неважный шум из-за слишком частых и полных изменений. Если динамический контент является основным содержанием страницы (например, доска объявлений или лента социальной сети), он не должен быть классифицирован как временный, если только сами элементы ленты не меняются хаотично. Важно, чтобы ключевой контент оставался относительно стабильным между сканированиями.

Как система определяет, что контент является временным?

Система использует два основных метода. Первый — сравнение разных версий одной страницы: если контент изменился, он маркируется как временный. Второй — статистический анализ по всему сайту: если контент в определенном HTML-пути меняется чаще, чем заданный порог (например, в 50% случаев), этот путь считается временным.

Отличается ли это от обнаружения Boilerplate (шаблонного контента)?

Да, отличается. Boilerplate-контент обычно статичен, но повторяется на многих страницах (например, футер, меню). Transient Content — это контент, который меняется во времени в одном и том же месте. Этот патент направлен на борьбу с динамическим шумом, а не со статическими повторениями.

Что произойдет, если я сделаю полный редизайн сайта? Будет ли весь контент помечен как временный?

Патент предусматривает защиту от этого. Если процент изменений между двумя версиями страницы слишком велик (превышает определенный порог), система предполагает, что произошла полная реорганизация или редизайн. В этом случае она не будет маркировать эти изменения как временные, чтобы избежать массового исключения контента из индекса.

Как этот патент влияет на рекламу на моем сайте?

Патент направлен на то, чтобы игнорировать рекламные блоки при определении тематики страницы. Это улучшает качество поиска (страница не ранжируется по тексту рекламы) и улучшает таргетинг контекстной рекламы Google (реклама подбирается под основное содержание, а не под другие рекламные блоки). Ротируемая реклама является классическим примером Transient Content.

Как проверить, считает ли Google часть моего контента временным?

Прямых инструментов для этого нет. Косвенным признаком может быть сравнение текстовой версии кэша Google для вашей страницы в разные дни. Если вы видите, что определенные блоки постоянно меняются, и при этом ссылки из этих блоков плохо индексируются или страницы-акцепторы ранжируются слабо, возможно, срабатывает подобный механизм фильтрации.

Влияет ли использование JavaScript для загрузки контента на этот алгоритм?

Да, если Googlebot рендерит страницу. Если JavaScript используется для вставки динамического контента, который меняется при каждой загрузке (например, A/B тестирование элементов интерфейса, виджеты реального времени), этот контент может быть классифицирован как временный. Алгоритм анализирует итоговую структуру и контент после рендеринга.

Какая частота обновления контента считается безопасной?

Патент не указывает конкретных временных рамок, он оперирует сравнением последовательных версий, полученных краулером. Безопасной считается частота, при которой контент остается стабильным между визитами Googlebot. Если вы обновляете блок раз в день, а Googlebot приходит дважды в день, он может заметить изменение. Ключевым является статистический порог (Threshold T): если изменения происходят слишком часто относительно общего числа наблюдений, это рискованно.

Похожие патенты

Как Google намеренно задерживает или искажает изменения в ранжировании для выявления SEO-манипуляций
Google использует механизм для борьбы со спамом, который вносит временные задержки и неожиданные колебания в ранжирование документа после изменения его факторов. Вместо немедленного применения нового рейтинга система использует "Функцию перехода ранга". Это делается для того, чтобы запутать спамеров и проанализировать их реакцию на неожиданные изменения (например, падение позиций вместо ожидаемого роста), выявляя таким образом манипуляции.
  • US8244722B1
  • 2012-08-14
  • Антиспам

  • SERP

  • Техническое SEO

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента
Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.
  • US8898296B2
  • 2014-11-25
  • Структура сайта

  • Семантика и интент

  • Техническое SEO

Как Google использует сравнение DOM и Render Tree для обнаружения и девальвации скрытого текста при генерации сниппетов и ранжировании
Google использует механизм для точного определения, какой текст на веб-странице виден пользователю при загрузке, а какой скрыт. Система сравнивает весь код страницы (DOM Tree) с тем, что фактически отображается (Render Tree). Обнаруженный скрытый текст (например, в меню, скрытый через CSS или цветом фона) получает понижающий коэффициент (Weighting Factor), что снижает вероятность его попадания в сниппет и может влиять на оценку страницы.
  • US8639680B1
  • 2014-01-28
  • Техническое SEO

  • Индексация

  • SERP

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса
Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.
  • US7627613B1
  • 2009-12-01
  • Краулинг

  • Индексация

  • Техническое SEO

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга
Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.
  • US7913163B1
  • 2011-03-22
  • Семантика и интент

  • Структура сайта

  • Техническое SEO

Популярные патенты

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов
Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.
  • US9268820B2
  • 2016-02-23
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика
Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.
  • US9031929B1
  • 2015-05-12
  • Поведенческие сигналы

  • EEAT и качество

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

seohardcore