SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

DETECTING MAIN PAGE CONTENT (Обнаружение основного контента страницы)
  • US20140372873A1
  • Google LLC
  • 2011-09-30
  • 2014-12-18
  • Структура сайта
  • Техническое SEO
  • Ссылки
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

Описание

Какую проблему решает

Изначально патент решает проблему неудобного отображения десктопных версий сайтов на мобильных устройствах, стремясь автоматически показать пользователю основной контент, минуя навигацию и баннеры. В более широком контексте поисковых технологий, изобретение решает фундаментальную задачу: алгоритмически отделить основной контент (Main Content или Highest-ranked content) от вспомогательных и шаблонных элементов страницы (boilerplate, навигация, реклама).

Что запатентовано

Запатентована система анализа веб-документа, которая разбивает его на логические разделы (sections) на основе визуальной структуры и пространственных отношений элементов (spatial relationships). Система вычисляет характеристики этих разделов и сравнивает их с общими характеристиками страницы (Overall Page Characteristics), чтобы присвоить оценку значимости (score) каждому разделу. Раздел с наивысшей оценкой признается основным контентом.

Как это работает

Система анализирует графическое представление (graphical representation) документа после рендеринга. Разделы определяются по визуальным признакам: пространственным связям, вертикальным сдвигам или смене ориентации макета (например, с горизонтального меню на вертикальную колонку). Для каждого раздела вычисляются метрики (количество слов, ссылок, изображений). Затем эти метрики оцениваются в контексте всей страницы. Например, низкое соотношение ссылок к тексту (Link/Text Ratio) является сильным индикатором основного контента.

Актуальность для SEO

Высокая. Понимание структуры страницы (Page Understanding) и выделение основного контента критически важно для современных поисковых систем. Это необходимо для эффективного индексирования и ранжирования, позволяя алгоритмам (например, системам оценки Helpful Content) фокусироваться на релевантном контенте и игнорировать шаблонный "шум".

Важность для SEO

Патент имеет высокое значение (8/10) для технического и контентного SEO. Он описывает конкретные механизмы, которые Google использует для анализа макета и оценки значимости разных частей страницы. Это напрямую влияет на то, как контент интерпретируется, какие сигналы извлекаются из разных разделов и как вес этих сигналов учитывается при ранжировании.

Детальный разбор

Термины и определения

Characteristics (Характеристики)
Метрики, вычисляемые для раздела. Примеры: количество и размер изображений, расположение заголовков, объем текста, количество ссылок и слов, размер шрифта (font), расположение раздела на странице.
Graphical Representation (Графическое представление)
Визуальный макет веб-документа после рендеринга. Включает расположение, размеры и пространственные взаимосвязи компонентов.
Main Content / Highest-ranked content (Основной контент)
Наиболее значимая часть страницы (например, тело статьи), которая не является навигационным блоком, баннером или группой навигационных ссылок. Идентифицируется как секция с наивысшей оценкой.
Mobile Search Transcoder Server
Сервер (упомянутый в патенте), который анализирует страницы и генерирует их модифицированные версии для мобильных устройств, фокусируясь на Main Content.
Nodes / Components (Ноды / Компоненты)
Элементы, составляющие раздел (текст, ссылки, изображения, границы, формы и т.д.).
Overall Page Characteristics (Общие характеристики страницы)
Агрегированные или усредненные характеристики всей страницы (например, среднее соотношение ссылок, среднее количество слов на раздел). Используются как контекст для оценки отдельных разделов.
Score (Оценка)
Числовое значение, присваиваемое разделу на основе его характеристик относительно общих характеристик страницы. Определяет значимость раздела.
Section (Раздел)
Логическая часть графического представления веб-документа. Определяется на основе пространственных отношений элементов (spatial relationships).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации и отображения контента.

  1. Система получает веб-документ.
  2. Анализирует его для идентификации разделов (sections) и их последовательности на основе graphical representation.
  3. Определяет оценки (scores) для разделов на основе как минимум трех характеристик из списка (включает: количество/типы элементов, расположение заголовка, количество ссылок/слов, шрифт, расположение раздела).
  4. Идентифицирует раздел с Highest-ranked content (Основной контент) на основе этих оценок.
  5. Генерирует и инициирует отображение модифицированного документа, отформатированного так, чтобы начинаться с этого идентифицированного раздела.

Ядро изобретения — это метод визуальной сегментации страницы и последующая оценка значимости сегментов с использованием набора конкретных характеристик, с целью переформатирования страницы для выделения основного контента.

Claim 5 (Зависимый): Детализирует метод идентификации разделов (пункт 2 из Claim 1).

Разделы определяются путем:

  • Идентификации связанных компонентов на основе пространственных отношений (spatial relationship) в графическом представлении.
  • Идентификации границ между группами компонентов на основе вертикального сдвига (vertical shift) ИЛИ сдвига между вертикальной и горизонтальной конфигурацией.

Система использует визуальный анализ макета (рендеринг) для определения логических блоков. Изменение паттерна верстки (например, переход от горизонтального меню к вертикальной колонке статьи) служит для системы сигналом границы раздела.

Claim 7 и 8 (Зависимые): Детализируют механизм оценки (Scoring) (пункт 3 из Claim 1).

Оценка (Score) раздела основывается на сравнении характеристик этого раздела с характеристиками совокупности разделов (plurality of sections).

Значимость раздела определяется не абсолютными значениями его метрик, а в контексте всей страницы. Система сравнивает метрики раздела (например, количество слов) со средними или общими метриками страницы. Это позволяет адаптировать оценку к разным типам документов.

Claim 12 (Зависимый): Уточняет метод идентификации основного контента.

Идентификация Main Content может основываться на информации о предыдущих взаимодействиях пользователей (prior user interactions) с документом.

Система может использовать поведенческие данные как механизм обратной связи. Если пользователи часто покидают автоматически выбранный раздел и переходят в другой, система может скорректировать идентификацию основного контента.

Где и как применяется

Патент описывает применение технологии в контексте Mobile Search Transcoder Server (уровень представления данных). Однако, описанные методы анализа структуры страницы и идентификации основного контента имеют критическое значение для основных этапов работы поисковой системы.

INDEXING – Индексирование и извлечение признаков

Технология применяется на двух ключевых подэтапах:

  1. Рендеринг (WRS): Система должна выполнить рендеринг страницы, чтобы получить её graphical representation. Это необходимо для анализа визуальной структуры и пространственных отношений (spatial relationships).
  2. Анализ структуры и извлечение признаков (Feature Extraction): Модули, аналогичные описанным Section Detection Module и Main Content Processing Module, используются для разделения страницы на логические блоки. Это позволяет системе:
    • Отделить основной контент от boilerplate (сквозные блоки, навигация, футеры, реклама).
    • По-разному взвешивать сигналы ранжирования (ключевые слова, ссылки, сущности) в зависимости от раздела, в котором они находятся. Сигналы из Main Content имеют больший вес.

Входные данные:

  • Исходный веб-документ (HTML, CSS, JS).
  • Данные рендеринга (визуальный макет, координаты и размеры элементов).
  • (Опционально) Данные о предыдущих взаимодействиях пользователей.

Выходные данные:

  • Сегментированная структура документа (идентифицированные разделы).
  • Характеристики и оценки (Scores) для каждого раздела.
  • Идентификация блока Main Content.

На что влияет

  • Типы контента: Наиболее сильно влияет на информационные страницы (статьи, новости, блоги), где существует четкое разделение между уникальным контентом страницы и шаблонными элементами сайта.
  • Форматы контента: Влияет на оценку лонгридов и статей, так как система идентифицирует основной контент по признакам, характерным для них (большое количество слов, низкое соотношение ссылок к тексту).
  • Техническое SEO и Дизайн: Повышает важность чистой верстки, семантической структуры и продуманного визуального дизайна, который помогает алгоритмам корректно идентифицировать разделы и выделять основной контент.

Когда применяется

  • Условия: Алгоритм применяется при обработке веб-документов, имеющих сложную визуальную структуру с несколькими разделами.
  • В контексте Индексирования: Применяется каждый раз, когда Googlebot выполняет рендеринг и анализ контента страницы (Page Understanding).

Пошаговый алгоритм

Процесс состоит из двух основных этапов: Сегментация и Оценка.

Этап 1: Сегментация страницы (Section Detection)

  1. Рендеринг и Сегментация на Ноды: Веб-документ рендерится для получения graphical representation и сегментируется на базовые элементы (Ноды/Компоненты).
  2. Анализ Пространственных Отношений: Идентифицируются связанные компоненты на основе их пространственного расположения (spatial relationship) – например, выравнивание, вложенность, близость.
  3. Идентификация Границ Разделов: Определяются границы между группами компонентов. Триггерами для новой границы служат:
    • Вертикальный сдвиг или скачок (vertical shift) в позициях компонентов.
    • Смена конфигурации макета (например, переход от горизонтального расположения элементов к вертикальному).
  4. Определение Разделов и Последовательности: Группы нод объединяются в логические разделы (Sections), и определяется их порядок на странице.

Этап 2: Оценка и Выбор Основного Контента (Main Content Processing)

  1. Расчет Характеристик Разделов: Для каждого раздела вычисляются метрики (Characteristics): количество слов, ссылок, изображений, расположение заголовков, размер шрифта и т.д.
  2. Расчет Общих Характеристик Страницы: На основе метрик всех разделов определяются Overall Page Characteristics, например, среднее количество слов на раздел, среднее соотношение ссылок к тексту.
  3. Присвоение Оценок (Scoring): Каждому разделу присваивается оценка (Score). Оценка базируется на сравнении характеристик раздела с общими характеристиками страницы. Алгоритм оценки адаптивен и может меняться в зависимости от типа страницы.
    • Позитивные критерии (примеры): низкое Link/Text Ratio, много слов (относительно среднего), крупные изображения, заголовок в начале раздела, расположение вверху и слева.
    • Негативные критерии (примеры): мало элементов в разделе, расположение, требующее прокрутки (below the fold).
  4. Идентификация Основного Контента: Раздел с наивысшей оценкой идентифицируется как Main Content (или несколько разделов, если их оценки высоки).

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст (для подсчета слов, символов); Заголовки (их наличие и расположение внутри раздела).
  • Технические факторы: HTML-код (для сегментации на ноды); CSS и JS (необходимы для рендеринга и определения визуальной структуры).
  • Ссылочные факторы: Количество ссылок в разделе.
  • Структурные и Визуальные факторы (из рендеринга): Пространственные отношения (spatial relationships); Вертикальные/горизонтальные конфигурации макета; Размер шрифта (text size/font); Расположение раздела на странице (location), включая видимость без прокрутки (above the fold).
  • Мультимедиа факторы: Количество и размер изображений в разделе. Наличие форм или других типов контента.
  • Поведенческие факторы: (Опционально, согласно Claim 12) Информация о предыдущих взаимодействиях пользователей с документом.

Какие метрики используются и как они считаются

Система вычисляет следующие ключевые метрики для оценки разделов:

  • Link/Text Ratio (Соотношение ссылок к тексту): Критическая метрика для дифференциации контента от навигации. Высокое соотношение указывает на навигационный характер раздела.
  • Relative Word Count (Относительное количество слов): Сравнение количества слов в разделе со средним количеством слов на раздел по всей странице. Позволяет выделить наиболее насыщенные текстом блоки.
  • Image Metrics: Количество и размер изображений. Крупные изображения являются позитивным фактором.
  • Positional Metrics: Расположение раздела (приоритет отдается разделам выше и левее). Расположение заголовка внутри раздела (чем ближе к началу, тем лучше).
  • Score (Оценка значимости): Агрегированная оценка раздела. Рассчитывается путем комбинирования взвешенных значений, присвоенных характеристикам раздела. Расчет является относительным и адаптивным, зависящим от контекста всей страницы.

Выводы

  1. Визуальная структура определяет интерпретацию контента: Google активно использует анализ графического представления (рендеринг) страницы. Логические разделы определяются не только по HTML-структуре, но и по визуальным признакам, таким как пространственные отношения и смена паттернов макета.
  2. Критичность отделения Main Content от Boilerplate: Система целенаправленно идентифицирует основной контент и отделяет его от навигационных и шаблонных блоков. Это ключевой процесс для корректного извлечения и взвешивания сигналов ранжирования.
  3. Link/Text Ratio как детектор навигации: Высокое соотношение ссылок к тексту является сильным индикатором того, что раздел является навигационным, а не основным контентом.
  4. Контекстуальная и адаптивная оценка значимости: Оценка раздела происходит не изолированно, а в сравнении с общими характеристиками страницы (Overall Page Characteristics). Алгоритм адаптируется к различным типам сайтов и макетов.
  5. Конкретные признаки Main Content: Патент явно указывает позитивные индикаторы основного контента: низкое Link/Text Ratio, большое количество слов (относительно среднего по странице), наличие и расположение заголовков в начале раздела, а также крупные изображения.
  6. Расположение контента имеет значение: При прочих равных, приоритет при оценке получают разделы, расположенные выше на странице и "выше сгиба" (above the fold).

Практика

Best practices (это мы делаем)

  • Обеспечение четкого визуального дизайна и чистой верстки: Используйте верстку, которая создает явное визуальное и структурное разделение между Main Content, навигацией, боковыми панелями и футером. Переход от навигационных блоков к контенту должен сопровождаться изменением визуальной конфигурации (например, от горизонтального меню к вертикальной колонке), чтобы помочь системе сегментации.
  • Оптимизация Link/Text Ratio в основном контенте: Убедитесь, что основной контент имеет низкое соотношение ссылок к тексту. Основной объем текста не должен состоять из ссылок. Блоки перелинковки следует размещать отдельно.
  • Правильное размещение основного заголовка: Размещайте главный заголовок (H1) в самом начале раздела основного контента. Это служит сильным позитивным сигналом для его идентификации.
  • Размещение контента "Above the Fold": Начало основного контента должно быть расположено как можно выше и быть видимым без необходимости прокрутки, так как расположение является фактором оценки.
  • Насыщенность основного раздела: Стремитесь к тому, чтобы раздел основного контента был самым значительным блоком на странице по объему текста и/или размеру медиафайлов по сравнению с любым другим отдельным разделом (так как оценка производится относительно среднего).

Worst practices (это делать не надо)

  • Сложная и запутанная верстка: Использование макетов, которые визуально или структурно смешивают навигационные элементы, рекламу и основной контент. Это затруднит системе корректную сегментацию и оценку.
  • "Размывание" основного контента: Дробление основного контента на множество мелких визуальных блоков вместо одного доминирующего раздела. Это увеличивает риск того, что система неверно определит Main Content.
  • Переоптимизация внутренней перелинковки в тексте: Чрезмерное количество ссылок внутри основного текста статьи повышает Link/Text Ratio и может привести к ошибочной классификации контентного раздела как навигационного.
  • Размещение основного контента внизу страницы: Размещение больших баннеров, сложных слайдеров или избыточно длинных навигационных/вводных блоков над основным контентом.

Стратегическое значение

Патент подтверждает стратегию Google по переходу от анализа "плоского" HTML к глубокому анализу визуального представления и структуры страницы (Visual Understanding / Page Layout Analysis). Это подчеркивает тесную связь между UX, дизайном, качеством верстки и SEO. Для эффективного ранжирования критически важно, чтобы поисковая система могла точно идентифицировать Main Content, так как именно из него извлекаются основные сигналы релевантности и качества.

Практические примеры

Сценарий: Улучшение идентификации основного контента для страницы статьи

  1. Ситуация: На странице статьи, сразу после главного меню и перед текстом статьи, расположен большой блок "Читайте также" с 10 ссылками и изображениями.
  2. Риск по патенту: Система может визуально объединить блок "Читайте также" и начало статьи в один раздел, что повысит Link/Text Ratio. Или, если блок достаточно крупный, ошибочно принять его за начало Main Content или значимый навигационный элемент.
  3. Решение на основе патента:
    • Визуальное отделение: Использовать явный визуальный разделитель (отступ, линию), чтобы создать "vertical shift" между блоком "Читайте также" и статьей.
    • Изменение конфигурации: Убедиться, что блок "Читайте также" имеет явно отличную визуальную конфигурацию (например, сетка 2x5), в то время как статья представляет собой единую вертикальную колонку текста.
    • Расположение заголовка: Переместить блок "Читайте также" после статьи или в сайдбар. Убедиться, что H1 статьи является первым элементом в разделе основного контента.
  4. Ожидаемый результат: Система точнее идентифицирует границы. Блок "Читайте также" получит низкую оценку из-за высокого Link/Text Ratio. Раздел статьи получит высокую оценку благодаря H1 в начале и большому объему текста, что обеспечит корректное извлечение сигналов ранжирования.

Вопросы и ответы

Как система определяет границы разделов (Sections)?

Система анализирует графическое представление (визуальный макет) страницы после рендеринга и ищет изменения в пространственных отношениях элементов. Ключевыми индикаторами границы являются вертикальный сдвиг (vertical shift) между элементами или смена конфигурации макета (например, окончание горизонтального меню и начало вертикальной колонки). Это означает, что визуальный дизайн и верстка напрямую влияют на сегментацию.

Что такое "Общие характеристики страницы" (Overall Page Characteristics) и зачем они нужны?

Это агрегированные метрики всей страницы, такие как среднее количество слов на раздел или среднее соотношение ссылок к тексту. Они используются как контекст для оценки отдельных разделов. Раздел считается значимым не по абсолютным показателям, а если его характеристики выгодно отличаются от средних по странице (например, слов значительно больше среднего). Это делает алгоритм адаптивным.

Какая метрика является самой важной для определения основного контента согласно патенту?

Патент не выделяет одну метрику, а использует их комбинацию (минимум три) для расчета Score. Однако, низкое соотношение ссылок к тексту (Link/Text Ratio) указано как ключевой позитивный фактор для основного контента и помогает отличить его от навигации. Также критично сравнение количества слов в разделе со средним значением по странице.

Влияет ли расположение контента на его идентификацию как основного?

Да, влияет значительно. Патент указывает, что расположение раздела (location) является одной из характеристик для оценки. Разделы, расположенные выше и левее, получают приоритет. Также негативным фактором является расположение раздела "ниже сгиба" (то есть, если он виден только после прокрутки).

Как наличие изображений влияет на определение основного контента?

Наличие большого количества крупных изображений указано как позитивный фактор, способствующий идентификации раздела как Main Content. Это особенно важно для страниц, где визуальный контент доминирует над текстом, так как алгоритм адаптируется к общим характеристикам страницы.

Как этот патент связан с Core Web Vitals и рендерингом?

Патент напрямую зависит от способности системы рендерить страницу для анализа её графического представления. Технологии, описанные здесь, лежат в основе понимания макета страницы (Page Layout Analysis). Хотя патент фокусируется на идентификации контента, он подтверждает, что Google анализирует визуальную структуру, что также используется для оценки метрик производительности и UX.

Может ли перелинковка в статье помешать Google определить ее как основной контент?

Да, если плотность ссылок слишком высока. Высокий Link/Text Ratio является признаком навигационной секции. Если статья перенасыщена ссылками, система может решить, что эта секция предназначена для навигации, а не является основным содержанием страницы, что негативно скажется на оценке контента.

Что делать, если на странице несколько равнозначных блоков контента (например, на главной странице новостного сайта)?

Патент предусматривает возможность идентификации нескольких разделов как Main Content, если их оценки (Scores) близки или превышают определенный порог. В контексте индексирования все эти блоки, вероятно, будут считаться важными и анализироваться соответствующим образом.

Учитывает ли система семантические HTML5 теги (например, <main>, <article>, <nav>)?

Патент не упоминает конкретные HTML-теги. Описанный метод полагается в первую очередь на анализ визуальной структуры, пространственных отношений и характеристик контента (количество ссылок, слов). Хотя семантические теги полезны и рекомендуются, система, описанная в патенте, способна определять структуру независимо от них, основываясь на рендеринге.

Какое значение имеет этот патент, если Google уже давно использует более продвинутые ML модели?

Этот патент описывает фундаментальный этап предобработки – сегментацию страницы и идентификацию основного контента. Более продвинутые ML и NLP модели применяются уже к извлеченному контенту. Чтобы эти модели работали эффективно и оценивали именно то, что нужно, система должна сначала точно определить, где находится основной контент, и отфильтровать шум. Этот патент описывает, как это достигается.

Похожие патенты

Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга
Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.
  • US9753901B1
  • 2017-09-05
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google определяет наиболее релевантную часть документа, игнорируя ключевые слова из Title и URL
Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента внутри страницы вес «навигационных» слов снижается или обнуляется, позволяя точнее выделить конкретный фрагмент текста, содержащий ответ.
  • US8005825B1
  • 2011-08-23
  • Семантика и интент

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга
Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.
  • US7913163B1
  • 2011-03-22
  • Семантика и интент

  • Структура сайта

  • Техническое SEO

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google идентифицирует и игнорирует шаблонный контент (Boilerplate) для фокусировки на основном содержании страницы
Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент как шаблонный (boilerplate) и исключает его из индексации или значительно понижает его вес.
  • US8041713B2
  • 2011-10-18
  • Индексация

  • Техническое SEO

  • Структура сайта

Популярные патенты

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)
Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.
  • US8417697B2
  • 2013-04-09
  • Персонализация

  • Поведенческие сигналы

  • Антиспам

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом
Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.
  • US7346839B2
  • 2008-03-18
  • Свежесть контента

  • Антиспам

  • Ссылки

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)
Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.
  • US7979417B1
  • 2011-07-12
  • Ссылки

  • Краулинг

  • Техническое SEO

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами
Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.
  • US8032820B1
  • 2011-10-04
  • Ссылки

  • Индексация

  • Краулинг

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи
Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.
  • US6526440B1
  • 2003-02-25
  • Ссылки

  • Антиспам

  • SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)
Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.
  • US8615514B1
  • 2013-12-24
  • Поведенческие сигналы

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

seohardcore