Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует расположение и оформление ссылок на главных страницах СМИ (Hub Pages) для ранжирования новостей

    IDENTIFICATION AND RANKING OF NEWS STORIES OF INTEREST (Идентификация и ранжирование новостных сюжетов, представляющих интерес)
    • US9405805B2
    • Google LLC
    • 2016-08-02
    • 2007-11-12
    2007 Индексация Патенты Google Свежесть контента Ссылки

    Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостных статей. Чем выше и заметнее расположена ссылка на статью (учитывая позицию, размер шрифта, наличие изображений и сниппетов), тем выше эта статья ранжируется в поиске по новостям. Этот механизм позволяет использовать редакционные решения СМИ для оценки актуальности и значимости новостей.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу определения относительной важности новостных статей в реальном времени. Традиционных сигналов, таких как дата публикации или только качество источника, недостаточно для точного ранжирования быстро меняющегося потока новостей. Изобретение направлено на использование редакционного суждения (editorial judgment) новостных организаций путем анализа того, как они представляют контент на своих главных страницах.

    Что запатентовано

    Запатентована система ранжирования новостных статей, основанная на том, насколько заметно они представлены на так называемых «Хаб-страницах» (Hub Pages), например, на главных страницах новостных сайтов. Система количественно оценивает редакционные решения (расположение ссылки, размер шрифта, изображения) и преобразует их в сигнал ранжирования (Prominence Score).

    Как это работает

    Система работает в несколько этапов:

    • Идентификация Hub Pages: Определяются страницы (например, CNN.com), содержащие множество ссылок на новостные статьи.
    • Сканирование и анализ: Эти страницы часто сканируются. Система анализирует визуальный макет страницы (используя DOM и CSS), чтобы определить заметность (prominence) каждой ссылки.
    • Оценка заметности: Учитываются позиция ссылки (чем выше, тем лучше), форматирование, размер шрифта, наличие сниппета и изображений.
    • Расчет оценки: Для статьи вычисляется Prominence Score на основе ее заметности на одной или нескольких Hub Pages.
    • Ранжирование и Группировка: Эта оценка используется как важный сигнал ранжирования. Статьи группируются в сюжеты, а оценка группы рассчитывается на основе оценок отдельных статей.

    Актуальность для SEO

    Высокая. Определение главных новостей и приоритизация сюжетов на основе редакционного акцента остается критически важной задачей для Google News и блока «Top Stories» в основном поиске. Описанные принципы использования визуальной иерархии как сигнала ранжирования для новостей крайне актуальны.

    Важность для SEO

    Патент имеет критическое значение (8.5/10) для издателей и специалистов по News SEO. Он прямо указывает на то, как Google оценивает важность статей на основе их представления на сайте издателя. Это подчеркивает важность структуры сайта, дизайна главной страницы и четкой визуальной иерархии для видимости новостей в поиске.

    Детальный разбор

    Термины и определения

    Hub Page (Хаб-страница)
    Веб-страница (например, главная страница новостного сайта), которая содержит множество ссылок (references) на новостные статьи, количество которых превышает определенный порог, и которые не обязательно отсортированы по времени.
    Reference (Ссылка/Упоминание)
    Элемент на Hub Page, указывающий на новостную статью. Включает гиперссылку и может включать связанный контент: сниппет, краткое содержание (synopsis), изображение.
    Prominence Score (Оценка заметности)
    Метрика, отражающая важность новостной статьи с точки зрения редактора Hub Page. Рассчитывается на основе позиции ссылки и визуальных характеристик (шрифт, форматирование, изображение).
    Reference Position Score (Оценка позиции ссылки)
    Компонент Prominence Score, основанный исключительно на расположении ссылки на Hub Page относительно других ссылок.
    DOM (Document Object Model)
    Объектная модель документа. Используется системой для анализа структуры и макета Hub Page после рендеринга, чтобы определить реальное расположение и иерархию ссылок.
    CSS (Cascading Style Sheets)
    Каскадные таблицы стилей. Используются для анализа визуального представления (шрифты, размеры, форматирование) ссылок на Hub Page.
    News Article Group (Группа новостных статей / Сюжет)
    Кластер новостных статей, которые относятся к одному и тому же новостному событию или сюжету.
    Source Quality / Quality Score (Качество источника)
    Метрика качества или рейтинг новостного источника или самой Hub Page.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод ранжирования контента на основе анализа нескольких источников.

    1. Система идентифицирует две или более страниц как Hub Pages (на основе превышения порога количества гиперссылок на внешний контент).
    2. На первой Hub Page определяется первое местоположение гиперссылки на определенный контент.
    3. На второй Hub Page определяется второе местоположение гиперссылки на тот же самый контент.
    4. Вычисляется оценка (score) для этого контента на основе первого И второго местоположений.
    5. Ключевое условие: При вычислении оценки также обязательно учитывается хотя бы один из следующих факторов: количество текста, представленного с гиперссылками; размеры шрифтов текста; форматирование текста; или наличие изображения, связанного с гиперссылками.

    Ядро изобретения — это агрегация сигналов о местоположении И сигналов визуального представления с нескольких независимых Hub Pages для определения важности связанного контента.

    Claim 3 (Зависимый): Уточняет метод расчета оценки.

    1. Определяется первая оценка качества (Quality Score) для первой Hub Page.
    2. Определяется вторая оценка качества для второй Hub Page.
    3. Оценка контента определяется на основе местоположений, а также оценок качества первой и второй Hub Pages.

    Это подтверждает, что авторитетность (Quality Score) Hub Page используется как весовой коэффициент при учете заметности ссылки.

    Claims 4 и 5 (Зависимые): Детализируют определение местоположения.

    1. Идентифицируется наиболее заметное место (most prominent location) на Hub Page, где представлена гиперссылка.
    2. Местоположение ссылки определяется как относительное расстояние (relative distance) между фактическим расположением ссылки и этим наиболее заметным местом.

    Система определяет визуальный «Топ-1» на странице и измеряет, насколько далеко другие ссылки находятся от него.

    Где и как применяется

    Изобретение в основном применяется в системах поиска по новостям (например, Google News) и затрагивает несколько этапов поисковой архитектуры.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе система должна идентифицировать потенциальные Hub Pages (автоматически или из заданного списка) и сканировать их с высокой частотой для обнаружения новых статей и изменений в макете.

    INDEXING – Индексирование и извлечение признаков
    Основная работа алгоритма происходит здесь. Система анализирует HTML, DOM и CSS скачанных Hub Pages. Article reference position module определяет визуальный макет, позицию и визуальные характеристики каждой ссылки. На основе этих данных Article scoring module вычисляет Prominence Score. Article grouping module также кластеризует статьи в News Article Groups.

    RANKING – Ранжирование
    Рассчитанные Prominence Scores (как для отдельных статей, так и для групп) используются в качестве сильного сигнала ранжирования при ответе на новостные запросы.

    Входные данные:

    • HTML, DOM, CSS Hub Pages.
    • Список известных новостных источников (Sources repository) и их оценки качества (Source Quality).
    • Тексты самих новостных статей (для группировки).

    Выходные данные:

    • Prominence Score для новостных статей.
    • News Article Groups (кластеры статей) и их агрегированные оценки.

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на новостные статьи от издателей и СМИ.
    • Специфические запросы: Влияет на запросы, связанные с актуальными событиями, главными новостями и тематическими новостями (спорт, бизнес и т.д.).
    • Конкретные ниши или тематики: Наибольшее влияние в нишах СМИ и издательского бизнеса. В патенте упоминается возможность расчета оценок внутри тематических категорий, если Hub Page организована соответствующим образом (например, раздел «Бизнес»).

    Когда применяется

    • Частота применения: Непрерывно, по мере появления новостей и обновления Hub Pages. Это требует очень частого сканирования главных страниц СМИ.
    • Исключения: В описании патента упоминается фильтрация «устаревших» (stale) Hub Pages. Если главная страница СМИ не обновлялась в течение определенного периода (например, несколько часов), она может быть проигнорирована в процессе оценки.

    Пошаговый алгоритм

    Фаза 1: Идентификация и Сканирование

    1. Идентификация Hub Pages: Система определяет набор Hub Pages для мониторинга (вручную или автоматически по числу исходящих новостных ссылок).
    2. Оценка Качества Источников: Система получает или рассчитывает Source Quality для каждой Hub Page.
    3. Сканирование: Crawling module часто сканирует Hub Pages.
    4. Проверка Актуальности (Staleness): Система проверяет, не является ли Hub Page устаревшей. Если да, она игнорируется.
    5. Идентификация Ссылок: На активных Hub Pages идентифицируются ссылки, ведущие на новостные статьи.

    Фаза 2: Анализ Заметности (Prominence Analysis)

    1. Анализ Макета: Система анализирует HTML, DOM и CSS для определения визуального макета страницы при рендеринге.
    2. Определение Позиции: Система определяет позицию каждой ссылки. Анализируется дерево DOM для обработки сложных макетов (вертикальных и горизонтальных) и для группировки связанных ссылок (например, главный заголовок и подзаголовки) как единого целого при определении порядка.
    3. Определение Порядка (Reference Order): Ссылки упорядочиваются на основе позиции (например, сверху вниз, слева направо, в зависимости от языка страницы).
    4. Извлечение Визуальных Характеристик: Определяются характеристики оформления: размер шрифта, форматирование (жирный, курсив), наличие и размер сниппета, наличие и размер изображения.
    5. Расчет Оценки Позиции: Вычисляется Reference Position Score. В описании патента приводится пример формулы: C1/power(reference_order, C2) (например, C1=10, C2=0.5), что приводит к экспоненциальному распределению веса.
    6. Расчет Оценки Заметности: Вычисляется Prominence Score путем комбинирования оценки позиции и оценок визуальных характеристик.

    Фаза 3: Агрегация и Ранжирование

    1. Агрегация по Hub Pages: Система агрегирует Prominence Scores для одной и той же статьи, полученные с разных Hub Pages. При этом используется взвешивание на основе Source Quality каждой Hub Page (Claim 3).
    2. Финальная Оценка Статьи: Агрегированная оценка заметности комбинируется с другими сигналами (свежесть, новизна, длина статьи).
    3. Группировка: Статьи группируются в News Article Groups (сюжеты), например, с использованием TF-IDF и косинусного сходства (cosine similarity) (упомянуто в описании).
    4. Оценка Группы: Рассчитывается оценка группы на основе оценок отдельных статей (например, среднее, медиана или масштабированная сумма) и, возможно, скорости публикации (rate of publication) статей в группе.

    Какие данные и как использует

    Данные на входе

    • Технические и Структурные факторы:
      • HTML код Hub Pages.
      • DOM (Document Object Model) структура. Критически важна для понимания иерархии и группировки контента.
      • CSS (Cascading Style Sheets). Используются для определения визуального макета и стилей оформления ссылок.
    • Контентные факторы (на Hub Page):
      • Текст анкора или заголовка ссылки.
      • Наличие и размер сниппета (snippet) или краткого содержания (synopsis) рядом со ссылкой.
    • Мультимедиа факторы (на Hub Page):
      • Наличие и размер изображений, связанных со ссылкой.
    • Системные данные:
      • Предварительно рассчитанные оценки качества источников (Source Quality) для Hub Pages.
    • Поведенческие факторы (Опционально): В описании упоминается возможность комбинирования оценки заметности с показателем важности, основанным на логах кликов (click logs), взвешенных по позиции.

    Какие метрики используются и как они считаются

    • Reference Order (Порядок ссылки): Порядковый номер ссылки на странице после анализа макета (1 для самой заметной).
    • Reference Position Score (Оценка позиции ссылки): Оценка, основанная на порядке. Пример формулы: C1/power(reference_order, C2). Альтернативно, рассчитывается как относительное расстояние от самого заметного места на странице.
    • Prominence Score (Оценка заметности): Комбинированная оценка, включающая Reference Position Score и оценки за визуальные характеристики (размер шрифта, форматирование и т.д.).
    • Source Quality (Качество источника): Используется как весовой коэффициент при агрегации оценок с разных Hub Pages.
    • Метрики статьи: Упоминаются свежесть (freshness), длина (length) и новизна (novelty) самой статьи как дополнительные компоненты финальной оценки.
    • Staleness (Устаревание): Метрика, определяющая, как давно обновлялась Hub Page.

    Выводы

    1. Редакционное суждение как сигнал ранжирования: Патент описывает конкретный механизм, с помощью которого Google пытается количественно оценить и использовать в ранжировании решения, принятые людьми-редакторами новостных сайтов. Расположение новости на главной странице рассматривается как сильный сигнал ее важности.
    2. Визуальная заметность критична: Важна не просто ссылка, а ее визуальное представление. Размер шрифта, наличие изображения, форматирование и точное расположение на странице напрямую влияют на Prominence Score.
    3. Сложный анализ макета (DOM/CSS): Система не полагается на порядок ссылок в HTML-коде. Она анализирует отрендеренную структуру страницы (DOM и CSS), чтобы понять реальный макет, иерархию и группировку новостей, как их видит пользователь.
    4. Качество источника как весовой фактор: Заметность на авторитетном сайте (High-Quality Source) имеет больший вес, чем заметность на низкокачественном ресурсе. Это явно указано в Claim 3.
    5. Агрегация сигналов: Важность статьи подтверждается путем агрегации данных о ее заметности на нескольких разных Hub Pages (Claim 1).
    6. Свежесть Hub Page имеет значение: Система активно игнорирует устаревшие (stale) Hub Pages, подчеркивая необходимость постоянного обновления контента на главных страницах СМИ.

    Практика

    Best practices (это мы делаем)

    Эти рекомендации критически важны для издателей и СМИ, стремящихся к высокой видимости в Google News и новостных блоках поиска.

    • Дизайн главной страницы как фактор ранжирования: Необходимо осознанно подходить к дизайну главной страницы (и главных страниц разделов). Приоритетные и важные статьи должны располагаться выше и быть визуально более заметными, чем второстепенные новости.
    • Использование четкой визуальной иерархии: Для ключевых статей следует использовать более крупные заголовки, заметные изображения и развернутые сниппеты. Это напрямую увеличивает Prominence Score.
    • Чистая семантическая верстка (HTML/DOM): Убедитесь, что верстка сайта чистая, а структура DOM логична. Это позволит Google корректно интерпретировать макет, определять иерархию блоков и правильно идентифицировать главные новости. Избегайте сложных структур, которые могут скрыть иерархию.
    • Поддержание высокого качества ресурса (E-E-A-T для издателей): Поскольку Source Quality используется как весовой коэффициент, работа над общей авторитетностью и качеством СМИ критически важна.
    • Регулярное обновление главной страницы: Патент упоминает игнорирование устаревших (stale) Hub Pages. Главная страница должна регулярно обновляться, отражая актуальную новостную повестку.

    Worst practices (это делать не надо)

    • Перегруженный дизайн без приоритетов: Главная страница, на которой множество новостей представлены хаотично, без четкого выделения главных сюжетов, снижает эффективность передачи сигналов о важности.
    • Визуальное однообразие: Если все новости выглядят одинаково (одинаковый размер шрифта, отсутствие изображений у главных новостей), система не сможет определить приоритеты редакции.
    • Сложная верстка, скрывающая структуру: Использование нестандартных DOM структур или чрезмерно сложного JavaScript для формирования макета может помешать Google правильно интерпретировать визуальную иерархию.
    • «Закапывание» важных новостей: Размещение ключевых статей внизу страницы или на неакцентированных позициях (например, в боковой колонке, если центральная колонка имеет приоритет).

    Стратегическое значение

    Для новостных издателей этот патент подтверждает, что дизайн и редакционная стратегия размещения контента на главной странице напрямую влияют на видимость в Google News. Google рассматривает макет новостного сайта как сигнал о намерениях редакции и важности контента. Это делает взаимодействие SEO-специалистов, редакторов и дизайнеров критически важным для успеха в новостном поиске.

    Практические примеры

    Сценарий 1: Максимизация видимости эксклюзивного расследования

    Издатель опубликовал важное эксклюзивное расследование и хочет обеспечить ему максимальную видимость в Google News.

    1. Действие редакции: Разместить расследование как главную новость (вверху по центру) на главной странице сайта.
    2. Действие дизайна/разработки: Убедиться, что для этого блока используется самый крупный размер шрифта заголовка, предусмотренный в CSS, добавлено заметное уникальное изображение и развернутый сниппет (synopsis).
    3. Проверка SEO: Проверить, что в структуре DOM этот блок является доминирующим и не перекрывается другими элементами.
    4. Ожидаемый результат: Google сканирует главную страницу, идентифицирует высокую заметность (позиция + визуальные характеристики), присваивает статье высокий Prominence Score. Это значительно повышает шансы статьи занять лидирующие позиции в Google News и Top Stories.

    Сценарий 2: Обработка сложной верстки (на основе FIG. 5A/5B патента)

    1. Верстка: На Hub Page есть главная история (A) и две связанные с ней под-ссылки (A1, A2) прямо под ней. Ниже расположен блок со второй по важности историей (B).
    2. Наивный парсинг (сверху вниз): Может ошибочно определить порядок как A, A1, A2, B.
    3. Анализ DOM (как в патенте): Система видит, что A, A1 и A2 имеют общего родителя в DOM. Они группируются, и для основного порядка учитывается только главная ссылка (A). История B находится в другом узле.
    4. Результат: Корректный порядок важности: A, B. Это подчеркивает, почему чистая структура DOM жизненно важна.

    Вопросы и ответы

    Влияет ли дизайн главной страницы моего новостного сайта на ранжирование в Google News?

    Да, напрямую. Патент описывает механизм, который анализирует расположение и визуальное оформление ссылок на вашей главной странице (Hub Page). Чем выше и заметнее размещена статья, тем более важной ее считает Google. Это один из ключевых способов, которым Google интерпретирует редакционные приоритеты вашего издания.

    Что важнее для Prominence Score: позиция ссылки или ее оформление (шрифт, картинка)?

    Важно и то, и другое. Позиция (Reference Position Score) является основой — чем ближе к самому заметному месту на странице, тем лучше. Однако Claim 1 явно указывает, что визуальные характеристики (размер шрифта, форматирование, наличие картинки, объем сниппета) также обязательно учитываются при расчете итоговой оценки заметности (Prominence Score).

    Как Google понимает, где верх страницы, если у меня сложный дизайн с колонками?

    Система анализирует не просто HTML-код, а отрендеренный макет страницы, используя DOM (Document Object Model) и CSS (Style Sheets). Она определяет визуальное расположение элементов. В патенте описаны методы учета как вертикального, так и горизонтального расположения, а также адаптация под язык страницы (например, справа налево).

    Что такое анализ DOM, упомянутый в патенте, и почему он важен?

    Анализ DOM позволяет системе понять структуру и иерархию контента после рендеринга. Например, если у вас есть главный сюжет и несколько связанных с ним подсюжетов, анализ DOM поможет Google понять, что это единый блок. Это предотвращает ошибочное присвоение более высокого рейтинга второстепенному подсюжету по сравнению со следующим независимым блоком новостей.

    Влияет ли авторитетность моего сайта на этот механизм ранжирования?

    Да, очень сильно. В Claim 3 патента указано, что оценка качества (Quality Score) Hub Page используется при расчете финальной оценки статьи. Это означает, что размещение на главной странице авторитетного СМИ даст гораздо больший буст, чем размещение на главной странице низкокачественного сайта.

    Нужно ли часто обновлять главную страницу?

    Да. В патенте упоминается механизм фильтрации устаревших (stale) Hub Pages. Если ваша главная страница не обновляется регулярно, система может решить, что она больше не отражает актуальную новостную повестку, и перестанет учитывать сигналы заметности с нее.

    Применяется ли этот патент только к главной странице сайта или к главным страницам разделов тоже?

    Патент определяет Hub Page как любую страницу с достаточным количеством новостных ссылок. Это может быть как главная страница всего сайта (например, CNN.com), так и главные страницы тематических разделов (например, CNN.com/business). Система может рассчитывать оценки как в целом, так и внутри тематических категорий.

    Как рассчитывается оценка, если статья размещена на главных страницах нескольких разных СМИ?

    Claim 1 описывает именно этот сценарий. Система определяет заметность статьи на каждой Hub Page отдельно, а затем агрегирует эти оценки. При агрегации учитывается качество (авторитетность) каждого из этих СМИ. Это позволяет оценить общий интерес к новости в индустрии.

    Что такое формула C1/power(reference_order, C2), упомянутая в описании патента?

    Это пример формулы для расчета оценки позиции (Reference Position Score). Она демонстрирует нелинейное (экспоненциальное) убывание важности по мере удаления от топа страницы. reference_order — это порядок ссылки (1 для первой и т.д.). Суть в том, что разница в оценке между 1-й и 2-й позицией значительно больше, чем между 10-й и 11-й.

    Как этот патент связан с группировкой новостей в сюжеты?

    Патент описывает, что после расчета оценок для отдельных статей, они могут быть сгруппированы в сюжеты (News Article Groups). Оценка всего сюжета затем рассчитывается на основе оценок входящих в него статей. Таким образом, высокая заметность нескольких статей об одном событии приведет к высокому ранжированию всего сюжета.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.