Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News

IDENTIFICATION AND RANKING OF NEWS STORIES OF INTEREST (Идентификация и ранжирование новостных сюжетов, представляющих интерес)

US8375073B1
Google LLC
2007-11-12
2013-02-12

Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.

Какую проблему решает

Патент решает проблему определения относительной важности и актуальности новостных сюжетов в реальном времени. Вместо того чтобы полагаться исключительно на традиционные сигналы (время публикации, авторитетность источника), система использует редакционные решения самих издателей как прямой сигнал ранжирования. Цель — использовать «знания, воплощенные в редакционном принятии решений» (knowledge embodied in the editorial decision-making) для определения важности новостей и более быстрого вывода в топ актуальных сюжетов.

Что запатентовано

Запатентована система ранжирования новостных статей, которая рассчитывает оценку важности статьи на основе ее Prominence (визуальной заметности) на одной или нескольких Hub Pages (главных страницах или страницах разделов новостных сайтов). Система анализирует визуальное расположение (relative presentation position) и оформление гиперссылки на статью, чтобы определить, насколько важной ее считает редактор Hub Page.

Как это работает

Ключевой механизм заключается в анализе рендеринга Hub Pages:

Идентификация Hub Pages: Система определяет страницы, содержащие пороговое количество ссылок на новости (например, главная страница CNN).
Анализ рендеринга: Система анализирует HTML, DOM и CSS Hub Page, чтобы понять визуальную структуру отрендеренной страницы.
Определение Prominence: Оценивается заметность каждой ссылки. Учитывается ее позиция (вертикальная и горизонтальная), размер шрифта, форматирование, наличие и размер сниппета или изображения.
Расчет Reference Position Score: Ссылкам присваивается оценка на основе их порядка. Чем выше и заметнее ссылка, тем выше оценка.
Ранжирование и Группировка: Эти оценки используются для расчета общего скора статьи (Article Score). Статьи группируются по сюжетам, и группы также ранжируются (Group Score).

Актуальность для SEO

Высокая. Принципы, изложенные в этом патенте, являются фундаментальными для работы агрегаторов новостей, таких как Google News и блока Top Stories. Использование сигналов от издателей для определения важности контента остается ключевым механизмом оценки актуальных новостей, хотя конкретные технические методы анализа страниц (рендеринг, интерпретация DOM/CSS) могли эволюционировать с момента подачи патента.

Важность для SEO

Патент имеет критическое значение (9/10) для SEO новостных сайтов и издателей. Он напрямую связывает дизайн, UX и верстку главных страниц и страниц рубрик с ранжированием контента в Google News и Top Stories. Если важная новость размещена на сайте незаметно (внизу, мелким шрифтом, без картинки), этот механизм присвоит ей низкий Prominence Score, что негативно скажется на ее видимости в поиске.

Термины и определения

Hub Page (Хаб-страница, Страница-агрегатор): Веб-страница, содержащая множество ссылок на новостные статьи (превышающее определенный порог), которые не обязательно отсортированы по времени. Примеры: главная страница новостного сайта или страница тематического раздела (например, "Спорт").
Prominence (Заметность, Значимость): Мера важности новостной статьи с точки зрения редактора Hub Page. Определяется на основе позиции и оформления ссылки на Хаб-странице.
Relative Presentation Position (Относительная позиция представления): Визуальное местоположение ссылки на Hub Page относительно местоположений других ссылок на той же странице после рендеринга.
Prominence Score (Оценка заметности): Метрика, определяющая визуальную важность ссылки. Включает Reference Position Score и другие факторы оформления (шрифт, сниппет, изображение).
Reference Position Score (Оценка позиции ссылки): Компонент Prominence Score, основанный исключительно на физическом расположении ссылки (Relative Presentation Position) на отрендеренной странице.
News Article Score (Оценка статьи): Общая оценка ранжирования новостной статьи, включающая Prominence Score и другие факторы (свежесть, качество источника, новизна контента (novelty)).
News Article Group (Группа новостных статей / Новостной сюжет): Кластер новостных статей от разных издателей, посвященных одному и тому же событию или сюжету.
Group Score (Оценка группы): Оценка ранжирования News Article Group, рассчитываемая на основе Article Scores входящих в нее статей.
DOM (Document Object Model) и CSS (Cascading Style Sheets): Технологии, которые анализируются системой для понимания структуры и визуального представления (рендеринга) Hub Page.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод ранжирования новостей.

Идентификация множества Hub Pages (каждая должна иметь как минимум пороговое количество гиперссылок на новости).
Определение для каждой гиперссылки Reference Position Score. Эта оценка основана на Relative Presentation Position (визуальном местоположении) ссылки относительно других ссылок на той же странице.
Вычисление News Article Scores для статей, на которые ведут ссылки, используя полученные Reference Position Scores.
Предоставление данных, представляющих эти оценки.

Claim 3 (Зависимый от 2 и 1): Детализирует технический метод определения позиции.

Определение заметности (prominence) позиции отображения основано на анализе одного или нескольких из следующих источников: HTML-код, DOM или CSS (style sheet) Hub Page. Это подтверждает, что система анализирует страницу после рендеринга.

Claim 4 и 5 (Зависимые): Описывают группировку и ранжирование сюжетов.

Статьи группируются в News Article Groups. Определяется Group Score на основе News Article Scores статей в группе. Группы предоставляются в ответ на запрос, упорядоченные на основе их Group Scores.

Claim 6 и 7 (Зависимые): Описывают ранжирование внутри тематических категорий.

Reference Position Score может определяться на основе позиции ссылки относительно других ссылок, принадлежащих к той же тематической категории на Hub Page (например, ранжирование внутри блока "Бизнес").

Claim 9 (Зависимый): Уточняет учет порядка чтения.

Оценка основана на позиции и на "соглашении о порядке заметности гиперссылок" (hyperlink prominence ordering convention), используемом на странице (например, слева направо или справа налево в зависимости от языка).

Claim 10 (Зависимый от 1): Расширяет факторы, влияющие на оценку статьи.

News Article Score вычисляется с использованием не только позиции, но и одного или нескольких факторов: количества текста, представленного со ссылкой (сниппет), размеров шрифтов текста ссылки, форматирования текста ссылки или наличия изображения, связанного со ссылкой.

Где и как применяется

Изобретение применяется на нескольких этапах обработки новостного контента (Google News, Top Stories).

CRAWLING – Сканирование и Сбор данных
Система должна идентифицировать потенциальные Hub Pages (используя Sources repository) и часто их сканировать. Также проверяется актуальность (freshness) Хаб-страниц, игнорируя устаревшие (stale) страницы.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. При обработке Hub Page система выполняет:

Рендеринг и Анализ структуры: Анализ HTML, DOM и CSS для определения визуального макета страницы (rendered layout).
Извлечение признаков Prominence: Определение точных позиций ссылок (Relative Presentation Position), размера шрифтов, наличия изображений, сниппетов.
Расчет оценок: Вычисление Reference Position Score и Prominence Score для каждой ссылки.
Группировка: Кластеризация статей в News Article Groups (например, с использованием TF-IDF и косинусного сходства, как описано в патенте).

RANKING – Ранжирование
Рассчитанные Article Scores (включающие Prominence Score) и Group Scores используются для ранжирования новостного контента в специализированных индексах.

Входные данные:

Список идентифицированных Hub Pages.
HTML, DOM, CSS сканированных Hub Pages.
Текст новостных статей (для группировки).
Язык Hub Page (для определения порядка чтения).

Выходные данные:

Prominence Scores и Reference Position Scores для новостных статей.
Сгруппированные новостные сюжеты (News Article Groups) и их Group Scores.

На что влияет

Конкретные типы контента: Влияет исключительно на новостной контент (News Articles).
Специфические запросы: Влияет на запросы, связанные с актуальными событиями, где активируются Google News и блок Top Stories.
Конкретные ниши: Критическое влияние на все новостные вертикали (Политика, Спорт, Бизнес, YMYL и т.д.).
Языковые и географические ограничения: Применяется глобально, но учитывает языковые особенности макета (например, чтение справа налево или слева направо).

Когда применяется

Условия работы: Алгоритм применяется постоянно в процессе обработки новостного контента.
Триггеры активации: Обнаружение ссылки на новостную статью на странице, классифицированной как Hub Page.
Временные рамки и частота применения: Критически важна частота обновления. Патент упоминает фильтрацию "устаревших" (stale) Hub Pages, которые не обновлялись в течение определенного периода (например, несколько часов).

Пошаговый алгоритм

Этап 1: Подготовка и Сканирование

Идентификация Hub Pages: Определение набора Hub Pages (вручную или автоматически).
Сканирование и Валидация: Регулярное сканирование Hub Pages. Проверка на устаревание (если контент не изменился, страница может быть проигнорирована). Идентификация ссылок, ведущих на новостные статьи.

Этап 2: Анализ Заметности (Prominence Analysis)

Рендеринг и Парсинг: Анализ HTML, DOM и CSS для определения визуального макета.
Определение Порядка Ссылок: Упорядочивание ссылок на основе их визуальной позиции (Relative Presentation Position), учитывая правила макета и языка (например, сверху вниз, слева направо). Включает анализ DOM-дерева для корректной интерпретации сложных макетов.
Извлечение Визуальных Факторов: Определение дополнительных факторов заметности: размер шрифта, форматирование, наличие и размер сниппета, наличие изображения.
Определение Тематических Блоков: Идентификация рубрик на странице для расчета относительной заметности внутри категории (если применимо).

Этап 3: Расчет Оценок и Ранжирование

Расчет Reference Position Score: Присвоение оценки на основе порядка. Патент предлагает формулу: $Score = C1 / power(reference\_order, C2)$ , где C1 и C2 – константы (например, 10 и 0.5), а reference_order – порядковый номер ссылки.
Расчет Prominence Score: Комбинирование Reference Position Score с оценками визуальных факторов.
Расчет Article Score: Агрегация Prominence Scores (если на статью ссылаются несколько Hub Pages) и комбинация с другими факторами ранжирования (качество источника, свежесть и т.д.).

Этап 4: Группировка

Кластеризация: Группировка статей в News Article Groups на основе схожести контента.
Расчет Group Score: Вычисление оценки группы на основе Article Scores входящих в нее статей (например, среднее, медиана или масштабированная сумма).

Какие данные и как использует

Данные на входе

Система использует преимущественно структурные и технические данные, связанные с представлением контента на Hub Pages.

Технические факторы: HTML-код, структура DOM, CSS. Эти данные используются для определения того, как страница будет выглядеть при рендеринге.
Структурные факторы: Относительное расположение элементов (вертикальное и горизонтальное позиционирование), иерархия элементов в DOM-дереве. Использование тегов (DIV, P, TR) для валидации новостных статей.
Контентные факторы (в контексте ссылки): Текст ссылки (анкор), наличие и длина сниппета или синопсиса новости рядом со ссылкой.
Мультимедиа факторы: Наличие изображения, связанного со ссылкой на новость.
Визуальные факторы (Presentation): Размер шрифта текста ссылки или заголовка, форматирование текста (например, жирный шрифт, курсив).
Временные факторы: Время обновления Hub Page (для фильтрации устаревших страниц); свежесть самой статьи.
Географические/Языковые факторы: Язык Hub Page для определения порядка чтения (слева направо или справа налево).

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Какие данные и как использует

Данные на входе

Какие метрики используются и как они считаются

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты