Как Google позволяет пользователям настраивать ранжирование и отбор источников в агрегаторе новостей (Google News)

Патент Google, описывающий механизм персонализации новостного агрегатора (Google News). Система позволяет пользователям создавать постоянные новостные разделы на основе запросов и настраивать правила ранжирования внутри них: выбирать предпочтительные источники, блокировать нежелательные, повышать статьи по ключевым словам или авторам, а также управлять сортировкой по свежести или важности.

Описание

Какую задачу решает

Патент решает проблему ручного обновления информации в новостных агрегаторах. Он устраняет необходимость для пользователей периодически повторно вводить одни и те же поисковые запросы, чтобы следить за развитием интересующих их тем. Система улучшает пользовательский опыт, автоматически предоставляя новостной контент на основе ранее сохраненных критериев поиска и отображения.

Что запатентовано

Запатентована система создания персонализированного новостного документа (например, главной страницы Google News) в рамках сервиса агрегации новостей. Суть изобретения заключается в механизме, позволяющем пользователям определять постоянные новостные разделы (news sections), основанные на конкретных поисковых запросах. Ключевой особенностью является возможность пользователя настраивать свойства ранжирования (ranking properties) для каждого раздела индивидуально, включая предпочтения по источникам, авторам и свежести контента.

Как это работает

Система работает следующим образом:

Агрегация: Сервер агрегирует и индексирует контент из множества новостных источников.
Конфигурация пользователя: Пользователь создает персонализированные разделы, определяя для каждого постоянный поисковый запрос.
Кастомизация ранжирования: Пользователь может явно указать правила ранжирования для раздела: предпочитать или блокировать конкретные источники (news sources) или авторов (journalists), повышать статьи с определенными ключевыми словами или выбирать сортировку (по времени или важности).
Автоматическое обновление: Система периодически выполняет сохраненные запросы, применяет пользовательские правила ранжирования и обновляет контент в соответствующих разделах персонализированного документа.
Оповещения: Система может уведомлять пользователя об обновлениях (механизм News Alerts).

Актуальность для SEO

Средне-высокая. Патент подан в 2003 году (одним из изобретателей является Кришна Бхарат, создатель Google News) и описывает фундаментальные принципы персонализации новостных агрегаторов. Хотя современные системы больше полагаются на неявную персонализацию с помощью машинного обучения (на основе поведения пользователя), механизмы явной настройки, описанные в патенте (подписка на темы, предпочтение или блокировка источников), по-прежнему актуальны и используются в Google News.

Важность для SEO

Влияние на SEO оценивается как значительное (6.5/10), особенно для издателей новостей (News Publishers). Патент не описывает алгоритмы ранжирования веб-поиска, но критически важен для понимания того, как контент потребляется в агрегаторах. Он подчеркивает, что стандартное ранжирование агрегатора может быть переопределено явными предпочтениями пользователя. Это делает лояльность к бренду и становление «предпочтительным источником» ключевой стратегией для издателей, стремящихся к стабильной видимости в персонализированных новостных лентах.

Детальный разбор

Термины и определения

Aggregated news content (Агрегированный новостной контент): Новостной контент, собранный из множества внешних источников (news source servers) и сохраненный в локальной памяти новостного агрегатора.
News aggregation service (Сервис агрегации новостей): Система (например, Google News), которая собирает, индексирует, группирует и предоставляет новостной контент пользователям.
News section (Новостной раздел): Отдельный блок в персонализированном документе. Каждый раздел определяется одним или несколькими постоянными поисковыми запросами и имеет индивидуальные настройки отображения и ранжирования.
Personal news document (Персонализированный новостной документ): Кастомизированный документ (например, веб-страница), содержащий несколько новостных разделов, настроенных в соответствии с предпочтениями пользователя. Разделы могут отображаться одновременно.
Personalized search queries (Персонализированные поисковые запросы): Запросы, сохраненные пользователем и используемые системой для периодического поиска и обновления контента. Могут включать ключевые слова, тематические категории (topical categories) и географические категории (geographical categories).
Preferred/Not preferred news source (Предпочтительный/Непредпочтительный источник новостей): Явная настройка пользователя, указывающая, что контент из определенного источника (например, New York Times) должен повышаться или понижаться (исключаться) в ранжировании внутри раздела.
Ranking properties (Свойства ранжирования): Набор правил, определяемых пользователем для каждого раздела, которые влияют на отбор и сортировку новостей. Включают предпочтения по источникам, авторам, жанрам, ключевым словам и баланс между свежестью (freshness) и важностью (importance).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод создания и наполнения персонализированного новостного документа.

Система сканирует, извлекает и индексирует новостной контент.
Система получает множество поисковых запросов от пользователя.
Создается кастомизированный новостной документ с несколькими персонализированными новостными разделами, отображаемыми одновременно. Каждый раздел определяется отдельным запросом.
Система идентифицирует заданные пользователем параметры для каждого раздела: (а) количество новостных элементов и (б) user-specified manner of ranking (заданный пользователем способ ранжирования).
Контент из индекса отбирается с использованием запросов.
Для конкретного раздела выбирается заданное количество элементов.
Система модифицирует ранжирование выбранных элементов, используя user-specified manner of ranking для этого раздела.
Контент предоставляется для вставки в документ в соответствии с модифицированным ранжированием.

Ядро изобретения — это возможность не просто показывать результаты по сохраненным запросам, но и применять к ним индивидуальные, заданные пользователем правила ранжирования для каждого раздела.

Claim 15 (Независимый пункт): Детализирует процесс независимой обработки разных разделов.

Система разделяет документ на разделы, получает разные запросы (Q1, Q2), идентифицирует разные способы ранжирования (R1, R2) и разное количество элементов (N1, N2), заданные пользователем. Затем она выполняет поиск и ранжирование независимо для каждого раздела. Это подтверждает, что настройки ранжирования применяются гранулярно.

Claims 19-22 (Зависимые от 15): Конкретизируют, что входит в «заданный пользователем способ ранжирования».

Claim 19: Идентификация предпочтений для определенных видов источников новостей (certain kinds of news sources).
Claim 20: Получение ключевых слов от пользователя и повышение (boosting) новостных элементов, содержащих эти ключевые слова.
Claim 21: Идентификация предпочтений для журналистов (preferences for journalists), которые являются авторами новостных элементов.
Claim 22: Идентификация предпочтений для жанров новостей (preferences for genres of news).

Где и как применяется

Изобретение применяется исключительно в рамках News aggregation service (например, Google News) и не относится к основному веб-поиску Google.

CRAWLING и INDEXING – Сканирование, Индексирование и извлечение признаков
Система постоянно сканирует news source servers, извлекает новостной контент, индексирует его и извлекает метаданные (название источника, имя автора/журналиста, время публикации, жанр). Это стандартный процесс сбора данных для новостного агрегатора.

QUNDERSTANDING – Понимание Запросов (в контексте персонализации)
Система принимает, обрабатывает и сохраняет постоянные personalized search queries пользователя, а также связанные с ними ranking properties (предпочтения пользователя). Это формирует профиль интересов пользователя.

RANKING и RERANKING – Ранжирование и Переранжирование (внутри агрегатора)
Это основной этап применения патента. При генерации персонализированного документа:

Система выполняет сохраненные запросы пользователя к новостному индексу (RANKING).
Получает базовый набор релевантных результатов.
Применяет user-specified manner of ranking. Это этап переранжирования (RERANKING), на котором результаты модифицируются на основе явных правил пользователя (повышение/понижение источников, авторов, сортировка по свежести и т.д.).

Входные данные:

Индекс агрегированного новостного контента с метаданными (источник, автор, дата).
Сохраненные поисковые запросы пользователя.
Сохраненные настройки ранжирования пользователя (ranking properties).

Выходные данные:

Personal news document (например, персонализированная страница Google News), где каждый раздел заполнен контентом, отсортированным согласно модифицированному ранжированию.
Опционально: уведомление об обновлении (News Alert).

На что влияет

Конкретные типы контента: Влияет исключительно на новостные статьи, агрегированные из различных источников.
Конкретные ниши или тематики: Применяется ко всем новостным вертикалям (политика, спорт, технологии и т.д.).
Ключевое влияние: Определяет, какие источники (издатели) и каких авторов увидит пользователь по интересующей его теме. Влияние на видимость конкретного издателя может быть радикальным (от полного бустинга до полной блокировки) в зависимости от настроек пользователя.

Когда применяется

Условия применения: Алгоритм применяется только для пользователей, которые настроили персонализированные новостные разделы и/или задали явные предпочтения по ранжированию.
Триггеры активации:
- Когда пользователь загружает свой Personal news document.
- Периодически, когда система автоматически обновляет контент для последующего просмотра или для отправки уведомлений (Alerts).

Пошаговый алгоритм

Процесс А: Конфигурация (Взаимодействие с пользователем)

Определение разделов: Пользователь создает или изменяет news section, связывая его с одним или несколькими personalized search queries.
Настройка отображения: Пользователь определяет количество отображаемых новостей в разделе и визуальные параметры.
Настройка ранжирования (Ranking Properties): Пользователь задает правила модификации ранжирования:
- Выбор баланса свежести/важности (сортировка).
- Указание предпочтительных или непредпочтительных источников (news sources).
- Указание предпочтительных или непредпочтительных авторов (journalists).
- Указание ключевых слов для повышения релевантности (boosting).
- Выбор предпочтительных жанров (например, аналитика vs. срочные новости).
Сохранение профиля: Система сохраняет конфигурацию пользователя.

Процесс Б: Генерация документа (Работа системы)

Сбор и индексация (Фоновый процесс): Непрерывное сканирование, извлечение и индексация новостного контента и метаданных.
Инициация обновления: По запросу пользователя или по расписанию.
Выполнение запросов: Система выполняет сохраненные поисковые запросы для каждого раздела к новостному индексу.
Модификация ранжирования: Для каждого набора результатов применяются сохраненные ranking properties (Процесс А, Шаг 3). Происходит переранжирование: бустинг предпочтительных элементов и понижение/удаление непредпочтительных.
Фильтрация и отбор: Отбирается заданное пользователем количество топовых элементов после модификации ранжирования.
Рендеринг документа: Система формирует Personal news document, наполняя разделы отобранным контентом.
Уведомление (Опционально): Отправка уведомления пользователю об обновлении контента.

Какие данные и как использует

Данные на входе

Система использует следующие данные для персонализации:

Контентные факторы: Текст новостных статей (используется для определения релевантности запросу и для поиска ключевых слов, указанных пользователем для бустинга).
Метаданные контента (Извлекаются при индексации):
- Источник (Source/Publication): Название издания. Критически важно для применения правил Preferred/Not preferred news source.
- Автор (Journalist/Author): Имя автора статьи. Используется для применения предпочтений по авторам.
- Временные факторы (Publication Date/Time): Дата и время публикации. Используются для сортировки по свежести.
- Жанр (Genre): Тип статьи (например, мнение, срочная новость, обзор). Используется для применения предпочтений по жанрам.
Пользовательские факторы (User Profile):
- Сохраненные постоянные поисковые запросы.
- Явные настройки ранжирования (ranking properties), заданные пользователем для каждого раздела.
- Список предпочтительных/непредпочтительных источников, авторов, жанров.
- Ключевые слова, заданные пользователем для бустинга.

Какие метрики используются и как они считаются

Патент не детализирует формулы ранжирования, но описывает используемые метрики и логику их применения:

Базовая релевантность (Importance): Метрика, определяющая важность или релевантность статьи запросу (стандартная метрика новостного агрегатора). Патент не раскрывает ее расчет.
Свежесть (Freshness): Метрика, основанная на времени публикации.
Модификаторы ранжирования (User Preference Scores): Применяются к базовой релевантности на основе явных настроек пользователя.
- Бустинг (Boosting): Повышение оценки, если статья соответствует предпочтениям пользователя (источник, автор, ключевое слово, жанр).
- Пессимизация/Блокировка: Понижение оценки или удаление из набора, если статья соответствует непредпочтительным настройкам.
Финальная сортировка: Пользователь может выбрать сортировку по времени (чистая свежесть), по важности (чистая релевантность с учетом модификаторов) или по их комбинации.

Выводы

Явная персонализация новостной выдачи: Патент описывает детальный механизм, позволяющий пользователям напрямую контролировать, какой контент они видят в новостном агрегаторе. Это система явной (explicit) персонализации, основанная на правилах, а не только на машинном обучении (неявной персонализации).
Переопределение стандартного ранжирования: Ключевой вывод заключается в том, что стандартное ранжирование агрегатора (основанное на его алгоритмах релевантности и качества) не является окончательным. Пользовательские ranking properties могут радикально изменить выдачу внутри персонализированных разделов.
Контроль на уровне источников и авторов: Система предоставляет пользователям возможность повышать или понижать (вплоть до блокировки) контент на уровне конкретных изданий (news sources) и конкретных авторов (journalists).
Многофакторная настройка ранжирования: Персонализация учитывает не только тематику (запросы), но и метаданные: источник, автор, жанр, свежесть, а также наличие специфических ключевых слов, интересующих пользователя.
Стратегическая важность лояльности к бренду: Для SEO-специалистов, работающих с новостными изданиями, это подчеркивает критическую важность формирования лояльности аудитории. Становление «предпочтительным источником» для пользователя обеспечивает видимость независимо от колебаний в стандартных алгоритмах агрегатора.

Практика

Best practices (это мы делаем)

Рекомендации для SEO-специалистов, работающих с новостными изданиями (News Publishers):

Укрепление бренда и лояльности аудитории: Основная стратегия должна быть направлена на то, чтобы пользователи знали ваш бренд и доверяли ему. Необходимо стремиться стать preferred news source. Это дает прямое преимущество в ранжировании в персонализированной выдаче.
Продвижение авторов и экспертов: Поскольку пользователи могут задавать предпочтения для конкретных journalists (Claim 21), необходимо инвестировать в узнаваемость ваших ключевых авторов. Четко указывайте авторство статей и обеспечивайте корректную техническую разметку (например, Schema.org/Author).
Обеспечение точности метаданных: Убедитесь, что техническая реализация сайта корректно передает агрегатору метаданные: название издания, имена авторов (bylines), точное время публикации и жанр статьи. Эти данные являются основой для работы персонализированных фильтров.
Комплексное освещение тем (Topical Coverage): Создавайте качественный контент, который широко освещает ключевые для вашей ниши темы, чтобы соответствовать постоянным запросам пользователей и повышать вероятность выбора вашего издания в качестве предпочтительного источника по этой теме.
Поощрение подписки и фолловинга: Активно призывайте пользователей подписываться на ваш контент или отмечать ваше издание как предпочтительное в настройках новостного агрегатора (например, функция «Follow» или «Favorite» в Google News).

Worst practices (это делать не надо)

Игнорирование брендинга: Работа в качестве недифференцированного новостного сайта без узнаваемого бренда и авторов. Такой контент с большей вероятностью будет проигрывать предпочтительным источникам в персонализированной выдаче.
Публикация контента, раздражающего пользователей: Использование агрессивного кликбейта, вводящих в заблуждение заголовков или низкокачественного контента повышает риск того, что пользователи явно заблокируют ваш источник (not preferred news source).
Непоследовательное указание авторства: Отсутствие или частое изменение имен авторов, использование общих подписей (например, «Редакция») не позволяет использовать предпочтения пользователей по journalists.
Манипуляция временными метками: Попытки искусственно завысить свежесть контента могут привести к потере доверия как со стороны агрегатора, так и со стороны пользователей, которые заметят несоответствие при сортировке по времени.

Стратегическое значение

Патент подтверждает, что потребление новостей в агрегаторах сильно персонализировано. Видимость издателя зависит от двух параллельных факторов: (1) оптимизации под стандартные алгоритмы ранжирования агрегатора (Google News SEO) и (2) формирования прямой лояльности и предпочтений у аудитории. Долгосрочная стратегия должна учитывать оба аспекта. Успешные издатели — это те, кого пользователи активно ищут и выбирают в качестве доверенного источника информации.

Практические примеры

Сценарий: Персонализация раздела «Технологии»

Конфигурация пользователя: Пользователь создает раздел «Технологии» на основе запроса [technology news].
Настройка ранжирования: Пользователь устанавливает следующие ranking properties:
- Предпочтительные источники: «The Verge», «Ars Technica».
- Непредпочтительный источник: «GenericTechSpamSite».
- Предпочтительный автор: «Casey Newton».
- Ключевые слова для бустинга: «AI», «Regulation».
- Сортировка: Комбинация важности и свежести.
Работа системы: Система выполняет запрос [technology news].
Модификация ранжирования:
- Статьи от «The Verge» и «Ars Technica» получают значительное повышение в ранжировании (Claim 19).
- Статьи от «GenericTechSpamSite» удаляются или сильно понижаются в выдаче этого раздела.
- Статьи, написанные «Casey Newton» (независимо от издания), получают дополнительное повышение (Claim 21).
- Статьи, содержащие слова «AI» или «Regulation», получают бустинг (Claim 20).
Результат: Пользователь видит ленту новостей, которая радикально отличается от стандартной выдачи по запросу [technology news], с фокусом на доверенных источниках, авторах и специфических подтемах.

Вопросы и ответы

Влияет ли этот патент на ранжирование в основном веб-поиске Google?

Нет, этот патент описывает механизмы, применяемые исключительно в рамках сервиса агрегации новостей (News aggregation service), такого как Google News. Он не описывает алгоритмы ранжирования основного веб-поиска или даже стандартного (неперсонализированного) ранжирования в Google News. Он фокусируется только на том, как пользовательские настройки влияют на их персональную новостную ленту.

Каков главный вывод из этого патента для владельца новостного сайта?

Главный вывод — критическая важность лояльности к бренду и доверия аудитории. Патент описывает механизмы, позволяющие пользователям явно повышать или блокировать ваш контент в своей ленте. Если пользователи доверяют вашему изданию и выбирают его как предпочтительный источник (preferred news source), вы получаете стабильную видимость, которая может компенсировать недостатки в стандартном алгоритмическом ранжировании.

Могут ли пользователи влиять на ранжирование на основе авторов статей?

Да. Патент (Claim 21) явно указывает на возможность идентификации предпочтений для журналистов (preferences for journalists). Это означает, что пользователи могут настроить свою ленту так, чтобы видеть больше статей от авторов, которым они доверяют. Это подчеркивает важность продвижения узнаваемых авторов для изданий и корректной технической разметки авторства.

Как этот патент связан с концепцией E-E-A-T?

Патент дополняет E-E-A-T с точки зрения пользовательского восприятия. В то время как Google алгоритмически оценивает E-E-A-T для ранжирования, этот патент описывает, как пользовательское восприятие авторитетности и доверия (выраженное через предпочтение бренда или автора) может быть явно применено как фактор ранжирования самим пользователем. Успешная работа над E-E-A-T должна приводить к повышению лояльности аудитории.

Означает ли это, что SEO для Google News бесполезно, если все решает пользователь?

Нет. SEO для Google News по-прежнему важно для достижения высоких позиций в стандартном ранжировании, для попадания в блоки «Top Stories» в веб-поиске и для привлечения новых пользователей. Однако этот патент показывает, что для удержания аудитории и обеспечения стабильной видимости в персонализированных лентах качество контента и лояльность к бренду играют решающую роль.

Какие технические аспекты важны для издателей в контексте этого патента?

Критически важна корректная передача метаданных агрегатору. Система персонализации полагается на точные данные о названии источника, имени автора (byline), времени публикации и жанре статьи. Технические ошибки в передаче этих данных могут помешать пользователям эффективно применять свои предпочтения к вашему контенту.

Описывает ли патент автоматическую персонализацию на основе поведения пользователя (Implicit Personalization)?

Нет. Патент фокусируется исключительно на явной персонализации (Explicit Personalization), где пользователь вручную настраивает правила ранжирования (ranking properties) и создает разделы. Хотя современные системы используют и неявную персонализацию (на основе истории кликов и чтения), этот патент детализирует механизмы ручного контроля.

Что такое «бустинг по ключевым словам», упомянутый в патенте?

Это функция, позволяющая пользователю указать дополнительные ключевые слова, которые его интересуют в контексте определенного раздела (Claim 20). Если система обнаруживает эти слова в статье, которая уже релевантна основному запросу раздела, эта статья получит повышение (boosting) в ранжировании. Это позволяет пользователям уточнять свои интересы внутри широкой темы.

Может ли пользователь выбирать между свежестью и релевантностью?

Да. Патент явно указывает, что пользователь может настроить, как должна оцениваться свежесть контента, например, выбирая сортировку новостей по времени (by time), по важности (by importance) или по некоторой комбинации этих факторов. Это дает пользователю контроль над тем, хочет ли он видеть самые последние новости или самые важные/релевантные.

Какова связь этого патента с Google Alerts?

Патент описывает инфраструктуру, которая делает возможным работу сервисов типа Google Alerts. В описании (и акте 385 на схеме) упоминается, что система может периодически выполнять сохраненные запросы и уведомлять пользователя об обновлениях по электронной почте, пейджеру и т.д. (news alert service), что является сутью работы новостных оповещений.