Как Google персонализирует, локализует и ранжирует новостной контент для Google News и Discover

Google использует систему для персонализации новостного контента, анализируя темы (используя Knowledge Graph), местоположения и даты публикации статей. Система создает динамические профили пользователей на основе истории чтения, применяя механизм «затухания» для устаревших интересов. Ранжирование учитывает релевантность, качество источника, популярность (количество просмотров) и свежесть контента.

Описание

Какую задачу решает

Патент решает проблему предоставления пользователям наиболее релевантного новостного контента путем фильтрации больших объемов данных на основе трех ключевых измерений: персонализации (интересы пользователя и предпочитаемые источники), географии (местоположение контента и пользователя) и времени (свежесть или исторический контекст). Он направлен на улучшение пользовательского опыта в новостных агрегаторах, позволяя находить новости, релевантные конкретному местоположению (через карты), и понимать исторический контекст событий (через временные шкалы).

Что запатентовано

Запатентована система персонализированной, локализованной и чувствительной ко времени доставки новостей. Система включает механизмы для аннотирования новостного контента извлеченными темами, местоположениями и датами. Ключевым компонентом является Profile Engine, который создает и динамически поддерживает профили интересов пользователей, включая механизм «затухания» (Decay Processing) для устаревших интересов. Контент отбирается и ранжируется на основе соответствия профилю пользователя, его местоположению и заданным временным рамкам, при этом популярность (View Count) является явным фактором отбора.

Как это работает

Система работает в три основных этапа:

Индексирование и Аннотирование (Ingestion): Новостной контент сканируется. Topic Analyzer извлекает и взвешивает темы (упоминается использование Google Knowledge Graph), а Geolocator определяет географическую привязку контента.
Профилирование (Profiling): Система отслеживает историю чтения пользователя для создания профиля интересов (темы, местоположения, источники). Оценки интереса увеличиваются при чтении релевантного контента и уменьшаются со временем (Decay Processing).
Рекомендация и Доставка (Recommendation & Delivery): Система отбирает контент, соответствующий профилю пользователя и заданным параметрам. Кандидаты оцениваются с помощью функции ранжирования, учитывающей близость местоположения, тематическую релевантность, качество контента (Content Quality), качество источника (Edition Quality), популярность (Popularity/View Count) и свежесть (Recency). Результаты могут быть представлены через интерфейс карты или временной шкалы.

Актуальность для SEO

Высокая. Механизмы, описанные в патенте, являются фундаментальными для работы современных систем рекомендации контента, таких как Google News и Google Discover. Персонализация на основе интересов, важность авторитетности источников (Edition Quality), учет популярности и локализация остаются центральными элементами стратегии Google по доставке новостного контента в 2025 году.

Важность для SEO

Значительное влияние (7.5/10). Этот патент не описывает алгоритмы основного веб-поиска, но имеет критическое значение для издателей, стремящихся получить видимость в Google News и Google Discover. Он детально описывает механику и факторы ранжирования внутри этих платформ, подчеркивая важность тематической четкости (оптимизация под сущности), построения авторитета источника (Edition Quality), стимулирования вовлеченности пользователей (Popularity) и четких сигналов локализации.

Детальный разбор

Термины и определения

Decay Processing (Процесс затухания): Механизм в Profile Engine, который со временем снижает оценки тем и местоположений в профиле пользователя, если интерес к ним не подкрепляется новыми действиями. Используется для удаления устаревших интересов. Упоминается экспоненциальное затухание (exponential decay).
Edition Quality (Качество издания/источника): Фактор ранжирования, учитывающий авторитетность новостного источника. Контент из изданий, предварительно определенных как «хорошие», оценивается выше.
Geolocator (Геолокатор): Компонент Ingest Module, который анализирует контент (текст, метаданные) для идентификации географических ссылок и аннотирования контента местоположением (geotagging).
Ingest Module (Модуль приема/индексирования): Система, отвечающая за обнаружение, анализ и индексирование новостного контента. Включает Topic Analyzer, Geolocator и Indexer.
Map Engine (Картографический движок): Компонент News Delivery Module, отвечающий за отображение новостей на карте и обработку взаимодействий пользователя с картой.
Profile Engine (Движок профилирования): Система, которая обрабатывает информацию о пользователе для определения и хранения его характеристик и интересов (темы, местоположения, источники).
Recommendation Generator (Генератор рекомендаций): Компонент, определяющий, какой контент наиболее подходит для пользователя. Включает модули для оценки (Selector Module), смешивания (Mixer) и дедупликации (De-Duplicator).
Selector Module (Модуль выбора): Компонент Recommendation Generator, который оценивает (скорит) контент в соответствии с предопределенной функцией ранжирования, включающей множество факторов (см. раздел 4.2).
Timeline Engine (Движок временной шкалы): Компонент News Delivery Module, позволяющий пользователю просматривать новости за определенный период времени через интерфейс временной шкалы.
Topic Analyzer (Анализатор тем): Компонент Ingest Module, который идентифицирует и взвешивает темы (сущности), связанные с контентом. Может использовать внешние базы знаний, такие как Google Knowledge Graph.
View Count / Popularity (Счетчик просмотров / Популярность): Метрика, основанная на количестве просмотров контента. Явно используется как фактор при отборе и ранжировании новостей.

Ключевые утверждения (Анализ Claims)

Патент защищает не только логику персонализации, но и специфические интерактивные элементы пользовательского интерфейса (UI).

Claim 1 (Независимый пункт): Описывает метод отображения новостного контента с использованием карты.

Система аннотирует новостные элементы темами и датами.
Система поддерживает счетчик просмотров (View Count) для каждого элемента.
Система поддерживает профиль пользователя, включающий предпочитаемые источники новостей.
Система получает запрос на тему и временной период.
Идентифицируются новостные элементы, соответствующие теме и периоду. Выбор основывается, в частности, на их счетчике просмотров (View Count).
В интерфейсе отображаются рекомендации и карта с маркерами, указывающими местоположение каждого рекомендованного элемента.
Система получает ввод пользователя, идентифицирующий один из маркеров на карте.
В ответ на этот ввод система удаляет из отображения элементы, не связанные с выбранным маркером.

Ядром изобретения является специфическая модель взаимодействия: отображение персонализированных новостных рекомендаций на карте и возможность фильтрации ленты новостей путем взаимодействия с маркерами на карте. View Count (популярность) явно указан как критерий отбора контента.

Claim 11 и 15 (Независимые пункты): Описывают аналогичный метод, но фокусируются на интерфейсе временной шкалы (Timeline) вместо карты.

Шаги 1-5 аналогичны Claim 1 (аннотирование, счетчики просмотров, профили, запрос темы/времени, выбор на основе View Count).
В интерфейсе отображаются рекомендации и временная шкала с маркерами, указывающими дату каждого рекомендованного элемента.
Система получает ввод пользователя, идентифицирующий один из маркеров на временной шкале.
В ответ система удаляет из отображения элементы, не связанные с выбранным маркером (датой).

Claim 3 (Зависимый): Детализирует процесс аннотирования контента.

Indexer получает элемент. Topic Analyzer определяет темы. Geolocator определяет местоположения. Элемент аннотируется этими данными. Это определяет конвейер приема данных для извлечения ключевых признаков.

Где и как применяется

Патент описывает инфраструктуру и алгоритмы, используемые в системах агрегации и рекомендации новостей, таких как Google News и, вероятно, Google Discover.

CRAWLING – Сканирование и Сбор данных
Indexer (часть Ingest Module) обнаруживает и сканирует новостные источники (News Sources).

INDEXING – Индексирование и извлечение признаков
Основной этап обработки контента. Ingest Module анализирует сырой контент. Topic Analyzer извлекает темы (используя Knowledge Graph). Geolocator извлекает местоположения. Контент аннотируется этими признаками, а также датой публикации, и сохраняется в базе данных статей (Articles Data).

RANKING / RECOMMENDATION – Ранжирование (Рекомендация)
Этот этап отличается от стандартного веб-ранжирования и фокусируется на персонализированной рекомендации.

Профилирование: Profile Engine поддерживает и обновляет профиль пользователя (User Profile Data) на основе его действий и применяет Decay Processing.
Отбор кандидатов: Recommendation Generator запрашивает у Indexer контент, соответствующий профилю пользователя и/или явно заданным параметрам (локация, тема, время).
Ранжирование (Scoring): Selector Module оценивает кандидатов с использованием многофакторной модели (см. раздел 4.2).
Постобработка: Mixer объединяет результаты, а De-Duplicator удаляет похожий контент.

DELIVERY (UI/UX) (Уровень представления)
News Delivery Module отвечает за представление результатов. Map Engine и Timeline Engine предоставляют специализированные интерфейсы для навигации по новостям на основе географии и времени.

На что влияет

Типы контента: В первую очередь влияет на новостной контент (статьи, видео, аудио) от издателей и агрегаторов.
Специфические запросы: Влияет на обработку информационных и локальных интентов внутри новостных платформ (Google News/Discover).
Конкретные ниши: Имеет сильное влияние на локальные новости, а также на темы, где важен географический контекст или история развития событий.

Когда применяется

При индексировании: Алгоритмы анализа тем и геолокации применяются при каждом обнаружении нового новостного контента.
При взаимодействии пользователя: Profile Engine активируется, когда пользователь читает статью, чтобы обновить его профиль интересов.
При запросе рекомендаций: Recommendation Generator активируется, когда пользователь открывает новостное приложение или веб-сайт для генерации персонализированной ленты.
Периодически: Decay Processing применяется периодически для снижения веса устаревших интересов в профилях пользователей.

Пошаговый алгоритм

Процесс А: Индексирование контента (Ingestion)

Сканирование: Indexer обнаруживает новый контент.
Анализ тем: Topic Analyzer обрабатывает контент. Идентифицируются упоминания известных тем (например, через Knowledge Graph). Разрешаются неоднозначности. Рассчитываются веса тем.
Геолокация: Geolocator анализирует текст и метаданные для идентификации географических ссылок.
Аннотирование и Хранение: Контент аннотируется взвешенными темами, местоположениями и датой публикации и сохраняется.
Отслеживание популярности: Система начинает отслеживать View Count для статьи.

Процесс Б: Поддержка профиля пользователя

Триггер: Пользователь читает статью.
Получение данных: Profile Engine получает профиль пользователя и аннотации прочитанной статьи.
Обновление оценок (Boosting): Оценки соответствующих тем и местоположений в профиле пользователя увеличиваются на основе весов из статьи. Обновляются временные метки и счетчики.
Применение затухания (Decay): Периодически применяется функция затухания (например, экспоненциальное затухание) к темам и местоположениям, которые давно не обновлялись.
Очистка (Truncation): Темы и местоположения с низкими оценками удаляются из профиля.

Процесс В: Генерация рекомендаций

Получение входных данных: Система получает профиль пользователя и любые явные ограничения (местоположение, тема, временной период).
Запрос к индексу: Recommendation Generator запрашивает контент, соответствующий входным данным.
Оценка кандидатов (Scoring): Selector Module рассчитывает оценку для каждого кандидата, используя многофакторную функцию (см. раздел 4.2).
Смешивание (Mixing): Mixer объединяет результаты, обеспечивая разнообразие (например, 2 статьи по локации, 2 из предпочитаемых источников, 2 по топовым темам).
Дедупликация: De-Duplicator анализирует набор результатов и удаляет слишком похожие статьи (например, используя косинусное сходство).
Доставка: News Delivery Module предоставляет финальный набор пользователю (через Map Engine или Timeline Engine).

Какие данные и как использует

Данные на входе

Контентные факторы: Полный текст статей, метаданные. Используются Topic Analyzer и Geolocator для извлечения тем и местоположений. Упоминаются также характеристики текста, такие как уровень чтения (reading level).
Технические факторы: Дата публикации или распространения контента. Критично для функций свежести и временной шкалы.
Поведенческие и Пользовательские факторы:
- История чтения пользователя (какие статьи читал).
- Предпочитаемые источники новостей (News Sources).
- Самостоятельно указанные интересы пользователя.
- Счетчики просмотров статей (View Count) от всех пользователей (Популярность).
Мультимедиа факторы: Упоминается разрешение изображений и качество аудио как часть оценки Content Quality.
Географические факторы: Местоположения, упомянутые в тексте. Текущее местоположение пользователя (полученное от устройства, по IP-адресу или указанное вручную).

Какие метрики используются и как они считаются

Патент определяет конкретную многофакторную функцию ранжирования (Scoring Function), используемую Selector Module. Она включает следующие факторы:

Topic Relevance (Тематическая релевантность): Элементы с большим количеством тем, пересекающихся с профилем интересов пользователя, получают более высокие оценки.
Location (Местоположение / Близость): Элементы, географически более близкие к местоположению пользователя или интересующей его локации, получают более высокую оценку.
Content Quality (Качество контента): Оценка технического (например, разрешение изображений) и редакционного качества (например, уровень чтения, соответствующий предпочтениям пользователя).
Edition Quality (Качество издания/источника): Контент из источников, которые ранее были определены как «хорошие» (авторитетные) или предпочитаемые пользователем, оценивается выше.
Popularity (Популярность): Контент, прочитанный большим количеством пользователей (View Count), оценивается выше. View Count явно упоминается в Claims как критерий отбора.
Recency (Свежесть): Более свежий контент получает более высокую оценку (если не запрошен исторический период).

Метрики профиля пользователя:

Topic/Location Scores: Числовые оценки интереса пользователя. Увеличиваются при чтении релевантного контента и уменьшаются с помощью Decay Processing.

Метрики постобработки:

Similarity Score: Метрика схожести (например, косинусное сходство), используемая De-Duplicator для сравнения статей.

Выводы

Мультифакторное ранжирование новостей: Патент четко определяет 6 ключевых групп факторов для ранжирования новостного контента в рекомендательных системах Google (News/Discover): Релевантность, Местоположение, Качество Контента, Качество Источника (Edition Quality), Популярность и Свежесть.
Критичность Популярности (Engagement): Popularity (измеряемая через View Count) является не просто одним из факторов, но и явно включена в Формулу изобретения (Claims 1, 11, 15) как основание для отбора контента. Это подчеркивает важность вовлеченности пользователей для видимости новостей.
Авторитет Источника (Edition Quality): Качество на уровне источника (издания) является отдельным фактором ранжирования. Система предпочитает контент из авторитетных или предпочитаемых пользователем источников.
Динамическое профилирование и «Затухание» интересов: Профили пользователей основаны на реальном поведении (истории чтения) и являются динамическими. Механизм Decay Processing гарантирует, что система адаптируется к меняющимся интересам пользователя, понижая вес устаревших тем.
Важность извлечения сущностей и геолокации: Система полагается на точную работу Topic Analyzer (связь с Knowledge Graph) и Geolocator. Без корректного распознавания тем и местоположений контент не может быть эффективно рекомендован.
Интерактивные интерфейсы как часть системы: Патент защищает способы представления данных через интерактивные карты и временные шкалы, позволяющие пользователю фильтровать контент в реальном времени.

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию для Google News и Google Discover.

Фокус на тематической четкости и сущностях (Entities): Убедитесь, что статьи имеют четкие, недвусмысленные темы, соответствующие сущностям в Knowledge Graph. Это критично для корректной работы Topic Analyzer и сопоставления контента с интересами пользователей.
Построение авторитета источника (Edition Quality): Сосредоточьтесь на создании сильного бренда и становлении авторитетным источником в конкретных нишах (E-E-A-T). Высокое Edition Quality напрямую повышает оценку контента при ранжировании.
Стимулирование вовлеченности (Popularity): Активно работайте над дистрибуцией контента для увеличения числа прочтений и просмотров. Поскольку Popularity (View Count) является прямым фактором ранжирования и отбора, высокий уровень вовлеченности критичен для видимости.
Оптимизация локальных сигналов (для региональных новостей): Для локального контента убедитесь, что географические ссылки (названия городов, районов) четко указаны в тексте и метаданных. Это необходимо для точной работы Geolocator.
Поддержание высокого качества контента (Content Quality): Обеспечивайте высокое техническое (например, разрешение изображений) и редакционное качество (читабельность). Content Quality является одним из шести ключевых факторов ранжирования.
Регулярное освещение ключевых тем: Из-за механизма Decay Processing интересы пользователей со временем «затухают». Необходимо регулярно публиковать качественный контент по теме, чтобы оставаться в активном профиле интересов аудитории.

Worst practices (это делать не надо)

Тематическая размытость или неоднозначность: Публикация контента, который трудно классифицировать тематически или географически. Это затрудняет работу Topic Analyzer и Geolocator, снижая видимость контента.
Низкое качество источника: Работа в качестве низкокачественного источника (low Edition Quality) приведет к пессимизации контента при ранжировании, даже если отдельные статьи релевантны.
Игнорирование технических аспектов качества: Использование изображений низкого разрешения или плохо отформатированного контента негативно скажется на оценке Content Quality.
Манипуляция популярностью: Попытки искусственно завысить счетчики просмотров (View Count) могут привести к санкциям, хотя сам патент и использует этот показатель как фактор ранжирования.

Стратегическое значение

Патент подтверждает, что успех в экосистемах Google News и Discover фундаментально отличается от традиционного SEO для веб-поиска. Он сильно зависит от сигналов персонализации, вовлеченности пользователей и авторитетности источника. Стратегия издателей должна быть направлена на построение лояльной аудитории вокруг конкретных тем и сущностей, чтобы максимально использовать преимущества Profile Engine и бустинга за счет Edition Quality. Патент демонстрирует, что Google применяет к новостному контенту специализированные алгоритмы ранжирования.

Практические примеры

Сценарий 1: Оптимизация статьи для локальных новостей

Издатель в Бостоне хочет получить максимальную видимость статьи о Бостонском марафоне.

Действия: В статье четко упоминаются ключевые сущности: «Бостонский марафон» (событие) и «Бостон» (город). В тексте упоминаются конкретные районы Бостона.
Механизм: Topic Analyzer идентифицирует сущности события и города. Geolocator точно определяет местоположение статьи как Бостон.
Результат: Статья с высокой вероятностью будет рекомендована пользователям, которые (а) находятся в Бостоне (бустинг за Location Proximity), или (б) имеют «Бостон» или «Марафоны» в своем профиле интересов (бустинг за Topic Relevance).

Сценарий 2: Влияние популярности на отбор контента

Два издания публикуют статьи на одну и ту же актуальную тему.

Действия: Статья А получает 10,000 просмотров благодаря активному продвижению в социальных сетях. Статья Б получает 500 просмотров.
Механизм: При отборе контента для рекомендации (согласно Claim 1), система учитывает View Count. Selector Module присваивает Статье А более высокую оценку по фактору Popularity.
Результат: Статья А имеет значительно больше шансов попасть в персонализированные ленты пользователей, интересующихся этой темой, чем Статья Б, при прочих равных условиях (качество, релевантность).

Вопросы и ответы

Какие 6 ключевых факторов ранжирования новостного контента описаны в патенте?

Патент четко выделяет шесть групп факторов, используемых Selector Module для оценки новостного контента: 1) Тематическая релевантность (Topic Relevance), 2) Местоположение (Location Proximity), 3) Качество контента (Content Quality), 4) Качество источника/издания (Edition Quality), 5) Популярность (Popularity/View Count) и 6) Свежесть (Recency). Это модель ранжирования, специфичная для рекомендательных систем типа Google News и Discover.

Насколько важна популярность (View Count) статьи для ее видимости?

Популярность критически важна. Патент указывает, что View Count является одним из основных факторов ранжирования. Более того, она явно включена в Формулу изобретения (Claims 1, 11, 15) как критерий для отбора контента для рекомендации. Это подчеркивает необходимость активной работы над вовлеченностью аудитории и дистрибуцией контента.

Что такое «Edition Quality» и как это влияет на SEO?

Edition Quality — это оценка качества и авторитетности новостного источника (издания) в целом. Патент утверждает, что контент из «хороших» изданий оценивается выше. Для SEO это означает, что построение сильного, авторитетного бренда (E-E-A-T) и формирование лояльной аудитории напрямую влияет на ранжирование всех ваших статей в персонализированных новостных лентах.

Как система определяет темы статьи?

Система использует Topic Analyzer, который ищет упоминания известных тем в тексте. В патенте упоминается использование Google Knowledge Graph для идентификации этих тем (сущностей). Система также рассчитывает вес каждой темы и может добавлять связанные темы, которые прямо не упомянуты. Для SEO это подчеркивает важность четкого использования сущностей (Entities) в контенте.

Что такое «Decay Processing» (Процесс затухания) и как он работает?

Decay Processing — это механизм, который со временем снижает вес интересов пользователя, если они не подкрепляются новыми действиями (чтением статей). Если пользователь перестал читать о какой-то теме, ее оценка в его профиле будет уменьшаться (упоминается экспоненциальное затухание). Это позволяет системе адаптироваться к текущим интересам пользователя.

Как система определяет местоположение статьи?

За это отвечает компонент Geolocator. Он анализирует текст статьи и метаданные для идентификации географических ссылок. Для локальных издателей крайне важно предоставлять четкие и недвусмысленные географические сигналы в контенте, чтобы обеспечить корректное геотаргетирование рекомендаций.

Влияет ли техническое качество контента (например, разрешение фото) на ранжирование?

Да, влияет. Патент включает Content Quality как один из шести факторов ранжирования. В описании упоминается, что изображения с более высоким разрешением или аудио с лучшими характеристиками оцениваются выше. Это указывает на необходимость поддержания высоких технических стандартов публикации.

Использует ли система дедупликацию контента?

Да, система включает компонент De-Duplicator. Он анализирует отобранные для рекомендации статьи и удаляет слишком похожие. Для этого могут использоваться алгоритмы машинного обучения, такие как косинусное сходство (cosine similarity). Это гарантирует разнообразие контента в ленте пользователя.

Как этот патент связан с Google Discover?

Хотя патент был подан до запуска Discover, описанные в нем механизмы идеально соответствуют его функциональности. Google Discover — это высоко персонализированная лента контента, основанная на интересах пользователя и его истории взаимодействия. Системы профилирования, анализа тем (сущностей), учета популярности и качества источников, описанные в патенте, являются основой для работы Discover.

Может ли система поддерживать несколько профилей для одного пользователя?

Да, в патенте упоминается возможность создания нескольких профилей. Например, могут создаваться ежемесячные профили для учета сезонных интересов или отдельные профили для разных категорий (например, долгосрочный интерес к выборам, который иначе мог бы «затухнуть»). Это позволяет системе более точно моделировать сложные интересы пользователя.