Google использует систему для персонализации новостного контента, анализируя темы (используя Knowledge Graph), местоположения и даты публикации статей. Система создает динамические профили пользователей на основе истории чтения, применяя механизм «затухания» для устаревших интересов. Ранжирование учитывает релевантность, качество источника, популярность (количество просмотров) и свежесть контента.
Описание
Какую задачу решает
Патент решает проблему предоставления пользователям наиболее релевантного новостного контента путем фильтрации больших объемов данных на основе трех ключевых измерений: персонализации (интересы пользователя и предпочитаемые источники), географии (местоположение контента и пользователя) и времени (свежесть или исторический контекст). Он направлен на улучшение пользовательского опыта в новостных агрегаторах, позволяя находить новости, релевантные конкретному местоположению (через карты), и понимать исторический контекст событий (через временные шкалы).
Что запатентовано
Запатентована система персонализированной, локализованной и чувствительной ко времени доставки новостей. Система включает механизмы для аннотирования новостного контента извлеченными темами, местоположениями и датами. Ключевым компонентом является Profile Engine, который создает и динамически поддерживает профили интересов пользователей, включая механизм «затухания» (Decay Processing) для устаревших интересов. Контент отбирается и ранжируется на основе соответствия профилю пользователя, его местоположению и заданным временным рамкам, при этом популярность (View Count) является явным фактором отбора.
Как это работает
Система работает в три основных этапа:
- Индексирование и Аннотирование (Ingestion): Новостной контент сканируется. Topic Analyzer извлекает и взвешивает темы (упоминается использование Google Knowledge Graph), а Geolocator определяет географическую привязку контента.
- Профилирование (Profiling): Система отслеживает историю чтения пользователя для создания профиля интересов (темы, местоположения, источники). Оценки интереса увеличиваются при чтении релевантного контента и уменьшаются со временем (Decay Processing).
- Рекомендация и Доставка (Recommendation & Delivery): Система отбирает контент, соответствующий профилю пользователя и заданным параметрам. Кандидаты оцениваются с помощью функции ранжирования, учитывающей близость местоположения, тематическую релевантность, качество контента (Content Quality), качество источника (Edition Quality), популярность (Popularity/View Count) и свежесть (Recency). Результаты могут быть представлены через интерфейс карты или временной шкалы.
Актуальность для SEO
Высокая. Механизмы, описанные в патенте, являются фундаментальными для работы современных систем рекомендации контента, таких как Google News и Google Discover. Персонализация на основе интересов, важность авторитетности источников (Edition Quality), учет популярности и локализация остаются центральными элементами стратегии Google по доставке новостного контента в 2025 году.
Важность для SEO
Значительное влияние (7.5/10). Этот патент не описывает алгоритмы основного веб-поиска, но имеет критическое значение для издателей, стремящихся получить видимость в Google News и Google Discover. Он детально описывает механику и факторы ранжирования внутри этих платформ, подчеркивая важность тематической четкости (оптимизация под сущности), построения авторитета источника (Edition Quality), стимулирования вовлеченности пользователей (Popularity) и четких сигналов локализации.
Детальный разбор
Термины и определения
- Decay Processing (Процесс затухания)
- Механизм в Profile Engine, который со временем снижает оценки тем и местоположений в профиле пользователя, если интерес к ним не подкрепляется новыми действиями. Используется для удаления устаревших интересов. Упоминается экспоненциальное затухание (exponential decay).
- Edition Quality (Качество издания/источника)
- Фактор ранжирования, учитывающий авторитетность новостного источника. Контент из изданий, предварительно определенных как «хорошие», оценивается выше.
- Geolocator (Геолокатор)
- Компонент Ingest Module, который анализирует контент (текст, метаданные) для идентификации географических ссылок и аннотирования контента местоположением (geotagging).
- Ingest Module (Модуль приема/индексирования)
- Система, отвечающая за обнаружение, анализ и индексирование новостного контента. Включает Topic Analyzer, Geolocator и Indexer.
- Map Engine (Картографический движок)
- Компонент News Delivery Module, отвечающий за отображение новостей на карте и обработку взаимодействий пользователя с картой.
- Profile Engine (Движок профилирования)
- Система, которая обрабатывает информацию о пользователе для определения и хранения его характеристик и интересов (темы, местоположения, источники).
- Recommendation Generator (Генератор рекомендаций)
- Компонент, определяющий, какой контент наиболее подходит для пользователя. Включает модули для оценки (Selector Module), смешивания (Mixer) и дедупликации (De-Duplicator).
- Selector Module (Модуль выбора)
- Компонент Recommendation Generator, который оценивает (скорит) контент в соответствии с предопределенной функцией ранжирования, включающей множество факторов (см. раздел 4.2).
- Timeline Engine (Движок временной шкалы)
- Компонент News Delivery Module, позволяющий пользователю просматривать новости за определенный период времени через интерфейс временной шкалы.
- Topic Analyzer (Анализатор тем)
- Компонент Ingest Module, который идентифицирует и взвешивает темы (сущности), связанные с контентом. Может использовать внешние базы знаний, такие как Google Knowledge Graph.
- View Count / Popularity (Счетчик просмотров / Популярность)
- Метрика, основанная на количестве просмотров контента. Явно используется как фактор при отборе и ранжировании новостей.
Ключевые утверждения (Анализ Claims)
Патент защищает не только логику персонализации, но и специфические интерактивные элементы пользовательского интерфейса (UI).
Claim 1 (Независимый пункт): Описывает метод отображения новостного контента с использованием карты.
- Система аннотирует новостные элементы темами и датами.
- Система поддерживает счетчик просмотров (View Count) для каждого элемента.
- Система поддерживает профиль пользователя, включающий предпочитаемые источники новостей.
- Система получает запрос на тему и временной период.
- Идентифицируются новостные элементы, соответствующие теме и периоду. Выбор основывается, в частности, на их счетчике просмотров (View Count).
- В интерфейсе отображаются рекомендации и карта с маркерами, указывающими местоположение каждого рекомендованного элемента.
- Система получает ввод пользователя, идентифицирующий один из маркеров на карте.
- В ответ на этот ввод система удаляет из отображения элементы, не связанные с выбранным маркером.
Ядром изобретения является специфическая модель взаимодействия: отображение персонализированных новостных рекомендаций на карте и возможность фильтрации ленты новостей путем взаимодействия с маркерами на карте. View Count (популярность) явно указан как критерий отбора контента.
Claim 11 и 15 (Независимые пункты): Описывают аналогичный метод, но фокусируются на интерфейсе временной шкалы (Timeline) вместо карты.
- Шаги 1-5 аналогичны Claim 1 (аннотирование, счетчики просмотров, профили, запрос темы/времени, выбор на основе View Count).
- В интерфейсе отображаются рекомендации и временная шкала с маркерами, указывающими дату каждого рекомендованного элемента.
- Система получает ввод пользователя, идентифицирующий один из маркеров на временной шкале.
- В ответ система удаляет из отображения элементы, не связанные с выбранным маркером (датой).
Claim 3 (Зависимый): Детализирует процесс аннотирования контента.
Indexer получает элемент. Topic Analyzer определяет темы. Geolocator определяет местоположения. Элемент аннотируется этими данными. Это определяет конвейер приема данных для извлечения ключевых признаков.
Где и как применяется
Патент описывает инфраструктуру и алгоритмы, используемые в системах агрегации и рекомендации новостей, таких как Google News и, вероятно, Google Discover.
CRAWLING – Сканирование и Сбор данных
Indexer (часть Ingest Module) обнаруживает и сканирует новостные источники (News Sources).
INDEXING – Индексирование и извлечение признаков
Основной этап обработки контента. Ingest Module анализирует сырой контент. Topic Analyzer извлекает темы (используя Knowledge Graph). Geolocator извлекает местоположения. Контент аннотируется этими признаками, а также датой публикации, и сохраняется в базе данных статей (Articles Data).
RANKING / RECOMMENDATION – Ранжирование (Рекомендация)
Этот этап отличается от стандартного веб-ранжирования и фокусируется на персонализированной рекомендации.
- Профилирование: Profile Engine поддерживает и обновляет профиль пользователя (User Profile Data) на основе его действий и применяет Decay Processing.
- Отбор кандидатов: Recommendation Generator запрашивает у Indexer контент, соответствующий профилю пользователя и/или явно заданным параметрам (локация, тема, время).
- Ранжирование (Scoring): Selector Module оценивает кандидатов с использованием многофакторной модели (см. раздел 4.2).
- Постобработка: Mixer объединяет результаты, а De-Duplicator удаляет похожий контент.
DELIVERY (UI/UX) (Уровень представления)
News Delivery Module отвечает за представление результатов. Map Engine и Timeline Engine предоставляют специализированные интерфейсы для навигации по новостям на основе географии и времени.
На что влияет
- Типы контента: В первую очередь влияет на новостной контент (статьи, видео, аудио) от издателей и агрегаторов.
- Специфические запросы: Влияет на обработку информационных и локальных интентов внутри новостных платформ (Google News/Discover).
- Конкретные ниши: Имеет сильное влияние на локальные новости, а также на темы, где важен географический контекст или история развития событий.
Когда применяется
- При индексировании: Алгоритмы анализа тем и геолокации применяются при каждом обнаружении нового новостного контента.
- При взаимодействии пользователя: Profile Engine активируется, когда пользователь читает статью, чтобы обновить его профиль интересов.
- При запросе рекомендаций: Recommendation Generator активируется, когда пользователь открывает новостное приложение или веб-сайт для генерации персонализированной ленты.
- Периодически: Decay Processing применяется периодически для снижения веса устаревших интересов в профилях пользователей.
Пошаговый алгоритм
Процесс А: Индексирование контента (Ingestion)
- Сканирование: Indexer обнаруживает новый контент.
- Анализ тем: Topic Analyzer обрабатывает контент. Идентифицируются упоминания известных тем (например, через Knowledge Graph). Разрешаются неоднозначности. Рассчитываются веса тем.
- Геолокация: Geolocator анализирует текст и метаданные для идентификации географических ссылок.
- Аннотирование и Хранение: Контент аннотируется взвешенными темами, местоположениями и датой публикации и сохраняется.
- Отслеживание популярности: Система начинает отслеживать View Count для статьи.
Процесс Б: Поддержка профиля пользователя
- Триггер: Пользователь читает статью.
- Получение данных: Profile Engine получает профиль пользователя и аннотации прочитанной статьи.
- Обновление оценок (Boosting): Оценки соответствующих тем и местоположений в профиле пользователя увеличиваются на основе весов из статьи. Обновляются временные метки и счетчики.
- Применение затухания (Decay): Периодически применяется функция затухания (например, экспоненциальное затухание) к темам и местоположениям, которые давно не обновлялись.
- Очистка (Truncation): Темы и местоположения с низкими оценками удаляются из профиля.
Процесс В: Генерация рекомендаций
- Получение входных данных: Система получает профиль пользователя и любые явные ограничения (местоположение, тема, временной период).
- Запрос к индексу: Recommendation Generator запрашивает контент, соответствующий входным данным.
- Оценка кандидатов (Scoring): Selector Module рассчитывает оценку для каждого кандидата, используя многофакторную функцию (см. раздел 4.2).
- Смешивание (Mixing): Mixer объединяет результаты, обеспечивая разнообразие (например, 2 статьи по локации, 2 из предпочитаемых источников, 2 по топовым темам).
- Дедупликация: De-Duplicator анализирует набор результатов и удаляет слишком похожие статьи (например, используя косинусное сходство).
- Доставка: News Delivery Module предоставляет финальный набор пользователю (через Map Engine или Timeline Engine).
Какие данные и как использует
Данные на входе
- Контентные факторы: Полный текст статей, метаданные. Используются Topic Analyzer и Geolocator для извлечения тем и местоположений. Упоминаются также характеристики текста, такие как уровень чтения (reading level).
- Технические факторы: Дата публикации или распространения контента. Критично для функций свежести и временной шкалы.
- Поведенческие и Пользовательские факторы:
- История чтения пользователя (какие статьи читал).
- Предпочитаемые источники новостей (News Sources).
- Самостоятельно указанные интересы пользователя.
- Счетчики просмотров статей (View Count) от всех пользователей (Популярность).
- Мультимедиа факторы: Упоминается разрешение изображений и качество аудио как часть оценки Content Quality.
- Географические факторы: Местоположения, упомянутые в тексте. Текущее местоположение пользователя (полученное от устройства, по IP-адресу или указанное вручную).
Какие метрики используются и как они считаются
Патент определяет конкретную многофакторную функцию ранжирования (Scoring Function), используемую Selector Module. Она включает следующие факторы:
- Topic Relevance (Тематическая релевантность): Элементы с большим количеством тем, пересекающихся с профилем интересов пользователя, получают более высокие оценки.
- Location (Местоположение / Близость): Элементы, географически более близкие к местоположению пользователя или интересующей его локации, получают более высокую оценку.
- Content Quality (Качество контента): Оценка технического (например, разрешение изображений) и редакционного качества (например, уровень чтения, соответствующий предпочтениям пользователя).
- Edition Quality (Качество издания/источника): Контент из источников, которые ранее были определены как «хорошие» (авторитетные) или предпочитаемые пользователем, оценивается выше.
- Popularity (Популярность): Контент, прочитанный большим количеством пользователей (View Count), оценивается выше. View Count явно упоминается в Claims как критерий отбора.
- Recency (Свежесть): Более свежий контент получает более высокую оценку (если не запрошен исторический период).
Метрики профиля пользователя:
- Topic/Location Scores: Числовые оценки интереса пользователя. Увеличиваются при чтении релевантного контента и уменьшаются с помощью Decay Processing.
Метрики постобработки:
- Similarity Score: Метрика схожести (например, косинусное сходство), используемая De-Duplicator для сравнения статей.
Выводы
- Мультифакторное ранжирование новостей: Патент четко определяет 6 ключевых групп факторов для ранжирования новостного контента в рекомендательных системах Google (News/Discover): Релевантность, Местоположение, Качество Контента, Качество Источника (Edition Quality), Популярность и Свежесть.
- Критичность Популярности (Engagement): Popularity (измеряемая через View Count) является не просто одним из факторов, но и явно включена в Формулу изобретения (Claims 1, 11, 15) как основание для отбора контента. Это подчеркивает важность вовлеченности пользователей для видимости новостей.
- Авторитет Источника (Edition Quality): Качество на уровне источника (издания) является отдельным фактором ранжирования. Система предпочитает контент из авторитетных или предпочитаемых пользователем источников.
- Динамическое профилирование и «Затухание» интересов: Профили пользователей основаны на реальном поведении (истории чтения) и являются динамическими. Механизм Decay Processing гарантирует, что система адаптируется к меняющимся интересам пользователя, понижая вес устаревших тем.
- Важность извлечения сущностей и геолокации: Система полагается на точную работу Topic Analyzer (связь с Knowledge Graph) и Geolocator. Без корректного распознавания тем и местоположений контент не может быть эффективно рекомендован.
- Интерактивные интерфейсы как часть системы: Патент защищает способы представления данных через интерактивные карты и временные шкалы, позволяющие пользователю фильтровать контент в реальном времени.
Практика
Best practices (это мы делаем)
Рекомендации направлены на оптимизацию для Google News и Google Discover.
- Фокус на тематической четкости и сущностях (Entities): Убедитесь, что статьи имеют четкие, недвусмысленные темы, соответствующие сущностям в Knowledge Graph. Это критично для корректной работы Topic Analyzer и сопоставления контента с интересами пользователей.
- Построение авторитета источника (Edition Quality): Сосредоточьтесь на создании сильного бренда и становлении авторитетным источником в конкретных нишах (E-E-A-T). Высокое Edition Quality напрямую повышает оценку контента при ранжировании.
- Стимулирование вовлеченности (Popularity): Активно работайте над дистрибуцией контента для увеличения числа прочтений и просмотров. Поскольку Popularity (View Count) является прямым фактором ранжирования и отбора, высокий уровень вовлеченности критичен для видимости.
- Оптимизация локальных сигналов (для региональных новостей): Для локального контента убедитесь, что географические ссылки (названия городов, районов) четко указаны в тексте и метаданных. Это необходимо для точной работы Geolocator.
- Поддержание высокого качества контента (Content Quality): Обеспечивайте высокое техническое (например, разрешение изображений) и редакционное качество (читабельность). Content Quality является одним из шести ключевых факторов ранжирования.
- Регулярное освещение ключевых тем: Из-за механизма Decay Processing интересы пользователей со временем «затухают». Необходимо регулярно публиковать качественный контент по теме, чтобы оставаться в активном профиле интересов аудитории.
Worst practices (это делать не надо)
- Тематическая размытость или неоднозначность: Публикация контента, который трудно классифицировать тематически или географически. Это затрудняет работу Topic Analyzer и Geolocator, снижая видимость контента.
- Низкое качество источника: Работа в качестве низкокачественного источника (low Edition Quality) приведет к пессимизации контента при ранжировании, даже если отдельные статьи релевантны.
- Игнорирование технических аспектов качества: Использование изображений низкого разрешения или плохо отформатированного контента негативно скажется на оценке Content Quality.
- Манипуляция популярностью: Попытки искусственно завысить счетчики просмотров (View Count) могут привести к санкциям, хотя сам патент и использует этот показатель как фактор ранжирования.
Стратегическое значение
Патент подтверждает, что успех в экосистемах Google News и Discover фундаментально отличается от традиционного SEO для веб-поиска. Он сильно зависит от сигналов персонализации, вовлеченности пользователей и авторитетности источника. Стратегия издателей должна быть направлена на построение лояльной аудитории вокруг конкретных тем и сущностей, чтобы максимально использовать преимущества Profile Engine и бустинга за счет Edition Quality. Патент демонстрирует, что Google применяет к новостному контенту специализированные алгоритмы ранжирования.
Практические примеры
Сценарий 1: Оптимизация статьи для локальных новостей
Издатель в Бостоне хочет получить максимальную видимость статьи о Бостонском марафоне.
- Действия: В статье четко упоминаются ключевые сущности: «Бостонский марафон» (событие) и «Бостон» (город). В тексте упоминаются конкретные районы Бостона.
- Механизм: Topic Analyzer идентифицирует сущности события и города. Geolocator точно определяет местоположение статьи как Бостон.
- Результат: Статья с высокой вероятностью будет рекомендована пользователям, которые (а) находятся в Бостоне (бустинг за Location Proximity), или (б) имеют «Бостон» или «Марафоны» в своем профиле интересов (бустинг за Topic Relevance).
Сценарий 2: Влияние популярности на отбор контента
Два издания публикуют статьи на одну и ту же актуальную тему.
- Действия: Статья А получает 10,000 просмотров благодаря активному продвижению в социальных сетях. Статья Б получает 500 просмотров.
- Механизм: При отборе контента для рекомендации (согласно Claim 1), система учитывает View Count. Selector Module присваивает Статье А более высокую оценку по фактору Popularity.
- Результат: Статья А имеет значительно больше шансов попасть в персонализированные ленты пользователей, интересующихся этой темой, чем Статья Б, при прочих равных условиях (качество, релевантность).
Вопросы и ответы
Какие 6 ключевых факторов ранжирования новостного контента описаны в патенте?
Патент четко выделяет шесть групп факторов, используемых Selector Module для оценки новостного контента: 1) Тематическая релевантность (Topic Relevance), 2) Местоположение (Location Proximity), 3) Качество контента (Content Quality), 4) Качество источника/издания (Edition Quality), 5) Популярность (Popularity/View Count) и 6) Свежесть (Recency). Это модель ранжирования, специфичная для рекомендательных систем типа Google News и Discover.
Насколько важна популярность (View Count) статьи для ее видимости?
Популярность критически важна. Патент указывает, что View Count является одним из основных факторов ранжирования. Более того, она явно включена в Формулу изобретения (Claims 1, 11, 15) как критерий для отбора контента для рекомендации. Это подчеркивает необходимость активной работы над вовлеченностью аудитории и дистрибуцией контента.
Что такое «Edition Quality» и как это влияет на SEO?
Edition Quality — это оценка качества и авторитетности новостного источника (издания) в целом. Патент утверждает, что контент из «хороших» изданий оценивается выше. Для SEO это означает, что построение сильного, авторитетного бренда (E-E-A-T) и формирование лояльной аудитории напрямую влияет на ранжирование всех ваших статей в персонализированных новостных лентах.
Как система определяет темы статьи?
Система использует Topic Analyzer, который ищет упоминания известных тем в тексте. В патенте упоминается использование Google Knowledge Graph для идентификации этих тем (сущностей). Система также рассчитывает вес каждой темы и может добавлять связанные темы, которые прямо не упомянуты. Для SEO это подчеркивает важность четкого использования сущностей (Entities) в контенте.
Что такое «Decay Processing» (Процесс затухания) и как он работает?
Decay Processing — это механизм, который со временем снижает вес интересов пользователя, если они не подкрепляются новыми действиями (чтением статей). Если пользователь перестал читать о какой-то теме, ее оценка в его профиле будет уменьшаться (упоминается экспоненциальное затухание). Это позволяет системе адаптироваться к текущим интересам пользователя.
Как система определяет местоположение статьи?
За это отвечает компонент Geolocator. Он анализирует текст статьи и метаданные для идентификации географических ссылок. Для локальных издателей крайне важно предоставлять четкие и недвусмысленные географические сигналы в контенте, чтобы обеспечить корректное геотаргетирование рекомендаций.
Влияет ли техническое качество контента (например, разрешение фото) на ранжирование?
Да, влияет. Патент включает Content Quality как один из шести факторов ранжирования. В описании упоминается, что изображения с более высоким разрешением или аудио с лучшими характеристиками оцениваются выше. Это указывает на необходимость поддержания высоких технических стандартов публикации.
Использует ли система дедупликацию контента?
Да, система включает компонент De-Duplicator. Он анализирует отобранные для рекомендации статьи и удаляет слишком похожие. Для этого могут использоваться алгоритмы машинного обучения, такие как косинусное сходство (cosine similarity). Это гарантирует разнообразие контента в ленте пользователя.
Как этот патент связан с Google Discover?
Хотя патент был подан до запуска Discover, описанные в нем механизмы идеально соответствуют его функциональности. Google Discover — это высоко персонализированная лента контента, основанная на интересах пользователя и его истории взаимодействия. Системы профилирования, анализа тем (сущностей), учета популярности и качества источников, описанные в патенте, являются основой для работы Discover.
Может ли система поддерживать несколько профилей для одного пользователя?
Да, в патенте упоминается возможность создания нескольких профилей. Например, могут создаваться ежемесячные профили для учета сезонных интересов или отдельные профили для разных категорий (например, долгосрочный интерес к выборам, который иначе мог бы «затухнуть»). Это позволяет системе более точно моделировать сложные интересы пользователя.