Патент Google, описывающий архитектуру Google News. Система агрегирует новости и позволяет пользователям или внешним сайтам создавать кастомизированные новостные ленты на основе запросов и предпочтений (включая источники, авторов и жанры). Также описан механизм динамической генерации связанного контента на основе взаимодействия пользователя с новостями.
Описание
Какую задачу решает
Патент решает проблему ручного поиска актуальной информации в новостных агрегаторах. Он предлагает инфраструктуру для автоматического и периодического предоставления кастомизированного новостного контента. Это позволяет пользователям получать персонализированную ленту, а внешним сайтам (клиентам синдикации) — автоматически обновлять свои новостные разделы на основе заранее заданных критериев и предпочтений.
Что запатентовано
Запатентована система агрегации, кастомизации и доставки новостей. Она позволяет создавать персонализированные новостные документы (custom news documents), используя предопределенные запросы и настройки ранжирования. Контент может хоститься на сервере агрегатора (например, Google News) или синдицироваться на внешний сервер (Custom News Server). Ключевым механизмом является динамическое обновление контента: взаимодействие пользователя с одним разделом инициирует выполнение встроенного запроса (embedded search query) для заполнения другого раздела связанной информацией.
Как это работает
Система функционирует в нескольких режимах:
- Агрегация: News Search Server (агрегатор) собирает, индексирует и группирует новости из множества источников (News Source Servers).
- Кастомизация и Ранжирование: Пользователи или внешние серверы определяют запросы (ключевые слова, темы, география) и настраивают предпочтения ранжирования (свежесть, важность, источники, авторы, жанры).
- Доставка и Синдикация: Агрегатор выполняет запросы и предоставляет результаты для отображения или отправки на внешний сервер.
- Динамическое обновление (Claims): Система генерирует и встраивает поисковый запрос в контент раздела. При взаимодействии пользователя с этим контентом запрос выполняется, и связанный контент динамически загружается в другой раздел.
Актуальность для SEO
Средняя. Патент выдан в 2018 году, но является продолжением заявки от 2003 года, поданной командой основателей Google News (включая Krishna Bharat). Базовые архитектурные принципы агрегации, персонализации и синдикации, описанные в патенте, остаются фундаментом современных новостных сервисов Google. Однако конкретные технические реализации (например, упоминание applet и iframe) и специфический механизм динамического обновления, защищенный в финальных Claims, могут быть устаревшими или узкоспециализированными.
Важность для SEO
Влияние на SEO оценивается как значительное для новостных сайтов (6/10). Патент критически важен для понимания инфраструктуры Google News. Он явно раскрывает факторы, которые Google учитывает при ранжировании новостей в персонализированных лентах: предпочтения источников, авторов, жанров, а также баланс между свежестью (freshness) и важностью (importance). Это дает прямое понимание сигналов качества и релевантности для новостного контента.
Детальный разбор
Термины и определения
- Custom News Server (Сервер кастомизированных новостей)
- Внешний сервер (клиент агрегатора), который получает синдицированный новостной контент от News Search Server на основе предопределенных запросов и хостит его для своих пользователей. Может комбинировать этот контент с локально созданным (например, блогами).
- Custom News Page/Document (Кастомизированная новостная страница/документ)
- Документ, содержащий новостной контент, отобранный и отформатированный на основе предпочтений пользователя или оператора Custom News Server.
- Embedded Search Query (Встроенный поисковый запрос)
- Запрос, встроенный в контент документа (например, в виде applet или iframe). Активируется при взаимодействии пользователя с контентом для динамического поиска связанной информации.
- News Search Server (Сервер поиска новостей)
- Новостной агрегатор (например, Google News). Собирает, индексирует и предоставляет новостной контент.
- News Source Server (Сервер-источник новостей)
- Сервер, на котором размещается оригинальный новостной контент (сайт издателя).
- Query Forms (Формы запросов)
- Типы запросов для кастомизации: ключевые слова, тематические категории (topical categories), географические категории (geographical categories) и их комбинации.
- Ranking Properties (Параметры ранжирования)
- Настройки, которые пользователь может изменять для влияния на сортировку новостей в своем разделе (например, баланс свежести и важности).
Ключевые утверждения (Анализ Claims)
Финальная формула изобретения (Claims) патента US10162802B1 фокусируется на специфическом механизме динамического взаимодействия внутри кастомизированного документа.
Claim 1 (Независимый пункт): Описывает систему генерации персонализированного документа с динамическим обновлением разделов.
- Система определяет тему интереса (topic of interest) пользователя.
- Генерируется кастомный документ с несколькими разделами.
- Определяется контент для первого раздела на основе темы интереса.
- Система генерирует поисковый запрос, основанный на контенте этого первого раздела.
- Этот запрос встраивается (embed) в определенное место внутри контента первого раздела.
- В ответ на выбор (selection) пользователем этого контента, система выполняет поиск связанного контента (related content), используя встроенный запрос.
- Этот связанный контент используется для заполнения второго раздела документа.
- Сформированный документ предоставляется пользователю.
Ядром изобретения является механизм интерактивного обновления: использование контента одного раздела для создания встроенного запроса, который активируется пользователем для динамического заполнения другого раздела связанной информацией в реальном времени.
Зависимые пункты (например, Claim 5, 6): Детализируют возможности кастомизации. Пользователь может настраивать внешний вид и расположение разделов (Claim 5). Также пользователь может модифицировать логику запросов и ранжирования, указывая предпочтительные источники, критерии сортировки (ranking criterion), ключевые слова, авторов или временные периоды (Claim 6).
Где и как применяется
Изобретение описывает архитектуру системы агрегации новостей (Google News) и затрагивает несколько этапов поиска.
CRAWLING – Сканирование и Сбор данных
News Search Server активно сканирует News Source Servers для сбора новостного контента.
INDEXING – Индексирование и извлечение признаков
Собранный контент индексируется и группируется. Происходит категоризация (тематическая, географическая) и извлечение ключевых признаков (источник, автор, жанр, время публикации), необходимых для последующей персонализации и ранжирования.
QUNDERSTANDING – Понимание Запросов
Система интерпретирует кастомизированные запросы от пользователей или Custom News Servers. Также система сама генерирует embedded search queries на основе анализа контента (Claim 1).
RANKING – Ранжирование
При выполнении запросов система применяет алгоритмы ранжирования, модифицированные с учетом пользовательских предпочтений (ranking properties), таких как свежесть (freshness), важность (importance), предпочтительные источники или авторы.
RERANKING / METASEARCH – Переранжирование и Смешивание (Уровень Представления)
Система формирует финальный Custom News Document. На этом этапе также работает механизм из Claim 1: динамическое заполнение разделов связанным контентом после взаимодействия пользователя.
На что влияет
- Конкретные типы контента: Влияет исключительно на новостной контент, агрегируемый системой (Google News).
- Специфические запросы: Влияет на отображение результатов по новостным запросам в рамках персонализированной выдачи.
- Определенные форматы контента: Влияет на различные жанры новостей, упомянутые в описании патента: opinion/commentary (мнение/комментарий), breaking news (срочные новости), briefs (сводки), full coverage (полное освещение).
Когда применяется
- Триггеры активации:
- Когда пользователь обращается к своей кастомизированной ленте новостей.
- Периодически, когда Custom News Server запрашивает обновление синдицированного контента.
- Динамически (Claim 1), когда пользователь взаимодействует с контентом, содержащим embedded search query.
Пошаговый алгоритм
Алгоритм генерации кастомизированного новостного документа с динамическим обновлением (по Claim 1).
- Определение интересов: Система определяет topic of interest пользователя (явно или неявно).
- Генерация структуры: Создается custom document с несколькими разделами (например, Секция 1 и Секция 2).
- Заполнение Секции 1: Система извлекает контент для Секции 1 на основе темы интереса.
- Генерация встроенного запроса: На основе анализа контента в Секции 1 система генерирует embedded search query для поиска связанной информации.
- Встраивание запроса: Запрос встраивается в определенный фрагмент контента в Секции 1.
- Взаимодействие пользователя: Пользователь взаимодействует (выбирает) фрагмент контента со встроенным запросом.
- Выполнение запроса: Система выполняет встроенный запрос для поиска related content.
- Заполнение Секции 2: Полученный контент используется для динамического заполнения Секции 2.
- Предоставление результата: Обновленный документ отображается пользователю.
Какие данные и как использует
Данные на входе
Патент описывает использование широкого спектра данных для персонализации и ранжирования новостей:
- Контентные факторы: Текст и заголовки новостных статей. Используются для индексации, группировки и генерации встроенных запросов.
- Технические факторы: URL документов. В описании упоминается использование URL для поиска группы связанного контента, к которой принадлежит документ.
- Пользовательские факторы (Предпочтения):
- Категории: Темы (topical categories) и география (geographical categories).
- Источники: Предпочтительные или нежелательные источники новостей (certain kind of news source, например, New York Times).
- Авторы: Журналисты, которых пользователь предпочитает или нет (journalists they like or do not like).
- Жанры: Предпочтения по типам контента (genres), например, мнения против срочных новостей.
- Поведенческие факторы:
- Взаимодействие пользователя с контентом как триггер для выполнения встроенных поисковых запросов (Claim 1).
- Коллаборативные данные: В описании упоминается возможность предоставления списка новостей, к которым обращались другие пользователи, читавшие ту же статью (accessed by users who accessed the URL).
Какие метрики используются и как они считаются
- Ранжирование новостей: Система позволяет пользователю настраивать ranking properties. Метрики включают:
- Freshness (Свежесть): Ценность актуальности новостного контента.
- Importance (Важность): Общая значимость новости (детали расчета не приводятся).
- Сортировка: Может осуществляться по времени, важности или их комбинации.
- Группировка и связанность (Clustering): Система индексирует и группирует новостной контент. Для определения связанности используются методы кластеризации на основе контента, а также коллаборативная фильтрация (поведение пользователей).
Выводы
- Раскрытие факторов ранжирования Google News: Патент явно перечисляет факторы, используемые для персонализации и ранжирования новостей. К ним относятся: авторитетность и предпочтения источников (Source Authority), авторитетность и предпочтения журналистов (Journalist Authority), жанр контента (Genre), свежесть (Freshness) и важность (Importance).
- Важность категоризации: Система полагается на тематические (topical) и географические (geographical) категории для наполнения кастомных разделов, что подчеркивает необходимость четкой классификации новостного контента.
- Сложная система персонализации: Google News использует многоуровневую систему настройки, позволяющую пользователям тонко регулировать свою новостную ленту, вплоть до влияния на параметры ранжирования.
- Динамическая генерация связанного контента: Механизм, защищенный в Claims (Embedded Search Query), описывает интерактивный способ предоставления связанной информации, основанный на анализе контента и использовании взаимодействия пользователя как триггера.
- Инфраструктура синдикации: Патент описывает технические основы для синдикации контента Google News на внешние сайты (Custom News Servers).
Практика
Best practices (это мы делаем)
Рекомендации для издателей, стремящихся к высокому ранжированию в Google News и связанных сервисах (например, Discover):
- Усиление авторитетности источника (Source Authority): Необходимо работать над E-E-A-T всего издания. Это повышает вероятность того, что сайт будет признан качественным источником и попадет в список предпочтительных у пользователей.
- Развитие авторитетности авторов (Journalist Authority): Патент прямо указывает на учет предпочтений по журналистам. Необходимо продвигать экспертность авторов, создавать их профили (с биографией и подтверждением экспертизы) и обеспечивать четкую атрибуцию контента (включая микроразметку Author).
- Четкое определение жанра контента: Google различает мнения, срочные новости, аналитику. Используйте явные указания в тексте, заголовках и структурированных данных (например, свойство genre), чтобы помочь системе правильно классифицировать контент.
- Оптимизация под свежесть (Freshness): Своевременная публикация и обновление контента критически важны. Обеспечьте быструю индексацию и передачу данных в Google (например, через XML Sitemaps для новостей).
- Тематическая и географическая релевантность: Обеспечьте четкую структуру сайта и используйте релевантные ключевые слова, чтобы контент четко соответствовал определенным тематическим и географическим категориям, используемым для персонализации.
Worst practices (это делать не надо)
- Игнорирование авторства: Публикация контента без указания автора или под общим псевдонимом ослабляет сигналы Journalist Authority и снижает доверие.
- Смешивание жанров и кликбейт: Попытка выдать мнение за новость или использование заголовков, не соответствующих содержанию, может привести к неправильной классификации и пессимизации, так как система учитывает Genre и Importance.
- Размытая тематика: Отсутствие четкого тематического или географического фокуса затрудняет категоризацию источника и снижает шансы на попадание в персонализированные ленты.
Стратегическое значение
Патент подтверждает, что Google News функционирует как отдельная экосистема со своими уникальными факторами ранжирования, тесно связанными с E-E-A-T. Для новостных издателей стратегически важно не только производить качественный контент, но и правильно его маркировать (жанр, автор, время), а также выстраивать долгосрочный авторитет как самого издания, так и его ключевых журналистов. Понимание механизмов персонализации помогает адаптировать контент-стратегию для достижения целевой аудитории.
Практические примеры
Сценарий: Улучшение ранжирования новостного сайта за счет сигналов авторства
- Анализ патента: Патент указывает, что система учитывает предпочтения пользователей относительно конкретных журналистов (journalists they like or do not like).
- Действие: Новостной сайт внедряет детальные страницы профилей для всех журналистов с подтверждением их экспертизы. В разметке NewsArticle четко указывается автор через свойство author со ссылкой на профиль. Проводится работа по продвижению ключевых авторов.
- Ожидаемый результат: Google лучше распознает авторов и ассоциирует их с конкретными темами. Пользователи, которые положительно взаимодействуют со статьями этих авторов (или явно указывают предпочтение), с большей вероятностью увидят их новый контент в своих персонализированных лентах Google News, что увеличит трафик и авторитетность издания.
Вопросы и ответы
Какие конкретные факторы ранжирования новостей упоминаются в патенте?
Патент явно указывает, что при настройке персонализированной ленты учитываются следующие факторы: Свежесть (Freshness), Важность (Importance), Предпочтения по источникам новостей (например, предпочтение конкретного СМИ), Предпочтения по журналистам (journalists they like or do not like) и Предпочтения по жанрам контента (например, мнения против срочных новостей).
Как этот патент влияет на важность авторства (E-E-A-T) для новостных сайтов?
Влияние критическое. Патент напрямую подтверждает, что система агрегации новостей идентифицирует и учитывает конкретных журналистов. Это означает, что для ранжирования в Google News важна не только репутация издания, но и авторитет отдельных авторов. Новостным сайтам необходимо инвестировать в продвижение своих журналистов и четкую атрибуцию контента.
Что такое «Embedded Search Query» и как это работает?
Это механизм, описанный в Claim 1. Система анализирует новость в одном разделе, автоматически генерирует связанный поисковый запрос и встраивает его в контент. Когда пользователь взаимодействует (кликает) с этим контентом, встроенный запрос выполняется, и результаты (связанный контент) динамически загружаются в другой раздел этой же страницы.
Учитывает ли система географию и тематику при персонализации?
Да, патент явно упоминает использование тематических категорий (topical categories) и географических категорий (geographical categories) в качестве основных форм запросов для настройки кастомизированных новостных разделов. Это подчеркивает важность локального и тематического SEO для новостных издателей.
Какие жанры новостей различает система?
В описании патента упоминаются следующие жанры, которые пользователи могут предпочитать или блокировать: opinion/commentary (мнение/комментарий), breaking news (срочные новости), briefs (сводки) и full coverage (полное освещение). Это важно для правильной классификации контента издателями.
Используются ли поведенческие факторы в описанной системе?
Да, используются как минимум двумя способами. Во-первых, взаимодействие пользователя (выбор контента) является триггером для выполнения встроенного поискового запроса (Claim 1). Во-вторых, в описании упоминается возможность показа новостей на основе коллаборативной фильтрации — того, что читали другие пользователи, интересовавшиеся той же статьей.
Насколько актуальна технология, учитывая, что приоритетная дата патента — 2003 год?
Базовая архитектура Google News (агрегация, группировка, персонализация) остается актуальной. Факторы ранжирования (автор, источник, свежесть) также сохраняют свое значение. Однако конкретные технические реализации (например, applets, iframes) и алгоритмы персонализации с тех пор значительно эволюционировали.
Как система определяет связанность новостей (Related News)?
Патент упоминает несколько методов. Система индексирует и группирует (group) контент, используя кластеризацию. Также связанность может определяться путем генерации запроса на основе текста или URL статьи, или с помощью анализа совместного потребления контента пользователями (co-visitation).
Что такое «Custom News Server»?
Custom News Server — это внешний сайт (например, корпоративный портал или блог), который использует инфраструктуру агрегатора (Google News) для получения синдицированного новостного контента по подписке (периодические запросы) и отображает его своим пользователям, часто смешивая с собственным контентом.
Что дает этот патент для SEO-специалиста, работающего со стандартным веб-поиском, а не с новостным сайтом?
Для стандартного веб-поиска практическая ценность патента низкая. Он описывает факторы, специфичные для экосистемы Google News. Однако он подтверждает общие принципы Google по оценке авторитетности источников и авторов (E-E-A-T), которые также применяются и в основном поиске, подчеркивая важность этих сигналов.