Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий

Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.

Описание

Какую задачу решает

Патент решает проблему определения истинной релевантности новостных документов конкретным объектам (сущностям, событиям, темам). Существующие поисковые системы часто возвращают результаты, которые лишь вскользь упоминают объект, но не посвящены ему. Например, статья о несчастном случае с участием человека, больного раком, может быть показана по запросу «рак», хотя основная тема статьи — несчастный случай, а не болезнь. Изобретение направлено на фильтрацию таких нерелевантных или второстепенных упоминаний для предоставления пользователю точной сводки новостей об интересующем его объекте.

Что запатентовано

Запатентована система и метод для измерения релевантности между кластерами новостных статей (News Collections) и объектами (Objects), которые в них упоминаются. Система использует многофакторную модель оценки релевантности, которая учитывает общую важность новостного кластера, уровень внешнего интереса к объекту и значимость объекта внутри этого кластера. Цель — идентифицировать новостные коллекции, которые действительно посвящены объекту, и использовать их для генерации хронологических сводок (Chronological Summary).

Как это работает

Система агрегирует новости и группирует их в коллекции по темам. Затем для каждой коллекции и упомянутых в ней объектов рассчитывается оценка релевантности, основанная на трех ключевых компонентах:

Общая релевантность коллекции: Оценивается важность самой новости на основе количества источников, освещающих тему, и интереса пользователей к коллекции.
Уровень интереса к объекту: Оценивается внешний интерес к объекту в заданный промежуток времени на основе количества поисковых запросов об объекте, трендов в социальных сетях и упоминаний в других новостных коллекциях.
Значимость объекта в коллекции: Оценивается, насколько центральную роль играет объект в статьях коллекции. Учитывается частота упоминаний в заголовках, центральность в тексте (упоминания в начале, повторяемость) и уместность событий (Pertinence of Events), связанных с объектом.

На основе итоговой оценки релевантности система выбирает наиболее подходящие коллекции для генерации новостной сводки по запросу об объекте.

Актуальность для SEO

Высокая. Понимание сущностей (Entity Understanding) и генерация точных сводок по событиям (например, в Новостях Google или в Хронологиях в Knowledge Panels) являются ключевыми направлениями развития поиска. Описанные механизмы, особенно фильтрация по уместности событий и учет внешних сигналов интереса, критически важны для борьбы с кликбейтом и предоставления качественной информации о сущностях.

Важность для SEO

Патент имеет высокое значение (8/10), особенно для новостных сайтов (News SEO) и стратегий, ориентированных на сущности (Entity SEO). Он раскрывает конкретные механизмы, которые Google может использовать для определения того, является ли статья релевантной для определенной сущности или события. Понимание критериев «Значимости» (Significance) и «Уместности событий» (Pertinence of Events) позволяет оптимизировать контент так, чтобы он был правильно классифицирован как центральный для объекта, что критично для попадания в агрегаторы новостей и блоки, связанные с сущностями.

Детальный разбор

Термины и определения

News Collections (Новостные коллекции): Кластеры или группы новостных документов, агрегированных из одного или нескольких источников и объединенных общим контентом или темой.
Object (Объект): Сущность, событие, тема, ключевое слово, человек или место, упоминаемое в новостной коллекции. Является предметом анализа релевантности.
Relevance (Релевантность): Мера того, насколько новостная коллекция связана с конкретным объектом. В патенте это агрегированная оценка, состоящая из трех компонентов: Overall Relevance, Level of Interest и Significance.
Overall Relevance of Collection (Общая релевантность коллекции): Компонент релевантности, оценивающий важность самой новостной коллекции. Основан на количестве различных источников в коллекции и уровне интереса пользователей к ней.
Level of Interest in Object (Уровень интереса к объекту): Компонент релевантности, оценивающий внешний интерес к объекту в определенный период времени. Основан на поисковых запросах, трендах в социальных сетях и упоминаниях в других коллекциях.
Significance of Object in News Collection (Значимость объекта в новостной коллекции): Компонент релевантности, оценивающий, насколько центральную роль играет объект в данной коллекции. Основан на частоте в заголовках, центральности в тексте и уместности событий.
Centrality (Центральность): Мера того, насколько объект является фокусом документа. Определяется по месту упоминания объекта в тексте (абстракт, первые параграфы) и повторяемости.
Pertinence of Events (Уместность событий): Оценка того, являются ли события, описанные в коллекции и связанные с объектом, важными для типа этого объекта. Использует предопределенные списки важных событий для разных типов объектов.
Object-type (Тип объекта): Классификация объекта (например, «Знаменитость», «Медицинское состояние», «Спортивное событие»). Используется для определения уместности событий.
Chronological Summary (Хронологическая сводка): Сгенерированный системой отчет о новостях, связанных с объектом, упорядоченный по времени.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения релевантности новостной коллекции к объекту.

Система агрегирует новостные документы и группирует их в News Collections.
Определяются Objects (объекты), описанные в этих коллекциях.
Измеряется релевантность каждой коллекции к каждому объекту. Измерение релевантности ОБЯЗАТЕЛЬНО включает расчет трех компонентов:
- Overall Relevance: основана на определении количества новостных источников в коллекции, сообщающих на связанную тему.
- Level of Interest: основан на определении количества других коллекций, упоминающих объект, И количества поисковых запросов об объекте за период.
- Significance: основана на определении частоты объекта в заголовках, центральности объекта в тексте (где именно в теле документа упоминается объект) И уместности событий (Pertinence of Events), связанных с объектом.
На основе рассчитанной Релевантности (агрегации трех компонентов) система определяет, какие коллекции ассоциируются с конкретным объектом.

Claim 3 (Зависимый от 1): Детализирует механизм оценки уместности событий (Pertinence of Events).

Система обрабатывает коллекции для поиска событий, в которых участвуют объекты. Измерение релевантности включает определение того, являются ли эти события уместными (pertinent) на основе типа объекта (Object-type).

Claim 4 (Зависимый от 3): Дополнительно детализирует механизм оценки уместности.

Определяется тип объекта (Object-type).
Определяется предопределенный список уместных событий для этого типа.
Система проверяет, входит ли событие, описанное в коллекции, в этот предопределенный список для данного типа объекта.

Claim 7 (Зависимый от 1): Расширяет факторы для расчета компонентов релевантности.

Расчет Overall Relevance также включает определение уровня пользовательского интереса к коллекции.
Расчет Level of Interest также включает определение трендов для объекта в социальных сетях.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, преимущественно в контексте обработки новостного контента и информации о сущностях.

CRAWLING – Сканирование и Сбор данных
На этом этапе происходит агрегация новостных документов из различных источников (publishing engines).

INDEXING – Индексирование и извлечение признаков
Основная часть предварительной обработки:

Группировка: Документы кластеризуются в News Collections на основе схожести контента.
Извлечение объектов: Идентификация сущностей, тем и событий (Objects) в коллекциях.
Извлечение признаков: Расчет метрик на уровне документа и коллекции, таких как частота объекта в заголовках и Centrality объекта в тексте.
Классификация: Определение типа объекта (Object-type).

RANKING – Ранжирование (Офлайн или Nearline обработка)
Расчет сложных метрик релевантности происходит здесь, так как он требует анализа внешних данных и агрегации метрик:

Сбор внешних сигналов: Получение данных о поисковых запросах, трендах социальных сетей (для Level of Interest) и пользовательском взаимодействии с коллекциями (для Overall Relevance).
Анализ событий: Определение Pertinence of Events путем сравнения событий в коллекции со списками уместных событий для данного Object-type.
Расчет релевантности: Агрегация Overall Relevance, Level of Interest и Significance для каждой пары (Объект, Коллекция). Результаты сохраняются (Relevance Data).

QUNDERSTANDING / RANKING / METASEARCH (Real-time)
Применение результатов при запросе пользователя:

Когда пользователь запрашивает информацию об объекте (например, ищет новости о сущности или запрашивает хронологию), система использует предварительно рассчитанные оценки релевантности.
Система выбирает наиболее релевантные News Collections.
News Summary Generator формирует хронологическую сводку или предлагает релевантные поисковые подсказки (Suggestive Search Module).

На что влияет

Типы контента: В первую очередь влияет на новостные статьи, блоги, пресс-релизы и любой контент, агрегируемый в новостные потоки.
Специфические запросы: Запросы о сущностях (люди, компании, места), событиях и развивающихся темах. Особенно влияет на запросы, где требуется актуальная информация или хронология событий.
Форматы выдачи: Влияет на формирование выдачи Google News, блоков «Top Stories» (Главные новости) в основном поиске, а также на генерацию хронологий событий в Панелях Знаний (Knowledge Panels).

Когда применяется

Условия применения: Алгоритм применяется непрерывно для обработки входящего потока новостей. Он используется для предварительного расчета релевантности между всеми значимыми новостными коллекциями и объектами.
Триггеры активации: Активируется при появлении новых новостных документов или при обновлении данных о внешнем интересе (поисковые тренды, социальные сети). Финальный результат используется при запросе пользователя о новостях или хронологии объекта.

Пошаговый алгоритм

Процесс А: Расчет релевантности (Офлайн/Nearline)

Агрегация и Группировка: Сбор новостных документов и их кластеризация в News Collections.
Идентификация Объектов: Определение всех значимых объектов (сущностей, тем), обсуждаемых в коллекции.
Расчет Общей Релевантности Коллекции (Overall Relevance):
- Определение количества уникальных новостных источников в коллекции, сообщающих на эту тему.
- Определение уровня пользовательского интереса к коллекции (например, клики на кластер).
Расчет Уровня Интереса к Объекту (Level of Interest) (для заданного периода):
- Определение количества других новостных коллекций, упоминающих этот объект.
- Анализ трендов объекта в социальных сетях.
- Анализ количества веб-запросов, ищущих этот объект.
Расчет Значимости Объекта в Коллекции (Significance):
- Определение частоты упоминания объекта в заголовках документов коллекции.
- Определение Centrality объекта в документах (упоминание в начале, частота в тексте).
- Анализ Уместности Событий (Pertinence of Events):
  1. Определение типа объекта (Object-type).
  2. Получение списка предопределенных уместных событий для этого типа.
  3. Идентификация событий в коллекции, связанных с объектом.
  4. Проверка, входят ли эти события в список уместных.
Агрегация Оценки Релевантности: Вычисление итоговой оценки релевантности для пары (Объект, Коллекция) на основе Overall Relevance, Level of Interest и Significance.
Сохранение: Запись оценки релевантности в базу данных.

Процесс Б: Генерация сводки (Real-time)

Получение запроса: Пользователь запрашивает хронологическую сводку об Объекте.
Определение параметров: Идентификация Объекта и временного диапазона.
Выборка коллекций: Получение News Collections, связанных с Объектом, на основе предварительно рассчитанных оценок релевантности.
Выборка документов: Определение набора документов из этих коллекций с учетом временного диапазона.
Генерация и Предоставление: Создание хронологической новостной сводки и ее отправка пользователю.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных, включая контентные, поведенческие и внешние сигналы.

Контентные факторы:
- Заголовки документов (используются для определения частоты объекта).
- Текст документов (используется для определения Centrality, идентификации событий и определения Object-type).
Технические/Системные факторы:
- Источники новостей (используются для определения количества уникальных источников в коллекции).
- Данные о группировке документов в News Collections.
Поведенческие факторы:
- Уровень пользовательского интереса к новостной коллекции (например, данные о кликах на коллекцию в новостном портале).
Временные факторы:
- Временные рамки (Timeframe) используются при расчете Level of Interest.
Внешние данные (External Signals):
- Данные о трендах в социальных сетях для объекта.
- Данные о количестве веб-запросов (Search Volume) для объекта.
Данные из Базы Знаний (Knowledge Base):
- Предопределенные списки уместных событий (Pertinent Events) для различных типов объектов (Object-types).

Какие метрики используются и как они считаются

Ключевая метрика патента — Relevance Score для пары (Объект, Коллекция). Она агрегирует три компонента:

Overall Relevance Score: Функция от (Количество уникальных источников в коллекции; Уровень интереса пользователей к коллекции).
Level of Interest Score: Функция от (Количество других коллекций, упоминающих объект; Тренды в социальных сетях; Объем поисковых запросов об объекте).
Significance Score: Функция от (Частота объекта в заголовках; Centrality объекта в тексте; Оценка Pertinence of Events).

Оценка Pertinence of Events: Бинарная или числовая оценка, основанная на сравнении событий в коллекции с предопределенным списком уместных событий для данного Object-type.

Выводы

Релевантность новости сущности — это многофакторная оценка: Недостаточно просто упомянуть сущность. Релевантность определяется комбинацией важности самой новости, текущего интереса к сущности в мире и того, насколько центральную роль сущность играет в этой новости.
Центральность (Centrality) критична: Система явно проверяет, где именно и как часто объект упоминается в документе (заголовки, первые абзацы, повторяемость). Это подтверждает важность принципа «перевернутой пирамиды» в журналистике для SEO.
Механизм фильтрации мимолетных упоминаний (Pertinence of Events): Это ключевой механизм патента. Google может использовать типизацию сущностей (Object-types) и предопределенные списки важных событий для этих типов, чтобы отфильтровать новости, где сущность не является главным героем. Новость должна сообщать о событии, которое «уместно» для данного типа сущности.
Внешние сигналы валидируют интерес: Поисковый спрос на объект и тренды в социальных сетях напрямую влияют на оценку релевантности (через Level of Interest). Это подчеркивает важность мониторинга трендов и создания контента, соответствующего текущему интересу аудитории.
Важность авторитетности и охвата источника: Overall Relevance учитывает количество источников, освещающих событие. Это говорит о том, что широкое освещение события разными источниками повышает его значимость в глазах системы.

Практика

Best practices (это мы делаем)

Обеспечение центральности сущности (Entity Centrality): При написании новостей, ориентированных на конкретную сущность (человека, компанию, продукт), убедитесь, что эта сущность находится в фокусе повествования. Она должна быть упомянута в заголовке (Title), лиде (первом абзаце) и играть ключевую роль в теле статьи. Это повышает метрику Centrality.
Фокус на уместных событиях (Pertinent Events): Сосредоточьтесь на освещении событий, которые естественно важны для типа сущности. Если вы пишете о медицинском состоянии, фокусируйтесь на лечении, исследованиях, статистике. Если о знаменитости — на карьере, значимых жизненных событиях. Это повышает вероятность того, что система сочтет событие уместным (Pertinent).
Синхронизация с трендами (Level of Interest): Оперативно реагируйте на всплеск интереса к сущности или теме. Создание качественного контента в момент высокого поискового спроса и активности в социальных сетях увеличивает шансы на высокое ранжирование благодаря компоненту Level of Interest.
Оптимизация заголовков: Включайте ключевые сущности в заголовки новостных статей. Метрика Significance напрямую зависит от частоты упоминания объекта в заголовках внутри новостной коллекции.
Построение авторитетности в нише: Становитесь авторитетным источником по конкретным темам и сущностям. Чем чаще ваши статьи попадают в релевантные News Collections, тем выше вероятность, что система будет считать ваш контент значимым для этих объектов.

Worst practices (это делать не надо)

Кликбейт и мимолетные упоминания (Tangentional Content): Создание статей, где популярная сущность упоминается только для привлечения трафика, но не является центральной темой. Механизмы Centrality и Pertinence of Events предназначены для фильтрации такого контента.
Игнорирование структуры статьи: «Закапывание» основной темы или ключевой сущности в середину или конец статьи. Это снижает оценку Centrality.
Освещение незначительных событий: Попытки выдать незначительные инфоповоды за важные новости о сущности. Если событие не соответствует ожидаемому списку уместных событий для данного типа сущности, его значимость будет низкой.
Медленная реакция на тренды: Публикация контента после того, как пик интереса прошел. Это снижает потенциальный вклад компонента Level of Interest в итоговую оценку релевантности.

Стратегическое значение

Патент подчеркивает важность перехода от оптимизации под ключевые слова к оптимизации под сущности и события (Entity-based SEO и Event-based SEO). Для новостных ресурсов стратегически важно не просто сообщать факты, но и правильно упаковывать их, делая акцент на центральных сущностях и их роли в событиях. Система демонстрирует сложный механизм оценки качества журналистики: способность выделять главное и отделять его от второстепенного. Долгосрочная стратегия должна фокусироваться на глубоком понимании интента аудитории, связанного с конкретными типами сущностей, и создании контента, который точно соответствует этим интентам.

Практические примеры

Сценарий: Оптимизация статьи о новом лекарстве

Задача: Обеспечить высокую релевантность статьи для сущности «Препарат X» и сущности «Болезнь Y».

Заголовок (Significance): Вместо «Компания Z объявила о результатах исследования» использовать «Новое исследование подтверждает эффективность Препарата X в лечении Болезни Y».
Структура (Centrality): В первом абзаце четко указать, что Препарат X показал значительные результаты в лечении Болезни Y, указав ключевые метрики эффективности.
Контент (Pertinence of Events): Детально описать механизм действия, результаты клинических испытаний, сравнение с существующими методами лечения. Эти типы информации с высокой вероятностью находятся в списке уместных событий для типа «Лекарство» и «Медицинское состояние».
Публикация (Level of Interest): Опубликовать статью и пресс-релиз сразу после официального объявления результатов, чтобы совпасть с пиком поискового и социального интереса.
Ожидаемый результат: Статья будет классифицирована как высокорелевантная для обеих сущностей и с большей вероятностью попадет в Google News и Top Stories по соответствующим запросам.

Вопросы и ответы

Что такое «News Collection» в контексте этого патента?

News Collection — это кластер новостных статей из разных источников, которые освещают одну и ту же тему или событие. Google автоматически группирует похожие статьи вместе. Этот патент описывает, как система оценивает релевантность всего этого кластера к конкретной сущности, упомянутой в нем.

Что важнее для релевантности: интерес к новости или интерес к сущности?

Оба компонента критичны, так как итоговая оценка релевантности агрегирует три фактора: Overall Relevance (важность самой новости/коллекции), Level of Interest (интерес к сущности в мире) и Significance (роль сущности в этой новости). Нельзя компенсировать низкую значимость сущности в статье высоким внешним интересом к ней, и наоборот.

Как система определяет «Центральность» (Centrality) сущности в статье?

Патент указывает, что Centrality определяется на основе того, где именно объект упоминается в документе. Упоминания в заголовке, аннотации (abstract), первых нескольких параграфах, а также повторяемость упоминания по всему тексту повышают оценку центральности.

Что такое «Уместность событий» (Pertinence of Events) и как это работает?

Это механизм для фильтрации мимолетных упоминаний. Система определяет тип сущности (например, «Политик») и сравнивает событие в новости со списком предопределенных важных событий для этого типа (например, «Выборы», «Законопроект»). Если новость о политике не связана с уместным событием (например, он просто посетил ресторан), ее значимость для сущности «Политик» будет снижена.

Откуда Google берет списки «уместных событий» для разных типов сущностей?

Патент упоминает, что эти списки предопределены. Они могут быть созданы вручную администраторами, извлечены из Базы Знаний (Knowledge Base) или энциклопедических источников, или сгенерированы с помощью машинного обучения (упоминается event learning and/or optimization) на основе анализа того, какие события пользователи считают важными для разных типов объектов.

Как влияют внешние сигналы (поиск, соцсети) на ранжирование моей новости?

Они влияют через компонент Level of Interest. Если в момент публикации вашей новости наблюдается высокий поисковый спрос и активность в социальных сетях по данной сущности или теме, это повышает общую оценку релевантности вашей статьи, при условии, что статья действительно посвящена этой сущности (высокая Significance).

Может ли этот патент объяснить, почему кликбейт-статьи с упоминанием знаменитостей плохо ранжируются?

Да. Если статья использует имя знаменитости в заголовке, но в тексте знаменитость упоминается вскользь (низкая Centrality) или событие не является важным для ее типа (низкая Pertinence of Events), система присвоит этой статье низкую оценку Significance для данной знаменитости, и статья не будет показана в релевантных новостных сводках.

Как этот патент влияет на SEO для неновостных сайтов?

Хотя патент сфокусирован на новостях, описанные механизмы понимания сущностей и событий могут применяться шире. Понимание того, какие события Google считает важными для сущностей в вашей нише, и обеспечение центральности этих сущностей в вашем контенте помогает укрепить тематический авторитет и релевантность сайта в контексте Entity SEO.

Учитывает ли система авторитетность источника новости?

Патент напрямую не фокусируется на авторитетности источника как отдельном факторе, но он учитывает количество различных источников в News Collection при расчете Overall Relevance. Широкое освещение события разными (предположительно, качественными) источниками повышает важность коллекции.

Как использовать эти знания для попадания в Top Stories (Главные новости)?

Необходимо обеспечить высокую оценку по всем трем компонентам релевантности. Публикуйте оперативно, когда интерес к теме высок (Level of Interest). Убедитесь, что новость важна и потенциально будет освещена другими (Overall Relevance). Главное — сделайте ключевые сущности центральными в заголовке и тексте, освещая уместные для них события (Significance).