Google ранжирует документы (особенно новости), группируя их в тематические кластеры. Система определяет «Золотые источники» (Selected Sources) на основе количества и свежести их оригинального контента в конкретных категориях. Ранжирование документа зависит от качества его источника, свежести, оригинальности, а также от значимости всего кластера — насколько широко и оперативно тема освещается авторитетными источниками.
Описание
Какую задачу решает
Патент решает проблему переизбытка информации по актуальным темам, где пользователи сталкиваются с дублирующимся, устаревшим или поверхностным контентом. Цель — предоставить сбалансированную и качественную подборку документов от разнообразных авторитетных источников, позволяя пользователю получить различные перспективы по теме.
Что запатентовано
Запатентована система ранжирования документов, основанная на многофакторной оценке, включающей сигналы на уровне документа, источника и кластера. Ключевым элементом является метод идентификации высокоавторитетных «Выбранных источников» (Selected Sources или «Золотых источников») на основе их способности производить оригинальный контент в конкретных категориях. Эти источники используются для формирования тематических кластеров, которые затем оцениваются для влияния на ранжирование отдельных документов.
Как это работает
Система сочетает офлайн-анализ и обработку в реальном времени:
- Оценка источников: Система анализирует историю публикаций источников, выявляя объем и свежесть оригинального контента в разных категориях. Источники, превысившие порог, становятся Selected Sources.
- Формирование кластеров: На основе контента от Selected Sources система определяет актуальные темы и формирует Subject Clusters. Остальные документы распределяются по этим кластерам.
- Расчет оценки кластера (Cluster Score): Оценивается значимость темы на основе количества, разнообразия, важности источников в кластере и актуальности освещения (Recency of Coverage).
- Ранжирование: Итоговый рейтинг документа определяется комбинацией его собственных характеристик (свежесть, оригинальность), характеристик его источника (экспертиза, качество) и Cluster Score.
Актуальность для SEO
Высокая. Учитывая изобретателей (включая основателя Google News Кришну Бхарата) и ранние даты заявок, этот патент описывает фундаментальные принципы Google для обработки новостей и актуального контента (QDF). Концепции экспертизы источника, оригинальности, свежести и кластеризации критически важны в современном поиске и напрямую связаны с E-E-A-T.
Важность для SEO
Патент имеет высокое значение (8/10), особенно для издателей, новостных сайтов и создателей контента, фокусирующихся на актуальных темах. Он детально описывает механизм оценки экспертизы источника (Expertise of Source) по категориям и подчеркивает критическую важность производства оригинального контента для признания сайта Selected Source. Для доминирования в новостной экосистеме необходимо быть оригинальным, авторитетным и оперативным.
Детальный разбор
Термины и определения
- Bins (Временные интервалы / Корзины)
- Сегменты времени, используемые для оценки актуальности освещения темы (Recency of the Coverage). Более свежим интервалам присваиваются более высокие весовые коэффициенты.
- Centroid (Центроид)
- Векторное представление, суммирующее тему кластера. Вычисляется путем усреднения Document Vectors документов в кластере. Используется для оценки экспертизы кластера относительно запроса.
- Cluster / Subject Cluster (Кластер / Тематический кластер)
- Группа документов, объединенных общей темой или событием.
- Cluster Score (Оценка кластера)
- Метрика, оценивающая значимость или актуальность темы кластера. Влияет на ранжирование отдельных документов внутри кластера.
- Document Vector (Вектор документа)
- Набор терминов (часто взвешенных), описывающий содержание документа.
- Freshness (Свежесть документа)
- Метрика на уровне документа, основанная на времени публикации. Может рассчитываться как разница между временем события и временем публикации.
- Original Document (Оригинальный документ)
- Документ, который был впервые опубликован данным источником. Определяется путем сравнения текстов и времени публикации (timestamps).
- Recency of the Coverage (Актуальность освещения)
- Метрика на уровне кластера, показывающая, насколько недавно были опубликованы оригинальные документы по этой теме. Рассчитывается с использованием Bins.
- Selected Source / Golden Source (Выбранный источник / Золотой источник)
- Источник, идентифицированный как авторитетный в определенной категории. Определяется на основе Source Score.
- Source Score (Оценка источника)
- Оценка, присваиваемая источнику в рамках конкретной категории, основанная на количестве и свежести его оригинальных документов в этой категории.
- Source Term Vector (Вектор терминов источника)
- Векторное представление, описывающее типы контента, публикуемого источником. Используется для определения экспертизы источника (тематической или региональной).
Ключевые утверждения (Анализ Claims)
Патент US10496652B1 является продолжением (continuation) более ранних заявок. Его формула изобретения сосредоточена на процессе формирования кластеров и определении Selected Sources.
Claim 1 (Независимый пункт): Описывает метод формирования тематического кластера.
- Идентификация первого документа и определение его темы.
- Идентификация набора «Выбранных Источников» (Selected Sources). Это делается путем проверки, удовлетворяет ли оценка источника (Source Score) пороговому значению.
- Процесс определения Source Score включает:
- Обнаружение оригинальных статей, опубликованных источником (т.е. контента, который этот источник опубликовал первым).
- Анализ контента оригинальных статей для определения категории.
- Присвоение Source Score источнику для данной категории.
- Определение документов из этого набора Selected Sources, которые связаны с темой первого документа.
- Формирование первого тематического кластера (first subject cluster), включающего эти документы и первый документ.
- Получение второго документа и определение его темы.
- Если тема второго документа схожа с темой кластера, добавление второго документа в кластер.
Ядром изобретения является метод формирования кластеров, основанный на контенте от источников, предварительно квалифицированных как Selected Sources. Квалификация источника напрямую зависит от его способности производить оригинальные статьи в конкретных категориях. Это означает, что «Золотые источники» определяют тематический ландшафт и структуру кластеров.
Claims 3, 4, 5 (Зависимые): Уточняют, что для кластера определяется Centroid, который суммирует тему кластера и может обновляться по мере добавления новых документов.
Где и как применяется
Изобретение затрагивает преимущественно этапы индексирования и ранжирования, и, вероятно, является основой для систем обработки актуального контента (например, Google News, Top Stories).
INDEXING – Индексирование и Извлечение признаков
На этих этапах происходят ключевые офлайн или периодические вычисления:
- Анализ оригинальности: Сравнение контента и меток времени для определения первого издателя (Original Document).
- Оценка источников: Расчет Source Score для разных категорий и идентификация Selected Sources (FIG. 7). Расчет Source Term Vectors.
- Кластеризация: Формирование Subject Clusters на основе контента от Selected Sources и расчет Centroids (FIG. 6).
RANKING – Ранжирование
При получении запроса система использует предварительно рассчитанные атрибуты для оценки документов (FIG. 3):
- Атрибуты документа (Freshness, Originality) (FIG. 4).
- Атрибуты источника (Importance, Quality, Expertise).
- Атрибуты кластера (Cluster Score) (FIG. 5A), включая расчет Recency of the Coverage с использованием Bins (FIG. 5B).
Входные данные:
- Текст документов и метаданные (время публикации).
- Внешние данные об источниках (статистика просмотров/тиража, награды, сторонние рейтинги).
- Пользовательский запрос.
Выходные данные:
- Отсортированный список документов, часто сгруппированных в кластеры.
На что влияет
- Типы контента: Наибольшее влияние оказывается на новостные статьи, пресс-релизы и любой контент, где важны свежесть, оригинальность и авторитетность источника.
- Специфические запросы: Запросы, связанные с актуальными событиями (QDF — Query Deserves Freshness), трендовые темы.
- Ниши и тематики: Влияет на все тематики, освещаемые в новостях, включая YMYL, где экспертиза источника в рамках конкретной категории имеет решающее значение.
Когда применяется
- Оценка источников и Кластеризация: Происходит непрерывно или периодически в процессе индексирования для обновления статуса Selected Sources и структуры кластеров.
- Ранжирование: Применяется при обработке пользовательских запросов, для которых релевантны сформированные кластеры и важна свежесть.
Пошаговый алгоритм
Алгоритм состоит из трех основных взаимосвязанных процессов.
Процесс А: Идентификация Выбранных Источников (Selected Sources) (Основано на FIG. 7)
- Идентификация источника.
- Обнаружение оригинальных статей: Система анализирует документы источника, удаляя дубликаты и неоригинальный контент (опубликованный ранее другими). Оригинальность определяется по самой ранней дате публикации.
- Анализ и Категоризация контента: Анализ содержания оригинальных документов и их распределение по иерархии категорий (например, Спорт -> Футбол).
- Оценка источника в категории: Расчет Source Score для источника в рамках каждой категории. Оценка зависит от количества и свежести (recency) оригинальных документов в этой категории.
- Проверка порога: Сравнение Source Score с пороговым значением для данной категории.
- Присвоение статуса: Если порог превышен, источник помечается как Selected Source для этой категории.
Процесс Б: Формирование Кластеров (Основано на FIG. 6)
- Анализ контента Золотых Источников: Анализ тем документов от источников, помеченных как Selected Sources.
- Определение Тематических Кластеров: Формирование Subject Clusters на основе тем, выявленных у Selected Sources (при достижении порога по количеству документов/источников по теме).
- Сравнение документов: Сравнение контента любого нового документа с существующими тематическими кластерами.
- Размещение в кластере: Если контент соответствует теме кластера, документ добавляется в него.
- Определение Центроида: Расчет или обновление Centroid кластера (усредненного вектора темы) на основе Document Vectors документов в нем.
Процесс В: Ранжирование Документов (Основано на FIG. 3, 4, 5A, 5B)
- Получение запроса и выборка документов.
- Анализ документов (FIG. 4): Оценка параметров каждого документа:
- Важность источника (Importance of the Source) — может зависеть от географии.
- Свежесть документа (Freshness).
- Оригинальность документа (Originality).
- Качество источника (Quality of the Source) — например, на основе наград.
- Экспертиза источника (Expertise of Source) — с использованием Source Term Vector.
- Анализ кластера (FIG. 5A): Оценка параметров кластера (Cluster Score):
- Разнообразие источников (Diversity of Sources Reporting) — количество, международность.
- Важность источников в кластере.
- Свежесть покрытия (Recency of the Coverage) – рассчитывается как взвешенная сумма оригинальных документов в кластере с использованием временных интервалов (Bins, FIG. 5B). Например, вес 24 для <60 мин; вес -1 для >24 часов.
- Разнообразие статей (Diversity of the Articles) — вес оригинальных выше, чем дубликатов.
- Экспертиза кластера (Expertise of Cluster) — с использованием Centroid.
- Подсчет очков: Вычисление итоговой оценки для каждого документа на основе комбинации параметров документа, источника и кластера.
- Проверка порога и формирование выдачи: Включение документов, превысивших порог (который может зависеть от темы запроса), в выдачу и их сортировка.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст документа используется для расчета Document Vectors, определения темы, категоризации и проверки на оригинальность (сравнение текстов).
- Временные факторы: Метки времени публикации (timestamps) критически важны для определения Freshness, Recency of the Coverage и для идентификации оригинального издателя (Originality).
- Векторные данные: Source Term Vectors используются для оценки общей экспертизы источника.
- Внешние данные (для оценки качества/важности источника):
- Статистика просмотров или хитов (views or hits).
- Статистика тиража (Circulation statistics).
- Награды, полученные источником (awards received).
- Сторонние рейтинги (ranked by a third party).
- Географические факторы: Местоположение источника используется для повышения его важности при освещении локальных событий и для оценки разнообразия кластера.
Какие метрики используются и как они считаются
- Source Score (в категории): Рассчитывается на основе количества и свежести оригинальных документов, опубликованных источником в данной категории.
- Cluster Score: Агрегированная метрика значимости кластера. Включает оценку разнообразия источников, их совокупной важности и свежести покрытия темы.
- Recency of the Coverage (Свежесть покрытия кластера): Рассчитывается как взвешенная сумма оригинальных документов в кластере с использованием временных интервалов (Bins). Патент приводит пример весов: <60 минут (вес 24), 1-2 часа (вес 20), 2-4 часа (вес 15), 4-24 часа (вес 3), >24 часов (вес -1). Итоговая оценка = сумма (Кол-во документов в интервале * Вес интервала).
- Centroid: Вычисляется путем усреднения Document Vectors документов внутри кластера.
- Пороги: Используются пороговые значения для определения статуса Selected Source, для формирования новых кластеров и для финального включения документа в выдачу.
Выводы
- Оригинальность — фундаментальный критерий авторитетности: Патент предоставляет четкий механизм оценки качества источника (Source Score) через производство оригинального контента. Чтобы стать Selected Source («Золотым источником»), необходимо быть первоисточником информации.
- Экспертиза оценивается строго по категориям: Авторитетность не является общей характеристикой сайта. Система рассчитывает Source Score в рамках конкретных тематических категорий.
- «Золотые источники» определяют тематический ландшафт: Тематические кластеры (Subject Clusters) инициируются и формируются на основе контента, публикуемого Selected Sources. Это дает им преимущество в определении того, как система структурирует информацию о событии.
- Свежесть имеет нелинейный вес и быстрое затухание: Механизм Recency of the Coverage использует временные интервалы (Bins) с быстро убывающими весами. Оперативность публикации критически важна; разница между 10 минутами и 2 часами огромна.
- Значимость темы (Cluster Score) влияет на ранжирование статьи: Документ по важной теме (широко освещаемой разнообразными и авторитетными источниками) получит дополнительное повышение за счет высокого Cluster Score.
- Локальная авторитетность имеет значение: Система способна повышать важность локальных источников при освещении местных событий, даже если их глобальная авторитетность невелика.
Практика
Best practices (это мы делаем)
- Фокус на оригинальном контенте и уникальной экспертизе: Инвестируйте в оригинальные репортажи, эксклюзивные данные и уникальный анализ. Это фундаментальное требование для достижения статуса Selected Source, так как Source Score основан на оригинальности.
- Развитие экспертизы в четких категориях (Topical Authority): Сосредоточьтесь на глубоком и последовательном освещении конкретных ниш. Система оценивает источники по категориям. Необходимо достичь порога по объему и качеству оригинального контента именно в вашей целевой категории.
- Оптимизация скорости публикации (Time-to-Publish): Оперативность критична для актуальных тем. Freshness документа и Recency of the Coverage кластера являются важными факторами ранжирования. Минимизируйте задержку между событием и публикацией.
- Точные метки времени: Убедитесь, что используются точные и явные метки времени публикации (в HTML и structured data), так как они используются для определения как свежести, так и оригинальности.
- Усиление внешних сигналов качества источника: Работайте над сигналами авторитетности, упомянутыми в патенте для оценки Importance и Quality: увеличение охвата аудитории (views/circulation), получение профессиональных наград, попадание в авторитетные сторонние рейтинги.
- Локальное SEO для издателей: Если вы локальное издание, фокусируйтесь на детальном освещении местных событий для получения преимущества за счет географической релевантности.
Worst practices (это делать не надо)
- Синдикация, агрегация и рерайтинг без добавленной ценности: Публикация чужого контента или поверхностный рерайтинг не поможет в получении статуса Selected Source. Система идентифицирует и отфильтровывает неоригинальный контент при расчете Source Score.
- Широкий фокус без глубины: Попытка охватить множество категорий поверхностно не позволит достичь пороговых значений для Source Score ни в одной из них.
- Медленные процессы публикации: Задержка в публикации актуального контента приводит к потере веса свежести и увеличивает риск того, что кто-то другой будет признан оригинальным источником.
- Игнорирование технических аспектов свежести: Неверные метки времени или задержки в индексации могут привести к тому, что система неверно определит свежесть или оригинальность контента.
Стратегическое значение
Этот патент описывает фундаментальные принципы, лежащие в основе систем ранжирования новостей Google (Google News, Top Stories) и обработки QDF-запросов. Он подтверждает стратегический приоритет оригинальности и экспертизы источника. Для долгосрочного успеха в поиске по актуальным темам необходимо стать «Золотым источником» в своей нише. Это достигается через качественную журналистику, тематическую фокусировку и оперативность.
Практические примеры
Сценарий: Освещение внезапного технологического события (например, запуск нового продукта Apple)
- Событие: Apple анонсирует новый продукт.
- Действие (Источник А — Авторитетное Tech СМИ): Публикует новость с эксклюзивными деталями через 2 минуты. Источник А является Selected Source в категории «Технологии».
- Действие (Источник Б — Новостной агрегатор): Публикует рерайт новости Источника А через 30 минут.
- Обработка системой:
- Система идентифицирует Источник А как Original Publisher.
- На основе статьи Источника А инициируется Subject Cluster «Запуск нового продукта Apple».
- Статья Источника А попадает в самый свежий Bin (<60 мин, вес 24), максимизируя Recency of the Coverage кластера.
- Система идентифицирует статью Источника Б как неоригинальную.
- Результат ранжирования: Статья Источника А получает максимальный рейтинг благодаря комбинации оригинальности, статуса Selected Source и максимальной свежести. Источник Б ранжируется значительно ниже.
Вопросы и ответы
Что такое «Selected Source» (Выбранный источник) или «Золотой источник»?
Это источник, который система идентифицировала как высокоавторитетный для определенной тематической категории. Статус присваивается алгоритмически, если оценка источника (Source Score) превышает определенный порог. Source Score рассчитывается на основе количества и свежести оригинального контента, который этот источник публикует в данной категории.
Насколько важна оригинальность контента согласно этому патенту?
Оригинальность критически важна. Она является основным требованием для того, чтобы источник мог стать Selected Source. Система активно фильтрует дубликаты и неоригинальный контент при оценке источника. Оригинальность также является прямым фактором ранжирования на уровне документа.
Как система определяет оригинальность контента?
Оригинальность определяется путем сравнения текста документа с другими документами в индексе. Если обнаружены схожие тексты, система анализирует метки времени публикации (timestamps). Документ с самой ранней меткой времени считается оригинальным.
Как рассчитывается свежесть или актуальность освещения темы (Recency of Coverage)?
Патент описывает конкретный метод с использованием временных интервалов (Bins). Документам присваиваются весовые коэффициенты в зависимости от их возраста. Например, документы возрастом менее 60 минут получают вес 24, а документы старше 24 часов — вес -1. Сумма этих взвешенных значений определяет актуальность всего кластера.
Что такое «Cluster Score» и как он влияет на мою статью?
Cluster Score — это оценка значимости и актуальности всей темы (кластера). Он рассчитывается на основе разнообразия, важности и свежести всех источников, освещающих эту тему. Высокий Cluster Score дает дополнительный буст в ранжировании всем статьям внутри этого кластера.
Может ли мой сайт быть авторитетным в одной теме и неавторитетным в другой?
Да. Патент подчеркивает, что оценка источников (Source Score) и идентификация Selected Sources происходит в рамках конкретных категорий. Это напрямую соответствует концепции Тематического Авторитета (Topical Authority) в SEO.
Как Google определяет качество и важность источника?
Патент упоминает несколько внешних факторов для оценки Importance и Quality of the Source: статистика циркуляции (тиража), количество просмотров или хитов, полученные награды и сторонние рейтинги. Также учитывается географическое положение — локальные источники могут считаться более важными для локальных событий.
Что такое Центроид (Centroid) кластера?
Центроид — это векторное представление, которое суммирует основную тему кластера. Он рассчитывается путем усреднения векторов терминов всех документов в кластере. Центроид используется системой для понимания, о чем этот кластер, и насколько он релевантен запросу пользователя (Expertise of Cluster).
Влияет ли этот патент только на Google News?
Хотя патент явно описывает механизмы для Google News, его принципы применимы шире. Оценка качества источника, экспертизы, оригинальности и свежести (QDF) используется и в основном веб-поиске, особенно при ранжировании актуального контента, трендовых тем и в YMYL-вертикалях.
Стоит ли мне заниматься агрегацией или синдикацией контента?
Согласно этому патенту, такие стратегии не способствуют повышению авторитетности источника. Система специально ищет оригинальные статьи для идентификации Selected Sources. Агрегированный контент может привлекать трафик, но не поможет стать доверенным источником в глазах этой системы.