
Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.
Патент решает проблему переизбытка информации и сложности поиска наиболее ценных, актуальных и авторитетных документов среди огромного количества доступных материалов по определенной теме. Он направлен на то, чтобы помочь пользователю найти сбалансированную подборку документов (well-balanced cross section of documents), отсеивая дубликаты, устаревший или поверхностный контент.
Запатентована система и метод для оценки и ранжирования документов, который учитывает множество параметров, связанных с самим документом, его источником (издателем) и кластером, к которому принадлежит документ. Система вычисляет оценку документа (score), интегрируя такие сигналы, как свежесть, оригинальность, важность, качество и экспертиза источника, а также агрегированные метрики кластера (например, разнообразие источников).
Система работает в несколько этапов (как онлайн, так и офлайн):
Selected Sources или Golden Sources) на основе их оригинального контента.Selected Sources.Cluster Score) на основе разнообразия и важности источников внутри него, а также свежести освещения темы.Высокая. Несмотря на дату подачи (2003 год), патент описывает фундаментальные концепции ранжирования, которые лежат в основе современных поисковых систем, особенно в контексте новостей (Google News, Top Stories) и QDF (Query Deserves Freshness). Идеи качества источника, экспертизы, свежести и оригинальности являются ядром E-E-A-T и систем оценки полезного контента. Учитывая авторов (включая Jeff Dean и Krishna Bharat), этот патент имеет ключевое значение для понимания философии поиска Google.
Патент имеет критическое значение (8.5/10) для SEO-стратегий, особенно для издателей, новостных сайтов и создателей актуального контента. Он детализирует механизмы, с помощью которых Google оценивает авторитетность на уровне источника, тематическую экспертизу, оригинальность контента и его своевременность. Для достижения успеха необходимо фокусироваться на создании репутации качественного источника (Source Quality) и публикации свежего, оригинального контента в своей нише.
term vectors) документов, содержащихся в кластере. Используется для определения экспертизы кластера по отношению к запросу.common theme).Claim 1 (Независимый пункт): Описывает основной метод ранжирования отдельного документа.
date of publication), (ii) Ранжирование источника (ranking of a source) относительно других источников, (iii) Связь с кластером (cluster association).ranking of a quality of the source).score) документа на основе этих параметров.Ядром изобретения является использование комбинации свежести, качества источника и кластерных данных для ранжирования документа.
Claim 15 (Независимый пункт, аналог Claim 1 для носителя): Подтверждает те же шаги, акцентируя внимание на анализе параметров:
Claim 37 (Независимый пункт): Описывает метод оценки кластера и его влияние на ранжирование.
diversity of the documents).quantity of original documents) в кластере.cluster score) на основе этих параметров.Ключевым моментом здесь является то, что разнообразие измеряется через количество *оригинальных* документов, и что оценка кластера напрямую влияет на позицию документа в выдаче.
Claim 51 (Независимый пункт, аналог Claim 37 для носителя): Детализирует использование оценки кластера.
Повторяет шаги по анализу кластера, измерению разнообразия через количество оригинальных документов и вычислению Cluster Score. Затем добавляет ключевой шаг: вычисление оценки документа (document score) с использованием Cluster Score. Позиция документа в списке основывается на этой итоговой оценке документа.
Изобретение затрагивает несколько этапов поиска, преимущественно на стадиях индексирования и ранжирования.
INDEXING – Индексирование и извлечение признаков
Большая часть работы по оценке источников и кластеризации происходит на этом этапе или в ходе офлайн-обработки данных.
Source Term Vector) для источников. Происходит идентификация Selected Sources.RANKING – Ранжирование
Основное применение патента происходит во время обработки запроса.
Cluster Score (например, с использованием взвешенной системы бинов для свежести).RERANKING – Переранжирование
На этом этапе вычисленные оценки сравниваются с пороговыми значениями (Threshold) для включения или исключения документа из финальной выборки.
Входные данные:
Source Term Vector).Выходные данные:
news articles), которые прямо упоминаются в патенте, и другой контент, для которого важна своевременность (QDF).YMYL), а также ниши с высокой частотой публикаций (новости, спорт, финансы).Selected Source в категории.Threshold Score) для включения документа в финальную выдачу. Этот порог может зависеть от тематики запроса и количества найденных документов.Процесс можно разделить на три основные части: оценка источников, кластеризация и ранжирование.
Процесс А: Оценка Источника (Офлайн/Индексирование)
Document Vectors).Selected Source для этой категории.Source Term Vector, описывающий общую экспертизу источника.Процесс Б: Кластеризация (Офлайн/Индексирование)
Selected Sources для определения ключевых тем и формирования начальных предметных кластеров (Subject Clusters).Centroid кластера путем усреднения векторов терминов документов в кластере.Процесс В: Ранжирование (Время запроса)
qualified documents).Source Term Vector).Cluster Score: Cluster Score по свежести рассчитывается как взвешенная сумма.Centroid).Document Vectors) и векторов источников (Source Term Vectors), а также для выявления дубликатов (сравнение текста).time stamp) документов используются для определения времени публикации, что критично для расчета свежести и определения оригинальности.number of views or hits), полученных источником.time lag).circulation statistics), награды, полученные источником, и рейтинги третьих сторон (ranked by a third party) используются для оценки качества и важности источника.Source Term Vector (взвешенный набор терминов, описывающих публикации источника).bins) с разными весовыми коэффициентами (weighting factor) для разных временных интервалов (например, более свежие документы имеют больший вес).Selected Sources и для финального отбора ранжированных документов.Selected Sources определяются по оригинальным статьям) и кластера (разнообразие измеряется по оригинальным статьям). Дублированный или синдицированный контент пессимизируется.Source Term Vector). Важность источника также может меняться в зависимости от географии события.Cluster Score. Это означает, что освещение популярных тем может дать преимущество.Selected Sources) и может использовать их контент для определения основных тем и формирования кластеров, что подчеркивает важность достижения статуса доверенного эксперта в своей нише.Selected Source в этой нише. Это достигается публикацией большого количества свежих оригинальных статей по теме.time lag между событием и публикацией.time stamp) для расчета свежести и оригинальности.Selected Source ни в одной из категорий.Source Quality и Source Importance являются ключевыми факторами.Этот патент закладывает основу для многих концепций, которые сегодня известны как E-E-A-T и QDF. Он подтверждает, что Google давно рассматривает качество и экспертизу на уровне источника (сайта/издателя), а не только на уровне отдельной страницы. Стратегически важно понимать, что оригинальность и свежесть являются не просто бонусами, а фундаментальными требованиями для ранжирования в конкурентных и динамичных нишах. Долгосрочная стратегия должна быть направлена на то, чтобы стать признанным экспертом (Selected Source) в четко определенных тематических категориях.
Сценарий: Ранжирование новостной статьи о спортивном событии
Source Importance) публикует детальный анализ матча через 15 минут после окончания (высокая Freshness, вес бина 24). Статья является оригинальной (Originality=True). Издание имеет сильный Source Term Vector по теме "Футбол".Source Importance) публикует краткий пересказ статьи Издателя А через 2 часа (низкая Freshness, вес бина 15). Статья признана неоригинальной.Cluster Score, так как тему освещают многие авторитетные источники (Diversity/Importance).Cluster Score. Статья Издателя Б ранжируется значительно ниже из-за низкого авторитета, меньшей свежести и отсутствия оригинальности.Что такое "Selected Source" (Избранный источник) или "Golden Source"?
Это источник, который система признала авторитетным или экспертным в определенной тематической категории. Этот статус присваивается на основе анализа количества и свежести *оригинальных* документов, которые источник публикует в данной категории. Контент от таких источников используется для определения основных тем и формирования кластеров.
Как именно система определяет оригинальность документа?
Система сравнивает текст документа с другими документами. Если обнаруживается значительное совпадение текста (close match), система ищет документ с самой ранней датой публикации (earliest publication date). Этот документ считается оригиналом, а остальные — дубликатами.
Как рассчитывается свежесть? Что такое система "бинов" (bins)?
Свежесть рассчитывается с использованием взвешенной системы временных интервалов (бинов). Документы распределяются по бинам в зависимости от их возраста (например, <60 минут, 1-2 часа, 2-4 часа и т.д.). Каждому бину присваивается весовой коэффициент. Более свежие бины имеют значительно больший вес (например, 24), а старые могут иметь минимальный или даже отрицательный вес (например, -1). Итоговая оценка свежести (например, для кластера) — это взвешенная сумма.
Что такое "Source Term Vector" и как это связано с Тематическим Авторитетом (Topical Authority)?
Source Term Vector — это профиль источника, описывающий типы контента, который он публикует, часто в виде взвешенного набора терминов. Он отражает тематическую и региональную направленность источника. Это прямой механизм для измерения Тематического Авторитета: чем сильнее вектор источника соответствует запросу, тем выше его экспертиза по данной теме.
Как оценка кластера (Cluster Score) влияет на ранжирование моей отдельной статьи?
Cluster Score является компонентом итоговой оценки вашей статьи. Высокий Cluster Score означает, что тема широко освещается разнообразными и авторитетными источниками, и что освещение является свежим. Если ваша статья является частью такого "важного" кластера, она получает значительное повышение в ранжировании.
Какие сигналы определяют "Качество Источника" (Source Quality) и "Важность Источника" (Source Importance) в этом патенте?
Для Качества Источника упоминаются награды, полученные источником, и рейтинги третьих сторон. Для Важности Источника упоминаются статистика циркуляции, количество просмотров или хитов, а также географическая релевантность источника событию (местные источники могут быть важнее для местных новостей).
Применяются ли эти принципы только к Google News?
Хотя патент часто ссылается на новостные статьи и явно ориентирован на сценарии, типичные для Google News или Top Stories, описанные принципы (качество источника, экспертиза, оригинальность, свежесть) являются фундаментальными для поиска Google в целом. Они лежат в основе систем QDF (Query Deserves Freshness) и оценки авторитетности (E-E-A-T) в основном поиске.
Что такое центроид кластера (Centroid) и для чего он используется?
Центроид — это усредненное векторное представление всех документов в кластере. Он фактически является сводкой или описанием главной темы кластера. Система сравнивает центроид с поисковым запросом, чтобы определить "экспертизу кластера" или его общую релевантность запросу.
Как бороться с тем, что конкуренты копируют мой контент и ранжируются выше?
Согласно патенту, система должна идентифицировать ваш контент как оригинальный, если он был опубликован первым. Убедитесь, что у вас настроены корректные и доступные для сканирования временные метки публикации. Также работайте над повышением общего качества и важности вашего источника, чтобы получить преимущество по этим факторам.
Имеет ли значение количество статей, опубликованных источником?
Да, имеет. Количество *оригинальных* статей в определенной категории является фактором для определения того, станет ли источник "Избранным источником" (Selected Source) в этой категории. Также общее количество документов и оригинальных документов в кластере влияет на оценку кластера.

Свежесть контента
EEAT и качество

Семантика и интент
Свежесть контента
SERP

EEAT и качество
Свежесть контента
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Мультимедиа
Семантика и интент
SERP

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Поведенческие сигналы
SERP

Ссылки

Персонализация
Ссылки

Поведенческие сигналы
SERP

EEAT и качество
Ссылки
SERP

Поведенческие сигналы
Персонализация
Local SEO

Поведенческие сигналы
EEAT и качество

Семантика и интент
Поведенческие сигналы
SERP

Техническое SEO
SERP
Ссылки
