SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента

METHODS AND APPARATUS FOR RANKING DOCUMENTS (Методы и аппаратура для ранжирования документов)
  • US8090717B1
  • Google LLC
  • 2003-06-30
  • 2012-01-03
  • EEAT и качество
  • Свежесть контента
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.

Описание

Какую проблему решает

Патент решает проблему переизбытка информации и сложности поиска наиболее ценных, актуальных и авторитетных документов среди огромного количества доступных материалов по определенной теме. Он направлен на то, чтобы помочь пользователю найти сбалансированную подборку документов (well-balanced cross section of documents), отсеивая дубликаты, устаревший или поверхностный контент.

Что запатентовано

Запатентована система и метод для оценки и ранжирования документов, который учитывает множество параметров, связанных с самим документом, его источником (издателем) и кластером, к которому принадлежит документ. Система вычисляет оценку документа (score), интегрируя такие сигналы, как свежесть, оригинальность, важность, качество и экспертиза источника, а также агрегированные метрики кластера (например, разнообразие источников).

Как это работает

Система работает в несколько этапов (как онлайн, так и офлайн):

  • Оценка источников: Система анализирует источники на предмет их важности, качества и тематической экспертизы, определяя "Избранные источники" (Selected Sources или Golden Sources) на основе их оригинального контента.
  • Кластеризация: Документы группируются в тематические кластеры. Кластеры часто формируются на основе контента от Selected Sources.
  • Оценка кластера: Каждый кластер получает оценку (Cluster Score) на основе разнообразия и важности источников внутри него, а также свежести освещения темы.
  • Ранжирование документов: При получении запроса система анализирует релевантные документы, вычисляя их итоговую оценку на основе их собственной свежести, оригинальности, оценки их источника и оценки кластера, к которому они принадлежат. Результаты фильтруются по пороговому значению и ранжируются.

Актуальность для SEO

Высокая. Несмотря на дату подачи (2003 год), патент описывает фундаментальные концепции ранжирования, которые лежат в основе современных поисковых систем, особенно в контексте новостей (Google News, Top Stories) и QDF (Query Deserves Freshness). Идеи качества источника, экспертизы, свежести и оригинальности являются ядром E-E-A-T и систем оценки полезного контента. Учитывая авторов (включая Jeff Dean и Krishna Bharat), этот патент имеет ключевое значение для понимания философии поиска Google.

Важность для SEO

Патент имеет критическое значение (8.5/10) для SEO-стратегий, особенно для издателей, новостных сайтов и создателей актуального контента. Он детализирует механизмы, с помощью которых Google оценивает авторитетность на уровне источника, тематическую экспертизу, оригинальность контента и его своевременность. Для достижения успеха необходимо фокусироваться на создании репутации качественного источника (Source Quality) и публикации свежего, оригинального контента в своей нише.

Детальный разбор

Термины и определения

Centroid (Центроид)
Векторное представление, которое описывает тему кластера. Вычисляется путем усреднения векторов терминов (term vectors) документов, содержащихся в кластере. Используется для определения экспертизы кластера по отношению к запросу.
Cluster (Кластер)
Группа документов, объединенных общей темой (common theme).
Cluster Score (Оценка кластера)
Метрика, присваиваемая кластеру на основе анализа документов и источников внутри него (разнообразие, важность, свежесть). Влияет на оценку отдельных документов в кластере.
Document Vector / Term Vector (Вектор документа / Вектор терминов)
Представление документа, описывающее его тему или содержание. Может включать взвешенный набор терминов.
Freshness (Свежесть)
Параметр документа или кластера. Для документа может измеряться как разница между временем публикации и временем события. Для кластера используется взвешенная сумма свежести оригинальных документов.
Original Document (Оригинальный документ)
Документ, который не является дубликатом другого. При наличии нескольких похожих документов оригиналом считается тот, который был опубликован раньше всех.
Selected Source / Golden Source (Избранный источник / Золотой источник)
Источник, идентифицированный как авторитетный или экспертный в определенной категории на основе количества и свежести публикуемых им оригинальных документов. Контент от этих источников может использоваться для определения тем кластеров.
Source (Источник)
Сущность (например, издатель, веб-сайт), опубликовавшая документ.
Source Term Vector (Вектор терминов источника)
Вектор, описывающий типы документов, публикуемых источником. Используется для определения экспертизы источника (топикальной или региональной) по отношению к запросу.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования отдельного документа.

  1. Система получает запрос.
  2. Выбирается документ в ответ на запрос.
  3. Документ анализируется для определения множества параметров, включающих: (i) Дату публикации (date of publication), (ii) Ранжирование источника (ranking of a source) относительно других источников, (iii) Связь с кластером (cluster association).
  4. Система анализирует ранжирование источника, что включает определение ранга качества источника (ranking of a quality of the source).
  5. Вычисляется оценка (score) документа на основе этих параметров.
  6. Оценка сравнивается с порогом. Документ включается или исключается из группы.
  7. Генерируется список документов из группы, упорядоченный по вычисленной оценке.

Ядром изобретения является использование комбинации свежести, качества источника и кластерных данных для ранжирования документа.

Claim 15 (Независимый пункт, аналог Claim 1 для носителя): Подтверждает те же шаги, акцентируя внимание на анализе параметров:

  • Параметр, связанный с датой публикации.
  • Параметр, указывающий на ранжирование источника относительно других (включая ранг качества источника).
  • Параметр, связанный с кластером.

Claim 37 (Независимый пункт): Описывает метод оценки кластера и его влияние на ранжирование.

  1. Система получает запрос и обнаруживает документ в кластере, релевантный запросу.
  2. Анализируются документы в кластере для определения параметров, включая: (i) Параметры, относящиеся к документам в кластере, (ii) Параметры, указывающие на ранжирование источников в кластере.
  3. Анализ параметров документов включает измерение разнообразия документов (diversity of the documents).
  4. Измерение разнообразия включает определение количества оригинальных документов (quantity of original documents) в кластере.
  5. Вычисляется оценка кластера (cluster score) на основе этих параметров.
  6. Генерируется список документов, где позиция документа основана на вычисленной оценке кластера.

Ключевым моментом здесь является то, что разнообразие измеряется через количество *оригинальных* документов, и что оценка кластера напрямую влияет на позицию документа в выдаче.

Claim 51 (Независимый пункт, аналог Claim 37 для носителя): Детализирует использование оценки кластера.

Повторяет шаги по анализу кластера, измерению разнообразия через количество оригинальных документов и вычислению Cluster Score. Затем добавляет ключевой шаг: вычисление оценки документа (document score) с использованием Cluster Score. Позиция документа в списке основывается на этой итоговой оценке документа.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, преимущественно на стадиях индексирования и ранжирования.

INDEXING – Индексирование и извлечение признаков
Большая часть работы по оценке источников и кластеризации происходит на этом этапе или в ходе офлайн-обработки данных.

  • Оценка Источников: Система вычисляет метрики качества, важности и экспертизы (Source Term Vector) для источников. Происходит идентификация Selected Sources.
  • Обработка Документов: Определяется время публикации (для оценки свежести) и оригинальность контента (путем сравнения с другими документами).
  • Кластеризация: Документы группируются в кластеры, вычисляются центроиды кластеров.

RANKING – Ранжирование
Основное применение патента происходит во время обработки запроса.

  • Система выбирает документы-кандидаты.
  • Для каждого документа вычисляется оценка с использованием параметров документа/источника и параметров кластера.
  • Происходит расчет Cluster Score (например, с использованием взвешенной системы бинов для свежести).
  • Итоговая оценка документа интегрирует все эти сигналы.

RERANKING – Переранжирование
На этом этапе вычисленные оценки сравниваются с пороговыми значениями (Threshold) для включения или исключения документа из финальной выборки.

Входные данные:

  • Запрос пользователя.
  • Документы-кандидаты.
  • Предварительно рассчитанные метрики источников (Качество, Важность, Экспертиза, Source Term Vector).
  • Данные о кластерах и их центроиды.
  • Временные метки публикации документов.

Выходные данные:

  • Отсортированный список документов с итоговыми оценками ранжирования.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на новостные статьи (news articles), которые прямо упоминаются в патенте, и другой контент, для которого важна своевременность (QDF).
  • Специфические запросы: Запросы, связанные с текущими событиями, трендами и темами, где важна свежесть и разнообразие мнений.
  • Конкретные ниши или тематики: Ниши, где критически важна авторитетность и качество источника (например, YMYL), а также ниши с высокой частотой публикаций (новости, спорт, финансы).
  • Географические факторы: Патент явно учитывает географию, указывая, что важность источника может зависеть от его местоположения относительно события (например, местная новостная организация для местного события). Также учитывается международное разнообразие источников в кластере.

Когда применяется

  • Условия работы: Алгоритм применяется при обработке поисковых запросов для ранжирования набора документов.
  • Триггеры и пороги: Система использует несколько порогов:
    • Порог для определения Selected Source в категории.
    • Порог для формирования кластера (например, X документов и Y источников по теме).
    • Порог оценки ранжирования (Threshold Score) для включения документа в финальную выдачу. Этот порог может зависеть от тематики запроса и количества найденных документов.

Пошаговый алгоритм

Процесс можно разделить на три основные части: оценка источников, кластеризация и ранжирование.

Процесс А: Оценка Источника (Офлайн/Индексирование)

  1. Идентификация источника.
  2. Обнаружение оригинальных статей: Система анализирует публикации источника, удаляя дубликаты (как внутренние, так и внешние, сравнивая текст и даты публикации).
  3. Анализ контента: Анализируется содержание оригинальных статей, формируются векторы документов (Document Vectors).
  4. Категоризация: Контент классифицируется по иерархической системе категорий (например, Спорт -> Футбол).
  5. Оценка источника в категории: Источнику присваивается оценка в рамках каждой категории на основе количества и свежести его оригинальных документов в этой категории.
  6. Определение Избранного Источника: Если оценка источника в категории превышает порог, он становится Selected Source для этой категории.
  7. Расчет Вектора Источника: Формируется Source Term Vector, описывающий общую экспертизу источника.

Процесс Б: Кластеризация (Офлайн/Индексирование)

  1. Определение тем кластеров: Анализируется контент от Selected Sources для определения ключевых тем и формирования начальных предметных кластеров (Subject Clusters).
  2. Сравнение документов: Контент других документов (от любых источников) сравнивается с предметными кластерами.
  3. Включение в кластер: Если контент документа соответствует теме кластера, документ включается в него.
  4. Определение Центроида: Вычисляется или обновляется Centroid кластера путем усреднения векторов терминов документов в кластере.

Процесс В: Ранжирование (Время запроса)

  1. Получение запроса.
  2. Выбор документов: Отбирается множество релевантных документов (qualified documents).
  3. Анализ документов и источников: Для каждого документа анализируются параметры:
    • Важность источника (учитывая географию, статистику циркуляции/просмотров).
    • Свежесть документа (время публикации относительно события).
    • Оригинальность документа.
    • Качество источника (награды, сторонние рейтинги).
    • Экспертиза источника (сравнение запроса с Source Term Vector).
  4. Анализ кластеров: Если документ принадлежит к кластеру, анализируются параметры кластера для расчета Cluster Score:
    • Разнообразие источников (количество, международное разнообразие).
    • Важность источников в кластере.
    • Свежесть освещения (Recency of Coverage): Документы распределяются по временным интервалам (бинам), каждому бину присваивается вес (например, <1 часа = вес 24; >24 часов = вес -1). Cluster Score по свежести рассчитывается как взвешенная сумма.
    • Разнообразие статей (количество оригинальных документов).
    • Экспертиза кластера (сравнение запроса с Centroid).
  5. Вычисление оценки: Для каждого документа вычисляется итоговая оценка на основе параметров документа, источника и кластера.
  6. Сравнение с порогом: Оценка сравнивается с пороговым значением.
  7. Формирование выдачи: Документы, превысившие порог, включаются в избранную группу и сортируются по оценке.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документов используется для определения релевантности, формирования векторов документов (Document Vectors) и векторов источников (Source Term Vectors), а также для выявления дубликатов (сравнение текста).
  • Технические факторы: Временные метки (time stamp) документов используются для определения времени публикации, что критично для расчета свежести и определения оригинальности.
  • Поведенческие факторы (Косвенно): Упоминается, что важность источника может вычисляться на основе количества просмотров или "хитов" (number of views or hits), полученных источником.
  • Временные факторы: Возраст документа, время между событием и публикацией (time lag).
  • Географические факторы: Географическое положение источника относительно события (повышение местных источников для местных новостей). Страна происхождения источника (для международного разнообразия в кластере).
  • Внешние данные: Статистика циркуляции (circulation statistics), награды, полученные источником, и рейтинги третьих сторон (ranked by a third party) используются для оценки качества и важности источника.

Какие метрики используются и как они считаются

  • Source Importance (Важность источника): Может основываться на статистике циркуляции, просмотрах, географической релевантности или категоризации по уровням (tiers).
  • Source Quality (Качество источника): Может основываться на наградах или сторонних рейтингах.
  • Source Expertise (Экспертиза источника): Определяется с помощью Source Term Vector (взвешенный набор терминов, описывающих публикации источника).
  • Freshness (Свежесть документа): Измеряется как временной лаг между событием и публикацией.
  • Originality (Оригинальность): Определяется путем сравнения текста и выявления самой ранней даты публикации среди похожих документов.
  • Cluster Score (Оценка кластера): Агрегированная метрика, включающая:
    • Diversity of Sources: Количество источников, количество стран.
    • Recency of Coverage (Свежесть кластера): Взвешенная сумма по оригинальным документам. Используется система бинов (bins) с разными весовыми коэффициентами (weighting factor) для разных временных интервалов (например, более свежие документы имеют больший вес).
    • Diversity of Articles: Общее количество документов и количество оригинальных документов.
  • Thresholds (Пороги): Используются для определения Selected Sources и для финального отбора ранжированных документов.

Выводы

  1. Многофакторная оценка качества: Патент описывает сложную систему ранжирования, которая выходит за рамки простой текстовой релевантности. Оценка базируется на трех столпах: качество документа (свежесть, оригинальность), качество источника (важность, экспертиза, репутация) и контекст (оценка кластера).
  2. Критичность оригинального контента: Оригинальность является ключевым фактором как при оценке отдельного документа, так и при оценке источника (Selected Sources определяются по оригинальным статьям) и кластера (разнообразие измеряется по оригинальным статьям). Дублированный или синдицированный контент пессимизируется.
  3. Детализированный расчет свежести (QDF): Свежесть рассчитывается очень гранулярно. Система использует взвешенные временные интервалы (бины), придавая значительно больший вес недавно опубликованному контенту. Вес может быть даже отрицательным для старого контента.
  4. Тематическая и региональная экспертиза: Система оценивает экспертизу источника не только в целом, но и в конкретных категориях (через категоризацию оригинального контента) и регионах (Source Term Vector). Важность источника также может меняться в зависимости от географии события.
  5. Влияние кластера на ранжирование: Документы, являющиеся частью важного кластера (освещаемого многими авторитетными и разнообразными источниками), получают повышение в ранжировании через Cluster Score. Это означает, что освещение популярных тем может дать преимущество.
  6. Концепция "Золотых Источников": Система идентифицирует авторитетные источники (Selected Sources) и может использовать их контент для определения основных тем и формирования кластеров, что подчеркивает важность достижения статуса доверенного эксперта в своей нише.

Практика

Best practices (это мы делаем)

  • Фокус на оригинальном репортаже и контенте: Инвестируйте в создание уникального контента. Система идентифицирует и вознаграждает оригинальные документы и источники, которые их публикуют. Старайтесь быть первым источником информации.
  • Развитие тематической экспертизы (Topical Authority): Сосредоточьтесь на глубоком освещении конкретных категорий, чтобы система классифицировала ваш сайт как Selected Source в этой нише. Это достигается публикацией большого количества свежих оригинальных статей по теме.
  • Оптимизация скорости публикации (для новостей): Для актуального контента скорость критична. Система использует гранулярные временные бины с высокими весами для свежего контента (например, опубликованного в течение часа). Минимизируйте time lag между событием и публикацией.
  • Улучшение сигналов качества и важности источника: Работайте над повышением авторитетности сайта. Патент упоминает внешние сигналы: награды, рейтинги третьих сторон, статистику циркуляции/просмотров. Убедитесь, что эти достижения заметны.
  • Использование точных временных меток: Убедитесь, что система может корректно определить время публикации (time stamp) для расчета свежести и оригинальности.
  • Географическая релевантность (для локальных изданий): Если вы освещаете местные события, подчеркивайте свою географическую привязку. Система может повысить важность местных источников для локальных новостей.

Worst practices (это делать не надо)

  • Синдикация контента и рерайтинг: Публикация неоригинального контента негативно влияет как на ранжирование статьи, так и на оценку источника. Система активно выявляет дубликаты.
  • Медленная публикация актуального контента: Задержка в публикации приводит к потере веса по фактору свежести и риску того, что ваш контент будет признан неоригинальным, если кто-то опубликует материал раньше.
  • Поверхностное освещение множества тем: Попытка охватить все без достаточной глубины не позволит достичь статуса Selected Source ни в одной из категорий.
  • Игнорирование репутации источника: Фокус только на контенте страницы без работы над общим авторитетом и репутацией сайта ограничивает потенциал ранжирования, так как Source Quality и Source Importance являются ключевыми факторами.

Стратегическое значение

Этот патент закладывает основу для многих концепций, которые сегодня известны как E-E-A-T и QDF. Он подтверждает, что Google давно рассматривает качество и экспертизу на уровне источника (сайта/издателя), а не только на уровне отдельной страницы. Стратегически важно понимать, что оригинальность и свежесть являются не просто бонусами, а фундаментальными требованиями для ранжирования в конкурентных и динамичных нишах. Долгосрочная стратегия должна быть направлена на то, чтобы стать признанным экспертом (Selected Source) в четко определенных тематических категориях.

Практические примеры

Сценарий: Ранжирование новостной статьи о спортивном событии

  1. Событие: Завершен футбольный матч.
  2. Действия Издателя А (Оптимально): Крупное спортивное издание (высокая Source Importance) публикует детальный анализ матча через 15 минут после окончания (высокая Freshness, вес бина 24). Статья является оригинальной (Originality=True). Издание имеет сильный Source Term Vector по теме "Футбол".
  3. Действия Издателя Б (Неоптимально): Небольшой блог (низкая Source Importance) публикует краткий пересказ статьи Издателя А через 2 часа (низкая Freshness, вес бина 15). Статья признана неоригинальной.
  4. Кластеризация: Обе статьи попадают в кластер "Результаты матча X". Кластер имеет высокий Cluster Score, так как тему освещают многие авторитетные источники (Diversity/Importance).
  5. Результат ранжирования: Статья Издателя А получает максимальный балл за счет комбинации авторитетности источника, максимальной свежести, оригинальности и бонуса от Cluster Score. Статья Издателя Б ранжируется значительно ниже из-за низкого авторитета, меньшей свежести и отсутствия оригинальности.

Вопросы и ответы

Что такое "Selected Source" (Избранный источник) или "Golden Source"?

Это источник, который система признала авторитетным или экспертным в определенной тематической категории. Этот статус присваивается на основе анализа количества и свежести *оригинальных* документов, которые источник публикует в данной категории. Контент от таких источников используется для определения основных тем и формирования кластеров.

Как именно система определяет оригинальность документа?

Система сравнивает текст документа с другими документами. Если обнаруживается значительное совпадение текста (close match), система ищет документ с самой ранней датой публикации (earliest publication date). Этот документ считается оригиналом, а остальные — дубликатами.

Как рассчитывается свежесть? Что такое система "бинов" (bins)?

Свежесть рассчитывается с использованием взвешенной системы временных интервалов (бинов). Документы распределяются по бинам в зависимости от их возраста (например, <60 минут, 1-2 часа, 2-4 часа и т.д.). Каждому бину присваивается весовой коэффициент. Более свежие бины имеют значительно больший вес (например, 24), а старые могут иметь минимальный или даже отрицательный вес (например, -1). Итоговая оценка свежести (например, для кластера) — это взвешенная сумма.

Что такое "Source Term Vector" и как это связано с Тематическим Авторитетом (Topical Authority)?

Source Term Vector — это профиль источника, описывающий типы контента, который он публикует, часто в виде взвешенного набора терминов. Он отражает тематическую и региональную направленность источника. Это прямой механизм для измерения Тематического Авторитета: чем сильнее вектор источника соответствует запросу, тем выше его экспертиза по данной теме.

Как оценка кластера (Cluster Score) влияет на ранжирование моей отдельной статьи?

Cluster Score является компонентом итоговой оценки вашей статьи. Высокий Cluster Score означает, что тема широко освещается разнообразными и авторитетными источниками, и что освещение является свежим. Если ваша статья является частью такого "важного" кластера, она получает значительное повышение в ранжировании.

Какие сигналы определяют "Качество Источника" (Source Quality) и "Важность Источника" (Source Importance) в этом патенте?

Для Качества Источника упоминаются награды, полученные источником, и рейтинги третьих сторон. Для Важности Источника упоминаются статистика циркуляции, количество просмотров или хитов, а также географическая релевантность источника событию (местные источники могут быть важнее для местных новостей).

Применяются ли эти принципы только к Google News?

Хотя патент часто ссылается на новостные статьи и явно ориентирован на сценарии, типичные для Google News или Top Stories, описанные принципы (качество источника, экспертиза, оригинальность, свежесть) являются фундаментальными для поиска Google в целом. Они лежат в основе систем QDF (Query Deserves Freshness) и оценки авторитетности (E-E-A-T) в основном поиске.

Что такое центроид кластера (Centroid) и для чего он используется?

Центроид — это усредненное векторное представление всех документов в кластере. Он фактически является сводкой или описанием главной темы кластера. Система сравнивает центроид с поисковым запросом, чтобы определить "экспертизу кластера" или его общую релевантность запросу.

Как бороться с тем, что конкуренты копируют мой контент и ранжируются выше?

Согласно патенту, система должна идентифицировать ваш контент как оригинальный, если он был опубликован первым. Убедитесь, что у вас настроены корректные и доступные для сканирования временные метки публикации. Также работайте над повышением общего качества и важности вашего источника, чтобы получить преимущество по этим факторам.

Имеет ли значение количество статей, опубликованных источником?

Да, имеет. Количество *оригинальных* статей в определенной категории является фактором для определения того, станет ли источник "Избранным источником" (Selected Source) в этой категории. Также общее количество документов и оригинальных документов в кластере влияет на оценку кластера.

Похожие патенты

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google кластеризует новостные результаты для генерации блоков "Связанные темы" и "Категории"
Google анализирует результаты поиска по новостям и группирует статьи, освещающие одно и то же событие, в кластеры. Затем система извлекает общие ключевые слова из этих кластеров для формирования блока "Связанные темы" (Related Topics), помогая уточнить запрос. Одновременно определяется широкая категория новостей (например, "Спорт"), из которой предлагается дополнительный контент для расширения контекста.
  • US11194868B1
  • 2021-12-07
  • Семантика и интент

  • Свежесть контента

  • SERP

Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование
Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.
  • US8983970B1
  • 2015-03-17
  • EEAT и качество

  • Свежесть контента

  • SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google выбирает главное изображение для новостных статей и кластеров в Google News и Top Stories
Google использует многофакторную систему для выбора наилучшего изображения, представляющего новостную статью или кластер. Система фильтрует неподходящие изображения (рекламу, логотипы), анализирует контекст (подписи, Alt-текст, расположение рядом с заголовком) и оценивает технические параметры (размер, формат), чтобы выбрать изображение для показа в результатах поиска новостей.
  • US8775436B1
  • 2014-07-08
  • Мультимедиа

  • Семантика и интент

  • SERP

Популярные патенты

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования
Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.
  • US8832083B1
  • 2014-09-09
  • Поведенческие сигналы

  • SERP

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.
  • US8825646B1
  • 2014-09-02
  • Ссылки

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика
Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.
  • US9031929B1
  • 2015-05-12
  • Поведенческие сигналы

  • EEAT и качество

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов
Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.
  • US9342615B2
  • 2016-05-17
  • Техническое SEO

  • SERP

  • Ссылки

seohardcore