SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

METHODS AND APPARATUS FOR CLUSTERING NEWS CONTENT (Методы и аппаратура для кластеризации новостного контента)
  • US7568148B1
  • Google LLC
  • 2003-06-30
  • 2009-07-28
  • Свежесть контента
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

Описание

Какую проблему решает

Патент решает проблему организации и ранжирования огромного объема новостного контента из множества источников разного качества. Задача — помочь пользователю быстро найти сбалансированную, актуальную и высококачественную подборку документов по интересующей теме, отфильтровав дубликаты, устаревший или поверхностный контент, и обеспечив разнообразие точек зрения.

Что запатентовано

Запатентована комплексная система для агрегации, кластеризации и ранжирования новостного контента. Ядром изобретения является многофакторная модель оценки качества источника (Source Score), основанная на анализе публикуемых им документов. Эта оценка учитывает оригинальность контента (Originality), скорость публикации относительно события (Freshness) и сигналы авторитетности (Quality, например, ссылки и просмотры). Также описаны методы группировки статей в кластеры и алгоритмы ранжирования, где Source Score используется для модификации сигналов свежести.

Как это работает

Система работает в несколько этапов:

  • Оценка Источников: Система анализирует публикации источника, определяя процент оригинального (канонического) контента, частоту публикаций и скорость реакции на события. Учитываются внешние сигналы качества (ссылки, просмотры). Вычисляется Source Score, и источник категоризируется (например, Golden Source).
  • Кластеризация: Документы анализируются (используя Document Vectors и Named Entities) и группируются в кластеры (сюжеты) по темам, а затем в более узкие суб-кластеры.
  • Ранжирование Кластеров: Кластеры оцениваются по свежести документов в них, качеству представленных источников, количеству статей и разнообразию.
  • Ранжирование Документов: Внутри кластера документы ранжируются по Modified Recency Score. Эта оценка свежести корректируется качеством источника: статьи от Golden Sources получают значительное преимущество (выглядят «свежее»).

Актуальность для SEO

Высокая. Этот патент, одним из авторов которого является Кришна Бхарат (создатель Google News), описывает фундаментальную архитектуру новостного поиска. Несмотря на дату подачи (2003 г.), заложенные принципы — оценка оригинальности, скорости публикации (Time-to-Web) и авторитетности источника — остаются ключевыми факторами для ранжирования в Google News и блоках Top Stories в 2025 году. Хотя конкретные методы анализа (например, TFIDF) могли эволюционировать, общая философия сохраняет актуальность.

Важность для SEO

Патент имеет критическое значение для SEO-стратегии новостных изданий. Он детально описывает, как Google определяет качество источника для новостного контента и как эта оценка напрямую влияет на ранжирование. Понимание механизмов оценки Originality, Freshness и использования этих метрик для бустинга/пессимизации (через Modified Recency Score) является ключом к видимости в Google News и Top Stories.

Детальный разбор

Термины и определения

Canonical Document (Канонический документ)
Оригинальная версия документа. Определяется как самая ранняя опубликованная версия среди группы идентичных или почти идентичных документов (дубликатов).
Centroid (Центроид)
Вектор, который описывает центральную тему кластера. Вычисляется путем усреднения векторов терминов (Document Vectors) документов внутри кластера.
Cluster (Кластер)
Группа документов из разных источников, посвященных одной теме или новостному сюжету.
Document Vector (Вектор документа)
Математическое представление содержания документа, описывающее его тему. Используется для измерения схожести между документами.
Freshness (Свежесть)
Метрика качества источника. Измеряется двумя способами: (1) частота, с которой источник генерирует новый канонический контент; (2) скорость публикации документа после соответствующего события (среднее время задержки).
Golden Source (Золотой источник)
Высшая категория качества источника. Присваивается источникам, которые публикуют значительное количество канонических документов и соответствуют высоким критериям качества.
Measures of Quality (Показатели качества)
Метрики, используемые для оценки качества источника. Включают количество просмотров документа за период времени или количество ссылок, указывающих на документ.
Modified Recency Score (Модифицированная оценка свежести)
Оценка свежести документа, скорректированная с учетом качества источника (Source Score) и/или размера суб-кластера. Используется для финального ранжирования документов внутри кластера.
Named Entities (Именованные сущности)
Имена людей, мест, событий или организаций. Используются при кластеризации с повышенным весом.
Originality (Оригинальность)
Метрика качества источника, основанная на количестве канонических документов, которые он производит.
Source Score (Оценка источника)
Общая оценка качества источника, основанная на агрегации метрик Originality, Freshness и Quality.
Sub-cluster (Суб-кластер)
Более узкая группа документов внутри кластера, имеющих очень высокую степень сходства.

Ключевые утверждения (Анализ Claims)

Хотя патент описывает полную систему кластеризации, все 28 пунктов формулы изобретения (Claims) сосредоточены исключительно на методе оценки источника (Source Scoring).

Claim 1 (Независимый пункт): Описывает основной метод оценки источника.

  1. Система идентифицирует источник и обнаруживает множество опубликованных им документов.
  2. Вычисляются показатели свежести (measures of freshness). Ключевое определение: свежесть основана на определении разницы во времени между моментом наступления событий и временем публикации источником документов, относящихся к этим событиям.
  3. Вычисляются показатели качества (measures of quality). Ключевое определение: качество основано как минимум на одном из: (а) количестве просмотров документов за период времени ИЛИ (б) количестве ссылок, указывающих на документы.
  4. Определяется оценка источника (Source Score) на основе показателей свежести и качества.

Claim 5 (Зависимый от 1): Уточняет, что Source Score также основывается на оригинальности (Originality) множества документов.

Claim 6 (Зависимый от 1): Уточняет альтернативный метод расчета свежести. Freshness также может основываться на измерении частоты, с которой источник генерирует канонические документы (canonical document).

Claim 10 (Зависимый от 1): Описывает применение Source Score. Метод включает категоризацию источника на основе полученной оценки.

Claim 25 (Независимый пункт): Описывает аналогичный метод, специфичный для новостных источников, с дополнительным шагом удаления дубликатов перед анализом.

Где и как применяется

Изобретение описывает систему, которая функционирует преимущественно в рамках специализированного новостного поиска (Google News) и влияет на основной поиск через блок Top Stories.

CRAWLING – Сканирование и Сбор данных
Система должна активно сканировать новостные источники для своевременного обнаружения контента и фиксации времени публикации (timestamp).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная предварительная обработка:

  • Анализ контента: Извлечение Document Vectors, Named Entities, заголовков. Определение жанра документа.
  • Кластеризация: Группировка документов в кластеры и суб-кластеры. Идентификация дубликатов и определение Canonical Document. Расчет центроидов кластеров.
  • Оценка Источника (Периодически/Офлайн): Анализ корпуса документов источника для расчета Source Score (Freshness, Originality, Quality) и присвоения категории (например, Golden Source). Это включает анализ просмотров и ссылок.

RANKING – Ранжирование (Новостная вертикаль)
Это основной этап применения алгоритмов ранжирования, описанных в патенте.

  1. Ранжирование кластеров: Оценка кластеров на основе свежести контента, качества участвующих источников, объема освещения.
  2. Ранжирование документов: Сортировка документов внутри кластера с использованием Modified Recency Score.

RERANKING – Переранжирование
Применяется для обеспечения разнообразия. Система может понижать кластеры, чьи центроиды похожи на центроиды ранее просмотренных кластеров. Внутри кластера система обеспечивает разнообразие, продвигая лучший документ из каждого суб-кластера.

На что влияет

  • Конкретные типы контента: Новостные статьи, репортажи, колонки мнений (op/ed), расследования.
  • Специфические запросы: Запросы, связанные с текущими событиями (QDF - Query Deserves Freshness), которые активируют новостные блоки.
  • Определенные форматы контента: Преимущественно текст, но упоминаются аудио и видео новости. Длина документа и структура заголовка имеют значение.
  • Географические и тематические факторы: Патент отмечает, что оценка источника может быть относительной. Локальные источники могут получить приоритет для локальных новостей; специализированные источники (например, MTV для музыки) — в своих нишах.

Когда применяется

  • Условия работы алгоритма: Алгоритмы оценки источников работают периодически на основе накопленных данных (например, за последний месяц). Алгоритмы кластеризации и ранжирования работают непрерывно по мере поступления нового контента и при обработке запросов пользователей.
  • Временные аспекты: Свежесть критична. Система использует временные окна (bins) для оценки актуальности; документы старше определенного порога (например, 24 часа) могут значительно терять в весе.

Пошаговый алгоритм

Патент описывает три основных процесса: Оценка источника, Ранжирование кластеров и Ранжирование документов.

Процесс А: Оценка Источника (Source Scoring)

  1. Сбор данных: Сбор документов, опубликованных источником за период.
  2. Анализ Оригинальности (Originality): Сравнение текстов для выявления дубликатов и перепечаток. Определение Canonical Document по самой ранней дате публикации.
  3. Анализ Свежести (Freshness):
    • Скорость (Time-to-Web): Измерение среднего времени задержки между событием и публикацией статьи о нем.
    • Частота: Измерение частоты генерации канонических документов за период.
  4. Анализ Качества (Quality): Оценка на основе внешних сигналов: статистика циркуляции, количество просмотров/хитов, количество ссылок на документы источника.
  5. Расчет и Категоризация: Агрегирование метрик в Source Score. Присвоение источнику категории (например, Golden Source).

Процесс Б: Ранжирование Кластеров (Cluster Ranking)

  1. Идентификация темы и кластеров.
  2. Оценка свежести кластера: Расчет взвешенной суммы канонических документов. Используется система «корзин» (bins) по времени с разными весами (например, <60 мин вес 24, >24 часа вес -1).
  3. Оценка качества источников кластера: Агрегированная оценка качества источников в кластере. Учитывается как абсолютный рейтинг, так и релевантность теме (география, специализация).
  4. Оценка объема и разнообразия: Учет количества канонических документов и количества суб-кластеров.
  5. Сортировка кластеров: Формирование итогового рейтинга (Cluster Score).
  6. Применение разнообразия (Reranking): Сравнение центроидов топовых кластеров с центроидами ранее просмотренных. Понижение схожих кластеров для избежания избыточности.

Процесс В: Ранжирование Документов в Кластере (Document Ranking)

  1. Фильтрация: Удаление дубликатов (остаются только канонические документы).
  2. Базовая оценка: Присвоение базовой оценки свежести (например, возраст в часах). Оценка контента (длина документа, анализ заголовка, жанр).
  3. Корректировка по качеству источника: Расчет Modified Recency Score.
    • Пример: Golden Source получает буст (возраст уменьшается: 10 часов - X), источник низкого качества получает пенальти (возраст увеличивается: 10 часов + Y).
  4. Первичная сортировка: Сортировка всех документов по Modified Recency Score.
  5. Обеспечение разнообразия: Выбор лучшего документа (с лучшим Modified Recency Score) из каждого суб-кластера.
  6. Корректировка по размеру суб-кластера: Дополнительная модификация Modified Recency Score на основе количества документов в суб-кластере (больше документов = выше важность = лучше оценка).
  7. Финальное отображение.

Какие данные и как использует

Данные на входе

  • Контентные факторы:
    • Текст документа (для кластеризации).
    • Заголовки (анализируется длина, наличие общих терминов, наличие имен собственных, совпадение с центроидом кластера).
    • Начальные предложения и Именованные сущности (Named Entities) (используются с повышенным весом при кластеризации).
    • Длина документа.
  • Технические факторы:
    • Время публикации (timestamp) – критично для расчета свежести и определения канонического документа.
  • Ссылочные факторы:
    • Количество ссылок, указывающих на документы источника (используется для оценки Quality источника).
  • Поведенческие факторы (Usage Data):
    • Количество просмотров или хитов (views/hits) документов источника (используется для оценки Quality источника).
    • Статистика циркуляции (Circulation statistics) источника.
  • Временные факторы:
    • Возраст документа.
    • Время наступления события (для расчета скорости реакции источника).

Какие метрики используются и как они считаются

  • Source Score: Взвешенная агрегация метрик Freshness, Originality и Quality.
  • Freshness (Уровень источника): Измеряется двумя способами: (1) Средняя задержка между событием и публикацией (Time-to-Web); (2) Частота генерации канонических документов за период.
  • Quality (Уровень источника): Основана на просмотрах, ссылках, статистике циркуляции или ручной оценке.
  • Cluster Score (Оценка кластера): Агрегация показателей свежести документов, качества источников, количества документов и суб-кластеров.
  • Свежесть Кластера: Взвешенная сумма по документам в кластере, где вес зависит от возраста документа (например, <60 мин = 24, >24 ч = -1).
  • Modified Recency Score: Базовая оценка свежести, скорректированная с учетом Source Quality и размера суб-кластера. ModifiedRecency=Recency±f(SourceScore)±f(SubClusterSize)ModifiedRecency = Recency \pm f(SourceScore) \pm f(SubClusterSize). Высокий Source Score уменьшает возраст (улучшает позицию).
  • Методы анализа текста: Упоминаются TFIDF для сравнения Document Vectors. Named Entities, заголовки и начальные предложения имеют повышенный вес.

Выводы

  1. Три столпа оценки новостного источника: Оригинальность, Скорость, Авторитет. Патент детально описывает расчет Source Score на основе этих трех факторов.
    • Originality: Система ценит источники, производящие оригинальный контент (Canonical Documents).
    • Freshness (Скорость): Измеряется скорость реакции источника на событие (Time-to-Web) и общая частота публикаций.
    • Quality (Авторитет): Используются конкретные внешние сигналы: входящие ссылки на статьи и количество просмотров статей.
  2. Агрессивное преимущество для качественных источников (Golden Sources): Source Score используется для модификации оценки свежести документа (Modified Recency Score). Статья от Golden Source получает значительный буст (ее возраст искусственно уменьшается), а статья от низкокачественного источника пессимизируется. Это позволяет авторитетным источникам опережать менее авторитетные, даже если их статьи опубликованы позже.
  3. Многоуровневая архитектура ранжирования: Ранжирование происходит на уровне кластера (важность сюжета) и на уровне документа (лучшая статья о сюжете). Успех требует оптимизации на всех уровнях.
  4. Важность технических и контентных факторов: Корректные временные метки (timestamp) критичны. Также система учитывает длину статьи (предпочитая более длинные) и качество заголовка (предпочитая содержащие сущности и не содержащие общих фраз).
  5. Обеспечение разнообразия (Diversity): Система принудительно обеспечивает разнообразие на двух уровнях: (1) На уровне кластеров (понижая похожие на уже просмотренные); (2) Внутри кластера (продвигая лучший документ из каждого суб-кластера, чтобы показать разные точки зрения).

Практика

Best practices (это мы делаем)

  • Фокус на оригинальном контенте (Be the Source): Необходимо стремиться быть Canonical Source. Инвестиции в оригинальную журналистику повышают метрику Originality, что ведет к более высокому Source Score и потенциальному статусу Golden Source.
  • Максимизация скорости публикации (Time-to-Web): Критически важно минимизировать время между событием и публикацией. Это напрямую влияет на метрику Freshness источника и базовую оценку свежести статьи.
  • Наращивание авторитетности и популярности статей: Патент прямо указывает на использование просмотров (views) и входящих ссылок на статьи для определения Quality источника. Необходимо работать над дистрибуцией контента и стимулировать цитирование.
  • Техническая точность временных меток: Обеспечить корректную передачу точного времени публикации (timestamp) в метаданных и/или News Sitemap. Это основа для всех расчетов свежести и определения каноничности.
  • Оптимизация контента и заголовков: Писать подробные материалы (длина имеет значение). Создавать конкретные, информативные заголовки с использованием Named Entities и ключевых слов, избегая общих фраз.
  • Развитие локальной и нишевой экспертизы: Система может повышать рейтинг локальных или специализированных источников, если они релевантны теме запроса. Развитие авторитета в конкретных нишах является рабочей стратегией.

Worst practices (это делать не надо)

  • Перепечатка контента новостных агентств или рерайтинг: Публикация неоригинального контента негативно сказывается на метрике Originality и снижает Source Score. Система идентифицирует такой контент как дубликат.
  • Медленная публикация: Задержки в публикации новостей после события напрямую ухудшают метрику Freshness источника и снижают ранжирование статей.
  • Использование общих или кликбейтных заголовков: Патент предполагает пессимизацию за использование общих фраз (например, «Сводка новостей») и ценит длину, конкретику и наличие сущностей в заголовке.
  • Публикация коротких, поверхностных материалов (Thin Content): Система может предпочитать более длинные документы при ранжировании внутри кластера.
  • Игнорирование ссылочного продвижения новостного контента: Отсутствие цитирований и ссылок приведет к низкой оценке Quality источника, что повлечет за собой пессимизацию статей при ранжировании (ухудшение Modified Recency Score).

Стратегическое значение

Патент определяет стратегический ландшафт для SEO в новостной индустрии. Он подтверждает, что для доминирования в Google News и Top Stories необходима комбинация скорости, авторитетности и оригинальности. Система построена так, чтобы алгоритмически вознаграждать качественную журналистику. Стратегия должна быть направлена на создание репутации надежного первоисточника (Golden Source).

Практические примеры

Сценарий: Ранжирование двух статей об одном событии с использованием Modified Recency Score

Событие произошло в 12:00.

  • Источник А (Golden Source): Авторитетное издание с высоким Source Score. Публикует статью в 12:20 (Возраст 20 минут).
  • Источник Б (Низкое качество): Сайт с низким Source Score. Публикует заметку в 12:10 (Возраст 10 минут).

Процесс ранжирования:

  1. Расчет базовой свежести: Источник А = 20 мин. Источник Б = 10 мин.
  2. Модификация по качеству источника:
    • Источник А: Modified Recency Score = 20 мин - X (буст за качество). Например, 20 - 15 = 5 минут.
    • Источник Б: Modified Recency Score = 10 мин + Y (пессимизация). Например, 10 + 15 = 25 минут.
  3. Результат: Система сортирует по Modified Recency Score. Статья Источника А (5 мин) будет ранжироваться выше статьи Источника Б (25 мин), несмотря на более позднюю публикацию.

Вопросы и ответы

Как именно измеряется свежесть (Freshness) источника?

Патент описывает два компонента Freshness источника. Первый — это скорость реакции (Time-to-Web): среднее время, которое проходит между наступлением события и публикацией статьи о нем данным источником. Второй — это частота: как часто источник генерирует канонический (оригинальный) контент за определенный период времени. Оба фактора важны для высокого Source Score.

Что такое «Канонический документ» и как он определяется?

Canonical Document — это первая опубликованная версия статьи. Система сравнивает тексты похожих статей, сгруппированных в суб-кластер. Каноническим считается тот, у кого самая ранняя дата публикации (timestamp). Производство канонических документов является основой метрики Originality источника.

Как качество источника влияет на ранжирование отдельной статьи?

Качество источника напрямую модифицирует оценку свежести статьи (Modified Recency Score). Если статья опубликована источником высокого качества (Golden Source), ее оценка свежести улучшается (бонус, возраст уменьшается). Если источником низкого качества — ухудшается (пенальти, возраст увеличивается). Это позволяет авторитетной, но чуть более старой статье обойти более свежую статью с низкокачественного сайта.

Какие внешние сигналы Google использует для оценки качества (Quality) новостного источника?

Патент явно указывает в Claim 1 на два основных сигнала для определения Quality: количество ссылок, указывающих на документы источника, и количество просмотров (views/hits), которые получают документы источника. В описании также упоминаются статистика циркуляции (circulation statistics) и ручная оценка.

Что такое «Golden Source» и как им стать?

Golden Source — это высшая категория качества, присваиваемая источникам с высоким Source Score. Патент предполагает, что эта категория предназначена для источников, которые публикуют «значительное количество канонических документов». Чтобы достичь этого статуса, нужно фокусироваться на оригинальной журналистике, скорости и наращивать авторитетность (ссылки, просмотры).

Имеет ли значение длина статьи для ранжирования в Google News?

Да. При ранжировании документов внутри кластера система анализирует контент, и одним из факторов является длина документа. Патент утверждает, что чем длиннее документ, тем выше он может быть оценен. Это говорит о предпочтении подробных материалов поверхностным заметкам.

Как оптимизировать заголовки новостных статей согласно патенту?

Патент предлагает несколько критериев для оценки заголовков. Хороший заголовок должен быть достаточно длинным, содержать имена собственные (Proper Nouns / Named Entities) и совпадать с центроидом кластера (точно отражать тему сюжета). Следует избегать общих терминов, таких как «Сводка новостей», так как за них предусмотрена пессимизация.

Как система обеспечивает разнообразие мнений в рамках одного новостного сюжета?

Разнообразие достигается за счет разделения кластера на суб-кластеры (Sub-clusters), которые группируют статьи с очень похожей точкой зрения. При отображении результатов система выбирает лучший (с наилучшим Modified Recency Score) документ из каждого суб-кластера. Это гарантирует, что пользователь увидит разные взгляды на событие.

Может ли локальное издание обогнать федеральное в Google News?

Да. Патент указывает, что важность источника может быть повышена в зависимости от его релевантности конкретному сюжету, включая географическую релевантность. Если событие локальное, местное издание, которое быстро и детально его освещает, может получить приоритет над федеральными СМИ в рамках этого новостного кластера.

Если я перепечатываю новости из Reuters или AP, как это повлияет на мой сайт?

Это негативно повлияет на ваш Source Score. Система идентифицирует перепечатки и исключает их при расчете метрики Originality. Источники, состоящие преимущественно из перепечаток, получат низкую оценку качества и, как следствие, их статьи будут пессимизироваться при ранжировании внутри новостных кластеров.

Похожие патенты

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента
Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.
  • US8090717B1
  • 2012-01-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google агрегирует новости, блоги и форумы в «Кластеры историй» и ранжирует комментарии на основе аккредитации и экспертности авторов
Патент Google, описывающий систему агрегации новостного контента из разных жанров (СМИ, блоги, форумы) в единые «Кластеры историй». Система ранжирует эти кластеры, учитывая жанр источника, и применяет сложный алгоритм для ранжирования комментариев, отдавая приоритет «аккредитованным» экспертам и лицам, непосредственно упомянутым в новостях.
  • US9760629B1
  • 2017-09-12
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google позволяет пользователям настраивать ранжирование и отбор источников в агрегаторе новостей (Google News)
Патент Google, описывающий механизм персонализации новостного агрегатора (Google News). Система позволяет пользователям создавать постоянные новостные разделы на основе запросов и настраивать правила ранжирования внутри них: выбирать предпочтительные источники, блокировать нежелательные, повышать статьи по ключевым словам или авторам, а также управлять сортировкой по свежести или важности.
  • US8676837B2
  • 2014-03-18
  • Персонализация

  • Свежесть контента

Как Google кластеризует новостные результаты для генерации блоков "Связанные темы" и "Категории"
Google анализирует результаты поиска по новостям и группирует статьи, освещающие одно и то же событие, в кластеры. Затем система извлекает общие ключевые слова из этих кластеров для формирования блока "Связанные темы" (Related Topics), помогая уточнить запрос. Одновременно определяется широкая категория новостей (например, "Спорт"), из которой предлагается дополнительный контент для расширения контекста.
  • US11194868B1
  • 2021-12-07
  • Семантика и интент

  • Свежесть контента

  • SERP

Как Google выбирает главное изображение для новостных статей и кластеров в Google News и Top Stories
Google использует многофакторную систему для выбора наилучшего изображения, представляющего новостную статью или кластер. Система фильтрует неподходящие изображения (рекламу, логотипы), анализирует контекст (подписи, Alt-текст, расположение рядом с заголовком) и оценивает технические параметры (размер, формат), чтобы выбрать изображение для показа в результатах поиска новостей.
  • US8775436B1
  • 2014-07-08
  • Мультимедиа

  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
  • US9767157B2
  • 2017-09-19
  • Семантика и интент

  • Техническое SEO

  • EEAT и качество

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента
Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.
  • US9213745B1
  • 2015-12-15
  • Семантика и интент

  • EEAT и качество

  • SERP

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска
Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.
  • US10210263B1
  • 2019-02-19
  • Ссылки

  • SERP

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии
Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.
  • US8051076B1
  • 2011-11-01
  • SERP

  • Поведенческие сигналы

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов
Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.
  • US9009153B2
  • 2015-04-14
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона
Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.
  • US8463772B1
  • 2013-06-11
  • Local SEO

  • Поведенческие сигналы

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
  • US9244985B1
  • 2016-01-26
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

seohardcore