Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google кластеризует новостные результаты для генерации блоков «Связанные темы» и «Категории»

    PROVIDING SUPPLEMENTAL INFORMATION IN NEWS SEARCH (Предоставление дополнительной информации в поиске по новостям)
    • US11194868B1
    • Google LLC
    • 2021-12-07
    • 2018-09-28
    2018 Knowledge Graph Индексация Патенты Google Семантика и интент

    Google анализирует результаты поиска по новостям и группирует статьи, освещающие одно и то же событие, в кластеры. Затем система извлекает общие ключевые слова из этих кластеров для формирования блока «Связанные темы» (Related Topics), помогая уточнить запрос. Одновременно определяется широкая категория новостей (например, «Спорт»), из которой предлагается дополнительный контент для расширения контекста.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему навигации пользователя в рамках вертикального поиска по новостям. Часто первоначальный запрос пользователя оказывается неточным или слишком широким, и он не находит нужную новость сразу (например, ищет общее событие, но интересуется конкретным его аспектом). Это вынуждает пользователя вручную уточнять запрос методом проб и ошибок. Изобретение улучшает пользовательский опыт, автоматически предлагая релевантные уточнения и связанный контент.

    Что запатентовано

    Запатентована система для генерации и отображения дополнительной информации (supplemental information) наряду с основными результатами поиска в новостной вертикали (News Search Engine). Система анализирует полученные результаты, группирует их в кластеры (clusters) на основе схожести (например, освещение одного события) и использует эти кластеры для определения «Связанных тем» (Related Topics) и общих «Категорий» (Categories). Цель — помочь пользователю сузить или расширить область поиска.

    Как это работает

    Механизм активируется после получения результатов поиска по новостному запросу:

    • Кластеризация: Система группирует новостные статьи в кластеры. Статьи в одном кластере обычно освещают одно и то же событие или тему.
    • Извлечение тем: Из каждого кластера извлекаются общие ключевые слова и фразы (common terms). Эти термины становятся кандидатами в Related Topics.
    • Ранжирование и выбор тем: Темы ранжируются (например, по популярности, свежести) и лучшие из них выбираются для показа в виде ссылок, уточняющих запрос.
    • Определение категорий: Система также определяет более широкие предопределенные категории (например, «Мировые новости», «Спорт»), связанные с запросом.
    • Отображение: Основные результаты и дополнительная информация (темы и категории) отображаются одновременно, но в разных областях интерфейса.

    Актуальность для SEO

    Высокая. Навигационные элементы и функции уточнения запроса играют ключевую роль в современном поиске, особенно в динамичной среде новостей. Описанные в патенте механизмы кластеризации новостей и извлечения связанных тем напрямую соотносятся с тем, как Google обрабатывает и отображает контент в Google News и блоках Top Stories.

    Важность для SEO

    Влияние на SEO значительное (7/10), но специфичное для издателей новостного контента (News SEO). Патент не описывает основной алгоритм ранжирования, но раскрывает механизм формирования навигационных блоков. Понимание того, как Google кластеризует статьи и какие термины он извлекает в качестве Related Topics, необходимо для максимизации видимости и охвата аудитории в экосистеме Google News.

    Детальный разбор

    Термины и определения

    Category (Категория)
    Широкая, предопределенная классификация новостного контента (например, «Мировые новости», «Новости США», «Спорт»). Может также относиться к разделу периодического издания (section of a periodical).
    Cluster / Search Cluster (Кластер)
    Группа результатов поиска (новостных статей), объединенных на основе схожести (similarities). Критерии схожести включают контент, тему, жанр или дату создания. Как правило, кластер соответствует освещению одного и того же новостного события (same event).
    Common Terms (Общие термины)
    Ключевые слова или фразы, которые часто встречаются в контенте статей внутри одного кластера.
    Related Topic (Связанная тема)
    Тема, динамически определенная на основе Common Terms, извлеченных из кластера. Предлагается пользователю для уточнения поиска.
    Supplemental Information (Дополнительная информация)
    Информация, предоставляемая вместе с основными результатами поиска. Включает Related Topics и Categories.
    Vertical Search Engine (Вертикальная поисковая система)
    Поисковая система, фокусирующаяся на определенном сегменте контента. В контексте патента это News Search Engine (поиск по новостям).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной процесс предоставления дополнительной информации в ответ на запрос в новостном поиске.

    1. Система получает поисковый запрос.
    2. Извлекаются результаты поиска из вертикального поискового движка, конкретно указанного как news search engine.
    3. Идентифицируются сходства (similarities) между результатами (контент, тема, жанр, дата).
    4. На основе сходств генерируются кластеры (search clusters).
    5. Внутри каждого кластера идентифицируются общие термины (common terms) — ключевые слова, общие для статей в кластере.
    6. Определяется множество связанных тем (Related Topics) на основе общих терминов.
    7. Из этого множества выбираются одна или несколько тем.
    8. Для каждой выбранной темы определяются дополнительные критерии поиска (supplemental search criteria).
    9. Идентифицируется новый набор результатов (topic search results) для каждой темы (на основе исходного запроса И дополнительных критериев).
    10. Генерируется дополнительная информация (supplemental information), включающая выбранные темы и ссылки (topic link) на новые наборы результатов.
    11. Идентифицируются одна или несколько предопределенных новостных категорий (news categories), например, Мировые новости, Новости США, Спорт.
    12. Система одновременно предоставляет основные результаты, категории и дополнительную информацию, причем основные результаты отображаются в одной области (search results area), а дополнительная информация — в отдельной области (supplemental content area).

    Claims 4 и 5 (Зависимые): Уточняют процесс выбора связанных тем (Шаг 7 в Claim 1).

    Выбор тем включает ранжирование (ranking) кандидатов и выбор на основе этого ранжирования. Ранжирование основывается как минимум на одном из критериев: популярность (popularity), релевантность (relevance), частота (frequency) или свежесть (recency).

    Где и как применяется

    Изобретение применяется в рамках вертикального поиска по новостям (Google News) и, вероятно, влияет на формирование блоков Top Stories в основном поиске.

    RANKING – Ранжирование
    На этом этапе генерируется первичный набор результатов в ответ на запрос пользователя к новостному поисковому движку.

    METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
    Основное применение патента происходит после получения первичных результатов. Система анализирует топ результатов для генерации дополнительной информации:

    1. Пост-обработка и Кластеризация: Полученные результаты анализируются на предмет сходства и группируются в clusters (например, по событиям).
    2. Генерация SERP-элементов: Из кластеров извлекаются и ранжируются Related Topics. Параллельно определяются Categories.
    3. Смешивание: Дополнительная информация компонуется с основными результатами и размещается в отдельных областях интерфейса (supplemental content area).

    Входные данные:

    • Поисковый запрос пользователя.
    • Набор новостных статей, релевантных запросу.
    • Контент и метаданные статей (текст, дата, жанр).
    • Данные о предопределенных новостных категориях.

    Выходные данные:

    • Основной набор результатов поиска.
    • Блок Supplemental Information, содержащий Related Topics (ссылки на уточненные запросы) и Categories (ссылки или дополнительный контент).

    На что влияет

    • Конкретные типы контента: Влияет исключительно на новостной контент в рамках Vertical Search Engine (Google News).
    • Специфические запросы: Наибольшее влияние на информационные и событийные запросы, связанные с текущими новостями, особенно если запрос широкий и охватывает несколько аспектов темы или разных событий.

    Когда применяется

    • Условия работы: Алгоритм применяется, когда пользователь отправляет запрос в новостной поисковый движок.
    • Триггеры активации: Активируется, если система может идентифицировать значимые сходства между результатами поиска и сгруппировать их в один или несколько кластеров, из которых можно извлечь релевантные Common Terms.

    Пошаговый алгоритм

    Процесс генерации дополнительной информации в поиске по новостям.

    1. Получение запроса и результатов: Система получает запрос и идентифицирует набор новостных статей.
    2. Анализ сходств: Система анализирует контент, темы, жанры и даты публикации полученных статей для выявления сходств.
    3. Кластеризация: Статьи группируются в кластеры на основе выявленных сходств. Каждая группа представляет собой набор статей об одном и том же событии.
    4. Извлечение общих терминов: Внутри каждого кластера система идентифицирует ключевые слова и фразы, которые являются общими (Common Terms).
    5. Определение связанных тем: На основе извлеченных общих терминов формируются кандидаты в Related Topics.
    6. Ранжирование и выбор тем: Кандидаты ранжируются на основе критериев (популярность, релевантность, частота, свежесть). Выбираются топовые темы.
    7. Генерация ссылок: Для каждой выбранной темы формируются дополнительные критерии поиска и генерируется ссылка на новый поиск (исходный запрос + дополнительные критерии).
    8. Определение категорий: Параллельно система идентифицирует предопределенные новостные категории (например, Новости США), связанные с запросом.
    9. Формирование дополнительной информации: Выбранные темы (с ссылками) и категории объединяются в блок Supplemental Information.
    10. Отображение результатов: Основные результаты поиска и дополнительная информация предоставляются пользователю одновременно, но в разных областях интерфейса.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст новостных статей. Это основной источник данных для кластеризации (определение сходства) и извлечения Common Terms (ключевых слов и фраз).
    • Временные факторы: Дата создания (date of generation) контента упоминается как критерий схожести для кластеризации. Свежесть (recency) используется для ранжирования тем.
    • Структурные/Тематические факторы: Тема (topic) и жанр (genre) контента используются для кластеризации. Принадлежность к предопределенным news categories или разделам издания (section of a periodical).

    Какие метрики используются и как они считаются

    • Метрики схожести (Similarities): Используются для группировки статей в кластеры. Основаны на сравнении контента, темы, жанра и даты.
    • Частота терминов (Common Terms Frequency): Метрика для определения ключевых слов внутри кластера.
    • Метрики ранжирования Related Topics: Используются для выбора тем, которые будут показаны пользователю. К ним относятся:
      • Popularity (Популярность): Вероятно, основана на частоте запросов или интересе к теме.
      • Relevance (Релевантность): Оценка соответствия темы интенту исходного запроса и контенту кластера.
      • Frequency (Частота): Как часто термин встречается в контенте кластера.
      • Recency (Свежесть): Насколько актуальна тема в данный момент времени.

    Выводы

    1. Кластеризация по событиям — ядро анализа новостей: Google анализирует результаты поиска, чтобы сгруппировать статьи, освещающие одно и то же событие (Cluster). Это позволяет системе понять структуру новостной повестки по запросу.
    2. Динамическое извлечение тем из контента: Related Topics не предопределены. Они динамически извлекаются из общих ключевых слов (Common Terms), используемых в статьях внутри кластера. Терминология издателей напрямую влияет на формирование этих тем.
    3. Приоритезация тем на основе актуальности и популярности: Не все извлеченные темы показываются. Система использует ранжирование на основе сигналов популярности, релевантности, частоты и свежести для выбора наиболее полезных уточнений.
    4. Двойная стратегия навигации: Система предлагает как уточнение поиска (через узкие Related Topics), так и расширение контекста (через широкие Categories).
    5. Разделение интерфейса: Патент подчеркивает, что дополнительная информация намеренно отделяется от основных результатов поиска в интерфейсе (в supplemental content area).

    Практика

    Best practices (это мы делаем)

    Рекомендации критически важны для издателей новостного контента (Publishers), работающих с Google News и Top Stories.

    • Использование четкой и консистентной терминологии: При освещении события используйте устоявшиеся и описательные ключевые слова. Это повышает вероятность попадания статьи в релевантный кластер и влияет на то, какие Common Terms будут извлечены системой.
    • Явное указание сущностей и аспектов события: Убедитесь, что основные действующие лица, локации и ключевые аспекты события явно упомянуты в тексте и заголовке. Это помогает алгоритмам кластеризации точно определить сходство (similarities) с другими статьями по теме.
    • Мониторинг терминологии индустрии: Анализируйте, какие термины используют авторитетные издания при освещении того же события. Согласованность языка помогает Google быстрее формировать кластеры и определять Related Topics.
    • Оптимизация под свежесть и тренды: Поскольку Recency и Popularity используются для ранжирования Related Topics, оперативное освещение трендовых аспектов новостного события повышает видимость.
    • Четкая структура категорий на сайте: Поддерживайте логичную структуру разделов. Это может помочь Google точнее определить Category для вашего контента, так как патент упоминает использование разделов издания (section of a periodical).

    Worst practices (это делать не надо)

    • Использование двусмысленных или расплывчатых формулировок: Избегайте абстрактного языка при описании конкретных событий. Это может привести к неправильной кластеризации статьи или ее исключению из релевантного кластера.
    • Кликбейт, не соответствующий содержанию: Если статья не содержит ожидаемых Common Terms, связанных с событием, она может быть неправильно интерпретирована системой кластеризации.
    • Смешивание разных событий в одной статье: Публикация материалов, охватывающих несколько несвязанных инфоповодов, затрудняет четкую кластеризацию и снижает видимость в структурированных новостных выдачах.

    Стратегическое значение

    Патент подтверждает стратегию Google по структурированию новостного потока в виде конкретных событий и тем. Для издателей успех зависит не только от скорости публикации, но и от того, насколько точно статья описывает событие и его контекст с использованием общепринятой терминологии. Это подтверждает движение Google в сторону навигации, основанной на темах и событиях (Topics and Events), а не простом сопоставлении ключевых слов.

    Практические примеры

    Сценарий: Освещение стихийного бедствия

    1. Исходный запрос: «Ураган Атлантика».
    2. Кластеризация: Google получает множество статей и группирует их. Кластер 1: Последствия в Флориде. Кластер 2: Прогнозы движения. Кластер 3: Сбор средств.
    3. Извлечение Common Terms:
      • Из Кластера 1 извлекаются термины: «Флорида», «наводнение», «разрушения», «эвакуация».
      • Из Кластера 2: «прогноз», «скорость ветра», «траектория».
    4. Формирование Related Topics: Система ранжирует термины и генерирует темы: «Наводнение Флорида», «Прогноз траектории урагана».
    5. Определение Категории: Определяется категория «Погода» или «Новости США».
    6. Отображение: В основной выдаче показываются статьи. В дополнительной области показываются ссылки на Related Topics и блок «Другие новости США».
    7. Действия SEO-специалиста: Чтобы статья о последствиях во Флориде была видимой, необходимо четко использовать термины «Флорида», «наводнение», «разрушения». Это поможет статье стать центральной в Кластере 1 и повлиять на формирование Related Topics.

    Вопросы и ответы

    Что такое кластер (Cluster) в контексте этого патента?

    Кластер — это группа новостных статей, которые были идентифицированы системой как схожие по содержанию, теме, жанру или дате публикации. На практике кластер чаще всего соответствует набору статей разных изданий, освещающих одно и то же конкретное новостное событие или инцидент.

    Как Google определяет, какие темы показать в блоке Related Topics?

    Система анализирует статьи внутри каждого кластера и извлекает общие ключевые слова и фразы (Common Terms). Эти термины становятся кандидатами в связанные темы. Затем кандидаты ранжируются по популярности, релевантности, частоте и свежести, и лучшие из них отображаются в блоке Related Topics.

    Могут ли SEO-специалисты напрямую влиять на то, какие Related Topics будут показаны?

    Напрямую — нет, но косвенно — да. Поскольку темы извлекаются из Common Terms, используемых в статьях, издатели могут влиять на этот процесс, используя четкую, описательную и консистентную терминологию при освещении события. Если большинство авторитетных изданий используют определенный термин, он с высокой вероятностью станет Related Topic.

    Чем отличаются Related Topics от Categories в этом патенте?

    Related Topics — это динамически извлекаемые, узкоспециализированные уточнения, основанные на текущих событиях (кластерах) и ключевых словах. Они помогают сузить поиск. Categories — это более широкие, предопределенные классификации новостей (например, Спорт, Политика), которые помогают пользователю изучить общий контекст или другие новости в этой области.

    Что происходит, когда пользователь кликает на ссылку Related Topic?

    Система запускает новый поиск. Согласно патенту, этот новый поиск основан на исходном запросе пользователя с добавлением дополнительных критериев поиска (supplemental search criteria), связанных с выбранной темой. Это позволяет пользователю быстро уточнить свой первоначальный запрос.

    Применяется ли этот патент только в Google News?

    Патент явно указывает на применение в Vertical Search Engine, конкретно упоминая News Search Engine (Claim 1). Однако механизмы кластеризации новостей и извлечения тем, описанные здесь, вероятно, используются и для формирования блока «Top Stories» (Главные новости) в основном поиске Google.

    Какие факторы используются для ранжирования Related Topics?

    Патент перечисляет четыре основных фактора, используемых при ранжировании и выборе тем для показа: популярность (popularity), релевантность (relevance), частота (frequency) и свежесть (recency). Это подчеркивает важность актуальности и трендовости тем в новостном поиске.

    Как использование кликбейтных заголовков влияет на работу этого алгоритма?

    Кликбейтные заголовки могут негативно повлиять на кластеризацию. Если заголовок и контент статьи не содержат ожидаемых ключевых слов (Common Terms), связанных с событием, статья может не попасть в релевантный кластер или быть неправильно классифицирована, что снизит ее общую видимость.

    Важна ли дата публикации статьи для этого алгоритма?

    Да. Патент явно упоминает дату создания (date of generation) как один из критериев схожести, используемых для группировки статей в кластеры. Это логично для новостного поиска, где статьи об одном событии обычно публикуются в близкий промежуток времени.

    Как система определяет Категорию (Category) новости?

    Система может определять категорию на основе анализа контента результатов поиска, категорий, предварительно ассоциированных с терминами запроса, или на основе метаданных, таких как раздел периодического издания (section of a periodical), в котором опубликована статья. Четкая структура разделов на сайте издателя помогает в этом процессе.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2026 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.