Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

Описание

Какую задачу решает

Патент решает задачу предоставления пользователю доступа к редакторскому контенту (обзоры, мнения, дискуссии), который релевантен конкретному результату веб-поиска, непосредственно на странице SERP. Ключевой технической задачей является необходимость строгого контроля качества этого контента для борьбы со спам-блогами (splogs) — блогами, созданными для манипулирования link-based score и продвижения аффилированных сайтов.

Что запатентовано

Запатентована система для дополнения результатов веб-поиска релевантными и высококачественными постами из блогов. Суть изобретения заключается в многоступенчатом процессе фильтрации (офлайн и онлайн), который применяет строгие эвристики качества. Система идентифицирует посты, релевантные веб-результату (формулируя вторичный запрос на основе его контента), и оценивает их качество по ряду ссылочных, структурных и временных факторов.

Как это работает

Система работает в два основных этапа:

Офлайн-обработка (Индексирование): Система сканирует блоги и создает репозиторий. Применяются первичные фильтры для удаления явного спама (например, посты без входящих ссылок или заголовка, или с чрезмерным количеством исходящих ссылок). Для оставшихся постов рассчитываются и сохраняются ключевые метрики.
Онлайн-обработка (Ранжирование и Метапоиск): После генерации результатов веб-поиска система ищет в репозитории релевантные блог-посты. К ним применяются фильтры реального времени: достаточная длина, свежесть, расположение ключевой ссылки близко к началу поста, низкий out-degree и высокие link-based scores входящих ссылок. Прошедшие фильтрацию посты отображаются вместе с соответствующим результатом веб-поиска.

Актуальность для SEO

Средняя/Высокая. Хотя патент подан в 2006 году и конкретный UI может отличаться, принципы дополнения основной выдачи специализированным пользовательским контентом (например, блоки «Дискуссии и форумы» или Google Perspectives) остаются крайне актуальными. Механизмы фильтрации UGC и блогов по качеству, описанные в патенте, отражают фундаментальные подходы Google к борьбе со спамом и оценке авторитетности.

Важность для SEO

Патент имеет значительное влияние (6.5/10) на стратегии продвижения блогов, форумов и сайтов с UGC. Он детально описывает строгие критерии качества, которым должен соответствовать контент, чтобы попасть в основную поисковую выдачу из специализированных индексов. Понимание этих фильтров (особенно важность качества входящих ссылок, контроль исходящих ссылок и структура контента) критично для оптимизации такого типа ресурсов.

Детальный разбор

Термины и определения

Blog Post Repository (Репозиторий постов): Хранилище проиндексированных постов из блогов, используемое для поиска и анализа.
Incoming Link (Входящая ссылка): Ссылка из другого документа на рассматриваемый блог-пост.
Link-based Score (Оценка на основе ссылок): Численное значение, измеряющее относительную важность документа в сети (например, PageRank). Используется для оценки качества входящих ссылок. В патенте упоминается шкала от 0 до 10 (LBS0-LBS10).
Out-degree (Исходящая степень): Количество исходящих ссылок, содержащихся в блог-посте.
Outgoing Link (Исходящая ссылка): Ссылка из рассматриваемого блог-поста на другой документ.
Second Search Query (Второй поисковый запрос): Запрос, автоматически сформулированный системой для поиска по блогам, использующий термины из результата основного веб-поиска.
Splog (Сплог / Спам-блог): Блог, созданный исключительно для продвижения аффилированных документов, манипуляции link-based score или показа рекламы.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на двух основных механизмах фильтрации качества при интеграции блогов в веб-поиск.

Claim 1 (Независимый пункт): Описывает метод с фильтрацией по количеству исходящих ссылок (Out-degree).

Система получает первый запрос для веб-поиска и идентифицирует результат поиска.
Формулируется second search query для поиска по блогам, включающий термины из результата поиска.
В репозитории блогов идентифицируется релевантный пост.
Определяется out-degree поста.
Пост отклоняется (rejected), если out-degree превышает пороговое значение (out-degree threshold).
Если пост не отклонен, результат поиска и информация о посте отправляются пользователю.

Ядро пункта — использование показателя out-degree как основного фильтра для отсева спама (сплогов) при подмешивании контента в SERP.

Claim 23 (Независимый пункт): Описывает метод с фильтрацией по качеству входящих ссылок (Link-based Score).

[Шаги 1-3 аналогичны Claim 1].
Определяется, связан ли идентифицированный пост с входящими ссылками от документов, имеющих link-based score ниже порогового значения (link-based threshold).
Пост отклоняется, если входящие ссылки имеют низкий link-based score.
Если пост не отклонен, результат поиска и информация о посте отправляются пользователю.

Ядро пункта — использование авторитетности источников входящих ссылок как обязательного критерия доверия к блог-посту.

Зависимые пункты (Claims 2, 17, 22, 24-28): Детализируют дополнительные эвристики фильтрации:

Возраст/Свежесть (Claim 2): Отклонение по времени создания.
Длина (Claims 24, 27): Отклонение, если длина меньше порога.
Расположение исходящих ссылок (Claims 25, 28): Отклонение, если исходящие ссылки расположены на определенном расстоянии (слишком далеко) от начала поста.
Структура и Цели ссылок (Claims 17, 22): Отклонение при отсутствии заголовка, наличии ссылок на тот же домен или на медиафайлы (изображения, видео, аудио).

Где и как применяется

Изобретение функционирует на нескольких уровнях поисковой архитектуры, объединяя процессы индексирования и метапоиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-подготовка данных:

Сбор и хранение постов в Blog Post Repository.
Вычисление глобальных Link-based Scores (PageRank).
Первичная фильтрация репозитория для удаления явного спама (splogs).
Извлечение и сохранение ключевых метрик для каждого поста (out-degree, даты, расположение ссылок и т.д.).

RANKING – Ранжирование
Генерируются стандартные результаты веб-поиска.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Это основной этап применения патента (онлайн-процесс):

Идентификация релевантных блогов: Для результата веб-поиска система формулирует second search query и ищет релевантные посты в репозитории.
Фильтрация в реальном времени: К найденным постам применяются дополнительные фильтры качества (свежесть, длина, link-based scores и т.д.).
Смешивание (Blending): Прошедшие фильтрацию посты интегрируются в SERP вместе с соответствующими веб-результатами.

На что влияет

Типы контента: В первую очередь влияет на блоги, форумы и другой пользовательский контент (UGC), который может быть интегрирован в основную выдачу.
Специфические запросы: Наибольшее влияние на запросы, подразумевающие поиск мнений, обзоров, дискуссий (редакционный контент).

Когда применяется

Условия применения: Алгоритм применяется при генерации SERP, если для конкретного веб-результата найдены релевантные посты в блогах.
Триггеры активации: Отображение происходит только если найденные посты успешно проходят все этапы офлайн и онлайн фильтрации качества (пороговые значения по out-degree, link-based score, свежести, длине и т.д.).

Пошаговый алгоритм

Процесс разделен на две части: офлайн-подготовка репозитория и онлайн-обработка запроса.

Процесс А: Офлайн-подготовка репозитория (Фильтрация и Хранение)

Сбор данных: Сканирование и сохранение постов в Blog Post Repository.
Первичная фильтрация (Грубый антиспам): Для каждого поста:
- Если количество исходящих ссылок > порога X (например, 50) – отклонить.
- Если нет входящих ссылок – отклонить.
- Если Link-based scores входящих ссылок ниже порога – отклонить.
- Если нет заголовка – отклонить.
Вторичная фильтрация (Анализ целей ссылок): Для оставшихся постов:
- Если исходящая ссылка ведет на тот же домен – отклонить пост (или игнорировать ссылку).
- Если исходящая ссылка ведет на электронные медиа (изображение, видео, аудио) – отклонить пост (или игнорировать ссылку).
Сохранение метрик: Для всех постов, прошедших фильтрацию, сохранить данные: Link-based scores входящих ссылок, длина поста, расположение исходящих ссылок, out-degree, дата создания.

Процесс Б: Онлайн-обработка запроса (Идентификация и Отображение)

Генерация веб-результатов.
Идентификация релевантных блогов: Формулирование second search query (на основе терминов веб-результата) и поиск по подготовленному репозиторию.
Фильтрация в реальном времени (Эвристики качества): Для каждого идентифицированного поста проверяется выполнение условий:
- Длина поста достаточна.
- Релевантная исходящая ссылка находится близко к началу поста (в пределах заданного расстояния).
- Out-degree поста мал.
- Пост является свежим (recent).
- Пост имеет входящие ссылки с высоким Link-based score.
Ранжирование и Отбор: Посты, прошедшие фильтры, ранжируются (например, по релевантности), выбирается Топ-N.
Отображение: Предоставление веб-результатов и информации об отобранных блог-постах пользователю.

Какие данные и как использует

Данные на входе

Система использует комбинацию ссылочных, структурных и временных факторов для оценки качества.

Ссылочные факторы (Ключевые):
- Входящие ссылки: Наличие/отсутствие. Качество источников (оценивается через Link-based score).
- Исходящие ссылки: Общее количество (Out-degree). Расположение ссылки внутри текста. Цель ссылки (домен, тип медиа).
Структурные/Контентные факторы:
- Заголовок (Title): Наличие или отсутствие.
- Длина поста: Объем контента.
Временные факторы:
- Дата создания поста: Используется для оценки свежести.
Поведенческие факторы (Опционально): Упоминается возможность использования истории кликов пользователя для динамической настройки количества отображаемых результатов.

Какие метрики используются и как они считаются

Link-based Score (LBS): Метрика авторитетности (PageRank). Применяется к документам, ссылающимся на блог-пост. Упоминается шкала LBS0-LBS10.
Out-degree: Количество исходящих ссылок из поста.
Пороговые значения (Thresholds): Система использует множество настраиваемых порогов для всех метрик (длина, количество ссылок, свежесть, расположение ссылок, авторитетность). Например, упоминаются пороги в 50 исходящих ссылок или свежесть в 10 дней.
Методы машинного обучения: В патенте упоминается возможность использования статистических моделей (например, Байесовской модели) для обучения и настройки оптимальных пороговых значений с целью баланса между ложноположительными и ложноотрицательными срабатываниями фильтров.

Выводы

Многоуровневая фильтрация качества для UGC: Google применяет строгие и многоступенчатые (офлайн и онлайн) фильтры качества перед интеграцией пользовательского контента (блоги, форумы) в основную выдачу. Система агрессивно борется со спамом (splogs).
Критичность авторитетности (Link-based Score): Качество входящих ссылок является ключевым фактором доверия. Посты без входящих ссылок или со ссылками с низким Link-based score отфильтровываются.
Контроль исходящих ссылок (Out-degree): Высокий out-degree является сильным негативным сигналом и индикатором спама.
Важность структуры и объема контента: Посты должны иметь заголовок и достаточную длину. Короткие или плохо структурированные посты не считаются качественными.
Значимость расположения ссылок: Система предпочитает посты, где релевантные исходящие ссылки расположены близко к началу текста. Это используется как эвристика для подтверждения того, что ссылка является центральной темой поста.
Требование к свежести: Для интеграции в SERP предпочитаются недавние (recent) посты, что обеспечивает актуальность информации.
Релевантность результату, а не запросу: Релевантность блога определяется по его связи с конкретным веб-результатом (через second search query), а не с исходным запросом пользователя.

Практика

Best practices (это мы делаем)

Рекомендации направлены на оптимизацию блогов, форумов и UGC-площадок для повышения вероятности их появления в основной выдаче (например, в блоках типа «Дискуссии и форумы» или Perspectives).

Стимулирование качественных входящих ссылок: Работайте над привлечением ссылок с авторитетных ресурсов (с высоким Link-based score). Контент без качественных внешних ссылок имеет минимальные шансы пройти фильтры авторитетности.
Контроль исходящих ссылок (Out-degree): Поддерживайте умеренное количество исходящих ссылок в постах и на страницах форумов. Избегайте превращения ресурса в линкопомойку. Высокий out-degree алгоритмически интерпретируется как спам.
Размещение ключевых ссылок в начале контента: Если пост обсуждает внешний материал, ссылка на этот материал должна быть размещена в начале поста (например, в первом абзаце). Патент явно требует этого для прохождения фильтра по расположению ссылок.
Создание объемного и структурированного контента: Убедитесь, что посты имеют достаточную длину и всегда содержат заголовок. Стимулируйте пользователей писать развернутые, содержательные комментарии.
Поддержание свежести контента: Регулярно обновляйте блог и поддерживайте активность дискуссий на форуме. Старый контент может быть отфильтрован по критерию свежести.

Worst practices (это делать не надо)

Создание Splogs и PBN для манипуляций: Создание сетей блогов для простановки ссылок неэффективно. Такие ресурсы будут отфильтрованы по критериям низкого link-based score входящих ссылок и высокого out-degree.
Публикация «тонкого» контента: Создание коротких, малосодержательных постов или веток форума снижает шансы на прохождение фильтра по длине.
«Закапывание» ссылок: Размещение основных ссылок в футере или в конце длинного текста. Это может привести к тому, что контент будет отфильтрован системой из-за неправильного расположения ссылки.
Чрезмерное самоцитирование: Посты, ссылающиеся преимущественно на тот же домен, могут быть отфильтрованы (согласно одному из фильтров) как не имеющие независимой редакционной ценности.

Стратегическое значение

Патент подтверждает, что для интеграции контента из специализированных индексов (UGC) в основную выдачу Google использует четкие и измеримые эвристики качества, основанные на классических алгоритмах (PageRank/Link-based Score), структуре контента и ссылочном профиле. Хотя конкретные эвристики могли эволюционировать, фундаментальный подход, описанный здесь, остается актуальным и лежит в основе современных систем отображения дискуссий и форумов в SERP.

Практические примеры

Сценарий: Оптимизация треда на форуме для появления в SERP (например, в блоке «Дискуссии и форумы»)

Задача: Добиться того, чтобы тред на форуме, обсуждающий обзор новой модели смартфона, появился в SERP рядом с официальным обзором на авторитетном сайте.

Структура и Контент: Убедиться, что первый пост треда содержит четкий заголовок («Обсуждение обзора Samsung S25 от TechRadar») и достаточный объем текста.
Расположение ссылки (Критично): Ссылка на обсуждаемый обзор на TechRadar должна быть размещена в первом абзаце первого поста.
Контроль Out-degree: Промодерировать тред, чтобы избежать чрезмерного количества нерелевантных исходящих ссылок от пользователей.
Свежесть: Поддерживать дискуссию активной, чтобы система видела недавние обновления.
Авторитетность (Link-based Score): Привлечь внимание к треду (например, через социальные сети или другие блоги) для получения качественных входящих ссылок на сам тред.
Ожидаемый результат: При выполнении этих условий повышается вероятность того, что система идентифицирует тред как качественный и релевантный и включит его в SERP рядом с обзором TechRadar.

Вопросы и ответы

Что такое Link-based Score, упомянутый в патенте, и как он влияет на блоги и форумы?

Link-based Score — это метрика для измерения авторитетности документа в сети, аналог PageRank. В патенте он используется для оценки качества входящих ссылок на блог-пост или тред форума. Если на контент ссылаются документы с низким Link-based Score, он будет отфильтрован. Это подчеркивает критическую важность получения ссылок с авторитетных ресурсов для блогов и форумов.

Насколько важен параметр Out-degree и какие значения считаются высокими?

Out-degree (количество исходящих ссылок) критически важен как фильтр против спама (splogs). Патент приводит пример порога в 50 исходящих ссылок, но отмечает, что порог может настраиваться, в том числе с помощью машинного обучения. SEO-специалистам следует избегать любого неестественно большого количества исходящих ссылок в контенте, чтобы не попасть под этот фильтр.

Патент утверждает, что исходящие ссылки должны быть расположены близко к началу поста. Почему это важно для SEO?

Расположение ссылки в начале поста служит сигналом того, что эта ссылка является центральной темой обсуждения. Если система ищет блоги, комментирующие определенный веб-результат, она ожидает, что этот результат будет обсуждаться сразу, что подтверждается ранним размещением ссылки на него. Это подчеркивает важность размещения ключевых редакторских ссылок в начале контента.

Как система определяет, какие посты релевантны результату поиска?

Система не использует исходный запрос пользователя. Вместо этого она формулирует второй запрос (second search query) для поиска по репозиторию блогов, используя термины из конкретного результата веб-поиска. Это гарантирует, что найденный пост релевантен именно этому результату, а не запросу в целом.

В чем разница между офлайн и онлайн фильтрацией в этом патенте?

Офлайн-фильтрация происходит на этапе индексирования и очищает репозиторий от очевидного спама (например, посты без заголовков, без входящих ссылок). Онлайн-фильтрация применяется в реальном времени к уже найденным релевантным постам и использует более тонкие критерии, такие как свежесть, точное расположение ссылок и актуальные оценки качества.

Что такое «Splog» и как Google идентифицирует его согласно патенту?

Splog – это спам-блог, созданный для продвижения других сайтов и манипуляции рейтингами. Согласно патенту, Google идентифицирует их по нескольким признакам: чрезмерно большое количество исходящих ссылок (высокий out-degree), отсутствие или низкое качество входящих ссылок (низкий Link-based score), недостаточная длина контента, а также структурные аномалии, такие как отсутствие заголовка.

Насколько важна свежесть контента согласно этому патенту?

Свежесть является одним из ключевых фильтров, применяемых в реальном времени. Система проверяет, является ли пост недавним (recent). Порог может быть фиксированным (например, 10 дней) или динамическим. Для попадания в основную выдачу контент блога или форума должен быть актуальным.

Может ли новый форум или блог попасть в выдачу, если у него мало входящих ссылок?

Это крайне маловероятно в рамках описанной системы. Патент четко указывает, что отсутствие входящих ссылок или наличие входящих ссылок только с низким Link-based Score являются причинами для отклонения поста. Авторитетность является обязательным условием.

Как этот патент связан с современными блоками в выдаче, такими как «Дискуссии и форумы»?

Этот патент описывает базовую инфраструктуру и логику фильтрации, которая лежит в основе таких функций. Хотя конкретные UI-элементы и веса фильтров изменились, фундаментальный подход к отбору качественного пользовательского контента на основе авторитетности, структуры и ссылочного профиля остается актуальным.

Являются ли пороги фильтрации (например, для длины или out-degree) фиксированными?

Патент упоминает использование «предопределенных» порогов, но также отмечает возможность их настройки с помощью статистического анализа или методов машинного обучения (например, байесовских моделей) для оптимизации эффективности фильтрации. Это предполагает, что пороги могут быть динамическими или адаптироваться.