
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
Патент решает проблему высокой распространенности спам-страниц (spam pages) в результатах поиска по часто встречающимся темам (commonly-occurring topics), таким как развлечения, игры, фильмы и музыка. Утверждается, что в таких темах до 90% результатов могут составлять спам, который успешно обходит стандартные алгоритмы ранжирования, имитируя релевантность. Изобретение предлагает метод использования пользовательского поведения (user inputs) для надежной идентификации и фильтрации спама там, где контентный анализ не справляется.
Запатентована система итеративной классификации документов, которая объединяет анализ контента с анализом пользовательского ввода. Система сначала классифицирует документы по теме на основе их содержания (используя Feature Vectors), а затем валидирует эту классификацию с помощью Click Information (поведенческих данных). Если документы демонстрируют низкое вовлечение (низкий CTR или короткую Click Duration), они переклассифицируются как спам или нерелевантные теме (off-topic). Этот очищенный набор данных используется для переобучения классификатора.
Система работает в двух основных режимах:
1. Офлайн (Итеративное уточнение):
Feature Vector, например, TF-IDF).Click Information (CTR и Click Duration) для этих документов из логов запросов.off-topic и удаляются из набора релевантных.Feature Vector пересчитывается на основе очищенного набора, и процесс повторяется до стабилизации (сходимости).2. Онлайн (Ранжирование):
Bloom Filter).relevancy scores корректируются: документы, подтвержденные как качественные, повышаются, а помеченные как спам — понижаются.Высокая. Принцип использования агрегированных поведенческих данных для оценки качества контента и борьбы со спамом является фундаментальным для современных поисковых систем. Хотя конкретные технические реализации, упомянутые в патенте (например, TF-IDF для векторов признаков и Bloom Filters для детекции тем), могли быть заменены более сложными нейросетевыми подходами, базовая логика валидации качества через метрики вовлеченности (в частности, Click Duration как прокси для Dwell Time) остается крайне актуальной.
Патент имеет высокое значение для SEO. Он описывает конкретный механизм, демонстрирующий, что оптимизации контента под ключевые слова недостаточно, если сигналы пользовательского поведения плохие. Низкий CTR и короткая Click Duration могут привести к классификации документа как спам или off-topic, что напрямую приведет к его понижению в ранжировании по всем связанным запросам в данной теме. Это подчеркивает критическую важность оптимизации под удовлетворенность пользователя.
Specific Query Detector). Строится на основе N-грамм из тематических запросов.Click-through rate и Click Duration.Feature Vector.Feature Vector и Bloom Filter.Claim 1 (Независимый пункт): Описывает основной итеративный метод классификации документов на основе тем и пользовательского ввода.
initial feature vector) на основе частоты встречаемости терминов в этом наборе.click information, связанной с запросами по этой теме. Ключевое уточнение: информация включает click-through rate и click duration.click information для удаления off-topic документов из набора. Документ считается off-topic, если его CTR или click duration указывают на это.updated feature vector) на основе очищенного набора.off-topic (т.е. удаленных/перемещенных), превышает определенный порог (>0). В противном случае процесс останавливается (сходимость).Claim 3 (Зависимый от 2): Уточняет, что классификация включает аннотирование документа. Аннотация указывает, является ли документ: (1) относящимся к теме, (2) спамом (spam document), или (3) off-topic.
Claim 5 (Зависимый от 1): Описывает применение результатов классификации при обработке нового запроса в реальном времени.
relevancy scores) документов на основе аннотаций, созданных в процессе по Claim 1.Claim 6 и 7 (Зависимые от 5): Уточняют механизм определения темы запроса.
Для этого используется детектор запросов (query detector), применяющий фильтры Блума (Bloom filters) к терминам нового запроса (Claim 6). Claim 7 описывает построение фильтра Блума путем анализа N-грамм из тематических запросов и исключения общеупотребительных N-грамм.
Claim 8 (Зависимый от 5): Детализирует корректировку оценок релевантности.
Изобретение затрагивает несколько этапов поиска, разделяя процессы на офлайн-обработку (уточнение классификации) и онлайн-обработку (применение классификации к запросу).
INDEXING – Индексирование и извлечение признаков (Офлайн/Пакетная обработка)
Основная часть алгоритма выполняется здесь. Происходит итеративный процесс классификации корпуса документов, анализ логов запросов и поведения пользователей (Query Logs, Click Information), расчет Feature Vectors и фильтрация спама. Результатом является аннотирование документов в индексе (метки: on-topic, spam, off-topic).
QUNDERSTANDING – Понимание Запросов (Офлайн и Онлайн)
Офлайн: Система анализирует логи запросов для построения Детектора Запросов (Bloom Filter) для конкретных тем.
Онлайн: При получении нового запроса система использует предварительно созданный Bloom Filter для быстрой классификации запроса и определения его принадлежности к конкретной теме.
RANKING / RERANKING – Ранжирование / Переранжирование (Онлайн)
Если запрос идентифицирован как тематический, система активирует корректировку ранжирования. Relevancy scores документов изменяются на основе аннотаций, полученных на этапе индексирования: релевантные документы получают бустинг, спам – понижение.
Входные данные:
CTR, Click Duration).Выходные данные:
Feature Vectors для тем.Bloom Filter для детектора тем запросов.Specific Query Detector (Bloom Filter) определяет, что запрос пользователя относится к одной из предварительно обработанных тем.Алгоритм состоит из трех основных процессов.
Процесс А: Итеративная классификация и выявление спама (Офлайн)
TF-IDF).Feature Vector для классификации всего корпуса документов и создания Classified Set (документы, помеченные как релевантные теме).Classified Set.Click Information (CTR и Click Duration) для этих запросов. Идентификация документов в Classified Set, которые имеют низкие показатели вовлеченности (спам/офтопик).Classified Set (и/или изменение их аннотаций на "спам").Feature Vector на основе очищенного набора данных. Возврат к шагу 4 (Классификация корпуса).Процесс Б: Построение Детектора Тем (Офлайн)
Процесс В: Обработка запроса в реальном времени (Онлайн)
Bloom Filter (Процесс Б) для определения, относится ли запрос к конкретной теме. relevancy scores система корректирует оценки на основе аннотаций документов (результат Процесса А). Повышение оценок для документов, помеченных как "связанные с темой". Понижение оценок для документов, помеченных как "спам".Feature Vectors и первичной классификации.Query Logs) с информацией о сессиях. Конкретно используются: Click-through rate (CTR): Частота кликов по отношению к показам.Click Duration: Время, проведенное пользователем на документе после клика.TF-IDF для расчета элементов вектора для термина t: TF(t)∗IDF(t).CTR и Click Duration. Если метрики документа ниже порога («слишком короткая продолжительность» или «слишком мало кликов»), он считается спамом или off-topic (конкретные значения не указаны).Click Information) используется для валидации автоматической классификации контента. Если контент классифицирован как релевантный теме на основе текста, но пользователи с ним плохо взаимодействуют (низкий CTR, короткая Click Duration), система переоценивает его как спам или off-topic.Feature Vectors). Это позволяет системе самообучаться и повышать точность определения тематики и спама.Bloom Filter) и применять специфические корректировки ранжирования (бустинг/пессимизация) на основе предварительно рассчитанных сигналов качества именно для этой темы.Click Duration (аналог Dwell Time) как метрики качества. Короткие клики (pogo-sticking) интерпретируются как негативный сигнал, подчеркивая важность удовлетворенности пользователя после перехода на сайт.Click Duration. Длинные, вовлеченные визиты сигнализируют системе, что документ не является спамом и действительно релевантен теме.CTR среди релевантной аудитории и снижает вероятность коротких кликов (pogo-sticking), которые могут привести к классификации страницы как спам.Click Duration. Плохой UX, приводящий к быстрым возвратам в выдачу, будет интерпретирован системой как низкое качество.off-topic на основе поведенческих сигналов.CTR), но не соответствуют содержанию страницы, приведут к коротким Click Duration. Система интерпретирует это как спам и понизит страницу в ранжировании для данной темы.Feature Vector), будут отфильтрованы из-за низких поведенческих показателей.spam pages.off-topic.Этот патент подтверждает критическую важность поведенческих факторов в алгоритмах Google. Он демонстрирует, как Google операционализирует концепцию "качества" через измеримые взаимодействия пользователей (CTR и Click Duration). Долгосрочная SEO-стратегия должна приоритизировать удовлетворение интента пользователя и качество пользовательского опыта над простым соответствием ключевым словам. Система наказывает тех, кто привлекает трафик, но не может его удержать.
Сценарий: Фильтрация спама в игровой тематике
Click Information. Пользователи, переходящие на Сайт Б, быстро их покидают (короткий Click Duration, pogo-sticking). Пользователи на Сайте А проводят больше времени.Spam Document на основе поведенческих данных. Классификатор переобучается.Bloom Filter определяет, что запрос относится к теме "Компьютерные игры".Relevancy Scores. Сайт А получает бустинг, а Сайт Б агрессивно понижается, даже если он имеет сильные контентные или ссылочные сигналы.Какие конкретно поведенческие метрики используются в этом патенте?
Патент явно определяет два ключевых компонента Click Information: Click-through rate (CTR) и Click duration (длительность клика). Оба показателя используются для оценки качества и релевантности документа. Низкие значения любой из этих метрик могут привести к классификации документа как спам или off-topic.
Как Click Duration связана с концепцией Dwell Time?
Click Duration, описанная как время, которое пользователь проводит на документе, является прямым аналогом или компонентом метрики Dwell Time (время до возврата в выдачу). Этот патент является одним из доказательств того, что Google использует время взаимодействия с контентом как важный сигнал качества. Короткий Dwell Time интерпретируется как неудовлетворенность пользователя.
Является ли этот процесс одноразовой фильтрацией?
Нет, это ключевая особенность патента. Процесс является итеративным. После того как спам-документы идентифицированы с помощью поведенческих факторов и удалены из набора, система пересчитывает Feature Vector (переобучает классификатор) на очищенных данных и повторяет классификацию. Это продолжается до достижения сходимости (стабилизации).
Как этот патент влияет на эффективность Keyword Stuffing?
Он значительно снижает эффективность переоптимизации ключевыми словами. Даже если документ успешно обманет начальный контентный классификатор (Feature Vector) и будет признан релевантным, он будет отфильтрован на этапе поведенческого анализа. Переоптимизированный контент обычно не удовлетворяет пользователя, что приводит к коротким кликам (низкая Click Duration) и последующей пессимизации.
Применяется ли корректировка ранжирования ко всем запросам?
Нет. Корректировка ранжирования применяется только к тем запросам, которые система идентифицировала как относящиеся к конкретной, предварительно обработанной теме. Для этого используется детектор запросов, например, на основе Bloom Filter. Патент фокусируется на проблемных нишах, таких как игры и развлечения.
Что делать, если у моего сайта нормальный контент, но низкий CTR в выдаче?
Согласно патенту, низкий CTR является сигналом того, что документ может быть нерелевантным или спамом для данной темы. Необходимо срочно проанализировать сниппеты (Title, Description) и убедиться, что они точно отражают содержание страницы и мотивируют целевых пользователей совершить клик. Если сниппеты не соответствуют интенту запроса, их нужно переработать.
Может ли кликбейт навредить сайту в контексте этого патента?
Да, абсолютно. Кликбейт приводит к высокому CTR, но низкому Click Duration (пользователи быстро понимают, что контент не соответствует заголовку, и уходят). Патент описывает механизм, который специально ищет такие паттерны для идентификации спама. Использование кликбейта в тематиках, обрабатываемых этим алгоритмом, приведет к классификации страницы как спам и её пессимизации.
Что такое «Feature Vector» и как он связан с TF-IDF?
Feature Vector — это числовое представление характеристик контента. В патенте он строится на основе частоты слов и N-грамм в наборе документов. Конкретный пример расчета, приведенный в патенте, — это TF(t)∗IDF(t). Этот вектор используется для определения того, какие еще документы в корпусе похожи на исходный набор и, следовательно, относятся к той же теме.
Использует ли Google по-прежнему TF-IDF и Bloom Filters, как описано в патенте?
Патент был подан в 2006 году. Хотя TF-IDF и Bloom Filters являются классическими методами, современные системы Google, вероятно, используют гораздо более сложные нейросетевые модели для классификации контента и понимания запросов. Однако мы должны основывать анализ только на тексте патента, который явно упоминает эти технологии как примеры реализации Feature Vectors и Query Detector.
Что важнее: высокий CTR или длительное время на сайте (Click Duration)?
Оба фактора важны. Низкий CTR может указывать на нерелевантность сниппета или низкую привлекательность. Короткая Click Duration указывает на неудовлетворенность контентом после клика. Для успешного ранжирования необходимо оптимизировать оба показателя, так как система использует их в комплексе для выявления спама и off-topic контента.

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP

Свежесть контента
Антиспам
Ссылки

SERP
Поведенческие сигналы

Антиспам
Ссылки
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Семантика и интент
Ссылки

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
Семантика и интент
SERP

Техническое SEO
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Ссылки
SERP

EEAT и качество
Поведенческие сигналы
SERP

Мультимедиа
Поведенческие сигналы
SERP
