Патент (Hewlett-Packard) описывает гибридный метод кластеризации документов. Система анализирует логи сессий, чтобы определить, какие документы просматриваются вместе (co-visitation). Эти документы объединяются в «Супердокументы». Затем система проводит контентный анализ, используя эти Супердокументы вместе с остальными документами. Это позволяет классифицировать весь корпус документов, учитывая не только их содержание, но и то, как пользователи воспринимают их взаимосвязь.
Описание
Какую задачу решает
Патент решает ограничения двух традиционных методов кластеризации документов:
- Content-based clustering (Контентная кластеризация): Кластеризует весь корпус документов на основе ключевых слов или тем. Недостаток: не отражает перспективу и интересы пользователей (user perspective), является статичным и не адаптируется к изменениям предпочтений.
- Log-based clustering (Кластеризация на основе логов): Кластеризует документы на основе того, как пользователи получают к ним доступ (например, просмотр в одной сессии). Недостаток: является неполным, так как кластеризует только те документы, которые были просмотрены пользователями, игнорируя остальной корпус.
Цель изобретения — создать гибридный метод, который кластеризует весь корпус документов (как контентный метод), но при этом учитывает «перспективу пользователя» (как метод на основе логов).
Что запатентовано
Запатентован метод гибридной кластеризации (принадлежит HP), который интегрирует данные о поведении пользователей в процесс контентной кластеризации. Система анализирует логи поисковых сессий, чтобы выявить документы, которые пользователи считают связанными (просматривают вместе — co-visitation). Эти связанные документы объединяются в Log-Based Cluster Document (или «Супердокумент»). Затем проводится стандартная контентная кластеризация, но вместо индивидуальных векторов просмотренных документов используются векторы их Супердокументов. Это гарантирует, что документы, связанные поведением пользователей, попадут в один кластер.
Как это работает
Система работает в несколько этапов:
- Анализ логов: Система анализирует логи сессий (retrieval session logs), фиксируя, какие документы пользователи открывали в рамках одной сессии.
- Кластеризация сессий: Сессии с похожими наборами открытых документов группируются в Session Clusters.
- Создание Супердокументов: Для каждого Session Cluster все открытые в нем документы объединяются (конкатенируются) в один Log-Based Cluster Document (Супердокумент).
- Подготовка Гибридной Матрицы (Hybrid Matrix): Создается матрица для контентного анализа. Для документов, которые никогда не просматривались, используются их индивидуальные векторы. Для просмотренных документов их индивидуальные векторы заменяются вектором соответствующего Супердокумента.
- Кластеризация: К Hybrid Matrix применяется стандартный алгоритм контентной кластеризации.
Актуальность для SEO
Средняя/Высокая. Хотя патент принадлежит Hewlett-Packard, а не Google, и техническая реализация (конкатенация, булевы векторы) устарела (приоритет 2000 г.), описанные в нем концепции крайне актуальны. Понимание взаимосвязей между документами на основе поведения пользователей (co-visitation) является важным элементом современных систем ранжирования и организации информации (например, для определения Topical Authority). Гибридный подход к использованию поведенческих и контентных сигналов остается фундаментальной задачей в Information Retrieval.
Важность для SEO
Влияние на SEO — значительное (7/10). Этот патент описывает конкретный механизм, с помощью которого поведенческие факторы (данные о сессиях) могут напрямую влиять на семантическую интерпретацию и группировку контента. Он показывает, что взаимосвязь документов определяется не только схожестью их содержания, но и тем, как пользователи потребляют их совместно. Это имеет стратегическое значение для построения внутренней перелинковки, структуры сайта и контент-плана, направленного на поддержку всей сессии пользователя, а не только ответа на один запрос.
Детальный разбор
Термины и определения
- Content-based clustering (Контентная кластеризация)
- Метод группировки документов на основе анализа их содержания (ключевых слов, фраз, тем).
- Hybrid Matrix (Гибридная матрица)
- Матрица векторов, используемая для финальной кластеризации. Включает как Individual Document Vectors (для непросмотренных документов), так и Log-Based Cluster Document Vectors (для просмотренных документов).
- Individual Document Vector (Индивидуальный вектор документа)
- Стандартное векторное представление документа, основанное на его содержании. Используется для документов, не фигурировавших в логах (Set D-L).
- Log-based clustering (Кластеризация на основе логов)
- Метод группировки документов на основе анализа логов доступа пользователей.
- Log-Based Cluster Document (Кластерный документ на основе логов / «Супердокумент»)
- Документ, созданный путем объединения (конкатенации) всех документов, которые были открыты в рамках одного Session Cluster.
- Log-Based Cluster Document Vector (Вектор кластерного документа на основе логов)
- Векторное представление Log-Based Cluster Document. Используется в Hybrid Matrix вместо индивидуальных векторов документов, входящих в него.
- Opened Document (Открытый документ)
- Документ, который был фактически просмотрен пользователем во время сессии.
- Retrieval Session Log (Лог поисковой сессии)
- Запись о взаимодействии пользователя с системой. Включает запрос и список открытых документов.
- Session Cluster (Кластер сессий)
- Группа поисковых сессий, которые похожи между собой по набору открытых документов.
- Session Vector (Вектор сессии)
- Булев вектор, представляющий сессию. Содержит 1 для документов, открытых в этой сессии, и 0 для остальных.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод кластеризации документов с учетом перспективы пользователя (user perspective).
- Получение логов поисковых сессий (retrieval session logs).
- Выполнение кластеризации на основе логов (log-based clustering) для генерации session clusters.
- Представление каждого session cluster как log-based document (Супердокумент), пригодного для контентной кластеризации.
- Получение множества документов, включающего первый документ (просмотренный в сессии) и второй документ (не просмотренный ни в одной сессии).
- Замена первого документа соответствующим log-based document.
- Выполнение контентной кластеризации (content based clustering) над смесью log-based documents и вторых (непросмотренных) документов.
Ключевая идея — использование поведения пользователей (логи) для создания новых сущностей (log-based documents), которые затем используются в стандартном контентном анализе, тем самым влияя на результат.
Claim 2 (Зависимый от 1): Уточняет метод представления session clusters.
Представление включает модификацию log-based documents таким образом, чтобы Евклидово расстояние (Euclidean distance) между документами, входящими в один кластер, было одинаковым (минимальным или нулевым).
Это техническое условие гарантирует, что документы, которые пользователи просматривали вместе (co-visitation), будут принудительно помещены в один и тот же кластер во время контентного анализа, независимо от различий в их содержании.
Claim 7 (Независимый пункт): Описывает метод генерации и использования Hybrid Matrix.
- Генерация Hybrid Matrix, включающей векторы для индивидуальных документов и векторы для log-based document cluster documents.
- Кластеризация документов с использованием Hybrid Matrix.
Далее детализируется процесс создания Hybrid Matrix, включая кластеризацию сессий, генерацию Супердокументов путем объединения контента, генерацию векторов и критически важный шаг: замену каждого индивидуального документа в кластере вектором этого кластера.
Где и как применяется
Изобретение применяется для организации и классификации большого корпуса документов, например, для построения директорий, порталов или улучшения браузинга в поисковой системе. Это не алгоритм ранжирования в реальном времени.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит извлечение признаков для генерации стандартных Individual Document Vectors на основе контента. Также здесь обрабатываются и индексируются логи пользовательских сессий (Retrieval Session Logs).
Офлайн-процессы (Data Analysis/Clustering)
Основная работа алгоритма происходит как офлайн-процесс анализа данных и построения структуры кластеров.
- Анализ логов и кластеризация сессий: Система обрабатывает накопленные логи, генерирует Session Vectors и формирует Session Clusters.
- Генерация Супердокументов: Создаются Log-Based Cluster Documents. Это требует доступа к контенту документов для их конкатенации.
- Построение Hybrid Matrix: Система рассчитывает векторы для Супердокументов и комбинирует их с индивидуальными векторами непросмотренных документов.
- Финальная Кластеризация: Применение алгоритмов контентной кластеризации к Hybrid Matrix.
Входные данные:
- Коллекция документов (D).
- Логи поисковых сессий (Retrieval Session Logs).
- Набор ключевых слов (W) для контентного анализа (если используется).
Выходные данные:
- Набор кластеров документов, учитывающий перспективу пользователя.
На что влияет
- Организация информации: Влияет на то, как документы группируются по темам. Документы с разным содержанием могут быть сгруппированы вместе, если пользователи часто просматривают их в одной сессии (co-visitation).
- Понимание связей (Topical Authority): Помогает системе понять, какие темы естественно связаны между собой с точки зрения пользователя, а не только с точки зрения семантики текста.
- Браузинг и навигация: Влияет на генерацию связанных тем, рекомендаций и структуры директорий.
Когда применяется
- Условие применения: Наличие достаточного объема логов поисковых сессий (Retrieval Session Logs) для выявления паттернов совместного просмотра документов.
- Временные рамки: Применяется периодически (офлайн) для обновления структуры кластеров по мере накопления новых логов и изменения поведения пользователей.
Пошаговый алгоритм
Фаза 1: Кластеризация на основе логов
- Доступ к логам: Получение Retrieval Session Logs. Каждая сессия (Sj) содержит список открытых документов.
- Генерация векторов сессий: Определение общего числа уникальных открытых документов (P) во всех сессиях. Каждая сессия конвертируется в P-мерный булев Session Vector (1, если документ открыт в сессии, 0, если нет).
- Кластеризация сессий: Применение стандартного алгоритма кластеризации к матрице Session Vectors для генерации Session Clusters (групп похожих сессий).
- Генерация Супердокументов: Для каждого Session Cluster создается Log-Based Cluster Document (Супердокумент) путем конкатенации всех документов, открытых в рамках сессий этого кластера.
Фаза 2: Гибридная контентная кластеризация
- Разделение корпуса документов: Весь корпус документов (D) делится на две группы:
- L: Документы, которые были открыты хотя бы в одной сессии (и теперь входят в Супердокументы).
- D-L: Документы, которые не были открыты ни в одной сессии.
- Генерация векторов для D-L: Для каждого документа в D-L генерируется стандартный Individual Document Vector на основе его содержания (например, T-мерный вектор по ключевым словам W).
- Генерация векторов для Супердокументов: Для каждого Супердокумента генерируется Log-Based Cluster Document Vector (также T-мерный).
- Построение Hybrid Matrix: Создается матрица размером N x T (где N — общее число документов).
- Для строк, соответствующих документам D-L, используются их Individual Document Vectors.
- Для строк, соответствующих документам L, используется Log-Based Cluster Document Vector того Супердокумента, в который входит данный документ. (Важно: все документы из одного Супердокумента будут иметь идентичные векторы в матрице).
- Финальная кластеризация: Применение стандартного алгоритма контентной кластеризации к Hybrid Matrix. Идентичность векторов для документов L гарантирует, что они попадут в один кластер (Euclidean distance между ними равно 0).
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Критические): Retrieval Session Logs. Система использует данные о том, какие документы были фактически открыты (Opened Document List) пользователем в рамках одной сессии (co-visitation). Также может учитываться запрос (Query Used) и опционально время просмотра документа (length of time that a document was opened) для оценки релевантности.
- Контентные факторы: Содержание документов используется дважды: 1) для генерации индивидуальных векторов непросмотренных документов; 2) для генерации векторов Супердокументов (путем конкатенации контента).
Какие метрики используются и как они считаются
- Схожесть сессий: Рассчитывается на основе пересечения открытых документов. Используется для кластеризации Session Vectors (булевых векторов).
- Векторное представление документов: Используются стандартные методы контентного анализа для создания T-мерных векторов для индивидуальных документов и Супердокументов.
- Евклидово расстояние (Euclidean distance): Используется на финальном этапе кластеризации. Ключевой механизм патента заключается в манипуляции векторами в Hybrid Matrix так, чтобы Euclidean distance между документами из одного Супердокумента было равно нулю, принуждая их к совместной кластеризации.
Выводы
- Поведение пользователей определяет семантические связи: Патент предлагает механизм, где совместное потребление контента пользователями (co-visitation) является определяющим фактором для группировки документов. Если пользователи часто просматривают документы А и Б в одной сессии, система будет считать их тесно связанными, даже если их контент различается.
- Гибридный подход к кластеризации: Система не полагается только на логи или только на контент. Логи используются для выявления связей с точки зрения пользователя (user perspective), а контентный анализ используется для масштабирования этих связей на весь корпус документов.
- Механизм «Супердокументов»: Создание Log-Based Cluster Documents путем конкатенации связанного контента является ключевым техническим решением. Это позволяет представить поведенческие данные в формате, пригодном для контентного анализа.
- Принудительная кластеризация: Замена индивидуальных векторов документов вектором их Супердокумента в Hybrid Matrix — это агрессивный метод, который гарантирует, что поведенчески связанные документы окажутся в одном кластере (их Euclidean distance равно 0).
- Кластеризация непросмотренного контента: Документы, которые не были просмотрены пользователями (D-L), кластеризуются на основе их контентной схожести с Супердокументами. Это позволяет организовать весь корпус.
Практика
Best practices (это мы делаем)
- Оптимизация пути пользователя (User Journey) и поддержка сессии: Проектируйте контент и структуру сайта так, чтобы стимулировать пользователя просматривать несколько связанных страниц за одну сессию. Это увеличивает вероятность того, что эти страницы будут идентифицированы как связанные в логах (co-visitation) и объединены в Session Cluster.
- Создание тематических хабов (Hub and Spoke): Развивайте полные тематические кластеры. Если пользователи постоянно переходят от вашего обзора продукта к вашей же инструкции по его настройке, эти страницы могут быть объединены в Супердокумент, усиливая их тематическую связь в глазах системы.
- Улучшение внутренней перелинковки: Используйте перелинковку для направления пользователей между страницами, которые логически связаны, но могут иметь разный интент (например, информационный и транзакционный). Совместный просмотр укрепит их связь.
- Анализ логов сервера и поведения на сайте: Изучайте, какие страницы часто посещаются вместе (используя аналитику или анализ логов). Это даст представление о том, как система может формировать Session Clusters для вашего контента.
Worst practices (это делать не надо)
- Изолированный контент (Orphan Pages): Создание страниц, оптимизированных под один запрос и не связанных с остальным контентом. Если страница не участвует в сессиях пользователей, она не получит преимуществ от поведенческой кластеризации.
- Введение пользователя в заблуждение (Pogo-sticking): Если пользователи часто возвращаются из вашего контента обратно в поиск, ваш контент будет ассоциироваться с неуспешными сессиями. Патент предлагает учитывать время просмотра (length of time), что может фильтровать такие случаи.
- Фокус только на контентном анализе: Полагаться только на схожесть ключевых слов для определения структуры сайта недостаточно. Необходимо учитывать, как реальные пользователи перемещаются по сайту и решают свои задачи.
Стратегическое значение
Этот патент подчеркивает важность поведенческих данных для понимания структуры информации. Для SEO это означает, что построение авторитетности (Topical Authority) зависит не только от наличия контента по теме, но и от того, как этот контент взаимодействует друг с другом в рамках пользовательских сессий. Стратегия должна быть направлена на удовлетворение интента сессии, а не только интента одного запроса. Это также объясняет, как поисковые системы могут выявлять естественные связи между сущностями и темами, основываясь на коллективном поведении пользователей.
Практические примеры
Сценарий: Усиление связи между статьями блога
- Ситуация: У вас есть две статьи: «Как выбрать кофемашину» (А) и «Лучшие сорта арабики» (Б). Контентно они связаны слабо.
- Действие (Оптимизация сессии): Вы добавляете заметный блок перелинковки в статье А, предлагающий узнать больше о сортах кофе в статье Б.
- Поведение пользователя: Значительное число пользователей, ищущих кофемашину, заинтересовывается и переходит к чтению о сортах кофе в рамках той же сессии (co-visitation).
- Работа алгоритма (концептуально): Система фиксирует в Retrieval Session Logs, что А и Б часто открываются вместе. Они попадают в один Session Cluster. Создается Супердокумент (А+Б).
- Результат: Система принудительно кластеризует их вместе. Это укрепляет понимание системы, что ваш сайт авторитетен в широкой теме «Кофе», а не только в узких темах «Кофемашины» и «Арабика».
Вопросы и ответы
Является ли этот патент патентом Google?
Нет, этот патент принадлежит Hewlett-Packard (HP). Однако он описывает фундаментальные концепции Information Retrieval, связанные с гибридной кластеризацией и использованием поведенческих данных (логов сессий). Эти концепции актуальны и могут использоваться (в той или иной форме) крупными поисковыми системами, включая Google, для улучшения понимания связей между документами.
Что такое «Супердокумент» (Log-Based Cluster Document) и зачем он нужен?
Супердокумент создается путем объединения (конкатенации) текстов всех документов, которые пользователи часто просматривали вместе в рамках похожих сессий. Он нужен для того, чтобы преобразовать поведенческие данные (факт совместного просмотра) в формат, пригодный для контентного анализа. Это позволяет использовать стандартные алгоритмы кластеризации, учитывая при этом перспективу пользователя.
Как система заставляет связанные поведением документы попадать в один кластер?
Это достигается за счет манипуляции в Hybrid Matrix. Система заменяет индивидуальные векторы всех документов, входящих в один Супердокумент, на единый вектор этого Супердокумента. Поскольку у этих документов оказываются идентичные векторы, расстояние между ними (Euclidean distance) становится равным нулю. Стандартные алгоритмы кластеризации гарантированно поместят их в одну группу.
Что происходит с документами, которые никто не посещает?
Такие документы (называемые в патенте D-L) не попадают в Супердокументы. В Hybrid Matrix они представлены своими стандартными индивидуальными векторами, основанными на их содержании. Они будут кластеризованы на основе их контентной схожести с другими индивидуальными документами или с Супердокументами.
Как это влияет на внутреннюю перелинковку?
Перелинковка становится критически важной не только для передачи веса, но и для управления поведением пользователей. Эффективная перелинковка стимулирует просмотр нескольких страниц за сессию (co-visitation). Если вы направляете пользователя от страницы А к странице Б, и это происходит массово, система зафиксирует эту связь через Session Logs и укрепит тематическую связь между этими страницами.
Могут ли документы с совершенно разным контентом быть сгруппированы вместе?
Да, это одна из ключевых особенностей патента. Если пользователи постоянно просматривают два документа в одной сессии (например, «Рецепт пиццы» и «Расписание футбольных матчей»), система может решить, что эти документы связаны с точки зрения пользователя (user perspective), и принудительно объединит их в один кластер, несмотря на различия в контенте.
Учитывает ли система время просмотра документа?
Патент упоминает, что помимо списка открытых документов, могут использоваться и другие факторы для ранжирования релевантности в логах. В качестве примера приводится length of time that a document was opened (продолжительность открытия документа). Это говорит о том, что просто кликнуть на документ недостаточно; важно, чтобы пользователь его изучил.
Как этот патент связан с Topical Authority?
Он предоставляет механизм для построения Topical Authority с учетом поведения пользователей. Если страницы вашего сайта покрывают разные аспекты одной темы и пользователи активно перемещаются между ними в рамках одной сессии, эти страницы будут объединены в кластеры. Это сигнализирует системе о широком и глубоком охвате темы, что способствует повышению авторитетности сайта в данной области.
Применяется ли этот алгоритм в реальном времени при ранжировании?
Нет. Описанный процесс является офлайн-процессом для анализа данных и построения структуры кластеров. Он не предназначен для переранжирования результатов в ответ на конкретный запрос пользователя в реальном времени. Результаты этой кластеризации затем могут использоваться системой для организации информации, навигации или как один из сигналов.
Что важнее для этого алгоритма: логи сервера или данные счетчиков (типа Google Analytics)?
Патент описывает использование Retrieval Session Logs, которые обычно генерируются информационной поисковой системой (например, поисковиком или внутренним поиском портала) или веб-сервером. Эти логи содержат информацию о запросе и открытых документах в рамках сессии. Для поисковой системы наиболее важны ее собственные логи сессий поиска.