Анализ патента Xerox (1999 г.), описывающего метод персонализации поиска. Система создает профили пользователей и групп (сообществ) на основе анализа документов, которые они ранее оценили. Эти профили (векторы весов терминов) используются для переранжирования стандартной выдачи с помощью сложных формул векторного сходства, чтобы лучше соответствовать контексту и интересам пользователя.
Описание
Какую задачу решает
Патент решает проблему стандартных систем ранжирования (конца 90-х годов), которые игнорировали идентичность пользователя, его долгосрочные интересы и контекст поиска. Цель изобретения — улучшить релевантность поисковой выдачи путем ее адаптации под конкретного пользователя или сообщество (группу по интересам), к которому он принадлежит. Система стремится достичь этого без необходимости запрашивать у пользователя явную обратную связь (relevance feedback) во время текущей сессии, полагаясь вместо этого на заранее подготовленные профили.
Что запатентовано
Запатентована система совместного (collaborative) ранжирования, разработанная Xerox. Суть изобретения заключается в создании и использовании контекстных профилей (User Profile и Community Profile), которые генерируются путем анализа коллекций документов (Document Collections), оцененных пользователями. Эти профили, представленные как векторы весов терминов (term-weight vectors), применяются для переоценки и переранжирования результатов, возвращаемых стандартными поисковыми системами.
Как это работает
Система функционирует как надстройка (часто в архитектуре метапоиска) над поисковыми движками:
- Профилирование (Офлайн): Анализируются документы, которые пользователь или сообщество оценили или сохранили. Из них извлекаются термины и их веса, формируя профили. Для сообществ учитывается авторитетность участников (Experts).
- Определение контекста (Онлайн): Search Pre-processor определяет контекст поиска, выбирая соответствующий профиль (пользователя, сообщества или эксперта) и генерируя профиль запроса.
- Поиск: Запрос отправляется во внешние поисковые системы.
- Переранжирование (Онлайн): Search Post-processor загружает контент полученных результатов (ресурсоемкое действие), анализирует его и рассчитывает новую оценку релевантности. Эта оценка основана на сравнении содержания документов с выбранным профилем контекста и профилем запроса с использованием запатентованных формул.
Актуальность для SEO
Низкая. Патент принадлежит Xerox и подан в 1999 году. Конкретные технические методы, такие как классические векторные модели (Vector Space Model), явное профилирование на основе оценок и архитектура, требующая загрузки полных документов на лету для переранжирования, значительно устарели. Они не сопоставимы с современными нейросетевыми подходами (эмбеддинги) и методами неявной персонализации. Фундаментальная концепция использования контекста пользователя остается актуальной, но реализация архаична.
Важность для SEO
Минимальное влияние (1/10). Патент представляет исторический интерес в области Information Retrieval, описывая ранние концепции персонализации и коллаборативной фильтрации. Однако описанные механизмы не имеют прямого отношения к практическому SEO для Google в 2025 году. Он не предлагает действенных инсайтов о текущих системах Google, хотя концептуально подтверждает важность понимания контекста аудитории и авторитетности.
Детальный разбор
Термины и определения
- Community Profile (Профиль сообщества, Pᶜ)
- Вектор весов терминов, представляющий интересы группы пользователей. Рассчитывается как взвешенная агрегация профилей участников с учетом их авторитетности (αᵤ).
- Context Profile (Контекстный профиль)
- Общий термин для профиля (пользователя, сообщества или эксперта), используемого для переранжирования результатов.
- Document Collection (Коллекция документов)
- Набор документов, оцененных (rated) пользователем или сообществом. Источник данных для создания профилей. Часто связан с Recommender System.
- Expert (Эксперт)
- Участник сообщества, чьи рекомендации наиболее часто принимаются другими. Имеет высокий вес авторитетности αᵤ. Его профиль может использоваться как Expert Profile (Pᵉˣᵖ).
- Profile Conservativeness (γ, Gamma)
- Коэффициент консервативности. Определяет, насколько быстро профиль изменяется при добавлении новых оцененных документов (скорость обновления).
- Search Post-processor (Постпроцессор поиска)
- Компонент, который загружает контент результатов поиска и переранжирует их на основе выбранного Context Profile.
- Search Pre-processor (Препроцессор поиска)
- Компонент, определяющий контекст запроса, выбирающий контекстный профиль и генерирующий профиль запроса (P۹).
- Term-weight vector (Вектор весов терминов)
- Структура данных, представляющая профиль как набор терминов и их числовых весов. Основа классической Векторной Модели (Vector Space Model).
- User Contribution Weight (αᵤ, Alpha)
- Вес вклада или авторитетности пользователя в сообществе. Используется для расчета Community Profile.
- User Profile (Профиль пользователя, Pᵘ)
- Вектор весов терминов, представляющий интересы пользователя. Создается на основе документов, которые пользователь оценил или сохранил.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основную систему и метод ранжирования с использованием профиля пользователя (u).
- User profiler создает профиль пользователя Pᵘ = (tᵢ, wᵤᵢ) из Document Collection.
- Search pre-processor получает запрос (q) и определяет профиль запроса P۹ = (t۹ᵢ, w۹ᵢ).
- Поисковая система возвращает результаты (документы d).
- Search post-processor генерирует профиль документа Pᵈ = (tᵈᵢ, wᵈᵢ) и вычисляет ранг по специфической формуле.
Формула ранжирования (Claim 1): Ядро изобретения — это конкретная формула расчета релевантности:
relevance(d) = [ Σᵢ (wᵈᵢ * wᵤᵢ * w۹ᵢ) ] / Wd
Числитель мультипликативно объединяет вес термина в документе (wᵈᵢ), в профиле пользователя (wᵤᵢ) и в запросе (w۹ᵢ). Это сложная многофакторная оценка релевантности, требующая пересечения терминов во всех трех векторах.
Знаменатель Wd (нормализатор, описанный как длина вектора, «спроецированная» на профиль контекста) рассчитывается как: Wd = sqrt[ Σᵢ (wᵤᵢ * wᵈᵢ)² ].
Claim 5 (Независимый пункт): Описывает систему с акцентом на профиль сообщества и агрегацию.
- Включает Community Profiler для построения профиля сообщества (Pᶜ).
- Вводит вес (авторитетность/вклад) участника αᵤ (альфа-фактор), где сумма всех αᵤ равна 1 (Σᵤ αᵤ = 1).
Этот пункт защищает метод агрегации индивидуальных интересов в групповой профиль с использованием взвешивания участников (учет мнения экспертов).
Claim 6 (Зависимый от 5): Определяет формулу для веса термина в профиле сообщества: wᶜᵢ = Σᵤ αᵤ * wᵤᵢ. Это взвешенная сумма интересов участников.
Claim 11 (Независимый пункт): Описывает метод создания, использования и обновления профиля пользователя. Он включает ту же сложную формулу ранжирования из Claim 1 и добавляет шаг обновления профиля пользователя (Pᵘ) с использованием наиболее высоко ранжированного элемента из результатов поиска (петля обратной связи).
Где и как применяется
Система позиционируется как надстройка (часто в архитектуре метапоиска) над существующими поисковыми системами.
INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит основная подготовка данных. User Profiler и Community Profiler анализируют Document Collection и явные оценки пользователей (ratings). Рассчитываются и сохраняются User Profiles (Pᵘ), веса экспертов (αᵤ) и Community Profiles (Pᶜ).
QUNDERSTANDING – Понимание Запросов
Когда пользователь вводит запрос, Search Pre-processor определяет контекст (выбирает нужный профиль Pᵘ, Pᶜ или Pᵉˣᵖ) и генерирует профиль запроса P۹.
RANKING – Ранжирование
Запрос отправляется во внешние поисковые системы, возвращается стандартный набор результатов.
RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Основное применение патента. Search Post-processor получает результаты. Он выполняет ресурсоемкую операцию: загружает контент этих результатов (аналог CRAWLING на лету) и генерирует профили документов Pᵈ (аналог INDEXING на лету). Затем рассчитывается финальная оценка relevance(d) по формулам из Claims, используя Pᵈ, P۹ и выбранный профиль контекста. Происходит переранжирование.
Входные данные:
- Document Collection и рейтинги (для офлайн-профилирования).
- Запрос пользователя и выбранный контекстный профиль.
- Результаты поиска от внешних систем.
Выходные данные:
- Переранжированный список документов, отсортированный по персонализированной релевантности.
На что влияет
- Конкретные ниши или тематики: Механизм предназначен преимущественно для корпоративных сред (Intranet), академических или специализированных сообществ (Communities of Practice), где существуют управляемые коллекции документов и возможность получить явную обратную связь. Система не предназначена для общего веб-поиска.
- Типы контента: Влияет на текстовый контент, который может быть загружен и проанализирован (упоминается необходимость трансформации форматов в ASCII).
Когда применяется
- Условия применения: Требует наличия предварительно рассчитанных профилей пользователя или сообщества, основанных на анализе Document Collection.
- Триггеры активации: Механизм активируется при выполнении поиска, если пользователь выбирает использование Context Profile для ранжирования (автоматически или вручную).
- Временные аспекты: Патент отмечает, что процесс переранжирования может быть длительным из-за необходимости загрузки контента, и предлагает выполнять его в фоновом режиме.
Пошаговый алгоритм
Этап А: Профилирование (Офлайн или Фоновый режим)
- Сбор данных: Анализ Document Collection и пользовательских оценок (рейтингов).
- Создание профиля пользователя (Pᵘ): Извлечение терминов и расчет их весов (wᵤᵢ) из документов, которые пользователь оценил положительно.
- Оценка авторитетности (αᵤ): Определение вклада и авторитетности каждого участника сообщества. Например, рассчитывается на основе количества поданных документов (rᵤ) и количества пользователей, последовавших этим рекомендациям (fᵤ). Упоминается формула: v * rᵤ / fᵤ. Идентификация экспертов.
- Создание профиля сообщества (Pᶜ): Агрегация профилей пользователей с учетом их авторитетности по формуле: wᶜᵢ = Σᵤ αᵤ * wᵤᵢ.
- Обновление профилей: Периодическое обновление с использованием коэффициента консервативности (γ), чтобы профиль не менялся слишком резко: wᵢⁿᵉʷ = γ * wᵢ + (1-γ) * w’ᵢ.
Этап Б: Обработка запроса (Онлайн)
- Препроцессинг запроса: Получение запроса (q) и выбор профиля контекста (например, Pᵘ). Генерация профиля запроса P۹ (веса w۹ᵢ).
- Выполнение поиска: Получение первичного набора результатов от поисковых систем.
- Загрузка контента: Загрузка полного текста или аннотаций полученных результатов (d).
- Создание профилей документов (Pᵈ): Расчет весов (wᵈᵢ) для каждого результата.
- Расчет нормализующего фактора (Wd): Вычисление с использованием выбранного контекстного профиля (например, Pᵘ): Wd = sqrt[ Σᵢ (wᵤᵢ * wᵈᵢ)² ].
- Расчет релевантности: Вычисление финальной оценки по основной формуле (Claim 1): relevance(d) = [ Σᵢ (wᵈᵢ * wᵤᵢ * w۹ᵢ) ] / Wd.
- Переранжирование: Сортировка результатов по убыванию relevance(d).
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст документов из Document Collection (для построения профилей) и текст загруженных результатов поиска (для переранжирования). Используются для извлечения терминов и расчета их весов в рамках Векторной Модели (Vector Space Model).
- Поведенческие факторы (в рамках системы): Рейтинги документов, явно проставленные пользователями (Explicit Feedback). Данные о том, кто следует чьим рекомендациям (для расчета авторитетности αᵤ). Факт подачи или сохранения документа пользователем.
- Пользовательские факторы: Идентификатор пользователя, его принадлежность к определенным сообществам, выбор контекста поиска.
Какие метрики используются и как они считаются
Система использует набор весовых коэффициентов в рамках VSM:
- wᵤᵢ, wᶜᵢ, wᵈᵢ, w۹ᵢ: Веса терминов в профиле пользователя, сообщества, документе и запросе соответственно.
- αᵤ (Alpha): Метрика авторитетности или вклада пользователя в сообществе. Рассчитывается на основе популярности его рекомендаций.
- γ (Gamma): Коэффициент консервативности профиля (например, [0.5, 0.95]).
Ключевые формулы:
- Ранжирование (Claim 1): relevance(d) = [ Σᵢ (wᵈᵢ * wᵤᵢ * w۹ᵢ) ] / Wd.
- Нормализация (Claim 1): Wd = sqrt[ Σᵢ (wᵤᵢ * wᵈᵢ)² ].
- Расчет профиля сообщества (Claim 6): wᶜᵢ = Σᵤ αᵤ * wᵤᵢ.
Патент также упоминает в описании возможность использования более простой формулы ранжирования (скалярное произведение профиля документа и профиля контекста): relevance(d) = Σᵢ (wᵈᵢ * wᴾʳᵒᶠᵢ), но основные Claims защищают более сложную формулу.
Выводы
- Ранняя реализация персонализации и контекстного поиска: Патент описывает попытку внедрения персонализации и коллаборативной фильтрации в информационный поиск, подчеркивая, что релевантность зависит от контекста пользователя (User Profile) и запроса (Query Profile).
- Классическая Векторная Модель (VSM) и ее ограничения: Техническая реализация основана на term-weight vectors. Эти методы значительно устарели по сравнению с современными нейросетевыми эмбеддингами (BERT, MUM), которые лучше улавливают семантику.
- Моделирование сообществ и авторитетности: Система явно моделирует интересы групп (Community Profile) и вводит понятие авторитетности участников (Experts, αᵤ), основанное на социальном взаимодействии (следование рекомендациям).
- Зависимость от явной обратной связи (Explicit Feedback): Эффективность системы зависит от активности пользователей по явной оценке контента (ratings) и управлению коллекциями. Это плохо масштабируется для веб-поиска.
- Высокая вычислительная сложность онлайн: Описанный процесс требует загрузки и анализа контента всех результатов поиска в реальном времени (в Search Post-processor) для их переранжирования. Патент признает, что это ресурсоемкий и медленный процесс.
- Специфическая формула ранжирования: Запатентованная формула (Claim 1) представляет собой сложную комбинацию весов из трех источников (документ, пользователь, запрос), что отличается от стандартных подходов VSM того времени.
Практика
ВАЖНО: Этот патент (Xerox, 1999/2001) описывает инфраструктурные и алгоритмические подходы, которые значительно устарели и не используются в Google. Прямых практических рекомендаций для современного SEO, основанных на этих конкретных механизмах, извлечь нельзя.
Best practices (это мы делаем)
- Построение авторитетности в нише (Концептуально): Патент вводит понятие «экспертов» (Experts) внутри сообщества, чье мнение имеет больший вес (αᵤ). Это концептуально коррелирует с важностью сигналов E-E-A-T и построения тематической авторитетности (Topical Authority) в современном SEO, хотя механизмы оценки совершенно иные.
- Понимание целевой аудитории (Концептуально): Патент подчеркивает важность соответствия контента долгосрочным интересам аудитории («профилю интересов»). SEO-специалисты должны создавать контент, который резонирует с их целевой группой (сообществом).
Worst practices (это делать не надо)
- Создание контента без учета контекста: Контент, который формально релевантен тексту запроса, но не соответствует интересам и контексту пользователя, будет ранжироваться ниже в любой персонализированной выдаче. Патент подтверждает этот базовый принцип, хотя и использует устаревшие методы для его реализации.
Стратегическое значение
Патент имеет исключительно историческое значение. Он подтверждает долгосрочный тренд на уход от универсального ранжирования к персонализированному. Хотя современные системы используют гораздо более продвинутые методы (машинное обучение, неявные сигналы), основная идея — ранжировать выше то, что интересно конкретному пользователю или группе похожих пользователей — остается неизменной. Однако стратегического значения для современного SEO патент не несет.
Практические примеры
Практических примеров, основанных на конкретных механизмах этого устаревшего патента, для современного SEO нет.
Вопросы и ответы
Это патент Google?
Нет, это патент корпорации Xerox, поданный в 1999 году и опубликованный в 2001 году. Он описывает общие принципы информационного поиска и персонализации, разработанные исследователями Xerox, и не имеет прямого отношения к алгоритмам Google.
Использует ли Google описанные в патенте формулы ранжирования (например, из Claim 1)?
Крайне маловероятно. Формулы, основанные на классических векторных моделях (Vector Space Model) и явном перемножении весов терминов (wᵈ * wᵘ * w۹), значительно устарели. Современные системы Google используют сложные нейросетевые модели (Deep Learning) для ранжирования и персонализации.
Что такое «Вектор весов терминов» (Term-weight vector) и актуально ли это?
Это классическое представление документа, где каждому слову присваивается вес (например, TF-IDF). Этот подход был основой поиска в 90-х и начале 2000-х, но сейчас он вытеснен нейросетевыми эмбеддингами (векторами, которые улавливают семантический смысл, а не просто частоту слов).
Как система определяет «Экспертов» (Experts) в сообществе?
Experts определяются как участники, чьим рекомендациям чаще всего следуют другие члены сообщества. Им присваивается более высокий коэффициент авторитетности (αᵤ), что увеличивает их влияние на формирование Community Profile.
Как концепция «экспертов» из патента соотносится с E-E-A-T?
Связь только концептуальная. Патент пытается алгоритмически определить авторитетность на основе коллаборативной фильтрации внутри закрытой системы (социальное доверие). Это перекликается с идеей E-E-A-T, но методы оценки Google основаны на гораздо более широком анализе сигналов в масштабах всего веба.
Какие технические ограничения у описанной системы?
Основное ограничение — производительность. Механизм требует загружать и анализировать полный контент всех результатов поиска в реальном времени (в Search Post-processor) для их переранжирования. Это медленный, ресурсоемкий процесс, который не масштабируется для веб-поиска.
Требует ли эта система действий от пользователя для построения профиля?
Да, система сильно зависит от явных действий (Explicit Feedback). Предполагается, что пользователь активно оценивал (ставил рейтинги) или сохранял документы ранее в Document Collection, что позволило системе создать его профиль на основе анализа этого контента.
Какова практическая польза этого патента для SEO сегодня?
Прямая польза минимальна из-за устаревших технологий. Патент полезен только для понимания истории развития персонализированного поиска и подтверждает, что учет интересов пользователя и авторитетности источника давно являются целями поисковых систем.
Как система обновляет профили пользователей?
Профили обновляются, когда пользователь оценивает новые релевантные документы. Система использует коэффициент консервативности (γ), который определяет, насколько сильно новый документ повлияет на существующий профиль, обеспечивая плавность изменений.
Что такое «Collaborative Ranking» в контексте патента?
Это метод ранжирования, который использует информацию о предпочтениях группы пользователей (сообщества). Вместо того чтобы полагаться только на релевантность контента запросу, система учитывает мнения схожих пользователей или экспертов сообщества для адаптации выдачи.