
Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.
Патент решает задачу определения тематической схожести между документами путем анализа поведения пользователей, а не только контента или ссылок. Это помогает улучшить кластеризацию результатов поиска, особенно для неоднозначных запросов (например, «Lotus» — автомобиль или цветок), позволяя группировать документы на основе того, как пользователи взаимодействуют с ними в контексте своих поисковых сессий. Система использует навигационные паттерны (co-visitation) как сильный сигнал релевантности и взаимосвязи.
Запатентована система кластеризации документов, основанная на общности последующих пользовательских выборов (Common Document Selections). Система анализирует навигационные логи (Navigation Information), чтобы определить, куда пользователи переходят после посещения определенного документа. Если два разных документа постоянно приводят пользователей к одному и тому же набору последующих документов, эти два исходных документа считаются похожими.
Механизм работает следующим образом:
Navigation Information, отслеживая переходы пользователей между документами в рамках сессий (Sessions).Document Vector), который содержит список документов, выбранных пользователями после Документа А, и частоту (вес) этих выборов.cosine similarity).Similarity Score превышает определенный порог, Документ А и Документ Б помечаются как схожие и объединяются в кластер (Cluster).Высокая. Анализ поведения пользователей (clickstream data, анализ сессий) является критически важным компонентом современных поисковых систем для понимания интента и релевантности за пределами ключевых слов. Этот патент описывает конкретный метод использования данных о совместном посещении (co-visitation) для построения тематических моделей и кластеризации контента, что остается актуальной задачей.
Патент имеет высокое значение (8/10) для SEO-стратегии. Он подчеркивает, что Google оценивает не только сам контент страницы, но и то, как она вписывается в общее путешествие пользователя (user journey). Это напрямую влияет на то, как Google понимает тематическую структуру веба и релевантность конкретных страниц. Оптимизация под этот механизм требует фокуса на удовлетворении интента и эффективном направлении пользователя к его следующему шагу.
cosine similarity или других методов.Claim 1 (Независимый пункт): Описывает основной метод кластеризации.
first navigation information) для первого документа. Эта информация идентифицирует первый набор документов, выбранных после первого документа, и количество (quantity) этих выборов.data structures), ассоциирующие документы с их навигационной информацией.similarity score, основанный на сравнении и на информации о количестве выборов (весах).similarity score определяется, что первый документ похож на второй.cluster), включающий идентификационную информацию первого и второго документов.Claim 7 (Зависимый от 1): Уточняет, что структуры данных являются векторами (first vector и second vector), и сравнение включает определение схожести этих векторов.
Claim 8 (Зависимый от 7): Уточняет, что определение схожести векторов включает определение косинусного сходства (cosine similarity) между первым и вторым векторами.
Claim 14 (Независимый пункт): Описывает систему, реализующую метод, схожий с Claim 1, но с акцентом на то, что similarity score базируется на количестве раз, когда каждый документ в наборах был выбран (т.е. на весах в векторах).
Изобретение в основном применяется в офлайн-процессах обработки данных для генерации кластеров, которые затем используются онлайн-системами ранжирования.
CRAWLING & Data Acquisition / INDEXING & Feature Extraction (Офлайн-процессы)
На этих этапах происходит сбор и обработка Navigation Information. Система анализирует логи пользовательского поведения (clickstream data), обрабатывает их, генерирует Document Vectors для большого количества документов и вычисляет Similarity Scores между парами документов. Результаты (Correlation Information и Clusters) сохраняются в репозитории (Cluster Repository). Это масштабный процесс анализа данных.
RANKING / METASEARCH & Blending (Онлайн-процессы)
Сгенерированные кластеры используются поисковой системой (Search Engine Server) во время обработки запросов. Это может применяться для:
Входные данные:
Navigation Information).Выходные данные:
Correlation Information, указывающая на схожесть пар документов.Clusters — группы схожих документов.Navigation Information.Similarity Score между векторами двух документов превышает заданный порог.Процесс анализа и кластеризации документов:
Navigation Information из репозитория логов. Эти данные включают информацию о том, какие документы были выбраны после просмотра других документов, и частоту этих выборов.Sessions). Учитываются только те переходы, которые произошли в рамках одной сессии (например, в течение определенного времени после просмотра исходного документа или до ввода нового запроса).Document Vector, где каждый элемент — это последующий документ и его вес (количество выборов).cosine similarity, анализ пропорции общих документов в векторах или комбинацию методов. Веса (частота выборов) играют ключевую роль в расчете.Similarity Score может быть скорректирован (увеличен), если зафиксирована прямая корреляция — то есть, если Документ 1 присутствует в векторе Документа 2 и/или наоборот. Это указывает на то, что пользователи напрямую переходили между этими двумя документами.Similarity Score сравнивается с предустановленным порогом.Correlation Information, указывающую на схожесть Документа 1 и Документа 2, и они добавляются в общий кластер (Cluster). Эта информация сохраняется в Cluster Repository.Патент полностью сосредоточен на использовании поведенческих данных.
Navigation Information: Данные о последовательности выбора документов пользователями (clickstream data).Sessions: Данные о границах пользовательских взаимодействий, используемые для фильтрации навигационной информации.Quantity of selections): Частота, с которой пользователи переходили от одного документа к другому.Другие типы факторов (контентные, ссылочные, технические) в этом патенте не упоминаются как входные данные для этого конкретного механизма кластеризации.
quantity of times) последующего документа. Это определяет важность конкретного перехода в общем навигационном паттерне документа.Cosine Similarity: Стандартный метод для определения схожести между двумя векторами в многомерном пространстве, учитывающий веса элементов.Similarity Score для принятия решения о кластеризации. Пороги могут отличаться в зависимости от того, используются ли кластеры для создания подкластеров внутри уже существующих кластеров.Navigation Information, независимо от анализа ключевых слов, контента или ссылочного профиля документов.Session. Это гарантирует, что учитываются только контекстуально связанные переходы, а не случайные навигационные действия пользователя.Similarity Score.Document Vectors.Document Vectors, которые не коррелируют с векторами других качественных страниц по теме.Патент подтверждает, что Google активно использует данные о поведении пользователей (co-visitation data) для понимания тематической релевантности и взаимосвязей между документами. Для SEO-специалистов это означает, что стратегия должна фокусироваться не только на том, как пользователь попадает на страницу (ключевые слова, ссылки), но и на том, что он делает после этого. Успешность страницы зависит от ее способности быть полезным шагом в общем путешествии пользователя по теме.
Сценарий: Кластеризация страниц обзоров разных форматов
Navigation Information. Similarity Score (например, из-за высокого cosine similarity), так как последующие переходы и их относительные веса очень похожи.Зависит ли этот механизм кластеризации от наличия внутренних или внешних ссылок на странице?
Нет, он зависит от фактических выборов (кликов) пользователей. Пользователь может кликнуть на внутреннюю ссылку, внешнюю ссылку, или даже вернуться на страницу результатов поиска (SERP) и выбрать другой результат. Все эти действия, если они происходят в рамках одной Session, могут быть записаны как Navigation Information и использованы для генерации Document Vector.
Что такое «Сессия» (Session) в контексте этого патента?
Session определяется как период взаимодействия пользователя. Патент предлагает несколько вариантов определения границ сессии: она может начинаться при показе документа или вводе запроса и заканчиваться по истечении определенного времени, после определенного количества кликов, при закрытии браузера или при вводе следующего поискового запроса. Это необходимо для учета только контекстуально связанных переходов.
Как именно рассчитывается схожесть между двумя документами?
Схожесть рассчитывается путем сравнения их Document Vectors. Вектор содержит список последующих кликов и их частоту (вес). Основным методом, упомянутым в патенте, является косинусное сходство (cosine similarity), которое учитывает как набор общих последующих документов, так и их относительные веса. Также могут использоваться метрики пропорции общих документов или общих выборов.
Какое значение имеет показатель отказов (Bounce Rate) для этого алгоритма?
Показатель отказов имеет критическое значение. Страницы с высоким показателем отказов (тупиковые страницы) не генерируют данных о последующих переходах. Следовательно, для них невозможно создать надежный Document Vector и эффективно кластеризовать их с помощью этого метода. Страницы, которые удовлетворяют интент и ведут к релевантным следующим шагам, будут иметь преимущество.
Может ли система повысить оценку схожести, если пользователи часто переходят напрямую между двумя анализируемыми документами?
Да, патент предусматривает возможность корректировки (увеличения) Similarity Score, если один кандидатный документ присутствует в векторе другого. Например, если пользователи часто переходят от А к Б или от Б к А. Это считается сильным сигналом прямой корреляции и может усилить общую оценку схожести, рассчитанную на основе других общих переходов.
Как SEO-специалист может повлиять на этот механизм кластеризации?
Основной способ влияния — это оптимизация пути пользователя (User Journey). Необходимо убедиться, что страница предоставляет логичные и полезные следующие шаги (через внутреннюю перелинковку или исходящие ссылки), которые соответствуют навигационным паттернам, наблюдаемым у авторитетных сайтов по этой теме. Это поможет сформировать Document Vector, схожий с векторами других релевантных страниц.
Используется ли этот механизм для всех типов контента?
Патент указывает, что метод применим к любым документам, но особо выделяет его полезность для изображений. Для мультимедийного контента, где текстовый анализ может быть ограничен, поведенческие сигналы, такие как co-visitation, становятся особенно важными для определения тематической схожести и кластеризации.
Является ли этот процесс вычислением в реальном времени?
Нет. Сбор Navigation Information, генерация Document Vectors и расчет Similarity Scores — это ресурсоемкие процессы, которые выполняются офлайн. Результаты (Clusters) сохраняются в репозитории и затем используются поисковой системой в реальном времени для улучшения ранжирования и группировки результатов.
Что произойдет, если я попытаюсь манипулировать этим алгоритмом, используя ботов для симуляции переходов?
Манипуляции, скорее всего, будут неэффективны. Google обладает сложными механизмами для фильтрации бот-трафика и неестественного поведения. Кроме того, для успешной кластеризации ваши навигационные паттерны должны соответствовать паттернам, генерируемым реальными пользователями на других авторитетных сайтах по той же теме. Случайные или искусственные переходы не создадут нужной корреляции.
Как этот патент связан с Topical Authority?
Он напрямую связан с тем, как Google может оценивать Topical Authority. Если страницы сайта постоянно кластеризуются вместе со страницами других авторитетных ресурсов по определенной теме на основе общих навигационных паттернов, это сигнализирует о том, что сайт является релевантным и полезным источником информации в рамках этой темы, что способствует повышению его тематического авторитета.

Поведенческие сигналы
Персонализация
Семантика и интент

Ссылки
SERP

Поведенческие сигналы
Персонализация
SERP

Семантика и интент
SERP
Поведенческие сигналы

Ссылки
SERP

Поведенческие сигналы
Ссылки
SERP

Поведенческие сигналы
Семантика и интент

Персонализация
EEAT и качество
Поведенческие сигналы

Персонализация
Поведенческие сигналы

Персонализация
Семантика и интент
Мультимедиа

Персонализация
Семантика и интент
SERP

EEAT и качество
Ссылки
SERP

Knowledge Graph
Поведенческие сигналы
Персонализация

Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP
