
Google использует механизм для кластеризации контента (например, рекламы или рекомендаций), основанный на профилях интересов пользователей, которые с ним взаимодействуют. Система создает векторы интересов аудитории для каждого элемента контента, затем формирует Списки Ближайших Соседей (Nearest Neighbor Lists). Контент объединяется в кластеры, если их списки соседей схожи. Это позволяет группировать контент по аудитории, а не только по тематике, улучшая таргетинг.
Патент решает задачу улучшения таргетинга и эффективности систем размещения контента (content placement systems). В тексте в качестве примеров контента часто упоминаются рекламные объявления (ads). Система позволяет отойти от группировки, основанной только на содержании контента, и перейти к кластеризации, основанной на фактических интересах пользователей, взаимодействующих с этим контентом. Это позволяет выявлять неочевидные связи между элементами контента, которые привлекают схожие аудитории.
Запатентована система и метод иерархической кластеризации контента, использующая многоступенчатый анализ схожести аудиторий. Система генерирует Interest Category Vectors (векторы категорий интересов) на основе поведения пользователей. Затем она создает Nearest Neighbor Lists (NNL, списки ближайших соседей). Ключевая особенность — кластеризация основана не на прямой схожести векторов, а на схожести самих списков NNL.
Система работает в несколько этапов:
Interest Category Vector, отражающий распределение и вес интересов этой аудитории.First Distance Metric, например, косинусное расстояние). Создается упорядоченный Nearest Neighbor List (NNL).Second Distance Metric, например, edit distance). Группы контента с наиболее похожими NNL итеративно объединяются в кластеры (Hierarchical Agglomerative Clustering).Средняя. Концепция использования данных об аудитории и ее интересах для улучшения таргетинга является фундаментальной для Google (особенно в AdTech и системах рекомендаций, таких как YouTube и Discover). Хотя конкретная реализация метода иерархической кластеризации через сравнение NNL может быть частично устаревшей по сравнению с современными векторными методами (embeddings), базовый принцип анализа профилей интересов аудитории остается высокоактуальным.
Влияние на органический поиск (SEO) низкое (3/10). Патент описывает инфраструктуру, которая, согласно тексту, предназначена в первую очередь для систем размещения контента (content placement systems), таких как реклама или рекомендации. В патенте нет упоминаний о ранжировании органических результатов поиска. Однако он предоставляет стратегически важное понимание того, как Google технически анализирует интересы пользователей и идентифицирует совпадение аудиторий.
Nearest Neighbor Lists.First Distance Metric и Second Distance Metric.Second Distance Metric. Определяется как минимальное количество операций (вставок, удалений), необходимых для преобразования одного Nearest Neighbor List в другой.Interest Category Vectors. Используется для генерации NNL. Примеры: cosine distance.Interest Category Vectors.Nearest Neighbor Lists. Используется для принятия решения о кластеризации.Claim 1 (Независимый пункт): Описывает основной многоступенчатый процесс оценки и кластеризации контента.
Interest Category Vectors, указывающие на интересы пользователей, контактировавших с элементом.First Distance Metrics (первичные метрики расстояния, показывающие схожесть между группами).First Nearest Neighbor List (NNL) для первой группы. Это ранжированный список других групп, основанный на первичных метриках.Second Distance Metric (вторичная метрика расстояния, показывающая схожесть между списками NNL).Cluster, который заменяет исходные группы.Ядром изобретения является двухэтапное сравнение: сначала схожесть векторов интересов (для создания NNL), затем схожесть самих списков NNL (для кластеризации).
Claim 3 (Зависимый): Детализирует процесс генерации векторов интересов.
Interest Category Vector для элемента на основе анализа этих категорий интересов.Это подтверждает, что векторы основаны на фактическом поведении и профилях аудитории.
Claim 4 (Зависимый): Уточняет метод сравнения списков NNL (Second Distance Metric).
Edit Distance между первым и вторым NNL.Edit Distance.Патент не описывает применение этого метода в основном конвейере органического поиска в реальном времени. Он фокусируется на офлайн-анализе данных для систем размещения контента.
CRAWLING / Сбор данных
Система должна собирать и обрабатывать данные о поведении пользователей (user activity), такие как поисковые запросы, посещенные сайты и взаимодействие с контентом (клики, просмотры). Эти данные являются исходным материалом для анализа.
INDEXING / Обработка данных (Offline Processing)
Основные процессы, описанные в патенте (генерация векторов, вычисление NNL и кластеризация), вероятно, выполняются в офлайн-режиме или в виде пакетной обработки. Это аналитический процесс, который обрабатывает большие объемы данных для создания структуры кластеров.
Системы размещения контента (AdTech / Рекомендации)
Результаты работы системы — кластеры контента — используются на этапе доставки контента пользователю. Content placement system (например, рекламная сеть или система рекомендаций) использует эти кластеры для выбора наиболее подходящего контента для показа.
Входные данные:
Bayesian classifier network).Выходные данные:
ads). Метод также может применяться к любому контенту в рекомендательных системах (например, Google Discover, YouTube).Second Distance Metric) является наивысшей среди всех пар или превышает определенный порог.Процесс можно разделить на три основных этапа: генерация векторов, генерация списков ближайших соседей и кластеризация.
Этап А: Генерация векторов интересов (Interest Category Vector Generation)
Interest Category Vector для элемента контента, отражающий профиль интересов его аудитории.Этап Б: Генерация списков ближайших соседей (NNL Generation)
cosine distance function) или скалярное произведение нормализованных векторов (dot product of the unit-normalized vectors).Nearest Neighbor List (NNL) — упорядоченный список соседей.Этап В: Кластеризация контента (Content Clustering)
Edit Distance или сумма абсолютных разностей рангов.Hierarchical Agglomerative Clustering), пока не будет достигнуто желаемое состояние.Патент фокусируется исключительно на данных, связанных с поведением пользователей и их интересами. Традиционные SEO-факторы (контентные, ссылочные, технические) не упоминаются.
user activity), которые взаимодействовали с контентом. Сюда входят: search query, keywords), введенные пользователем.website visited by the user).В патенте подчеркивается, что данные собираются анонимно (например, с помощью cookies) и с согласия пользователя (opt-in/opt-out).
Bayesian classifier network).Interest Category Vectors. Упоминаются методы: dot product of the unit-normalized vectors).cosine distance function).First Distance Metric.Edit Distance (расстояние редактирования).Hierarchical Agglomerative Clustering.Interest Category Vectors).content placement systems), в первую очередь рекламы и рекомендаций. Прямого применения в алгоритмах ранжирования органического поиска не описано.Патент описывает внутренние процессы Google (преимущественно AdTech и системы рекомендаций) без прямых рекомендаций для SEO. Патент является инфраструктурным и не дает прямых практических выводов для SEO-ранжирования в органическом поиске, но позволяет лучше понять, как Google анализирует аудиторию.
Interest Category Vector в системах Google.Interest Category Vector сайта, что может привести к некорректной кластеризации.Патент подтверждает стратегический приоритет Google на понимание пользователя и его интересов. Он демонстрирует техническую реализацию того, как поведение пользователей преобразуется в данные для машинного обучения. Для Senior SEO-специалистов это подчеркивает важность перехода от чисто семантического анализа контента к анализу аудитории и ее поведения. Хотя этот конкретный патент относится к AdTech, технологии профилирования аудитории лежат в основе многих систем Google.
Патент не предоставляет конкретных сценариев применения для SEO. Приведенный ниже пример иллюстрирует работу патента в контексте рекомендательных систем или AdTech.
Сценарий: Кластеризация контента на основе общих интересов аудитории
Interest Category Vectors с высокими весами для интересов: "Спортивное питание", "Мониторы сердечного ритма", "Восстановление после тренировок".Nearest Neighbor Lists этих статей. Обе статьи попадают в один кластер (например, "Спорт на выносливость").Влияет ли описанный в патенте механизм на ранжирование в органическом поиске?
Нет, согласно тексту патента, прямого влияния на органическое ранжирование нет. Патент описывает метод кластеризации контента для использования в системах размещения контента (content placement systems), таких как рекламные сети или системы рекомендаций. В нем не упоминаются факторы ранжирования органической выдачи.
Что такое "Вектор категорий интересов" (Interest Category Vector) и как он формируется?
Это профиль интересов аудитории, которая взаимодействовала с определенным элементом контента. Он формируется путем анализа поведения этих пользователей (их поисковых запросов, посещенных сайтов). Вектор показывает, какие темы интересуют эту аудиторию и насколько сильно (вес интереса), например: 50% – путешествия, 30% – дайвинг, 20% – фотография.
Как Google определяет интересы пользователей?
Google анализирует активность пользователей, такую как введенные поисковые запросы и посещенные веб-сайты. В патенте упоминается использование классификаторов (например, Bayesian classifier network) для преобразования этой активности в конкретные категории интересов. Подчеркивается, что данные собираются анонимно и с согласия пользователя.
В чем ключевая особенность этого метода кластеризации?
Ключевая особенность в том, что кластеризация происходит не просто путем сравнения векторов интересов, а путем сравнения Списков Ближайших Соседей (NNL). Это означает, что два элемента объединяются в кластер, если они похожи друг на друга с точки зрения того, кто является их соседями в пространстве интересов, что позволяет выявить более глубокие связи.
В чем отличие этого метода от обычной кластеризации по тексту?
Обычная кластеризация анализирует содержание контента (ключевые слова, сущности) для группировки похожих документов. Описанный метод игнорирует содержание и фокусируется на интересах аудитории. Два совершенно разных по тексту документа будут объединены в кластер, если их читают пользователи с одинаковыми профилями интересов.
Как SEO-специалист может использовать информацию из этого патента?
Хотя прямой пользы для ранжирования мало, патент подчеркивает важность понимания реальных интересов вашей аудитории за пределами ключевых слов. Понимание того, как Google моделирует интересы, помогает строить более эффективные контент-стратегии, ориентированные на привлечение и удержание целевой аудитории с четким профилем интересов.
Может ли привлечение нецелевого трафика навредить сайту с точки зрения этого патента?
Косвенно да. Если на сайт привлекается много пользователей с разрозненными интересами (например, через кликбейт или покупку трафика), это может "размыть" Interest Category Vector, связанный с вашим контентом. Это затрудняет системе четкую классификацию вашей аудитории, что может негативно сказаться на эффективности систем, использующих эти данные.
Что такое "Расстояние редактирования" (Edit Distance) в контексте патента?
Это одна из метрик, используемых для сравнения двух списков ближайших соседей (NNL). Она показывает, сколько операций (вставок или удалений) нужно сделать, чтобы превратить один упорядоченный список в другой. Чем меньше расстояние, тем более похожи списки и тем выше вероятность кластеризации.
Связан ли этот механизм с Google Topics API?
Концептуально они связаны. И этот патент (подача 2012 г.), и современный Topics API направлены на профилирование интересов пользователей на основе их поведения для улучшения таргетинга контента и рекламы. Этот патент описывает конкретный механизм кластеризации, который использует такие профили интересов.
Происходит ли этот процесс в реальном времени во время поискового запроса?
Нет. Описанный процесс генерации векторов и иерархической кластеризации является ресурсоемким и предназначен для выполнения в офлайн-режиме или в виде пакетной обработки. Результаты этой обработки (кластеры) затем используются системами размещения контента.

Семантика и интент
Свежесть контента
SERP

Семантика и интент
SERP
Поведенческие сигналы

Свежесть контента
EEAT и качество

Персонализация
Семантика и интент
Поведенческие сигналы

SERP

Ссылки
Индексация
Краулинг

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Персонализация
EEAT и качество

Семантика и интент
Поведенческие сигналы
Персонализация

Knowledge Graph
Семантика и интент
EEAT и качество

Поведенческие сигналы
SERP
Семантика и интент

Поведенческие сигналы
EEAT и качество

Поведенческие сигналы
SERP

Семантика и интент
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP
