Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)

Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.

Описание

Какую задачу решает

Патент решает проблему определения тематики и релевантных ключевых слов для ресурсов, которые содержат мало или совсем не содержат текста (non-text content), таких как изображения, видео, аудио или скрипты. Традиционные методы текстового анализа неэффективны для таких ресурсов, что затрудняет их понимание поисковой системой, ранжирование в вертикалях (Images/Video) и подбор релевантного сопутствующего контента (например, рекламы).

Что запатентовано

Запатентована система, которая присваивает ключевые слова ресурсу на основе анализа поведенческих данных — информации о совместных посещениях (co-visitation data). Система определяет, какие другие ресурсы (co-requested resources) пользователи запрашивают в течение короткого промежутка времени до или после запроса целевого ресурса. Ключевые слова из этих совместно запрошенных ресурсов заимствуются и ассоциируются с целевым ресурсом, причем вес этих слов зависит от скорости перехода между ресурсами.

Как это работает

Ключевой механизм основан на анализе поведения пользователей:

Отслеживание поведения: Система анализирует логи кликов (click log data) для определения последовательности посещения ресурсов пользователями.
Идентификация совместных посещений: Определяются ресурсы, часто посещаемые в пределах порогового периода времени (threshold period) от посещения целевого ресурса.
Извлечение ключевых слов: Из совместно посещенных ресурсов (на основе их текста) извлекаются ключевые слова.
Взвешивание по времени (Time Decay): Система вычисляет задержку (delay) между запросами. Запросам с меньшей задержкой присваивается больший относительный вес (relative weight), так как вес обратно пропорционален задержке.
Расчет оценки (Keyword Score): Для каждого заимствованного слова рассчитывается оценка, основанная на частоте совместных посещений (co-visitation count) и относительном весе (временной задержке).
Присвоение: Ключевые слова с наивысшими оценками присваиваются целевому нетекстовому ресурсу.

Актуальность для SEO

Высокая. Понимание мультимедийного контента (видео и изображений) и использование поведенческих сигналов для интерпретации интента и контекста являются центральными задачами поиска. Хотя современные ИИ-модели могут анализировать медиа напрямую, поведенческие данные (co-visitation) предоставляют уникальный контекст потребления контента, который остается актуальным как для органического поиска, так и для рекламных систем.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно для Image SEO и Video SEO. Он демонстрирует, что навигационные пути пользователей и архитектура сайта напрямую влияют на то, как Google интерпретирует тематику медиафайлов. Это подчеркивает важность оптимизации UX, скорости сайта и внутренних ссылок не только для удобства пользователя, но и как способа передачи семантической связи между страницами через поведенческие сигналы.

Детальный разбор

Термины и определения

Co-visitation data (Данные о совместных посещениях): Данные, основанные на логах поведения пользователей (click log data), которые указывают, какие ресурсы часто запрашиваются одним и тем же пользователем в рамках короткого временного интервала.
Co-requested resource (Совместно запрошенный ресурс): Ресурс, который был запрошен пользовательским устройством в течение порогового периода времени до или после запроса целевого ресурса тем же устройством.
Threshold period (Пороговый период времени): Максимальное время между двумя запросами ресурсов, позволяющее считать их совместно посещенными (например, несколько минут).
Non-text content (Нетекстовый контент): Контент, из которого сложно извлечь ключевые слова стандартными текстовыми методами (изображения, видео, музыка, скрипты).
Keyword Score (Оценка ключевого слова): Метрика, определяющая релевантность ключевого слова, заимствованного из совместно посещаемого ресурса, для целевого ресурса. Рассчитывается на основе частоты, количества совместных посещений и временной задержки.
Co-visitation count (Счетчик совместных посещений): Метрика, указывающая, сколько раз два ресурса были запрошены совместно.
Delay (Задержка): Время, прошедшее между запросом целевого ресурса и запросом совместно посещаемого ресурса.
Relative weight (Относительный вес): Весовой коэффициент, присваиваемый ключевому слову на основе задержки (Delay). Вес обратно пропорционален задержке (Time Decay).
Popularity score (Оценка популярности): Общая мера запросов ресурса пользователями, определяемая независимо от совместных посещений. Используется для фильтрации шума.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод выбора ключевых слов для нетекстового ресурса с акцентом на временное взвешивание.

Идентификация целевого онлайн-ресурса с нетекстовым контентом.
Получение данных о совместных посещениях (co-visitation data), определяющих совместно запрошенные ресурсы в пределах порогового периода.
Идентификация ключевых слов из текстового контента этих совместно запрошенных ресурсов.
Критический шаг (Time Decay): Определение задержки (delay) между запросом целевого ресурса и запросом совместно запрошенного ресурса для каждого случая.
Присвоение относительного веса (relative weight) каждому случаю на основе задержки.
Определение оценки ключевого слова (Keyword Score). Оценка базируется на (i) количестве совместно запрошенных ресурсов, с которыми связано ключевое слово, и (ii) относительном весе (т.е. временной задержке), присвоенном запросам этих ресурсов.
Выбор ключевых слов для целевого ресурса на основе их Keyword Scores.

Claim 4 (Зависимый от 1): Уточняет механизм взвешивания.

Присвоение относительного веса (relative weight) обратно пропорционально задержке (delay). Это означает, что чем быстрее пользователь переходит между двумя ресурсами, тем сильнее связь между ними и тем больший вес получают ключевые слова.

Claim 6 (Зависимый от 5): Детализирует расчет Keyword Score.

Помимо относительного веса, Keyword Score также рассчитывается на основе счетчика совместных посещений (co-visitation count) для каждого совместно запрошенного ресурса. Это гарантирует, что ресурсы, которые часто посещаются вместе, вносят больший вклад в оценку.

Claim 7 (Зависимый от 6): Описывает механизм бустинга.

Система получает существующие ключевые слова целевого ресурса (если они есть, например, из заголовка или метаданных). Если заимствованное ключевое слово совпадает с существующим, его Keyword Score дополнительно увеличивается.

Claim 8 и 10 (Зависимые от 6): Описывают механизм фильтрации по популярности.

Определяется оценка популярности (Popularity Score) для совместно запрошенных ресурсов. Ключевые слова из ресурсов, чья популярность превышает верхний порог (Claim 8, фильтрация шума от слишком популярных сайтов) или ниже нижнего порога (Claim 10), исключаются из рассмотрения.

Где и как применяется

Изобретение применяется на стыке сбора поведенческих данных и индексирования для обогащения данных о ресурсах.

CRAWLING – Сканирование и Сбор данных (Data Acquisition)
На этом этапе система собирает необходимые поведенческие данные — логи кликов (click log data) или данные истории браузера. Эти данные содержат информацию о последовательности запросов ресурсов пользователями и временные метки этих запросов.

INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Это основной этап применения патента. Система анализирует собранные co-visitation data. Происходит обработка данных для идентификации совместно запрошенных ресурсов, извлечение из них ключевых слов, расчет временных задержек, весов и итоговых Keyword Scores. В результате для целевого (нетекстового) ресурса генерируется новый набор признаков — релевантных ключевых слов, которые сохраняются в индексе.

RANKING – Ранжирование
Ключевые слова, полученные этим методом, используются системами ранжирования как сигналы релевантности. В патенте явно указано применение для выбора контента (рекламы) (Claim 2). Также это позволяет нетекстовым ресурсам (например, изображениям в Image Search) лучше ранжироваться по текстовым запросам.

Входные данные:

Логи кликов (Click log data) с идентификаторами пользователей (анонимизированными), URL ресурсов и временными метками.
Индекс ресурсов, содержащий существующие ключевые слова для текстовых ресурсов.

Выходные данные:

Набор ключевых слов, ассоциированных с целевым нетекстовым ресурсом, и их Keyword Scores.

На что влияет

Конкретные типы контента: В первую очередь влияет на ресурсы с преобладанием нетекстового контента (primarily non-text content) — изображения, видео, аудиофайлы, страницы с динамическими скриптами.
Вертикали поиска: Значительное влияние на ранжирование в Google Images и Google Videos.
Взаимосвязи контента: Влияет на понимание связей между страницами на основе реальных путей навигации пользователей, а не только на основе ссылочной структуры.

Когда применяется

Условия работы алгоритма: Алгоритм применяется для ресурсов, для которых сложно определить тематику стандартными методами (например, если количество ключевых слов, извлеченных из текста страницы, ниже определенного порога).
Триггеры активации: Для активации механизма необходимо накопление достаточного объема статистических данных о совместных посещениях. Требуется, чтобы пороговое количество пользователей (threshold number of user devices) совершило совместное посещение.
Временные рамки: Анализ совместных посещений происходит только если запросы были сделаны в пределах установленного threshold period (например, несколько минут).

Пошаговый алгоритм

Этап 1: Сбор и предварительная обработка данных

Сбор данных: Получение логов кликов от множества пользовательских устройств.
Идентификация целевого ресурса: Определение ресурса (например, Видео А), который содержит преимущественно нетекстовый контент.
Анализ совместных посещений: Анализ логов для поиска ресурсов (например, Страница B, Страница C), которые пользователи запрашивали в пределах порогового периода времени до или после запроса Видео А.
Фильтрация (Порог посещений): Отбор только тех ресурсов (B, C), которые были совместно запрошены с Видео А как минимум пороговым количеством пользователей (высокий co-visitation count).

Этап 2: Фильтрация ресурсов и извлечение ключевых слов

Расчет популярности (Popularity Score): Для Страниц B и C рассчитывается общая популярность (независимо от Видео А).
Фильтрация по популярности: Исключение ресурсов, которые слишком популярны (например, главная страница Google) или недостаточно популярны, согласно установленным порогам.
Извлечение ключевых слов: Идентификация ключевых слов из оставшихся Страниц B и C (на основе их текстового контента).

Этап 3: Расчет оценок и выбор ключевых слов

Расчет задержки (Delay): Для каждого случая совместного посещения (Видео А -> Страница B) вычисляется время между запросами.
Расчет относительного веса (Relative Weight): Присвоение веса каждому случаю. Вес обратно пропорционален задержке (быстрый переход = высокий вес).
Расчет оценки ключевого слова (Keyword Score): Агрегация данных для каждого ключевого слова. Оценка учитывает, на скольких страницах (B, C) встречается слово, каков их Co-visitation count и каковы Relative Weights этих посещений.
Повышение оценки (Опционально): Если ключевое слово уже присутствует в метаданных Видео А, его оценка повышается (Бустинг, Claim 7).
Выбор ключевых слов: Выбор ключевых слов, чья Keyword Score превышает пороговое значение, и ассоциация их с Видео А.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Основной источник данных. Используются логи кликов (click log data), последовательность запросов ресурсов пользователем.
Временные факторы: Временные метки запросов критичны для расчета задержек (delay) и определения порогового периода (Threshold period).
Контентные факторы: Используются данные совместно запрошенных ресурсов. Система анализирует их текстовый контент для извлечения потенциальных ключевых слов. Также используются существующие ключевые слова целевого ресурса (если есть) для бустинга.
Пользовательские факторы: Используются идентификаторы пользовательских устройств (анонимизированные) для отслеживания сессий и определения уникальных пользователей при расчете популярности (Claim 9).

Какие метрики используются и как они считаются

Co-visitation count (Счетчик совместных посещений): Прямой подсчет количества раз, когда два ресурса были запрошены вместе в пределах порогового периода.
Delay (Задержка): Разница во времени между двумя запросами в рамках одного совместного посещения.
Relative Weight (Относительный вес): Функция от задержки. В патенте указано, что вес обратно пропорционален задержке (Claim 4). Например,

Выводы

Поведение пользователя формирует семантику: Патент демонстрирует прямой механизм, с помощью которого Google использует реальные навигационные пути пользователей (User Journeys) для понимания тематики контента. То, что пользователь делает сразу до и после просмотра видео или изображения, сообщает системе о содержании этого мультимедиа.
Критичность скорости и Time Decay: Ключевым элементом является использование временной задержки (delay) для взвешивания. Чем быстрее происходит переход между ресурсами, тем сильнее они считаются связанными (вес обратно пропорционален задержке). Это критически важный инсайт о том, как Google оценивает силу связи между страницами в рамках сессии.
Контекст важнее содержания (для мультимедиа): Для ресурсов без текста система полагается на внешний контекст (совместные посещения), чтобы понять их содержание.
Фильтрация шума через анализ популярности: Система защищена от присвоения нерелевантных ключевых слов из-за случайных посещений глобально популярных страниц. Использование Popularity Score для исключения ресурсов с экстремально высокой или низкой посещаемостью является важным механизмом обеспечения качества данных.
Усиление существующих сигналов: Система может повышать оценку заимствованных ключевых слов, если они совпадают с теми немногими данными, которые уже есть у ресурса (например, заголовок или описание), что повышает точность и подтверждает важность согласованности сигналов.

Практика

Best practices (это мы делаем)

Оптимизация пути пользователя (User Journey Optimization): Стратегически выстраивайте навигацию и внутреннюю перелинковку так, чтобы направлять пользователя от мультимедийного контента к тематически связанным, богатым текстом страницам. Это поможет системе правильно интерпретировать ваше мультимедиа через сигналы co-visitation.
Поощрение быстрых тематических переходов и Улучшение скорости загрузки (Core Web Vitals): Поскольку вес сигнала (Relative weight) обратно пропорционален задержке (Delay), быстрые сайты и быстрая навигация способствуют более сильной передаче ключевых слов. Убедитесь, что ссылки на релевантные статьи находятся в непосредственной близости от медиа и мотивируют к немедленному переходу.
Создание тематических хабов и кластеров: Разрабатывайте контентные кластеры, которые поощряют пользователей исследовать несколько страниц в рамках одной темы за одну сессию. Это максимизирует релевантные совместные посещения и усиливает Topical Authority.
Оптимизация метаданных мультимедиа: Наличие точных заголовков, описаний и alt-тегов полезно. Согласно патенту (Claim 7), совпадение заимствованных ключевых слов с существующими повышает их Keyword Score.
Анализ навигации (User Flow/Path Exploration): Изучайте реальные пути пользователей по сайту. Если вы видите частые переходы между двумя страницами, знайте, что Google может переносить ключевые слова между ними. Убедитесь, что эти переходы семантически обоснованы.

Worst practices (это делать не надо)

Изоляция мультимедийного контента: Размещение видео или изображений на тупиковых страницах без четких навигационных путей к релевантному текстовому контенту.
Внедрение несвязанных навигационных элементов: Размещение блоков «Популярное» или рекомендательных виджетов, которые уводят пользователя на совершенно не связанные темы. Это может привести к ассоциации нерелевантных ключевых слов с исходной страницей.
Игнорирование скорости сайта: Медленные страницы, которые заставляют пользователей ждать перед переходом на следующую страницу, увеличивают Delay и ослабляют сигналы co-visitation из-за механизма Time Decay.
Введение пользователя в заблуждение (Кликбейт): Направление пользователя после просмотра контента на нерелевантные страницы (например, агрессивные лендинги). Это приведет к ассоциации неверных ключевых слов с исходным контентом.

Стратегическое значение

Этот патент подтверждает, что Google активно использует поведенческие данные не только для оценки качества выдачи, но и для базового понимания контента на этапе индексирования. SEO — это не только оптимизация контента и ссылок, но и оптимизация пользовательского опыта и поведения. Для SEO-стратегий это означает необходимость смещения фокуса с изолированной оптимизации единицы контента на оптимизацию всего пользовательского опыта и контекста потребления этого контента.

Практические примеры

Сценарий: Оптимизация карточки товара с фотогалереей в E-commerce

Ситуация: На сайте есть карточка товара (например, «Кроссовки Nike Air Max») с большой фотогалереей (нетекстовый контент) и кратким описанием. Мы хотим, чтобы эти фото хорошо ранжировались в Google Images.
Действие: Сразу под фотогалереей размещается заметный блок ссылок на статьи: «Как чистить Nike Air Max» (Статья А) и «Технология амортизации Air Max» (Статья Б). Сайт быстрый.
Механизм (по патенту): Пользователи часто просматривают фото и сразу (Delay < 10 сек) переходят к Статье А или Б. Система фиксирует короткую задержку и частое совместное посещение (co-visitation).
Результат: Ключевые слова из статей («средство для чистки кроссовок», «технология амортизации») получают высокий Keyword Score (из-за высокого Relative Weight) и ассоциируются с фотографиями кроссовок. Фото начинают ранжироваться по этим смежным запросам.

Вопросы и ответы

Этот патент описывает механизм для контекстной рекламы или для органического поиска?

Патент явно описывает использование сгенерированных ключевых слов для выбора контентных элементов (рекламы). Однако механизм создает базовое понимание нетекстового контента, которое используется Google глобально, включая органический поиск (особенно Google Images и Google Videos). Понимание того, как формируется этот контекст, критически важно для SEO.

Что такое «Co-visitation» и как Google его отслеживает?

Co-visitation (совместное посещение) — это ситуация, когда пользователь запрашивает два разных ресурса в течение короткого промежутка времени (threshold period). В патенте упоминается использование логов кликов (click log data) для отслеживания. На практике это может включать данные из Google Analytics, Chrome или других источников, позволяющих отслеживать последовательность действий пользователя в рамках сессии.

Насколько важна скорость перехода между страницами (Time Decay)?

Скорость перехода критически важна. Патент подчеркивает, что вес (Relative Weight), присваиваемый ключевым словам, обратно пропорционален задержке (delay) между запросами. Чем быстрее пользователь перешел со страницы А на страницу Б, тем сильнее Google свяжет контент страницы Б с контентом страницы А. Это напрямую связывает скорость сайта (Core Web Vitals) с эффективностью передачи семантики.

Как этот патент влияет на внутреннюю перелинковку?

Он значительно повышает важность тематически релевантной внутренней перелинковки. Если пользователи часто используют ссылку для перехода с А на Б, это создает сильный сигнал co-visitation. Стратегическая перелинковка внутри тематического кластера усиливает семантику всех страниц кластера, особенно помогая страницам с медиаконтентом получить контекст от текстовых страниц.

Как система защищается от того, чтобы ключевые слова типа «Новости» или «Погода» не присваивались всему контенту?

Для этого используется фильтрация на основе оценки популярности (Popularity Score). Если совместно посещенный ресурс имеет экстремально высокую общую популярность (например, главная страница новостного портала), он исключается из анализа (Claim 8). Это предотвращает загрязнение данных ключевыми словами из глобально популярных, но тематически не связанных ресурсов.

Может ли этот механизм навредить сайту, если пользователи уходят на нерелевантные ресурсы?

Да, это возможно. Если значительная часть пользователей быстро переходит с вашей страницы на ресурсы определенной тематики (даже на другом сайте), ваша страница может начать ассоциироваться с этой тематикой. Это подчеркивает важность удержания пользователя в рамках релевантного контента и избегания элементов (например, нерелевантной рекламы), которые провоцируют нерелевантные переходы.

Применяется ли этот механизм к обычным текстовым страницам?

Патент фокусируется на ресурсах с дефицитом текста (non-text content). Для обычных текстовых страниц у Google достаточно данных для анализа. Однако механизм может использоваться как дополнительный сигнал для обогащения понимания любой страницы, если система решит, что существующих текстовых сигналов недостаточно или они ненадежны.

Учитывает ли система, перешел ли пользователь на другую страницу ДО или ПОСЛЕ просмотра целевого контента?

Да, патент определяет co-requested resource как ресурс, запрошенный в пределах порогового периода времени от запроса целевого ресурса. В описании упоминается, что этот период может быть как следующим за запросом (following), так и предшествующим ему (prior to). Оба направления используются для определения контекста сессии.

Что, если у моего видео уже есть хорошее описание и теги?

Это полезно. Патент описывает механизм повышения оценки (Keyword Score) для заимствованных ключевых слов, если они совпадают с уже существующими ключевыми словами ресурса (Claim 7). Это означает, что качественные метаданные помогут верифицировать и усилить сигналы, полученные через анализ совместных посещений.

Какой временной порог (threshold period) используется для определения совместного посещения?

Патент не указывает конкретных значений, но приводит примеры: «несколько минут, час или другой период времени». Также упоминается, что вес может снижаться до нуля, если запросы не получены в течение определенного времени (например, 7 минут). На практике этот порог, вероятно, динамический, но ключевым фактором является быстрое снижение веса с увеличением задержки.