Google использует паттерны просмотра пользователей внутри социальных сетей для классификации контента. Система строит граф, где связи показывают, кто просматривал чей профиль или контент. Если пользователи, которые смотрят известный контент категории А, также массово смотрят неклассифицированный контент Б, система делает вывод, что контент Б, вероятно, также относится к категории А. Это позволяет классифицировать контент без анализа его содержания.
Описание
Какую задачу решает
Патент решает проблему сложности классификации и обнаружения контента определенной тематики (particular subject of interest) в рамках социальных сетей. Традиционный анализ содержимого (особенно видео и изображений) ресурсоемок и часто неточен, когда пользовательский контент (UGC) не имеет надежных тегов. Это затрудняет модерацию (выявление нарушений) и точный таргетинг рекламы.
Что запатентовано
Запатентована система классификации контента, которая использует поведенческие данные — паттерны просмотра (browsing patterns) — вместо анализа самого контента. Система строит социальный граф, где узлы — это профили/пользователи, а направленные связи — это факты просмотра (кто смотрел чей профиль). Изобретение основано на гипотезе, что пользователи, интересующиеся определенной темой, будут просматривать схожий контент в разных профилях.
Как это работает
Система работает путем итеративного распространения оценок (scores) через поведенческий граф:
- Построение графа: Создается граф, где направленная связь от U1 к U2 означает, что U1 просматривал контент U2.
- Инициализация (Seeding): Определяются профили, достоверно содержащие контент нужной тематики (Seed Nodes). Им присваивается высокая начальная оценка (Owner Score).
- Распространение (Propagation): Оценки распространяются по графу. Сначала от Владельцев к Зрителям: если U1 смотрел U2 (известный источник), U1 получает Viewer Score (оценка интереса). Затем от Зрителей к другим Владельцам: если тот же U1 смотрел U3 (неизвестный источник), Viewer Score U1 переносится на U3 как Owner Score (оценка контента).
- Взвешивание и Коррекция: При переносе оценок используются сложные формулы (включая логарифмическое взвешивание), чтобы отсеять случайные просмотры и учесть глубину связей (Dampening) или эффект размытия (Boosting).
- Идентификация: Профили, набравшие высокий итоговый Owner Score, классифицируются как содержащие контент искомой тематики.
Актуальность для SEO
Высокая для платформ Google / Средняя для веб-поиска. Механизм критически важен для систем рекомендаций и модерации на платформах, где Google контролирует среду и отслеживает поведение пользователей — в первую очередь, YouTube (который упоминается в патенте как социальная сеть). Поведенческие сигналы и машинное обучение на графах являются основой современных рекомендательных систем.
Важность для SEO
Влияние на традиционное SEO (ранжирование сайтов в веб-поиске) минимальное. Патент описывает механизм для внутренней классификации в рамках закрытой социальной сети, а не механизм ранжирования в открытом вебе. Однако он имеет критическое значение для оптимизации внутри платформ Google (YouTube SEO). Понимание того, что классификация видео может определяться тем, какая аудитория его смотрит (а не только его содержанием или тегами), фундаментально меняет подход к продвижению на этих платформах.
Детальный разбор
Термины и определения
- Browsing Patterns (Паттерны просмотра)
- Данные о том, какой контент или профили пользователи просматривали в социальной сети. Основа для построения графа.
- Directional Link (Направленная связь)
- Связь в графе, указывающая направление просмотра. Связь от U1 к U2 означает, что U1 (Viewer) просматривал U2 (Owner).
- Owner Score (Оценка владельца)
- Метрика, присваиваемая профилю, указывающая на вероятность того, что он содержит контент искомой тематики. Рассчитывается на основе Viewer Scores его зрителей.
- Score Boosting (Повышение оценки)
- Механизм корректировки для противодействия эффекту размытия, когда профиль просматривает много случайных (naïve) пользователей, что может занизить значимость просмотров от заинтересованных пользователей.
- Score Dampening (Затухание оценки)
- Механизм снижения оценки по мере увеличения расстояния (глубины итераций) от исходных узлов в графе.
- Seed Nodes (Начальные узлы / Сиды / First Nodes)
- Профили, которые были предварительно и достоверно идентифицированы как содержащие контент искомой тематики. Служат отправной точкой для распространения оценок.
- Social Graph (Социальный граф)
- Структура данных из узлов (пользователей/профилей) и направленных связей (просмотров), представляющая паттерны просмотра.
- Strongly Associated Users (Сильно связанные пользователи)
- Пользователи (Владельцы или Зрители), чьи оценки превышают определенный порог. Их активность имеет больший вес в расчетах.
- Viewer Score (Оценка зрителя)
- Метрика, присваиваемая пользователю, указывающая на его интерес к искомой тематике. Рассчитывается на основе Owner Scores контента, который он просматривал.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обнаружения контента на основе поведения.
- Система получает данные о просмотрах (viewing activity) в социальной сети.
- Идентифицируются профили (Первая группа), которые точно содержат контент определенной категории. Им присваиваются начальные оценки (initial scores).
- Рассчитываются Оценки Зрителей (viewer scores) для этой Первой группы на основе их активности и начальных оценок.
- Рассчитываются Оценки Контента (content scores / Owner Scores) для Второй группы (остальные профили). Расчет основан на активности просмотра, viewer scores Первой группы и значении взвешивания (weighting value), которое указывает на близость отношений между пользователями двух групп.
- На основе content scores выбираются профили из Второй группы, которые с высокой вероятностью содержат искомую категорию контента.
Система идентифицирует схожесть контента не путем его анализа, а путем выявления общей аудитории и переноса классификации через нее. Механизм реализуется через итеративный перенос оценки от известного владельца к зрителю, а затем от зрителя к неизвестному владельцу.
Claim 2 и 5 (Зависимые): Детализируют механизм расчета оценок.
- Viewer Score (Claim 2) рассчитывается на основе комбинации (например, среднего или среднеквадратичного) Owner Scores контента, просмотренного пользователем.
- Owner Score (Claim 5) рассчитывается на основе комбинации Viewer Scores пользователей, просмотревших этот профиль.
Claim 7 и 8 (Зависимые): Описывают критически важный механизм взвешивания при расчете Owner Score.
- Рассчитывается среднее значение Viewer Scores зрителей.
- Оно умножается на весовой коэффициент (weighting value).
- Коэффициент зависит от количества зрителей, которые считаются «сильно связанными» (strongly associated) с тематикой (т.е. имеют Viewer Score выше порога) (Claim 7).
- Claim 8 уточняет, что этот коэффициент может быть логарифмом от числа сильно связанных зрителей плюс один (log(number + 1)).
Использование логарифмической функции предотвращает слишком сильное влияние небольшого числа просмотров и требует устоявшегося паттерна для присвоения высокого веса.
Claim 11 (Зависимый): Указывает, что процесс расчета оценок является итеративным и повторяется заданное число раз.
Где и как применяется
Этот патент не описывает стандартный процесс веб-поиска, а скорее механизм классификации контента внутри контролируемой среды (социальной сети, например, YouTube).
INDEXING – Индексирование и извлечение признаков
Основное применение. Система используется для классификации контента и извлечения тематических признаков (Feature Extraction), когда анализ содержания затруднен (например, для видео или изображений). Вместо анализа пикселей или текста система анализирует поведение пользователей для присвоения меток контенту.
RANKING / RERANKING (В контексте рекомендательных систем)
Вычисленные Owner Scores (тематика контента) и Viewer Scores (интересы пользователя) могут использоваться как ключевые сигналы в системах ранжирования внутри социальной сети (например, рекомендации видео на YouTube, таргетинг рекламы).
Входные данные:
- Паттерны просмотра пользователей (логи просмотров страниц/контента внутри сети).
- Список предварительно идентифицированных профилей/контента (Seed Nodes) для конкретной тематики.
Выходные данные:
- Owner Scores и Viewer Scores для узлов графа.
- Списки профилей/контента, классифицированные как относящиеся к искомой тематике.
На что влияет
- Конкретные типы контента: В первую очередь влияет на мультимедийный контент (видео, изображения), который сложно анализировать напрямую.
- Платформы: Влияет на социальные сети и UGC-платформы. Для SEO это наиболее актуально в контексте YouTube и других сервисов Google, где отслеживается поведение пользователей.
- Конкретные ниши: Применимо для любых задач классификации — от определения интересов (спорт, музыка) до выявления нарушений (спам, взрослый контент).
Когда применяется
- Условия работы: Применяется для классификации контента, когда стандартных сигналов (текст, теги) недостаточно или они ненадежны. Требует наличия достаточного объема поведенческих данных и качественного набора Seed Nodes.
- Триггеры активации: Необходимость улучшения рекомендаций, таргетинга рекламы или модерации контента на платформе.
Пошаговый алгоритм
Процесс классификации контента на основе паттернов просмотра.
- Сбор данных и построение графа: Система получает данные о просмотрах и строит социальный граф. Узлы — пользователи/профили, направленные связи — просмотры (Viewer -> Owner).
- Инициализация (Seeding): Определяются Seed Nodes, связанные с искомой тематикой. Им присваивается максимальный начальный Owner Score (например, 10000).
- Итерация 1: Распространение Owner -> Viewer:
- Идентифицируются Зрители (Viewers), которые просматривали контент Seed Nodes.
- Для каждого Зрителя рассчитывается Viewer Score. Он основан на комбинации (например, среднем значении) Owner Scores всего просмотренного им контента, взвешенной (логарифмически) по количеству просмотренных им Strongly Associated источников.
- Итерация 1: Распространение Viewer -> Owner:
- Идентифицируются другие Владельцы (Owners), которых просматривали эти Зрители.
- Для каждого такого Владельца рассчитывается Owner Score. Он основан на комбинации Viewer Scores всех его зрителей, взвешенной (логарифмически) по количеству Strongly Associated зрителей.
- Повторение итераций: Шаги 3 и 4 повторяются заданное количество раз, позволяя оценкам распространяться дальше по графу.
- Корректировка оценок (Опционально):
- Демпфирование (Dampening): Снижение оценок в зависимости от глубины итерации (расстояния от Seed Node).
- Бустинг (Boosting): Повышение оценок для узлов, просматриваемых авторитетными зрителями, для компенсации эффекта размытия от случайных зрителей.
- Идентификация и вывод: Узлы сортируются по итоговому Owner Score. Узлы, превысившие пороговое значение, идентифицируются как содержащие контент искомой тематики.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на поведенческих данных внутри социальной сети.
- Поведенческие факторы: Паттерны просмотра (Browsing Patterns). Это ключевые данные, определяющие структуру графа и направленные связи (кто кого смотрел).
- Системные данные: Предварительно идентифицированные профили (Seed Nodes), которые служат эталоном для определенной тематики.
Контентные, ссылочные (внешние), технические или временные факторы в этом алгоритме не используются.
Какие метрики используются и как они считаются
- Owner Score и Viewer Score: Основные метрики, рассчитываемые итеративно.
- Методы расчета комбинаций: Упоминаются среднее значение (mean), среднеквадратичное (root mean square).
- Взвешивание (Weighting): Критически важный элемент. Оценки взвешиваются на основе количества «сильно связанных» (Strongly Associated) узлов.
- Логарифмическое взвешивание: Используется для предотвращения чрезмерного влияния случайных просмотров и учета масштаба. Пример формулы, описанной в патенте: Score = (Sum of Scores / Count of Nodes) * log(Count of Strongly Associated Nodes + 1).
- Демпфирование (Dampening): Уменьшение оценки на основе глубины итерации. Может использоваться формула вида: Dampening Value = Dampening Factor ^ Node Depth.
- Бустинг (Boosting): Увеличение оценки для компенсации размытия. Может использовать формулу, учитывающую логарифм общего числа просмотров и специальный множитель.
Выводы
- Поведение как классификатор: Патент демонстрирует метод классификации контента, полностью основанный на паттернах поведения пользователей (просмотрах), без необходимости анализа самого контента. Это особенно эффективно для мультимедиа (видео, изображений).
- Принцип «Контент определяется аудиторией»: Ключевая идея — если контент А и контент Б смотрят одни и те же люди, то А и Б тематически похожи.
- Итеративная модель Owner-Viewer: Система использует механизм переноса оценок между создателями контента (Owners) и потребителями (Viewers). Интерес зрителя определяется тем, что он смотрит, а тематика контента определяется тем, кто его смотрит.
- Важность устоявшихся паттернов (Логарифмическое взвешивание): Система разработана для отличия случайных просмотров от устоявшихся интересов. Использование логарифмических функций гарантирует, что высокий балл получат только те узлы, которые систематически просматриваются релевантной аудиторией.
- Применимость к закрытым системам: Механизм предназначен для работы внутри социальных сетей (как YouTube), где система может точно отслеживать взаимодействие пользователей с контентом. Он не описывает применение к ранжированию в открытом веб-поиске.
Практика
Best practices (это мы делаем)
Для традиционного SEO этот патент не дает прямых рекомендаций. Однако он критически важен для оптимизации на платформах типа YouTube (YouTube SEO) и понимания работы рекомендательных систем.
- Фокус на привлечении целевой аудитории (YouTube): Необходимо стремиться к тому, чтобы ваш контент просматривался той же аудиторией, которая смотрит другой авторитетный контент в вашей нише (потенциальные Seed Nodes). Это поможет системе классифицировать ваш контент правильно через общих зрителей.
- Создание серийного контента и плейлистов (YouTube): Поощряйте длительное взаимодействие и формирование устоявшихся паттернов просмотра. Это увеличивает вероятность того, что система идентифицирует вашу аудиторию как Strongly Associated с тематикой.
- Анализ источников трафика и схожих каналов (YouTube Analytics): Изучайте, какой еще контент смотрит ваша аудитория. Это дает представление о том, как система видит ваш канал через призму поведенческих паттернов, и позволяет скорректировать контент-стратегию для более точного таргетинга.
- Понимание поведенческих сигналов (Общая стратегия): Для всех SEO-специалистов важно понимать, что Google активно использует поведенческие графы для классификации и рекомендаций там, где это возможно (например, в Google Discover, YouTube).
Worst practices (это делать не надо)
- Накрутка просмотров и нецелевой трафик (YouTube): Привлечение большого количества случайных, нецелевых зрителей (naïve users) или ботов может «размыть» ваш поведенческий профиль. Это приведет к тому, что система не сможет вас классифицировать или классифицирует неверно, что ухудшит работу рекомендательных алгоритмов.
- Изолированная оптимизация под ключевые слова (YouTube): Полагаться только на теги, заголовки и описания недостаточно. Если поведение аудитории не соответствует заявленной тематике, система будет полагаться на поведение (browsing patterns).
- Резкая смена тематики канала (YouTube): Существующая аудитория будет генерировать неверные поведенческие сигналы для нового контента, затрудняя его правильную классификацию и продвижение.
Стратегическое значение
Патент подтверждает важность анализа поведения пользователей на основе графов (Graph-based learning) в экосистеме Google. Для платформ, таких как YouTube, это означает, что стратегия должна быть направлена не просто на создание релевантного контента, а на формирование и культивирование целевого сообщества (аудитории). Схожесть аудитории становится эквивалентом тематической релевантности. Это объясняет, почему каналы часто рекомендуются вместе — у них общая база зрителей.
Практические примеры
Сценарий: Классификация нового YouTube-канала о веганской кулинарии
- Ситуация: Создан новый канал (Канал А). Система еще не знает его тематику.
- Действие (Seed Nodes): Существуют известные авторитетные каналы о веганстве (Каналы Б, В). Они являются Seed Nodes в этой тематике.
- Привлечение аудитории: Владелец Канала А проводит коллаборацию с Каналом Б или запускает таргетированную рекламу на его аудиторию.
- Формирование паттернов: Пользователи, которые регулярно смотрят Б и В (имеют высокий Viewer Score в тематике веганства), начинают смотреть Канал А.
- Работа алгоритма: Система видит, что зрители с высоким Viewer Score массово смотрят Канал А. Алгоритм переносит эти оценки на Канал А, присваивая ему высокий Owner Score в тематике веганства.
- Результат: Канал А классифицируется как веганский и начинает рекомендоваться другой аудитории, интересующейся этой темой, даже если его метаданные были не идеальны.
Вопросы и ответы
Описывает ли этот патент, как Google ранжирует сайты в веб-поиске?
Нет. Патент описывает метод классификации контента внутри социальной сети (например, YouTube), основанный на внутренних паттернах просмотра пользователей этой сети. Он не описывает использование этих данных для ранжирования внешних веб-сайтов в Google Поиске.
Какое значение этот патент имеет для YouTube SEO?
Критическое. YouTube упоминается в патенте как пример социальной сети. Этот механизм, вероятно, лежит в основе системы рекомендаций YouTube. Он объясняет, что для успешного продвижения важно не только содержание видео, но и то, кто его смотрит. Если ваше видео смотрят те же люди, что и авторитетные каналы в вашей нише, система классифицирует вас как релевантный канал и будет рекомендовать вас схожей аудитории.
Что такое Owner Score и Viewer Score?
Owner Score (Оценка Владельца) показывает, насколько контент профиля/канала соответствует определенной тематике. Он рассчитывается на основе того, кто его смотрит. Viewer Score (Оценка Зрителя) показывает, насколько пользователь заинтересован в определенной тематике. Он рассчитывается на основе того, что этот пользователь смотрит. Они итеративно влияют друг на друга.
Почему используется логарифмическое взвешивание?
Логарифмическое взвешивание используется для того, чтобы отличать случайные просмотры от устоявшихся интересов. Оно снижает влияние небольшого числа просмотров и требует значительного объема поведенческих данных от Strongly Associated Users для присвоения высокого веса. Это защищает систему от ошибок классификации из-за случайного поведения пользователей.
Что произойдет, если я привлеку много нецелевого трафика на свой YouTube-канал?
Это может негативно сказаться на классификации вашего канала. Если вашу аудиторию составят случайные пользователи (naïve users), не интересующиеся вашей основной темой, ваш поведенческий профиль будет «размыт». Система может решить, что ваш контент не имеет четкой тематики или относится к другой категории, что ухудшит работу рекомендательных алгоритмов.
Что такое Seed Nodes и как они определяются?
Seed Nodes — это профили или контент, которые система уже достоверно классифицировала как относящиеся к определенной тематике. Они служат эталоном. В патенте указано, что они могут определяться путем ручной модерации, на основе проверенных источников или как результат предыдущей работы этого же алгоритма.
Что важнее для классификации по этому патенту: метаданные контента или поведение аудитории?
Поведение аудитории. Весь смысл патента заключается в том, чтобы классифицировать контент, когда анализ его содержания или метаданных затруднен или невозможен. Система полагается на browsing patterns как на основной сигнал тематической схожести.
Что означают механизмы Dampening и Boosting?
Dampening (Затухание) снижает оценки, которые распространяются слишком далеко от исходных узлов (Seed Nodes) в графе, предполагая, что дальние связи менее надежны. Boosting (Усиление) повышает оценки для контента, который смотрят авторитетные зрители, даже если его также смотрит много случайных людей, чтобы избежать размытия оценки.
Как использовать этот патент для улучшения контент-стратегии на YouTube?
Необходимо анализировать, с каким другим контентом взаимодействует ваша целевая аудитория. Стратегия должна быть направлена на то, чтобы ваш контент потреблялся той же группой людей, которая смотрит авторитетные источники в вашей нише (ваши конкуренты). Это укрепляет вашу связь с этой тематикой в глазах системы.
Может ли Google использовать данные из Chrome или Analytics для построения подобных графов в веб-поиске?
Теоретически, анализ паттернов просмотра (co-visitation) в вебе возможен с использованием таких данных. Однако данный конкретный патент не описывает такую систему. Он строго ограничен рамками социальной сети, где система точно знает идентификаторы владельца контента, зрителя и факт просмотра между ними.