Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует контекст автора (Creator Context) для понимания и ранжирования пользовательского контента (UGC) и социальных сетей

    DETERMINATION OF USER POST ITEMS RELATED TO SEARCH CONTENT USING CREATOR CONTEXT DATA (Определение элементов пользовательских публикаций, связанных с поисковым контентом, с использованием контекстных данных автора)
    • US20250156488A1
    • Google LLC
    • 2025-05-15
    • 2023-11-15
    2023 EEAT и качество Vladimir Ofitserov Патенты Google Персонализация Семантика и интент

    Google использует модели машинного обучения для оценки релевантности пользовательского контента (например, постов в социальных сетях). Система учитывает не только текст поста, но и контекст его автора (биографию, экспертизу, местоположение). Это позволяет точнее интерпретировать короткие или неоднозначные публикации и повышать в выдаче контент от авторитетных источников.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему сложности интерпретации и оценки релевантности короткого пользовательского контента (UGC), такого как посты в социальных сетях или комментарии. Такому контенту часто не хватает контекста, что затрудняет автоматическое определение его тематики и авторитетности. Например, пост «Самый длинный гол!» сложно интерпретировать без знания того, о каком виде спорта идет речь. Система улучшает точность (precision) подбора UGC для дополнения основного поискового контента.

    Что запатентовано

    Запатентована система и метод интеграции контекста автора (Creator Context Data) в процесс оценки релевантности пользовательского контента (User Post Items). Система использует обученные модели машинного обучения (энкодеры, например, BERT) для создания семантических векторных представлений (embeddings), которые учитывают как содержание поста, так и информацию об авторе. Это позволяет более точно определять релевантность UGC по отношению к заданному поисковому контенту (Search Content).

    Как это работает

    Система работает путем сравнения контента в векторном пространстве:

    • Кодирование поискового контента: Search Content (например, новостная статья или запрос) обрабатывается первым энкодером для создания первого эмбеддинга.
    • Кодирование UGC с учетом автора: User Post Items и связанные с ними Creator Context Data (биография, локация и т.д.) обрабатываются одним или несколькими вторыми энкодерами. Патент описывает три стратегии (Early, Intermediate, Late Fusion) для интеграции контекста автора в итоговые вторые эмбеддинги.
    • Сравнение: Вычисляется мера сходства (Similarity Measure), например, косинусное расстояние, между первым и вторыми эмбеддингами.
    • Вывод: Отбираются User Post Items, чьи эмбеддинги наиболее близки к эмбеддингу Search Content.

    Актуальность для SEO

    Крайне высокая. Это очень свежая заявка на патент (подана в конце 2023 года). Она напрямую затрагивает актуальные задачи интеграции UGC в поиск (например, блоки Perspectives) и новостные агрегаторы. Акцент на сигналах автора напрямую связан с принципами E-E-A-T и использованием современных технологий ML (Embeddings, BERT) для семантического понимания контента.

    Важность для SEO

    Влияние на SEO высокое (85/100). Патент описывает конкретный технический механизм того, как Google оценивает идентичность и экспертизу автора (Creator Context) для понимания и ранжирования UGC. Это имеет прямое значение для стратегий SMM, управления репутацией (ORM) и продвижения через пользовательский контент, подчеркивая критическую важность оптимизации публичных профилей авторов (Author E-E-A-T).

    Детальный разбор

    Термины и определения

    Creator Context Data / Items (Контекстные данные автора)
    Информация об авторе пользовательской публикации, которая не содержится в самой публикации. Включает стабильные характеристики автора, такие как имя пользователя/идентификатор, биографические данные (описание профиля), URL связанного веб-сайта и географическое местоположение.
    Encoder (Энкодер)
    Обученная модель машинного обучения (например, на архитектуре Transformer, такой как BERT), используемая для преобразования входных данных в эмбеддинг.
    Embedding (Эмбеддинг)
    Многомерное векторное представление контента (поискового, пользовательского или контекста автора), отражающее его семантическое значение.
    Search Content (Поисковый контент)
    Целевой контент, для которого система ищет релевантные пользовательские публикации. Может включать новостные статьи, поисковые запросы (текстовые, графические, видео) или веб-страницы.
    Similarity Measure (Мера схожести)
    Метрика, определяющая близость двух эмбеддингов в векторном пространстве (например, косинусное расстояние). Используется для оценки семантической релевантности.
    User Post Items (Элементы пользовательских публикаций / UGC)
    Контент, созданный пользователями (посты в социальных сетях, комментарии, изображения, видео). Являются кандидатами для отбора.
    Early Fusion (Раннее слияние)
    Стратегия интеграции, при которой публикация и контекст автора конкатенируются (объединяются) перед подачей в единый энкодер.
    Intermediate Fusion (Промежуточное слияние)
    Стратегия, при которой публикация и контекст автора кодируются отдельно, а затем их эмбеддинги объединяются (например, через Combining Neural Network) перед сравнением с эмбеддингом поискового контента.
    Late Fusion (Позднее слияние)
    Стратегия, при которой вычисляются отдельные меры схожести (публикация vs. поисковый контент; контекст автора vs. поисковый контент), а затем эти меры комбинируются для получения итоговой оценки.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает базовый метод определения релевантности UGC с учетом контекста автора.

    1. Система кодирует Search Content в первый эмбеддинг с помощью первого энкодера.
    2. Система кодирует множество User Post Items и связанных с ними Creator Context Data Items (определенных как характеристики автора) во вторые эмбеддинги с помощью одного или нескольких вторых энкодеров.
    3. Вычисляется мера схожести между первым и вторыми эмбеддингами.
    4. Система выводит набор результатов с наивысшей схожестью.

    Ядро изобретения — использование контекста автора наряду с содержанием поста для генерации эмбеддингов, используемых при оценке релевантности.

    Claim 4 (Зависимый от 1): Описывает реализацию через Раннее слияние (Early Fusion).

    Для каждой пары (пост + контекст автора):

    1. Пост и контекст конкатенируются в объединенный элемент контента.
    2. Объединенный элемент подается в один конкретный второй энкодер для генерации соответствующего второго эмбеддинга.

    Claim 5 (Зависимый от 1): Описывает реализацию через Промежуточное слияние (Intermediate Fusion).

    Используются отдельные энкодеры для постов и контекста. Для каждой пары:

    1. Пост кодируется в первый промежуточный эмбеддинг.
    2. Контекст кодируется во второй промежуточный эмбеддинг.
    3. Промежуточные эмбеддинги конкатенируются.
    4. Конкатенированный эмбеддинг подается в Combining Neural Network для генерации итогового второго эмбеддинга.

    Claim 6 (Зависимый от 1): Описывает реализацию через Позднее слияние (Late Fusion).

    Используются отдельные энкодеры. Для каждой пары:

    1. Генерируется эмбеддинг поста и вычисляется первая мера схожести с первым эмбеддингом (поискового контента).
    2. Генерируется эмбеддинг контекста автора и вычисляется вторая мера схожести с первым эмбеддингом.
    3. Первая и вторая меры схожести комбинируются для формирования итоговой меры схожести.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры, фокусируясь на обработке и ранжировании пользовательского контента (UGC).

    CRAWLING – Сканирование и Сбор данных
    Система сканирует и собирает User Post Items (например, из социальных сетей) и связанную с ними публичную информацию о профилях авторов для получения Creator Context Data.

    INDEXING – Индексирование и извлечение признаков
    Основной этап предобработки.

    • Извлечение признаков автора: Анализ профилей для структурирования Creator Context Data.
    • Генерация эмбеддингов: Использование энкодеров для генерации эмбеддингов. Патент отмечает, что в вариантах Intermediate и Late Fusion эмбеддинги контекста автора могут быть предварительно вычислены и кэшированы, так как эта информация более стабильна, что снижает вычислительную нагрузку.
    • Хранение: Эмбеддинги сохраняются, вероятно, в векторной базе данных (vector database) для быстрого поиска.

    QUNDERSTANDING – Понимание Запросов
    Если Search Content является пользовательским запросом, на этом этапе генерируется его эмбеддинг (первый эмбеддинг).

    RANKING – Ранжирование (L1 — Retrieval)
    Описанный механизм является системой отбора кандидатов (Retrieval). Система выполняет поиск ближайших соседей (nearest neighbor search) в векторном пространстве, сравнивая эмбеддинг Search Content с эмбеддингами UGC (которые включают контекст автора), чтобы найти наиболее семантически схожие посты.

    METASEARCH / RERANKING
    Отобранные посты интегрируются в выдачу или отображаются рядом с основным контентом. На этапе RERANKING могут применяться дополнительные сигналы, такие как популярность автора, свежесть поста или качество написания.

    На что влияет

    • Типы контента: В первую очередь влияет на видимость короткого пользовательского контента (UGC) – постов в социальных сетях, комментариев, коротких видео и изображений.
    • Специфические запросы: Наибольшее влияние на информационные и новостные запросы, где важно мнение экспертов или очевидцев.
    • Конкретные ниши: Критично в тематиках, где экспертиза автора имеет решающее значение (YMYL, спорт, политика), позволяя авторитетным авторам получать больше видимости.
    • Разрешение неоднозначности: Помогает понять смысл неоднозначных постов, опираясь на экспертизу автора.

    Когда применяется

    • Условия работы: Алгоритм применяется, когда поисковая система или сервис (например, новостной агрегатор) решает дополнить основной контент релевантными пользовательскими публикациями.
    • Триггеры активации: Запрос пользователя, просмотр новостной статьи или генерация курируемой страницы контента, для которой требуется подбор UGC.

    Пошаговый алгоритм

    Обобщенный процесс работы системы:

    1. Получение поискового контента: Система получает Search Content (запрос или статью).
    2. Генерация первого эмбеддинга: Поисковый контент вводится в первый энкодер для генерации первого эмбеддинга.
    3. Получение кандидатов UGC и контекста авторов: Система получает набор User Post Items и связанные Creator Context Items.
    4. Генерация вторых эмбеддингов (с учетом контекста автора): Применяется одна из стратегий слияния:
      • Вариант A (Early Fusion): Конкатенация текста поста и контекста, затем кодирование объединенного текста для генерации второго эмбеддинга.
      • Вариант B (Intermediate Fusion): Раздельное кодирование поста и контекста, затем объединение эмбеддингов через Combining Neural Network для генерации второго эмбеддинга.
      • Вариант C (Late Fusion): Раздельное кодирование поста и контекста.
    5. Вычисление сходства:
      • Варианты A и B: Вычисляется сходство между первым эмбеддингом и сгенерированным вторым эмбеддингом.
      • Вариант C: Вычисляется сходство между первым эмбеддингом и эмбеддингом поста (Score 1), а также между первым эмбеддингом и эмбеддингом контекста (Score 2). Затем Score 1 и Score 2 комбинируются (например, взвешенная сумма).
    6. Ранжирование и отбор: Посты ранжируются на основе вычисленной меры сходства. Отбирается Топ-N результатов.
    7. Вывод результата: Отобранные посты выводятся пользователю.

    Какие данные и как использует

    Данные на входе

    Система фокусируется на контентных и авторских факторах:

    • Контентные факторы (User Post Items и Search Content):
      • Текст постов, статей или запросов. Упоминается обработка хэштегов и упоминаний пользователей.
      • В некоторых реализациях: изображения, видео или аудио данные.
    • Факторы экспертизы/авторства (Creator Context Data): Критически важные данные для этого изобретения. Включают стабильные характеристики автора:
      • Имя пользователя или идентификатор (screen handle, display name).
      • Биографическая информация (описание профиля, Bio).
      • Адрес (URL) веб-сайта, связанного с автором.
      • Географическое местоположение автора.

    Исключенные или не приоритетные данные: Патент отмечает, что использование исторических постов автора для определения контекста может быть непрактичным из-за объема данных, вычислительных затрат и изменчивости интересов автора. Предпочтение отдается более стабильным данным профиля.

    Какие метрики используются и как они считаются

    • Эмбеддинги (Векторные представления): Генерируются с помощью моделей глубокого обучения (упоминается BERT). Модели обучаются (co-trained) таким образом, чтобы векторы релевантных пар были ближе друг к другу в векторном пространстве.
    • Similarity Measure (Мера схожести): Основная метрика для ранжирования. Вычисляется как близость между эмбеддингами. Упоминаются Cosine Similarity, Евклидово сходство, скалярное произведение.
    • Методы слияния (Fusion):
      • Конкатенация (используется в Раннем и Промежуточном слиянии).
      • Combining Neural Network (Промежуточное слияние): Нейронная сеть (например, полносвязный слой или FFNN) для объединения эмбеддингов поста и автора.
      • Взвешенная комбинация (Позднее слияние): Объединение двух независимых мер сходства с использованием весового коэффициента (который может быть обучаемым параметром).

    Выводы

    1. Контекст автора критичен для интерпретации UGC: Google активно использует информацию об авторе (Creator Context) для понимания смысла и определения релевантности пользовательского контента, особенно коротких форм. Это не просто анализ текста поста, а анализ поста в контексте того, кто его написал.
    2. E-E-A-T для пользовательского контента: Патент описывает техническую реализацию принципов E-E-A-T для отбора UGC. Знание автора (его биография, экспертиза) используется для оценки авторитетности (authoritativeness) и ценности публикации.
    3. Приоритет стабильных сигналов авторства: Система предпочитает использовать стабильные контекстные данные (биография, локация, сайт), а не динамические (например, историю последних постов), так как они более надежны для определения долгосрочных интересов автора и требуют меньше ресурсов для обновления.
    4. Семантическое сопоставление через эмбеддинги: Релевантность определяется не совпадением ключевых слов, а семантической близостью эмбеддингов, сгенерированных с помощью продвинутых моделей (например, BERT).
    5. Гибкость реализации (Три стратегии слияния): Google запатентовал три способа интеграции контекста автора (ранний, промежуточный, поздний), что дает системе гибкость в балансировании точности и вычислительной сложности в зависимости от задачи.

    Практика

    Best practices (это мы делаем)

    • Оптимизация публичных профилей авторов (Author E-E-A-T): Необходимо уделять стратегическое внимание публичным профилям ключевых сотрудников и экспертов компании (в социальных сетях, на форумах). Биография (bio), указанное местоположение и ссылка на основной сайт должны четко отражать их экспертизу и связь с ключевыми тематиками бизнеса. Это напрямую формирует Creator Context.
    • Построение тематического авторитета (Topical Authority) для авторов: Работайте над тем, чтобы авторы ассоциировались с конкретными темами. Авторы, чей контекст сильно релевантен определенным темам запросов, будут иметь преимущество при ранжировании их контента.
    • Стимулирование экспертного UGC: Поощряйте создание контента (постов, комментариев, обсуждений) вашими экспертами на релевантных площадках. Контент от автора с сильным тематическим контекстом имеет значительно больше шансов быть отобранным системой для показа в поиске (например, в блоках Perspectives).
    • Использование географической привязки: Для локального контента или новостей важно указывать релевантную географическую локацию в профиле автора, так как это является частью Creator Context и помогает при локальном ранжировании.

    Worst practices (это делать не надо)

    • Использование общих, анонимных или неинформативных профилей: Ведение аккаунтов с пустыми или нерелевантными биографиями снижает ценность Creator Context и уменьшает вероятность того, что контент этих авторов будет высоко ранжироваться.
    • Публикация контента, не соответствующего контексту автора (Off-topic): Резкие отклонения от основной тематики автора могут негативно повлиять на интерпретацию его контента. Несоответствие между постом и контекстом автора усложнит достижение высокой меры схожести с целевым запросом.
    • Игнорирование SMM и UGC как части SEO: Рассмотрение активности в социальных сетях и на форумах в отрыве от SEO является ошибкой. Патент показывает прямую связь между профилем автора на внешней площадке и видимостью его контента в поиске Google.

    Стратегическое значение

    Патент подтверждает стратегический приоритет Google в понимании сущностей и их авторитетности (E-E-A-T), распространяя этот подход на пользовательский контент. Для долгосрочной SEO-стратегии это означает, что инвестиции в развитие личного бренда экспертов и их публичной активности являются конкретным инструментом повышения видимости в поиске. С увеличением интеграции UGC в SERP, способность генерировать авторитетный пользовательский контент становится важным фактором ранжирования.

    Практические примеры

    Сценарий: Повышение видимости мнения эксперта по финансовому запросу

    Задача: Добиться появления комментария финансового аналитика компании в поисковой выдаче по запросу «прогноз курса биткоина» (Search Content).

    1. Анализ Creator Context (До): У аналитика в профиле социальной сети указано: «Люблю кошек и путешествия». Ссылка ведет на личный блог.
    2. Оптимизация Creator Context (После): Профиль изменен. Биография: «Ведущий аналитик по криптовалютам в [Название Компании]. 10 лет в финтехе.» Ссылка ведет на его страницу автора на корпоративном сайте. Указана локация (например, Лондон).
    3. Создание User Post Item: Аналитик публикует короткий пост: «Сегодняшняя волатильность была ожидаема, но долгосрочный тренд остается прежним. #BTC».
    4. Работа системы:
      • Google генерирует эмбеддинг запроса.
      • Google анализирует пост (текст несколько общий).
      • Google анализирует оптимизированный Creator Context (сильно связан с финансами и криптовалютами).
      • Система (например, используя Intermediate Fusion) объединяет эмбеддинг поста и эмбеддинг контекста автора.
    5. Результат: Комбинированный эмбеддинг имеет высокую меру схожести с эмбеддингом запроса благодаря сильному контексту автора. Пост отбирается для показа в блоке Perspectives, тогда как пост с профиля «До» был бы проигнорирован.

    Вопросы и ответы

    Что конкретно входит в понятие «Контекст автора» (Creator Context Data) согласно патенту?

    Патент явно перечисляет следующие стабильные характеристики профиля автора: имя пользователя или идентификатор (username/identifier), биографическая информация (описание профиля, Bio), адрес связанного веб-сайта (URL) и географическое местоположение (location). Эти данные используются для определения экспертизы и релевантности автора.

    Анализирует ли система историю предыдущих постов автора, чтобы понять его экспертизу?

    Патент указывает, что использование исторических постов может быть технически непрактичным из-за большого объема данных, вычислительных затрат и изменчивости интересов автора. Поэтому система предпочитает использовать более стабильные сигналы из профиля автора (биографию, локацию) для аппроксимации его долгосрочных интересов.

    Как этот патент связан с E-E-A-T?

    Патент напрямую реализует принципы E-E-A-T для пользовательского контента (UGC) и социальных сетей. Анализ Creator Context позволяет алгоритмически оценить экспертизу и авторитетность автора поста. Пост от автора с релевантной экспертизой будет считаться более ценным и получит преимущество при ранжировании.

    На какой тип контента этот патент влияет больше всего?

    Наибольшее влияние оказывается на короткий пользовательский контент (short-form UGC), такой как посты в социальных сетях и комментарии. Этому типу контента часто не хватает собственного контекста, и информация об авторе становится критически важной для его правильной интерпретации и оценки релевантности.

    Что такое стратегии слияния (Fusion Strategies) и в чем разница?

    Это три способа объединения данных поста и контекста автора. Early Fusion объединяет текст до обработки моделью (потенциально точнее, но затратнее). Intermediate Fusion обрабатывает их отдельно и объединяет эмбеддинги. Late Fusion обрабатывает их отдельно и объединяет итоговые оценки сходства. Intermediate и Late Fusion более эффективны, так как позволяют кэшировать эмбеддинги авторов.

    Как SEO-специалисту на практике использовать информацию из этого патента?

    Ключевое действие — стратегическая оптимизация публичных профилей экспертов и авторов компании. Убедитесь, что их биографии, указанные локации и ссылки на сайты четко позиционируют их как экспертов в нужной тематике. Это напрямую улучшает их Creator Context и повышает шансы на видимость их контента в поиске.

    Влияет ли количество подписчиков автора на ранжирование его постов согласно этому патенту?

    В основных реализациях количество подписчиков не указано как часть Creator Context Data для генерации основного эмбеддинга релевантности. Фокус делается на семантической релевантности биографии автора теме запроса. Однако в описании патента упоминается, что эти данные могут использоваться как отдельный сигнал для определения авторитетности или на этапе переранжирования.

    Применяется ли этот механизм только к тексту или также к изображениям и видео?

    Патент явно указывает (Claim 7), что механизм применим к различным типам контента. User Post Items могут быть изображениями или видео, размещенными в социальных сетях. В этом случае система также будет анализировать контекст автора, чтобы определить релевантность этих медиафайлов поисковому запросу.

    Как система определяет релевантность, если в посте нет ключевых слов из запроса?

    Система использует семантический векторный поиск (на основе эмбеддингов). Она оценивает смысловую близость между постом и запросом в векторном пространстве, а не совпадение слов. Кроме того, если контекст автора (Creator Context) сильно релевантен запросу, это может компенсировать недостаток прямой текстовой релевантности поста.

    Может ли пост с неоднозначным содержанием ранжироваться высоко благодаря автору?

    Да, это один из ключевых аспектов изобретения. Если автор имеет сильный и релевантный Creator Context (например, известен как эксперт в этой области), система использует этот контекст для правильной интерпретации неоднозначного или очень короткого поста и может признать его релевантным и авторитетным.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.