Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует анализ тем и тональности для предсказания кликабельности контента (рекомендаций или рекламы)

    SENTIMENT AND TOPIC BASED CONTENT DETERMINATION METHODS AND SYSTEMS (Методы и системы определения контента на основе тональности и тем)
    • US9020956B1
    • Google LLC
    • 2015-04-28
    • 2012-12-31
    2012 Патенты Google Персонализация Семантика и интент

    Google использует систему для выбора дополнительного контента (например, рекламы или рекомендаций), который будет показан пользователю на просматриваемой странице. Система анализирует темы документа и тональность (sentiment) по отношению к этим темам. Затем она сравнивает этот контекст с историческими данными о кликах в похожих ситуациях, чтобы предсказать вероятность взаимодействия пользователя (Predicted Acceptance Score) и выбрать наиболее подходящий контент.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу повышения эффективности выбора дополнительного контента (например, рекламы или рекомендаций), показываемого пользователю. Вместо того чтобы полагаться только на профиль пользователя или только на тему страницы, система стремится учесть более глубокий контекст взаимодействия пользователя с контентом, а именно — тональность (sentiment) документа по отношению к конкретным темам (topics). Это позволяет точнее предсказать, какой контент вызовет положительную реакцию (например, клик) в данном контексте.

    Что запатентовано

    Запатентована система выбора контента, которая рассчитывает вероятность взаимодействия пользователя (Predicted Acceptance Score, например, CTR) с кандидатом на показ. Расчет основан на трех ключевых элементах: темах, идентифицированных в просматриваемом документе, уверенности системы в этих темах (Confidence Score) и тональности документа по отношению к этим темам (Sentiment Score). Эти данные сравниваются с агрегированными историческими данными о взаимодействии (Acceptance History Data) в аналогичных тематическо-эмоциональных контекстах.

    Как это работает

    Система работает следующим образом:

    • Анализ документа: Когда пользователь запрашивает документ, система идентифицирует в нем одну или несколько тем (Topics) и определяет степень уверенности (Confidence Score) для каждой темы.
    • Анализ тональности: Для каждой темы определяется тональность (Sentiment Score) — позитивная, негативная или нейтральная.
    • Векторизация контекста: Текущий контекст (темы + тональность) преобразуется в числовой вектор (SW).
    • Сравнение с историей: Этот вектор сравнивается с историческими векторами (ASW), которые агрегируют данные о прошлых показах контента и реакциях на него (принятие/отклонение).
    • Расчет предсказания: Используя математические операции (например, скалярное произведение векторов), система рассчитывает Predicted Acceptance Score для каждого кандидата на показ.
    • Выбор контента: Выбирается контент с наивысшим Predicted Acceptance Score.

    Актуальность для SEO

    Высокая для систем показа рекламы и рекомендаций. Методы контекстуального таргетинга, учитывающие не только ключевые слова, но и тональность контента, активно развиваются в Google Ads, YouTube и рекомендательных системах (например, Google Discover). Описанные механизмы являются фундаментальными для повышения CTR и релевантности подаваемого контента.

    Важность для SEO

    Влияние на органическое SEO минимальное (1/10). Патент описывает не алгоритмы ранжирования в поиске, а механизмы выбора и подачи дополнительного контента (рекламы/рекомендаций). Однако он представляет значительный интерес для понимания того, как Google на техническом уровне проводит анализ тем (Topic Modeling) и анализ тональности (Sentiment Analysis). Понимание этих NLP-механизмов может быть полезно для общей контент-стратегии и для издателей, монетизирующих контент через рекламные сети.

    Детальный разбор

    Термины и определения

    Acceptance History Data (Исторические данные о принятии)
    Агрегированные данные о прошлых показах контента. Включают тему показанного контента (Topic-P), тему просматриваемого документа (Topic-R), индикатор реакции пользователя (клик/не клик) и исторические оценки тональности.
    ASW (Aggregated Sentiment Weights Vector)
    Вектор агрегированных весов тональности. Исторические данные о показах для конкретной пары тем (Topic-R и Topic-P) и конкретного исхода (принятие или отклонение).
    Confidence Score (Оценка уверенности)
    Метрика, определяющая, насколько сильно тема связана с документом. В патенте указано, что сумма всех Confidence Scores для всех тем документа равна математической константе (например, 1).
    MTR (Multiple Topic acceptance Rate)
    Прогнозируемая частота принятия для документа с несколькими темами. Рассчитывается как взвешенная сумма STR для каждой темы.
    Predicted Acceptance Score (Прогнозируемая оценка принятия)
    Итоговая метрика, предсказывающая вероятность того, что пользователь взаимодействует с контентом (например, прогнозируемый CTR).
    Sentiment Score (Оценка тональности)
    Метрика, определяющая отношение к теме в документе. Обычно в диапазоне от -1 (негатив) до +1 (позитив).
    STR (Single Topic acceptance Rate)
    Прогнозируемая частота принятия, рассчитанная для одной пары тем (Topic-R и Topic-P).
    SW (Sentiment Weights Vector)
    Вектор весов тональности. Представляет текущий контекст просмотра документа (темы и тональность) в числовом виде.
    Topic-R (Topic-Requested)
    Тема запрошенного (просматриваемого) пользователем документа.
    Topic-P (Topic-Presented)
    Тема контента-кандидата (например, рекламы), который предполагается показать.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод выбора контента.

    1. Система идентифицирует множество тем (plurality of topics) для документа, запрошенного пользователем.
    2. Для каждой темы определяется соответствующая Confidence Score (оценка уверенности в корреляции темы и документа). Ключевое условие: сумма всех Confidence Scores для документа является математической константой (т.е. они нормализованы, например, до 1).
    3. Определяется Sentiment Score (оценка тональности) для первой темы.
    4. Для контента-кандидата рассчитывается Predicted Acceptance Score, основанный на Confidence Score, Sentiment Score и Acceptance History Data.
    5. Контент выбирается для показа на основе этого Predicted Acceptance Score.

    Claim 2 (Зависимый): Уточняет Claim 1, указывая, что расчет Predicted Acceptance Score также учитывает Confidence Score и Sentiment Score второй темы из множества идентифицированных тем.

    Claim 5 (Зависимый): Уточняет механизм расчета Predicted Acceptance Score. Он определяется путем вычисления соотношения оценок тональности (ratio of sentiment scores). (Это относится к формулам расчета STR, описанным в патенте).

    Claim 8 (Зависимый): Определяет состав Acceptance History Data. Они включают:

    • Тему контента (Topic-P).
    • Тему документа, с которым он был показан (Topic-R).
    • Индикатор ответа на показ (например, клик).
    • Как минимум одну историческую оценку тональности (historic sentiment score).

    Где и как применяется

    Этот патент не описывает механизмы органического поиска (CRAWLING, RANKING и т.д.). Он описывает систему Выбора Контента (Content Selection), которая работает поверх основного контента, например, систему показа рекламы (Google Ads/AdSense) или блок рекомендаций.

    INDEXING – Индексирование и извлечение признаков
    Хотя патент напрямую не относится к индексированию для поиска, он полагается на то, что системы Google способны проводить сложный NLP-анализ. На этапе обработки контента (аналогичном индексированию) должны работать компоненты для:

    • Topic Modeling: Идентификация тем (Topics) и расчет Confidence Scores.
    • Sentiment Analysis: Расчет Sentiment Scores для каждой темы.

    Content Delivery / Ad Serving (Этап доставки контента)
    Основное применение патента происходит в реальном времени, когда пользователь просматривает документ.

    1. Система анализирует контекст просматриваемого документа (Темы + Тональность).
    2. Система собирает кандидатов на показ (рекламу/рекомендации).
    3. Система использует Acceptance History Data для расчета Predicted Acceptance Score для каждого кандидата в текущем контексте.
    4. Происходит выбор и показ контента с лучшей оценкой.

    Входные данные:

    • Содержимое запрошенного документа (текст, медиа, отзывы пользователей).
    • Идентифицированные темы документа (Topic-R) и их Confidence Scores.
    • Sentiment Scores для этих тем.
    • Пул кандидатов на показ и их темы (Topic-P).
    • Acceptance History Data для кандидатов.

    Выходные данные:

    • Выбранный контент для показа пользователю.
    • Predicted Acceptance Score для выбранного контента.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние на контент, где тональность играет ключевую роль: отзывы о продуктах, новостные статьи, обсуждения в социальных сетях, блоги, форумы. Патент явно упоминает Online Community (социальные сети, сайты отзывов, чаты, вики).
    • Ниши и тематики: Влияет на эффективность рекламы и рекомендаций в тематиках, где важно различать позитивное и негативное отношение (например, товары, услуги, политика, развлечения).

    Когда применяется

    • Условия применения: Алгоритм применяется каждый раз, когда необходимо выбрать дополнительный контент для показа на странице.
    • Триггеры активации: Запрос пользователя на просмотр документа, содержащего слоты для дополнительного контента.

    Пошаговый алгоритм

    Процесс А: Анализ контекста и выбор контента

    1. Идентификация тем: Система идентифицирует одну или несколько тем (Topic-R) в документе, запрошенном пользователем.
    2. Расчет уверенности: Определяется Confidence Score для корреляции между каждой темой и документом. Сумма оценок нормализуется (например, до 1).
    3. Расчет тональности: Определяется Sentiment Score (от -1 до +1) для каждой темы.
    4. Детализация тональности: Sentiment Score преобразуется в три компонента: Positivity, Negativity, Neutrality (сумма равна 1).
    5. Идентификация кандидатов: Определяется пул кандидатов на показ и их темы (Topic-P).
    6. Векторизация текущего контекста (SW): Для каждой пары тем (Topic-R и Topic-P) создается вектор SW. Он состоит из 9 элементов, являющихся произведениями компонентов тональности (P2P, P2Neu, P2Neg, Neu2P и т.д.).
    7. Получение исторических данных (ASW): Из Acceptance History Data извлекаются агрегированные исторические векторы ASW(Yes) (показы, приведшие к клику) и ASW(No) (показы без клика) для тех же пар тем.
    8. Расчет STR (Single Topic acceptance Rate): Рассчитывается вероятность принятия для одной пары тем по формуле, основанной на скалярном произведении векторов: STR = (ASW(Yes) · SW) / [(ASW(Yes) · SW) + (ASW(No) · SW)].
    9. Расчет MTR (Multiple Topic acceptance Rate): Если тем несколько, STR агрегируются во взвешенную сумму MTR (используя Confidence Scores как веса).
    10. Корректировка (Опционально): MTR может быть скорректирован с учетом статистической значимости (SS), если исторических данных мало.
    11. Выбор контента: Выбирается кандидат с максимальным MTR (Predicted Acceptance Score).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа (заголовки, основной текст), метаданные (теги). Система анализирует этот текст для определения тем и тональности (лингвистический анализ, анализ прилагательных).
    • Поведенческие факторы: Acceptance History Data — исторические данные о кликах (CTR) или других взаимодействиях с контентом в различных контекстах (тема+тональность).
    • Пользовательские факторы (В контексте документа): Патент упоминает возможность анализа частей документа, написанных самим пользователем (например, комментарии, отзывы, рейтинги, загруженные медиа), для определения его личной тональности по отношению к теме.

    Какие метрики используются и как они считаются

    Система использует несколько ключевых метрик:

    • Sentiment Score: Оценка от -1 до +1. Рассчитывается с помощью лингвистического анализа или на основе прямого фидбека (рейтинги, лайки).
    • Компоненты тональности:
      • Positivity(S) = Max(0, Sentiment)
      • Negativity(S) = -1 * Min(0, Sentiment)
      • Neutrality(S) = 1 — |Sentiment|
    • Confidence Score: Нормализованная оценка (от 0 до 1) уверенности в теме.
    • Векторы SW и ASW: Векторы из 9 элементов, представляющие комбинации тональности между двумя темами (например, P2P = Позитивность Темы 1 * Позитивность Темы 2).
    • STR (Single Topic acceptance Rate): Рассчитывается как соотношение весов: STR = (ASW(Yes) · SW) / [(ASW(Yes) · SW) + (ASW(No) · SW)]. Где ‘·’ обозначает скалярное произведение векторов.
    • MTR (Multiple Topic acceptance Rate): Взвешенная сумма STR: MTR = W1*STR1 + … + Wn*STRn (где W — это Confidence Score темы).
    • Statistical Significance (SS): Метрика (от 0 до 1) для оценки надежности исторических данных. Используется для корректировки MTR при малом количестве данных.

    Выводы

    1. Приоритет патента — Выбор контента, а не Ранжирование: Основной вывод для SEO-специалистов: этот патент не описывает, как Google ранжирует сайты в органическом поиске. Он описывает, как Google выбирает рекламу или рекомендации для показа на основе контекста страницы.
    2. Глубокий анализ контекста (Тема + Тональность): Google обладает развитыми механизмами для определения не только тем документа, но и тональности (Sentiment) по отношению к каждой конкретной теме. Это более сложный уровень анализа, чем простое извлечение ключевых слов.
    3. Нормализация тем (Confidence Scores): Патент подчеркивает, что Confidence Scores для всех тем документа нормализуются (сумма равна константе). Это означает, что система стремится понять относительную важность разных тем в рамках одного документа.
    4. Использование тональности для предсказания поведения: Система явно использует эмоциональный окрас контента для прогнозирования вероятности клика (Predicted Acceptance Score). Позитивный или негативный контекст напрямую влияет на выбор подаваемого контента.
    5. Зависимость от исторических данных: Эффективность системы зависит от накопления большого объема Acceptance History Data, связывающих контекст (тема+тональность) с поведением пользователей.
    6. Персонализация через контент: Система может анализировать тональность частей документа, созданных самим пользователем (например, комментариев), чтобы определить его личное отношение к теме и скорректировать выбор контента.

    Практика

    Best practices (это мы делаем)

    Хотя патент не дает прямых рекомендаций для органического SEO, он дает понимание работы NLP-систем Google, что можно использовать в контент-стратегии:

    • Обеспечение четкой тематической направленности: Работайте над тем, чтобы контент имел четко выраженные основные темы. Это поможет системам Google правильно рассчитать Confidence Scores. Четкая структура и использование релевантной терминологии способствуют правильной идентификации тем.
    • Управление тональностью контента (для издателей): Если сайт монетизируется через рекламные сети (например, AdSense), понимание тональности контента критически важно. Система будет подбирать рекламу, соответствующую тональности. Например, на странице с резко негативным отзывом система может показать рекламу конкурентов, так как предскажет высокий Acceptance Score для альтернатив.
    • Анализ тональности в нише: Используйте инструменты Sentiment Analysis для анализа своего контента и контента конкурентов. Понимание преобладающей тональности в вашей нише помогает лучше соответствовать ожиданиям пользователей и контекстуальному таргетингу Google.

    Worst practices (это делать не надо)

    • Создание контента без четкой темы или с размытым фокусом: Контент, который пытается охватить слишком много несвязанных тем, затруднит системе расчет Confidence Scores и приведет к нерелевантному подбору дополнительного контента.
    • Игнорирование эмоционального окраса контента: Пренебрежение тональностью может привести к нежелательному соседству контента. Например, если статья о серьезной проблеме будет классифицирована с нейтральной или позитивной тональностью, это может привести к показу неуместной рекламы.

    Стратегическое значение

    Патент подтверждает важность Sentiment Analysis в экосистеме Google. Для SEO-специалистов это сигнал о том, что Google анализирует контент не только на уровне фактов и сущностей, но и на уровне мнений и эмоций. Хотя это применяется здесь для выбора рекламы, те же базовые NLP-технологии могут использоваться и в других системах, например, для оценки качества контента или понимания интента пользователя. Стратегически важно создавать контент, который не только тематически релевантен, но и имеет соответствующий контексту тон.

    Практические примеры

    Сценарий: Оптимизация страницы с обзором продукта для повышения релевантности рекламы

    1. Ситуация: Пользователь читает обзор нового смартфона.
    2. Анализ (Негативный обзор): Система определяет Тему (Смартфон Модель X) с высоким Confidence Score. Sentiment Analysis определяет негативную тональность (-0.8).
    3. Прогноз: Система проверяет Acceptance History Data. Исторически, в негативном контексте о Модели X пользователи часто кликают на рекламу Смартфона Модель Y (конкурент).
    4. Результат: Система рассчитывает высокий Predicted Acceptance Score для рекламы Модели Y и показывает ее пользователю.
    5. Анализ (Позитивный обзор): Система определяет ту же Тему (Смартфон Модель X), но с позитивной тональностью (+0.8).
    6. Прогноз: Исторически, в позитивном контексте пользователи хорошо кликают на рекламу аксессуаров для Модели X.
    7. Результат: Система показывает рекламу чехлов для Модели X.

    Вопросы и ответы

    Описывает ли этот патент, как Google ранжирует сайты в органическом поиске?

    Нет. Этот патент описывает методы выбора дополнительного контента, такого как реклама или рекомендации, для показа на просматриваемой странице. Он не имеет отношения к алгоритмам ранжирования органической выдачи (SERP). Его ценность для SEO заключается в понимании того, как Google анализирует темы и тональность контента.

    Что такое Confidence Score и почему важно, что сумма всех оценок равна константе?

    Confidence Score показывает, насколько сильно система уверена, что данная тема присутствует в документе. Тот факт, что сумма всех Confidence Scores для всех тем документа равна константе (например, 1), означает, что они нормализованы. Это позволяет системе понять относительную важность тем: если одна тема становится более выраженной, другие автоматически становятся менее важными в контексте данного документа.

    Как система определяет тональность (Sentiment Score)?

    Патент упоминает несколько методов. Основной — это лингвистический анализ текста, например, анализ прилагательных, связанных с темой. Также могут использоваться прямые сигналы от пользователей: рейтинги, лайки/дизлайки, отзывы или анализ медиаконтента, загруженного пользователем. Тональность оценивается по шкале от -1 (негатив) до +1 (позитив).

    Что такое Predicted Acceptance Score?

    Это прогнозируемая оценка вероятности того, что пользователь положительно отреагирует на показанный контент. На практике это чаще всего означает прогнозируемый CTR (Click-Through Rate). Система стремится максимизировать этот показатель при выборе рекламы или рекомендаций.

    Как именно тональность влияет на выбор контента?

    Тональность используется для определения контекста. Система смотрит на исторические данные: на что пользователи кликали в прошлом, когда читали контент с похожей тональностью на ту же тему. Например, позитивная тональность может способствовать показу сопутствующих товаров, а негативная — показу альтернатив или решений проблемы.

    Какое значение этот патент имеет для владельцев сайтов, использующих AdSense?

    Для издателей этот патент имеет прямое значение. Он описывает механизм, с помощью которого Google подбирает рекламу к вашему контенту. Чтобы обеспечить показ наиболее релевантной и доходной рекламы, контент должен иметь четкую тематику и понятную тональность. Неоднозначный или нейтральный контент может снижать эффективность рекламного таргетинга.

    Может ли система определить мою личную тональность, если я просто читаю статью?

    По умолчанию система анализирует тональность самого документа. Однако патент упоминает, что если пользователь сам внес вклад в документ (например, оставил комментарий или рейтинг), система может проанализировать этот вклад для определения личной тональности пользователя по отношению к теме и использовать это для более точного подбора контента.

    Что такое векторы SW и ASW?

    Это математическое представление контекста. SW (Sentiment Weights Vector) представляет текущий контекст просмотра (тема + тональность). ASW (Aggregated SW) представляет агрегированные исторические данные о показах в похожих контекстах. Система сравнивает SW с ASW (используя скалярное произведение), чтобы предсказать поведение пользователя.

    Используются ли эти технологии в Google Поиске?

    Механизм выбора контента, описанный в патенте, в поиске не используется. Однако базовые технологии анализа тем (Topic Modeling) и анализа тональности (Sentiment Analysis), на которые опирается патент, безусловно, используются Google повсеместно, в том числе для понимания запросов и оценки качества контента в поиске.

    Как SEO-специалист может использовать знания из этого патента на практике?

    Практическое применение заключается в улучшении контент-стратегии. Необходимо следить за тем, чтобы страницы имели четкую тематическую фокусировку (для правильного расчета Confidence Score) и соответствующую интенту тональность. Это гарантирует, что Google правильно интерпретирует контекст страницы, что полезно как для релевантности в целом, так и для корректной работы рекламных систем.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.