Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует поведение пользователей после клика для прогнозирования качества контента

    QUERY FEATURE BASED DATA STRUCTURE RETRIEVAL OF PREDICTED VALUES (Извлечение прогнозируемых значений из структуры данных на основе признаков запроса)
    • US10600090B2
    • Google LLC
    • 2020-03-24
    • 2016-04-26
    2016 EEAT и качество Антиспам Патенты Google Поведенческие сигналы

    Google использует статистическую модель для оценки качества контента (например, целевых страниц рекламы) на основе поведения пользователей после клика. Система анализирует такие факторы, как время пребывания на странице и последующие действия пользователя (Session Features). Эти оценки агрегируются и используются для прогнозирования качества будущих показов, позволяя системе отдавать предпочтение контенту, который лучше удовлетворяет намерениям пользователя.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неточности традиционных метрик (таких как CTR) для оценки качества контента и удовлетворенности пользователя. Высокий CTR не гарантирует, что целевая страница релевантна или полезна. Изобретение направлено на создание системы, которая прогнозирует качество контента на основе того, что пользователь делает после клика, тем самым обеспечивая более точную оценку удовлетворенности пользователя (user satisfaction).

    Что запатентовано

    Запатентована система и метод прогнозирования качества контента (в патенте рассматриваются преимущественно рекламные объявления — Ads) путем анализа наблюдаемого поведения пользователей (Session Features) после взаимодействия с контентом. Система строит статистическую модель (Statistical Model), которая коррелирует пост-клик поведение с известными оценками качества (Ad Ratings Data). Затем эта модель используется для генерации прогнозируемых значений качества (Predictive Values) для неразмеченного контента, которые агрегируются и сохраняются в структуре данных (Data Structure) для последующего использования при ранжировании.

    Как это работает

    Система работает в несколько этапов:

    1. Обучение модели: Анализируются клики по контенту с известной оценкой качества (Rated Ads). Для каждого клика измеряются Session Features (например, длительность клика, количество последующих запросов, был ли клик последним в сессии).
    2. Построение модели: Строится Statistical Model (например, логистическая регрессия или Boosted Stumps), которая определяет вероятность того, что контент является качественным, на основе измеренных Session Features.
    3. Применение модели: Когда пользователь кликает на неразмеченный контент (Unrated Ad), система измеряет Session Features и применяет модель для расчета Predictive Value (оценки качества этого конкретного взаимодействия).
    4. Агрегация: Система идентифицирует признаки контента и запроса (Ad/Query Features) и агрегирует Predictive Value в Data Structure, индексированной по этим признакам.
    5. Прогнозирование: При последующих запросах система извлекает агрегированные значения (например, Odds) из Data Structure на основе признаков запроса/контента и использует их для прогнозирования качества контента до клика.

    Актуальность для SEO

    Высокая. Оценка качества контента через призму удовлетворенности пользователя и поведенческих сигналов является центральным элементом современных поисковых систем. Механизмы, описанные в патенте, напрямую связаны с концепциями Dwell Time, Pogosticking и общим качеством взаимодействия (User Engagement), которые критически важны для ранжирования как в рекламе, так и в органическом поиске.

    Важность для SEO

    Патент имеет критическое значение для SEO (Оценка 9/10). Хотя он сфокусирован на рекламе (Ads), описанные принципы оценки качества через пост-клик поведение универсальны и с высокой вероятностью применяются в органическом поиске. Патент детально описывает, какие именно поведенческие сигналы (Session Features) могут использоваться для оценки удовлетворенности пользователя. Это подтверждает, что оптимизация под намерение пользователя и обеспечение высокого качества взаимодействия на странице являются ключевыми факторами успеха.

    Детальный разбор

    Термины и определения

    Ad/Query Features (Признаки Рекламы/Запроса)
    Характеристики, связанные с самим контентом (рекламой) или запросом, который привел к его показу. Примеры: идентификатор рекламодателя (URL), целевое ключевое слово, слова в запросе, которые не были таргетированы. Используются для индексации и агрегации оценок качества.
    Ad Ratings Data (Данные об оценке качества)
    Предварительно собранные данные (вероятно, от асессоров), определяющие качество контента. Используются для обучения статистической модели.
    Boosted Stumps
    Один из вариантов реализации статистической модели. Техника машинного обучения для построения модели путем последовательного улучшения слабых моделей (stumps).
    Data Structure (Структура данных)
    Хранилище, которое агрегирует Predictive Values и рассчитанные Odds, организованные по Ad/Query Features.
    Logistic Regression (Логистическая регрессия)
    Статистический метод, используемый для построения модели, которая прогнозирует вероятность наступления события (например, что реклама хорошая) на основе независимых переменных (Session Features).
    Odds (Шансы)
    Метрика, используемая для представления вероятности. Рассчитывается как P/(1-P). Агрегированные Predictive Values часто преобразуются в шансы для удобства расчетов при прогнозировании качества.
    Predictive Value (Прогнозируемое значение)
    Выход статистической модели для конкретного события клика. Оценка вероятности того, что контент является качественным (или некачественным), учитывая наблюдаемые Session Features.
    Rated Ad / Unrated Ad (Размеченная / Неразмеченная реклама)
    Контент с известной оценкой качества (используется для обучения) и контент, качество которого нужно определить.
    Session Features (Признаки сессии / Поведенческие факторы)
    Наблюдаемое поведение пользователя до, во время и после клика. Ключевые входные данные для оценки качества. Примеры: длительность клика (Dwell Time), количество кликов по другим результатам, количество последующих запросов, повторные клики, последний клик в сессии.
    Statistical Model (Статистическая модель)
    Математическая модель, которая связывает Session Features с вероятностью того, что контент является качественным.

    Ключевые утверждения (Анализ Claims)

    Патент US10600090B2 является продолжением (continuation) более ранней заявки (2005 г.) и фокусируется на механизме агрегации и извлечения данных.

    Claim 1 (Независимый пункт): Описывает систему для извлечения прогнозируемых значений на основе признаков запроса.

    1. Система создает структуру данных (Data Structure) с рядами для content/query features и колонками для predicted values (включая общее количество кликов, суммарные оценки качества и шансы Odds).
    2. Система определяет признаки сессии (Session Features), связанные с выбором контента.
    3. Используя статистическую модель (обученную на ранее размеченных данных), система определяет набор прогнозируемых значений качества (predicted quality values) для этого выбора контента.
    4. Система получает набор признаков контента/запроса (content/query features), связанных с этим выбором (например, URL провайдера, ключевое слово).
    5. Система извлекает из Data Structure существующие прогнозируемые значения и шансы для этих признаков.
    6. Система создает агрегированные прогнозируемые значения (aggregate predicted values) путем комбинирования новых значений качества с извлеченными значениями.
    7. Система оценивает прогнозируемые шансы (predicted odds value).
    8. Система включает агрегированные значения и прогнозируемые шансы обратно в Data Structure.

    Ядро изобретения — это механизм, который не просто оценивает качество отдельного клика, но и агрегирует эти оценки в разрезе различных признаков (запроса и контента), позволяя системе накапливать знания о качестве, связанном с этими признаками (например, качеством конкретного домена или качеством ответов на определенный тип запросов).

    Claim 5 и 6 (Зависимые): Детализируют типы используемых поведенческих факторов.

    Явно перечислены ключевые Session Features: длительность клика, количество других выборов (рекламы или результатов поиска) до/после, количество просмотров документов до/после, количество поисковых запросов до/после, а также был ли выбор последним в сессии или для данного запроса.

    Где и как применяется

    Изобретение затрагивает несколько этапов работы поисковой системы, связывая обработку поведения пользователей с ранжированием.

    CRAWLING & INDEXING (Сканирование и Индексирование)
    На этом этапе извлекаются и сохраняются признаки контента (часть Ad/Query Features), которые позже будут использоваться для индексации в структуре данных (например, URL/домен).

    QUNDERSTANDING (Понимание Запросов)
    На этом этапе извлекаются признаки запроса (другая часть Ad/Query Features), такие как длина запроса, конкретные слова в запросе.

    RANKING (Ранжирование)
    Основное применение агрегированных данных. Когда система рассматривает контент для показа в ответ на запрос:

    1. Определяются Ad/Query Features для пары запрос-контент.
    2. Из Data Structure извлекаются накопленные шансы (Odds) для каждого признака.
    3. Шансы комбинируются (например, перемножаются) для расчета итогового прогноза качества (Quality Parameter).
    4. Этот прогноз используется как фактор ранжирования (или для фильтрации/продвижения).

    RERANKING / Сбор обратной связи (Data Acquisition)
    После того как пользователь взаимодействует с результатами, система собирает данные о поведении:

    1. Измеряются Session Features после клика.
    2. Statistical Model применяется для расчета Predictive Value.
    3. Эти данные используются для обновления агрегированных значений в Data Structure (офлайн или в близком к реальному времени режиме).

    Входные данные:

    • Для обучения: Rated Ads, Ad Ratings Data, Session Features.
    • Для агрегации: Клик по Unrated Ad, Session Features, Ad/Query Features.
    • Для ранжирования: Запрос, Кандидаты контента, Data Structure с агрегированными Odds.

    Выходные данные:

    • Statistical Model (после обучения).
    • Predictive Value (после клика).
    • Обновленная Data Structure (после агрегации).
    • Quality Parameter (во время ранжирования).

    На что влияет

    • Конкретные типы контента: В первую очередь влияет на контент, где удовлетворенность пользователя может сильно отличаться от CTR. Это касается информационных статей, обзоров товаров, целевых страниц услуг. Контент, использующий кликбейт (высокий CTR, но низкая удовлетворенность), будет пессимизирован.
    • Специфические запросы: Влияет на запросы, где намерение пользователя сложное и требует глубокого ответа. Если пользователь быстро возвращается к поиску (Pogosticking), это сигнал низкого качества.
    • Конкретные ниши или тематики: Особенно важно в YMYL-тематиках, где качество и достоверность контента критичны, и система стремится выявить максимально удовлетворительные ответы.

    Когда применяется

    • Триггеры активации: Модель применяется каждый раз, когда происходит клик по контенту, для которого система собирает обратную связь. Агрегированные данные используются при каждом запросе для ранжирования кандидатов.
    • Временные рамки: Сбор данных и применение модели происходит непрерывно. Обновление агрегированных данных и переобучение модели может происходить периодически (офлайн) или в режиме, близком к реальному времени.

    Пошаговый алгоритм

    Процесс А: Обучение Статистической Модели (FIG. 5)

    1. Сбор данных о качестве: Получение Ad Ratings Data для набора Rated Ads.
    2. Сбор поведенческих данных: Получение (из логов или в реальном времени) Session Features, связанных с кликами по этим Rated Ads.
    3. Деривация модели: Использование статистических методов (логистическая регрессия, Boosted Stumps) для нахождения корреляции между Session Features и Ad Ratings Data. Результат — модель, предсказывающая P(Good Ad | Session Features).

    Процесс Б: Агрегация и Обновление Структуры Данных (FIG. 14, 15)

    1. Получение клика: Пользователь выполняет запрос и кликает на контент (Unrated Ad).
    2. Измерение поведения: Система измеряет Session Features, связанные с этим кликом (например, длительность, последующие действия).
    3. Расчет оценки взаимодействия: Применение Статистической Модели (из Процесса А) к измеренным Session Features для расчета Predictive Value (оценки качества этого клика).
    4. Идентификация признаков: Определение Ad/Query Features, связанных с этим кликом.
    5. Агрегация: Обновление Data Structure (FIG. 16). Для каждого Ad/Query Feature увеличивается счетчик кликов и добавляется рассчитанный Predictive Value к суммарному значению.
    6. Расчет Шансов (Опционально, FIG. 17, 18): Периодический пересчет Odds для каждого признака на основе агрегированных данных с использованием методов сглаживания (например, доверительных интервалов).

    Процесс В: Использование данных для Прогнозирования (FIG. 19, 20)

    1. Получение запроса: Система получает новый запрос.
    2. Отбор кандидатов: Определяется набор релевантного контента.
    3. Идентификация признаков: Для каждой пары запрос-контент определяются все соответствующие Ad/Query Features.
    4. Извлечение данных: Из Data Structure извлекаются сохраненные Odds для каждого признака.
    5. Комбинирование оценок: Извлеченные Odds комбинируются (например, перемножаются) для расчета итоговых шансов (ODDS_t).
    6. Расчет Качества: Итоговые шансы конвертируются в итоговый параметр качества (Quality Parameter), который используется для ранжирования, фильтрации или продвижения контента.

    Какие данные и как использует

    Данные на входе

    Ключевыми данными в этом патенте являются поведенческие факторы, собираемые во время сессии пользователя.

    • Поведенческие факторы (Session Features): Патент приводит обширный список (FIGS. 6-13 и описание) того, что может быть измерено:
      • Длительность клика (Duration): Время от клика до следующего действия пользователя (аналог Dwell Time).
      • Последовательность кликов: Количество кликов по другим объявлениям или результатам поиска до и/или после данного клика (индикаторы Pogosticking).
      • Активность в сессии: Количество просмотров документов (page views) до/после клика.
      • Активность по запросам: Количество поисковых запросов до/после клика. Количество запросов в сессии, которые привели к показу рекламы (коммерческий характер сессии).
      • Повторные взаимодействия: Количество повторных кликов по одному и тому же контенту.
      • Завершение сессии: Был ли данный клик последним кликом для данного запроса или последним кликом во всей сессии (сигнал удовлетворенности).
    • Технические и Контентные факторы (Ad/Query Features): Используются для агрегации:
      • Идентификатор рекламодателя (Visible URL / Домен).
      • Ключевое слово, на которое нацелен контент.
      • Слова в запросе.
      • Соответствие запроса ключевому слову (точное, частичное).
    • Пользовательские факторы: Упоминаются как возможные контекстуальные признаки:
      • Скорость соединения пользователя.
      • Страна/регион пользователя.
    • Внешние данные:
      • Ad Ratings Data: Оценки качества от асессоров или других источников для обучения модели.

    Какие метрики используются и как они считаются

    • P(Good Ad | Ad Selection): Вероятность того, что контент качественный, при условии его выбора. Рассчитывается Статистической Моделью на основе Session Features.
    • Statistical Model (Логистическая регрессия, Eqn. 3): Используется для определения весов (коэффициентов) для различных Session Features. Модель стремится найти функцию, которая наилучшим образом предсказывает качество на основе поведения.
    • Statistical Model (Boosted Stumps, Eqn. 5): Альтернативный метод, использующий последовательность бинарных правил на основе Session Features.
    • Odds (Шансы): Агрегированные вероятности конвертируются в шансы для удобства комбинирования оценок от разных признаков (Eqn. 6: Шансы перемножаются).
    • Quality Parameter (Eqn. 7, 8): Итоговая оценка качества контента, рассчитанная путем конвертации итоговых шансов обратно в вероятность. P = ODDSt / (1 + ODDSt).
    • Confidence Intervals (Доверительные интервалы): Используются при расчете шансов для сглаживания данных и обеспечения стабильности оценок для признаков с малым количеством данных (FIG. 18).

    Выводы

    1. Приоритет удовлетворенности пользователя над CTR: Патент подтверждает, что целью поисковой системы является не максимизация кликов, а максимизация удовлетворенности пользователя после клика. Качество взаимодействия (User Engagement) является ключевым показателем качества контента.
    2. Детальный анализ пост-клик поведения: Система использует сложный набор поведенческих сигналов (Session Features). Это не просто измерение времени на сайте, а анализ контекста: был ли клик последним в сессии, что пользователь делал до и после, как быстро он вернулся к поиску.
    3. Моделирование качества на основе поведения: Качество динамически прогнозируется с помощью статистических моделей, обученных на реальных данных о поведении и оценках асессоров (Rated Ads).
    4. Агрегация сигналов по признакам: Система агрегирует оценки качества в разрезе различных признаков (Ad/Query Features). Это позволяет накапливать репутацию для определенных доменов (Visible URL), типов запросов или ключевых слов. Сайт с постоянно высоким уровнем удовлетворенности пользователей будет иметь преимущество.
    5. Универсальность механизма: Хотя патент описывает применение в контексте рекламы (Ads), описанный механизм оценки качества через пост-клик поведение является фундаментальным и с высокой вероятностью применяется в органическом поиске для оценки качества результатов.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под удовлетворенность интента (Search Intent Satisfaction): Контент должен полностью отвечать на запрос пользователя. Цель — сделать так, чтобы ваш результат стал последним кликом в сессии (Last Selection) по данному запросу. Это сигнализирует системе, что задача пользователя решена.
    • Улучшение качества взаимодействия (Dwell Time и Engagement): Работайте над увеличением времени вовлеченного пребывания пользователя на странице. Используйте четкую структуру, форматирование, внутреннюю перелинковку и мультимедиа для удержания внимания и предоставления ценности. Это напрямую влияет на Session Feature: Duration of Ad Selection.
    • Снижение показателей «Pogosticking»: Анализируйте страницы с высоким показателем возврата в выдачу. Если пользователи кликают на ваш результат и быстро возвращаются к поиску или кликают на другие результаты (Session Feature: Number of other selections before/after), это сильный негативный сигнал. Убедитесь, что сниппет точно отражает содержание страницы.
    • Построение авторитетности домена: Поскольку оценки качества агрегируются по признакам, включая URL/домен (Ad/Query Feature: Advertiser ID), важно поддерживать высокое качество взаимодействия на всем сайте. Положительные сигналы удовлетворенности по многим страницам улучшают общую репутацию домена.

    Worst practices (это делать не надо)

    • Использование кликбейта и обманчивых сниппетов: Стратегии, направленные на повышение CTR за счет нерелевантных заголовков, будут пессимизированы этим алгоритмом. Быстрый возврат пользователя в выдачу (короткая длительность клика) приведет к снижению Predictive Value.
    • Создание тонкого или неполного контента (Thin Content): Если контент не решает задачу пользователя, он будет вынужден продолжить поиск (выполнять новые запросы или кликать другие результаты). Это фиксируется как негативные Session Features.
    • Игнорирование пользовательского опыта (UX) и скорости загрузки: Плохой UX или медленная загрузка могут привести к быстрому отказу пользователя от взаимодействия со страницей, что негативно скажется на поведенческих метриках, используемых моделью.

    Стратегическое значение

    Этот патент имеет высокое стратегическое значение, так как детально описывает механизм перевода абстрактного понятия «удовлетворенность пользователя» в конкретные измеряемые сигналы (Session Features) и их использование для расчета оценки качества. Это подтверждает долгосрочный тренд Google на приоритизацию пользовательского опыта и поведенческих факторов при ранжировании. Для SEO-стратегии это означает, что фокус должен быть смещен с формальных признаков на реальное качество взаимодействия и решение задачи пользователя.

    Практические примеры

    Сценарий: Оценка качества статьи по информационному запросу

    Запрос: «Как настроить гитару»

    Результат А (Кликбейт-статья): Заголовок «Секретный способ настройки гитары за 30 секунд».

    • Взаимодействие: Пользователь кликает, видит поверхностный текст и много рекламы. Через 15 секунд возвращается в выдачу и кликает Результат Б.
    • Session Features: Короткая длительность клика, не последний клик в сессии, последующий клик по другому результату (Pogosticking).
    • Результат модели: Низкий Predictive Value (например, 0.2).

    Результат Б (Качественное руководство): Заголовок «Пошаговая настройка гитары для начинающих».

    • Взаимодействие: Пользователь кликает, изучает текст и смотрит встроенное видео. Проводит на странице 5 минут. Сессия завершается (пользователь не возвращается в выдачу).
    • Session Features: Длительная продолжительность клика, последний клик для запроса, нет последующих кликов по другим результатам.
    • Результат модели: Высокий Predictive Value (например, 0.9).

    Итог: При агрегации данных Predictive Value 0.9 для Результата Б повысит его агрегированную оценку качества, а 0.2 для Результата А — понизит. При последующих запросах Результат Б будет ранжироваться выше.

    Вопросы и ответы

    Насколько важен Dwell Time согласно этому патенту?

    Dwell Time (в патенте Duration of the ad selection) является одним из ключевых Session Features, используемых для обучения статистической модели. Длительное время взаимодействия обычно коррелирует с высоким качеством контента и удовлетворенностью пользователя. Однако патент подчеркивает, что это лишь один из множества сигналов, и он рассматривается в контексте других факторов, таких как тип запроса и скорость соединения пользователя.

    Как система борется с Pogosticking?

    Pogosticking (быстрый возврат пользователя в выдачу и выбор другого результата) напрямую фиксируется через несколько Session Features. К ним относятся короткая длительность клика и измерение количества кликов по другим результатам после данного клика. Если модель обнаруживает, что такое поведение коррелирует с низким качеством (Bad Ad), она будет генерировать низкий Predictive Value для контента, вызывающего Pogosticking.

    Патент описывает рекламу (Ads). Применимо ли это к органическому поиску (SEO)?

    Да, с высокой степенью вероятности. Механизмы оценки качества и удовлетворенности пользователя универсальны. Google часто использует схожие технологии в рекламной и органической выдаче. Описанный принцип — использование пост-клик поведения для оценки качества целевой страницы — является фундаментальным для современных поисковых систем, включая органический поиск.

    Что означает «Последний клик в сессии» и почему он важен?

    Патент выделяет Session Feature, определяющий, был ли клик последним для данного запроса или во всей сессии. Это сильный индикатор удовлетворенности пользователя. Если пользователь завершил поиск после посещения вашего сайта, это сигнализирует системе, что контент полностью решил задачу пользователя, и модель присвоит такому взаимодействию высокий Predictive Value.

    Как система агрегирует данные о качестве?

    Система использует структуру данных (Data Structure), индексированную по признакам контента и запроса (Ad/Query Features), таким как домен (Visible URL), ключевые слова, тип запроса. Для каждого клика рассчитывается Predictive Value, который затем суммируется с уже накопленными значениями для соответствующих признаков. Это позволяет системе формировать репутацию для доменов или шаблонов запросов.

    Как система отличает «хорошее» поведение от «плохого»?

    Система не имеет предопределенных правил. Она обучается на основе данных от асессоров (Ad Ratings Data). Статистическая модель (например, логистическая регрессия) анализирует, какие Session Features коррелируют с высокими оценками асессоров, а какие — с низкими. На основе этих корреляций модель учится предсказывать качество для новых взаимодействий.

    Влияет ли скорость загрузки сайта на эти метрики?

    Патент напрямую не указывает скорость загрузки как Session Feature, но упоминает скорость соединения пользователя как контекстуальный фактор. Однако медленная загрузка может привести к быстрому отказу пользователя, что будет зафиксировано как короткая длительность клика и, вероятно, возврат в выдачу. Это негативно повлияет на Predictive Value.

    Что такое Ad/Query Features и как они влияют на SEO?

    Это признаки, используемые для агрегации данных. В контексте SEO это могут быть домен сайта, структура URL, тематика кластера или характеристики запроса. Если система видит, что определенный домен или раздел сайта постоянно генерирует положительные поведенческие сигналы, агрегированная оценка качества для этого признака растет, что помогает при ранжировании.

    Как система обрабатывает новые сайты, по которым мало данных?

    Патент описывает использование доверительных интервалов (Confidence Intervals) при расчете шансов (Odds). Для признаков с малым количеством данных доверительный интервал будет широким. Это означает, что система менее уверена в оценке и, вероятно, будет полагаться на другие факторы ранжирования, пока не накопится достаточно статистически значимых данных о поведении пользователей.

    Может ли этот механизм объяснить, почему иногда менее релевантный текст ранжируется выше?

    Да. Если контент имеет очень сильные агрегированные сигналы удовлетворенности пользователя (высокий Quality Parameter), это может перевесить сигналы прямой текстовой релевантности. Система предпочитает показать результат, который с большей вероятностью удовлетворит пользователя, даже если он содержит меньше точных вхождений ключевых слов.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.