Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует граф поведения пользователей (Transition Matrix) для обнаружения спама и прогнозирования трендов (QDF)

    SEARCH ENTITY TRANSITION MATRIX AND APPLICATIONS OF THE TRANSITION MATRIX (Матрица переходов между поисковыми сущностями и ее применение)
    • US10270791B1
    • Google LLC
    • 2019-04-23
    • 2009-12-07
    2009 Антиспам Патенты Google Поведенческие сигналы Свежесть контента

    Google использует модель Марковских цепей (Transition Matrix) для количественной оценки силы взаимосвязей между поисковыми сущностями (запросы, документы, сессии, время) на основе истории поиска. Эта инфраструктура применяется для выявления и нейтрализации поведенческого спама (на чем сфокусированы Claims этого патента), а также для прогнозирования трендов (Temporal Boosting/QDF) и классификации доменов.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу моделирования и количественной оценки сложных, часто косвенных, взаимосвязей между различными элементами поисковой экосистемы (Search Entities). Он предлагает унифицированную модель для интеграции разрозненных данных (поведенческих, временных, ссылочных) в единую структуру. Это позволяет улучшить ранжирование, прогнозировать тренды (свежесть контента) и, что является фокусом Claims этого конкретного патента, выявлять и нейтрализовать манипулятивное поведение (спам).

    Что запатентовано

    Запатентована система, использующая Transition Matrix (Матрицу Переходов) для моделирования поисковой экосистемы как цепи Маркова. Эта матрица хранит Transition Probabilities (Вероятности Перехода) между сущностями (запросы, документы, сессии, время), рассчитанные на основе истории поиска. Конкретные Claims этого патента (US10270791B1) защищают методы использования этой матрицы для обнаружения спам-запросов на основе их связи с известными спам-сессиями и последующего дисконтирования их влияния.

    Как это работает

    Система функционирует в несколько этапов:

    1. Сбор данных: Агрегируются данные истории поиска (логи запросов, клики, сессии).
    2. Расчет прямых вероятностей: Вычисляются вероятности перехода первого порядка. Например, вероятность перехода от запроса к документу основана на Quality of Result statistic (метрика кликов и времени пребывания).
    3. Построение матрицы: Эти вероятности формируют Transition Matrix.
    4. Расчет косвенных вероятностей: Путем перемножения матриц выявляются непрямые связи.
    5. Применение (Фокус Claims): Для борьбы со спамом система распространяет Spam Score от известных спамных сессий к связанным запросам и дисконтирует их влияние на ранжирование.

    Актуальность для SEO

    Высокая. Моделирование поведения пользователей, борьба с манипуляциями поведенческими факторами (ПФ) и обеспечение свежести выдачи (QDF) являются фундаментальными задачами современных поисковых систем. Описанная инфраструктура графового анализа поведения остается крайне актуальной.

    Важность для SEO

    Патент имеет высокое значение для SEO (85/100). Он раскрывает математическую основу того, как Google моделирует взаимосвязи на основе поведения пользователей. Это напрямую влияет на то, как система идентифицирует и нейтрализует поведенческий спам (согласно Claims), а также как она определяет необходимость в свежем контенте (согласно Description). Это подчеркивает критическую важность подлинного удовлетворения пользователя (User Satisfaction) и риски манипуляций.

    Детальный разбор

    Термины и определения

    Search Entity (Поисковая сущность)
    Элемент поискового опыта пользователя, являющийся узлом в графе. Примеры: Запрос (Query), Документ (Document), Домен (Domain), Сессия (Session), Время (Time), Реклама (Advertisement), Анкор (Anchor).
    Transition Probability (Вероятность перехода, Ptran)
    Оценка силы взаимосвязи между парой сущностей, основанная на истории поиска. Определяет вес ребра в графе.
    Transition Matrix (Матрица переходов)
    Структура данных, хранящая вероятности переходов первого порядка между всеми поисковыми сущностями в модели Марковской цепи.
    Quality of Result (QoR) statistic (Статистика качества результата)
    Метрика, оценивающая, насколько релевантным пользователи посчитали данный документ в ответ на данный запрос. Основана на данных о кликах (click data) и времени пребывания (dwell time), включая долгие и короткие клики.
    Session (Сессия)
    Период, в течение которого пользователь отправляет серию запросов.
    Spam Session / Spam Query (Спам-сессия / Спам-запрос)
    Сессия или запрос, которые не отражают подлинных предпочтений пользователя (например, результат накрутки ПФ или автоматизированного поведения).
    Spam Score (Оценка спама)
    Показатель, рассчитываемый для сессии или запроса на основе вероятности его перехода от известной спам-сущности.
    Temporal Boosting (Временное повышение / QDF)
    (Из Описания) Механизм повышения в ранжировании более новых документов для запросов, идентифицированных как трендовые или темпорально связанные с трендом, путем дисконтирования исторических сигналов.

    Ключевые утверждения (Анализ Claims)

    Важное примечание: Патент US10270791B1 является продолжением (continuation) более ранних заявок. Его Формула изобретения (Claims 1-15) узко сфокусирована на обнаружении спама. Другие применения (QDF, классификация доменов, виртуальные сигналы) описаны в Detailed Description, но не защищены Claims этого конкретного патента.

    Claim 1, 6, 11 (Независимые пункты): Описывают метод, систему и ПО для идентификации спам-запросов на основе спам-сессий.

    1. Система получает данные, идентифицирующие первую сессию как спам (spam).
    2. Вычисляется Spam Score для первого запроса, используя Transition Probability от первой сессии к первому запросу.
    3. Эта вероятность перехода оценивает силу связи, основываясь на количестве запросов, отправленных в первой сессии.
    4. Система определяет, что первый запрос является спамом, на основании этой оценки (Spam Score).

    Ядром изобретения является механизм переноса метки «спам» от сессии к запросу. Если автоматизированная (спамная) сессия выполняет определенные запросы, эти запросы также помечаются как спам. Сила связи зависит от того, насколько «сфокусирована» была сессия на этом запросе.

    Claim 3 (Зависимый): Описывает дальнейшее распространение спама (Запрос -> Сессия).

    1. Идентифицированный спам-запрос (из Claim 1) используется для вычисления Spam Score для второй сессии, используя вероятность перехода от спам-запроса ко второй сессии.
    2. Вторая сессия идентифицируется как спам.

    Claim 4 и 5 (Зависимые): Описывают нейтрализацию влияния спам-запроса на ранжирование.

    1. Получается исходная статистика Quality of Result (QoR) для документа по этому спам-запросу.
    2. Генерируется модифицированная статистика QoR путем масштабирования (scaling) исходной статистики.
    3. Коэффициент масштабирования рассчитывается путем вычитания Spam Score из константы (например, 1 — Spam Score).

    Это механизм для аннулирования эффекта от накрутки ПФ. Чем выше спамность запроса, тем сильнее дисконтируются (уменьшается вес) связанные с ним поведенческие сигналы.

    Где и как применяется

    Изобретение охватывает несколько этапов поиска, от обработки данных до финального ранжирования.

    INDEXING (Индексирование и Офлайн-обработка логов)
    Основной этап для построения модели. Обрабатываются данные истории поиска (логи) и данные веб-графа для расчета Quality of Result statistics и построения Transition Matrix. Также здесь происходит обнаружение спама (описанное в Claims) для предварительной корректировки поведенческих сигналов.

    RANKING и RERANKING
    Этап применения матрицы для модификации результатов.

    • Spam Fighting (по Claims): Система использует модифицированные (очищенные от спама) QoR статистики при расчете релевантности. Сигналы, связанные со спамом, имеют меньший вес или игнорируются.
    • QDF / Temporal Boosting (по Description): Система в реальном времени отслеживает популярность запросов. При обнаружении всплеска она использует матрицу (P(Query->Time->Query)) для поиска темпорально связанных запросов. Для них активируется механизм переранжирования (возможно, Твидлер), который дисконтирует исторические сигналы (например, Anchor Scores) и повышает свежий контент.
    • Улучшение ранжирования (по Description): Матрица может использоваться для переноса сигналов ранжирования (анкоры, текст) от одного документа к другому, связанному с ним через поведение пользователей (Virtual Signals или Implicit Anchors).

    На что влияет

    • Ниши, подверженные спаму: Влияет на ниши, где распространены попытки манипуляции поведенческими факторами (накрутки кликов).
    • Специфические запросы и тематики (QDF): (Из Description) Влияет на запросы, подверженные периодическим всплескакам популярности (события, новости, тренды). Это критично для новостных сайтов и событийных тематик.
    • Long-tail запросы: (Из Description) Механизм переноса сигналов позволяет лучше ранжировать документы, по которым недостаточно прямых данных (ссылок или истории кликов).

    Когда применяется

    • Расчет матрицы: Происходит офлайн, периодически обновляется.
    • Триггер Spam Detection (Claims): Активируется при анализе сессий и запросов, которые имеют высокую transition probability от сущностей, уже идентифицированных как спам.
    • Триггер QDF (Description): Активируется, когда система обнаруживает значительное увеличение популярности (increase in popularity) для какого-либо запроса.

    Пошаговый алгоритм

    Процесс А: Построение матрицы переходов (Офлайн)

    1. Сбор данных: Сбор истории поиска и данных веб-графа.
    2. Расчет базовых метрик: Вычисление Quality of Result (QoR) statistics для пар запрос-документ на основе кликов и времени пребывания. Определение пиков популярности запросов во времени.
    3. Расчет вероятностей первого порядка: Применение специфических передаточных функций (transfer functions) для каждой пары типов сущностей. Например, для Query-to-Doc используется нормализованный QoR. Для Query-to-Time используется частота пиков популярности.
    4. Генерация матрицы: Формирование Transition Matrix.
    5. Расчет вероятностей высших порядков: Итеративное перемножение матрицы для выявления косвенных связей. На этом этапе может применяться нормализация, сглаживание (smoothing) и отсечение слабых связей (clipping).

    Процесс Б: Применение для борьбы со спамом (по Claims)

    1. Идентификация источника спама: Получение идентификатора известной спамной сессии (Сессия S1).
    2. Расчет оценок спама для запросов: Расчет Spam Score для Запроса Q1 на основе вероятности перехода S1 -> Q1. Эта вероятность зависит от количества запросов в Сессии S1.
    3. Идентификация спама: Если Spam Score превышает порог, Запрос Q1 помечается как спам.
    4. Распространение сигнала (Опционально): Использование Q1 для идентификации других спамных сессий (Q1 -> S2).
    5. Нейтрализация влияния: Дисконтирование QoR для спамного запроса Q1 путем масштабирования на фактор (например, 1 минус Spam Score).
    6. Обновление данных: Сохранение очищенных QoR statistics для использования в ранжировании.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Ключевые): Основа матрицы. Используются Запросы (Queries), Клики (Clicks), Время пребывания (Dwell time, long/short clicks), Данные сессий (Sessions). Используются для расчета QoR и большинства переходов.
    • Временные факторы: Временные метки отправки запросов. Используются для определения пиков популярности и построения связей Query-Time (для QDF).
    • Ссылочные факторы (Из Description): Анкоры (Anchors). Используются для расчета переходов Doc-to-Doc и в механизме виртуальных сигналов.
    • Структурные факторы (Из Description): Связь URL и доменов. Используется для переходов Doc-to-Domain и классификации доменов.

    Какие метрики используются и как они считаются

    • Quality of Result (QoR) statistic: Агрегированная метрика кликов для пары (Запрос, Документ). Может быть взвешенной суммой кликов (с учетом времени пребывания), деленной на общее число кликов.
    • Transition Probability (Ptran): Рассчитывается с помощью передаточных функций (transfer functions). Часто это нормализованное значение базовой метрики. Например, Ptran(Q1, D1) = QoR(Q1, D1) / Сумма(QoR(Q1, Dx)).
    • Spam Score: Метрика, рассчитываемая для сессии или запроса на основе вероятности перехода от уже известной спамной сессии.
    • Increase in Popularity (Peak): (Из Description) Метрика, определяющая значительное изменение объема запроса за период времени.

    Выводы

    1. Поведение пользователей как основа графа связей: Google активно использует модель Марковской цепи (Transition Matrix) для построения графа взаимосвязей между всеми элементами поиска. Поведение пользователей (клики, сессии) является основным источником данных для определения силы этих связей (Transition Probabilities).
    2. Целенаправленная борьба с поведенческим спамом (Claims): Патент детально описывает механизм выявления спам-запросов, связанных со спам-сессиями, и последующего дисконтирования (уменьшения веса) поведенческих сигналов (QoR), связанных с этим спамом.
    3. Распространение свойств через граф: Система позволяет свойствам (меткам) распространяться по графу. Метка «спам» передается от сессии к запросу и обратно (Session -> Query -> Session), что позволяет эффективно выявлять сети манипуляций.
    4. Предсказание свежести (QDF/Temporal Boosting) (Description): Патент описывает механизм предсказания необходимости свежего контента. Если два запроса исторически связаны по времени пиков популярности, всплеск одного запроса может активировать режим свежести для другого.
    5. Дисконтирование исторических сигналов при QDF (Description): При активации Temporal Boosting система может снижать вес исторических сигналов, таких как Anchor Scores (ссылки) и прошлые клики, в пользу свежего контента.
    6. Важность косвенных связей: Расчет вероятностей высшего порядка позволяет выявлять непрямые связи и использовать их для улучшения ранжирования (например, перенос сигналов между документами, связанными поведенчески, но не ссылками).

    Практика

    Best practices (это мы делаем)

    • Фокус на удовлетворенности пользователя (User Satisfaction): Обеспечивайте высокое качество контента, которое приводит к положительным поведенческим сигналам (высокий QoR, долгие клики). Это формирует сильные вероятности перехода от запросов к вашим документам и укрепляет позиции в Transition Matrix.
    • Обеспечение легитимности трафика: Мониторьте источники трафика и избегайте паттернов, которые могут быть классифицированы как Spam Sessions. Связь вашего сайта с такими сессиями приведет к дисконтированию ваших QoR статистик, как описано в Claims.
    • Быстрая реакция на тренды (QDF): (На основе Description) Отслеживайте тренды в вашей нише. При появлении всплеска популярности по связанной теме оперативно публикуйте свежий контент. Механизм Temporal Boosting даст вашему новому контенту преимущество перед старыми страницами за счет дисконтирования исторических сигналов (ссылок).
    • Построение тематического авторитета: (На основе Description) Создавайте кластеры контента, которые удовлетворяют смежные запросы. Это укрепляет связи между вашими документами и релевантными запросами в графе (Domain->Doc->Query), улучшая классификацию домена.

    Worst practices (это делать не надо)

    • Манипуляция поведенческими факторами (Накрутки ПФ, Click Fraud): Генерация искусственных кликов или фейковых сессий. Патент (Claims 1-15) напрямую описывает механизм выявления таких активностей и нейтрализации их влияния путем дисконтирования QoR. Это крайне рискованная тактика.
    • Игнорирование свежести контента для трендовых тем: (На основе Description) Полагаться исключительно на «вечнозеленый» контент и обратные ссылки для запросов, подверженных QDF. В момент активации Temporal Boosting исторические сигналы будут дисконтированы, и старый контент уступит позиции свежим материалам.

    Стратегическое значение

    Этот патент подтверждает фундаментальную роль анализа поведения пользователей в Google. Он демонстрирует, что связи в поиске определяются не только ссылками или текстом, но и тем, как пользователи взаимодействуют с контентом. Стратегически это подчеркивает важность комплексного подхода к SEO, где удовлетворенность пользователя имеет прямое влияние на ранжирование. Манипулирование ПФ не просто неэффективно, но и активно подавляется системой, а адаптация под QDF критична для событийного трафика.

    Практические примеры

    Сценарий 1: Нейтрализация поведенческого спама (на основе Claims)

    1. Ситуация: Сайт использует ботов для накрутки кликов по запросу «кредит онлайн быстро».
    2. Действия системы: Google идентифицирует сессии ботов как Spam Sessions (на основе аномальных паттернов).
    3. Распространение сигнала (Claim 1): Система вычисляет высокий Spam Score для запроса «кредит онлайн быстро» из-за сильной связи (Transition Probability) с этими спам-сессиями. Запрос помечается как спамный.
    4. Нейтрализация (Claim 4, 5): Система дисконтирует Quality of Result statistics (накрученные клики) для этого запроса. Если Spam Score высок (например, 0.9), то ценность кликов снижается на 90% (масштабирование на фактор 1 — 0.9 = 0.1).
    5. Результат: Влияние атаки на ранжирование нейтрализуется.

    Сценарий 2: Прогнозирование трендов / QDF (на основе Description)

    1. Ситуация: История показывает, что запросы «Оскар номинанты» и «лучшие фильмы года» всегда растут в одно и то же время (январь-февраль).
    2. Действия системы: Google обнаруживает резкий рост запроса «Оскар номинанты».
    3. Активация QDF: Используя Transition Matrix (Query->Time->Query), система идентифицирует «лучшие фильмы года» как темпорально связанный запрос и активирует для него Temporal Boosting.
    4. Результат: Система начинает дисконтировать исторические сигналы (старые ссылки и клики) для запроса «лучшие фильмы года» и отдает предпочтение самым свежим публикациям, даже если у них еще нет ссылок.

    Вопросы и ответы

    Что такое «Матрица переходов» (Transition Matrix) простыми словами?

    Это способ представить весь поиск как огромный граф, где узлы — это запросы, документы, сессии и время. Связи между узлами — это вероятность того, что пользователь перейдет от одного узла к другому, рассчитанная на основе реальной истории поиска. Это позволяет Google понять, как все элементы поиска связаны между собой через поведение пользователей.

    На чем конкретно сфокусирована формула изобретения (Claims) этого патента (US10270791B1)?

    Формула изобретения этого конкретного патента сфокусирована исключительно на обнаружении спама. Она защищает метод идентификации спам-запросов путем анализа их связей с известными спам-сессиями (используя Transition Matrix) и последующего дисконтирования (нейтрализации) поведенческих сигналов, связанных с этим спамом.

    Что такое «Quality of Result (QoR) statistic» и как на него влиять?

    QoR — это метрика, оценивающая, насколько пользователи сочли документ релевантным запросу, основанная на данных о кликах и времени просмотра (dwell time). Чтобы положительно повлиять на нее, необходимо создавать контент, который полностью удовлетворяет интент пользователя, удерживая его на странице (долгие клики) и минимизируя быстрые возвраты на выдачу (короткие клики).

    Как этот патент помогает Google бороться с накруткой поведенческих факторов (ПФ)?

    Он предоставляет механизм распространения метки спама. Если сессии (например, от ботов) идентифицируются как спам, система вычисляет Spam Score для связанных запросов. Затем (согласно Claim 4 и 5) Google дисконтирует статистики QoR, полученные от этих спам-активностей. Это напрямую аннулирует эффект накрутки.

    Что такое Temporal Boosting (QDF), описанный в патенте?

    (На основе Description) Это механизм прогнозирования трендов. Система определяет запросы, которые исторически имели пики популярности в одно и то же время. Если один из таких запросов начинает расти, система предполагает, что и второй скоро станет актуальным, и активирует для него режим свежести, предпочитая новый контент.

    Что происходит с ранжированием, когда активируется Temporal Boosting?

    (На основе Description) Система дисконтирует (снижает вес) исторических сигналов ранжирования, таких как Anchor Scores (ссылки) и Historical QoR (прошлые клики). Это означает, что для трендовых запросов свежесть контента может стать временно важнее старых обратных ссылок, и новые страницы получают преимущество.

    Как SEO-специалисту использовать знания о QDF на практике?

    Необходимо отслеживать тренды и связанные запросы в вашей тематике. Если вы видите начало тренда по смежному запросу, нужно максимально быстро публиковать качественный свежий контент по вашему основному запросу. В этот момент у вас есть возможность занять ТОП, опередив старые авторитетные страницы, так как вес их исторических сигналов будет временно снижен.

    Что такое вероятности перехода первого и высшего порядков?

    Вероятности первого порядка основаны на прямых наблюдаемых связях в логах (пользователь кликнул на Документ Б после Запроса А). Вероятности высшего порядка выявляют косвенные связи и рассчитываются путем умножения матриц (например, связь Запрос А -> Запрос В, если пользователи часто ищут их в рамках одной сессии или переходят к ним от одного документа).

    Как Google классифицирует домены с помощью этой матрицы (упомянуто в описании)?

    (На основе Description) Google вычисляет силу связи между доменом и различными запросами по пути: Домен -> Документы на домене -> Запросы, которые эти документы удовлетворяют. Тематика домена определяется совокупностью запросов, которые он успешно обслуживает. Это подчеркивает важность фокусировки на тематическом авторитете.

    Какой главный вывод для SEO-стратегии из этого патента?

    Главный вывод — критическая важность подлинности поведения пользователей и удовлетворения их интента. Манипулирование ПФ крайне рискованно, так как Google обладает сложной инфраструктурой (Transition Matrix) для выявления аномальных паттернов на уровне сессий и их нейтрализации. Также необходимо адаптировать стратегию под трендовые запросы, где свежесть приоритетнее авторитета.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.