Google анализирует тренды в поведении пользователей (клики, время пребывания) с течением времени. Если система обнаруживает значительное изменение во взаимодействии с результатом поиска, она предполагает, что контент документа или интент запроса изменился. В этом случае исторические поведенческие данные дисконтируются при ранжировании, чтобы оценка релевантности основывалась на актуальных сигналах.
Описание
Какую задачу решает
Патент решает проблему устаревания исторических данных о поведении пользователей (search history data), используемых для ранжирования. Поведенческие сигналы (например, клики, dwell time) являются важным фактором оценки релевантности, но они могут потерять свою актуальность, если:
- Контент документа значительно изменился. Исторические клики отражают релевантность старой версии контента, а не текущей.
- Интент пользователя за запросом изменился (например, из-за новостных событий, трендов или сезонности).
Изобретение направлено на то, чтобы система ранжирования использовала сигналы, которые более точно отражают текущее состояние контента и текущий интент пользователя.
Что запатентовано
Запатентована система и метод модификации исторических данных скоринга (в частности, Quality of Result Statistic) на основе анализа временных трендов. Система сравнивает статистику качества результатов за разные периоды времени. Если обнаруживается статистически значимое изменение (тренд или резкий сдвиг), система генерирует модифицированную статистику (Modified Quality of Result Statistic), которая затем используется в процессе ранжирования.
Как это работает
Система анализирует исторические данные, агрегированные в моделях (Model Database) за разные периоды времени (например, вчера, прошлая неделя). Описаны два основных механизма:
Механизм 1: Уровень Документа (Обнаружение изменения контента/релевантности)
- Система вычисляет Time Trend Statistics для конкретного документа по запросу, сравнивая его показатели качества в разные периоды.
- Если тренд показывает значительное изменение (например, скорость изменения высока), вычисляется фактор модификации. Система может опционально проверить, действительно ли изменился контент.
- Исходная статистика качества корректируется (например, дисконтируется).
Механизм 2: Уровень Запроса (Обнаружение сдвига интента)
- Система вычисляет Difference Score, сравнивая распределение статистики качества по группе документов для одного запроса в разные периоды.
- Если распределение сильно изменилось, это указывает на сдвиг интента, и система модифицирует статистику качества для документов, отвечающих этому запросу.
Актуальность для SEO
Высокая. Поведенческие факторы, машинное обучение и адаптация к сдвигам интента (например, QDF — Query Deserves Freshness) играют ключевую роль в современном поиске. Способность Google быстро реагировать на изменения контента и игнорировать устаревшие сигналы критически важна для поддержания качества выдачи. Этот патент описывает конкретные механизмы для этого.
Важность для SEO
Патент имеет высокое значение для SEO (8/10). Он описывает механизм, который может обесценить исторический успех страницы. Если контент на странице значительно обновляется или если интент в нише меняется, сайт может быстро потерять позиции, если новая версия контента не удовлетворяет пользователей или если сайт не адаптируется к новому интенту. Полагаться исключительно на накопленные исторические сигналы рискованно.
Детальный разбор
Термины и определения
- Quality of Result Statistic (QoR) (Статистика качества результата)
- Агрегированная метрика, основанная на поведении пользователей, оценивающая релевантность документа запросу за определенный период. Может рассчитываться как доля кликов (click fraction), среднее взвешенных долгих кликов и т.д.
- Time Trend Statistics (TTS) (Статистика временных трендов)
- Метрики, оценивающие изменения в QoR с течением времени для конкретной пары [документ+запрос]. Включают разницу между периодами (quality of result difference) и скорость изменения (rate of change).
- Model Database (База данных моделей)
- Хранилище агрегированных поведенческих данных, сегментированное по времени (например, модель за вчерашний день, за прошлую неделю). Содержит записи вида [документ, запрос, QoR].
- Modified Quality of Result Statistic (Модифицированная статистика качества результата)
- Итоговый сигнал, получаемый после корректировки исходной QoR на основе анализа временных трендов. Используется в ранжировании.
- Difference Score (Оценка различия)
- Метрика, рассчитываемая для группы документов по запросу. Показывает, насколько сильно различается распределение QoR между двумя разными временными периодами. Используется для выявления сдвига интента запроса.
- Dwell Time (Время пребывания)
- Время между кликом по результату и возвратом пользователя на выдачу. Используется для оценки качества клика (long click vs short click).
- Shingles (Шинглы)
- Подпоследовательности токенов в документе. Используются для сравнения разных версий документа и вычисления Similarity Score.
- Similarity Score (Оценка схожести)
- Метрика, оценивающая степень схожести контента между двумя версиями документа, часто на основе пересечения наборов шинглов.
- Rank Modifier Engine (Механизм модификации ранга)
- Компонент системы, который генерирует Modified Quality of Result Statistic.
Ключевые утверждения (Анализ Claims)
Патент описывает два основных механизма в спецификации (Description). Первый механизм (Анализ трендов документа) защищен в Claims 1-24. Второй механизм (Анализ сдвига интента) подробно описан в спецификации и на схемах (FIG. 9, 10).
Механизм 1: Анализ на уровне Документа (Claims 1-24)
Claim 1 (Независимый пункт): Описывает метод анализа исторических изменений для конкретного документа и запроса.
- Вычисление множества Quality of Result Statistics (QoR) для первого документа по первому запросу. Каждая статистика соответствует разному временному периоду.
- Вычисление Time Trend Statistics (TTS), которые оценивают изменения этих статистик во времени. Конкретно указано, что каждая TTS включает quality of result difference (разницу в качестве результата) между двумя соответствующими QoR.
- Генерация Modified Quality of Result Statistic путем модификации исходной статистики с помощью фактора (factor).
- Фактор основан, как минимум, на скорости изменения (rate of change) статистик временных трендов.
- Предоставление модифицированной статистики как входного сигнала для процесса ранжирования.
Claim 2, 3 (Зависимые): Уточняют условия применения.
- Перед модификацией система проверяет, что разница в качестве результата удовлетворяет порогу статистической значимости (statistically significant threshold) (Claim 2).
- Фактор модификации может дополнительно основываться на том, насколько статистически значима эта разница (Claim 3).
Claim 5, 6 (Зависимые): Описывают механизм верификации изменения контента.
- Перед модификацией статистики система может определить, что версия документа в первом периоде отличается от версии во втором периоде (Claim 5).
- Это определение может включать вычисление Similarity Score на основе сравнения shingles, извлеченных из двух версий, и сравнение этой оценки с порогом (Claim 6).
Claim 4, 7 (Зависимые): Описывают распространение эффекта (Spillover).
- Модификация может быть применена к тому же документу, но для другого запроса (Claim 4), или к другим связанным документам и запросам (Claim 7), используя те же Time Trend Statistics.
Механизм 2: Анализ на уровне Запроса (Основано на Abstract и Description, FIG. 9, 10)
Описывает метод анализа исторических изменений для группы документов по одному запросу (выявление сдвига интента).
- Вычисление Difference Score между первыми QoR (Период А) и вторыми QoR (Период Б) для группы документов по запросу.
- Идентификация документов, отвечающих запросу.
- Модификация QoR для этих документов на основе Difference Score.
- Предоставление модифицированной статистики для ранжирования.
Где и как применяется
Изобретение затрагивает этапы, связанные с обработкой поведенческих данных и их использованием в ранжировании.
CRAWLING & INDEXING – Сканирование и Индексирование
На этом этапе система должна сохранять исторические версии документов (или их представления, например, shingles). Это необходимо для последующего сравнения контента (Claim 6).
INDEXING (Офлайн-обработка данных / Feature Extraction)
Происходит обработка сырых логов и агрегация данных в Model Database. Рассчитываются Quality of Result Statistics за разные временные периоды (дни, недели, кварталы). В описании упоминается возможность сегментации моделей на «безопасные» (длительные периоды) и «небезопасные» (короткие периоды) для защиты от спама.
RANKING – Ранжирование / RERANKING – Переранжирование
Основное применение патента. Rank Modifier Engine работает на этом этапе.
- Анализ трендов: Система анализирует исторические данные из Model Database.
- Расчет модификаторов: Вычисляются Time Trend Statistics (для документа) или Difference Score (для запроса).
- Корректировка сигналов: Генерируется Modified Quality of Result Statistic.
- Ранжирование: Основной алгоритм ранжирования (Document Ranking Process) использует эту модифицированную статистику как один из сигналов.
Входные данные:
- Идентификация документа(ов) и запроса.
- Model Database (QoR за разные периоды времени).
- (Опционально) Исторические версии документов или их shingles.
Выходные данные:
- Modified Quality of Result Statistic.
На что влияет
- Специфические запросы (Трендовые, Новостные, QDF): Наибольшее влияние на запросы, интент которых может меняться со временем (например, название ежегодного события, имя знаменитости в новостях, трендовые темы).
- Конкретные типы контента (Часто обновляемые страницы): Влияет на страницы, контент которых часто и значительно меняется (например, главные страницы новостных сайтов, страницы категорий товаров, обновляемые обзоры).
- Конкретные ниши: Технологии, E-commerce, новости, где информация быстро устаревает.
Когда применяется
Алгоритм применяется при расчете ранжирования, когда система использует поведенческие факторы. Активация модификации происходит при выполнении условий:
- Триггеры активации (Механизм 1): Когда Time Trend Statistics (например, скорость изменения) указывают на статистически значимое изменение в поведении пользователей для пары [документ+запрос].
- Триггеры активации (Механизм 2): Когда Difference Score для запроса превышает порог, указывая на значительное изменение в распределении кликов по результатам (сдвиг интента).
- Дополнительная проверка (Опционально): Система может проверить, действительно ли изменился контент документа (сравнение shingles), прежде чем применять модификацию.
Пошаговый алгоритм
Алгоритм А: Модификация на уровне Документа (Обнаружение изменения контента/релевантности)
- Сбор данных: Получение набора Quality of Result Statistics (QoR) для Документа D и Запроса Q за разные временные периоды (T1, T2, …).
- Анализ трендов: Вычисление Time Trend Statistics (TTS). Включает расчет разницы (quality of result difference) и скорости изменения (rate of change).
- Валидация изменений:
- Проверка, удовлетворяет ли изменение порогу статистической значимости. Если нет, стоп.
- (Опционально) Проверка изменения контента: Сравнение версий документа в T1 и T2 (через shingles). Если контент не изменился значительно (Similarity Score высок), модификация может не применяться.
- Расчет фактора модификации: Определение фактора (factor) на основе TTS (в частности, скорости изменения). Фактор может дисконтировать статистику (при снижении качества или изменении контента), повышать ее (при росте качества) или обнулять.
- Применение: Генерация Modified Quality of Result Statistic путем применения фактора.
- Вывод: Передача модифицированной статистики в процесс ранжирования.
- (Опционально) Распространение: Применение модификации к другим запросам для этого документа или к связанным документам/запросам.
Алгоритм Б: Модификация на уровне Запроса (Обнаружение сдвига интента)
- Выборка документов: Идентификация группы документов, релевантных Запросу Q.
- Сбор данных: Получение QoR для этой группы документов за два разных периода (Time A и Time B). Формирование векторов статистик.
- Расчет различия: Вычисление Difference Score между векторами (например, косинусное расстояние).
- Проверка значимости: Определение, указывает ли Difference Score на значительный сдвиг в предпочтениях пользователей.
- Применение: Если сдвиг значителен, модификация QoR для документов, релевантных Запросу Q, на основе Difference Score.
- Вывод: Передача модифицированных статистик в процесс ранжирования.
Какие данные и как использует
Данные на входе
Система фокусируется на использовании исторических поведенческих данных и данных о контенте для валидации.
- Поведенческие факторы: Критически важные данные. Используются логи (Result Selection Logs), которые включают:
- Clicks (клики) и их тип (long clicks, short clicks).
- Dwell Time (время пребывания).
- Impressions (показы).
- Дополнительные данные сессии (позиция клика, язык, местоположение).
- Контентные факторы (для валидации): Исторические версии документов. Конкретно упоминается извлечение шинглов (shingles) для сравнения версий. Также упоминается возможность использования текста анкоров или исходных страниц ссылок для определения изменений.
- Временные факторы: Данные агрегируются по различным временным периодам (дни, недели, кварталы) в Model Database.
Какие метрики используются и как они считаются
- Quality of Result Statistic (QoR): Агрегированная метрика удовлетворенности. Примеры расчета:
- Доля кликов (click fraction): Клики / Показы или Взвешенные клики / Общее число кликов.
- Среднее или сумма взвешенных долгих кликов.
- Оценка процента пользователей, которые сочли документ релевантным.
- Time Trend Statistics (TTS): Метрики изменения во времени. Включают quality of result difference (разницу между QoR за два периода) и rate of change (скорость изменения).
- Difference Score: Метрика для оценки сдвига интента запроса. Рассчитывается для группы документов, например, как косинусное расстояние (cosine distance) или L2 Norm между векторами QoR за два периода.
- Similarity Score: Метрика для сравнения двух версий контента. Рассчитывается на основе пересечения множеств shingles. Формула в патенте (Коэффициент Жаккара): Пересечение шинглов(A, B) / Объединение шинглов(A, B).
- Statistically significant threshold: Порог, используемый для определения, является ли изменение в поведении статистически значимым.
Выводы
- Исторические поведенческие данные могут быть дисконтированы. Google имеет механизмы для обнаружения ситуаций, когда исторические данные о кликах устарели. Если поведение пользователей меняется, система может уменьшить вес или игнорировать прошлые данные при ранжировании.
- Два уровня анализа изменений: Контент и Интент. Система отслеживает изменения на двух уровнях:
- Уровень Документа: Изменение поведения по отношению к конкретному документу (часто связано с изменением контента), анализируется через Time Trend Statistics.
- Уровень Запроса: Изменение общего паттерна поведения по запросу (часто связано со сдвигом интента), анализируется через Difference Score.
- Подтверждение изменения контента (Верификация). Система может проверять, действительно ли изменился контент документа, используя сравнение шинглов (shingles) исторических версий. Это повышает точность и позволяет отличить реальное изменение контента от случайных колебаний в поведении.
- Статистическая значимость и скорость изменения критичны. Модификация применяется, если разница в статистике является статистически значимой. Фактор модификации зависит от скорости изменения тренда (rate of change) (Claim 1), что позволяет системе быстро реагировать на резкие сдвиги.
- Эффект распространения (Spillover). Изменение, обнаруженное для одной пары документ/запрос, может повлиять на ранжирование этого документа по другим запросам (Claim 4), указывая на переоценку качества документа в целом.
Практика
Best practices (это мы делаем)
- Регулярный мониторинг поведенческих метрик во времени. Необходимо отслеживать метрики удовлетворенности (CTR в GSC, показатели вовлеченности в аналитике) в динамике. Резкое падение этих показателей может быть триггером для системы дисконтирования исторических данных, что приведет к потере позиций.
- Стратегия обновления контента (Content Refresh). При значительном обновлении контента страницы нужно быть готовым к переоценке поведенческих сигналов. Убедитесь, что новая версия контента как минимум так же хорошо удовлетворяет интент пользователя, как и старая. Система может сравнить версии (shingles) и начать оценивать новую версию с пониженным весом исторических данных.
- Анализ сдвигов интента в нише (QDF). Отслеживайте изменения в выдаче и тренды по ключевым запросам. Если интент меняется, необходимо быстро адаптировать контент. Механизм Difference Score позволит Google быстрее перестроить выдачу под новый интент, дисконтировав старые данные сайтов, которые не адаптировались.
- Создание устойчивого качества. Обеспечивайте стабильно высокое качество контента и пользовательского опыта. Стабильные Quality of Result Statistics защищают от дисконтирования, тогда как резкие колебания (пики и спады) могут привести к тому, что система сочтет данные ненадежными.
Worst practices (это делать не надо)
- Полагаться на исторический авторитет устаревшего контента. Нельзя предполагать, что страница, которая хорошо ранжировалась в прошлом благодаря сильным поведенческим сигналам, сохранит свои позиции, если ее контент устарел или перестал отвечать текущему интенту.
- Существенное изменение тематики существующего URL (Bait-and-Switch). Переписывание старой страницы под совершенно новые ключевые слова. Google обнаружит это через сравнение shingles и изменение поведения, что приведет к аннулированию исторических сигналов, связанных с этим URL.
- Игнорирование падения вовлеченности (Dwell Time, CTR). Устойчивое снижение поведенческих метрик является для системы сильным сигналом (Time Trend Statistic) о потере релевантности. Высокая скорость падения (rate of change) приведет к быстрой активации этого механизма и дальнейшему снижению позиций.
- Накрутка поведенческих факторов. Попытки манипуляций могут привести к краткосрочным пикам (spikes). Если система обнаруживает аномальные тренды или пики, за которыми следует падение, она может агрессивно дисконтировать статистику, считая ее ненадежной.
Стратегическое значение
Патент подтверждает, что релевантность в поиске динамична и что Google активно борется с устареванием данных. Стратегия SEO не может полагаться на прошлые заслуги. Ключевое значение приобретает способность быстро адаптироваться к изменениям: как к обновлениям собственных сайтов, так и к внешним изменениям в интенте пользователей. Система предпочитает актуальные поведенческие сигналы устаревшим, если обнаруживает значимые изменения в трендах.
Практические примеры
Сценарий 1: Обновление важной статьи (Content Refresh)
- Ситуация: У вас есть статья «Лучшие смартфоны 2024 года» с отличными историческими поведенческими данными.
- Действие: В ноябре 2025 года вы полностью переписываете ее в «Лучшие смартфоны 2025 года», значительно меняя текст.
- Работа алгоритма (Механизм 1):
- Google сравнивает шинглы старой и новой версии и фиксирует значительное изменение контента (низкий Similarity Score).
- Система также может заметить изменение в Time Trend Statistics.
- Google применяет фактор и дисконтирует исторические (хорошие) данные 2024 года.
- Результат: Ранжирование будет основано преимущественно на свежих данных. Если новый контент хорош, позиции сохранятся или вырастут. Если он хуже старого, позиции упадут.
Сценарий 2: Сдвиг интента запроса (Intent Shift)
- Ситуация: Запрос «Ягуар». Исторически выдача была смешанной: животное и автомобиль.
- Событие: Выходит новая модель автомобиля Jaguar, вызывая огромный интерес.
- Работа алгоритма (Механизм 2):
- Система сравнивает распределение кликов до и после релиза. В новом периоде пользователи массово кликают на сайты про автомобиль.
- Система вычисляет высокий Difference Score, указывая на сдвиг интента.
- Google модифицирует Quality of Result Statistics для этого запроса.
- Результат: Сайты про автомобиль получают буст, сайты про животное понижаются, так как их исторические данные дисконтируются в контексте нового доминирующего интента.
Вопросы и ответы
Что такое «Quality of Result Statistic» (QoR) в этом патенте?
Это агрегированная метрика, которая показывает, насколько пользователи были удовлетворены документом при переходе по определенному запросу. Она рассчитывается на основе данных о кликах, показах и времени пребывания (Dwell Time). Примеры включают долю кликов (click fraction) или взвешенные клики, где long clicks имеют больший вес, чем short clicks.
Как система понимает, что контент страницы изменился?
Патент описывает механизм верификации (Claim 6). Система хранит исторические версии документа и сравнивает их, используя шинглы (shingles). Вычисляется оценка схожести (Similarity Score) между старой и новой версиями. Если схожесть ниже определенного порога, система считает, что контент значительно изменился.
Что произойдет, если я значительно изменю контент на странице?
Если система обнаружит изменение контента (через shingles) и/или зафиксирует изменение в поведении пользователей (Time Trend Statistics), она может дисконтировать исторические поведенческие данные этого URL. Это означает, что ранжирование будет в большей степени зависеть от того, как пользователи реагируют на новую версию контента. Это риск потери позиций, если новый контент хуже.
Как система определяет, что изменился интент запроса, а не контент?
Для этого используется анализ на уровне запроса (Механизм 2). Система сравнивает, как распределялись клики по группе документов для этого запроса в прошлом и сейчас. Если общий паттерн сильно изменился (вычисляется высокий Difference Score), это сигнализирует о сдвиге интента, даже если контент отдельных страниц не менялся.
Всегда ли Google модифицирует данные при изменении поведения?
Нет. Патент подчеркивает (Claim 2), что модификация часто применяется только тогда, когда изменение в поведении удовлетворяет порогу статистической значимости (statistically significant threshold). Это необходимо, чтобы система не реагировала на случайные колебания или шум в данных.
Влияет ли этот патент на накрутку поведенческих факторов (ПФ)?
Да, он делает накрутку рискованной. Система анализирует тренды и скорость их изменения (rate of change). Аномальные пики (spikes) в Quality of Result Statistics могут быть обнаружены. Если система фиксирует резкий пик, за которым следует падение (что часто бывает при окончании накрутки), она может агрессивно дисконтировать всю статистику, считая ее ненадежной.
Что такое «Model Database» и как она используется?
Это хранилище агрегированных поведенческих данных. Важной особенностью является сегментация данных по времени (например, модель за вчера, за неделю, за квартал). Это позволяет системе сравнивать разные периоды и вычислять Time Trend Statistics и Difference Score для обнаружения изменений.
Если мои поведенческие показатели ухудшились, как быстро это повлияет на ранжирование?
Это может произойти достаточно быстро, так как система учитывает скорость изменения (rate of change). Благодаря сегментации данных по времени, система может обнаружить негативный тренд, сравнив данные за последнюю неделю с предыдущим периодом. Если изменение статистически значимо, Rank Modifier Engine скорректирует сигнал.
Может ли этот механизм повысить мои позиции?
Да. Во-первых, если ваша страница имела негативную историю, значительное обновление контента может привести к сбросу этой истории. Во-вторых, патент упоминает, что если Time Trend Statistics показывают устойчивый рост качества (положительный rate of change), фактор модификации может быть положительным, повышая итоговую оценку.
Как этот патент связан с алгоритмами QDF (Query Deserves Freshness)?
Этот патент дополняет QDF. QDF определяет, что запрос требует свежего контента. Описанный же механизм помогает определить, какие из результатов лучше соответствуют текущему интенту, анализируя изменения в поведении. Если интент сдвинулся (обнаружено через Difference Score), система быстрее адаптирует выдачу.