Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.
Описание
Какую задачу решает
Патент решает задачу определения объективной, основанной на поведении пользователей, оценки качества сайта (Site Quality Score). Цель — создать независимый от запроса (query-independent) показатель полезности (usefulness) информации, представленной на ресурсах сайта. Этот показатель позволяет улучшить ранжирование, отдавая предпочтение сайтам, с которыми пользователи дольше взаимодействуют, и помогает принимать решения о сканировании и индексировании контента.
Что запатентовано
Запатентована система для определения оценки качества сайта на основе агрегированных измерений продолжительности визитов пользователей (durations of user visits) на ресурсы этого сайта. Ключевым элементом является вычисление статистического показателя, в частности, меры центральной тенденции (measure of central tendency — например, среднего или медианы) из этих измерений. Система использует различные источники данных о визитах, включая время от клика по результату поиска до возврата на страницу выдачи (Dwell Time).
Как это работает
Система собирает данные о продолжительности визитов пользователей на различные страницы сайта. Собранные данные проходят обработку: отбрасываются подозрительные визиты (используя User Model), слишком короткие визиты могут игнорироваться (ниже минимального порога), а слишком длинные — ограничиваться максимальным значением. Также применяется нормализация в зависимости от типа контента (например, видео или изображение). Из обработанного набора данных вычисляется статистический показатель (например, медиана), который становится Site Quality Score.
Актуальность для SEO
Высокая. Метрики вовлеченности пользователей и качество пользовательского опыта являются критически важными факторами ранжирования в Google. Использование поведенческих сигналов, таких как Dwell Time, для оценки качества сайта полностью соответствует современной стратегии Google по предоставлению полезного контента (Helpful Content) и оценке удовлетворенности пользователей.
Важность для SEO
Патент имеет критическое значение (9/10) для SEO. Он описывает конкретный механизм, как Google использует агрегированные поведенческие факторы для оценки качества всего сайта. Это подчеркивает важность оптимизации не только релевантности, но и пользовательского опыта, скорости загрузки и глубины проработки темы для удержания внимания пользователя. Если сайт не способен удовлетворить интент, его Site Quality Score будет низким, что негативно скажется на ранжировании всех его страниц и может повлиять на индексирование.
Детальный разбор
Термины и определения
- Site (Сайт)
- Коллекция интернет-ресурсов. Патент определяет сайт операционно: это могут быть ресурсы в определенном домене (например, example.com), поддомене (например, www.example.com), поддиректории (например, example.com/subdirectory/) или ресурсы, размещенные на определенном сервере.
- Site Quality Score (Оценка качества сайта)
- Метрика, рассчитываемая для сайта, представляющая меру его качества. Определяется на основе продолжительности визитов пользователей. Является независимым от запроса (query-independent) показателем полезности сайта.
- Duration of user visit (Продолжительность визита пользователя)
- Измерение времени, которое пользователь проводит на ресурсе. Может измеряться разными способами, например, как время между запросом одного ресурса и запросом следующего.
- Dwell Time (Время пребывания)
- Конкретный тип измерения продолжительности визита, явно указанный в Claims: время, которое проходит между кликом пользователя по результату поиска и возвращением пользователя на страницу результатов поиска.
- Statistical Measure (Статистический показатель)
- Значение, характеризующее набор данных о продолжительности визитов. Используется для расчета Site Quality Score.
- Measure of Central Tendency (Мера центральной тенденции)
- Тип статистического показателя. Примеры включают среднее арифметическое, геометрическое или гармоническое (mean), медиану (median) или моду (mode) продолжительности визитов.
- Resource Type (Тип ресурса)
- Классификация ресурса на основе его контента (например, изображение, видео, текст). Используется для нормализации измерений продолжительности визита.
- User Model (Модель пользователя)
- Модель, описывающая ожидаемое поведение пользователя. Используется для выявления подозрительного или неестественного поведения (например, аномальное распределение кликов, частоты кликов, подозрительные User Agents или возраст Cookies) и исключения таких данных из расчета.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения оценки качества сайта.
- Система получает измерения продолжительности визитов (measurements of durations) множества пользователей на множество ресурсов определенного сайта (домена, поддомена, директории).
- Измерения включают данные о времени, прошедшем между кликом пользователя по ссылке на ресурс в результатах поиска и возвратом пользователя на страницу результатов поиска (Dwell Time).
- Система определяет Site Quality Score для этого сайта на основе этих измерений.
- Определение оценки включает вычисление статистического показателя (statistical measure), который является мерой центральной тенденции (measure of central tendency).
Ядро изобретения — использование агрегированного Dwell Time (и других измерений продолжительности визита) и применение статистических методов (среднее/медиана) для вывода оценки качества на уровне всего сайта.
Claim 5 (Зависимый): Уточняет фильтрацию данных.
- Система отбрасывает измерения продолжительности, которые ниже определенного порогового значения (specified threshold value).
Очень короткие визиты (быстрые отказы) могут не учитываться в расчете, так как предполагается, что пользователь не успел оценить контент.
Claim 6 (Зависимый): Уточняет обработку аномалий.
- Система корректирует измерения, превышающие заранее определенное максимальное значение (pre-determined maximum value), устанавливая их равными этому максимальному значению.
Это защищает от искажения статистики из-за экстремально долгих сессий (например, открытых вкладок).
Claim 7 (Зависимый): Уточняет нормализацию по типу контента.
- Система классифицирует ресурсы по типам (resource types) и корректирует измерения продолжительности на основе веса (weight), присвоенного типу этого ресурса.
Это позволяет учитывать, что взаимодействие с изображением обычно короче, чем с видео или лонгридом.
Claim 9 (Зависимый): Уточняет фильтрацию спама.
- Система отбрасывает измерения, классифицированные как подозрительные с помощью модели пользователя (user model).
Это механизм защиты от накруток поведенческих факторов.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя данные о поведении пользователей для влияния на индексирование и ранжирование.
CRAWLING и INDEXING – Сканирование и Индексирование
В патенте прямо указано, что Site Quality Score может использоваться для определения того, являются ли ресурсы на сайте достаточно качественными для сканирования (crawled), обновления (refreshed) или добавления в индекс (added to an index). Indexing Engine может использовать эту оценку для приоритизации ресурсов.
RANKING – Ранжирование
Основное применение. Site Quality Score используется Ranking Engine как сигнал ранжирования. Оценка используется как независимый от запроса сигнал (query-independent measure) качества. Она может применяться как фактор (term) при расчете итоговых оценок ранжирования для ресурсов этого сайта.
Обработка данных (Data Processing)
Расчет Site Quality Score (включая сбор, фильтрацию, нормализацию и агрегацию данных о визитах), вероятно, происходит в офлайн или пакетном режиме компонентом Site Scoring Engine на основе собранных Site Data.
Входные данные:
- Набор измерений продолжительности визитов (Dwell Time и другие) для ресурсов сайта.
- Данные для фильтрации (IP адреса, cookies, User Agents, паттерны кликов).
- Классификация ресурсов по типам (Resource Types).
- Пороговые значения (минимум, максимум).
Выходные данные:
- Site Quality Score для сайта (или домена/поддомена/директории).
На что влияет
- Все типы контента и запросов: Поскольку оценка применяется на уровне сайта и является независимой от запроса, она влияет на все страницы сайта по всем типам запросов.
- Нормализация контента: Влияние варьируется в зависимости от типа контента. Система нормализует данные, признавая, что ожидаемое время взаимодействия с видео отличается от времени взаимодействия с текстом или изображением.
- Структура сайта: Патент позволяет применять оценку не только ко всему домену, но и к поддоменам или поддиректориям. Это означает, что качество разных разделов крупного сайта может оцениваться дифференцированно.
Когда применяется
- Условия работы: Алгоритм применяется при наличии достаточного объема статистических данных о визитах пользователей на ресурсы сайта.
- Частота применения: Расчет Site Quality Score происходит периодически по мере накопления новых данных о визитах (например, за день, неделю, месяц). Использование оценки происходит во время ранжирования или при планировании индексирования.
- Пороговые значения: Применяются пороги для фильтрации данных: минимальная продолжительность визита и максимальная продолжительность визита (например, 5, 10, 30 минут). Эти пороги также могут зависеть от типа или длины ресурса.
Пошаговый алгоритм
Процесс расчета Site Quality Score
- Сбор данных о визитах: Система получает измерения продолжительности визитов пользователей на ресурсы определенного сайта за определенный период. Источники включают Dwell Time из SERP, данные браузеров, сетевой трафик, данные серверов.
- Фильтрация подозрительной активности: Применяется User Model для анализа поведения (паттерны кликов, частота кликов, User Agents, IP, cookies). Измерения, классифицированные как подозрительные (suspicious) или неестественные, отбрасываются.
- Фильтрация по порогам (Минимум): Измерения продолжительности визита, которые ниже установленного минимального порога, отбрасываются. Порог может зависеть от типа ресурса.
- Ограничение по порогам (Максимум): Измерения, превышающие установленное максимальное значение, корректируются до этого максимального значения (capping). Максимум также может зависеть от типа ресурса.
- Нормализация по типу контента (Опционально): Измерения корректируются на основе весов, присвоенных различным типам ресурсов (Resource Types). Например, продолжительность визита на страницу с видео может быть нормализована иначе, чем на страницу с изображением.
- Агрегация и расчет метрики: Из обработанного набора измерений вычисляется статистический показатель. Это мера центральной тенденции (measure of central tendency) — например, медиана или среднее значение (арифметическое, геометрическое, гармоническое) продолжительности визита.
- Определение Site Quality Score: Вычисленный статистический показатель становится оценкой качества сайта.
- Применение оценки: Site Quality Score сохраняется и используется Ranking Engine и Indexing Engine.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании поведенческих данных для оценки качества.
- Поведенческие факторы: Это основные данные для алгоритма.
- Продолжительность визита (Duration of user visit).
- Dwell Time (время от клика в SERP до возврата в SERP).
- Данные о кликах (позиции кликов, частота кликов в минуту/час/день) — используются для User Model.
- Пользовательские факторы: Используются для фильтрации и валидации данных (User Model).
- IP адреса.
- Cookies (и их возраст).
- User Agents.
- Контентные/Структурные факторы: Используются для нормализации.
- Тип ресурса (Resource Type): текст, изображение, видео.
- Длина ресурса (например, количество слов для текста или длительность для видео) — может использоваться для установки порогов.
Какие метрики используются и как они считаются
- Site Quality Score: Итоговая метрика качества сайта. Рассчитывается как статистический показатель (например, среднее или медиана) от обработанных измерений продолжительности визитов.
- Минимальный порог продолжительности (Threshold Value): Пороговое значение времени. Визиты короче этого порога отбрасываются.
- Максимальное значение продолжительности (Maximum Value): Предельное значение времени (например, 10 минут). Визиты длиннее этого значения ограничиваются им.
- Веса типов ресурсов (Weights): Коэффициенты, используемые для корректировки измерений в зависимости от типа контента.
- Метрики User Model: Внутренние метрики для оценки естественности поведения пользователя и классификации визитов как подозрительных.
Выводы
- Агрегированные поведенческие факторы как мера качества сайта: Патент подтверждает использование агрегированных данных о продолжительности взаимодействия пользователей (включая Dwell Time) для формирования оценки качества всего сайта (Site Quality Score). Это независимый от запроса сигнал.
- Важность удержания пользователя: Качество сайта напрямую коррелирует со способностью сайта удовлетворять информационные потребности пользователя и удерживать его внимание. Сайты, на которых пользователи проводят больше времени (в рамках разумных пределов), оцениваются выше.
- Сложная фильтрация и нормализация данных: Google не использует сырые данные. Система активно фильтрует шум: отбрасывает подозрительные визиты (защита от накруток с помощью User Model), игнорирует слишком короткие визиты и ограничивает слишком длинные. Это делает метрику надежной.
- Учет типа контента: Система понимает разницу в паттернах потребления разного контента. Время взаимодействия нормализуется в зависимости от типа ресурса (текст, видео, изображение), чтобы обеспечить справедливое сравнение.
- Влияние на Индексирование и Ранжирование: Site Quality Score используется двояко: как сигнал для ранжирования страниц сайта и как фактор для принятия решений о необходимости сканирования, обновления или индексирования ресурсов сайта. Низкое качество может привести к проблемам с индексацией.
- Гранулярность оценки: Оценка качества может рассчитываться не только для домена в целом, но и для отдельных поддоменов или директорий, что позволяет Google дифференцированно оценивать разные разделы крупных сайтов.
Практика
Best practices (это мы делаем)
- Оптимизация удовлетворенности пользователя (Intent Satisfaction): Фокусируйтесь на полном удовлетворении интента пользователя. Контент должен быть исчерпывающим и полезным, чтобы у пользователя не было необходимости возвращаться в выдачу (минимизация Pogosticking). Это увеличивает Dwell Time.
- Улучшение пользовательского опыта (UX) и скорости загрузки: Технические проблемы, медленная загрузка, навязчивая реклама или плохая навигация приводят к быстрым отказам и уменьшают продолжительность визита. Оптимизация Core Web Vitals и общего UX напрямую влияет на метрики, описанные в патенте.
- Немедленное вовлечение: Оптимизируйте первый экран так, чтобы пользователь сразу понимал, что нашел нужное. Это критично, чтобы преодолеть минимальный порог продолжительности визита, упомянутый в патенте.
- Повышение вовлеченности и глубины просмотра: Используйте качественную внутреннюю перелинковку, интерактивные элементы и разнообразные типы контента (видео, инфографика), чтобы мотивировать пользователя дольше оставаться на сайте.
- Мониторинг поведенческих метрик: Анализируйте среднюю продолжительность сеанса и показатель отказов в системах аналитики как прокси-метрики для Dwell Time. Выявляйте зоны с низкой вовлеченностью и улучшайте их.
Worst practices (это делать не надо)
- Использование кликбейта: Привлечение трафика с помощью заголовков, не соответствующих содержанию, приведет к коротким визитам (низкий Dwell Time). Это негативно скажется на Site Quality Score.
- Создание поверхностного контента (Thin Content): Страницы, которые не дают достаточной информации по теме, не смогут удержать пользователя.
- Игнорирование технических проблем и агрессивная реклама: Плохой технический опыт и элементы, мешающие потреблению контента (например, interstitials), ведут к быстрым отказам.
- Попытки искусственного увеличения времени на сайте: Накрутка поведенческих факторов неэффективна. Патент описывает User Model для выявления подозрительной активности и неестественного поведения, которые фильтруются при расчете оценки.
Стратегическое значение
Этот патент подчеркивает стратегическую важность смещения фокуса с традиционных SEO-метрик на метрики качества и удовлетворенности пользователей. Site Quality, основанная на поведении, является мощным фактором ранжирования. Долгосрочная стратегия должна быть направлена на создание сайта, который обеспечивает как глубину контента, так и превосходный пользовательский опыт. Это также подтверждает, что Google способен оценивать качество на гранулярном уровне (поддомены, директории), что важно учитывать при работе с крупными порталами.
Практические примеры
Сценарий 1: Оптимизация статьи для увеличения Dwell Time
- Анализ: Информационная статья имеет высокий показатель отказов и низкое среднее время на странице. Пользователи быстро возвращаются в поиск.
- Действия:
- Улучшить первый экран: Добавить краткое содержание (Table of Contents) и четкий, информативный вводный абзац.
- Повысить читабельность и структурировать контент.
- Добавить ценность: Включить сравнительные таблицы, инфографику и короткое релевантное видео.
- Оптимизировать скорость загрузки страницы.
- Ожидаемый результат: Пользователи проводят больше времени за изучением контента. Агрегированные данные о продолжительности визитов улучшаются, что положительно влияет на Site Quality Score этого раздела сайта.
Сценарий 2: Улучшение качества раздела E-commerce
- Анализ: Основные товарные категории /catalog/ интернет-магазина имеют низкую продолжительность сессий по сравнению с блогом /blog/.
- Действия:
- Улучшить страницы категорий: Добавить полезные фильтры, сортировки и краткие описания товаров.
- Улучшить карточки товаров: Добавить качественные изображения, подробные описания, отзывы покупателей и видеообзоры.
- Ожидаемый результат: Пользователи проводят больше времени, выбирая товары. Google может рассчитать отдельный Site Quality Score для /catalog/ и, по мере улучшения метрик вовлеченности, повысить ранжирование страниц этого раздела.
Вопросы и ответы
Является ли этот патент подтверждением того, что Dwell Time является фактором ранжирования?
Да, это одно из самых прямых подтверждений. Claim 1 явно указывает на использование времени между кликом по результату поиска и возвратом к выдаче (Dwell Time) как источника данных для расчета Site Quality Score. Этот score затем используется для ранжирования ресурсов сайта и принятия решений об их индексировании.
Как Google защищается от накрутки времени пребывания на сайте?
Патент описывает несколько механизмов защиты. Во-первых, используется User Model для выявления неестественного поведения (аномальные паттерны кликов, подозрительные IP, User Agents, возраст Cookies). Во-вторых, система ограничивает максимальную учитываемую продолжительность визита (capping), чтобы экстремально долгие сессии не искажали статистику.
Как система обрабатывает очень короткие визиты (быстрые отказы)?
Патент предлагает отбрасывать измерения продолжительности, которые ниже определенного порога (specified threshold value). Считается, что пользователь не успел оценить контент за это время. Это означает, что быстрые отказы могут быть просто проигнорированы при расчете среднего/медианы, но большое их количество уменьшает общий объем положительных сигналов для сайта.
Как система учитывает разницу между страницей с коротким ответом и лонгридом или видео?
Патент предусматривает нормализацию данных. Система классифицирует ресурсы по типам (Resource Types) и может применять к ним разные веса или разные пороговые значения (минимальные и максимальные). Также упоминается возможность учета длины ресурса (например, количества слов или продолжительности видео) при установке порогов.
Может ли низкий Site Quality Score привести к проблемам с индексацией?
Да, в патенте прямо говорится, что Site Quality Score может использоваться для определения того, следует ли сканировать, обновлять или добавлять ресурсы сайта в индекс. Если качество сайта систематически низкое (пользователи не находят его полезным), Google может снизить приоритет его сканирования или исключить часть контента из индекса.
Если у меня крупный портал, будет ли плохой раздел тянуть вниз весь сайт?
Не обязательно. Патент определяет «сайт» гибко: это может быть домен, поддомен или поддиректория. Это предполагает, что Google может рассчитывать Site Quality Score гранулярно для разных разделов. Например, качественный блог на поддомене может иметь высокую оценку, даже если основной форум на домене имеет низкую вовлеченность.
Что означает «Мера центральной тенденции» в контексте расчета оценки?
Это статистический метод агрегации данных. На практике это означает, что Site Quality Score, скорее всего, рассчитывается как среднее (mean) или медиана (median) продолжительности всех валидных визитов на сайт. Использование медианы делает оценку более устойчивой к выбросам, чем простое среднее арифметическое.
Означает ли это, что показатель отказов (Bounce Rate) из Google Analytics используется Google для ранжирования?
Нет, патент не говорит об использовании данных сторонних систем аналитики. Google измеряет продолжительность визитов самостоятельно (через SERP, браузеры, сеть). Хотя высокий Bounce Rate в аналитике часто коррелирует с низким Dwell Time, Google полагается на собственные метрики.
Что важнее: среднее время на странице или средняя продолжительность сеанса?
Патент фокусируется на измерениях продолжительности визитов на отдельные ресурсы (user visits to resources), но агрегирует их для оценки сайта в целом. Это ближе к агрегированному Dwell Time. Однако система стремится оценить общую полезность сайта, поэтому любые действия, повышающие качественное взаимодействие пользователя с сайтом, будут полезны.
Применяется ли этот механизм только к данным из поиска Google?
Хотя основным примером является измерение Dwell Time из поиска, патент также упоминает возможность получения данных из других источников. Это могут быть данные от пользовательских устройств (например, браузеров или тулбаров), систем мониторинга сети (прокси, роутеры) или непосредственно с серверов, на которых размещены ресурсы.