Фундаментальный патент Google (с приоритетом от 2001 года), описывающий интеграцию статистики использования в ранжирование. Система рассчитывает Usage Score на основе частоты посещений (Visit Frequency), количества уникальных пользователей (Unique Users) и длины URL (Path Length). Эта оценка комбинируется с традиционными факторами релевантности для определения финального рейтинга.
Описание
Какую задачу решает
Патент решает ограничения традиционных методов ранжирования. Он указывает, что методы, основанные только на контенте (term-based), подвержены манипуляциям. Методы, основанные на ссылках (link-based), имеют недостаток: новые страницы часто имеют меньше ссылок, что занижает их рейтинг по сравнению со старыми. Изобретение предлагает использовать статистику использования (usage statistics) как дополнительный объективный сигнал для определения важности документа.
Что запатентовано
Запатентована система, которая интегрирует поведенческие факторы в процесс ранжирования. Суть изобретения заключается в расчете оценки использования (Usage Score) на основе как минимум двух ключевых метрик: частоты посещений (Visit Frequency, VF) и количества уникальных пользователей (Unique Users, UU). Этот Usage Score затем комбинируется с другими сигналами ранжирования (например, IR score или ссылочными метриками) для определения итогового порядка документов в выдаче.
Как это работает
Система собирает и обрабатывает данные о взаимодействии пользователей с документами:
- Сбор и Обработка: Собираются сырые данные VF и UU. Они фильтруются (Filtering) для удаления бот-трафика (automated agents) и могут взвешиваться (Weighting) на основе характеристик пользователя (например, географии).
- Расчет Usage Score: Вычисляется оценка использования. В патенте приводится пример, где Usage Score учитывает нормализованные оценки VF, UU, а также длину пути документа (Path Length Score, PL).
- Ранжирование: Usage Score комбинируется с базовой оценкой (IR score). В одном из примеров используется формула, которая может быть интерпретирована как среднегеометрическое: sqrt(IR score * Usage score).
- Организация выдачи: Документы сортируются на основе итоговой оценки (Total Score).
Актуальность для SEO
Высокая концептуальная актуальность. Этот патент (с приоритетом 2001 года) заложил основу для использования поведенческих факторов (PBF) в поиске. Хотя конкретные формулы и константы, описанные в патенте, почти наверняка устарели и заменены сложными ML-моделями, сама идея использования данных о вовлеченности и трафике является фундаментальной для современных поисковых систем.
Важность для SEO
Патент имеет высокое значение для SEO (8.5/10). Он формализует использование поведенческих данных как прямого сигнала ранжирования, дополняющего анализ контента и ссылок. Он подтверждает, что популярность, вовлеченность пользователей и даже структура URL (длина пути) являются факторами, влияющими на рейтинг. Это подчеркивает важность оптимизации под реальное взаимодействие с пользователем.
Детальный разбор
Термины и определения
- Frequency of Visit (VF) / Frequency of Visit Value (Частота посещений)
- Метрика, отражающая, как часто документ посещается за период (например, месяц). Может быть абсолютным числом или изменением во времени (трендом).
- IR Score (Information Retrieval Score)
- Стандартная оценка релевантности документа запросу (query-term-based score) и/или оценка на основе ссылок (link information).
- MAXVF / MAXUU
- Предопределенные константы для нормализации VF и UU. В примере патента: MAXVF=2000, MAXUU=400.
- Path Length (PL) (Длина пути)
- Метрика, основанная на структуре URL. В примере определяется как количество символов ‘/’ в пути документа.
- Path Length Score (Оценка длины пути)
- Нормализованная оценка, основанная на PL. Предпочтение отдается более коротким путям.
- Total Score (Итоговая оценка)
- Финальная оценка ранжирования, рассчитанная путем комбинации Usage Score и IR Score.
- Unique Users (UU) / Separate Visit Value (Уникальные пользователи)
- Количество отдельных посетителей документа, идентифицированных по IP, hostname или cookie.
- Usage Score (Оценка использования)
- Агрегированная оценка, основанная на статистике использования (VF, UU) и, возможно, структурных факторах (PL).
- Filtering (Фильтрация)
- Процесс очистки сырых данных от автоматизированных агентов (ботов) или аффилированных пользователей.
- Weighting (Взвешивание)
- Присвоение весовых коэффициентов визитам на основе их характеристик (например, география, история браузера, закладки).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Определяет ядро изобретения – ранжирование с использованием двух типов статистики использования.
- Система получает набор документов с первой оценкой (first score), основанной на link information и/или query information (т.е. IR Score).
- Система получает доступ к usage information, которая обязательно включает ДВА компонента: (i) значение частоты посещений (frequency of visit value, VF) за период и (ii) значение отдельных посещений (separate visit value, UU).
- Для каждого документа определяется usage score на основе VF и UU.
- Определяется total score на основе usage score и first score.
- Документы ранжируются на основе total scores.
Claim 2 (Зависимый): Дополняет Claim 1, вводя оценку длины пути.
- Usage score рассчитывается с учетом не только VF и UU, но и path length score, основанного на пути документа.
Claims 3 и 4 (Зависимые): Детализируют расчет субоценок и нормализацию.
- Оценка VF рассчитывается на основе VF и MAXVF, используя логарифмическое отношение (log ratio) (Claim 4).
- Оценка UU рассчитывается на основе UU и MAXUU, используя отношение (ratio) (Claim 4).
Claims 6 и 7 (Зависимые): Указывают на возможность учета трендов.
- Значения VF (Claim 6) и UU (Claim 7) могут представлять собой процентное изменение по сравнению с предыдущим периодом времени.
Claim 8 (Зависимый): Указывает на возможность взвешивания данных.
- Значение VF может быть основано на взвешенных счетчиках посещений (weighted visit counts), где вес зависит от географического местоположения источника визита.
Где и как применяется
Изобретение применяется на этапе ранжирования, используя данные, собранные и обработанные ранее.
CRAWLING & Data Acquisition / INDEXING (Сбор данных и Индексирование)
На этих этапах система собирает, обрабатывает и ассоциирует Usage Statistics с документами. Это включает сбор сырых данных (из логов сервера, данных браузера/клиента или прокси), фильтрацию ботов, подсчет VF и UU, а также извлечение PL. Обработанные данные сохраняются для быстрого доступа.
RANKING – Ранжирование
Основной этап применения патента. Во время оценки кандидатов система:
- Получает базовые оценки (IR Score, Link Scores).
- Извлекает сохраненные данные VF, UU и PL для документа.
- Рассчитывает Usage Score на основе этих данных и описанных формул.
- Комбинирует Usage Score с базовыми оценками для получения Total Score.
Входные данные:
- Базовая оценка документа (IR Score).
- Данные о частоте посещений (VF) и уникальных пользователях (UU), включая тренды.
- Длина пути документа (PL).
- Данные для взвешивания (география, история пользователя).
Выходные данные:
- Total Score, используемый для финальной организации результатов поиска.
На что влияет
- Конкретные типы контента: Влияет на все типы контента. Помогает новым документам быстро набирать рейтинг за счет популярности (высокий VF/UU), компенсируя недостаток ссылок.
- Структура сайта: Включение Path Length Score напрямую влияет на рекомендации по архитектуре сайта, предпочитая более короткие URL и плоскую структуру.
- Географические особенности: Взвешивание по географии (Claim 8) влияет на локальное и международное SEO.
- Трендовые запросы: Учет изменения трафика во времени (Claims 6, 7) сильно влияет на ранжирование по актуальным темам.
Когда применяется
- Условия применения: Применяется в процессе ранжирования при наличии достаточных данных Usage Statistics.
- Пороговые значения: В примере реализации упоминается порог для UU (формула меняется при UU < 10), что указывает на необходимость минимального объема данных.
- Обработка отсутствия данных: Если данные VF или UU неизвестны, используются небольшие значения по умолчанию («small value»).
- Временные аспекты: Метрики рассчитываются за период (в примере указан один месяц).
Пошаговый алгоритм
Фаза 1: Сбор и обработка данных (Офлайн / Индексирование)
- Сбор сырых данных: Сбор информации о визитах и идентификаторах пользователей (IP, cookies) за период.
- Фильтрация: Очистка данных от нежелательного трафика (боты, внутренние посещения).
- Взвешивание (Опционально): Применение весовых коэффициентов к визитам на основе характеристик пользователя (география, история посещений, закладки).
- Агрегация: Расчет итоговых значений Visit Frequency (VF) и Unique Users (UU) для каждого документа. Также может рассчитываться изменение во времени (тренды).
- Сохранение: Ассоциация значений VF и UU с документом в индексе.
Фаза 2: Расчет оценок и ранжирование (В реальном времени)
- Получение кандидатов: Идентификация документов и получение их базовых оценок (IR Score).
- Извлечение данных: Получение значений VF, UU и Path Length (PL) для каждого документа.
- Расчет компонентов Usage Score:
- Вычисление Frequency of Visit Score (нормализация VF, например, с использованием логарифмов).
- Вычисление Unique User Score (нормализация UU, например, с использованием порогов).
- Вычисление Path Length Score (расчет на основе PL).
- Расчет Usage Score: Комбинирование компонентов (например, путем перемножения).
- Расчет Total Score: Комбинирование Usage Score и IR Score (например, sqrt(IR score * usage score)).
- Организация: Сортировка документов на основе Total Score.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Usage Statistics):
- Частота посещений (VF) и ее изменение во времени (Claims 6).
- Количество уникальных пользователей (UU) и его изменение во времени (Claim 7).
- Идентификаторы пользователя (IP-адрес, hostname, cookie).
- История просмотров пользователя (browsing history) (для взвешивания).
- Наличие документа в закладках (bookmarked items) (для взвешивания).
- Технические / Структурные факторы:
- Длина пути URL (Path Length, PL) – количество символов ‘/’ в пути.
- Географические факторы:
- Географический источник визита (для взвешивания) (Claim 8).
- Контентные и Ссылочные факторы (Косвенно):
- IR Score и Link information используются как базовые оценки (first score).
Какие метрики используются и как они считаются
Патент предоставляет конкретный пример реализации с формулами и константами:
- Total Score: sqrt(IR score * usage score) (Среднегеометрическое).
- Usage Score: Frequency of Visit Score * Unique User Score * Path Length Score.
- Frequency of Visit Score: log2(1 + log(VF)/log(MAXVF)).
- VF = посещения за месяц; MAXVF = 2000. Двойное логарифмирование обеспечивает эффект убывающей отдачи (diminishing returns).
- Unique User Score: Кусочно-линейная функция:
- Если UU < 10: 0.5 * UU / 10.
- Если UU >= 10: 0.5 * (1 + UU/MAXUU).
- UU = уникальные пользователи за месяц; MAXUU = 400.
- Path Length Score: log(K-PL)/log(K).
- PL = количество ‘/’ в пути; K = 20. Предпочтение коротким путям (меньше PL – выше оценка).
Методы обработки данных:
- Нормализация: Использование логарифмов и констант для приведения метрик к единой шкале.
- Фильтрация: Исключение ботов и нежелательного трафика (automated agents).
- Взвешивание: Учет источника трафика (география, история пользователя).
Выводы
- Поведенческие факторы (PBF) как прямой сигнал ранжирования: Патент подтверждает интеграцию статистики использования (трафик и уникальные пользователи) непосредственно в формулу ранжирования, наряду с контентом и ссылками.
- Предпочтение коротких URL и плоской структуры: Включение Path Length Score явно указывает на предпочтение документов, расположенных ближе к корню сайта. Это имеет прямые последствия для SEO-оптимизации структуры сайта.
- Качество трафика и защита от накруток: Система включает этапы фильтрации (удаление ботов) и взвешивания (география, история пользователя, закладки) для повышения объективности и затруднения манипуляций.
- Нормализация и убывающая отдача: Использование логарифмов (особенно двойного логарифмирования для VF) означает, что линейный прирост трафика дает все меньший эффект по мере роста абсолютных значений.
- Учет трендов (Свежесть и Популярность): Возможность использования процентного изменения трафика (Claims 6, 7) позволяет системе быстро реагировать на тренды и повышать рейтинг быстро набирающего популярность контента.
- Мультипликативный эффект и баланс сигналов: Комбинация Usage Score и IR Score (например, через перемножение под корнем) означает, что оба компонента необходимы для высокого ранжирования. Низкая оценка по одному из них сильно снизит итоговый балл.
Практика
Best practices (это мы делаем)
- Оптимизация архитектуры сайта и структуры URL: Проектируйте сайт с плоской структурой. Используйте короткие URL для важных страниц. Формула Path length score напрямую вознаграждает за меньшее количество ‘/’ в пути.
- Фокус на привлечении качественного трафика и вовлеченности: Работайте над привлечением разнообразной аудитории (высокий UU) и стимулируйте повторные посещения (высокий VF). Это напрямую повышает Usage Score.
- Стимулирование лояльности аудитории: Патент упоминает возможность взвешивания на основе истории браузера и закладок (bookmarked items). Создавайте контент, который пользователи захотят сохранить или вернуться к нему.
- Реагирование на тренды и создание вирусного контента: Быстро создавайте качественный контент по актуальным темам. Учитывая возможность использования трендов (Claims 6, 7), быстрый рост трафика может дать значительный буст в ранжировании, особенно для новых страниц без ссылок.
- Международное SEO: Учитывайте географическое распределение аудитории. Трафик из целевых регионов может иметь больший вес (Claim 8).
Worst practices (это делать не надо)
- Покупка фейкового трафика или использование ботов: Патент прямо указывает на фильтрацию автоматизированных агентов. Попытки манипулировать Usage Score с помощью некачественного трафика будут отфильтрованы.
- Создание излишне глубоких структур URL: Размещение важного контента по длинным путям (например, /cat1/subcat2/subcat3/page) негативно скажется на Path length score.
- Игнорирование релевантности: Высокий трафик не поможет, если страница не релевантна запросу (низкий IR Score), так как итоговая оценка является произведением этих двух компонентов.
Стратегическое значение
Этот патент имеет фундаментальное стратегическое значение, так как он официально вводит поведенческие факторы (PBF) в экосистему ранжирования Google еще с 2001 года. Он подтверждает, что SEO-стратегия должна быть комплексной и включать работу над релевантностью, авторитетностью и вовлеченностью пользователей. Хотя конкретные формулы устарели, заложенные принципы остаются краеугольным камнем: сайты, которые удовлетворяют пользователей и пользуются популярностью, получают преимущество.
Практические примеры
Сценарий 1: Оптимизация архитектуры интернет-магазина (Расчет Path Length Score)
Сравнение двух подходов к размещению карточки товара:
- Подход А (Плохой): example.com/catalog/electronics/audio/headphones/product-123 (PL = 5).
- Подход Б (Хороший): example.com/products/product-123 (PL = 2).
Применение патента: Система рассчитывает Path length score = log(K-PL)/log(K) (где K=20, согласно примеру в патенте).
- Расчет для А (PL=5): log(20-5)/log(20) = log(15)/log(20) ≈ 0.904.
- Расчет для Б (PL=2): log(20-2)/log(20) = log(18)/log(20) ≈ 0.965.
Результат: При прочих равных условиях (одинаковый IR Score, VF и UU), Подход Б получит более высокий Usage Score за счет лучшей оценки длины пути, что приведет к лучшему ранжированию.
Сценарий 2: Использование трендов для новостного сайта
- Ситуация: Происходит важное событие. Новостной сайт оперативно публикует статью.
- Действие: Сайт активно распространяет статью, генерируя всплеск трафика.
- Применение патента: Система фиксирует резкое процентное изменение VF и UU по сравнению с предыдущим периодом (Claims 6, 7).
- Результат: Статья получает высокий Usage Score за счет тренда и быстро занимает высокие позиции в поиске, несмотря на отсутствие входящих ссылок.
Вопросы и ответы
Является ли трафик на страницу прямым фактором ранжирования согласно этому патенту?
Да, является. Патент прямо описывает использование статистики использования, включающей частоту посещений (VF) и количество уникальных пользователей (UU), для расчета Usage Score. Этот Usage Score затем комбинируется с традиционными оценками (IR Score) для определения итогового ранжирования.
Можно ли улучшить ранжирование, накрутив трафик ботами?
Нет. Патент специально оговаривает этап фильтрации (Filtering) сырых данных для удаления посещений от автоматизированных агентов (ботов) и аффилированных пользователей. Система стремится учитывать только объективные данные об использовании реальными пользователями.
Влияет ли структура URL на ранжирование согласно этому патенту?
Да, влияет. В одном из вариантов реализации в расчет Usage Score включается Path Length Score. Описанная формула предпочитает более короткие пути (меньше вложенных директорий ‘/’ в URL). Документы, расположенные ближе к корню сайта, получают преимущество.
Использует ли Google точные формулы из этого патента сегодня?
Крайне маловероятно. Патент восходит к 2001 году. Современные системы ранжирования Google используют сложные алгоритмы машинного обучения для интерпретации поведенческих сигналов. Однако базовые принципы, заложенные в патенте (использование данных о посещениях, нормализация, фильтрация ботов, комбинация с другими сигналами), остаются актуальными.
Что важнее: частота посещений (VF) или количество уникальных пользователей (UU)?
Важны оба показателя. Usage Score рассчитывается как произведение нормализованных оценок для обоих факторов. VF измеряет общую популярность (включая повторные визиты), а UU измеряет широту охвата аудитории. Для высокого Usage Score необходимы оба показателя.
Влияет ли география пользователя на вес его визита?
Да, может влиять. Патент (Claim 8) явно упоминает возможность взвешивания (Weighting) посещений на основе географического источника визита. Это позволяет системе придавать большее значение трафику из определенных регионов, что важно для международного и локального SEO.
Учитывается ли скорость роста трафика (тренды)?
Да, такая возможность предусмотрена. В Claims 6 и 7 указано, что в качестве входных данных (VF и UU) может использоваться не абсолютное количество посещений за период, а процентное изменение по сравнению с предыдущим периодом. Это позволяет системе быстро реагировать на тренды.
Почему используется логарифм для расчета Frequency of Visit Score?
Использование логарифмов (в примере даже двойное логарифмирование) реализует принцип убывающей отдачи (diminishing returns). Это означает, что разница между 10 и 100 визитами гораздо существеннее для ранжирования, чем разница между 10000 и 10100 визитами. Это предотвращает доминирование исключительно вирусного контента и делает ранжирование более стабильным.
Помогает ли этот механизм новым сайтам?
Да, патент отмечает это как одно из преимуществ. Использование Usage Statistics позволяет новым страницам, которые быстро набирают реальную популярность и трафик, компенсировать недостаток ссылочного веса (который часто занижает рейтинг новых страниц) и занимать высокие позиции в выдаче.
Может ли статистика использования применяться на уровне сайта, а не только документа?
Да. Патент упоминает, что вместо поддержания статистики для каждого документа, можно поддерживать статистику использования на уровне сайта (site-by-site basis). Эта общая статистика сайта может быть затем ассоциирована с некоторыми или всеми документами на этом сайте.