Яндекс патентует метод расчета авторитетности страниц (Fresh Browse Rank — FBR), который является эволюцией BrowseRank (аналог PageRank на основе логов посещений). FBR учитывает время: он повышает ранг страниц, которые были недавно созданы или недавно стали популярными, и понижает те, чей трафик угасает, используя механизм временного затухания (Time Decay). Этот сигнал авторитетности затем комбинируется с факторами релевантности запросу.
Описание
Какую задачу решает
Патент решает проблему статичности традиционных метрик авторитетности, таких как стандартный BrowseRank (аналог PageRank, основанный на графе переходов пользователей). Эти алгоритмы не учитывают время (recency) посещений. В результате страницы, которые были популярны в прошлом, могут сохранять высокую авторитетность, даже если они потеряли актуальность и пользователи перестали их посещать. Изобретение позволяет динамически корректировать авторитетность, учитывая свежесть интереса пользователей.
Что запатентовано
Запатентован метод и система для расчета ранга веб-страницы, названный Freshness Browsing Probability (FBR) или Fresh Browse Rank. Суть изобретения заключается в интеграции временных данных (Time Data) из истории просмотров в расчет авторитетности. Для этого вводится Показатель Свежести (Freshness Measure), который учитывает дату создания страницы и недавние посещения, а также включает механизм временного затухания (Time Decay).
Как это работает
Система анализирует логи просмотров за определенный период, разделяя его на интервалы. Для каждого интервала рассчитывается Начальная Свежесть (Initial Freshness) страницы на основе даты ее создания и количества посещений. Затем эта свежесть итеративно распространяется по графу просмотров. Общий показатель свежести накапливается, но также затухает со временем (коэффициент β), если активность прекращается. Итоговый Показатель Свежести используется для модификации весов переходов в графе. На основе этих модифицированных весов рассчитывается FBR. Патент также описывает объединение FBR (запросонезависимый фактор) с факторами, зависящими от запроса (Query Dependent Component, QD), например, BM25.
Актуальность для SEO
Высокая. Учет поведенческих факторов и важность свежести (как контента, так и взаимодействия с ним) являются фундаментальными для современных поисковых систем (концепция QDF — Query Deserves Freshness). Идея временного затухания авторитетности, основанной на поведении пользователей, крайне актуальна для поддержания качества выдачи.
Важность для SEO
Влияние на SEO значительно (8/10). Патент описывает механизм, который напрямую связывает авторитетность сайта с недавней активностью пользователей. Это означает, что авторитет не является статичным; его необходимо постоянно поддерживать свежим трафиком и вовлеченностью. Старые заслуги (ссылки или прошлый трафик) будут дисконтированы, если сайт не демонстрирует актуальных поведенческих сигналов.
Детальный разбор
Термины и определения
- BrowseRank (BR)
- Алгоритм расчета авторитетности страницы, основанный на анализе графа переходов пользователей (Browsing Graph). Аналог PageRank, но использующий логи посещений вместо ссылок.
- Browsing History Data
- Анонимизированные логи сессий пользователей, включающие посещенные URL, временные метки (Time Data) и переходы между страницами.
- FBR (Fresh Browse Rank / Freshness Browsing Probability)
- Модификация BrowseRank, предложенная в патенте. Учитывает свежесть данных о посещениях.
- Freshness Measure (F) (Показатель Свежести)
- Метрика, оценивающая актуальность страницы. Рассчитывается итеративно по временным интервалам и подвержена затуханию.
- Initial Freshness (F⁰) (Начальная Свежесть)
- Базовый показатель свежести в данном временном интервале. Зависит от времени создания страницы (nᵢ(p)) и количества посещений (mᵢ(p)) в этот интервал.
- Incremental Freshness (ΔF) (Инкрементальная Свежесть)
- Прирост свежести, получаемый путем распространения Initial Freshness по графу просмотров. Отражает влияние свежести соседних страниц.
- Query Dependent Component (QD)
- Запросозависимый компонент ранжирования (например, текстовая релевантность BM25).
- Stationary Probability Distribution (π(p))
- Стационарное распределение вероятностей в Марковском процессе (основа BrowseRank). πF(p) — аналогичное распределение для FBR.
- Time Decay (Временное затухание, β)
- Коэффициент (Beta), определяющий скорость снижения Показателя Свежести с течением времени при отсутствии новой активности.
- Transition Probability (ω) и Fresh Transition Probability (ωF)
- Вероятность перехода пользователя с одной страницы на другую. ωF — это вероятность, взвешенная с учетом Показателя Свежести (F) целевой страницы.
Ключевые утверждения (Анализ Claims)
Патент защищает метод расчета ранга страницы, который динамически учитывает время активности пользователей в истории просмотров.
Claim 1 (Независимый пункт): Описывает ядро метода.
- Доступ к данным истории просмотров (browsing history data), включающим временные данные (time data).
- Вычисление оценки ранжирования (rank score) с использованием обоих типов данных.
- Ранжирование страницы согласно этой оценке.
Claim 4 (Зависимый): Уточняет, что временные данные используются для придания большего веса недавним данным по сравнению со старыми.
Claims 7, 8, 10, 11, 12 (Зависимые): Детализируют механизм расчета Freshness Measure.
- Процесс включает разделение времени на подинтервалы (Claims 7, 8).
- Вычисляется первое значение свежести (Initial Freshness), использующее время создания страницы и количество посещений в подинтервале (Claim 10).
- Вычисляется второе значение свежести (Incremental Freshness), учитывающее свежесть соседних страниц — т.е. свежесть распространяется по графу (Claim 11).
- Итоговый показатель рассчитывается итеративно, накапливаясь по интервалам и учитывая предыдущие значения (механизм затухания) (Claim 12).
Claim 13 (Зависимый): Определяет механизм влияния свежести на ранг.
Оценка ранжирования использует вероятность перехода (Transition Probability), умноженную на функцию Freshness Measure. Это и есть механизм модификации Browse Rank в FBR.
Claims 2, 3, 16 (Зависимые): Описывают комбинированное ранжирование.
Итоговая оценка является комбинацией (например, линейной с весами λ и 1-λ) оценки FBR и запросозависимой оценки (Query-dependent ranking).
Где и как применяется
Изобретение затрагивает сбор данных, офлайн-вычисления и процесс ранжирования.
CRAWLING & DATA ACQUISITION – Сбор данных
Система требует доступа к большим массивам Browsing History Data. В патенте упоминаются источники: данные ISP, локальные файлы браузеров (например, Yandex.Browser), данные мобильных сетей, плагины. Также на этапе краулинга/индексации фиксируется время создания страницы (t(p)).
INDEXING (Офлайн-вычисления и извлечение признаков)
Расчет FBR — это ресурсоемкий офлайн-процесс. Он включает построение глобального графа посещений, итеративное вычисление показателей свежести (F) и стационарного распределения (πF). Результат (FBR скор) сохраняется как статический (запросонезависимый) фактор авторитетности для каждой страницы в индексе.
RANKING – Ранжирование (L2/L3)
На этапе ранжирования FBR используется как сигнал авторитетности и качества. Он комбинируется с запросозависимыми факторами (QD), как описано в Формуле 5b. Это происходит на стадиях Middle Ranking (L2) или Upper Reranking (L3) в рамках основной модели машинного обучения.
На что влияет
- Типы контента и ниши: Значительно влияет на ниши, где актуальность критична (новости, тренды, события — QDF). Страницы, теряющие интерес пользователей, будут быстрее терять авторитетность.
- Динамика авторитетности: Позволяет новым или внезапно ставшим популярным страницам быстро набирать авторитетность за счет свежих поведенческих сигналов.
Когда применяется
- Расчет FBR: Выполняется периодически в офлайн-режиме для обновления индекса. Частота зависит от выбранных временных интервалов (в патенте упоминаются интервалы от 1 часа до 1 дня).
- Применение в ранжировании: Скор FBR применяется при обработке поисковых запросов как один из факторов.
Пошаговый алгоритм
Процесс расчета Fresh Browse Rank (FBR).
Этап 1: Сбор и подготовка данных
- Сбор Browsing History Data и дат создания страниц t(p).
- Построение графа посещений G=(V,E).
- Определение периода анализа (например, 1 неделя) и разделение его на K интервалов.
Этап 2: Расчет Показателя Свежести (F) (Итеративно для интервалов i=1..K)
- Расчет Начальной Свежести (F⁰): Для каждой страницы p вычисляется F⁰ на основе того, была ли она создана в интервале i (nᵢ(p)) и сколько раз ее посетили (mᵢ(p)).
$$F_{i}^{0}(p)=a^{0}n_{i}(p)+b^{0}m_{i}(p)$$
- Расчет Инкрементальной Свежести (ΔF): F⁰ распространяется по графу. ΔF зависит от собственной F⁰ и от ΔF страниц, с которых были переходы (соседей), взвешенных по локальной мере свежести W(p) (Формула 6).
- Обновление Общего Показателя Свежести (F): Вычисляется итоговая свежесть в интервале i путем добавления ΔF к свежести из предыдущего интервала (Fᵢ₋₁), с применением коэффициента затухания β.
$$F_{i}(p)=\beta F_{i-1}(p)+\Delta F_{i}(p)$$
Этап 3: Расчет FBR
- Модификация вероятностей перехода (ωF): Вероятности перехода в графе (ω) модифицируются с учетом итогового показателя свежести Fₖ(p). Вес перехода I(p₁, p₂) заменяется на I(p₁, p₂) × Fₖ(p₂).
- Расчет стационарного распределения (πF): Итеративно вычисляется новое стационарное распределение (аналог PageRank) с использованием ωF (Формула 10).
- Вычисление FBR: Рассчитывается итоговый скор FBR (например, как Q(p) × πF(p)).
Этап 4: Применение в ранжировании (Online)
- Итоговый ранг рассчитывается как комбинация FBR и запросозависимого компонента QD(p,q).
$$f_{\alpha}(p)=\lambda FBR(p)+(1-\lambda)QD(p,q)$$
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Ключевые): История посещений пользователей (Browsing History Data). Конкретно: пары соседних элементов в сессии (переходы); количество посещений страницы в определенный временной интервал (mᵢ(p)).
- Временные факторы: Временные метки посещений в логах. Дата создания страницы t(p), используемая для определения nᵢ(p) (была ли страница создана в текущем интервале).
- Контентные факторы (Косвенно): Используются для расчета QD(p,q) (например, BM25), который затем комбинируется с FBR.
Какие метрики используются и как они считаются
Система использует набор метрик и параметров, которые настраиваются с помощью машинного обучения (градиентный спуск, Eq. 11-18) для оптимизации качества ранжирования.
- Параметры свежести (a⁰, b⁰, a¹, b¹): Веса, определяющие вклад даты создания и количества посещений в расчеты F⁰ и локальной свежести W.
- Параметр μ (Mu): Коэффициент (damping factor), определяющий баланс между собственной начальной свежестью страницы и свежестью, полученной от соседей (Eq. 6).
- Параметр β (Beta): Коэффициент временного затухания (Time Decay). Определяет скорость устаревания свежести при отсутствии новой активности (Eq. 8).
- Параметр α (Alpha): Стандартный damping factor для расчета стационарного распределения (π), аналогичный PageRank.
- Параметр λ (Lambda): Вес, определяющий баланс между FBR и QD в финальной формуле ранжирования (Eq. 5b).
Выводы
- Авторитетность динамична и подвержена затуханию: Патент подтверждает, что Яндекс рассматривает авторитетность (основанную на поведении) не как статическую величину. Механизм временного затухания (β) означает, что авторитет нужно постоянно поддерживать свежим интересом пользователей.
- Комплексное определение свежести: Свежесть в FBR — это комбинация (1) недавней даты создания И (2) недавних посещений пользователями. Оба фактора важны.
- Распространение свежести по графу: Свежесть распространяется подобно PageRank, но через реальные переходы пользователей. Актуальные пути пользователя помогают поддерживать свежесть связанных страниц (Incremental Freshness ΔF).
- Поведенческие данные как основа: FBR полностью зависит от доступа к агрегированным данным о поведении пользователей (логи браузеров, ISP). Это подчеркивает важность экосистемы Яндекса для сбора этих сигналов.
- Интеграция с релевантностью: FBR разработан как мощный запросонезависимый сигнал (авторитетность/качество), который предназначен для совместного использования с запросозависимыми сигналами релевантности (QD).
Практика
Best practices (это мы делаем)
- Обеспечение постоянной вовлеченности: Фокусируйтесь на генерации стабильного и недавнего трафика. Авторитет, согласно FBR, нужно постоянно подтверждать активностью. Используйте различные каналы (соцсети, рассылки) для поддержания интереса.
- Активное продвижение нового контента при запуске: Сильный начальный всплеск трафика на новую страницу максимизирует Начальную Свежесть (F⁰) за счет новизны (nᵢ(p)) и количества визитов (mᵢ(p)), что быстро формирует высокий FBR.
- Оптимизация внутренних переходов (User Flow): Убедитесь, что пользователи активно переходят с популярных или «свежих» страниц на другие релевантные страницы вашего сайта. Это позволяет Инкрементальной Свежести (ΔF) эффективно распространяться внутри структуры сайта.
- Актуализация «вечнозеленого» контента: Регулярно обновляйте и повторно продвигайте старый контент. Это стимулирует новые посещения (mᵢ(p)), что помогает бороться с временным затуханием (β) и поддерживать высокий FBR.
- Точные даты публикации/создания: Убедитесь, что даты создания страниц (t(p)) точны и видны поисковой системе, так как они являются прямым входом для расчета F⁰.
Worst practices (это делать не надо)
- Полагаться на старый авторитет: Стратегия «создал и забыл» неэффективна. Если контент не привлекает свежий трафик, его FBR будет снижаться из-за коэффициента затухания (β), независимо от ссылочного профиля.
- Игнорирование снижения трафика: Падение посещаемости является прямым сигналом к снижению FBR в следующем цикле пересчета. Необходимо оперативно реагировать на такие изменения.
- Манипулирование временными метками без активности: Фальсификация дат создания без соответствующего роста посещений (mᵢ(p)) не будет эффективной, так как оба фактора используются в расчете Начальной Свежести.
Стратегическое значение
Патент подчеркивает стратегический приоритет Яндекса на использование реальных, агрегированных данных о поведении пользователей как меры качества и авторитетности. Он демонстрирует механизм, позволяющий Яндексу быстро реагировать на изменения в интересах пользователей. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на построении реального, устойчивого интереса к ресурсу. Работа над поведенческими факторами и актуальностью становится важнее статического наращивания ссылок.
Практические примеры
Сценарий 1: Влияние Time Decay на старую популярную статью
- Ситуация: Статья была очень популярна 2 года назад, но последние 6 месяцев трафик минимален.
- Действие системы: При расчете свежести (F), Initial Freshness (F⁰) будет низким (мало посещений mᵢ(p)). При каждом обновлении F, общий показатель будет умножаться на коэффициент затухания β (например, 0.9), экспоненциально снижая ее вес.
- Результат: Несмотря на возможный высокий классический PageRank, FBR будет низким. Страница уступит более свежим или недавно посещаемым документам.
- SEO-действие: Обновить контент и запустить кампанию по привлечению трафика (рассылка, соцсети). Это повысит F⁰ в следующем цикле расчета.
Сценарий 2: Быстрый рост нового трендового контента
- Ситуация: Публикуется обзор нового гаджета в день его выхода.
- Действие системы: Страница получает высокий Initial Freshness (F⁰) за счет даты создания (nᵢ(p)=1) и всплеска трафика (mᵢ(p) высок).
- Результат: Страница быстро набирает высокий FBR, что позволяет ей конкурировать в топе выдачи даже при минимальном количестве внешних ссылок.
- SEO-действие: Максимально быстро публиковать контент по трендовым темам и обеспечивать его активную дистрибуцию сразу после публикации.
Вопросы и ответы
Что такое BrowseRank и чем Fresh Browse Rank (FBR) от него отличается?
BrowseRank (BR) — это аналог PageRank, но рассчитываемый не на основе ссылок, а на основе реальных переходов пользователей между страницами (из истории браузинга). Он измеряет статическую авторитетность. FBR — это эволюция BR, которая добавляет фактор времени («свежесть»). FBR придает больший вес недавним переходам и уменьшает вес старых, используя механизм временного затухания.
Что определяет «Свежесть» в этом патенте? Только ли дата публикации?
Нет, свежесть определяется комплексно. Показатель Свежести (Freshness Measure) учитывает два основных компонента в каждом временном интервале: (1) Была ли страница создана в этом интервале (дата публикации/создания). (2) Сколько визитов страница получила в этом интервале (свежесть взаимодействия). Оба фактора вносят вклад.
Что такое «временное затухание» (Time Decay / β) и как оно влияет на мой сайт?
Time Decay (параметр β) — это механизм снижения показателя свежести со временем. Если пользователи перестают активно посещать вашу страницу, ее FBR будет экспоненциально снижаться в каждом следующем временном интервале. Это означает, что авторитетность сайта нужно постоянно поддерживать свежим трафиком, иначе она будет падать.
Как внутренняя перелинковка влияет на FBR?
Перелинковка важна, но только если по ней реально переходят пользователи. FBR распространяется по графу реальных переходов (Browsing Graph), а не по ссылкам в коде. Если вы направите пользователей со «свежих» страниц (например, новостей) на другие важные разделы, эти разделы получат прирост свежести (Incremental Freshness ΔF). Это ключевой механизм управления FBR на сайте.
Означает ли это, что старый контент обречен на низкие позиции?
Не обязательно. Старый контент теряет бонус за новизну создания, но может поддерживать высокий FBR за счет постоянного притока свежего трафика. Если пользователи продолжают активно посещать «вечнозеленую» статью, ее Показатель Свежести будет оставаться высоким, компенсируя эффект затухания.
Откуда Яндекс берет данные истории просмотров для FBR?
В патенте упоминаются различные источники анонимизированных данных: базы данных интернет-провайдеров (ISP), данные браузеров (например, Яндекс.Браузер), данные мобильных сетей, а также данные, собранные через плагины браузеров. Вероятно, также используются данные, собранные через Яндекс.Метрику.
Является ли FBR запросозависимым или запросонезависимым фактором?
FBR является запросонезависимым (статическим) фактором авторитетности. Он рассчитывается офлайн для каждой страницы. Однако в патенте явно указано (Формула 5b), что на этапе ранжирования FBR комбинируется с запросозависимыми факторами (QD), такими как текстовая релевантность (например, BM25).
Как этот алгоритм помогает новым сайтам?
Он позволяет новым сайтам быстрее набирать авторитетность. Поскольку FBR учитывает новизну создания и недавнюю активность, новый сайт, который быстро генерирует значительный трафик, может получить высокий скор FBR быстрее, чем он накопил бы классический PageRank, основанный на ссылках.
Стоит ли пытаться накручивать посещения для повышения FBR?
Это рискованная и, вероятно, неэффективная стратегия. Алгоритм использует данные из надежных источников (браузеры, ISP) и анализирует сложные паттерны переходов в глобальном графе. Искусственный трафик (боты), не демонстрирующий естественных паттернов просмотра и переходов между сайтами, скорее всего, будет отфильтрован и не учтен в расчете FBR.
Какая главная практическая рекомендация для SEO следует из этого патента?
Главная рекомендация — сместить фокус со статического накопления авторитета на динамическое управление вовлеченностью пользователей. Необходимо не только создавать качественный контент, но и активно работать над его дистрибуцией, обновлением и поддержанием стабильного трафика. Авторитетность теперь нужно постоянно подтверждать интересом аудитории.