Как Яндекс использует анализ ссылочного графа и вероятностные модели для определения настоящей даты создания документа

Яндекс патентует вероятностную модель для определения времени создания веб-страниц путем анализа структуры ссылок. Система максимизирует вероятность наблюдаемой сети ссылок, исходя из предположения, что вероятность ссылки экспоненциально зависит от разницы в возрасте между страницами и качества целевой страницы. Это позволяет Яндексу определять даты, даже если временные метки отсутствуют или сфальсифицированы, используя иерархию доверия к источникам (URL, Заголовки).

Описание

Какую задачу решает

Патент решает задачу точного определения оригинального времени создания (Creation Time) веб-ресурсов в ситуациях, когда эта информация неизвестна, ненадежна или приблизительна. Согласно тексту патента, точное знание времени создания критически важно для планирования обхода краулером (web crawler scheduling), ранжирования результатов поиска (ranking of search results) и их сортировки. С точки зрения SEO, этот механизм позволяет поисковой системе выявлять манипуляции с датами (например, попытки выдать старый контент за новый).

Что запатентовано

Запатентован метод определения времени создания веб-ресурса (Target Page) на основе вероятностной модели ссылочного графа (Page Network). Суть изобретения заключается в предположении, что вероятность существования ссылки зависит от разницы во времени создания (Age Difference, a) между исходной и целевой страницами, а также от качества целевой страницы (Quality Parameter, Q). Система подбирает неизвестные даты создания так, чтобы максимизировать общую вероятность наблюдаемой структуры ссылок (Page Network Probability $P_{network}$).

Как это работает

Система работает в две фазы: Инициализация и Оптимизация. Сначала происходит инициализация параметров времени создания (T). Значения берутся из известных дат, извлекаются из контента (URL, HTML) или оцениваются на основе дат соседних страниц (Propagation). Надежные даты фиксируются (Anchor Pages). Затем система итеративно изменяет неизвестные значения T (Target Pages), чтобы максимизировать общую вероятность сети ($P_{network}$). Эта вероятность рассчитывается как произведение вероятностей отдельных ссылок, которые моделируются по формуле, учитывающей экспоненциальное затухание с увеличением разницы в возрасте и качество страницы (например, $P \propto Qe^{-\frac{a}{\tau}}$). Для оптимизации используется метод градиентного спуска.

Актуальность для SEO

Высокая. Точное определение возраста контента остается фундаментальной задачей для оценки свежести и релевантности в поиске. Описанные методы (вероятностное моделирование на графах, оптимизация сложных функций) являются стандартными инструментами Data Science и активно применяются для анализа динамики веба и борьбы с манипуляциями.

Важность для SEO

Влияние на SEO значительно (7/10). Патент не описывает алгоритм ранжирования, но детально раскрывает механизм получения одного из ключевых входных сигналов для ранжирования — точной даты создания. Это критически важно для алгоритмов, зависящих от свежести (Freshness/QDF). Патент демонстрирует, что Яндекс обладает инструментарием для выявления истинного возраста контента, что снижает эффективность манипулятивных SEO-тактик, связанных с искусственным «омоложением» страниц.

Детальный разбор

Термины и определения

Age Difference (a) (Разница в возрасте): Разница между параметрами времени создания исходной ($T_{source}$) и целевой ($T_{dest}$) страниц ссылки. $a = T_{source} — T_{dest}$.
Anchor Page (Анкорная страница): Страница в сети, для которой время создания известно и считается достоверным (например, извлечено из URL). Параметр T этой страницы остается фиксированным в процессе оптимизации.
Creation Time (Время создания): Время, когда веб-ресурс был впервые загружен на хост и стал доступен через сеть. Патент фокусируется именно на дате создания, а не на дате модификации.
Creation Time Parameter (T) (Параметр времени создания): Переменная, обозначающая время создания страницы. Цель алгоритма — найти истинное значение этой переменной для целевых страниц.
Decay Parameter ($\tau$, Тау) (Параметр затухания): Параметр, характеризующий скорость устаревания страниц или скорость снижения вероятности появления ссылки с увеличением разницы в возрасте. Может быть характерен для хоста или всей сети.
Extracted Value of Creation Time (Извлеченное значение времени создания): Значение времени создания, полученное путем анализа контента страницы (URL, исходный код) на наличие временных выражений (Textual Analysis).
Link Probability (P) (Вероятность ссылки): Вероятность существования конкретной ссылки между исходной и целевой страницами. В патенте предполагается, что она зависит от разницы в возрасте (a), параметра качества (Q) и параметра затухания ($\tau$).
Page Network (Сеть страниц): Граф, в котором узлы представляют веб-страницы, а ребра — ссылки между ними.
Page Network Probability ($P_{network}$) (Вероятность сети страниц): Общая вероятность существования наблюдаемой сети страниц с ее структурой ссылок. Рассчитывается как произведение вероятностей отдельных ссылок (Link Probability P).
Propagated Value of Creation Time (Распространенное значение времени создания): Оценка времени создания страницы, полученная на основе известных или извлеченных дат создания соседних страниц в графе (используется для инициализации).
Quality Parameter (Q) (Параметр качества): Показатель полезности или популярности страницы. Страницы с более высоким Q имеют большую вероятность получения входящих ссылок. Может инициализироваться количеством входящих ссылок.
Target Page (Целевая страница): Страница, время создания которой неизвестно, ненадежно или известно приблизительно, и которое требуется определить.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе определения неизвестных дат создания путем максимизации вероятности наблюдаемого ссылочного графа.

Claim 1 (Независимый пункт): Описывает основной процесс (Метод 500).

Создается сеть страниц (Page Network) с известными и неизвестными временами создания.
Каждой странице присваивается параметр времени создания (T).
Начальные значения T присваиваются (известные даты используются там, где они есть).
Значение T целевой страницы (Target Page) варьируется для максимизации общей вероятности сети ($P_{network}$).
$P_{network}$ основана на вероятностях отдельных ссылок (P), которые, в свою очередь, основаны на разнице между T исходной и T целевой страницы (разница в возрасте, a).
Итоговое время создания определяется как значение T, которое максимизирует $P_{network}$.

Claim 2 (Зависимый от 1): Уточняет, что метод применим для одновременного определения дат нескольких целевых страниц путем одновременного варьирования их параметров T для нахождения глобального максимума $P_{network}$.

Claims 4, 5, 6 (Зависимые): Описывают методы инициализации T с помощью текстового анализа и иерархию надежности (часть Метода 600).

Значение T может быть извлечено из URL или исходного кода. Надежность зависит от места извлечения. URL, Заголовок (Title) или часть исходного кода до основного контента считаются надежными. Если значение надежно, страница становится Anchor Page (Claim 6), и ее дата фиксируется (Claim 3).

Claim 7 (Зависимый от 1): Описывает инициализацию T с помощью распространения (Propagation) дат от связанных страниц.

Claims 8, 10 (Зависимые): Вводят Параметр Качества (Q).

Вероятность ссылки (P) дополнительно зависит от Quality Parameter (Q) целевой страницы. Если Q неизвестен, он также может быть определен путем максимизации $P_{network}$.

Claim 13 (Зависимый): Определяет конкретную формулу для вероятности ссылки P (экспоненциальная модель).

Вероятность ссылки пропорциональна:

$$ P \propto Qe^{-\frac{a}{\tau}} \quad (\text{для } a \ge 0) $$

Где a — разница в возрасте, Q — качество, $\tau$ — параметр затухания. Это модель экспоненциального затухания вероятности ссылки с увеличением разницы во времени создания.

Claims 14, 15 (Зависимые): Предлагают альтернативную формулу с использованием сигмоидной функции S(a): $P \propto Qe^{-\frac{a}{\tau}}S(a)$. Это делает модель дифференцируемой и упрощает оптимизацию с помощью градиентного спуска (Claim 17).

Где и как применяется

Изобретение применяется на этапе обработки данных после сканирования и перед основным ранжированием.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Определение точной даты создания документа — это процесс извлечения ключевого признака (feature extraction).

Анализ контента: На этапе парсинга происходит текстовый анализ (URL, HTML) для извлечения первичных временных меток (Метод 600 патента).
Построение графа и Пропагация: Система использует ссылочный граф для построения Page Network и выполнения пропагации дат для инициализации.
Оптимизация: Выполнение основного алгоритма максимизации $P_{network}$ (Метод 500 патента) для определения неизвестных дат. Это ресурсоемкий офлайн-процесс.
Хранение: Полученная дата создания сохраняется как атрибут документа в индексе (Forward Index).

CRAWLING – Сканирование и Сбор данных
В патенте прямо указано, что результаты работы алгоритма (точные даты) используются для оптимизации планировщика обхода (web crawler scheduling).

RANKING – Ранжирование
Сам алгоритм определения дат не выполняется на этапе ранжирования, но его результаты (точные даты создания) используются формулой ранжирования как один из факторов (патент упоминает «ranking of search results»), особенно для оценки свежести (Freshness) документа.

На что влияет

Конкретные типы контента: Влияет на все типы контента. Особенно критично для контента, где важна свежесть (новости, события) или, наоборот, для «вечнозеленого» контента, где важно понимать его истинный возраст и историю.
Специфические запросы: Запросы, для которых важна свежесть (QDF — Query Deserves Freshness). Точное определение даты позволяет Яндексу лучше применять бустинг свежего контента.
Манипуляции: Влияет на эффективность тактик искусственного омоложения контента, так как система может верифицировать заявленные даты через ссылочный анализ.

Когда применяется

Алгоритм применяется в процессе индексации и переиндексации веб-ресурсов. Это офлайн-процесс.

Триггеры активации: Индексация новой страницы или обновление страницы, для которой время создания неизвестно, приблизительно или определено как ненадежное (например, если дата извлечена только из тела документа, а не из URL/Title).
Условия работы: Наличие достаточного количества ссылок для построения Page Network. Для точности оптимизации желательно наличие хотя бы нескольких Anchor Pages (страниц с известными датами) в сети.

Пошаговый алгоритм

Процесс определения времени создания веб-ресурса состоит из двух основных фаз.

Фаза 1: Инициализация параметров времени создания (T) (Метод 600)

Сбор известных дат: Присвоение T для страниц с уже известным временем создания.
Текстовый анализ (Extraction): Анализ URL и исходного кода страниц для поиска временных выражений. Анализ проводится в порядке убывания надежности локаций: URL -> Title -> Код до Body -> Код после Body -> Body.
Классификация страниц: Определение Anchor Pages (надежная дата, T фиксируется) и Target Pages (ненадежная или отсутствующая дата, T варьируется). Извлеченные даты используются как начальные значения.
Распространение (Propagation): Для страниц без извлеченных дат (Undated Pages) оценка T на основе дат связанных с ними страниц (Dated Pages). Могут использоваться методы среднего, медианы или q-квантиля.
Значения по умолчанию: Для оставшихся страниц используются предопределенные значения.

Фаза 2: Оптимизация и Определение дат (Метод 500)

Создание Сети Страниц (Page Network Construction): Формируется граф на основе ссылок.
Инициализация других параметров (Опционально): Присвоение начальных значений Параметрам Качества (Q) и определение Параметра Затухания ($\tau$).
Максимизация Вероятности Сети:
1. Расчет текущей вероятности сети ($P_{network}$) как произведения вероятностей всех ссылок (P). Вероятность ссылки рассчитывается по формуле, например, $P \propto Qe^{-\frac{a}{\tau}}$.
2. Итеративное изменение значений T (и, возможно, Q и $\tau$) целевых страниц для увеличения $P_{network}$. Для этого используется метод градиентного спуска (Gradient Descent). Значения T для Anchor Pages остаются фиксированными.
3. Процесс продолжается до достижения максимума $P_{network}$.
Определение Времени Создания: Значения параметров T, которые обеспечивают максимум $P_{network}$, принимаются за истинное время создания целевых страниц.

Какие данные и как использует

Данные на входе

Ссылочные факторы: Структура ссылочного графа (Page Network) является основой для построения модели. Количество входящих ссылок может использоваться для инициализации параметра Q.
Контентные факторы: Исходный код (HTML) страниц. Используется для извлечения временных выражений из различных локаций (Title, Body, Metadata).
Технические факторы (Структурные): URL страниц. Используется для извлечения временных выражений (наиболее надежный источник).
Временные факторы: Известные даты создания некоторых страниц (Anchor Pages), которые используются для инициализации и калибровки модели.

Какие метрики используются и как они считаются

Creation Time Parameter (T): Основная искомая переменная.
Age Difference (a): Разница во времени создания. $a = T_{source} — T_{dest}$.
Quality Parameter (Q): Метрика качества/популярности страницы. Может быть предопределена или вычисляться в процессе оптимизации.
Decay Parameter ($\tau$): Метрика скорости устаревания контента. Может быть вычислена на основе анализа ссылок между страницами с известными датами.
Link Probability (P): Вероятность ссылки. В патенте предложены формулы:
- Экспоненциальная модель: $P \propto Qe^{-\frac{a}{\tau}}$ (для $a \ge 0$).
- Сигмоидная модель: $P \propto Qe^{-\frac{a}{\tau}}S(a)$, где S(a) — сигмоидная функция, используемая для упрощения оптимизации (обеспечения дифференцируемости).
Page Network Probability ($P_{network}$): Целевая функция для максимизации. Является произведением всех Link Probability (P) в сети.
Методы оптимизации: В патенте упоминается использование метода градиентного спуска (Gradient Descent) для нахождения значений T, максимизирующих $P_{network}$.

Выводы

Определение дат через ссылочный анализ: Яндекс использует сложную вероятностную модель, основанную на динамике ссылочного графа, для определения времени создания документов. Это не простое извлечение таймстемпов.
Иерархия доверия к источникам дат: Патент четко определяет, какие локации на странице считаются надежными источниками времени создания. Иерархия следующая: URL > Заголовок (Title) > Метаданные до основного контента. Даты в основном контенте (Body) менее надежны и требуют верификации.
Устойчивость к манипуляциям: Система предназначена для определения истинного времени создания, даже если временные метки на самой странице сфальсифицированы. Она полагается на структуру ссылок, которую сложнее подделать консистентно.
Связь времени и качества: Модель явно связывает вероятность появления ссылки с качеством целевой страницы (Q) и разницей во времени (a). Предполагается, что ссылки чаще ведут на качественные страницы, и эта вероятность экспоненциально уменьшается по мере увеличения разницы в возрасте.
Фокус на оригинальной дате создания: Система нацелена на определение именно первой даты публикации ресурса (Inception Date), а не даты его обновления.

Практика

Best practices (это мы делаем)

Размещайте даты в надежных местах: Для контента, где дата создания критична (новости, блоги), убедитесь, что дата присутствует в URL и/или Заголовке (Title). Согласно патенту (Claim 6), это наиболее надежные источники, которые позволят системе классифицировать вашу страницу как Anchor Page (с надежной, фиксированной датой).
Обеспечение консистентности временных сигналов: Убедитесь, что все сигналы о дате создания (дата в URL, в Title, в тексте статьи, в микроразметке Schema.org (datePublished), в Sitemap) согласованы и отражают реальное время создания контента.
Размещение метаданных до основного контента: Указывайте дату создания в метаданных (например, Open Graph, Schema.org), расположенных до основного контента (Above the Body). Это повышает надежность сигнала по сравнению с размещением в футере или внутри текста.
Поддерживайте логичную хронологию в структуре сайта: Поскольку система использует распространение дат (Propagation) и вероятностную модель, логичная внутренняя перелинковка, уважающая хронологию контента (например, новые статьи ссылаются на релевантные старые), помогает системе точнее оценивать даты.

Worst practices (это делать не надо)

Искусственное омоложение контента (Fake Freshness / Date Spinning): Изменение даты публикации старой статьи в CMS без существенного обновления контента. Этот патент описывает механизм, который может игнорировать заявленную дату, если ссылочный профиль (даты ссылающихся страниц) указывает на более старую дату создания.
Отсутствие дат или размещение только в контенте/футере: Если дата указана только в основном тексте (Body) или в футере, система считает ее менее надежной. Это увеличивает вероятность того, что дата будет определена через ссылочный анализ, что может быть менее предсказуемо.
Противоречивые временные сигналы: Наличие разных дат в URL, Title и контенте запутает систему и снизит надежность всех извлеченных значений, превращая страницу в Target Page.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на понимание временной динамики веба и борьбу с манипуляциями. Он показывает, что ссылочный граф используется не только для расчета авторитетности, но и для верификации базовых атрибутов документа, таких как время создания. Для SEO это означает, что долгосрочная стратегия должна строиться на создании качественного контента с прозрачной историей и естественным развитием ссылочного профиля. Попытки обмануть систему путем манипуляции датами имеют ограниченную эффективность.

Практические примеры

Сценарий 1: Попытка омоложения старой статьи (Выявление манипуляции)

Ситуация: У вас есть статья 2018 года, на которую ведут 50 ссылок со страниц, также созданных в 2018-2019 годах.
Действие SEO: Вы меняете дату публикации в CMS на текущую (2025 год), чтобы получить буст за свежесть. Дата указана только в тексте статьи (ненадежный источник).
Действие системы: Система классифицирует страницу как Target Page. Анализируя Page Network, система видит, что если принять дату 2025, то разница в возрасте (a) между ссылающимися страницами (2018) и вашей статьей (2025) будет отрицательной. Вероятность такой сети ссылок крайне низка.
Результат: Система будет итеративно изменять дату вашей статьи (T), чтобы максимизировать $P_{network}$. Максимум будет достигнут, когда дата вашей статьи будет близка к 2018 году. Система определит истинную дату создания и проигнорирует заявленную дату 2025 года.

Сценарий 2: Публикация новой новостной статьи (Фиксация даты)

Ситуация: Вы публикуете срочную новость, используя URL с датой: /2025/11/25/news.html.
Действие системы (Инициализация): Система извлекает дату из URL (надежный источник согласно Claim 6) и фиксирует ее. Страница становится Anchor Page.
Действие системы (Верификация): В течение короткого времени на статью появляются ссылки с других свежих новостных агрегаторов. Разница в возрасте (a) очень мала.
Результат: Согласно формуле $P \propto Qe^{-\frac{a}{\tau}}$, при малом ‘a’ вероятность P высока. Наблюдаемая сеть ссылок подтверждает заявленную дату. Страница получает точную временную метку и может корректно ранжироваться по запросам, требующим свежести.

Вопросы и ответы

Какое местоположение даты на странице Яндекс считает самым надежным согласно этому патенту?

Патент устанавливает четкую иерархию надежности (Claim 6). Наиболее надежными считаются даты, извлеченные из URL страницы. За ними следуют Заголовок (Title) и части исходного кода, расположенные до основного контента (например, метаданные в HEAD). Даты из этих мест с высокой вероятностью будут зафиксированы как достоверные (Anchor Page).

Что произойдет, если я изменю дату публикации старой статьи на сегодняшнюю?

Патент описывает механизм, который противодействует такой манипуляции. Система анализирует даты создания страниц, которые ссылаются на вашу статью. Если большинство ссылок старые, вероятностная модель покажет, что заявленная новая дата маловероятна. Система подберет такую дату создания (T), которая максимизирует вероятность наблюдаемой сети ссылок ($P_{network}$), и эта дата, скорее всего, будет близка к оригинальной дате создания.

Что такое «Параметр Качества (Q)» в этом патенте и как он влияет на SEO?

Параметр Качества (Q) — это показатель популярности или полезности страницы. В контексте патента, он напрямую влияет на вероятность того, что на страницу поставят ссылку ($P \propto Qe^{-\frac{a}{\tau}}$). Высокий Q означает большую вероятность получения ссылок. Система может определять Q одновременно с датой создания. Для SEO это еще одно подтверждение того, что качество и авторитетность (которые коррелируют с Q) являются фундаментальными элементами анализа.

Что произойдет, если на моей странице вообще нет дат?

Если дату невозможно извлечь из текста или URL, система использует два механизма. Сначала она попытается оценить дату путем распространения (Propagation) дат от связанных страниц (на которые ссылаетесь вы и которые ссылаются на вас). Затем она уточнит эту оценку с помощью основного вероятностного алгоритма (Оптимизации), анализируя структуру ссылок, чтобы найти наиболее вероятную дату создания.

Модель предполагает, что ссылки указывают только с новых страниц на старые?

В основном да. Базовая модель предполагает, что разница в возрасте $a \ge 0$. Однако патент также описывает использование сигмоидной функции (Claim 14), которая допускает небольшую вероятность того, что старая страница сошлется на более новую ($a < 0$). Это делает модель более гибкой и упрощает математическую оптимизацию (градиентный спуск), но основное предположение остается прежним.

Что такое «Параметр Затухания ($\tau$)»?

Параметр Затухания ($\tau$, тау) характеризует скорость устаревания контента. Он определяет, насколько быстро уменьшается вероятность получения ссылки с увеличением разницы в возрасте между источником и акцептором. Этот параметр может быть разным для разных хостов или тематик (например, у новостей скорость затухания выше, чем у энциклопедических статей).

Относится ли этот патент к дате последнего обновления (Last Modified) или свежести контента?

Нет, патент явно фокусируется на определении изначального времени создания (Creation Time) ресурса — момента, когда он впервые стал доступен в сети. Хотя система использует эту дату для задач, связанных со свежестью (ранжирование, краулинг), сам механизм направлен на определение даты появления (inception date), а не даты модификации.

Использует ли эта система заголовки Last-Modified или дату в Sitemap?

В патенте эти источники явно не упоминаются, но они могут использоваться на этапе инициализации как один из видов «известного времени создания» или извлеченного значения. Однако ключевая особенность патента в том, что он не полагается слепо на эти данные, а верифицирует их через анализ ссылочного графа. Если данные в Sitemap сильно противоречат ссылочному профилю, система может предпочесть дату, вычисленную по графу.

Что такое Anchor Page и Target Page?

Anchor Page (Анкорная страница) — это страница с известной и надежной датой создания (например, из URL). Ее дата фиксирована и служит опорой для модели. Target Page (Целевая страница) — это страница с неизвестной или ненадежной датой. Система итеративно изменяет предполагаемую дату Target Page, чтобы найти наиболее вероятное значение относительно фиксированных дат Anchor Pages.

Как лучше всего сигнализировать Яндексу о дате создания контента?

Лучшая стратегия — обеспечить максимальную консистентность и использовать надежные источники. Включайте дату в URL (если применимо). Указывайте ее в Заголовке (Title) или метаданных до основного контента (HEAD). Обязательно используйте микроразметку (например, datePublished в Schema.org) и предоставляйте корректные даты в Sitemap. Согласованность этих сигналов максимизирует вероятность того, что ваша дата будет принята как достоверная.