Как Яндекс определяет дату создания документа, используя вероятностный анализ ссылочного графа и иерархию надежности источников

Яндекс патентует метод определения неизвестной даты создания веб-страницы путем анализа ссылочного графа. Система рассчитывает вероятность существования каждой ссылки на основе разницы в возрасте между страницами, их качества (Q) и скорости устаревания контента (τ). Неизвестные даты подбираются так, чтобы максимизировать общую вероятность наблюдаемой структуры ссылок. Метод также устанавливает иерархию надежности для дат, извлеченных из URL, заголовков и контента.

Описание

Какую задачу решает

Патент решает задачу точного определения времени создания (Creation Time) веб-ресурса (страницы), когда эта информация отсутствует, ненадежна или приблизительна (например, известен только год). Точное знание даты создания критически важно для задач информационного поиска, включая планирование обхода краулером (web crawler scheduling), ранжирование и сортировку результатов (например, для оценки свежести). Алгоритм также помогает бороться с манипуляциями, когда вебмастера пытаются искусственно завысить свежесть контента.

Что запатентовано

Запатентован метод определения времени создания страницы на основе вероятностного анализа ссылочного графа. Суть изобретения заключается в предположении, что вероятность существования ссылки (Link Probability) зависит от разницы во времени создания источника и акцептора (Age Difference). Система итеративно подбирает неизвестные даты создания (Target Pages) так, чтобы максимизировать общую вероятность наблюдаемой структуры сети (Page Network Probability).

Как это работает

Система строит сеть страниц (Page Network) и инициализирует параметры времени создания (T). Если дата известна и надежна (например, извлечена из URL), она фиксируется (Anchor Page). Для неизвестных дат используются начальные оценки, полученные путем анализа текста/URL (Extracted Value) или путем распространения дат от связанных страниц (Propagated Value). Затем система итеративно оптимизирует неизвестные значения T, чтобы максимизировать общую вероятность сети. Эта вероятность рассчитывается на основе вероятностей отдельных ссылок, которые обычно экспоненциально уменьшаются с увеличением разницы в возрасте и зависят от качества страницы (Q).

Актуальность для SEO

Высокая. Определение точного возраста контента остается фундаментальной задачей для поисковых систем, критически важной для оценки свежести (QDF — Query Deserves Freshness) и исторической авторитетности. Использование ссылочного графа и вероятностных моделей для вывода метаданных о документах является стандартной практикой в современных системах Information Retrieval.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент описывает инфраструктурный механизм, точность определения даты создания напрямую влияет на ранжирование контента, чувствительного к свежести. Патент демонстрирует, что Яндекс может игнорировать заявленные даты (например, в Sitemap или контенте), если они противоречат временной структуре ссылочного графа, и устанавливает четкую иерархию надежности источников дат.

Детальный разбор

Термины и определения

Age Difference (a) (Разница в возрасте): Разница между параметром времени создания исходной страницы (Source) и целевой страницы (Destination) ссылки. Рассчитывается как $a = T_{source} — T_{dest}$.
Anchor Page (Анкорная страница): Страница в сети, для которой время создания известно и надежно. Ее параметр T фиксируется в процессе оптимизации.
Creation Time Parameter (T) (Параметр времени создания): Переменная, представляющая время создания страницы в модели. Для Target Pages это значение итеративно оптимизируется.
Decay Parameter (τ) (Параметр затухания): Параметр, характеризующий скорость устаревания контента. Определяет, насколько быстро вероятность ссылки уменьшается с увеличением разницы в возрасте (a). Большее значение τ означает более медленное затухание. Может быть характеристикой хоста или сети.
Extracted Value (Извлеченное значение): Значение времени создания, полученное путем анализа временных выражений в URL или исходном коде (например, HTML) страницы.
Link Probability (P) (Вероятность ссылки): Вероятность существования конкретной ссылки. Зависит от разницы в возрасте (a), параметра качества (Q) акцептора и параметра затухания (τ).
Page Network (Сеть страниц): Граф страниц и ссылок между ними, используемый для анализа.
Page Network Probability (P_network) (Вероятность сети страниц): Общая вероятность существования наблюдаемой структуры ссылок. Рассчитывается как произведение вероятностей отдельных ссылок (P). Является целевой функцией для максимизации.
Propagated Value (Распространенное значение): Оценка времени создания страницы, полученная на основе известных или извлеченных дат связанных с ней страниц (например, среднее, медиана или квантиль дат соседей по графу).
Quality Parameter (Q) (Параметр качества): Показатель полезности или популярности страницы. Страницы с более высоким Q имеют большую вероятность получения входящих ссылок.
Sigmoid Function (S(a)) (Сигмоидная функция): Функция от разницы в возрасте (a), используемая в некоторых вариантах расчета P для обеспечения дифференцируемости и учета ссылок со старых страниц на новые (a < 0).
Target Page (Целевая страница): Страница, для которой время создания неизвестно или ненадежно, и которое система пытается определить.

Ключевые утверждения (Анализ Claims)

Патент защищает метод определения неизвестного времени создания веб-ресурса путем оптимизации вероятностной модели ссылочной сети.

Claim 1 (Независимый пункт): Описывает основной метод определения времени создания целевой страницы (Target Page).

Создается сеть страниц (Page Network). Каждая страница имеет параметр времени создания (T). Время создания целевой страницы неизвестно.
Назначаются начальные значения T. Для страниц с известной датой T фиксируется.
Критически важно (согласно Claim 1 патента US9934319B2): Для целевой страницы начальное значение T определяется как Propagated Value, рассчитанное на основе параметров T связанных с ней страниц (источников входящих и/или акцепторов исходящих ссылок).
Определяется вероятность сети (P_network), основанная на вероятностях отдельных ссылок (P), которые зависят от разницы в возрасте (a).
Значение T целевой страницы варьируется для максимизации P_network.
Итоговое время создания определяется как значение T, которое максимизирует P_network.

Claim 2 (Зависит от 1): Расширяет метод на случай нескольких целевых страниц.

Параметры T всех целевых страниц варьируются одновременно для нахождения глобального максимума P_network.

Claims 4, 5, 6 (Зависимые): Описывают использование извлеченных дат (Extracted Value) и их надежность.

Начальное значение T может быть получено путем анализа URL или исходного кода (Claim 4). Если значение извлечено из надежного места (Claim 6: URL, заголовок Title, или часть кода до основного контента Body), оно может считаться известным временем создания (Claim 5), и страница не рассматривается как целевая (становится Anchor Page).

Claims 8-15: Детализируют формулы расчета вероятности ссылки (P).

Вероятность ссылки P зависит от Quality Parameter (Q) акцептора (Claim 8) и Decay Parameter (τ) (Claim 11). Q и τ могут быть неизвестны и также определяться путем максимизации P_network (Claims 10, 12). Описаны конкретные формулы:

Claim 13: Экспоненциальная зависимость: $P \propto Qe^{-\frac{a}{\tau}}$ (для $a \ge 0$).
Claim 14: С использованием сигмоидной функции: $P \propto Qe^{-\frac{a}{\tau}}S(a)$.

Где и как применяется

Изобретение применяется на этапе обработки данных, связанном с индексацией и подготовкой данных для ранжирования.

CRAWLING – Сканирование и Сбор данных
Система использует данные, собранные краулером (исходный код, URL, структуру ссылок). Результаты работы этого алгоритма (точные даты создания) затем используются для оптимизации планировщика краулера (подсистема Scraper) для более эффективного обнаружения свежего контента (crawler scheduling).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Определение времени создания документа — это процесс извлечения признака (Feature Extraction). Алгоритм анализирует проиндексированные данные (текст и ссылки) для определения точной даты. Этот процесс, вероятно, выполняется офлайн из-за его итеративной природы. Полученная дата сохраняется в индексе (Прямой Индекс — Forward Index) как свойство документа.

Взаимодействие с компонентами:

Parser Platform: Используется на этапе инициализации для анализа HTML и извлечения временных выражений (Extracted Value).
Link Graph (Граф связей): Используется для построения Page Network и для распространения дат (Propagated Value).

RANKING – Ранжирование
Алгоритм напрямую не участвует в ранжировании, но предоставляет для него критически важные данные. Точные даты создания используются формулами ранжирования как фактор, особенно в контексте запросов, требующих свежести (QDF — Query Deserves Freshness) или при сортировке результатов по дате.

На что влияет

Конкретные типы контента: Влияет на любые веб-ресурсы, где важна дата создания (новости, статьи, блоги, форумы).
Специфические запросы: Влияет на ранжирование по запросам, чувствительным к свежести (QDF), и запросам, требующим исторического контекста.
Манипуляции с датами: Снижает эффективность тактик искусственного обновления дат публикации, так как система может верифицировать возраст по ссылочному графу.

Когда применяется

Триггеры активации: Активируется, когда система сталкивается со страницей (Target Page), для которой время создания неизвестно или надежность извлеченной даты (Extracted Value) низкая (например, дата извлечена только из основного контента HTML body).
Условия работы: Требует наличия ссылочных связей между анализируемыми страницами. Наличие Anchor Pages (страниц с известными датами) необходимо для калибровки временной шкалы.

Пошаговый алгоритм

Процесс состоит из двух основных фаз: инициализация дат и оптимизация.

Фаза 1: Инициализация параметров времени создания (T) (Детально описана как метод 600 в патенте)

Сбор данных: Система создает Page Network.
Использование известных дат: Для страниц с уже известным временем создания T фиксируется (Anchor Pages).
Извлечение дат (Extraction): Страницы без известной даты анализируются (URL, исходный код) для поиска временных выражений (Extracted Value).
Оценка надежности: Оценивается надежность извлеченных дат по месту извлечения (URL/Title/Метаданные надежнее, чем Body). Надежные даты фиксируются (Anchor Pages). Ненадежные используются как начальное значение T (Target Pages).
Распространение дат (Propagation): Для страниц без извлеченных дат, но связанных с датированными страницами, рассчитывается Propagated Value (например, среднее, медиана или квантиль дат соседей). Эти значения назначаются как начальные T (Target Pages).
Назначение по умолчанию: Для оставшихся (изолированных) страниц назначается предопределенное значение.

Фаза 2: Оптимизация параметров (T) (Описана как метод 500 в патенте)

Расчет вероятности сети: На основе текущих значений T рассчитывается общая вероятность сети P_network (на основе вероятностей всех ссылок P).
Итеративная оптимизация: Значения T для Target Pages варьируются (например, с помощью метода градиентного спуска), чтобы найти максимум P_network. T для Anchor Pages остаются фиксированными.
Определение дополнительных параметров (Опционально): На этом же этапе могут оптимизироваться неизвестные параметры качества (Q) и/или параметр затухания (τ).
Завершение: При достижении максимума P_network, соответствующие значения T принимаются как итоговое время создания целевых страниц.

Какие данные и как использует

Данные на входе

Ссылочные факторы: Структура ссылочного графа (Page Network) — основа метода. Используются данные о том, какая страница ссылается на какую.
Контентные и Технические факторы: URL и исходный код (HTML). Используются для извлечения временных выражений (Extracted Value). Анализируются разные части: URL, Title, метаданные до Body, сам Body.
Временные факторы: Известные времена создания для Anchor Pages.
Поведенческие/Популярность (косвенно): Могут использоваться для определения Quality Parameter (Q). В патенте упоминается, что Q может базироваться на числе входящих ссылок или просмотров.

Какие метрики используются и как они считаются

Age Difference (a): $a = T_{source} — T_{dest}$.
Quality Parameter (Q) и Decay Parameter (τ): Могут быть предопределены или оптимизированы в процессе. τ может быть вычислен путем анализа распределения разницы в возрасте для ссылок между страницами с известными датами (по наклону логарифмического графика этого распределения).
Link Probability (P): Патент предлагает варианты расчета:

Вариант 1: Экспоненциальная зависимость (предполагается $a \ge 0$):

$$P \propto Qe^{-\frac{a}{\tau}}$$

Вариант 2: Использование сигмоидной функции S(a) (для всех a):

$$P \propto Qe^{-\frac{a}{\tau}}S(a)$$

Пример сигмоидной функции (где c — параметр функции):

$$S(a) = 1 — \frac{1}{2}e^{-ca} \text{ (для } a \ge 0); \quad S(a) = \frac{e^{ca}}{2} \text{ (для } a < 0)$$

Page Network Probability (P_network): Рассчитывается на основе произведения вероятностей P всех ссылок в сети. $P_{network} = \prod P_{link}$.
Методы оптимизации: Используется метод градиентного спуска (Gradient Descent) для максимизации P_network.
Методы Propagation: Используются статистические методы для оценки начальных дат: среднее (Average), медиана (Median), q-квантиль (q-quantile).

Выводы

Независимая оценка возраста контента: Яндекс располагает механизмом для определения даты создания страницы, который опирается не только на заявленные вебмастером даты, но и на анализ временной структуры ссылочного графа.
Иерархия надежности источников дат: Патент устанавливает четкую иерархию надежности: URL > Title > Метаданные до Body > Body. Даты из надежных источников фиксируются (Anchor Pages), остальные верифицируются через граф.
Вероятностная модель ссылок: Ключевое предположение модели — вероятность ссылки экспоненциально падает с увеличением разницы в возрасте между документами, но также зависит от качества (Q) акцептора и скорости устаревания контента (τ).
Важность ссылочного окружения: Возраст страницы определяется в контексте возраста ее ссылочных соседей. Если заявленная дата сильно отличается от дат связанных страниц, система может скорректировать ее для достижения максимального правдоподобия графа.
Борьба с манипуляцией свежестью: Попытки искусственно «омолодить» старый контент путем изменения даты публикации могут быть неэффективны, так как алгоритм опирается на структуру ссылок, которую сложнее изменить задним числом.

Практика

Best practices (это мы делаем)

Размещение дат в надежных местах: Для контента, где важна дата, убедитесь, что она указана в наиболее надежных местах. Идеально — в структуре URL (например, /yyyy/mm/dd/slug). Если нет, то в Title или в метаданных (включая микроразметку datePublished) в начале HTML-документа (до основного ). Это позволит системе классифицировать страницу как Anchor Page.
Согласованность дат: Убедитесь, что даты в URL, метаданных, видимом контенте и Sitemap согласованы. Противоречивые сигналы снижают надежность и могут привести к активации вероятностного определения даты.
Естественное темпоральное развитие ссылочного профиля: Привлекайте ссылки на новый контент своевременно. Естественно, когда новый контент получает ссылки вскоре после публикации с других недавно созданных или обновленных страниц. Это помогает системе точно определить дату через механизмы Propagation и Optimization.
Повышение качества ресурса (Q): Работайте над повышением популярности и авторитетности страниц. Высокий Quality Parameter (Q) увеличивает вероятность ссылок в модели, подтверждая важность комплексной работы над качеством ресурса.

Worst practices (это делать не надо)

Искусственное омоложение контента (Date Spinning): Изменение даты публикации старой статьи на текущую без существенного изменения контента. Алгоритм может выявить реальный возраст по ссылочному окружению и проигнорировать новую дату, особенно если она указана в ненадежном месте (Body).
Скрытие или удаление дат публикации: Отсутствие четких сигналов вынуждает систему полностью полагаться на анализ ссылок, что может привести к непредсказуемым результатам определения возраста.
Размещение дат только в ненадежных местах: Указание даты только в футере или в середине текста (HTML body). Патент явно указывает, что такие источники менее надежны и будут перепроверены.

Стратегическое значение

Патент подтверждает, что Яндекс глубоко анализирует временные аспекты веба. Это подчеркивает важность комплексного подхода, где техническая оптимизация (корректность дат) и линкбилдинг (естественность темпорального профиля) взаимосвязаны. Стратегически важно обеспечить максимальную прозрачность и честность в отношении возраста контента, чтобы избежать некорректной оценки свежести поисковой системой.

Практические примеры

Сценарий 1: Попытка омоложения старого контента

Ситуация: Владелец сайта берет статью 2018 года и меняет дату публикации в тексте (Body) на ноябрь 2025 года. URL и метаданные не меняются.
Действие системы (Инициализация): Система извлекает новую дату (2025) из Body, но считает ее ненадежной. Активируется алгоритм. Система анализирует ссылочное окружение: на страницу ссылаются документы 2018-2019 годов, и она сама ссылается на контент 2017-2018 годов. Propagated Value будет близко к 2018 году.
Действие системы (Оптимизация): Система варьирует дату T. Вероятность P_network будет максимальной, если T близко к 2018 году, так как это лучше объясняет существующие ссылки.
Результат: Система определяет реальный возраст контента как 2018 год и игнорирует заявленную дату 2025 для факторов свежести.

Сценарий 2: Обеспечение точной датировки новости

Ситуация: Новостной сайт хочет гарантировать, что Яндекс максимально быстро и точно определит время публикации.
SEO-действие: Внедряется структура URL с датой (site.com/2025/11/24/news), дата дублируется в Title и в микроразметке datePublished в документа.
Действие системы (Инициализация): Система извлекает дату из URL, Title и метаданных. Это надежные источники. Даты согласованы.
Результат: Страница классифицируется как Anchor Page. Дата фиксируется немедленно и точно, алгоритм оптимизации по графу не требуется. Страница корректно ранжируется по свежим запросам.

Вопросы и ответы

Что такое Page Network Probability и почему система пытается ее максимизировать?

Page Network Probability (P_network) — это общая вероятность того, что наблюдаемая структура ссылок в сети могла возникнуть естественным путем, исходя из предполагаемых дат создания страниц. Система предполагает, что вероятность отдельной ссылки зависит от разницы в возрасте страниц (обычно она тем ниже, чем больше разница). Максимизируя P_network, система находит такой набор дат создания, который наилучшим образом объясняет существующий ссылочный граф.

Какие источники дат Яндекс считает наиболее надежными согласно патенту?

Патент устанавливает четкую иерархию надежности (Claim 6). Наиболее надежными источниками считаются: (1) URL страницы (например, /2025/11/24/slug), (2) Заголовок страницы (Title) в HTML, (3) Часть HTML-документа до основного контента (HTML body), например, метаданные. Даты из этих источников могут быть сразу приняты как известные (Anchor Pages).

Какие источники дат считаются наименее надежными?

Наименее надежными считаются даты, извлеченные из основного контента (HTML body) или из частей HTML после основного контента. Если дата доступна только из этих источников, система, скорее всего, будет рассматривать ее как приблизительную (Target Page) и попытается верифицировать ее с помощью анализа ссылочного графа.

Может ли этот алгоритм помочь Яндексу бороться с искусственным обновлением дат (Date Refreshing/Date Spinning)?

Да, это одно из его применений. Если вебмастер меняет дату в контенте (ненадежный источник), но ссылочный граф (ссылки со старых страниц и на старые страницы) противоречит этой новой дате, алгоритм оптимизации P_network определит истинный возраст ближе к оригинальной дате создания. Система ищет дату, которая лучше всего объясняет структуру ссылок, а не ту, которая заявлена в тексте.

Что такое «распространение дат» (Propagation) и как оно работает?

Propagation используется для начальной оценки даты страницы, если ее нельзя надежно извлечь напрямую. Система смотрит на известные даты страниц, связанных с целевой страницей (входящими или исходящими ссылками). Оценка может быть рассчитана как среднее, медиана или квантиль дат этих связанных страниц. Это дает алгоритму оптимизации хорошую стартовую точку.

Влияет ли качество страницы (Quality Parameter Q) на определение ее возраста?

Да, косвенно. Параметр качества Q (популярность/авторитетность) используется при расчете вероятности ссылки (Link Probability P). Страницы с высоким Q имеют большую вероятность получения ссылок. Система может одновременно оптимизировать и Q, и T (время). Точность определения Q влияет на точность расчета P_network и, следовательно, на итоговую дату T.

Что такое параметр затухания (τ) и как он определяется?

Параметр затухания (τ) определяет, насколько быстро «устаревает» контент и как сильно падает вероятность ссылки с увеличением разницы в возрасте. Он может быть специфичен для хоста. Патент предлагает метод его определения: анализ распределения разницы в возрасте для ссылок между страницами с уже известными датами (по наклону логарифмического графика этого распределения).

Учитывает ли модель, что новые страницы ссылаются на старые, или наоборот?

Модель в первую очередь предполагает, что источник ссылки новее акцептора (разница в возрасте $a \ge 0$), и вероятность экспоненциально падает с ростом a. Однако, для повышения точности и обработки исключений используется модификация с сигмоидной функцией S(a), которая допускает вероятность ссылки со старой страницы на новую ($a < 0$).

Как обеспечить, чтобы Яндекс правильно определял дату создания моего контента?

Лучшая стратегия — предоставлять четкие, согласованные и надежные сигналы. Включите дату в URL. Укажите ее в Title и в метаданных (например, через Schema.org datePublished) в начале HTML документа. Убедитесь, что дата в Sitemap совпадает с датой на странице. Это позволит системе сразу классифицировать вашу страницу как Anchor Page.

Влияет ли этот патент на стратегии линкбилдинга?

Он подчеркивает важность естественного темпорального развития ссылочного профиля. Получение ссылок на новый контент должно происходить своевременно. Массовое появление ссылок со старых, давно не обновлявшихся страниц может выглядеть аномально в этой вероятностной модели, что подчеркивает важность получения ссылок с актуальных и обновляемых ресурсов.