Как Яндекс определяет возраст документа, используя граф ссылок и вероятностный анализ дат

Яндекс патентует метод оценки времени создания веб-страниц, когда эта дата неизвестна или недостоверна. Система использует известные даты, извлекает даты из текста («временные выражения»), а затем распространяет эту информацию по графу ссылок. Неизвестные даты определяются путем оптимизации (например, градиентным спуском): система ищет такие временные метки, которые максимизируют вероятность существования наблюдаемой структуры ссылок, исходя из разницы в возрасте между страницами.

Описание

Какую задачу решает

Патент решает задачу надежного определения времени создания (возраста) веб-страниц, когда эта информация недоступна, скрыта или сфальсифицирована. Точное знание возраста документа критически важно для алгоритмов ранжирования, учитывающих свежесть контента (Freshness/QDF) и историческую авторитетность. Изобретение предлагает метод, устойчивый к манипуляциям, путем использования глобальной структуры веб-графа.

Что запатентовано

Запатентована система и метод для определения времени создания веб-ресурсов на основе анализа сети страниц (веб-графа). Суть изобретения заключается в использовании вероятностной модели, основанной на гипотезе, что вероятность существования ссылки зависит от разницы в возрасте (возрастной разницы ‘a’) между исходной и конечной страницами. Система ищет такие значения времени создания для страниц с неизвестной датой, которые максимизируют вероятность всей наблюдаемой структуры ссылок ($P_{сеть}$).

Как это работает

Система работает в две фазы: инициализация и оптимизация. Сначала инициализируется время создания (Параметр Т) для всех страниц. Для этого используются известные даты, даты, извлеченные из контента (временные выражения), и даты, полученные путем распространения этой информации по ссылкам. Затем система применяет метод оптимизации (например, градиентный спуск) для одновременного изменения неизвестных дат. Цель — максимизировать общую вероятность сети ($P_{сеть}$), которая зависит от вероятностей отдельных ссылок, основанных на разнице в возрасте связанных страниц.

Актуальность для SEO

Высокая. Определение точного возраста документа остается фундаментальной задачей для поисковых систем в 2025 году. Методы, основанные на глобальном анализе веб-графа, вероятностном моделировании и оптимизации (градиентный спуск), являются стандартной практикой в инфраструктуре поиска. Базовый принцип использования ссылок как темпорального сигнала остается крайне актуальным.

Важность для SEO

Влияние на SEO значительно (7/10). Хотя патент описывает механизм извлечения признака (Feature Extraction), а не ранжирования, этот признак (возраст документа) критически важен. Изобретение демонстрирует сложный механизм, который делает простую манипуляцию датами (например, искусственное омоложение контента) неэффективной, так как заявленная дата валидируется через временную структуру всего графа ссылок. Это подчеркивает важность предоставления консистентных временных сигналов.

Детальный разбор

Термины и определения

Возрастная разница (а): Разница между параметром Т времени создания исходной страницы ссылки и параметром Т времени создания конечной страницы ссылки. Ключевой фактор для расчета вероятности ссылки.
Временное выражение: Фрагмент текста на странице, который указывает на дату или время (например, дата публикации статьи). Используется для извлечения значения времени создания.
Вероятность $P_{сеть}$ (P network): Общая вероятность наблюдаемой структуры сети страниц. Целевая функция, которая максимизируется в процессе оптимизации.
Вероятность Р ссылки (P link): Вероятность существования конкретной ссылки. Основана, по меньшей мере частично, на возрастной разнице (а).
Воспроизведенное (распространенное) значение времени создания: Значение времени создания, полученное путем итеративного распространения (пропагации) известных или извлеченных дат по цепочкам ссылок на связанные страницы.
Градиентный спуск: Итеративный алгоритм оптимизации, используемый в патенте (Claim 3) для максимизации $P_{сеть}$ путем корректировки параметров T времени создания целевых страниц.
Извлеченное значение времени создания: Время создания страницы, определенное путем анализа ее контента и нахождения в нем временных выражений.
Параметр Т времени создания: Переменная, связанная с каждой страницей, указывающая на ее время создания. Является объектом оптимизации для целевых страниц.
Сеть страниц: Граф, в котором узлы представляют собой страницы, а ребра — ссылки между ними.
Целевые страницы: Страницы в сети, для которых время создания является неизвестным и которые являются объектом анализа данного метода.

Ключевые утверждения (Анализ Claims)

Патент содержит две основные независимые формулы изобретения (Claim 1 и Claim 3), описывающие способы определения времени создания веб-ресурсов через оптимизацию вероятностной модели графа.

Claim 1 (Независимый пункт): Описывает общий метод, включающий сложную процедуру инициализации временных меток и последующую оптимизацию.

Создание сети: Формируется сеть (граф) страниц и ссылок. Определяются целевые страницы (с неизвестным временем создания).
Многоступенчатая Инициализация Параметра Т (Ключевой этап): Каждой странице назначается первоначальное значение параметра Т времени создания в следующем порядке приоритета:
1. Известное время: Если время создания известно (надежный источник), оно назначается как Т.
2. Извлеченное время: Страницы без известного времени анализируются на наличие временных выражений в контенте. Извлеченное значение назначается как Т.
3. Воспроизведенное (Распространенное) время: Известные и извлеченные значения времени итеративно распространяются по графу ссылок на связанные страницы, у которых еще нет значения Т.
4. Заранее определенное значение: Если после всех этапов значение Т не получено, назначается значение по умолчанию.
Оптимизация: Первоначальные значения Т целевых страниц одновременно изменяются для максимизации вероятности $P_{сеть}$.
Функция вероятности: $P_{сеть}$ основана на вероятностях отдельных ссылок ($P_{ссылки}$). Вероятность ссылки зависит от возрастной разницы (а) между исходной и конечной страницами.
Результат: Значения Т, при которых $P_{сеть}$ максимизирована, принимаются как искомое время создания целевых страниц.

Claim 3 (Независимый пункт): Описывает вариант метода с использованием конкретного алгоритма оптимизации и критерия остановки.

Создание сети и инициализация: Аналогично Claim 1 (хотя детальные шаги инициализации через извлечение и распространение явно не повторяются, подразумевается назначение первоначального значения).
Оптимизация (Спецификация): Максимизация $P_{сеть}$ осуществляется с использованием способа градиентного спуска.
Критерий остановки (Новый элемент): Применяется критерий остановки для способа градиентного спуска на основе хоста (домена) множества страниц. Это может означать, что оптимизация прекращается, когда временные метки внутри одного хоста стабилизируются или достигают определенной консистентности.

Где и как применяется

Изобретение применяется на этапе обработки данных после сканирования и перед финальным ранжированием.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необходимые исходные данные: контент страниц (для анализа временных выражений) и структура ссылок (для построения сети страниц).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Определение времени создания документа является частью процесса извлечения признаков (Feature Extraction).

Построение графа: Используются данные о ссылках для создания сети страниц.
Извлечение временных данных: Анализ контента (Parser Platform) для поиска временных выражений и сбор известных временных меток.
Вычисление Параметра Т: Выполнение алгоритма инициализации и оптимизации (градиентного спуска) для определения времени создания страниц.
Сохранение признака: Рассчитанное время создания сохраняется в Прямом Индексе (Forward Index) как статический атрибут документа.

Процесс является ресурсоемким (анализ графа, итеративная оптимизация) и, вероятно, выполняется офлайн или в пакетном режиме, а не в реальном времени при обработке запроса.

RANKING – Ранжирование
Сам алгоритм не участвует в ранжировании, но его результат (возраст документа) используется на этапах ранжирования (L1-L4) как признак для оценки свежести (Freshness) или авторитетности.

На что влияет

Конкретные типы контента: Влияет на все типы контента, для которых возраст или свежесть имеют значение. Особенно критично для новостного контента, блогов, статей и архивных материалов.
Специфические запросы: Влияет на ранжирование по запросам, чувствительным ко времени (QDF — Query Deserves Freshness), а также по запросам, где важна историческая авторитетность.
Манипуляции с датами: Система направлена на повышение устойчивости к манипуляциям, таким как искусственное омоложение старого контента (Date Spoofing), так как алгоритм валидирует заявленные даты через временную структуру всего графа ссылок.

Когда применяется

Условия применения: Алгоритм применяется, когда необходимо определить время создания множества страниц (целевых страниц), для которых эта информация неизвестна или вызывает сомнения.
Частота применения: Запускается в процессе индексации или переиндексации значительной части веба, или при обновлении данных о структуре ссылок. Учитывая сложность, это периодический офлайн-процесс.

Пошаговый алгоритм

Процесс определения времени создания страниц можно разделить на две основные фазы: инициализация и оптимизация.

Фаза 1: Инициализация Параметра Т

Сбор данных и построение сети: Создается граф страниц и ссылок. Идентификация целевых страниц.
Назначение известных значений: Для страниц с известным временем создания параметр Т устанавливается равным этому времени.
Извлечение временных выражений: Анализ контента страниц без известного времени. При нахождении временного выражения, извлеченное значение назначается параметру Т.
Распространение значений (Propagation): Итеративный процесс распространения известных и извлеченных значений Т по графу ссылок на связанные страницы, у которых Т еще не определен.
Назначение по умолчанию: Для страниц, оставшихся без значения Т, назначается заранее определенное значение.

Фаза 2: Оптимизация (на примере Градиентного Спуска из Claim 3)

Определение целевой функции: Формулируется функция вероятности сети $P_{сеть}$. Она зависит от вероятностей всех ссылок $P_{ссылки}$, которые, в свою очередь, зависят от возрастной разницы (а) между страницами. $P_{сети} = f(T_1, T_2, …, T_n)$.
Итеративная корректировка: Используется метод градиентного спуска для одновременного изменения значений Т целевых страниц с целью максимизации $P_{сеть}$.
Применение критерия остановки: Процесс итераций продолжается до выполнения критерия остановки (например, сходимости или критерия на основе хоста).
Финальное определение: После завершения оптимизации текущие значения параметров Т принимаются как искомое время создания целевых страниц.

Какие данные и как использует

Данные на входе

Ссылочные факторы: Структура веб-графа является основой метода. Используются данные о том, какая страница (исходная) ссылается на какую (конечная).
Контентные факторы: Текст страниц используется для анализа и поиска временных выражений (дат, меток времени в контенте) на этапе инициализации.
Временные факторы: Известные показатели времени создания для части страниц (источник может включать HTTP-заголовки, Sitemaps или другие надежные источники). Используются как анкорные данные.
Технические факторы: Информация о хосте (домене) страниц используется для применения критерия остановки в процессе оптимизации (Claim 3).

Какие метрики используются и как они считаются

Параметр Т времени создания: Основная переменная, значение которой определяется для каждой страницы.
Возрастная разница (а): Рассчитывается как разница между временем создания исходной и конечной страниц ссылки. $a = T_{исходная} — T_{конечная}$.
Вероятность Р ссылки ($P_{ссылки}$): Функция, зависящая от возрастной разницы (а). $P_{ссылки} = f(a)$. Конкретный вид функции не раскрыт, но она моделирует вероятность появления ссылки между страницами разного возраста (например, вероятность ссылки в будущее может быть близка к нулю).
Вероятность $P_{сеть}$ сети страниц: Целевая функция для максимизации. Она основана на вероятностях всех ссылок в сети. Вероятно, рассчитывается как произведение вероятностей отдельных ссылок (или сумма их логарифмов): $P_{сети} = \prod P_{ссылки}$.
Методы оптимизации: Для максимизации $P_{сеть}$ используется градиентный спуск (Claim 3).

Выводы

Возраст документа — глобально вычисляемый фактор: Яндекс не полагается исключительно на заявленные владельцем сайта даты. Время создания определяется с помощью сложной модели, которая ищет глобальное согласие с веб-графом.
Веб-граф как инструмент временного анализа: Структура ссылок используется не только для расчета авторитетности, но и как ключевой источник данных для определения возраста документов. То, как страницы ссылаются друг на друга, несет сигнал об их относительном возрасте.
Устойчивость к манипуляциям: Метод разработан для устойчивости к фальсификациям. Манипулировать возрастом на уровне отдельной страницы (Date Spoofing) крайне затруднительно, так как заявленная дата должна соответствовать временной структуре окружающего графа ссылок.
Важность дат в контенте (Временные выражения): Извлечение дат из контента является одним из ключевых этапов инициализации. Наличие четких и достоверных дат публикации/обновления в тексте документа является важным сигналом.
Сложная инициализация и оптимизация: Процесс включает многоступенчатую инициализацию (известные данные -> извлеченные данные -> распространение по графу) и ресурсоемкую оптимизацию (градиентный спуск), что указывает на важность точного определения возраста для Яндекса.

Практика

Best practices (это мы делаем)

Четкие и консистентные временные сигналы: Указывайте явные даты публикации и даты существенных обновлений в видимой части контента. Это позволит Яндексу корректно извлечь временные выражения и использовать их как надежную точку отсчета на этапе инициализации.
Корректные технические временные метки: Обеспечьте корректную настройку сервера (заголовок Last-Modified) и используйте атрибуты дат в Sitemap. Это увеличивает вероятность того, что эти данные будут использованы как надежное «известное время создания».
Использование микроразметки дат: Используйте Schema.org (datePublished, dateModified) для структурирования временных данных. Это повышает вероятность корректного извлечения и интерпретации временных сигналов.
Естественное развитие ссылочного профиля: Приобретайте ссылки органично с течением времени. Естественный ссылочный профиль формирует темпорально правдоподобный граф, что соответствует модели, описанной в патенте. Ссылки с релевантных и своевременных документов будут выглядеть естественно в рамках вероятностной модели.

Worst practices (это делать не надо)

Искусственное омоложение контента (Date Spoofing): Изменение даты публикации старой статьи на текущую без существенного обновления контента. Описанный алгоритм выявит это несоответствие, так как старые входящие ссылки будут конфликтовать с новой датой, снижая вероятность $P_{сети}$ для этой даты.
Удаление или скрытие дат публикации: Отсутствие дат в контенте вынуждает систему полностью полагаться на анализ графа и распространение дат от других ресурсов. Это может привести к менее точному определению возраста вашего документа и потере контроля над временными сигналами.
Аномальный линкбилдинг: Резкое появление большого количества ссылок со старых, давно не обновлявшихся доменов (например, дропов или архивных PBN) на совершенно новый документ может выглядеть аномально с точки зрения вероятностной модели, основанной на типичной возрастной разнице.

Стратегическое значение

Патент подтверждает, что Яндекс уделяет большое внимание факторам, связанным со временем (свежесть, возраст, историчность) и обладает сложными механизмами для их верификации. Стратегическое значение заключается в понимании того, что временные сигналы валидируются перекрестно через контент, технические данные и глобальную структуру веб-графа. SEO-стратегии, направленные на манипулирование свежестью, обречены на провал, если они противоречат глобальной картине. Долгосрочная стратегия должна фокусироваться на создании качественного контента с прозрачной историей публикаций и естественном развитии ссылочного окружения.

Практические примеры

Сценарий 1: Попытка омоложения старой статьи (Date Spoofing)

Ситуация: SEO-специалист берет статью 2018 года и меняет дату публикации на 25 ноября 2025 года, чтобы получить буст за свежесть. Контент существенно не меняется.
Действие системы (Инициализация): Яндекс извлекает новую дату (25 ноября 2025 года) как «временное выражение» и использует ее как первоначальное значение Т.
Действие системы (Оптимизация): Система анализирует граф. Она видит, что на эту статью ведут десятки ссылок со страниц, датированных 2018-2020 годами. Если принять Т=2025, то возрастная разница для ссылок 2018 года будет отрицательной (ссылки в будущее), что имеет очень низкую вероятность $P_{ссылки}$.
Корректировка: Алгоритм оптимизации (градиентный спуск) будет изменять Т целевой страницы в сторону уменьшения (ближе к 2018 году), так как это значительно увеличит общую вероятность графа $P_{сети}$.
Результат для SEO: Система проигнорирует сфальсифицированную дату и определит возраст документа как близкий к 2018 году, нивелируя попытку манипуляции свежестью.

Сценарий 2: Определение возраста страницы без даты в контенте

Ситуация: На сайте есть страница (например, обзор продукта), но дата публикации не указана нигде (нет известных или извлеченных дат).
Действие системы: Система переходит к анализу графа (Распространение и Оптимизация). Она видит, что на эту страницу ссылаются 3 документа, даты создания которых известны: 1 марта, 15 марта и 2 апреля 2024 года.
Оптимизация: Алгоритм будет подбирать дату создания целевой страницы так, чтобы максимизировать вероятность существования этих 3 ссылок. Исходя из предположения, что страницы редко ссылаются в будущее, система определит, что целевая страница, скорее всего, была создана до 1 марта 2024 года.
Результат для SEO: Возраст страницы будет надежно определен на основе ее ссылочного окружения, даже при отсутствии явных дат.

Вопросы и ответы

В чем основная суть этого патента Яндекса?

Основная суть заключается в определении неизвестного времени создания веб-страниц путем анализа структуры ссылок в интернете. Система использует вероятностную модель, которая предполагает, что вероятность наличия ссылки зависит от разницы в возрасте между двумя страницами. Оптимизируя неизвестные даты так, чтобы максимизировать вероятность всей наблюдаемой сети ссылок ($P_{сети}$), Яндекс вычисляет наиболее вероятное время создания документов.

Как этот патент помогает бороться с искусственным омоложением контента (Date Spoofing)?

Он делает это за счет глобальной валидации дат через граф ссылок. Если вы измените дату старой статьи на текущую, система сравнит эту новую дату с датами страниц, которые на нее ссылаются. Если много старых страниц ссылаются на якобы «новую» статью, это выглядит неправдоподобно (ссылки в будущее). Алгоритм оптимизации выберет ту дату создания, которая максимизирует общую вероятность графа ($P_{сети}$), и эта дата, скорее всего, будет ближе к оригинальной дате публикации.

Что такое «временное выражение», упомянутое в патенте?

Временное выражение — это любой текст на странице, который указывает на дату или время, например, явная дата публикации статьи. Патент описывает, что система анализирует контент страницы, чтобы найти эти выражения и извлечь из них значение времени создания на этапе инициализации, если оно не известно из других надежных источников.

Что означает «вероятность ссылки зависит от возрастной разницы (а)»?

Это ключевое предположение модели. Оно означает, что вероятность того, что Страница А сошлется на Страницу Б, зависит от того, когда они были созданы. Например, вероятность того, что новая страница сошлется на старую, может быть высокой, но вероятность того, что старая страница сошлется на страницу, которая еще не создана (в будущее), близка к нулю. Модель оценивает вероятность ссылки исходя из этой разницы.

Как работает «воспроизведение» или распространение дат по ссылкам?

Это итеративный процесс инициализации (Claim 1). Если у страницы А известна дата создания, а она ссылается на страницу Б (дата неизвестна), система может использовать дату страницы А для предварительной оценки даты страницы Б (например, предположив, что Б создана раньше А). Этот процесс повторяется по цепочкам ссылок, позволяя распространить известные даты на связанные документы до начала глобальной оптимизации.

Что произойдет, если на странице вообще нет дат и на нее нет ссылок?

Согласно патенту (Claim 1), если время не известно, не может быть извлечено из контента и не может быть воспроизведено (распространено) от связанных страниц (потому что их нет), то странице назначается «заранее определенное значение» (default value). Что это за значение, в патенте не уточняется.

Является ли это алгоритмом ранжирования?

Нет, это механизм извлечения признаков (Feature Extraction), который работает на этапе индексации. Он определяет один конкретный признак — возраст документа. Этот признак затем используется основными алгоритмами ранжирования для оценки свежести, актуальности (QDF) или исторической авторитетности контента.

Зачем используется градиентный спуск?

Градиентный спуск (Claim 3) используется для решения сложной задачи оптимизации. Поскольку изменение даты одной страницы влияет на вероятности всех ее ссылок и, следовательно, на оптимальные даты соседних страниц, необходимо одновременно корректировать все неизвестные даты. Градиентный спуск позволяет эффективно найти комбинацию дат, максимизирующую общую вероятность сети $P_{сети}$.

Стоит ли удалять даты со страниц, чтобы Яндекс не считал контент старым?

Нет, это плохая практика. Патент показывает, что извлечение временных выражений из контента — это один из основных источников данных. Если вы удалите даты, система все равно оценит возраст вашего документа, но уже исключительно на основе внешних факторов (анализа ссылок). Это может привести к менее точной оценке и потере контроля над временными сигналами вашего контента.

Что такое «критерий остановки на основе хоста»?

Это условие, при котором алгоритм оптимизации (градиентный спуск) прекращает работу (Claim 3). Упоминание хоста (домена) предполагает, что система может отслеживать стабилизацию временных меток в пределах одного сайта. Например, если даты всех страниц сайта перестали значительно изменяться от итерации к итерации или достигли высокой внутренней согласованности, оптимизация может быть остановлена.