Как Яндекс определяет дату создания документа, используя вероятностную модель ссылочного графа и анализ контента

Яндекс использует гибридный метод для точного определения времени создания веб-страниц, когда эта информация неизвестна или ненадежна. Система сначала извлекает даты из URL и HTML, оценивая их надежность по иерархии доверия. Затем она применяет вероятностную модель к структуре ссылок: неизвестные даты вычисляются путем максимизации вероятности наблюдаемой сети, исходя из предположения, что вероятность ссылки экспоненциально убывает с увеличением разницы в возрасте страниц.

Описание

Какую задачу решает

Патент решает задачу точного определения времени создания (Creation Time) веб-ресурсов (страниц). Точное знание этой метрики критически важно для поисковой системы для планирования краулинга, ранжирования (особенно для алгоритмов, учитывающих свежесть контента, QDF) и сортировки результатов. Изобретение направлено на ситуации, когда время создания неизвестно, ненадежно или указано приблизительно, обеспечивая более высокую точность датирования.

Что запатентовано

Запатентован способ и система определения времени создания веб-ресурсов, основанные на вероятностном анализе ссылочного графа. Суть изобретения заключается в использовании известных дат одних страниц (опорных) для вывода неизвестных дат других страниц (целевых) путем максимизации вероятности существования наблюдаемой структуры ссылок ($P_{сети}$). Модель предполагает, что вероятность ссылки зависит от разницы в возрасте между страницами.

Как это работает

Система работает в два этапа: инициализация и оптимизация. Сначала параметрам времени создания (T) присваиваются начальные значения, используя известные даты, даты, извлеченные из URL/HTML (с учетом иерархии надежности источников), или расчетные оценки (путем распространения дат по ссылкам). Затем система итеративно корректирует неизвестные значения T (используя градиентный спуск), чтобы максимизировать общую вероятность сети ($P_{сети}$). Ключевым элементом является модель, где вероятность ссылки экспоненциально убывает с увеличением разницы в возрасте страниц, учитывая также параметры качества (Q) и устаревания ($\tau$).

Актуальность для SEO

Высокая. Определение точного возраста документа и свежести контента остается фундаментальной задачей для современных поисковых систем. Использование графовых моделей и методов оптимизации для вывода метаданных документа является актуальным подходом в информационном поиске.

Важность для SEO

Влияние на SEO значительно (7/10). Патент описывает механизм определения критически важного сигнала — возраста документа, который напрямую влияет на ранжирование по запросам, требующим свежести (QDF). Он дает SEO-специалистам четкое понимание иерархии доверия Яндекса к источникам дат (URL > Заголовок > Контент) и демонстрирует механизм, позволяющий системе выявлять манипуляции с датами публикаций через анализ ссылочного профиля.

Детальный разбор

Термины и определения

a (Age Difference, Возрастная разница): Разница между временем создания исходной и конечной страниц ($T_{исх} — T_{кон}$). Ключевой фактор для расчета вероятности ссылки.
T (Параметр времени создания): Переменная, представляющая время создания страницы в модели. Для целевых страниц это значение оптимизируется.
P (Вероятность ссылки): Вероятность существования конкретной ссылки. Моделируется как функция разницы в возрасте (a), качества (Q) и параметра убывания ($\tau$).
$P_{сети}$ (Вероятность сети страниц): Общая вероятность наблюдаемой структуры сети. Рассчитывается как произведение вероятностей отдельных ссылок (P). Цель алгоритма — максимизировать это значение.
Q (Quality Parameter, Параметр качества): Показатель полезности или популярности страницы. Вероятность ссылки P пропорциональна Q конечной страницы. Может определяться числом входящих ссылок.
$\tau$ (Tau) (Decay Parameter, Параметр убывания): Показатель того, как быстро страница устаревает. Определяет скорость экспоненциального снижения вероятности ссылки с увеличением возрастной разницы (a). Может быть характеристикой хоста.
Extracted Creation Time (Извлеченное значение времени создания): Значение времени создания, полученное путем анализа текста страницы (URL, HTML-код) на наличие временных выражений.
Propagated Creation Time (Воспроизведенное значение времени создания): Оценка времени создания недатированной страницы, полученная путем распространения (воспроизведения) известных или извлеченных дат от связанных с ней страниц по цепочкам ссылок.
Gradient Descent (Градиентный спуск): Метод оптимизации, используемый для нахождения значений параметров T, которые максимизируют вероятность $P_{сети}$.
Target Page / Anchor (Reference) Page (Целевая / Опорная страница): Целевая страница имеет неизвестное время создания, которое нужно определить. Опорная страница имеет известное время создания, которое фиксируется в процессе оптимизации.

Ключевые утверждения (Анализ Claims)

Патент защищает метод определения времени создания через максимизацию вероятности ссылочной структуры, с двумя основными вариациями (Пункты 1 и 3 Формулы), фокусирующимися на инициализации и методе оптимизации.

Пункт 1 Формулы (Claim 1): Акцент на детальной инициализации. Описывает полный цикл работы системы.

Создается сеть страниц и ссылок. Каждой странице присваивается параметр T.
Выполняется сложная иерархическая инициализация T:
1. Назначаются известные значения (Опорные страницы).
2. Извлекаются временные выражения из контента/URL (Извлеченные значения).
3. Известные и извлеченные значения итеративно распространяются по ссылкам (Воспроизведенные значения) для оценки дат связанных страниц.
4. Если ничего не найдено, назначается значение по умолчанию.
Значения T целевых страниц (с неизвестным временем) одновременно изменяются для максимизации общей вероятности сети ($P_{сети}$).
$P_{сети}$ основана на вероятностях ссылок (P), которые зависят от возрастной разницы (a).
Итоговое время создания — это значение T, которое максимизирует $P_{сети}$.

Пункт 3 Формулы (Claim 3): Акцент на методе оптимизации.

Создается сеть и назначаются первоначальные значения T.
Максимизация $P_{сети}$ выполняется специфически с использованием способа градиентного спуска.
Применяется критерий остановки для градиентного спуска, основанный на хосте, размещающем страницы.

Где и как применяется

Изобретение применяется на этапе INDEXING – Индексирование и извлечение признаков. Это процесс обработки данных, выполняемый после сканирования (CRAWLING) для определения и сохранения статических атрибутов документа.

Взаимодействие с компонентами:

Parser Platform: Используется на этапе инициализации для анализа URL и HTML-кода с целью извлечения временных выражений.
Link Graph (Граф связей): Структура ссылок используется для построения сети, распространения дат (Propagation) и вычисления вероятностей ($P_{сети}$).
Forward Index (Прямой Индекс): Вычисленное точное время создания сохраняется как атрибут документа в индексе.

Влияние на другие слои:

CRAWLING: Точное знание времени создания используется для оптимизации планирования обхода (crawler scheduling).
RANKING: Вычисленная дата используется как фактор ранжирования, особенно в алгоритмах, чувствительных к свежести (QDF).

На что влияет

Специфические запросы: Критически важно для запросов, где актуальность имеет значение (QDF — Query Deserves Freshness). Точная датировка позволяет лучше ранжировать свежий контент.
Типы контента: Новостные статьи, блоги, форумы — контент, для которого временная метка имеет первостепенное значение.
Техническое SEO: Влияет на то, как интерпретируются даты, указанные вебмастером, и определяет иерархию доверия к различным источникам временных меток на сайте.

Когда применяется

Условия активации: Когда система сталкивается со страницами, время создания которых неизвестно, ненадежно или указано приблизительно.
Частота применения: Это процесс, выполняемый в офлайн-режиме или во время индексации/переиндексации веб-графа. Он может выполняться периодически для уточнения данных.

Пошаговый алгоритм

Процесс определения времени создания состоит из двух основных фаз: Инициализация и Оптимизация.

Фаза 1: Построение сети и Инициализация (Способ 600)

Создание сети (520): Формируется граф страниц и ссылок.
Назначение известных дат (610): Для опорных страниц параметр Т фиксируется.
Текстовый анализ и Извлечение (620-640): Анализ URL и HTML для поиска временных выражений. Система использует строгую иерархию надежности источников:
1. URL (наиболее надежный)
2. Заголовок (Title)
3. Часть HTML над телом (Body)
4. Часть HTML под телом
5. Тело HTML (наименее надежный)
Извлеченные значения назначаются как первоначальные Т.
Воспроизведение (Propagation) (650-660): Для оставшихся недатированных страниц, связанных с датированными, время Т оценивается итеративно. Значения Т датированных страниц распространяются на связанные страницы с использованием статистических методов (среднее, медианное, q-квантильное).
Назначение по умолчанию (670): Для изолированных страниц назначается заранее определенное значение.

Фаза 2: Оптимизация (Способ 500)

Определение параметров модели: Вычисление или назначение параметров качества (Q) и убывания ($\tau$). $\tau$ может быть специфичен для хоста. Q может определяться по числу входящих ссылок.
Итеративное изменение (560): Используя метод градиентного спуска, система одновременно изменяет значения Т для целевых страниц. Цель — максимизировать общую вероятность сети ($P_{сети}$).
Расчет вероятности: На каждом шаге $P_{сети}$ вычисляется как произведение вероятностей ссылок (P). Вероятность ссылки рассчитывается по формуле экспоненциального убывания: $$P \propto Q \cdot e^{-a/\tau}$$ (Где a — возрастная разница). Также может использоваться модификация с сигмоидной функцией S(a).
Определение дат (580): Значения Т, при которых достигается максимум $P_{сети}$, принимаются как время создания целевых страниц.

Какие данные и как использует

Данные на входе

Ссылочные факторы: Структура веб-графа (сеть страниц и ссылок) является основой для моделирования и оптимизации. Число входящих ссылок используется для оценки параметра качества (Q).
Контентные и Структурные факторы: URL-адреса и HTML-код (заголовок, тело, метаданные) анализируются для извлечения временных выражений на этапе инициализации. Местоположение временного выражения используется для оценки надежности.
Временные факторы: Известные даты создания опорных страниц используются для калибровки модели и инициализации.

Какие метрики используются и как они считаются

Вероятность сети ($P_{сети}$): Целевая функция для максимизации. Рассчитывается как произведение вероятностей отдельных ссылок в сети.
Возрастная разница (a): $a = T_{исх} — T_{кон}$.
Вероятность ссылки (P): Моделируется как функция нескольких параметров. Основная формула: $${P \propto Q \cdot e^{-a/\tau}}$$ где:
- $Q$ – параметр качества конечной страницы.
- $\tau$ – параметр убывания (устаревания).
Сигмоидная функция (S(a)): В альтернативных вариантах используется для сглаживания функции вероятности и учета ссылок на более новые страницы ($a < 0$): $P \propto Q \cdot e^{-a/\tau} \cdot S(a)$.
Методы оптимизации: Используется градиентный спуск для нахождения максимума $P_{сети}$.
Методы воспроизведения (Propagation): Для инициализации используются статистические методы: среднее, медиана, q-квантиль от дат связанных страниц.
Технические вычисления: Для повышения точности вычислений сумм экспонент предлагается представлять числа в формате $R=Xe^Y$.

Выводы

Гибридный подход к датированию: Яндекс не полагается исключительно на заявленные даты. Система использует комбинацию текстового анализа (извлечение дат) и анализа структуры ссылок (вероятностная модель) для определения и верификации времени создания страницы.
Иерархия доверия к источникам дат: Патент явно определяет иерархию надежности. Наибольшее доверие вызывает дата в URL, затем в заголовке (Title), затем в области над телом документа. Даты в основном контенте (Body) наименее надежны. Это критически важное знание для технического SEO.
Темпоральная структура ссылок: Ключевое предположение модели — вероятность ссылки экспоненциально зависит от времени. Система ищет глобально согласованную картину дат, которая лучше всего объясняет наблюдаемую структуру ссылок.
Устойчивость к манипуляциям (Date Spoofing): Поскольку система использует структуру ссылок (которую сложнее подделать) для верификации дат, она устойчива к простым манипуляциям с метками времени в контенте. Если заявленная дата сильно расходится с датой, предсказанной по структуре ссылок, система может ее скорректировать.
Влияние качества и скорости устаревания: Модель учитывает качество страницы (Q) и скорость ее устаревания ($\tau$), которая может быть специфичной для хоста. Это означает, что Яндекс профилирует сайты по скорости обновления контента.

Практика

Best practices (это мы делаем)

Используйте даты в URL для максимальной надежности: Если это уместно для архитектуры сайта (новости, блоги), включайте дату публикации в URL (например, /2025/11/25/article-name). Согласно патенту, URL является самым надежным источником времени создания.
Размещайте даты в надежных областях кода: Если дата не в URL, убедитесь, что она присутствует в Заголовке (Title) или в области над основным контентом (HTML body). Внедряйте микроразметку Schema.org (datePublished, dateModified) в секции HEAD.
Соблюдайте консистентность дат: Убедитесь, что даты в URL, микроразметке, Sitemap и видимом контенте совпадают. Противоречия снижают надежность извлеченных данных и заставляют систему полагаться на вероятностную модель.
Поддерживайте логичную внутреннюю перелинковку: Структура внутренних ссылок помогает механизму распространения (Propagation) и оптимизации. Логичная хронологическая связь контента (новые статьи ссылаются на релевантные старые) помогает системе точно датировать страницы.

Worst practices (это делать не надо)

«Подкрутка» дат (Date Spinning/Spoofing): Искусственное омоложение контента путем изменения даты публикации без фактического изменения содержимого. Описанный алгоритм может выявить это несоответствие через анализ ссылочного графа. Если темпоральная структура ссылок указывает на реальный (старый) возраст страницы, ложная дата может быть проигнорирована.
Размещение дат только в ненадежных областях: Указание даты публикации только в футере или глубоко в теле статьи снижает вероятность ее корректного и надежного извлечения.
Отсутствие временных сигналов: Полное отсутствие дат вынуждает Яндекс полностью полагаться на ссылочный анализ, что может привести к менее точной датировке и проблемам с ранжированием по свежести.

Стратегическое значение

Патент подтверждает стратегическую важность временных факторов и свежести в Яндексе. Он демонстрирует, что ссылочный граф используется не только для передачи авторитетности, но и как независимый механизм верификации временных характеристик контента. Для SEO это означает необходимость строгой технической гигиены в отношении временных меток. Попытки обмануть систему относительно свежести контента становятся менее эффективными из-за сложных алгоритмов верификации.

Практические примеры

Сценарий 1: Оптимизация новостного портала (Использование надежных источников)

Задача: Обеспечить точное определение даты публикации для ранжирования в новостях.
Действие: Внедрить структуру URL вида `example.com/news/2025/11/25/story`. Добавить микроразметку `datePublished` в HEAD.
Обоснование по патенту: URL и область над телом документа являются самыми надежными источниками. Это гарантирует корректную инициализацию параметра T.
Результат: Яндекс принимает заявленную дату как достоверную (Опорная страница), обеспечивая корректное ранжирование по свежести.

Сценарий 2: Противодействие манипуляции датами

Ситуация: SEO-специалист меняет дату публикации старой статьи (2019 год) на текущую (2025 год) в CMS.
Действие системы (Инициализация): Система извлекает новую дату (2025).
Действие системы (Оптимизация): Система анализирует граф. На статью ведут внешние и внутренние ссылки со страниц, созданных в 2019-2020 годах. Вероятность ($P_{сети}$) при дате 2025 год оказывается низкой, так как модель считает маловероятным, что старые страницы ссылаются в будущее.
Результат: Для максимизации $P_{сети}$ система скорректирует параметр T ближе к 2019 году, игнорируя манипуляцию.

Вопросы и ответы

Что является самым надежным источником даты создания страницы для Яндекса согласно патенту?

Патент явно устанавливает иерархию надежности. Самым надежным источником является URL страницы. Далее следуют заголовок (Title) HTML документа и часть HTML документа над основным телом (Body), например, метаданные в HEAD. Наименее надежными считаются данные в самом теле документа.

Как работает анализ ссылок для определения даты?

В основе лежит предположение, что вероятность существования ссылки экспоненциально уменьшается с увеличением разницы в возрасте между исходной и конечной страницами. Система анализирует все входящие и исходящие ссылки и ищет такую дату создания, которая делает наблюдаемую картину ссылок наиболее вероятной с точки зрения этой модели.

Может ли эта система обнаружить «Date Spoofing» (искусственное завышение свежести)?

Да, это одна из сильных сторон системы. Если заявленная дата публикации значительно новее, чем даты создания большинства ссылающихся на нее страниц, это создаст низкую вероятность в модели. Система может определить, что заявленная дата ненадежна, и предпочесть дату, вычисленную по модели, которая лучше соответствует ссылочному профилю.

Что означают параметры Q (Качество) и Тау ($\tau$, Убывание) в формуле?

Q (Quality Parameter) отражает популярность или авторитетность страницы; страницы с высоким Q чаще получают ссылки. Тау ($\tau$, Decay Parameter) отражает скорость устаревания контента на сайте; он показывает, как быстро падает интерес к странице со временем. Оба параметра используются в формуле расчета вероятности ссылки ($P \propto Q \cdot e^{-a/\tau}$).

Что произойдет, если на странице вообще не указана дата публикации?

Система сначала попытается оценить дату путем «воспроизведения» (Propagation) дат от связанных страниц (соседей по графу). Затем эта оценка будет уточнена с помощью глобальной вероятностной модели оптимизации, чтобы найти наиболее правдоподобную дату создания на основе всего ссылочного окружения.

Влияет ли внутренняя перелинковка на определение даты создания?

Да, напрямую. Внутренние ссылки используются как на этапе инициализации (для распространения дат), так и на этапе оптимизации. Логичная структура перелинковки, соответствующая хронологии создания контента, помогает системе точнее определять даты страниц.

Что такое «воспроизведение» (Propagation) дат?

Это метод инициализации для получения первоначальной оценки даты. Система смотрит на известные даты страниц, которые связаны с текущей страницей (входящими или исходящими ссылками), и вычисляет предполагаемую дату на их основе, используя статистические методы, такие как усреднение или медиана.

Влияет ли хостинг или тип сайта на определение даты создания?

Да. В патенте упоминается, что параметр убывания ($\tau$), характеризующий скорость устаревания контента, может быть характеристикой хоста (например, новости устаревают быстрее, чем энциклопедии). Также критерий остановки для алгоритма оптимизации может быть основан на хосте.

Выполняется ли этот анализ в реальном времени при ранжировании?

Нет. Описанный процесс является ресурсоемким (итеративная оптимизация графа) и выполняется офлайн на этапе индексации и извлечения признаков. Результат (вычисленная дата создания) сохраняется в индексе как статический фактор и затем уже используется при ранжировании.

Какое главное действие должен предпринять SEO-специалист на основе этого патента?

Главное действие — обеспечить максимальную точность и консистентность информации о дате создания, используя наиболее надежные источники. Необходимо приоритезировать включение даты в URL и использование микроразметки datePublished в HEAD документа, чтобы минимизировать вероятность неверной датировки системой.