Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс определяет дату создания страницы, анализируя возраст и качество связанных с ней документов в ссылочном графе

    METHOD OF AND SYSTEM FOR DETERMINING CREATION TIME OF A WEB RESOURCE (Метод и система определения времени создания веб-ресурса)
    • WO2016001723A1
    • Yandex LLC
    • 2016-01-07
    • 2014-11-25
    2016 Индексация Патенты Яндекс Свежесть контента Ссылки

    Яндекс использует статистическую модель для определения времени создания веб-страницы, когда явные даты отсутствуют. Модель основана на предположении, что страницы чаще ссылаются на недавно созданный («Recency») и качественный («Quality») контент. Анализируя структуру ссылок и известные даты соседних страниц, система вычисляет наиболее вероятную дату создания целевой страницы, максимизируя вероятность наблюдаемой ссылочной структуры.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему точного определения времени создания (Creation Time) веб-страниц в ситуациях, когда явные временные метки (в HTML-коде, URL или контенте) отсутствуют, ненадежны, противоречивы или имеют низкую точность. Точное знание времени создания критически важно для ранжирования (особенно для запросов, требующих свежести) и планирования обхода страниц краулером (web crawler scheduling). Также решается задача датировки при массовой индексации новых сегментов веба (сценарий «New to market», упомянутый в Приложении B).

    Что запатентовано

    Запатентован метод определения времени создания целевой страницы (Target Page) на основе статистического анализа ссылочной структуры. Суть изобретения заключается в использовании вероятностной модели, которая предполагает, что вероятность существования ссылки зависит от разницы в возрасте между исходной и целевой страницами, а также от качества целевой страницы. Система ищет такую дату создания, которая максимизирует общую вероятность (Page Network Probability) наблюдаемой структуры ссылок.

    Как это работает

    Система строит локальный граф (Page Network) вокруг страницы с неизвестной датой. Ключевым механизмом является предположение (описанное в Приложениях как Recency Property), что вероятность ссылки экспоненциально уменьшается по мере увеличения разницы в возрасте между страницами. Система итеративно проверяет «гипотетические времена создания» (Hypothetical Creation Time) и рассчитывает общую вероятность сети, также учитывая Quality Parameter (Q) страниц. Дата, обеспечивающая максимальную общую вероятность (найденная, например, через Gradient Descent), принимается за истинное время создания.

    Актуальность для SEO

    Высокая. Свежесть контента остается критически важным фактором ранжирования, особенно для новостных тематик и QDF-запросов (Query Deserves Freshness). Методы статистического вывода метаданных из структуры графа по-прежнему актуальны для поисковых систем.

    Важность для SEO

    Влияние на SEO значительно (7/10). Этот патент напрямую влияет на то, как Яндекс воспринимает свежесть контента при отсутствии явных сигналов. Если из-за особенностей ссылочного профиля (например, наличия ссылок только со старых страниц) Яндекс ошибочно датирует новый контент как старый, его ранжирование по времязависимым запросам будет затруднено. Это подчеркивает важность не только наличия ссылок, но и их темпоральных характеристик.

    Детальный разбор

    Термины и определения

    Age Difference (a) (Разница в возрасте)
    Разница между временем создания исходной страницы (Source Page) и временем создания целевой страницы (Destination Page) для конкретной ссылки.
    Creation Time (T) (Время создания)
    Время, когда веб-страница была загружена на хост и стала доступной через сеть.
    Decay Parameter (τ или λ) (Параметр затухания)
    Показатель того, насколько быстро устаревают страницы или как быстро затухает их популярность. Характеризует скорость снижения вероятности получения новых ссылок с возрастом. Часто определяется на уровне хоста.
    Hypothetical Creation Time (Гипотетическое время создания)
    Предполагаемое значение времени создания целевой страницы, используемое системой для расчета вероятности сети. Цель алгоритма — найти оптимальное значение этого параметра.
    Link Probability (Вероятность ссылки)
    Вероятность существования конкретной ссылки между двумя страницами. Зависит от разницы в возрасте (a) и, как правило, от качества (Q) целевой страницы.
    Maximum Likelihood Estimation (MLE) (Оценка максимального правдоподобия)
    Статистический метод, используемый для оценки неизвестных параметров (T и Q) путем максимизации вероятности наблюдения имеющейся структуры ссылок.
    Media Web (Медиа Веб)
    (Из Приложений A/B) Высокодинамичная часть веба (новости, блоги, форумы), где контент быстро устаревает и наблюдается сильное свойство Recency.
    Page Network (Сеть страниц)
    Граф, состоящий из множества страниц (включая целевую) и ссылок между ними. Обычно это локальный граф, используемый для анализа.
    Page Network Probability (P_network) (Вероятность сети страниц)
    Общая вероятность существования наблюдаемой структуры ссылок в сети страниц. Рассчитывается как произведение вероятностей отдельных ссылок (Link Probability) в сети.
    Quality Parameter (Q) (Параметр качества)
    Показатель полезности или популярности страницы. Страницы с более высоким Q имеют больше шансов получить входящие ссылки. Может инициализироваться на основе количества входящих ссылок (in-degree).
    Recency Property (Свойство новизны)
    Наблюдение, что страницы склонны ссылаться на другие страницы схожего возраста. Вероятность ссылки на старый контент экспоненциально падает.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод определения времени создания страницы.

    1. Система создает Page Network — граф, включающий целевую страницу и связанные с ней страницы и ссылки.
    2. Система определяет Page Network Probability (общую вероятность наблюдаемой структуры ссылок) для заданного Hypothetical Creation Time целевой страницы.
    3. Эта общая вероятность основана на Link Probability каждой отдельной ссылки.
    4. Критически важно: вероятность каждой ссылки зависит от времени создания ее исходной и целевой страниц (т.е. от разницы в их возрасте).
    5. Система находит значение Hypothetical Creation Time, которое максимизирует Page Network Probability. Это значение принимается за фактическое время создания.

    Claims 2, 3 (Зависимые пункты): Уточняют метод оптимизации.

    Для нахождения максимума вероятности система перебирает множество гипотетических времен и может использовать метод Gradient Descent (Градиентный спуск).

    Claim 8 (Зависимый пункт): Уточняет модель вероятности ссылок.

    Вероятность ссылки (Link Probability) дополнительно зависит от Quality Parameter (Q) целевой страницы. Более качественные страницы имеют больше шансов получить ссылку при прочих равных условиях.

    Claims 11-14 (Зависимые пункты): Расширяют применение метода для оценки качества.

    Система может использовать тот же механизм максимизации Page Network Probability для определения неизвестных параметров качества (Q) страниц. Определение времени создания (T) и качества (Q) может происходить одновременно (Claim 14).

    Claim 15 (Зависимый пункт): Вводит понятие параметра затухания.

    Вероятность ссылки также зависит от Decay Parameter (τ), который характеризует, насколько быстро падает вероятность ссылки с увеличением разницы в возрасте.

    Где и как применяется

    Изобретение применяется в основном на этапе обработки данных для извлечения признаков документа.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Когда страница обрабатывается индексатором, система пытается определить ее дату создания. Если явные методы (анализ HTML, URL, метаданных) не дают результата или дают противоречивые данные, активируется этот ссылочный анализ.

    • Данные на входе: Локальный участок веб-графа (Page Network), известные даты (T) для некоторых страниц в сети.
    • Процесс: Выполняется вероятностный анализ и оптимизация (MLE, Gradient Descent). Процесс выполняется офлайн или в пакетном режиме из-за вычислительной сложности.
    • Данные на выходе: Оценочное время создания (T) и, опционально, оценочные параметры качества (Q). Эти данные сохраняются в индексе (Forward Index) как атрибуты документа.

    CRAWLING – Сканирование и Сбор данных
    Точное определение времени создания помогает оптимизировать планировщик краулера (Scraper) для более эффективного управления ресурсами обхода.

    RANKING – Ранжирование
    На этапе ранжирования (L1-L4) извлеченное время создания используется как фактор свежести, особенно важный для времязависимых запросов (QDF).

    На что влияет

    • Конкретные типы контента: Наибольшее влияние оказывается на «Медиа Веб» (Media Web) — новости, блоги, форумы. В Приложениях к патенту указывается, что именно в этих сегментах наблюдается сильное Recency Property (склонность ссылаться на свежий контент).
    • Специфические запросы: Влияет на ранжирование по новостным, трендовым и любым запросам, чувствительным к свежести (QDF).
    • Конкретные ниши или тематики: Влияние сильнее в быстро меняющихся нишах (технологии, финансы, новости), чем в нишах с «вечнозеленым» контентом.

    Когда применяется

    Алгоритм применяется при обработке документа, когда необходимо установить его время создания.

    • Триггеры активации:
      • Отсутствие явных временных меток в URL, заголовках или контенте страницы.
      • Наличие противоречивых или зашумленных временных меток.
      • Недостаточная точность извлеченных дат (например, известен только год).
    • Особые случаи: В Приложении B упоминается сценарий «New to market» — при первоначальном массовом обходе нового сегмента интернета, когда даты краулинга не могут использоваться как прокси для дат создания.

    Пошаговый алгоритм

    Процесс определения времени создания целевой страницы.

    1. Идентификация цели: Выбор целевой страницы (Target Page), для которой стандартные методы извлечения даты не дали надежного результата.
    2. Создание сети страниц (Page Network): Формирование локального графа, включающего целевую страницу и связанные с ней страницы.
    3. Оценка и инициализация параметров:
      • Определение Decay Parameter (τ). Это делается офлайн на основе анализа страниц с известными датами (часто на уровне хоста). τ определяется по наклону логарифмического графика зависимости количества ссылок от разницы в возрасте.
      • Инициализация Quality Parameter (Q) (например, на основе количества входящих ссылок).
      • Определение диапазона для Hypothetical Creation Time. Диапазон ограничивается датами связанных страниц: не раньше самой свежей страницы, на которую ссылается цель, и не позже самой старой страницы, которая ссылается на цель.
    4. Итеративная оптимизация (MLE/Gradient Descent): Поиск значений T (и Q), максимизирующих вероятность сети.
      • Расчет вероятностей ссылок: Для текущих параметров рассчитывается вероятность каждой ссылки. Модель предполагает, что вероятность пропорциональна качеству Q и экспоненциальному затуханию возраста a: $${P \propto Q \cdot e^{-a/\tau}}$$
      • В Приложениях A/B упоминается использование сглаживающей функции (sigmoid), чтобы учесть возможность ссылок на более новые страницы и обеспечить возможность использования градиентного спуска.
      • Расчет вероятности сети: Вычисление Page Network Probability как произведения вероятностей всех ссылок.
      • Корректировка параметров: Изменение гипотетического времени T (и параметров Q) в сторону увеличения общей вероятности.
    5. Фиксация результата: Выбор значения Hypothetical Creation Time, которое обеспечивает максимальное значение Page Network Probability.

    Какие данные и как использует

    Данные на входе

    • Ссылочные факторы: Структура ссылочного графа (Page Network) — кто на кого ссылается. Количество входящих ссылок (in-degree) используется для инициализации Quality Parameter (Q).
    • Временные факторы: Известные или ранее оцененные времена создания других страниц в сети, используемые как опорные точки.
    • Технические факторы (Хостовые): Принадлежность страниц к хостам. Патент предполагает, что Decay Parameter (τ) может быть общим для всех страниц одного хоста.

    Какие метрики используются и как они считаются

    • Age Difference (a): Разница во времени создания между исходной и целевой страницами ссылки.
    • Decay Parameter (τ): Параметр скорости устаревания. Оценивается эмпирически офлайн для хоста или сегмента веба.
    • Quality Parameter (Q): Метрика авторитетности/популярности страницы. Может инициализироваться как in-degree и уточняться в процессе оптимизации.
    • Link Probability (P): Вероятность существования ссылки. В модели используется формула, пропорциональная качеству и экспоненциальному затуханию возраста:
      $${P \propto Q \cdot e^{-a/\tau}}$$
    • Page Network Probability (P_network): Целевая функция для максимизации. Произведение всех Link Probabilities в сети.
    • Методы оптимизации: Для нахождения максимума P_network используется Maximum Likelihood Estimation (MLE), реализуемый через численные методы, такие как градиентный спуск (Gradient Descent).

    Выводы

    1. Яндекс активно определяет дату создания, если она не указана: Если временные метки отсутствуют или противоречивы, Яндекс не оставляет дату пустой, а использует сложную статистическую модель на основе ссылок для ее оценки.
    2. Возраст ссылок влияет на восприятие свежести контента: Оценка даты создания напрямую зависит от возраста страниц, которые ссылаются на документ, и страниц, на которые он ссылается. Ссылки со свежих страниц помогают системе корректно идентифицировать контент как новый.
    3. Recency Property заложено в модель: Патент основан на предположении, что страницы предпочитают ссылаться на недавно созданный контент. Вероятность ссылки экспоненциально падает с увеличением разницы в возрасте.
    4. Качество (Q) и Свежесть (T) взаимосвязаны: Модель учитывает не только возраст, но и Quality Parameter (Q) (аналог авторитетности). Система может одновременно оптимизировать и дату, и оценку качества (Claim 14).
    5. Темпоральные характеристики зависят от хоста/тематики: Система учитывает, что скорость устаревания контента (Decay Parameter τ) различается для разных сайтов (например, новости устаревают быстрее, чем справочники).

    Практика

    Best practices (это мы делаем)

    • Обеспечение четких и непротиворечивых временных меток: Лучший способ контролировать восприятие даты создания — явно указать ее. Используйте Schema.org (datePublished, dateModified), корректные HTTP-заголовки (Last-Modified) и указывайте дату в видимой части контента и Sitemap. Это снизит необходимость Яндекса применять статистическую оценку.
    • Стимулирование ссылок со свежих документов: Для сигнализирования о новизне контента критически важно быстро получать ссылки с недавно опубликованных страниц. В соответствии с моделью Recency Property, малая разница в возрасте (Age Difference ‘a’) подтверждает новизну контента для системы.
    • Актуализация внутренней перелинковки: При публикации нового материала ссылайтесь на него с других недавних публикаций на вашем сайте. Это помогает корректно датировать контент внутри хоста.
    • Построение авторитета (Quality Q): Увеличение общего качества и авторитета ресурса (Q) повышает вероятность получения ссылок в целом (согласно модели $${P \propto Q \cdot e^{-a/\tau}}$$), что помогает как в ранжировании, так и в корректном определении темпоральных характеристик.

    Worst practices (это делать не надо)

    • Манипуляции с датами (Искусственное омоложение): Попытки «омолодить» старый контент путем изменения даты публикации без существенного обновления могут быть нивелированы этим алгоритмом, если исторический ссылочный профиль указывает на реальный возраст страницы.
    • Публикация противоречивых временных меток: Наличие разных дат в Sitemap, Schema.org и теле документа заставит систему активировать методы оценки (включая ссылочный), результат которых может быть непредсказуем.
    • Изоляция нового контента от свежих ссылок: Если новый контент получает ссылки только со старых, давно не обновлявшихся страниц (включая внутренние разделы сайта), система может ошибочно оценить его время создания как более раннее.

    Стратегическое значение

    Патент подтверждает, что Яндекс рассматривает веб не просто как статический граф (классическая модель PageRank), а как динамическую, эволюционирующую структуру, где время играет ключевую роль. Для SEO это означает важность концепции «свежего авторитета». Недостаточно просто иметь ссылки; важно иметь ссылки с темпорально релевантных документов. Стратегия линкбилдинга должна учитывать скорость обновления контента в нише (Decay Parameter τ) и фокусироваться на получении ссылок с актуальных источников.

    Практические примеры

    Сценарий 1: Публикация важного исследования или новости.

    1. Действие: Сразу после публикации обеспечить распространение контента и получить ссылки с нескольких релевантных СМИ или блогов, которые опубликовали свои материалы в ту же неделю. Также обновить недавние внутренние статьи, добавив ссылки на новое исследование.
    2. Как это работает (по патенту): Система видит входящие ссылки, где разница в возрасте (Age Difference ‘a’) минимальна. Это соответствует высокой вероятности ссылки в модели $${P \propto Q \cdot e^{-a/\tau}}$$.
    3. Ожидаемый результат: Система с высокой уверенностью подтверждает дату создания исследования как актуальную, что дает максимальный буст по факторам свежести при ранжировании.

    Сценарий 2: Обнаружение искусственного завышения свежести

    1. Ситуация: Владелец старой страницы (создана в 2018 году) меняет временную метку на 2025 год, не обновляя контент.
    2. Действие системы: Яндекс видит заявленную дату 2025 год. Однако все входящие ссылки на эту страницу ведут со статей, датированных 2018-2019 годами.
    3. Применение алгоритма: Система рассчитывает вероятность сети. Если принять дату 2025 год, то вероятность существования ссылок из 2018 года крайне низка (из-за большого Age Difference и экспоненциального затухания). Вероятность сети будет максимальной, если датировать страницу примерно 2018 годом.
    4. Результат: Яндекс игнорирует заявленную дату 2025 год и использует оценку 2018 год для целей ранжирования и определения свежести.

    Вопросы и ответы

    Что важнее для этой модели: ссылки на меня или ссылки от меня?

    Оба направления важны, так как они устанавливают временные рамки. Исходящие ссылки показывают, что ваш контент был создан не раньше, чем контент, на который вы ссылаетесь. Входящие ссылки показывают, что ваш контент существовал на момент создания ссылающейся страницы. Алгоритм анализирует всю совокупность ссылок (Page Network), чтобы найти дату, которая лучше всего объясняет наблюдаемую картину.

    Как влияют ссылки со старых, авторитетных страниц на оценку даты создания?

    Ссылки со старых страниц устанавливают верхнюю границу для даты создания (ваш контент должен был существовать, чтобы на него сослались). Если у нового контента есть ссылки ТОЛЬКО со старых страниц, это может создать смещение в модели, и система может ошибочно датировать новый контент как более старый из-за принципа Recency. Желательно иметь микс, включающий ссылки с недавно созданных документов.

    Что такое Decay Parameter (τ) и могу ли я на него повлиять?

    Decay Parameter (τ) — это скорость «устаревания» контента. Он показывает, насколько быстро падает интерес к страницам на вашем сайте или в вашей нише. Например, у новостного сайта τ высокий (контент быстро устаревает), а у Википедии — низкий. Вы не можете повлиять на него напрямую, так как он определяется Яндексом эмпирически, но вы должны адаптировать свою стратегию: если τ высокий, вам нужно постоянно публиковать новый контент и быстро получать на него ссылки.

    Учитывает ли этот патент дату обновления (Modification Date) или только дату создания (Creation Date)?

    Патент сфокусирован исключительно на определении даты создания (Creation Time). Он не описывает механизмы определения даты последнего обновления. Однако точное определение даты создания является фундаментом для последующего анализа жизненного цикла документа, включая его обновления.

    Что такое Quality Parameter (Q) в этой модели и как он связан с PageRank?

    Quality Parameter (Q) — это мера внутренней полезности или популярности страницы. Он концептуально похож на PageRank тем, что отражает авторитетность: страницы с высоким Q имеют больше шансов получить ссылку. В патенте предлагается использовать количество входящих ссылок (in-degree) как начальное значение для Q. В отличие от классического PageRank, Q используется здесь в контексте темпоральной модели для расчета вероятности ссылки.

    Что такое Recency Property, упоминаемое в патенте?

    Recency Property (Свойство новизны) — это ключевое наблюдение, лежащее в основе патента. Оно заключается в том, что в динамичных сегментах интернета («Медиа Веб» — новости, блоги) страницы склонны ссылаться на недавно созданный контент, а не на старый, даже если он был очень популярен в прошлом. Это отличает модель от классических моделей типа Preferential Attachment (основа ранних версий PageRank).

    Как система обрабатывает ссылки, идущие из старых документов в новые (против времени)?

    Хотя основное предположение состоит в том, что новые документы ссылаются на более старые, модель учитывает и обратные ссылки. В Приложениях к патенту описана функция сглаживания (сигмоида), которая присваивает ненулевую (хотя и меньшую) вероятность ссылкам, идущим «против времени». Это делает модель более устойчивой к реальным данным, где такие ссылки иногда встречаются.

    Если я удалю все даты со своего сайта, как это повлияет на ранжирование?

    Это плохая практика. Удаление дат заставит Яндекс активировать этот алгоритм статистической оценки. Система будет вынуждена угадывать возраст вашего контента на основе возраста ссылающихся страниц. Это делает восприятие свежести непредсказуемым и может привести к пессимизации по запросам, где свежесть важна. Всегда лучше явно предоставлять точные временные метки.

    Где применяется этот алгоритм: в реальном времени при запросе или офлайн?

    Алгоритм применяется офлайн, на этапе индексирования и обработки данных. Расчеты, связанные с оптимизацией (Gradient Descent, MLE), слишком ресурсоемки для выполнения в реальном времени. Результат работы алгоритма (определенная дата создания) сохраняется в индексе и затем используется при ранжировании.

    Как этот патент влияет на стратегию внутренней перелинковки?

    Он подчеркивает важность темпоральной связности. Новый контент должен быть интегрирован в структуру сайта путем получения ссылок с других недавно созданных или обновленных страниц. Ссылки только из старых архивов или футера могут быть недостаточными для сигнализирования о новизне контента системе датирования.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.