Яндекс использует вероятностную модель для определения времени создания веб-страницы, анализируя структуру и время появления ссылок в сети. Система находит дату, которая максимизирует вероятность наблюдаемой структуры ссылочного графа. Этот метод позволяет игнорировать поддельные даты и одновременно рассчитывать параметр качества страницы на основе временной динамики ссылок.
Описание
Какую задачу решает
Патент решает задачу точного и достоверного определения времени создания веб-страницы (возраста документа). Поскольку возраст является важным сигналом ранжирования (для оценки свежести или авторитетности), вебмастера часто манипулируют датами в контенте, Sitemaps или HTTP-заголовках (Last-Modified). Изобретение предлагает метод, устойчивый к таким манипуляциям, так как он основан на анализе эволюции глобального ссылочного графа, который значительно сложнее подделать.
Что запатентовано
Запатентован способ определения времени создания веб-ресурса с использованием вероятностного моделирования на ссылочном графе. Суть изобретения заключается в поиске такого времени создания целевой страницы, которое максимизирует вероятность существования наблюдаемой структуры связей (сети страниц). Кроме того, этот же механизм позволяет одновременно оценивать параметр качества страницы.
Как это работает
Система строит сеть страниц (граф). Для целевой страницы предлагается набор гипотетических значений времени создания. Для каждой гипотезы рассчитывается вероятностное распределение сети страниц — насколько вероятно наблюдать текущую структуру ссылок при данной гипотезе. Этот расчет основан на вероятностях отдельных ссылок, которые зависят от времени создания связанных страниц и их параметра качества. Гипотетическое время, обеспечивающее наибольшую вероятность (максимальное правдоподобие) наблюдаемой структуры графа, принимается за истинное время создания. Для эффективного поиска этого максимума используются методы оптимизации, например, градиентный спуск.
Актуальность для SEO
Высокая. Достоверное определение возраста и авторитетности контента остается фундаментальной задачей для поисковых систем. Использование анализа временной динамики ссылочного графа для валидации статических факторов является надежным и актуальным подходом для защиты от манипуляций с датами и оценки качества.
Важность для SEO
Влияние на SEO значительно (7.5/10). Этот патент демонстрирует механизм, позволяющий Яндексу игнорировать заявленные вебмастером даты и полагаться на объективный анализ ссылочного графа. Это делает бесполезными попытки искусственно «состарить» или «освежить» контент путем подделки дат. Кроме того, патент описывает метод расчета Параметра Качества, основанный на временной динамике ссылок, что представляет собой важный сигнал авторитетности (Time-aware Authority).
Детальный разбор
Термины и определения
- Вероятностное распределение сети страниц
- Общая вероятность (правдоподобие) наблюдения существующей структуры ссылок в сети при заданных параметрах (времени создания страниц, их качестве). Является целевой функцией, которую система стремится максимизировать.
- Вероятностное распределение ссылок
- Вероятность существования отдельной ссылки. Зависит от времени создания исходной страницы и страницы назначения, а также может зависеть от параметра качества и параметра затухания.
- Гипотетическое время создания
- Предполагаемое значение времени создания страницы, которое система перебирает или оптимизирует для нахождения наилучшего соответствия наблюдаемой структуре сети.
- Градиентный спуск
- Метод численной оптимизации, используемый для эффективного нахождения максимума вероятностного распределения сети страниц при подборе времени создания и/или параметра качества (Упоминается в п.3 и п.13 Формулы).
- Исходная страница / Страница назначения
- Страница, на которой размещена ссылка (донор), и страница, на которую ведет ссылка (акцептор).
- Параметр затухания
- Параметр, моделирующий изменение вероятности появления ссылки с течением времени (например, вероятность ссылки на контент может изменяться по мере его устаревания). Упоминается в п.15 Формулы.
- Параметр качества
- Метрика, оценивающая качество (авторитетность) страницы или узла (сайта). Может основываться на количестве входящих ссылок (п.9) или определяться самой моделью (п.11). Влияет на вероятностное распределение ссылок (п.8).
- Сеть страниц
- Множество страниц и ссылок между ними, рассматриваемое как граф для анализа.
- Целевая страница
- Страница, для которой определяется время создания.
Ключевые утверждения (Анализ Claims)
Патент защищает вероятностную модель (Метод Максимального Правдоподобия) для определения возраста и качества веб-страниц на основе анализа структуры и временной динамики ссылочного графа.
Claim 1 (Независимый пункт): Описывает ядро изобретения для определения времени создания.
- Создается сеть страниц (граф).
- Определяется вероятностное распределение сети страниц в зависимости от гипотетического времени создания целевой страницы.
- Ключевой механизм: Вероятность сети основана на вероятностях отдельных ссылок, которые, в свою очередь, зависят от времени создания исходной страницы и страницы назначения.
- Определяется значение гипотетического времени создания, которое дает наибольшее значение (максимум) вероятностного распределения сети. Это значение принимается за время создания целевой страницы.
Система ищет такую дату создания, при которой наблюдаемая картина ссылок (кто, когда и на кого ссылается) выглядит наиболее правдоподобно с точки зрения модели.
Claim 2 и 3 (Зависимые пункты): Уточняют метод оптимизации.
Для нахождения максимума система может перебирать множество гипотетических значений (Claim 2) или использовать эффективный метод оптимизации — способ градиентного спуска (Claim 3).
Claims 4-7 (Зависимые пункты): Описывают использование временных ограничений (Constraints) для сужения диапазона поиска.
- Логика ограничений: Целевая страница должна быть создана до того, как с нее поставили исходящую ссылку (Claim 5), и до того (или в момент того), как на нее поставили входящую ссылку (Claim 6). Диапазон гипотез определяется между этими временными метками (Claim 7). Это гарантирует, что система не рассматривает невозможные сценарии (ссылки в будущее).
Claims 8-10 (Зависимые пункты): Вводят понятие качества в модель.
Вероятность существования ссылки дополнительно зависит от параметра качества страницы назначения (Claim 8). Это критически важно: модель предполагает, что динамика появления ссылок на качественные и некачественные страницы различается. Параметр качества может инициализироваться количеством входящих ссылок (аналог PageRank) (Claim 9) или качеством хоста (сайта) в целом (Claim 10).
Claims 11-14 (Зависимые пункты): Описывают возможность определения параметра качества в рамках той же модели (Inference).
Система может определять параметр качества страницы, также максимизируя вероятностное распределение сети страниц (Claim 11, 12). Критически важно (Claim 14): Определение времени создания и параметра качества может происходить одновременно. Это указывает на совместную оптимизацию параметров модели для наилучшего объяснения наблюдаемого графа (Time-aware Authority).
Claim 15 (Зависимый пункт): Вводит параметр затухания, моделирующий изменение интереса к контенту со временем.
Claim 17 (Зависимый пункт): Указывает, что сеть страниц может быть размещена на одном узле, подтверждая применимость метода к анализу внутренней перелинковки.
Где и как применяется
Изобретение относится к инфраструктурным процессам обработки данных о веб-графе.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются исходные данные: структура ссылок и временные метки обнаружения страниц и ссылок (Crawl Dates), необходимые для построения сети страниц и установки временных ограничений.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. Алгоритм используется для вычисления и валидации ключевых статических факторов документа:
- Определение возраста документа: Рассчитанное время создания сохраняется в индексе как достоверный возраст.
- Расчет Параметра Качества: Система рассчитывает метрику качества (авторитетности) страницы, основанную на временной динамике ссылочного графа.
Процесс требует значительных вычислительных ресурсов (анализ графа, градиентный спуск) и выполняется в офлайн-режиме или как пакетная обработка, аналогично расчету PageRank.
RANKING – Ранжирование
Рассчитанные факторы (точный возраст и параметр качества) используются на этапах ранжирования (L1-L4) в основной формуле как сигналы свежести или авторитетности.
На что влияет
- Специфические запросы: Сильно влияет на запросы, требующие свежести (QDF — Query Deserves Freshness), так как позволяет точно датировать контент. Также влияет на запросы, где важна надежность и авторитетность (E-E-A-T), так как возраст и рассчитанный параметр качества являются сигналами доверия.
- Конкретные ниши: Особенно критично в YMYL-тематиках (финансы, медицина), где манипуляции с возрастом для имитации надежности распространены, а также в новостных тематиках.
- Борьба со спамом: Позволяет выявлять временные аномалии в ссылочном графе (например, неестественная динамика появления ссылок), что может быть признаком манипуляций, использования PBN или дроп-доменов.
Когда применяется
- При индексации новых страниц: Для определения начальной даты создания на основе первых обнаруженных ссылок (внутренних и внешних).
- Периодические пересчеты: Глобальное перевычисление временной шкалы и параметров качества всего веб-графа в офлайн-режиме для повышения точности.
- При обновлении индекса: Для уточнения времени создания существующих страниц при появлении новых данных о ссылках.
Пошаговый алгоритм
Процесс определения времени создания и/или параметра качества целевой страницы:
- Построение сети (Граф): Извлечение целевой страницы и связанных с ней страниц и ссылок из базы данных поисковой системы.
- Инициализация параметров: Присвоение известных (или ранее оцененных) значений времени создания и начальных параметров качества (например, по количеству входящих ссылок, Claim 9) для страниц в сети.
- Определение диапазона гипотез (Constraints): Определение временных ограничений для целевой страницы на основе времени создания (обнаружения) входящих и исходящих ссылок (Claims 5-7).
- Итеративная Оптимизация: Использование метода оптимизации (например, градиентного спуска) для одновременного поиска оптимальных параметров Времени создания и Параметра качества (Claim 14). На каждой итерации:
- Расчет вероятностей ссылок: Вычисление вероятностного распределения ссылок для каждой ссылки. Эта вероятность зависит от текущих гипотез о времени создания, параметрах качества и параметре затухания.
- Расчет вероятности сети: Агрегация вероятностей отдельных ссылок в общее вероятностное распределение сети страниц.
- Корректировка гипотез: Изменение гипотетического времени создания и/или параметра качества в направлении увеличения общей вероятности сети (градиентный шаг).
- Финализация (Максимизация): Определение комбинации времени создания и параметра качества, которая максимизирует общее вероятностное распределение сети. Сохранение этих значений в индексе.
Какие данные и как использует
Данные на входе
- Ссылочные факторы: Являются основными данными. Используется структура сети страниц (граф): наличие ссылок, их направление (входящие/исходящие). Количество входящих ссылок используется для инициализации параметра качества.
- Временные факторы: Известные или ранее оцененные времена создания других страниц в сети. Временные метки обнаружения ссылок краулером используются для наложения временных ограничений.
- Факторы качества узла: Может использоваться общая оценка качества сайта (узла), на котором размещена страница (Claim 10).
Патент не упоминает использование контентных, поведенческих или технических факторов непосредственно в этом алгоритме определения возраста.
Какие метрики используются и как они считаются
- Вероятностное распределение ссылок (P(L)): Модель, определяющая вероятность существования ссылки. Конкретные формулы не приведены, но указаны зависимости от Времени (T), Качества (Q) и Затухания (D). $P(L) = f(T_{source}, T_{destination}, Q_{destination}, D)$.
- Вероятностное распределение сети страниц (L(Сеть)): Агрегированная метрика вероятности наблюдаемого графа (целевая функция для оптимизации). Вероятно, вычисляется как произведение вероятностей ссылок: $${L(\text{Сеть}) = \prod P(L_i)}$$
- Параметр качества (Quality Parameter): Метрика авторитетности. Рассчитывается путем совместной оптимизации с временем создания для максимизации L(Сеть).
- Методы вычислений: Вероятностное моделирование графов (Максимизация правдоподобия, MLE). Используется способ градиентного спуска (Claim 3, 13) для нахождения максимума целевой функции.
Выводы
- Возраст определяется по ссылочному графу, а не по метаданным: Яндекс использует сложный вероятностный анализ эволюции ссылочного графа для определения времени создания страницы. Это делает систему устойчивой к манипуляциям с датами на сайте (Sitemap, мета-теги, контент).
- Временная структура веба как основа анализа: Система моделирует, как ссылки формируются во времени. Время создания определяется как момент, который наилучшим образом объясняет наблюдаемую структуру входящих и исходящих связей и их временные метки, с учетом логических ограничений (ссылка не может появиться раньше страницы).
- Качество и возраст взаимосвязаны (Time-aware Authority): В модель интегрирован параметр качества. Система предполагает, что динамика появления ссылок на авторитетные и неавторитетные ресурсы различается.
- Совместная оптимизация возраста и качества: Ключевая особенность патента — возможность одновременного определения времени создания и параметра качества путем максимизации общей вероятности наблюдаемого графа (Claim 14). Это указывает на глубокую интеграцию временных и авторитетных сигналов.
- Внутренняя перелинковка имеет значение: Метод применим к анализу страниц в рамках одного сайта (Claim 17), что подчеркивает важность структуры внутренней перелинковки для корректного датирования контента.
Практика
Best practices (это мы делаем)
- Фокус на естественном и последовательном линкбилдинге: Система анализирует временную динамику появления ссылок. Планомерное и органичное наращивание ссылочной массы с течением времени формирует «правильную» и высоковероятную картину для модели, что способствует высокому Параметру Качества.
- Повышение качества ресурса (Авторитетности): Работайте над повышением авторитетности сайта (ИКС, E-E-A-T). Поскольку Параметр качества интегрирован в модель (Claim 8), авторитетные ресурсы с естественной динамикой ссылок получают более высокие оценки.
- Своевременное продвижение нового контента: Для корректного определения даты создания новой страницы необходимо обеспечить ее быстрое получение первых входящих ссылок (внутренних и внешних).
- Использование внутренней перелинковки: Внутренние ссылки также участвуют в анализе (Claim 17). Корректная и своевременная внутренняя перелинковка важна для быстрого определения возраста нового контента до появления внешних ссылок.
- Поддержание актуальности «вечнозеленого» контента: Для старых страниц важно продолжение получения новых ссылок. Это подтверждает актуальность контента и положительно влияет на Параметр Качества, противодействуя потенциальному Параметру Затухания.
Worst practices (это делать не надо)
- Подделка дат публикации: Попытки искусственно «состарить» или «освежить» контент путем изменения дат в метаданных, Sitemap или на странице неэффективны. Система определит возраст на основе анализа ссылок.
- Массовая закупка ссылок (Ссылочные взрывы): Резкий, неестественный всплеск появления ссылок может выглядеть аномально (маловероятно) в рамках вероятностной модели временной динамики и негативно повлиять на расчет Параметра Качества.
- Использование дроп-доменов только ради возраста: Размещение нового контента на старом домене не даст преимуществ в возрасте для этого контента. Система определит, что ссылки на новые URL начали появляться недавно, и установит корректное время создания страниц.
- Временные аномалии в линкбилдинге: Получение ссылок с очень старых, не обновляемых страниц на совершенно новый контент может быть интерпретировано моделью как маловероятное событие.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на использование глобального анализа веб-графа для определения фундаментальных характеристик документов (возраста и качества). Он показывает, что эти характеристики не рассматриваются изолированно, а определяются в рамках единой вероятностной модели, учитывающей время. Для SEO это означает, что невозможно манипулировать возрастом как отдельным фактором. Долгосрочная стратегия должна строиться на развитии качественных ресурсов, которые естественным образом встраиваются во временную структуру интернета через органические ссылки.
Практические примеры
Сценарий 1: Попытка манипуляции возрастом статьи (Определение Времени)
- Действие SEO: Специалист публикует новую статью в 2025 году, но в микроразметке и видимом контенте указывает дату публикации 2020 год, чтобы она выглядела авторитетной.
- Действие системы: Алгоритм анализирует граф ссылок. Он видит, что все входящие и исходящие ссылки появились только в 2025 году.
- Расчет вероятности: Система рассчитывает вероятность наблюдаемой структуры ссылок при гипотезе «возраст 2020 год» и при гипотезе «возраст 2025 год». Вероятность того, что страница существовала 5 лет без связей, крайне мала.
- Результат: Система максимизирует вероятность и определяет реальное время создания как 2025 год, игнорируя поддельную дату.
Сценарий 2: Расчет Time-aware Authority (Определение Качества)
- Ситуация: Есть две страницы (А и Б) одинакового возраста и с одинаковым количеством входящих ссылок. Страница А получала ссылки равномерно в течение 5 лет от авторитетных ресурсов. Страница Б получила все ссылки в результате ссылочного взрыва за последний месяц от низкокачественных сайтов.
- Действие системы: Система использует алгоритм для одновременного определения времени и Параметра Качества (Claim 14).
- Расчет: Вероятностная модель предполагает определенную динамику получения ссылок для качественных ресурсов. Структура ссылок страницы А лучше соответствует этой модели (имеет более высокую вероятность), чем аномальная структура страницы Б.
- Результат: Чтобы максимизировать общую вероятность сети, системе придется присвоить Странице А более высокий Параметр Качества, чем странице Б, так как ее ссылочный профиль выглядит более естественным и надежным во временной перспективе.
Вопросы и ответы
Означает ли этот патент, что указывать даты публикации на сайте бесполезно?
Нет, указывать корректные даты (в контенте, Sitemaps, Schema.org) по-прежнему важно для консистентности сигналов и удобства пользователей. Однако этот патент показывает, что Яндекс имеет независимый и более надежный механизм определения возраста, основанный на анализе ссылок. В случае конфликта между заявленной датой и данными ссылочного анализа, система предпочтет данные анализа.
Что такое «Параметр качества» в контексте этого патента и как он связан с ИКС или PageRank?
«Параметр качества» — это метрика авторитетности страницы или сайта. Он концептуально схож с PageRank и может инициализироваться количеством входящих ссылок (Claim 9). Ключевое отличие в том, что этот параметр может рассчитываться динамически внутри вероятностной модели, учитывающей временную эволюцию графа (Claim 11-14). Система подбирает значение качества, при котором наблюдаемая структура ссылок во времени становится наиболее вероятной (Time-aware Authority).
Как этот алгоритм влияет на стратегии линкбилдинга (Link Velocity)?
Он подчеркивает важность естественности и временной согласованности. Ссылки должны появляться после создания контента и, желательно, равномерно с течением времени. Ссылочные взрывы или неестественные паттерны могут быть интерпретированы моделью как аномалии (маловероятные события), что может негативно сказаться на расчете Параметра Качества.
Может ли этот алгоритм ошибиться, если я перенесу старый контент на новый URL?
Да, если перенос выполнен некорректно. Алгоритм анализирует время создания конкретного URL в графе. При переносе контента на новый URL без настройки 301 редиректа система воспримет его как новый документ, и отсчет возраста начнется с момента появления ссылок на новый URL. Критически важно использовать 301 редирект для склейки сигналов и передачи истории.
Эффективна ли покупка дроп-доменов для имитации возраста сайта против этого алгоритма?
Для нового контента, размещенного на старом домене, эта тактика неэффективна. Алгоритм определяет возраст конкретной страницы (URL), а не домена. Если ссылки на новый URL начали появляться только сейчас, система корректно определит время создания этого URL как недавнее, игнорируя возраст домена.
Что такое «Параметр затухания» (Claim 15)?
Этот параметр позволяет моделировать динамику формирования ссылок во времени. Например, можно предположить, что вероятность того, что новая страница сошлется на очень старую страницу, снижается с течением времени (затухание интереса), или что актуальность самой страницы падает. Учет этого параметра делает вероятностную модель более реалистичной.
Влияет ли внутренняя перелинковка на определение возраста страницы?
Да. В патенте не делается различия между внешними и внутренними ссылками. Claim 17 указывает, что все множество страниц сети страниц может быть размещено на одном узле (сайте). Внутренние ссылки также являются частью сети страниц, накладывают временные ограничения и помогают системе определить возраст нового контента.
Что означает «градиентный спуск» в этом патенте?
Градиентный спуск — это метод численной оптимизации. Вместо полного перебора всех возможных дат и параметров качества (что вычислительно очень дорого), система итеративно корректирует текущие оценки в направлении увеличения общей вероятности наблюдаемой структуры ссылок. Это позволяет эффективно находить оптимальное решение в сложных графовых моделях.
Как система устанавливает начальные временные рамки для анализа?
Согласно Claims 5-7, система использует время создания (или обнаружения краулером) входящих и исходящих ссылок целевой страницы для установки границ. Время создания страницы логически должно предшествовать времени появления как входящих (на нее), так и исходящих (с нее) ссылок.
Что, если у моей страницы очень мало входящих или исходящих ссылок?
В этом случае точность определения даты с помощью этого метода снижается, так как у системы меньше данных для анализа вероятностей и меньше временных ограничений. Вероятно, в таких ситуациях Яндекс будет больше полагаться на другие сигналы, такие как время первого обхода или данные, указанные вебмастером (Last-Modified, Sitemap), если они консистентны.