Яндекс патентует метод определения точного времени создания веб-страницы, когда стандартные методы (анализ URL, контента, временных меток) ненадежны. Система строит сеть связанных страниц и вычисляет вероятность существования ссылок в зависимости от разницы в возрасте между ними. Время создания, которое максимизирует общую вероятность сети, принимается за истинное. Метод также учитывает параметр качества страницы и скорость устаревания контента.
Описание
Какую задачу решает
Патент решает задачу точного определения времени создания (Creation Time) веб-ресурса. Знание времени создания критически важно для таких задач, как планирование обхода краулером (web crawler scheduling), ранжирование результатов поиска (особенно факторы свежести) и их сортировка. Метод направлен на случаи, когда стандартные способы определения даты (анализ URL, контента, временных меток в коде) дают ненадежные, противоречивые (шумные) или слишком общие данные (например, только год).
Что запатентовано
Запатентован метод определения времени создания целевой страницы (Target Page) с помощью вероятностного анализа ссылочного графа. Суть изобретения заключается в построении сети страниц (Page Network) и определении такой даты создания целевой страницы, которая максимизирует общую вероятность (Page Network Probability) существования наблюдаемой структуры ссылок в этом графе.
Как это работает
Система строит Page Network вокруг целевой страницы с неизвестной датой. Сначала определяются временные ограничения: целевая страница должна быть создана позже, чем страницы, на которые она ссылается, и раньше, чем страницы, которые ссылаются на нее. Затем система перебирает гипотетические времена создания в этом диапазоне. Для каждой гипотезы рассчитывается вероятность существования всех ссылок в сети, исходя из предположения, что вероятность ссылки экспоненциально уменьшается с увеличением разницы в возрасте между страницами. Этот расчет также учитывает Quality Parameter (Q, популярность/полезность) страниц и Decay Parameter ($\tau$, скорость устаревания контента). Время, которое максимизирует общую вероятность сети, выбирается как Creation Time.
Актуальность для SEO
Высокая. Точное определение дат создания и обновления контента остается критически важным для алгоритмов, учитывающих свежесть (например, QDF — Query Deserves Freshness), и для эффективного управления краулинговым бюджетом. Использование ссылочного графа для валидации и извлечения признаков является фундаментальным подходом в Яндексе.
Важность для SEO
Влияние на SEO среднее (6/10). Это инфраструктурный патент, касающийся индексации и извлечения признаков, а не алгоритм ранжирования. Однако он повышает точность существующих факторов (факторов свежести). Для SEO-специалистов это означает, что Яндекс может определить реальный возраст контента, опираясь на ссылочный профиль, даже если на сайте отсутствуют четкие сигналы даты. Это также подчеркивает риски манипулирования датами, если ссылочный профиль противоречит заявленной временной шкале.
Детальный разбор
Термины и определения
- Age Difference (a) (Разница в возрасте)
- Разница между временем создания исходной страницы (Source Page) и страницы назначения (Destination Page) ссылки.
- Creation Time (T) (Время создания)
- Время, когда веб-страница загружается на хост и становится доступной через сеть.
- Decay Parameter ($\tau$) (Параметр затухания/распада)
- Параметр, характеризующий скорость устаревания страниц или скорость снижения популярности страницы с течением времени. Используется в модели экспоненциального затухания. Может рассчитываться индивидуально для хоста или группы хостов.
- Link Probability (P) (Вероятность ссылки)
- Вероятность существования конкретной ссылки. Зависит от разницы в возрасте (a), параметра затухания ($\tau$), и, опционально, от параметра качества (Q) страницы назначения.
- Page Network (Сеть страниц)
- Граф, состоящий из множества страниц (включая целевую страницу) и ссылок между ними. Каждая страница в сети является источником или назначением хотя бы для одной ссылки в этой сети.
- Page Network Probability ($P_{network}$)
- Общая вероятность существования наблюдаемой сети страниц с данной структурой ссылок. Рассчитывается как произведение вероятностей всех отдельных ссылок в сети.
- Quality Parameter (Q) (Параметр качества)
- Показатель полезности или популярности страницы. Страницы с более высоким Q имеют большую вероятность получения входящих ссылок. Может быть основан на количестве входящих ссылок.
- Target Page (Целевая страница)
- Веб-страница, время создания которой неизвестно и должно быть определено системой.
Ключевые утверждения (Анализ Claims)
Патент описывает метод определения времени создания страницы путем максимизации вероятности наблюдаемого ссылочного графа.
Claim 1 (Независимый пункт): Описывает основной процесс.
- Создается представление сети страниц (Page Network), включающее целевую страницу (с неизвестным временем создания) и множество ссылок.
- Определяются исходящие ссылки целевой страницы (outgoing target link).
- Назначается множество гипотетических значений времени создания (Hypothetical Creation Time) для целевой страницы.
- Критическое ограничение: самое раннее гипотетическое значение должно быть равно или позже времени создания страницы назначения исходящей ссылки (т.е. страница не может ссылаться на то, что еще не создано).
- Для каждого гипотетического времени рассчитывается соответствующая Page Network Probability.
- Эта вероятность основана на вероятностях отдельных ссылок (Link Probability), которые зависят от времени создания источника и назначения каждой ссылки (т.е. от разницы в возрасте).
- Определяется то гипотетическое значение, которое дает наибольшее значение Page Network Probability. Это значение присваивается как время создания целевой страницы.
Claim 2: Уточняет, что для определения максимума вероятности может использоваться метод градиентного спуска (gradient descent method).
Claim 4 и 5: Вводят дополнительные ограничения на основе входящих ссылок (incoming target link). Самое позднее гипотетическое время создания должно быть равно или раньше времени создания страницы-источника входящей ссылки (т.е. на страницу нельзя сослаться до ее создания). Гипотетические значения назначаются в диапазоне между временем создания назначения исходящей ссылки и временем создания источника входящей ссылки.
Claim 6 (Зависимый от 1): Вводит параметр качества.
- Вероятность ссылки (Link Probability) дополнительно основывается на параметре качества (Quality Parameter, Q) страницы назначения этой ссылки.
Claim 9 и 10 (Зависимые от 6): Расширяют метод для определения параметра качества.
- Метод может использоваться для определения Quality Parameter (Q) для одной или нескольких страниц в сети путем назначения гипотетических значений Q и выбора того значения, которое максимизирует Page Network Probability. (Claim 12 указывает, что определение времени и Q может происходить одновременно).
Claim 13 (Зависимый от 1): Вводит параметр затухания.
- Определяется параметр затухания (Decay Parameter, $\tau$) для множества страниц, и вероятность ссылки основывается на этом параметре.
Где и как применяется
Изобретение применяется на ранних этапах обработки данных для обеспечения точности признаков, используемых в дальнейшем.
INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Это основная область применения патента. Когда стандартные методы извлечения даты (анализ URL, контента, HTML-тегов, заголовков) не дают надежного результата, активируется описанный механизм. Система извлекает ссылочный граф (Page Network) и запускает процесс вероятностной оптимизации для определения даты создания. Полученная дата сохраняется в индексе как признак документа.
CRAWLING – Сканирование и Сбор данных
Точное знание времени создания ресурса позволяет оптимизировать планирование обхода (web crawler scheduling). Система может использовать оценки, полученные с помощью этого метода, для приоритизации повторного обхода страниц.
RANKING – Ранжирование
Сам алгоритм не участвует в ранжировании напрямую. Однако извлеченный признак (дата создания) используется алгоритмами ранжирования, особенно теми, которые чувствительны к свежести контента (например, при обработке новостных или трендовых запросов).
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на контент, для которого важна свежесть, но даты часто ненадежны: новости, блоги, форумы, архивы документов.
- Специфические запросы: Влияет на ранжирование по запросам, для которых свежесть является важным сигналом (QDF — Query Deserves Freshness), и на результаты, отсортированные по дате.
- Структура сайтов: В патенте упоминается, что в одной из реализаций все страницы в Page Network могут принадлежать одному хосту. Это предполагает, что метод активно применяется для анализа внутренней структуры ссылок сайта с целью определения дат создания его страниц.
Когда применяется
Алгоритм применяется в процессе индексации при выполнении следующих условий:
- Триггеры активации: Когда время создания страницы неизвестно, или когда информация о нем «шумная» (противоречивая), или слишком общая (например, известен только год).
- Необходимые условия: Для работы метода необходимо, чтобы целевая страница была частью ссылочного графа (Page Network), то есть имела входящие и/или исходящие ссылки на страницы, для которых время создания (желательно) известно.
Пошаговый алгоритм
Процесс определения времени создания целевой страницы.
- Идентификация целевой страницы: Определение страницы с неизвестным или ненадежным временем создания.
- Построение сети страниц (Page Network Construction): Создание графа, включающего целевую страницу и связанные с ней страницы. В одной из реализаций это могут быть страницы одного хоста. Извлекаются все ссылки между этими страницами.
- Определение ограничений и диапазона (Constraint Determination):
- Определение самой поздней даты создания среди страниц, на которые ссылается целевая страница (Нижняя граница).
- Определение самой ранней даты создания среди страниц, которые ссылаются на целевую страницу (Верхняя граница).
- Диапазон для поиска даты создания целевой страницы устанавливается между этими границами.
- Инициализация параметров (Офлайн):
- Определение параметра затухания ($\tau$) для данного хоста или группы страниц на основе анализа страниц с известными датами создания.
- (Опционально) Предварительная оценка параметров качества (Q) для страниц в сети (например, на основе количества входящих ссылок).
- Генерация гипотез: Назначение множества гипотетических значений времени создания для целевой страницы в пределах определенного диапазона.
- Расчет вероятностей (Iterative Probability Calculation):
- Для каждой гипотезы рассчитывается разница в возрасте (Age Difference, a) для всех ссылок, связанных с целевой страницей.
- Рассчитывается вероятность каждой ссылки (Link Probability, P), например, используя модель экспоненциального затухания. В патенте предлагается модель, где вероятность пропорциональна $e^{-a/\tau}$ или $Q\cdot e^{-a/\tau}$.
- Рассчитывается общая вероятность сети (Page Network Probability, $P_{network}$) как произведение вероятностей всех ссылок в сети.
- Оптимизация и выбор (Probability Maximization): Определение гипотетического времени создания, которое максимизирует $P_{network}$. Для этого может использоваться метод градиентного спуска.
- Присвоение результата: Найденное оптимальное время присваивается целевой странице и сохраняется в индексе.
- (Опционально) Определение Качества: Процесс оптимизации может также использоваться для уточнения значений параметров качества (Q) страниц в сети одновременно с определением даты.
Какие данные и как использует
Данные на входе
- Ссылочные факторы: Структура ссылочного графа (Page Network) является основным источником данных. Используется информация о том, какая страница является источником (Source Page), а какая — назначением (Destination Page) для каждой ссылки.
- Временные факторы: Известные времена создания других страниц в сети. Эти данные используются для установления ограничений и расчета разницы в возрасте.
- Факторы авторитетности (Косвенно): Данные, используемые для оценки Quality Parameter (Q). В патенте упоминается, что Q может быть основан на количестве входящих ссылок на страницу.
Какие метрики используются и как они считаются
- Age Difference (a): Разница во времени между созданием источника и назначения ссылки.
- Decay Parameter ($\tau$): Определяется эмпирически офлайн. Анализируется количество ссылок между страницами с известными датами создания для разных интервалов разницы в возрасте. В патенте описан метод: для целого числа $i$ подсчитывается количество ссылок $X_i$ с разницей в возрасте между $(i-1)$ и $i$ днями. Параметр $\tau$ получается из наклона линии на логарифмическом графике $(i, log X_i)$.
- Quality Parameter (Q): Метрика популярности/полезности. Может быть инициализирована количеством входящих ссылок и уточнена в процессе максимизации $P_{network}$.
- Link Probability (P): Вероятность существования ссылки. В патенте описывается модель экспоненциального распада. В расширенной модели она пропорциональна $Q\cdot e^{-a/\tau}$.
- Page Network Probability ($P_{network}$): Общая вероятность сети. Рассчитывается как произведение всех индивидуальных Link Probabilities в сети.
- Методы оптимизации: Для нахождения максимума функции $P_{network}$ используется метод градиентного спуска (gradient descent method).
Выводы
- Ссылочный граф как источник истины о возрасте: Яндекс использует ссылочный граф для верификации и определения времени создания документа, когда другие источники ненадежны. Это основано на фундаментальном принципе: нельзя сослаться на то, чего еще не существует.
- Вероятностный подход к извлечению признаков: Вместо использования жестких правил (например, просто взять дату первой входящей ссылки), Яндекс применяет сложную вероятностную модель, которая ищет наиболее правдоподобную дату создания, учитывая всю совокупность ссылок в локальном графе.
- Моделирование динамики ссылок: Патент явно моделирует два ключевых аспекта формирования ссылок:
- Устаревание (Decay Parameter $\tau$): Вероятность сослаться на старую страницу экспоненциально уменьшается со временем.
- Авторитетность (Quality Parameter Q): Более популярные и полезные страницы получают больше ссылок, независимо от их возраста.
- Устойчивость к манипуляциям датами: Этот метод позволяет игнорировать заявленные на сайте даты (в контенте или мета-тегах), если они противоречат структуре ссылочного графа.
- Характеристики на уровне хоста: Вводится понятие скорости устаревания контента ($\tau$), которое может рассчитываться индивидуально для каждого хоста.
- Определение качества через оптимизацию: Патент также описывает, что этот же механизм оптимизации (максимизация $P_{network}$) может использоваться для расчета Quality Parameter (Q) страниц, что является еще одним способом оценки авторитетности на основе ссылок.
Практика
Best practices (это мы делаем)
- Обеспечение четких и последовательных временных меток: Главный вывод — необходимо предоставлять поисковой системе максимально точные и непротиворечивые данные о дате создания (datePublished) и модификации (dateModified) контента (через HTTP-заголовки, Sitemap, микроразметку Schema.org и видимый текст на странице). Это позволит избежать активации вероятностной оценки.
- Поддержание логичной структуры внутренних ссылок: Поскольку алгоритм анализирует связи между новым и старым контентом (часто в рамках одного хоста), важно поддерживать логичную перелинковку. Структура, где новый контент своевременно ссылается на релевантный существующий контент, будет способствовать корректному датированию.
- Управление скоростью внутренних ссылок (Internal Linking Velocity): Высокая скорость появления внутренних ссылок на новый контент может служить сигналом свежести и способствовать быстрому и корректному определению даты создания, так как это сужает временной диапазон (Constraint Determination).
- Повышение параметра качества (Q): Так как вероятность ссылки зависит от Q, работа над повышением авторитетности и популярности страниц (что выражается в большем количестве входящих ссылок) важна даже в контексте датирования документов.
Worst practices (это делать не надо)
- Манипуляции с временными метками (Искусственное освежение): Попытки искусственно «омолодить» старый контент путем изменения только временных меток могут быть обнаружены. Этот патент описывает механизм, который сверяет заявленную дату со структурой ссылок. Если старая страница, на которую уже давно ссылаются, внезапно заявляет сегодняшнюю дату создания, это вызовет конфликт с временными ограничениями алгоритма.
- Отсутствие или противоречивость дат: Удаление дат со страниц или наличие конфликтующих временных меток заставит Яндекс использовать этот вероятностный метод, что может привести к непредсказуемым результатам.
- Хаотичная внутренняя перелинковка: Структура сайта, где весь новый контент ссылается только на очень старый, архивный контент (игнорируя недавние публикации), может исказить расчет параметра распада ($\tau$) для хоста или затруднить работу модели датирования.
Стратегическое значение
Патент подтверждает, что Яндекс глубоко анализирует темпоральную динамику ссылочного графа. Это не просто подсчет ссылок, а понимание того, *когда* и *почему* (с точки зрения качества Q и возраста $\tau$) эти ссылки появились. Стратегическое значение заключается в понимании того, что ссылочный граф является не только инструментом для расчета авторитетности, но и «хронометром» интернета. Обеспечение точности, последовательности данных и естественного развития ссылочного профиля во времени является лучшей стратегией.
Практические примеры
Сценарий 1: Обнаружение фальшивой даты публикации (Манипуляция)
- Ситуация: Владелец сайта берет статью 2018 года и меняет ее дату публикации на Ноябрь 2025 года, чтобы она ранжировалась выше по трендовому запросу. Контент не меняется.
- Действие системы: Яндекс видит противоречивые сигналы и активирует этот механизм для валидации.
- Анализ ссылок: Система видит, что большинство входящих ссылок на эту статью исходят со страниц, созданных в 2018-2019 годах. Исходящие ссылки ведут на страницы, также созданные в 2018 году.
- Оптимизация: Если использовать заявленную дату (2025 год), Page Network Probability будет крайне низкой, так как модель предполагает, что ссылки из 2018 года не могут указывать на страницу 2025 года. Максимум вероятности будет достигнут при гипотетической дате в 2018 году.
- Результат: Яндекс проигнорирует заявленную дату 2025 года и будет использовать оценку 2018 года для ранжирования. Буста за свежесть страница не получает.
Сценарий 2: Определение даты создания карточки товара без временной метки
- Ситуация: В интернет-магазине карточки товаров не имеют публичной даты создания.
- Действие системы: Яндекс использует алгоритм из патента. Он определяет нижнюю границу по дате создания связанных товаров, на которые ссылается эта карточка (например, аксессуары). Он определяет верхнюю границу по дате создания первой категории или новости, которая сослалась на эту карточку.
- Результат: Дата создания оценивается по моменту ее интеграции в ссылочную структуру сайта.
- SEO-действие: Чтобы новый товар быстро и корректно датировался, необходимо сразу после его создания интегрировать его в структуру сайта: добавить в соответствующие категории, блоки новинок и сослаться на него из релевантных обзоров или новостей.
Вопросы и ответы
Что такое Page Network Probability и почему она максимизируется?
Page Network Probability — это общая вероятность того, что наблюдаемая сеть страниц и ссылок могла возникнуть естественным образом. Она рассчитывается как произведение вероятностей существования каждой отдельной ссылки в сети. Система ищет такое время создания для целевой страницы, при котором эта общая конфигурация ссылок наиболее правдоподобна (максимальна), так как это соответствует наиболее точному сценарию развития событий в интернете.
Насколько эффективен этот метод против искусственного «освежения» контента (изменения дат)?
Метод очень эффективен против таких манипуляций. Поскольку он использует структуру ссылочного графа и даты создания соседних страниц, он не зависит от дат, заявленных на самой целевой странице. Если входящие ссылки были созданы много лет назад, система определит, что целевая страница существовала уже тогда, и максимизирует вероятность сети, выбрав более раннюю дату создания, независимо от того, что указано в контенте или Sitemap.
Что такое Decay Parameter ($\tau$) и как он влияет на расчеты?
Decay Parameter (параметр затухания, $\tau$) моделирует скорость устаревания контента на конкретном хосте. Он определяет, насколько быстро падает вероятность того, что на страницу сошлются по мере ее старения. Например, у новостей $\tau$ высокий (они быстро устаревают), а у энциклопедических статей — низкий. Этот параметр используется в формуле экспоненциального затухания для точного расчета вероятности ссылки в зависимости от разницы в возрасте страниц.
Что такое Quality Parameter (Q) в этом патенте и связан ли он с ИКС или PageRank?
Quality Parameter (Q) — это показатель полезности или популярности страницы. В патенте указано, что вероятность ссылки на страницу пропорциональна ее Q, и что Q коррелирует с количеством входящих ссылок. По своей сути он очень похож на концепцию PageRank или статического веса, так как отражает авторитетность страницы в ссылочном графе. Патент также описывает, что Q можно рассчитать с помощью этого же метода оптимизации.
Означает ли этот патент, что нужно всегда указывать дату публикации?
Да, лучшая практика — всегда честно и консистентно указывать дату публикации и дату значительного обновления. Если вы не указываете дату или указываете ложную дату, вы вынуждаете Яндекс использовать этот вероятностный метод для оценки возраста. Гораздо надежнее контролировать ситуацию и предоставлять системе прямые сигналы (микроразметка, Sitemap, HTTP-заголовки), чтобы избежать неоднозначности в ранжировании.
Как модель экспоненциального затухания ($Q\cdot e^{-a/\tau}$) влияет на линкбилдинг?
Эта модель предполагает, что вероятность появления ссылки уменьшается по мере увеличения разницы в возрасте между источником и назначением, но увеличивается с ростом качества (Q). Это подчеркивает важность получения органических ссылок как можно быстрее после публикации контента на качественный материал. Быстрый набор ссылок сигнализирует об актуальности и помогает системе корректно зафиксировать время создания и важность документа.
Может ли этот метод ошибиться, если я получу ссылку с очень старого авторитетного сайта на новую страницу?
В патенте учитывается, что ссылка может быть добавлена на исходную страницу позже ее создания (например, при обновлении). Если система может определить время обновления страницы (link creation time), оно может быть использовано вместо времени создания исходной страницы. Однако, если время обновления неизвестно, система будет опираться на время создания. Единичные ссылки, выбивающиеся из общей картины, вряд ли сильно исказят результат, так как оптимизируется общая вероятность всей сети.
Учитывает ли этот метод внутренние ссылки?
Да, безусловно. В патенте указано, что в некоторых реализациях все страницы в Page Network могут принадлежать одному хосту. В этом случае анализ будет полностью основан на внутренней перелинковке и известных датах создания других страниц этого же сайта для определения времени создания целевой страницы.
Что важнее для определения даты: входящие или исходящие ссылки?
Оба типа ссылок важны, так как они устанавливают временные границы. Исходящие ссылки определяют самую раннюю возможную дату создания (страница не может быть создана раньше того, на что она ссылается). Входящие ссылки определяют самую позднюю возможную дату создания (страница должна существовать до того, как на нее сослались). Вероятностная модель работает внутри этих границ.
Использует ли Яндекс этот метод для определения Параметра Качества (Q)?
Патент указывает, что метод может быть использован для определения Q. Система может перебирать гипотетические значения Q для страниц в сети и выбирать те значения, которые максимизируют общую вероятность сети (Page Network Probability). Это говорит о том, что Яндекс может оценивать авторитетность страницы, исходя из того, насколько хорошо ее ссылочный профиль соответствует вероятностной модели формирования ссылок с учетом времени.