Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс определяет дату создания веб-страницы, используя структуру и временные характеристики ссылок

    УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ ВРЕМЕНИ СОЗДАНИЯ ВЕБ-РЕСУРСА (APPARATUS AND METHOD FOR DETERMINING TIME OF CREATION OF WEB RESOURCE)
    • RU2577479C2
    • Yandex LLC
    • 2016-03-20
    • 2014-07-04
    2016 Индексация Патенты Яндекс Свежесть контента Ссылки

    Яндекс патентует вероятностный метод для определения времени создания веб-страницы, когда явные данные отсутствуют или недостоверны. Система анализирует граф ссылок, исходя из предположения, что страницы склонны ссылаться на контент схожего возраста («свойство новизны») и качества. Дата создания определяется путем поиска времени, которое максимизирует вероятность наблюдаемой структуры ссылок в сети.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу определения точного времени создания веб-ресурса (веб-страницы) в ситуациях, когда стандартные методы (анализ HTML-кода, URL, заголовков) не дают результата, предоставляют противоречивую информацию или недостоверны. Точное знание даты создания критически важно для алгоритмов, учитывающих свежесть контента, приоритизации сканирования (CRAWLING) и сортировки результатов поиска. Это повышает качество данных, используемых поисковой системой, и снижает эффективность манипуляций с временными метками.

    Что запатентовано

    Запатентован способ определения времени создания целевой страницы на основе анализа графа ссылок с использованием вероятностной модели. Суть изобретения заключается в применении модели, которая предполагает, что вероятность существования ссылки зависит от разницы во времени создания исходной страницы и страницы назначения (так называемое «Свойство новизны» или Novelty Property, описанное в Приложении А), а также от Качества (Q) страницы назначения. Система ищет такое время создания для целевой страницы, которое максимизирует вероятность существования всей наблюдаемой структуры ссылок в сети.

    Как это работает

    Система строит сеть страниц (граф), включающую целевую страницу и связанные с ней документы. Для целевой страницы задается гипотетическое время создания. Затем рассчитывается вероятностное распределение сети страниц ($P_{сети}$) – общая вероятность того, что данная структура ссылок могла возникнуть. Эта вероятность рассчитывается на основе индивидуальных вероятностей каждой ссылки. Индивидуальная вероятность уменьшается экспоненциально по мере увеличения разницы в возрасте между двумя страницами (согласно «Свойству новизны») и увеличивается с ростом Параметра качества (Q) страницы назначения. Система перебирает гипотетические времена создания (например, используя метод градиентного спуска) и выбирает то время, которое дает наибольшее значение $P_{сети}$.

    Актуальность для SEO

    Средне-высокая. Определение точной даты создания документа остается фундаментальной задачей для любой поисковой системы. Принципы использования графа ссылок для валидации или определения временных меток крайне актуальны. Хотя конкретные математические модели могли эволюционировать, сам механизм вероятностного анализа временной структуры ссылок (особенно концепция «Новизны») остается важным компонентом систем индексации и анализа веба.

    Важность для SEO

    Влияние на SEO значительно (6/10), но преимущественно косвенное. Патент не описывает алгоритм ранжирования, но описывает механизм получения критически важного фактора – даты создания. Это напрямую влияет на работу алгоритмов свежести. Система повышает устойчивость Яндекса к манипуляциям с датами (например, «фейковые» обновления). Если заявленная дата страницы противоречит структуре ссылок, Яндекс может игнорировать заявленную дату и использовать вычисленную. Также патент подтверждает использование интегрального Параметра качества (Q) при анализе ссылок.

    Детальный разбор

    Термины и определения

    Время создания (Creation Time)
    Время, когда веб-страница была впервые выгружена на узел и стала доступна. В контексте патента это оригинальное время создания, а не время последующих обновлений.
    Гипотетическое время создания (Hypothetical Creation Time)
    Предполагаемое значение времени создания целевой страницы, используемое в процессе оптимизации для расчета вероятностного распределения сети.
    Сеть страниц (Network of Pages)
    Граф, представляющий множество веб-страниц (узлы) и ссылки между ними (ребра). В патенте это может быть подграф веба или граф страниц одного хоста.
    Целевая страница (Target Page)
    Веб-страница, время создания которой неизвестно или неопределенно и требует определения с помощью данного метода.
    Вероятностное распределение сети страниц ($P_{сети}$)
    Общая вероятность существования наблюдаемой структуры ссылок в сети страниц при заданных параметрах. Является произведением вероятностных распределений отдельных ссылок.
    Вероятностное распределение ссылки (Link Probability Distribution)
    Вероятность существования конкретной ссылки от исходной страницы к странице назначения. Зависит от разницы во времени их создания и параметра качества страницы назначения.
    Параметр затухания (τ, Tau, Decay Parameter)
    Параметр, указывающий, как быстро страницы устаревают. Характеризует скорость экспоненциального уменьшения вероятности ссылки с увеличением возраста. Может быть характеристикой хоста или группы узлов.
    Параметр качества (Q, Quality Parameter)
    Параметр, указывающий на полезность или популярность страницы. Страница с высоким Q имеет большую вероятность получить входящую ссылку. Часто аппроксимируется количеством входящих ссылок.
    Свойство новизны (Novelty Property)
    Термин из Приложения А. Описывает наблюдение, что медийные страницы (новости, блоги) склонны ссылаться на страницы того же возраста и редко цитируют устаревший контент, независимо от его прошлой популярности.

    Ключевые утверждения (Анализ Claims)

    Ядром изобретения является вероятностный подход к определению времени создания на основе структуры ссылок.

    Claim 1 (Независимый пункт): Описывает базовый метод.

    1. Система создает сеть страниц (граф), включающую целевую страницу.
    2. Определяется вероятностное распределение сети страниц ($P_{сети}$) в зависимости от гипотетического времени создания целевой страницы.
    3. $P_{сети}$ основано на вероятностях отдельных ссылок, которые, в свою очередь, основаны на разнице времен создания исходной страницы и страницы назначения.
    4. Определяется значение гипотетического времени создания, которое дает наибольшее значение $P_{сети}$. Это значение принимается за истинное время создания целевой страницы.

    Это математическая оптимизационная задача. Система использует модель генерации ссылок (где вероятность ссылки зависит от времени) и ищет такие даты, при которых наблюдаемый граф ссылок наиболее правдоподобен.

    Claim 3: Уточняет, что для нахождения наибольшего значения $P_{сети}$ может использоваться метод градиентного спуска.

    Claims 5, 6, 7: Описывают использование входящих и исходящих ссылок для определения диапазона возможных значений гипотетического времени создания (ограничений).

    • Время создания страницы не может быть раньше, чем время создания страниц, на которые она ссылается (исходящие ссылки).
    • Время создания страницы не может быть позже, чем время создания страниц, которые ссылаются на нее (входящие ссылки).

    Эти пункты описывают базовые временные ограничения, которые используются для сужения пространства поиска при оптимизации.

    Claim 8: Вводит Параметр качества (Q).

    • Вероятностное распределение ссылки дополнительно основано на параметре качества (Q) страницы назначения.

    Модель учитывает не только возраст, но и авторитетность/популярность страницы. Вероятность ссылки пропорциональна Q страницы назначения.

    Claim 11, 12: Описывает возможность использования этого же метода для определения Параметра качества (Q).

    • Система может определять Q для страниц путем нахождения значения Q, которое максимизирует $P_{сети}$ (аналогично поиску времени создания).

    Claim 15: Вводит Параметр затухания (τ).

    • Вероятностное распределение ссылки дополнительно основано на параметре затухания.

    Это ключевой параметр модели «Свойства новизны», определяющий скорость, с которой страницы устаревают и теряют вероятность получения новых ссылок.

    Где и как применяется

    Изобретение применяется на этапе обработки проиндексированных данных для извлечения и валидации признаков документа.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения. Система анализирует собранные данные (контент и ссылки) для определения метаданных документа.

    1. Первичная экстракция дат: Система пытается извлечь дату создания стандартными методами (анализ URL, заголовков, контента, HTML-тегов).
    2. Активация алгоритма: Если первичная экстракция не удалась, дает противоречивые результаты или результат считается недостоверным, активируется запатентованный метод.
    3. Построение графа и расчет: Система строит локальный граф ссылок (сеть страниц) и выполняет вероятностный расчет для определения времени создания.
    4. Сохранение признака: Вычисленная дата сохраняется как атрибут документа в Прямом индексе (Forward Index).

    CRAWLING – Сканирование и Сбор данных
    Точное определение времени создания используется для планирования работы поискового робота и приоритизации URL для обновления.

    RANKING – Ранжирование
    Алгоритм напрямую не участвует в ранжировании, но предоставляет данные для него. Вычисленное время создания используется алгоритмами, чувствительными к свежести (например, QDF – Query Deserves Freshness), и для сортировки результатов по дате.

    На что влияет

    • Типы контента и ниши: Наибольшее влияние оказывается на так называемый «Медийный Интернет» (Приложение А) – новости, блоги, форумы. Это высокодинамичная часть Интернета, где актуальность (новизна) контента критически важна и где наблюдается «Свойство новизны» (страницы ссылаются на контент схожего возраста).
    • Специфические запросы: Влияет на запросы, для которых важна свежесть (новостные, событийные запросы).

    Когда применяется

    Алгоритм применяется при обработке документа во время индексации или переиндексации. Триггеры активации:

    • Отсутствие данных: Время создания не может быть извлечено из контента, URL или заголовков.
    • Неоднозначность: Анализ контента дает несколько возможных дат (например, формат 07/11/2013 может быть интерпретирован как 11 июля или 7 ноября). Система использует вероятностный метод для выбора наилучшего варианта.
    • Противоречия и недостоверность: Если информация о времени создания является ошибочной (например, анализ различных частей веб-страницы дает разное время создания).

    Пошаговый алгоритм

    Процесс определения времени создания целевой страницы.

    1. Подготовка данных (Офлайн):
      1. Определение Параметра затухания (τ) для хоста или сети. Это делается путем анализа ссылок между страницами с уже известными датами создания.
    2. Создание сети страниц (Индексация):
      1. Построение графа, включающего целевую страницу (с неизвестной датой $T_C$) и связанные с ней страницы.
      2. Инициализация Параметров качества (Q) для всех страниц в сети (например, на основе количества входящих ссылок).
    3. Определение ограничений (Опционально):
      1. Анализ входящих и исходящих ссылок с известными датами для определения диапазона возможных значений $T_C$. Страница не может быть старше страниц, ссылающихся на нее, и младше страниц, на которые ссылается она сама.
    4. Итеративная оптимизация:
      1. Присвоение целевой странице гипотетического времени создания.
      2. Расчет вероятности каждой ссылки в сети. Вероятность пропорциональна $Q\cdot e^{-a/\tau}$ (где ‘a’ – разница в возрасте).
      3. Расчет общего Вероятностного распределения сети страниц ($P_{сети}$) как произведения вероятностей всех ссылок.
      4. Использование метода оптимизации (например, градиентного спуска) для корректировки гипотетического времени создания с целью максимизации $P_{сети}$.
    5. Финализация:
      1. Гипотетическое время создания, которое обеспечивает наибольшее значение $P_{сети}$, принимается за актуальное время создания целевой страницы $T_C$.

    Примечание: Патент также описывает возможность одновременного определения времени создания и Параметров качества (Q) в рамках единого процесса оптимизации.

    Какие данные и как использует

    Данные на входе

    • Ссылочные факторы: Структура графа (кто на кого ссылается). Входящие и исходящие ссылки для каждой страницы в сети.
    • Временные факторы: Известные времена создания для части страниц в сети (полученные стандартными методами экстракции).
    • Контентные/Технические факторы: Данные, извлеченные из URL, HTML-кода, заголовков, которые могут указывать на возможные даты создания (используются для формирования гипотез или валидации).

    Какие метрики используются и как они считаются

    • Параметр затухания (τ): Вычисляется офлайн на основе статистики ссылок между страницами с известными датами. Определяет скорость «устаревания» контента на данном хосте/в сети.
    • Параметр качества (Q): Метрика популярности/полезности страницы. Может быть инициализирован количеством входящих ссылок или определен в процессе оптимизации.
    • Вероятностное распределение ссылки: В патенте и приложениях указывается, что вероятность ссылки пропорциональна качеству страницы назначения и экспоненциально зависит от разницы во времени создания (возраста ‘a’):
      $P \propto Q\cdot e^{-a/\tau}$
    • Вероятностное распределение сети страниц ($P_{сети}$): Агрегированная метрика (произведение) вероятностей всех ссылок в сети. Является целевой функцией для максимизации.
    • Метод градиентного спуска: Алгоритм оптимизации, используемый для нахождения максимума функции $P_{сети}$ путем итеративного изменения гипотетического времени создания (и/или Q).

    Выводы

    1. Вероятностное датирование на основе ссылок: Яндекс использует сложные математические модели для определения даты создания документа, когда явная информация отсутствует или ненадежна. Это не простое угадывание, а вычисление наиболее вероятной даты на основе наблюдаемой структуры ссылок.
    2. «Свойство новизны» (Novelty Property): Модель основана на предположении, что страницы (особенно в «медийном Интернете») предпочитают ссылаться на контент схожего возраста. Вероятность ссылки экспоненциально уменьшается по мере увеличения разницы в возрасте между документами.
    3. Временная консистентность графа: Система анализирует временную структуру всего графа. Дата страницы должна быть консистентна с датами ее входящих и исходящих ссылок, а также с общими паттернами ссылочного взаимодействия в сети.
    4. Интеграция Качества (Q) и Новизны: Вероятность ссылки зависит не только от возраста, но и от Параметра качества (Q) страницы назначения. На качественные страницы ссылаются чаще, что учитывается в расчетах.
    5. Устойчивость к манипуляциям: Этот механизм делает систему более устойчивой к попыткам искусственно завысить свежесть контента путем изменения временных меток, если это не подтверждается ссылочным графом.

    Практика

    Best practices (это мы делаем)

    • Обеспечение четких и консистентных сигналов даты: Убедитесь, что даты публикации и обновления в HTML-контенте, заголовках (Last-Modified), Sitemap и микроразметке (Schema.org datePublished/dateModified) совпадают и являются точными. Это снижает вероятность того, что Яндекс будет вынужден вычислять дату вероятностным методом.
    • Стимулирование естественного ссылочного профиля: Получение ссылок с релевантных и современных ресурсов вокруг времени публикации контента подтверждает заявленную временную метку. Естественный профиль соответствует «Свойству новизны».
    • Поддержание высокого Параметра качества (Q): Работайте над повышением качества и популярности страниц (что в модели часто аппроксимируется входящими ссылками). Высокий Q увеличивает вероятность ссылок и учитывается в модели временного анализа.
    • Внутренняя перелинковка с учетом времени: Структура внутренних ссылок также анализируется. Логично, чтобы новые статьи ссылались на недавние материалы или релевантный «вечнозеленый» контент. Избегайте неестественных временных паттернов во внутренней перелинковке.

    Worst practices (это делать не надо)

    • Манипуляции с временными метками («Фейковые обновления»): Изменение даты публикации страницы без существенного изменения контента с целью обмануть алгоритмы свежести. Если заявленная новая дата не поддерживается ссылочным графом (например, нет новых входящих ссылок), система может вычислить реальный возраст контента и игнорировать фейковую дату.
    • Противоречивые сигналы даты: Наличие разных дат в разных частях страницы (например, в заголовке и футере) или несоответствие между датой в контенте и Sitemap. Это вынуждает систему применять вероятностный метод.
    • Искусственные ссылочные структуры, нарушающие временную логику: Создание ссылок, которые идут против естественного временного потока или нарушают «Свойство новизны» (например, массовая простановка ссылок с очень старых страниц на абсолютно новый контент без видимой причины) может выглядеть неестественно для модели.

    Стратегическое значение

    Патент демонстрирует, что Яндекс рассматривает веб как динамическую, развивающуюся во времени структуру. Он подтверждает стратегическую важность точного определения временных характеристик контента для качества поиска. Для SEO это означает, что алгоритмы свежести Яндекса опираются на надежные данные и устойчивы к простым манипуляциям. Долгосрочная стратегия должна фокусироваться на создании качественного контента (высокий Q), который получает естественное распространение и ссылки в момент своей актуальности.

    Практические примеры

    Сценарий 1: Разрешение неоднозначности даты новости

    1. Ситуация: Новостной сайт публикует статью с датой «05/06/2025». Это может быть 5 июня или 6 мая. Стандартные методы экстракции не могут определить точную дату.
    2. Действие системы: Активируется вероятностный метод. Система анализирует входящие и исходящие ссылки. Статья ссылается на материалы от 4 июня, и на нее ссылаются другие источники, датированные 5 и 6 июня.
    3. Расчет: Система рассчитывает $P_{сети}$ для обеих гипотез (5 июня и 6 мая). Учитывая, что связанные документы датированы началом июня, гипотеза «5 июня» даст значительно более высокое значение $P_{сети}$, так как разница в возрасте минимальна (соответствует «Свойству новизны»).
    4. Результат: Система определяет дату создания как 5 июня 2025 года.

    Сценарий 2: Игнорирование «фейкового» обновления вечнозеленого контента

    1. Ситуация: Страница с руководством, созданная в 2018 году, имеет высокий Параметр качества (Q). Владелец сайта меняет дату публикации на текущую (2025 год) без изменения контента, чтобы получить буст за свежесть.
    2. Действие системы: Система анализирует граф ссылок. Все входящие ссылки датированы 2018-2020 годами. Исходящие ссылки ведут на ресурсы 2018 года.
    3. Расчет: Система рассчитывает $P_{сети}$. При гипотезе «2025 год» вероятность существования входящих ссылок из 2018 года будет очень низкой. При гипотезе «2018 год» вероятность наблюдаемой структуры ссылок будет высокой.
    4. Результат: Система определяет вероятное время создания контента и основной ссылочной активности как 2018 год и может игнорировать заявленную дату 2025 года при ранжировании по запросам, требующим свежести.

    Вопросы и ответы

    Что такое «Свойство новизны» (Novelty Property), упомянутое в патенте?

    Это наблюдение (описанное в Приложении А), что веб-страницы, особенно в «медийном Интернете» (новости, блоги), склонны ссылаться на другие страницы схожего возраста. Вероятность появления ссылки на устаревший контент значительно ниже, даже если он был популярен в прошлом. Математически это выражается через экспоненциальное затухание вероятности ссылки по мере увеличения разницы в возрасте между документами.

    Как этот патент влияет на эффективность «фейковых обновлений» (изменения даты без изменения контента)?

    Он значительно снижает их эффективность. Если владелец сайта меняет дату на более свежую, но структура ссылок этому противоречит (например, все входящие и исходящие ссылки старые), система может это обнаружить. Вероятностный метод вычислит, что наблюдаемый граф ссылок более вероятен для старой даты, и будет использовать именно ее, игнорируя заявленную свежую дату.

    Что такое Параметр качества (Q) и как он используется в этом алгоритме?

    Параметр качества (Q) – это метрика полезности или популярности страницы. В патенте упоминается, что он часто связан с количеством входящих ссылок. В алгоритме Q используется как множитель при расчете вероятности ссылки: чем выше Q страницы назначения, тем выше вероятность, что на нее сошлются. Это означает, что модель учитывает авторитетность страницы наряду с ее возрастом.

    Что такое Параметр затухания (τ) и одинаков ли он для всех сайтов?

    Параметр затухания (τ) определяет, как быстро контент устаревает и теряет способность привлекать новые ссылки. В патенте указано, что этот параметр может быть характеристикой отдельного узла (хоста) или группы узлов. Это означает, что Яндекс рассчитывает разную скорость устаревания для разных сайтов или тематик (например, новости устаревают быстрее, чем академические статьи).

    Если я удалю все даты со своих страниц, как Яндекс определит их возраст?

    Именно для таких случаев и предназначен этот патент. Если явных дат нет, Яндекс построит граф ссылок (внутренних и внешних) и использует вероятностную модель. Он проанализирует даты страниц, которые ссылаются на вас, и даты страниц, на которые ссылаетесь вы, и вычислит наиболее вероятное время создания вашего контента, исходя из общей структуры сети.

    Влияет ли этот алгоритм на ранжирование напрямую?

    Нет, этот патент описывает не алгоритм ранжирования, а механизм извлечения признака (Feature Extraction) на этапе индексации. Он определяет дату создания. Однако эта дата затем используется как входной сигнал для реальных алгоритмов ранжирования, особенно тех, которые учитывают свежесть контента (QDF). Таким образом, влияние на ранжирование косвенное, но значительное.

    Как система определяет, какая дата верна, если на странице их несколько?

    Патент описывает, что в случае неоднозначности (например, формат 07/11/13) система может использовать обе даты как гипотетические. Затем для каждой гипотезы рассчитывается общая вероятность сети ($P_{сети}$). Дата, которая дает наибольшую вероятность (то есть лучше всего соответствует структуре ссылок), принимается как истинная.

    Учитывает ли этот метод только внешние ссылки или внутренние тоже?

    Метод учитывает все ссылки в созданной «сети страниц». В патенте указано, что сеть страниц может состоять из страниц, размещенных на одном и том же узле (Claim 17). Это явно указывает на то, что внутренняя перелинковка также анализируется для определения времени создания документов.

    Как этот патент влияет на стратегию линкбилдинга?

    Он подчеркивает важность получения естественных ссылок в момент актуальности контента. Если вы публикуете новость или актуальное исследование, получение ссылок с других свежих ресурсов в это же время подтверждает вашу временную метку. Массовая закупка ссылок со старых, нерелевантных по времени ресурсов может выглядеть неестественно для модели, основанной на «Свойстве новизны».

    Может ли система использовать этот метод для определения Параметра качества (Q) страницы?

    Да, патент явно предусматривает такую возможность (Claims 11, 12). Аналогично тому, как система ищет время, максимизирующее вероятность сети, она может искать значение Q для одной или нескольких страниц, которое максимизирует эту вероятность. Это позволяет оценить качество страницы на основе того, насколько ее ссылочный профиль соответствует ожиданиям модели.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.