Как Яндекс использует граф ссылок и принцип «Слабого звена» для расчета Надежности сайтов и приоритизации сканирования на вирусы

Яндекс патентует систему для приоритизации проверки сайтов на вредоносный контент. Система рассчитывает «Оценку надежности» на основе ранга в поиске и поведенческих факторов. Ключевой механизм: сайт наследует надежность по принципу «слабого звена», получая наименьшую оценку среди всех ссылающихся на него ресурсов. Сайты с наименьшей итоговой надежностью проверяются в первую очередь.

Описание

Какую задачу решает

Патент решает задачу эффективного распределения вычислительных ресурсов, выделяемых на сканирование интернета с целью обнаружения вредоносных данных (вирусов, фишинга, спама). Поскольку полная проверка всего веба ресурсоемка, система предлагает механизм приоритизации. Цель — в первую очередь проверять те ресурсы, которые с наибольшей вероятностью представляют угрозу, основываясь на их связях и характеристиках надежности.

Что запатентовано

Запатентована система и способ приоритизации веб-ресурсов для антивирусной проверки. Суть изобретения заключается в построении графовой структуры веб-ресурсов и расчете «Оценки надежности» (Trust Score). Приоритизация выполняется с помощью алгоритма поиска кратчайшего пути (например, Дейкстры). Ключевой особенностью является модель распространения надежности по принципу «слабого звена».

Как это работает

Система строит граф, где узлы — это веб-ресурсы, а ребра — гиперссылки. Известным (родительским) ресурсам назначается исходная Оценка надежности, которая базируется на их ранге в поиске, удовлетворенности пользователей или списках безопасности. Дочерние ресурсы наследуют эту оценку, но по критическому правилу: им назначается наименьшая оценка надежности среди всех ссылающихся на них родительских ресурсов. Используя алгоритм поиска кратчайшего пути, система вычисляет итоговый балл надежности. Ресурсы с кратчайшим путем (т.е. с наименьшим итоговым баллом) приоритизируются для сканирования.

Актуальность для SEO

Высокая. Обеспечение безопасности пользователей и эффективное обнаружение угроз — критические задачи для любой поисковой системы. Использование графовых алгоритмов для анализа распространения доверия (Trust) или рисков (Risk) является стандартным и актуальным подходом в веб-аналитике и кибербезопасности.

Важность для SEO

Влияние на SEO значительно (7.5/10). Хотя это не патент о ранжировании, он раскрывает критически важные механизмы оценки и распространения Надежности (Trust) в Яндексе. Он явно связывает Надежность с SEO-сигналами (Ранг и Поведенческие факторы). Самое главное, он описывает модель наследования надежности по «слабому звену» (минимуму), что имеет огромное значение для стратегии линкбилдинга и подчеркивает риски токсичных ссылок.

Детальный разбор

Термины и определения

Оценка надежности (Trust Score): Численная метрика, присваиваемая веб-ресурсу, характеризующая его безопасность или авторитетность. В контексте патента, более высокое значение соответствует большей надежности. Используется как вес (длина) ребер в графе.
Родительский веб-ресурс / узел: Ресурс, которому уже назначена исходная Оценка надежности. Является источником гиперссылки.
Дочерний веб-ресурс / узел: Ресурс, на который ведет гиперссылка с родительского ресурса. Его оценка рассчитывается на основе оценок родителей.
Узел нулевой вершины: Искусственный стартовый узел в графе. Используется для инициации алгоритма поиска кратчайшего пути. Он связан со всеми родительскими узлами.
Алгоритм поиска кратчайшего пути: Алгоритм (например, Дейкстры, BFS, Беллмана-Форда), используемый для нахождения пути с минимальной суммой весов ребер. В данном патенте — путь с минимальной кумулятивной надежностью.
Ранжирующий признак (Claim 2): Метрика, указывающая на средний ранг родительского веб-ресурса на страницах результатов поиска (SERP). Используется для расчета Оценки надежности.
Признак взаимодействия (Claim 2): Метрика, указывающая на удовлетворенность пользователя от родительского веб-ресурса в результате взаимодействия на SERP (Поведенческие факторы). Используется для расчета Оценки надежности.

Ключевые утверждения (Анализ Claims)

Патент описывает метод построения графа и использования алгоритма кратчайшего пути для приоритизации антивирусного сканирования.

Claim 1 (Независимый пункт): Описывает основной механизм работы.

Сервер формирует графовую структуру.
Родительским узлам назначается Оценка надежности.
Вводится Узел нулевой вершины. Он соединяется с родительскими узлами ребрами, длина (вес) которых равна Оценке надежности соответствующего родителя.
Дочерние узлы соединяются с родительскими узлами (если есть гиперссылка).
Критический механизм распространения: Дочернему узлу назначается оценка надежности на основе НАИМЕНЬШЕЙ оценки надежности среди всех родительских узлов, связанных с этим дочерним узлом. Длина ребер между родителями и дочерним узлом устанавливается равной этой назначенной (минимальной) оценке.
Применяется Алгоритм поиска кратчайшего пути от Узла нулевой вершины до каждого дочернего узла.
На основе длины кратчайшего пути веб-ресурсы приоритизируются для оценивания вредоносных данных. (Ресурсы с кратчайшим путем, т.е. наименьшей надежностью, проверяются первыми).

Claim 2 (Зависимый от 1): Уточняет, как может рассчитываться исходная Оценка надежности, связывая ее с SEO-сигналами.

Расчет базируется на журнале поиска и включает:

Ранжирующий признак: средний ранг родительского веб-ресурса в SERP.
Признак взаимодействия: удовлетворенность пользователя (поведенческие факторы).

Claim 3 (Зависимый от 1): Уточняет альтернативный способ расчета Оценки надежности с использованием списков.

Используются Первый список (Белый список, не вредоносные) и Второй список (Черный список, вредоносные).
Назначаются Первая, Вторая или Третья (если неизвестен) оценки надежности.

(Claims 5 и 6 уточняют, что Первая оценка численно больше Третьей, а Третья больше Второй. Т.е. Белый список > Неизвестен > Черный список).

Claim 7 (Зависимый от 1): Расширяет механизм на следующий уровень глубины графа (Внучатые узлы).

Процесс аналогичен Claim 1, но применяется к ресурсам в двух переходах. Оценка надежности внучатого узла также определяется наименьшей оценкой среди связанных с ним узлов предыдущих уровней.

Где и как применяется

Изобретение применяется в инфраструктуре безопасности Яндекса, тесно взаимодействуя с компонентами сбора и обработки данных.

CRAWLING – Сканирование и Сбор данных
Основное место применения. Алгоритм используется для управления очередью сканирования специализированными роботами, отвечающими за проверку безопасности. Он определяет приоритет, с которым система будет анализировать контент ресурса на наличие угроз.

INDEXING – Индексирование и извлечение признаков
Система использует данные из индекса для построения Графовой структуры (ссылочного графа). Также на этом этапе могут рассчитываться или обновляться исходные Оценки надежности. Если ресурс признается вредоносным, его запрос на публикацию может быть отклонен (Claim 15).

Слой Качества и Метрик (QUALITY & GOVERNANCE LAYER)
Алгоритм активно использует данные, генерируемые для оценки качества. Согласно Claim 2, исходные Оценки надежности рассчитываются на основе Ранжирующего признака и Признака взаимодействия (удовлетворенность пользователей, что коррелирует с метриками Proxima и Anti-Quality).

Входные данные: Ссылочный граф; журнал поиска (SERP data, User Interactions); белые и черные списки безопасности.
Выходные данные: Приоритизированный список веб-ресурсов для антивирусной проверки.

На что влияет

Скорость обнаружения угроз: Алгоритм напрямую влияет на то, как быстро Яндекс обнаружит вредоносный контент. Сайты с низким уровнем доверия проверяются быстрее.
Восприятие ссылочного профиля: Критически влияет на оценку надежности сайта. Сайт, получающий ссылки от ненадежных (низкий ранг, плохие ПФ, в черном списке) ресурсов, получит низкую кумулятивную Оценку надежности из-за принципа «слабого звена».
Новые сайты: Наибольшее влияние оказывается на новые ресурсы (дочерние узлы), чья надежность полностью зависит от качества первых входящих ссылок.

Когда применяется

Условия работы: Алгоритм работает в рамках системы планирования сканирования. Он применяется при обработке «запросов на публикацию» (Claim 1), что означает индексацию новых ресурсов или обновление существующих.
Триггеры активации: Обнаружение новых ссылок краулером, изменение исходных Оценок надежности (например, из-за падения ранга или ухудшения ПФ), обновление списков безопасности.

Пошаговый алгоритм

Сбор данных и Инициализация: Извлекаются данные ссылочного графа, журналы поиска и списки безопасности.
Расчет исходных Оценок надежности: Для множества Родительских веб-ресурсов рассчитывается Оценка надежности. Расчет использует (Claim 2 и 3):
- Средний ранг в SERP (Ранжирующий признак).
- Удовлетворенность пользователей (Признак взаимодействия).
- Наличие в Белом (высокая оценка) или Черном (низкая оценка) списке.
Построение Графовой структуры:
- Создается Узел нулевой вершины.
- Создаются Родительские и Дочерние узлы (и Внучатые узлы, Claim 7).
- Узел нулевой вершины соединяется с Родительскими узлами. Вес ребра = исходная Оценка надежности родителя.
- Родительские узлы соединяются с Дочерними узлами (гиперссылки).
Распространение Оценок (Наследование): Для каждого Дочернего узла определяется НАИМЕНЬШАЯ Оценка надежности среди всех связанных с ним Родительских узлов. Эта минимальная оценка назначается Дочернему узлу.
Назначение Весов Ребер: Вес ребер, соединяющих Родительские узлы с Дочерним узлом, устанавливается равным этой назначенной минимальной оценке (Claim 1).
Расчет Кратчайшего пути: Применяется Алгоритм поиска кратчайшего пути (например, Дейкстры) для вычисления минимальной длины пути от Узла нулевой вершины до каждого Дочернего узла.
Приоритизация и Сканирование: Веб-ресурсы сортируются по возрастанию длины кратчайшего пути. Ресурсы с наименьшей длиной (наименьшей кумулятивной надежностью) приоритизируются для проверки на вредоносные данные.

Какие данные и как использует

Данные на входе

Ссылочные факторы: Гиперссылки между веб-ресурсами. Формируют структуру графа и определяют пути распространения Оценки надежности.
Поведенческие факторы: Данные из журнала поиска для формирования Признака взаимодействия (Claim 2). Метрики удовлетворенности пользователя после перехода на сайт из SERP.
Факторы Ранжирования (Системные данные): Данные из журнала поиска для формирования Ранжирующего признака (Claim 2). Средний ранг (позиция) веб-ресурса в результатах поиска.
Данные безопасности (Списки): Первый список (Белый) и Второй список (Черный) (Claim 3).

Какие метрики используются и как они считаются

Оценка надежности (Trust Score): Ключевая метрика. Рассчитывается на основе комбинации Ранжирующего признака, Признака взаимодействия и/или списков безопасности. Надежные сайты имеют численно более высокую оценку (Claim 5).
Назначенная Оценка надежности (Inherited Trust Score): Метрика для дочерних узлов, рассчитываемая как минимум от Оценок надежности ссылающихся родительских узлов. Это реализация принципа «слабого звена»:
$$ \text{Score}_{Child} = \min(\text{Score}_{Parent1}, \text{Score}_{Parent2}, …) $$
Длина пути (Path Length): Кумулятивная метрика, рассчитываемая Алгоритмом поиска кратчайшего пути (Дейкстры, BFS, Беллмана-Форда – Claim 13). Путь от Нулевой вершины (Z) до Дочернего узла (C) через Родительский узел (P) рассчитывается как сумма длин ребер:
$$ \text{PathLength}(Z \to C) = \text{Length}(Z \to P) + \text{Length}(P \to C) $$
Где $\text{Length}(Z \to P)$ равна исходной оценке $P$, а $\text{Length}(P \to C)$ равна назначенной (минимальной) оценке $C$. Система ищет путь, минимизирующий это значение.

Выводы

Яндекс рассчитывает и использует метрику Надежности (Trust Score): Существует явная метрика надежности, используемая в инфраструктуре Яндекса для оценки безопасности ресурсов.
Надежность напрямую зависит от Ранга и Поведенческих факторов: Патент явно указывает (Claim 2), что эта Оценка надежности формируется на основе среднего ранга сайта в поиске и метрик удовлетворенности пользователей. Высоко ранжирующиеся сайты с хорошими ПФ считаются более надежными.
Критический механизм наследования Надежности – Принцип «Слабого звена»: Ключевой вывод для SEO. Дочерний сайт наследует оценку, основанную на НАИМЕНЬШЕЙ оценке надежности среди всех ссылающихся на него сайтов (Claim 1). В этой модели сайт надежен настолько, насколько надежен его наименее трастовый донор.
Отличия от PageRank: В отличие от моделей типа PageRank, где авторитет суммируется, описанная модель надежности является ограничивающей. Хорошие ссылки не компенсируют плохие в контексте этой системы.
Интеграция Качества Поиска и Безопасности: Патент демонстрирует, как тесно переплетены оценки качества поиска (ранжирование, ПФ) и оценки безопасности в экосистеме Яндекса.

Практика

Best practices (это мы делаем)

Жесткий контроль и регулярный аудит входящих ссылок: Механизм наследования надежности по принципу «слабого звена» подчеркивает критическую опасность токсичных ссылок. Необходимо выявлять ссылки с ненадежных, спамных или взломанных ресурсов.
Активное отклонение токсичных ссылок (Disavow): Поскольку одна ссылка с сайта с низкой Оценкой надежности может скомпрометировать ваш ресурс в этой модели, необходимо оперативно отклонять или удалять такие ссылки.
Фокус на повышении Поведенческих Факторов и Ранга: Поскольку «Признак взаимодействия» (удовлетворенность пользователей) и «Ранжирующий признак» (средний ранг) являются прямым входом для расчета Оценки надежности, работа над качеством сайта и SEO напрямую повышает его базовую надежность в глазах Яндекса.
Построение качественного ссылочного профиля (Trust-Based Link Building): Стремитесь получать ссылки с авторитетных ресурсов, которые имеют высокий ранг и хорошие ПФ, так как это максимизирует их Оценку надежности.

Worst practices (это делать не надо)

Массовая закупка некачественных ссылок: Покупка ссылок с бирж, PBN низкого качества, спамных форумов или каталогов крайне опасна. Эти ресурсы, вероятно, имеют низкую Оценку надежности, и эта низкая оценка будет унаследована вашим сайтом по правилу минимума.
Игнорирование спамных входящих ссылок: Полагаться на то, что хорошие ссылки «перевесят» плохие. Согласно этому патенту, в контексте надежности они не перевешивают.
Игнорирование поведенческих метрик: Пренебрежение удовлетворенностью пользователей напрямую снижает вашу базовую Оценку надежности.

Стратегическое значение

Патент имеет высокое стратегическое значение, демонстрируя, как Яндекс концептуализирует и измеряет Доверие (Trust). Он показывает глубокую интеграцию сигналов качества поиска (ранг, ПФ) с системами безопасности. Для Senior SEO-специалистов это критически важный инсайт о моделировании рисков. Принцип «слабого звена» должен стать центральным элементом при оценке рисков в линкбилдинге. Долгосрочная стратегия должна быть направлена на построение авторитетного бренда и поддержание идеальной гигиены ссылочного профиля.

Практические примеры

Сценарий: Влияние токсичной ссылки и расчет пути

Исходные данные: Есть два сайта-донора (P1, P2) и один сайт-акцептор (C1).
- P1: Авторитетный новостной сайт. Оценка надежности = 90.
- P2: Спам-форум. Оценка надежности = 10.
Действие: Оба сайта ставят ссылку на C1.
Расчет Надежности (Claim 1): Система рассчитывает Назначенную Оценку надежности для C1 как минимум от оценок доноров: min(90, 10) = 10.
Назначение Весов Ребер:
- Ребро от Нулевой Вершины (Z) до P1 = 90. Ребро от Z до P2 = 10.
- Ребро от P1 до C1 = 10 (наследованный минимум). Ребро от P2 до C1 = 10 (наследованный минимум).
Расчет Кратчайшего Пути:
- Путь через P1: Length(Z->P1) + Length(P1->C1) = 90 + 10 = 100.
- Путь через P2: Length(Z->P2) + Length(P2->C1) = 10 + 10 = 20.
Результат: Кратчайший путь к C1 равен 20. Это низкое значение (высокий риск). Сайт C1 получает высокий приоритет для антивирусной проверки из-за пути через ненадежный источник P2, несмотря на ссылку от P1.

Вопросы и ответы

В чем ключевое отличие описанного алгоритма от PageRank?

Ключевое отличие заключается в механизме распространения веса. PageRank — это аддитивная модель: он суммирует авторитет, полученный от входящих ссылок. Описанная в патенте модель Надежности работает по принципу «слабого звена» (функция минимума): ресурс наследует наименьшую оценку надежности среди всех ссылающихся на него источников. Это кардинально меняет подход к анализу ссылок: плохие ссылки не усредняются хорошими, а доминируют.

Является ли описанная «Оценка надежности» фактором ранжирования?

Патент не описывает использование этой метрики в формуле ранжирования. Он описывает ее применение для приоритизации антивирусного сканирования. Однако, во-первых, сама Оценка надежности рассчитывается на основе факторов, которые уже влияют на ранжирование (средний ранг и поведенческие факторы). Во-вторых, логично предположить, что метрика Trust, рассчитанная таким образом, может использоваться и в других алгоритмах качества (например, Proxima или Anti-Quality).

Насколько сильно одна плохая входящая ссылка может навредить сайту согласно этому патенту?

Критически сильно. Если у вас 100 ссылок с надежных ресурсов и 1 ссылка со скомпрометированного или спамного ресурса (с минимальной оценкой надежности), то согласно описанному механизму (Claim 1), ваша итоговая оценка надежности будет равна этой минимальной оценке. Эта одна ссылка определяет ваш уровень риска в системе.

Как именно рассчитывается «Оценка надежности»?

Патент предлагает два основных способа (Claims 2 и 3). Первый основан на анализе журнала поиска и включает «Ранжирующий признак» (средний ранг сайта в SERP) и «Признак взаимодействия» (метрики удовлетворенности пользователей/ПФ). Второй основан на списках: Белом (надежные) и Черном (вредоносные). Конкретные формулы не приводятся, но указано, что у надежных сайтов оценка численно выше.

Как поведенческие факторы влияют на эту систему?

Они влияют напрямую. «Признак взаимодействия», который отражает удовлетворенность пользователей, является одним из ключевых компонентов для расчета исходной «Оценки надежности» (Claim 2). Сайты с хорошими поведенческими факторами считаются более надежными, а сайты с плохими — менее надежными. Это еще один аргумент в пользу комплексной работы над качеством сайта и пользовательским опытом.

Что означает «Алгоритм поиска кратчайшего пути» в этом контексте?

Это математический алгоритм (например, Дейкстры), который находит путь с минимальной суммой весов ребер в графе. В данном патенте вес ребра — это Оценка надежности. Поскольку у ненадежных сайтов оценка низкая, «кратчайший путь» ведет к сайтам с наименьшей кумулятивной надежностью. Именно эти сайты система считает наиболее подозрительными и проверяет в первую очередь.

Как этот патент влияет на стратегию использования PBN (Private Blog Networks)?

Он делает использование PBN значительно более рискованным. Если хотя бы один сайт в сетке будет скомпрометирован, получит низкий ранг или плохие ПФ, его низкая Оценка надежности распространится на все сайты, на которые он ссылается, по принципу «слабого звена». Поддержание высокой надежности всех узлов в PBN становится критически важной и сложной задачей.

Если мой сайт часто сканируется системой безопасности Яндекса, значит ли это, что у него низкая Оценка надежности?

Согласно логике патента, да. Цель системы — приоритизировать сканирование ресурсов с низкой кумулятивной Оценкой надежности. Если ваш сайт попадает в приоритет, это может быть связано либо с низкими собственными показателями (ранг, ПФ), либо с наличием входящих ссылок от ненадежных источников, которые передают вам свою низкую оценку.

Что делать, если конкуренты начнут ставить на меня ссылки с вредоносных сайтов (Негативное SEO)?

Такая атака действительно может привести к снижению вашей унаследованной Оценки надежности в рамках этой модели из-за принципа «слабого звена». Необходимо регулярно мониторить ссылочный профиль и оперативно реагировать на появление токсичных ссылок, используя инструменты для их отклонения (Disavow) или связываясь с владельцами ресурсов для их удаления.

Что такое «Узел нулевой вершины»?

Это искусственная стартовая точка в графе, необходимая для работы алгоритма поиска кратчайшего пути. Он соединяется со всеми исходными (родительскими) узлами. Вес ребра от нулевой вершины до родительского узла равен исходной Оценке надежности этого родительского узла. Это позволяет алгоритму учитывать как исходное доверие к сайту, так и его распространение по графу.