Как Яндекс использует граф ссылок и оценки доверия для приоритизации проверки сайтов на вирусы и спам

Яндекс патентует метод оптимизации ресурсов при проверке сайтов на вредоносный контент. Система строит граф связей между сайтами и присваивает им оценки доверия (Trust Scores) на основе истории ранжирования и поведения пользователей. Доверие наследуется по принципу «слабого звена»: ресурс получает наименьшую оценку из всех ссылающихся на него сайтов. Ресурсы с наименьшим доверием проверяются в первую очередь с помощью алгоритма кратчайшего пути.

Описание

Какую задачу решает

Патент решает проблему нехватки вычислительных ресурсов для проверки огромного количества публикуемых или сканируемых веб-ресурсов на наличие вредоносных данных (malicious data) – вирусов, фишинга, нежелательного контента. Поскольку родительские ресурсы ссылаются на дочерние, а те, в свою очередь, на следующие уровни, объем данных для проверки растет экспоненциально. Изобретение предлагает механизм для эффективной приоритизации этой проверки, чтобы в первую очередь анализировать ресурсы с наибольшей вероятностью содержания вредоносных данных.

Что запатентовано

Запатентована система и метод для планирования (scheduling) и приоритизации оценки веб-ресурсов на вредоносность. Суть изобретения заключается в построении графа связанных ресурсов и присвоении им оценок доверия (Trust Scores). Ключевым элементом является механизм наследования доверия по принципу «слабого звена»: дочерний ресурс наследует наименьшую оценку доверия среди всех ссылающихся на него родительских ресурсов. Для определения приоритета используется алгоритм поиска кратчайшего пути (shortest-path algorithm), где длина ребер графа зависит от оценки доверия.

Как это работает

Система строит граф, где узлы – это веб-ресурсы, а ребра – гиперссылки. Исходным (родительским) ресурсам присваиваются Trust Scores, основанные на истории их ранжирования, поведении пользователей или нахождении в белых/черных списках. Эти оценки определяют «длину» ребер: чем выше доверие, тем длиннее ребро. Дочерние ресурсы наследуют самую низкую оценку доверия от своих родителей. Затем система применяет алгоритм (например, Дейкстры) для поиска кратчайшего пути от стартовой точки до любого узла в графе. Ресурсы, найденные по кратчайшим путям (т.е. имеющие наименьшее совокупное доверие), в первую очередь отправляются на проверку на наличие вредоносных данных.

Актуальность для SEO

Высокая. Проблемы безопасности, борьбы со спамом и эффективного распределения вычислительных ресурсов являются критически важными для любой поисковой системы или контентной платформы (например, Дзен). Описанные методы использования графовых структур и распространения доверия являются фундаментальными для анализа веба.

Важность для SEO

Влияние на SEO среднее (6/10). Это не патент о ранжировании. Он описывает инфраструктурный механизм для обеспечения безопасности и борьбы со спамом (Anti-Quality). Однако он предоставляет критически важные инсайты о том, как Яндекс вычисляет и распространяет оценки доверия (Trust Scores). Понимание того, что доверие определяется историей ранжирования и поведением пользователей, а также то, что оно наследуется по принципу «слабого звена», имеет стратегическое значение для построения авторитетности сайта и управления ссылочным профилем.

Детальный разбор

Термины и определения

Child Node/Web-resource (Дочерний узел/веб-ресурс): Ресурс, на который ведет гиперссылка с родительского ресурса.
Graph Structure (Графовая структура): Модель, представляющая веб-ресурсы как узлы и гиперссылки между ними как ребра. Используется для анализа распространения доверия.
Interaction Feature (Признак взаимодействия): Метрика, основанная на данных из логов поиска (Search Log), указывающая на удовлетворенность пользователя веб-ресурсом при взаимодействии с ним на странице результатов поиска (SERP).
Malicious Data (Вредоносные данные): Контент, включающий вирусы, трояны, фишинг, шпионское ПО, нежелательную рекламу (adware), а также оскорбительный или запрещенный контент.
Parent Node/Web-resource (Родительский узел/веб-ресурс): Исходный ресурс, который содержит гиперссылку на дочерний ресурс.
Ranking Feature (Признак ранжирования): Метрика, основанная на данных из логов поиска, указывающая на среднюю позицию ранжирования веб-ресурса в прошлых SERP.
Shortest-Path Algorithm (Алгоритм кратчайшего пути): Алгоритм (например, Дейкстры, Bellman-Ford), используемый для нахождения пути с минимальной суммарной длиной ребер между узлами в графе. В контексте патента – поиск пути с наименьшим совокупным доверием.
Sub-child Node/Web-resource (Узел/веб-ресурс подуровня): Ресурс, на который ведет гиперссылка с дочернего ресурса (третий уровень и глубже).
Trust Score (Оценка доверия): Численное значение, присваиваемое веб-ресурсу, которое представляет вероятность того, что ресурс не содержит вредоносных данных. Высокий Trust Score означает низкую вероятность вредоносности.
Zero-Vertex Node (Нулевая вершина): Искусственно созданный стартовый узел в графе, к которому подключены все родительские узлы. Используется как точка отсчета для алгоритма кратчайшего пути.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый механизм приоритизации.

Система получает запросы на публикацию множества веб-ресурсов.
Генерируется графовая структура, включающая родительские и дочерние узлы, связанные гиперссылками.
Родительским узлам присваиваются исходные оценки доверия (Trust Scores).
Вводится нулевая вершина (Zero-Vertex Node). Она соединяется с родительскими узлами ребрами, длина которых (zero-vertex edge length) представляет Trust Score родительского узла (чем выше доверие, тем больше длина).
Критически важный шаг: Дочернему узлу присваивается оценка доверия, основанная на наименьшей (lowest) оценке доверия среди всех родительских узлов, которые на него ссылаются. Длина ребер, соединяющих родителей с этим дочерним узлом, становится представителем этой новой (наименьшей) оценки.
Применяется алгоритм кратчайшего пути для расчета кратчайшего пути от нулевой вершины до каждого дочернего узла.
Веб-ресурсы определяются для приоритетной оценки на основе этих кратчайших путей (самый короткий путь = наивысший приоритет проверки).

Claim 2 (Зависимый от 1): Определяет метод расчета Trust Score на основе данных поиска. Это ключевой пункт для SEO.

Оценка доверия родительского узла рассчитывается на основе логов поиска (Search Log) с использованием одного или обоих признаков:

Ranking Feature: Средняя позиция ранжирования ресурса в прошлых SERP.
Interaction Feature: Удовлетворенность пользователя ресурсом (например, рейтинги, отсутствие возвратов на выдачу).

Claim 3 (Зависимый от 1): Определяет метод расчета Trust Score на основе списков.

Система использует Первый список (белый список, не вредоносные) и Второй список (черный список, вредоносные). Оценки присваиваются в зависимости от наличия ресурса в этих списках (Высокий, Низкий или Средний балл).

Claim 7 (Зависимый от 1): Расширяет механизм на более глубокие уровни (Sub-child nodes).

Процесс повторяется для подуровней. Узел подуровня наследует наименьшую оценку доверия от всех ссылающихся на него узлов. Алгоритм кратчайшего пути рассчитывает общий кратчайший путь до этих глубоких узлов для приоритизации.

Claims 11 и 12 (Зависимые от 7): Описывают модификацию оценок доверия на глубине.

Система может изменять (altering) присвоенную оценку доверия для узлов подуровней. Описаны два варианта:

Уменьшение (decreasing) Trust Score: Доверие падает с глубиной. Это сокращает длину пути и повышает приоритет проверки глубоких ссылок.
Увеличение (increasing) Trust Score: Доверие искусственно увеличивается с глубиной. Это удлиняет путь и понижает приоритет проверки глубоких ссылок (обоснование в патенте: пользователи редко доходят до такой глубины).

Где и как применяется

Изобретение затрагивает инфраструктурные процессы, связанные с безопасностью и качеством поиска.

CRAWLING – Сканирование и Сбор данных
Система может использоваться краулером (например, подсистемой Scraper) для приоритизации обхода и глубокого анализа ссылок. Ссылки, ведущие по «коротким путям» (с низким доверием), могут быть помечены для более тщательной проверки на наличие вредоносного кода.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит расчет статических факторов. Trust Scores, основанные на Ranking Feature и Interaction Feature (Claim 2), вычисляются (или извлекаются из кеша) и сохраняются для использования в графовой модели. Также здесь происходит анализ гиперссылок для построения структуры графа.

Слой Качества и Метрик (QUALITY & GOVERNANCE / Anti-Quality)
Основное применение патента. Система используется как часть механизма Антикачества для выявления и нейтрализации угроз. Приоритизированные ресурсы передаются модулям, ответственным за фактическую проверку на вирусы, фишинг и спам.

На что влияет

UGC-платформы и социальные сети: Патент прямо упоминает получение «запросов на публикацию». Это указывает на применение в системах, где пользователи публикуют контент (например, Дзен, Кью, комментарии), для пре-модерации и проверки исходящих ссылок.
Сайты с большим количеством исходящих ссылок: Агрегаторы, форумы, каталоги подвергаются более высокому риску распространения вредоносных ссылок и требуют эффективной приоритизации проверки.
Рекламные сети и сторонний контент: Патент упоминает, что дочерние ресурсы могут включать рекламу. Механизм может применяться для приоритизации проверки рекламных ссылок и баннеров.

Когда применяется

Алгоритм применяется в двух основных сценариях:

Пре-модерация: При получении запроса на публикацию контента система анализирует его и все связанные ресурсы до того, как контент станет доступен пользователям.
Фоновое сканирование (Crawling): Во время планового обхода интернета для приоритизации проверки новообнаруженных или изменившихся ссылок.

Триггером активации является обнаружение гиперссылок в обрабатываемом контенте.

Пошаговый алгоритм

Сбор данных: Получение набора веб-ресурсов (родительских) и парсинг гиперссылок для идентификации дочерних ресурсов и ресурсов подуровней.
Расчет исходных Trust Scores: Для каждого родительского ресурса вычисляется Trust Score. Это делается либо путем анализа Ranking Feature и Interaction Feature из логов поиска, либо путем проверки по белым/черным спискам.
Построение графа (Инициализация): Создается нулевая вершина (Zero-Vertex Node). Родительские узлы соединяются с нулевой вершиной. Длина этих ребер устанавливается равной Trust Score родителя.
Распространение доверия (Наследование): Для каждого дочернего узла определяется набор ссылающихся на него родительских узлов. Дочерний узел наследует наименьший Trust Score из этого набора.
Построение графа (Соединение): Родительские узлы соединяются с дочерними. Длина этих ребер устанавливается равной унаследованной (наименьшей) оценке доверия дочернего узла.
Обработка подуровней: Шаги 4 и 5 повторяются для следующих уровней глубины (ресурсы подуровней наследуют наименьшее доверие от ссылающихся на них дочерних ресурсов).
(Опционально) Коррекция по глубине: Оценки доверия на глубоких уровнях могут быть искусственно уменьшены или увеличены (согласно Claims 11 и 12). Длины ребер корректируются соответственно.
Применение алгоритма кратчайшего пути: Запускается алгоритм (например, Дейкстры) с нулевой вершины для нахождения кратчайших путей ко всем остальным узлам графа.
Приоритизация: Узлы сортируются по длине их кратчайшего пути. Узлы с самыми короткими путями (наименьшим совокупным доверием) получают наивысший приоритет.
Оценка и Действие: Приоритизированные веб-ресурсы отправляются на проверку (Malicious Data Assessment). В случае обнаружения вредоносных данных запрос на публикацию может быть отклонен или ресурс помечен в индексе.

Какие данные и как использует

Данные на входе

Ссылочные факторы: Гиперссылки между родительскими, дочерними и ресурсами подуровней. Они формируют структуру графа.
Поведенческие факторы: Данные из логов поиска (Search Log). Используются для расчета Interaction Feature (удовлетворенность пользователя, клики, возвраты на выдачу).
Системные данные (История ранжирования): Данные о прошлых позициях ресурса в SERP. Используются для расчета Ranking Feature.
Списки (Справочные данные): Предопределенные белые списки (не вредоносные ресурсы) и черные списки (вредоносные ресурсы).

Какие метрики используются и как они считаются

Trust Score (Оценка Доверия): Ключевая метрика патента. Рассчитывается двумя способами:
1. На основе комбинации Ranking Feature и Interaction Feature.
2. На основе принадлежности к спискам (Высокий, Низкий или Средний балл).
Edge Length (Длина ребра): Прямое численное представление Trust Score в графовой модели. Высокое доверие = большая длина.
Механизм наследования: Используется функция минимума. Оценка доверия дочернего узла (C) равна MIN (Оценки доверия всех родительских узлов (P1..Pn), ссылающихся на C).
Алгоритмы поиска пути: Используется Shortest-Path Algorithm (например, алгоритм Дейкстры) для нахождения пути с минимальной суммарной длиной ребер от нулевой вершины.

Выводы

Доверие (Trust) как функция от истории ранжирования и поведения: Патент явно определяет, что Trust Score может быть рассчитан на основе прошлых успехов сайта в ранжировании (Ranking Feature) и удовлетворенности пользователей (Interaction Feature). Это подтверждает, что сайты с хорошей историей и сильными поведенческими факторами считаются более надежными.
Принцип «Слабого звена» при наследовании доверия: Критически важный вывод – доверие распространяется по наименьшему значению. Если на сайт ссылаются авторитетный ресурс и спам-ресурс, для целей этой системы сайт унаследует низкий уровень доверия спам-ресурса. Это подчеркивает важность чистоты ссылочного окружения.
Оптимизация ресурсов через приоритизацию: Яндекс активно использует сложные алгоритмы (графы, поиск пути) не только для ранжирования, но и для управления внутренними процессами, такими как безопасность. Проверяется не все подряд, а только то, что вызывает наибольшие подозрения.
Вариативность обработки глубоких ссылок: Патент предлагает два противоположных подхода к глубоким ссылкам: либо считать их менее надежными (понижать Trust Score с глубиной), либо считать их менее важными, так как пользователи туда не дойдут (повышать Trust Score с глубиной). Это указывает на гибкость системы.
Фокус на безопасность UGC: Механизм идеально подходит для платформ с пользовательским контентом, позволяя быстро проверять ссылки, публикуемые пользователями с разным уровнем доверия.

Практика

Best practices (это мы делаем)

Укрепление собственных Trust Signals: Сосредоточьтесь на улучшении Ranking Feature и Interaction Feature. Это означает работу над повышением позиций в поиске и максимизацией удовлетворенности пользователей (улучшение поведенческих факторов). Чем выше ваше собственное доверие, тем ниже приоритет проверки исходящих с вашего сайта ссылок.
Тщательный контроль исходящих ссылок: Понимая, что вы передаете свой Trust Score по исходящим ссылкам, тщательно проверяйте качество и безопасность ресурсов, на которые ссылаетесь. Ссылки на низкокачественные или сомнительные сайты могут увеличивать уровень внимания системы к вашему ресурсу.
Мониторинг безопасности и взломов: Если ваш сайт будет взломан и начнет ссылаться на вредоносные ресурсы, этот механизм быстро это обнаружит. Поддерживайте высокий уровень технической безопасности сайта.
Работа над чистотой входящего ссылочного профиля (Стратегически): Хотя этот патент использует входящие ссылки для определения приоритета проверки, а не для ранжирования, он подтверждает, что ассоциация с низкокачественными ссылающимися доменами (имеющими низкий Trust Score) является негативным сигналом. Работайте над тем, чтобы основная масса входящих ссылок приходила с доверенных ресурсов.

Worst practices (это делать не надо)

Беспорядочные исходящие ссылки: Размещение ссылок на непроверенные, новые или низкокачественные сайты снижает унаследованное доверие и повышает вероятность и частоту проверок.
Игнорирование поведенческих факторов: Низкая удовлетворенность пользователей (Interaction Feature) напрямую ведет к снижению Trust Score сайта.
Участие в смешанных ссылочных сетях (PBN, обмены): Если вы находитесь в сети сайтов, где присутствуют ресурсы с низким доверием, механизм наследования «слабого звена» может привести к тому, что все участники сети будут подвергаться более частым проверкам.
Размещение немодерируемого UGC-контента со ссылками: Если пользователи могут свободно публиковать ссылки, система будет часто активироваться, так как пользователи без истории (или с плохой историей) могут иметь низкий Trust Score.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на безопасность и качество экосистемы. Он демонстрирует, что Доверие (Trust) является измеримой величиной, которая напрямую зависит от того, как сайт ранжируется и как с ним взаимодействуют пользователи. Это связывает SEO-усилия (ранжирование и поведение) напрямую с оценкой надежности сайта. Стратегически важно понимать, что нахождение в «плохом соседстве» (будь то через входящие или исходящие ссылки) увеличивает риски и внимание со стороны систем Антикачества Яндекса.

Практические примеры

Сценарий 1: Публикация на UGC-платформе (например, Дзен)

Участники: Новый Автор (Trust Score=5, низкий) и Авторитетный Канал (Trust Score=90, высокий).
Действие: Оба публикуют статьи, ссылающиеся на один и тот же внешний Сайт X.
Работа системы: Система строит граф. Сайт X наследует наименьшее доверие из всех родителей, то есть 5 (от Нового Автора).
1. Путь 1 (через Нового Автора): Длина = 5 (до автора) + 5 (до Сайта X) = 10.
2. Путь 2 (через Авторитетный Канал): Длина = 90 (до канала) + 5 (до Сайта X) = 95.
Результат: Кратчайший путь к Сайту X имеет длину 10. Сайт X получает высокий приоритет для проверки на вирусы из-за ссылки от Нового Автора. Если Сайт X окажется вредоносным, публикация обеих статей может быть заблокирована.

Сценарий 2: Расчет Trust Score на основе истории поиска

Ресурс А: Форум по ремонту. Часто занимает Топ-5 по своим запросам (Ranking Feature высокий), пользователи проводят много времени на сайте (Interaction Feature высокий). Trust Score = 80.
Ресурс Б: Дорвей. Ранжируется низко или нестабильно, пользователи сразу закрывают вкладку. Trust Score = 3.
Действие: Краулер обнаруживает ссылки с Ресурса А и Ресурса Б на новый Сайт Y.
Результат: Сайт Y наследует наименьший Trust Score = 3. Путь через Ресурс Б будет очень коротким. Сайт Y немедленно отправляется на глубокую проверку безопасности.

Вопросы и ответы

Является ли этот патент описанием алгоритма ранжирования?

Нет, это не алгоритм ранжирования. Патент описывает механизм для планирования и приоритизации внутренних проверок безопасности (поиска вирусов, фишинга, спама). Его цель – решить, какие сайты нужно проверить в первую очередь, чтобы сэкономить вычислительные ресурсы. Однако он использует данные, тесно связанные с ранжированием (история позиций и поведение пользователей), для оценки доверия к сайтам.

Что такое Trust Score в контексте этого патента и как он рассчитывается?

Trust Score (Оценка доверия) – это метрика, оценивающая вероятность того, что сайт НЕ содержит вредоносных данных. Патент предлагает два основных способа расчета. Первый – на основе истории поиска: учитывается средняя позиция сайта в прошлом (Ranking Feature) и удовлетворенность пользователей (Interaction Feature). Второй – на основе белых и черных списков: сайты из белого списка получают высокий балл, из черного – низкий, остальные – средний.

Что означает принцип наследования доверия по «слабому звену»?

Это ключевой механизм патента. Он означает, что если на дочерний сайт ссылаются несколько родительских сайтов с разными уровнями доверия, дочерний сайт унаследует НАИМЕНЬШУЮ оценку доверия из всех. Например, если на вас ссылаются сайт с Trust Score 90 и сайт с Trust Score 5, ваша унаследованная оценка для этой системы будет 5. Яндекс предполагает, что если на сайт ссылается хоть кто-то ненадежный, этот сайт требует проверки.

Как связаны Trust Score и длина ребра в графе?

Trust Score напрямую определяет длину ребра (Edge Length) в графовой модели. Чем выше доверие к сайту, тем длиннее ребро, соединяющее его с другими узлами. И наоборот, низкое доверие приводит к коротким ребрам. Это сделано для того, чтобы алгоритм кратчайшего пути (например, Дейкстры) в первую очередь находил пути, проходящие через наименее доверенные узлы.

Как этот патент влияет на мою стратегию работы с исходящими ссылками?

Он подчеркивает важность качества исходящих ссылок. Ссылаясь на сайт, вы передаете ему свой уровень доверия. Если вы ссылаетесь на сомнительные или непроверенные ресурсы, вы создаете «короткие пути» в графе, что увеличивает внимание систем безопасности как к целевому сайту, так и потенциально к вашему собственному. Рекомендуется ссылаться только на авторитетные и безопасные источники.

Влияет ли этот механизм на входящие ссылки?

Да, но косвенно. Если на ваш сайт ссылаются ресурсы с низким Trust Score, ваш сайт унаследует эту низкую оценку в рамках данной системы. Это приведет к тому, что ваш сайт получит более высокий приоритет при проверке на вредоносный контент. Хотя это не пессимизация в ранжировании, это увеличивает уровень «подозрительности» вашего сайта для систем Антикачества.

Что такое Ranking Feature и Interaction Feature?

Ranking Feature – это показатель, основанный на средней исторической позиции вашего сайта в результатах поиска. Interaction Feature – это показатель удовлетворенности пользователей вашим сайтом (например, низкий процент возвратов на выдачу, длительное время на сайте, позитивные оценки). Оба этих признака используются для расчета исходного Trust Score сайта.

Как система обрабатывает глубокие ссылки (3-й уровень и далее)?

Механизм наследования наименьшего доверия сохраняется на всех уровнях. Однако патент предлагает возможность корректировки оценок на глубине (Claims 11, 12). Система может либо уменьшать доверие с глубиной (повышая приоритет проверки глубоких ссылок), либо увеличивать его (понижая приоритет, предполагая, что пользователи туда не дойдут). Конкретная реализация может зависеть от типа платформы.

Где вероятнее всего применяется этот алгоритм?

Наиболее вероятно его применение на платформах с пользовательским контентом (UGC), таких как Дзен, Кью, комментарии, социальные сети, для быстрой пре-модерации публикуемых ссылок. Также он может использоваться основным краулером Яндекса для приоритизации глубокого сканирования и проверки безопасности во время обхода интернета.

Если мой сайт получит высокий приоритет проверки по этому алгоритму, это плохо?

Не обязательно. Это означает, что система идентифицировала ваш сайт как потенциально рискованный, основываясь на низком доверии ссылающихся на вас ресурсов или на вашем собственном низком Trust Score. Если ваш сайт не содержит вредоносных данных, проверка пройдет успешно. Однако частые проверки могут указывать на проблемы с вашим ссылочным профилем или собственными сигналами доверия, над которыми стоит работать.