Как Яндекс приоритизирует проверку на вирусы, анализируя авторитетность ссылающихся сайтов

Яндекс патентует метод для оптимизации проверки веб-ресурсов на вредоносный контент. Система строит граф связей и присваивает ресурсам «Оценку Доверия» (Trust Score), основанную на исторических данных о ранжировании и поведении пользователей. Ресурсы, на которые ссылаются наименее доверенные сайты, проверяются в первую очередь. Для определения приоритета используется алгоритм поиска кратчайшего пути.

Описание

Какую задачу решает

Патент решает задачу эффективного управления вычислительными ресурсами при проверке большого количества веб-ресурсов на наличие вредоносных данных (вирусы, фишинг, нежелательный контент). В связи с ростом интернета и увеличением количества публикуемого контента (например, на UGC-платформах или агрегаторах) невозможно проверить все ресурсы и все связанные с ними ссылки одновременно. Система предлагает механизм приоритизации, позволяющий в первую очередь проверять ресурсы, которые с наибольшей вероятностью могут содержать вредоносные данные.

Что запатентовано

Запатентована система и метод для приоритизации (планирования) оценки веб-ресурсов на вредоносность. Суть изобретения заключается в построении графовой структуры связанных ресурсов и назначении «Оценок Доверия» (Trust Scores) родительским ресурсам на основе исторических данных (ранжирование, поведение пользователей). Ключевым элементом является принцип наследования: дочерний ресурс наследует наименьшую оценку доверия среди всех ссылающихся на него родительских ресурсов. Приоритет проверки определяется с помощью алгоритма поиска кратчайшего пути в этом графе.

Как это работает

Система получает запросы на публикацию веб-ресурсов и строит граф связей (родители, дети, суб-дети). Родительским ресурсам назначается Trust Score (например, на основе их исторического ранжирования). Создается Нулевая Вершина (Zero-Vertex Node). Длина ребра от Нулевой Вершины до родительского узла представляет его Trust Score (чем выше доверие, тем длиннее ребро). Дочерние узлы наследуют наименьший Trust Score от своих родителей, и длины их ребер корректируются соответственно. Затем применяется алгоритм поиска кратчайшего пути (например, Dijkstra’s algorithm). Ресурсы, имеющие кратчайший путь от Нулевой Вершины (то есть те, которые связаны через наименее доверенные источники), приоритизируются для проверки на вредоносные данные.

Актуальность для SEO

Высокая. Патент подан в 2022 году и опубликован в 2025. Управление нагрузкой на системы краулинга и оценки контента является критически важной задачей для любой крупной поисковой системы или контент-платформы. Использование графовых алгоритмов и исторических данных для приоритизации актуально.

Важность для SEO

Влияние на SEO среднее (6/10). Это не патент о ранжировании, а патент об инфраструктуре оценки безопасности. Однако он имеет значительную ценность для SEO, так как раскрывает механизмы, которые Яндекс использует для определения «Оценки Доверия» (Trust Score). Патент прямо указывает, что эта оценка базируется на исторических данных о ранжировании (Ranking Feature) и поведении пользователей (Interaction Feature). Это подтверждает важность долгосрочной SEO-стратегии и качественных поведенческих факторов как сигналов доверия.

Детальный разбор

Термины и определения

Child Node / Child Web-Resource (Дочерний узел / Дочерний веб-ресурс): Узел в графе, представляющий веб-ресурс, на который ведет гиперссылка с родительского веб-ресурса.
Graph Structure (Графовая структура): Структура данных, представляющая взаимосвязи между веб-ресурсами посредством гиперссылок (узлы и ребра).
Interaction Feature (Признак взаимодействия): Метрика, основанная на исторических данных из Search Log. Она указывает на удовлетворенность пользователей веб-ресурсом при взаимодействии с ним на страницах результатов поиска (SERP). Используется для расчета Trust Score.
Parent Node / Parent Web-Resource (Родительский узел / Родительский веб-ресурс): Узел в графе, представляющий веб-ресурс, который содержит гиперссылки на другие (дочерние) веб-ресурсы.
Ranking Feature (Признак ранжирования): Метрика, основанная на исторических данных из Search Log. Она указывает на средний ранг (позицию) данного веб-ресурса (или домена) в результатах поиска. Используется для расчета Trust Score.
Shortest-Path Algorithm (Алгоритм поиска кратчайшего пути): Алгоритм (например, Dijkstra, Bellman-Ford), используемый для нахождения пути с наименьшей суммарной длиной ребер между узлами в графе. В контексте патента используется для определения приоритета проверки.
Trust Score (Оценка Доверия): Метрика, присваиваемая веб-ресурсу, указывающая на вероятность того, что он НЕ содержит вредоносных данных. Высокий Trust Score означает большее доверие. В графе эта оценка представлена длиной ребра (чем выше оценка, тем длиннее ребро).
Zero-Vertex Node (Нулевая Вершина): Искусственно созданный начальный узел в графе, к которому подключены все родительские узлы. Служит отправной точкой для алгоритма поиска кратчайшего пути.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод планирования проверки веб-ресурсов.

Система получает запросы на публикацию веб-ресурсов.
Генерируется графовая структура, включающая:
- Родительские узлы (Parent Nodes), которым присваивается Trust Score.
- Нулевую Вершину (Zero-Vertex Node).
- Ребра от Нулевой Вершины к Родительским узлам, где длина ребра представляет Trust Score родителя.
- Дочерние узлы (Child Nodes).
- Ребра между родителями и детьми, основанные на гиперссылках.
Критический шаг: Дочернему узлу присваивается Trust Score, основанный на наименьшем (lowest) Trust Score среди всех родительских узлов, подключенных к этому дочернему узлу.
Длина ребер, соединяющих дочерний узел, корректируется в соответствии с этим унаследованным (наименьшим) Trust Score.
Применяется алгоритм поиска кратчайшего пути от Нулевой Вершины ко всем дочерним узлам.
Определяется приоритет проверки ресурсов на основе кратчайшего пути (ресурсы с кратчайшим путем проверяются первыми).

Claim 2 (Зависимый от 1): Уточняет, как рассчитывается Trust Score для родительских узлов.

Оценка основана на данных из Search Log (история поисковых выдач и взаимодействий) и включает как минимум одно из:

Ranking Feature (средний исторический ранг ресурса в SERP).
Interaction Feature (удовлетворенность пользователей ресурсом в SERP).

Claim 3 (Зависимый от 1): Описывает альтернативный метод расчета Trust Score с использованием списков.

Система использует Белый список (не вредоносные) и Черный список (вредоносные).

Если ресурс в Белом списке: присваивается Первый Trust Score (высокий).
Если ресурс в Черном списке: присваивается Второй Trust Score (низкий).
Если ресурс неизвестен: присваивается Третий Trust Score (средний).

Claim 7 (Зависимый от 1): Расширяет метод на многоуровневую структуру (Sub-child nodes).

Процесс наследования наименьшего Trust Score применяется рекурсивно. Суб-дочерний узел наследует наименьшую оценку среди всех подключенных к нему узлов (как родительских, так и дочерних). Алгоритм кратчайшего пути рассчитывается до всех суб-дочерних узлов.

Где и как применяется

Изобретение применяется на этапах сбора и первичной обработки данных, управляя очередью проверки контента на безопасность.

CRAWLING – Сканирование и Сбор данных
Система управляет приоритетом работы модулей, ответственных за оценку безопасности контента (часть подсистемы Scraper или связанных с ней сервисов). Когда поступает запрос на публикацию (например, на UGC-платформе или агрегаторе), эта система определяет, в каком порядке проверять исходный контент и все связанные с ним ссылки.

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
Значительная часть работы происходит офлайн или на этапе индексации. Для расчета Trust Scores система должна предварительно обработать Search Log для извлечения Ranking Feature и Interaction Feature для известных ресурсов/доменов.

Взаимодействие компонентов:

На входе: Запросы на публикацию веб-ресурсов, Search Log (для расчета оценок доверия), Белые/Черные списки.
Процесс: Построение графа, расчет и наследование Trust Scores, применение алгоритма кратчайшего пути.
На выходе: Приоритизированный список веб-ресурсов для модуля оценки вредоносных данных.

На что влияет

Типы контента: В первую очередь влияет на контент, публикуемый на платформах, где пользователи или агрегаторы могут размещать ссылки (социальные сети, блоги, рекомендательные системы типа Yandex Zen, упомянутые в патенте).
Скорость публикации/индексации: Ресурсы, связанные с высоко доверенными источниками (длинные пути в графе), могут проходить проверку медленнее или по упрощенной схеме, тогда как ресурсы, связанные с низко доверенными источниками (короткие пути), будут проверены в первую очередь и, возможно, более тщательно.

Когда применяется

Триггеры активации: Поступление нового контента для публикации или необходимость перепроверки существующего контента и его ссылочного окружения.
Условия работы: Алгоритм активируется, когда необходимо оценить безопасность ресурса, содержащего исходящие ссылки, или ресурса, на который ведут входящие ссылки с других проверяемых ресурсов.

Пошаговый алгоритм

Сбор данных: Получение запросов на публикацию множества веб-ресурсов.
Построение графа: Идентификация родительских, дочерних и суб-дочерних ресурсов и гиперссылок между ними. Создание соответствующей графовой структуры и Нулевой Вершины.
Назначение оценок родителям: Расчет Trust Score для родительских узлов. Это делается либо на основе Search Log (используя Ranking Feature и Interaction Feature), либо на основе Белых/Черных списков.
Соединение с Нулевой Вершиной: Подключение родительских узлов к Нулевой Вершине. Длина ребра устанавливается пропорционально Trust Score (высокое доверие = большая длина).
Наследование оценок (Итеративно): Для каждого дочернего (и суб-дочернего) узла определяется наименьший Trust Score среди всех узлов, ссылающихся на него. Этот наименьший балл присваивается дочернему узлу.
Корректировка длин ребер: Длины ребер, соединяющих дочерние узлы, устанавливаются в соответствии с их унаследованным Trust Score.
Опциональная Альтерация Оценок: В патенте (Claims 11, 12) описаны варианты изменения оценок для глубоких ссылок: их можно уменьшать (для приоритизации глубокой проверки) или увеличивать (для деприоритизации, если предполагается, что пользователи не кликнут так глубоко).
Расчет кратчайших путей: Применение алгоритма (например, Dijkstra’s algorithm) для нахождения кратчайшего пути от Нулевой Вершины до каждого узла в графе.
Приоритизация и Оценка: Узлы сортируются по длине кратчайшего пути. Ресурсы, соответствующие узлам с наименьшей длиной пути, первыми отправляются на проверку вредоносных данных.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важны для расчета Interaction Feature. Используются данные из Search Log об удовлетворенности пользователей ресурсом после перехода из поиска (например, клики, возвраты к выдаче).
Исторические данные ранжирования: Используются для расчета Ranking Feature. Система анализирует средний исторический ранг (позицию) веб-ресурса или его домена в SERP.
Структурные факторы (Ссылки): Анализируются гиперссылки между ресурсами для построения графовой структуры.
Внешние/Внутренние списки: Белые списки (First List) ресурсов, помеченных как не вредоносные, и Черные списки (Second List) ресурсов, помеченных как вредоносные.

Какие метрики используются и как они считаются

Trust Score (Оценка Доверия): Основная метрика. Рассчитывается для родительских ресурсов одним из двух способов:
1. Комбинация Ranking Feature и Interaction Feature.
2. На основе принадлежности к спискам: Первый балл (Белый список, самый высокий), Второй балл (Черный список, самый низкий), Третий балл (Неизвестный, средний).
Для дочерних ресурсов Trust Score наследуется как минимум от всех ссылающихся на него узлов.
Длина ребра (Edge Length): Прямое представление Trust Score в графе. Высокий Trust Score соответствует большой длине ребра.
Длина кратчайшего пути (Shortest-Path Length): Результат работы алгоритма Дейкстры. Определяет итоговый приоритет проверки. Чем меньше длина, тем выше приоритет.

Выводы

Яндекс рассчитывает «Оценку Доверия» (Trust Score) для управления безопасностью: Существует конкретная метрика доверия, используемая для приоритизации антивирусной/антифишинговой проверки.
Trust Score основан на SEO-метриках: Патент явно связывает доверие (в контексте отсутствия вредоносного контента) с историческими показателями ранжирования (Ranking Feature) и поведенческими факторами (Interaction Feature). Хорошее ранжирование и позитивное поведение пользователей являются прокси-сигналами качества и безопасности.
Принцип «Слабого Звена» (Weakest Link): Ключевой механизм изобретения — наследование наименьшей оценки доверия. Ресурс считается настолько же рискованным, насколько рискован наименее доверенный источник, ссылающийся на него. Это подчеркивает риски ассоциации с низкокачественными сайтами.
Оптимизация ресурсов через графы: Яндекс использует графовые алгоритмы (поиск кратчайшего пути) для оптимизации вычислительной нагрузки, фокусируясь в первую очередь на наиболее рискованных сегментах сети.
Гибкость в оценке глубоких ссылок: Система может быть настроена как на приоритизацию (уменьшение Trust Score), так и на деприоритизацию (увеличение Trust Score) глубоко вложенных ссылок в зависимости от стратегии платформы.

Практика

Best practices (это мы делаем)

Фокус на долгосрочном качестве и поведенческих факторах: Необходимо системно работать над улучшением поведенческих сигналов (Interaction Feature) и поддержанием высоких позиций (Ranking Feature). Патент подтверждает, что эти метрики напрямую используются Яндексом для формирования Trust Score, который влияет на скорость и приоритет обработки вашего контента системами безопасности.
Тщательный аудит исходящих ссылок: Так как система использует логику наследования наименьшего доверия, ссылка с вашего авторитетного сайта на низкокачественный или сомнительный ресурс создает «короткий путь» в графе оценки. Это может привести к более приоритетной (и, возможно, более строгой) проверке как целевого ресурса, так и вашего собственного контента.
Мониторинг качества входящих ссылок: Получение ссылок с сайтов с низким Trust Score (плохое ранжирование, плохие ПФ) заставляет ваш сайт наследовать этот низкий балл в контексте данного алгоритма. Это повышает приоритет проверки вашего сайта системами безопасности.
Модерация UGC-контента: Если на сайте есть пользовательский контент (комментарии, блоги), необходима строгая модерация исходящих ссылок, чтобы избежать связей с низко доверенными ресурсами.

Worst practices (это делать не надо)

Ассоциация с низкокачественными сайтами: Участие в линкбилдинге (входящем или исходящем) с сайтами, которые имеют плохие исторические показатели ранжирования или поведенческие факторы. Это напрямую снижает Trust Score в этой системе.
Игнорирование сигналов безопасности и ПФ: Пренебрежение работой над поведенческими факторами или наличие технических уязвимостей снижает доверие и увеличивает вероятность приоритетной проверки.

Стратегическое значение

Этот патент демонстрирует, что для Яндекса SEO-показатели (ранжирование и поведение пользователей) являются интегральными метриками доверия, которые используются даже в инфраструктурных задачах, таких как безопасность. Это подтверждает стратегическую важность холистического подхода к качеству сайта. Невозможно разделить «техническое SEO», «контентное SEO» и «безопасность» — все эти аспекты влияют на то, как система воспринимает Trust Score ресурса.

Практические примеры

Сценарий: Наследование наименьшего доверия

Определение Trust Scores:
- Сайт А (Авторитетный новостной портал): Высокий Ranking Feature и Interaction Feature. Trust Score = 15.
- Сайт Б (Сомнительный блог): Низкие показатели. Trust Score = 5.
- Сайт В (Новый лендинг): Оценка еще не определена.
Связи: Сайт А и Сайт Б оба ссылаются на Сайт В.
Действие системы: Сайт В наследует наименьший Trust Score из ссылающихся на него. Сайт В получает Trust Score = 5.
Приоритизация: В графе путь от Нулевой Вершины через Сайт Б к Сайту В будет короче (длина 5+5=10), чем путь через Сайт А (длина 15+5=20). Система выберет кратчайший путь 10.
Результат: Сайт В будет проверен на вредоносный контент в приоритетном порядке из-за наличия ссылки с низко доверенного Сайта Б, несмотря на ссылку с авторитетного Сайта А.

Вопросы и ответы

Является ли этот патент патентом о ранжировании?

Нет, это не патент о ранжировании в поисковой выдаче. Он описывает инфраструктурный механизм для приоритизации проверки веб-ресурсов на наличие вредоносного контента (вирусы, фишинг). Его цель — оптимизация вычислительных ресурсов, а не определение релевантности контента запросу пользователя.

Что такое «Trust Score» в контексте этого патента и почему он важен для SEO?

Trust Score (Оценка Доверия) — это метрика, указывающая на вероятность того, что ресурс НЕ содержит вредоносных данных. Для SEO это критически важно, потому что патент раскрывает, как Яндекс рассчитывает эту оценку: она базируется на исторических данных ранжирования (Ranking Feature) и поведенческих факторах (Interaction Feature). Это прямое доказательство того, что успехи в SEO (хорошие позиции и ПФ) формируют доверие к сайту на инфраструктурном уровне.

Как работает механизм наследования Trust Score?

Используется принцип «слабого звена». Дочерний ресурс наследует НАИМЕНЬШУЮ (lowest) оценку доверия среди всех ресурсов, которые на него ссылаются. Если на ваш сайт ссылается авторитетный ресурс (Score 15) и спамный сайт (Score 5), ваша оценка доверия в этой системе будет 5.

Как связаны Trust Score и длина ребра в графе?

Связь прямая: чем выше Trust Score (больше доверия), тем ДЛИННЕЕ ребро в графе. Система ищет кратчайший путь для приоритизации. Следовательно, ресурсы с низким Trust Score (короткими ребрами) будут проверены в первую очередь, так как они представляют больший риск.

Что такое Ranking Feature и Interaction Feature?

Ranking Feature — это показатель, основанный на среднем историческом ранге (позиции) веб-ресурса в результатах поиска. Interaction Feature — это показатель, основанный на удовлетворенности пользователей ресурсом после перехода из поиска (анализ поведенческих данных в Search Log). Оба используются для расчета исходного Trust Score.

Влияет ли этот алгоритм на скорость индексации моего сайта?

Патент напрямую об этом не говорит, но логично предположить косвенное влияние. Если ваш сайт имеет низкий Trust Score (короткие пути в графе), он будет приоритизирован для проверки безопасности. Если проверка выявит проблемы, это может замедлить или остановить индексацию. Сайты с высоким Trust Score могут проходить проверку с меньшим приоритетом.

Стоит ли беспокоиться, если на мой сайт ссылаются низкокачественные ресурсы?

Да. В контексте этого алгоритма, ссылки с низкокачественных ресурсов (с низким Trust Score) напрямую снижают вашу собственную оценку доверия из-за механизма наследования наименьшего балла. Это ставит ваш сайт в приоритетную очередь на проверку системами безопасности Яндекса.

Как влияют исходящие ссылки с моего сайта на этот алгоритм?

Если вы ссылаетесь на сомнительный ресурс, вы создаете связь, которая будет проанализирована. Если ваш Trust Score ниже, чем у других сайтов, ссылающихся на тот же ресурс, то путь через ваш сайт будет кратчайшим, и целевой ресурс будет проверен в приоритете. Частые ссылки на низкокачественные сайты могут также повлиять на ваш собственный исторический Interaction Feature.

Использует ли система машинное обучение для определения Trust Score?

Патент не упоминает конкретные модели машинного обучения для расчета Trust Score. Он описывает использование исторических данных (Ranking Feature, Interaction Feature) и предопределенных списков (Белый/Черный список). Однако, сами эти признаки (особенно Interaction Feature) вероятно рассчитываются с использованием ML-моделей на основе анализа логов.

Что означает «Альтерация Оценок» для глубоких ссылок (Claims 11 и 12)?

Патент предлагает возможность корректировать Trust Score для ресурсов, находящихся глубоко в цепочке ссылок. Оценку можно искусственно понижать (укорачивая путь), чтобы принудительно проверить глубокие ссылки. Или же оценку можно повышать (удлиняя путь), чтобы деприоритизировать их, исходя из предположения, что пользователи редко кликают так глубоко.