Яндекс патентует метод ранжирования, основанный на анализе визуального представления («Снимка») веб-страницы. Система использует модель машинного обучения (в частности, нейронные сети), обученную на оценках асессоров или поведении пользователей, для расчета «Коэффициента привлекательности». Этот коэффициент предсказывает вероятность того, что страница понравится пользователю (визуально или по качеству контента), и напрямую используется как фактор ранжирования.
Описание
Какую задачу решает
Патент решает задачу интеграции субъективных факторов качества, таких как визуальная привлекательность (UI) и удобство восприятия контента (UX), в алгоритм ранжирования. Он направлен на улучшение пользовательского опыта путем повышения в выдаче страниц, которые не только релевантны, но и «привлекательны». Это позволяет алгоритмически бороться с сайтами, которые имеют плохой дизайн, перегружены рекламой или неудобную структуру, даже если их текстовая релевантность высока.
Что запатентовано
Запатентован способ оценки качества веб-страницы на основе ее внешнего вида (Снимка) и использования этой оценки при ранжировании. Суть изобретения — вычисление «Коэффициента привлекательности» (Attractiveness Coefficient), который представляет собой вероятность того, что страница будет привлекательна для пользователя. Этот коэффициент рассчитывается Прогностической моделью машинного обучения (например, нейросетью), анализирующей снимок страницы.
Как это работает
Система генерирует Снимок (snapshot) веб-страницы, который представляет ее отрендеренный внешний вид. Этот снимок анализируется Прогностической моделью. Модель предварительно обучается на данных от асессоров (специалистов-тестировщиков) или на истории посещений пользователей (поведенческие данные). На этапе ранжирования модель выдает Коэффициент привлекательности, который используется как один из факторов, влияющих на позицию страницы в списке результатов поиска.
Актуальность для SEO
Высокая. Анализ отрендеренной страницы (визуальный анализ / Computer Vision) является критически важным элементом современных поисковых систем для оценки UX, обнаружения навязчивой рекламы и оценки общего качества представления контента. Описанные механизмы напрямую коррелируют с современными подходами к оценке Page Experience и метриками качества, такими как Proxima в Яндексе.
Важность для SEO
Влияние на SEO значительно (8/10). Этот патент прямо указывает на то, что внешний вид, дизайн (UI) и пользовательский опыт (UX) являются измеримыми факторами ранжирования в Яндексе. Страницы с высоким Коэффициентом привлекательности получат преимущество. Это подчеркивает необходимость инвестиций в качественный дизайн, оптимизацию читабельности, контроль за рекламой и общее удобство использования сайта как неотъемлемую часть SEO-стратегии.
Детальный разбор
Термины и определения
- Коэффициент привлекательности (Attractiveness Coefficient)
- Метрика, рассчитываемая для веб-страницы на основе ее снимка. Представляет собой вероятность того, что веб-страница будет привлекательной для пользователя. Используется как фактор ранжирования.
- Снимок (Snapshot)
- Представление внешнего вида веб-страницы. Это результат рендеринга страницы, который используется как входные данные для анализа прогностической моделью.
- Прогностическая модель (Predictive Model)
- Алгоритм машинного обучения (в патенте упоминается нейронная сеть), обученный предсказывать Коэффициент привлекательности по снимку страницы.
- Специалисты-тестировщики (Assessors/Testers)
- Люди (асессоры), чьи оценки привлекательности используются для создания обучающего набора данных (Ground Truth) для прогностической модели.
- История посещений сайтов пользователем (User Browsing History)
- Альтернативный источник данных для обучения модели. Анализ поведения пользователей (например, время на сайте, возвраты) используется для автоматического определения привлекательности страниц.
- Рейтинговая оценка (Ranking Score)
- Итоговая оценка документа, используемая для определения его позиции в выдаче. Рассчитывается с учетом Коэффициента привлекательности.
Ключевые утверждения (Анализ Claims)
Патент описывает систему, которая интегрирует оценку внешнего вида страницы в процесс ранжирования с использованием машинного обучения.
Claim 1 (Независимый пункт): Описывает основной способ генерации SERP.
- Получение запроса и создание списка результатов.
- Ранжирование списка, которое включает:
- Оценивание Снимка веб-страницы.
- Определение Коэффициента привлекательности на основании этого Снимка (вероятность того, что страница привлекательна).
- Ранжирование веб-страницы, основанное, по крайней мере частично, на этом Коэффициенте.
- Генерация SERP.
Claims 2 и 3 (Зависимые пункты): Уточняют природу привлекательности, демонстрируя гибкость подхода.
- Claim 2: Коэффициент может представлять вероятность того, что страница будет визуально привлекательной (фокус на UI/дизайне).
- Claim 3: Коэффициент может представлять вероятность того, что контент страницы будет привлекательным (фокус на содержании и его представлении/UX).
Claim 7 (Зависимый пункт): Описывает механизм определения Коэффициента.
Коэффициент определяется с использованием Прогностической модели, созданной путем машинного обучения на наборе данных, содержащем Снимки, помеченные соответствующими Коэффициентами привлекательности (обучающая выборка).
Claims 8 и 9 (Зависимые пункты): Определяют два возможных источника данных (Ground Truth) для обучения модели.
- Claim 8: Набор данных создается с помощью специалистов-тестировщиков (асессоров).
- Claim 9: Набор данных создается с использованием истории посещений сайтов пользователем (поведенческие данные).
Claim 10 (Зависимый пункт): Указывает на конкретный тип алгоритма машинного обучения — нейронная сеть.
Claim 18 (Независимый пункт): Описывает способ определения позиции (ранжирования) веб-страницы.
- Оценивание Снимка веб-страницы.
- Определение Коэффициента привлекательности на основании Снимка.
- Определение Рейтинговой оценки (Ranking Score) веб-страницы с учетом этого Коэффициента.
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры, требуя интеграции процессов рендеринга, компьютерного зрения и ранжирования.
CRAWLING & INDEXING (Сбор данных и Извлечение признаков)
Для работы системы необходимо получить Снимок страницы. Это требует полноценного рендеринга страницы (исполнения CSS и JavaScript) на этапе сканирования или индексации. После получения Снимка активируется Прогностическая модель. Учитывая упоминание нейронных сетей и анализ изображения, это подразумевает использование технологий компьютерного зрения (Computer Vision). Модель вычисляет Коэффициент привлекательности, который сохраняется как статический фактор документа в Прямом Индексе (Forward Index).
RANKING (Ранжирование, Уровни L2/L3)
На этапе ранжирования (вероятно, на уровнях Middle Ranking или Upper Reranking) Коэффициент привлекательности извлекается из индекса и используется как один из признаков в основной модели машинного обучения (например, CatBoost). Он влияет на итоговую Рейтинговую оценку документа.
QUALITY & GOVERNANCE LAYER
Вычисленный коэффициент может быть одним из компонентов интегральных метрик качества, таких как Proxima (оценка полезности и качества страницы) или Anti-Quality (фильтрация плохого пользовательского опыта). Модель, анализирующая Снимок, может быть обучена распознавать негативные паттерны (например, переизбыток рекламы, pop-up окна).
На что влияет
- Конкретные типы контента: Влияет на все типы контента. Наибольшее влияние может оказываться на e-commerce (привлекательность карточек товаров) и информационные сайты (читабельность, структура статей).
- Конкретные ниши: Критически важно для тематик, где визуальное представление играет ключевую роль (дизайн, мода, кулинария), а также для YMYL тематик, где профессионализм дизайна коррелирует с доверием.
- Пользовательский опыт (UX/UI): Патент напрямую влияет на оценку качества дизайна, верстки, удобства навигации и читабельности контента.
Когда применяется
- Вычисление коэффициента: Происходит офлайн, во время индексации или переиндексации страницы, так как рендеринг и анализ Снимка нейронной сетью — ресурсоемкие процессы.
- Применение при ранжировании: Происходит онлайн, при обработке поискового запроса, когда Коэффициент используется как готовый фактор.
Пошаговый алгоритм
Фаза 1: Офлайн — Обучение Прогностической модели
- Сбор данных: Генерация Снимков для большого набора веб-страниц.
- Разметка данных (Ground Truth): Получение оценок привлекательности для этих Снимков. Используется один из двух методов (или их комбинация):
- Метод А (Асессоры): Специалисты-тестировщики вручную оценивают привлекательность Снимков.
- Метод Б (Поведение): Анализ истории посещений сайтов пользователями (включая временные данные) для автоматического определения привлекательности (например, через метрики вовлеченности).
- Обучение модели: Построение Прогностической модели (например, Сверточной нейронной сети — CNN), которая учится предсказывать оценку привлекательности, принимая на вход Снимок страницы.
Фаза 2: Индексация — Вычисление фактора
- Рендеринг и Снимок: При обходе страницы поисковый робот выполняет рендеринг и генерирует Снимок ее внешнего вида.
- Анализ Снимка: Снимок подается на вход обученной Прогностической модели.
- Вычисление Коэффициента: Модель выдает Коэффициент привлекательности для данной страницы.
- Сохранение: Коэффициент сохраняется в индексе как атрибут документа.
Фаза 3: Онлайн — Ранжирование
- Получение запроса и определение списка кандидатов.
- Извлечение факторов: Для каждого кандидата из индекса извлекается его Коэффициент привлекательности.
- Расчет Рейтинговой Оценки: Алгоритм ранжирования использует Коэффициент привлекательности (наряду с другими факторами) для определения финального Ranking Score.
- Генерация SERP: Формирование страницы результатов поиска.
Какие данные и как использует
Данные на входе
- Мультимедиа / Визуальные факторы (Основной вход): Ключевым элементом является Снимок веб-страницы. Это визуальное представление, которое неявно содержит информацию о верстке, расположении элементов, цветовой гамме, шрифтах, изображениях, расположении и количестве рекламы.
- Поведенческие факторы (Для обучения): История посещений сайтов пользователем (Claim 9). Вероятно, используются метрики вовлеченности (время на сайте, глубина просмотра, отказы) как индикаторы привлекательности. Также упоминаются временные данные в истории посещений (Claim 11).
- Асессорские данные (Для обучения): Оценки, выставленные специалистами-тестировщиками (Claim 8), которые определяют, насколько привлекателен Снимок.
Какие метрики используются и как они считаются
- Коэффициент привлекательности (Attractiveness Coefficient): Является числовой величиной (Claim 5) и представляет собой вероятность. Он может быть ограничен двумя величинами (привлекательность и непривлекательность, Claim 4), что предполагает бинарную классификацию или нормализованную шкалу (например, от 0 до 1).
- Алгоритмы машинного обучения: Используется Прогностическая модель (Claim 7). Конкретно указан алгоритм, основанный на нейронной сети (Claim 10). Учитывая, что на вход подается изображение (Снимок), наиболее вероятным типом нейронной сети являются Сверточные Нейронные Сети (Convolutional Neural Networks, CNN), применяемые в задачах компьютерного зрения для анализа визуальных данных.
Выводы
- Внешний вид страницы — прямой фактор ранжирования: Яндекс явно использует оценку дизайна, верстки и общего визуального представления (UI/UX) страницы для определения ее позиции в выдаче.
- Использование компьютерного зрения в поиске: Применение нейронных сетей для анализа Снимков страниц подразумевает использование сложных технологий компьютерного зрения для понимания структуры, дизайна и расположения контента без анализа HTML-кода напрямую.
- «Привлекательность» — это ML-метрика, обученная на людях: Привлекательность вычисляется с помощью Прогностической модели (нейронной сети). Модель обучается на основе субъективных оценок асессоров и/или объективных поведенческих данных пользователей.
- Гибкое определение привлекательности: Система оценивает как общую визуальную привлекательность (дизайн), так и привлекательность контента (его представление, читабельность, структура).
- Механизм борьбы с плохим UX: Этот подход позволяет алгоритмически пессимизировать страницы с плохим дизайном, навязчивой рекламой или неудобной версткой, даже если текстовая релевантность высока.
- Техническое качество рендеринга важно: Чтобы система могла корректно оценить страницу, ее Снимок должен быть полным и точным. Это подчеркивает важность корректной работы CSS/JS и оптимизации скорости рендеринга для поисковых роботов.
Практика
Best practices (это мы делаем)
- Инвестиции в профессиональный UI/UX дизайн: Дизайн должен быть современным, чистым и вызывать доверие. Это напрямую влияет на Коэффициент привлекательности (Claim 2).
- Оптимизация читабельности и структуры контента: Используйте качественную типографику, структурируйте текст (заголовки, списки, абзацы), добавляйте качественные изображения. Модель оценивает привлекательность контента (Claim 3).
- Контроль за рекламой и всплывающими окнами: Перегруженность рекламой, особенно в верхней части страницы (Above The Fold), и навязчивые pop-up окна сделают Снимок менее привлекательным для модели, обученной на предпочтениях пользователей.
- Обеспечение корректного рендеринга: Убедитесь, что поисковый робот Яндекса может корректно отрендерить страницу и получить Снимок, идентичный тому, что видит пользователь. Оптимизируйте скорость загрузки и Critical Rendering Path.
- Фокус на главном контенте (Main Content): Главный контент должен быть заметным и легко доступным. Система, анализирующая Снимок, должна легко идентифицировать основное содержание страницы.
- Сбор позитивных поведенческих сигналов: Так как модель может обучаться на истории посещений (Claim 9), важно работать над увеличением вовлеченности пользователей (время на сайте, снижение отказов), что косвенно подтверждает привлекательность страницы и создает положительную обратную связь.
Worst practices (это делать не надо)
- Использование устаревшего или шаблонного дизайна низкого качества: Страницы, выглядящие непрофессионально или подозрительно, получат низкий коэффициент визуальной привлекательности.
- Агрессивная монетизация в ущерб UX: Размещение большого количества рекламных блоков, перекрывающих контент, тизеров, кликбейт-элементов.
- Плохая типографика и «стена текста»: Мелкий шрифт, низкая контрастность, отсутствие форматирования делают контент непривлекательным.
- Запутанная навигация и структура страницы: Если визуально сложно понять структуру страницы и найти нужную информацию.
- Проблемы с рендерингом: Блокировка CSS/JS для роботов, медленная загрузка ресурсов, приводящая к некорректному Снимку или нестабильности макета (Layout Shifts).
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на качество пользовательского опыта. Он демонстрирует, что Яндекс обладает сложными технологиями для визуального анализа веб-страниц на уровне, близком к человеческому восприятию, используя компьютерное зрение и нейронные сети. Для SEO это означает, что разделение между оптимизацией для поисковых систем и оптимизацией для пользователей стирается. Долгосрочная стратегия должна включать постоянное улучшение UI/UX как неотъемлемую часть работы по SEO.
Практические примеры
Сценарий 1: Оптимизация информационной статьи
- Проблема: Статья релевантна, но имеет низкие позиции. Дизайн использует мелкий шрифт и содержит три больших рекламных блока над основным текстом.
- Действие системы: Яндекс генерирует Снимок. Прогностическая модель анализирует его и определяет низкую привлекательность контента из-за доминирования рекламы и плохой читабельности.
- SEO-действия: Увеличение размера шрифта и контрастности. Перемещение двух из трех рекламных блоков вниз страницы. Добавление качественного вводного изображения.
- Ожидаемый результат: При следующей индексации новый Снимок получит более высокий Коэффициент привлекательности, что положительно скажется на ранжировании страницы.
Сценарий 2: Сравнение двух интернет-магазинов
- Ситуация: Два магазина (Сайт А и Сайт Б) имеют схожий ассортимент и релевантность.
- Сайт А: Современный чистый дизайн, крупные качественные фото, логичная структура, хорошо читаемый шрифт.
- Сайт Б: Использует устаревший дизайн, мелкие изображения товаров, навязчивые баннеры, сложную навигацию.
- Действие системы: Система генерирует Снимки страниц. Нейронная сеть анализирует их. Сайт Б оценивается как менее визуально привлекательный (Claim 2).
- Результат: Сайт Б получает значительно более низкий Коэффициент привлекательности. При прочих равных факторах ранжирования Сайт А будет ранжироваться выше.
Вопросы и ответы
Что такое «Снимок» (Snapshot) веб-страницы в контексте этого патента?
Снимок — это визуальное представление веб-страницы, результат ее рендеринга. Это буквально то, как выглядит страница в браузере. Патент предполагает, что система анализирует это изображение (а не только HTML-код) с помощью технологий компьютерного зрения (нейронных сетей), чтобы понять ее структуру, дизайн и удобство использования.
Правда ли, что дизайн сайта напрямую влияет на ранжирование в Яндексе?
Да, этот патент прямо это подтверждает. Система вычисляет «Коэффициент привлекательности», основанный на внешнем виде страницы (Claim 1). Этот коэффициент может оценивать как визуальную привлекательность (дизайн, UI) (Claim 2), так и привлекательность контента (его представление, UX, читабельность) (Claim 3). Этот коэффициент затем используется при расчете итоговой Рейтинговой оценки (Ranking Score).
Как именно Яндекс определяет, что является «привлекательным»?
Яндекс не использует жесткие правила. Вместо этого используется Прогностическая модель машинного обучения (нейронная сеть). Эта модель обучается на примерах страниц, которые нравятся людям. Источником этих примеров могут быть либо оценки асессоров (Claim 8), либо анализ поведения реальных пользователей (Claim 9). Привлекательным считается то, что статистически предсказывает удовлетворенность пользователя.
Использует ли Яндекс нейронные сети для этого анализа?
Да, в патенте (Claim 10) прямо указано, что процесс машинного обучения представляет собой алгоритм, основанный на нейронной сети. Учитывая, что анализируются визуальные данные (Снимки), это логично предполагает использование технологий компьютерного зрения, таких как Сверточные нейронные сети (CNN), для распознавания паттернов дизайна и структуры.
Как этот патент связан с метрикой Proxima?
Proxima — это интегральная метрика качества и полезности страницы в Яндексе. Описанный в патенте «Коэффициент привлекательности» с высокой вероятностью является одним из сигналов, формирующих итоговую оценку Proxima. Визуальная привлекательность и удобство использования напрямую влияют на общее восприятие качества страницы пользователем.
Влияет ли количество рекламы на этот Коэффициент привлекательности?
Да, с высокой вероятностью. Рекламные блоки видны на Снимке. Если реклама агрессивна, перекрывает контент, занимает слишком много места или нарушает структуру страницы, это снизит визуальную привлекательность. Модель, обученная на оценках асессоров или поведении пользователей, будет пессимизировать такие страницы.
Что делать, если у меня старый сайт с простым дизайном?
Простой дизайн не обязательно означает непривлекательный. Если сайт чистый, аккуратный, имеет хорошую читабельность и удобную навигацию, он может получить высокий Коэффициент привлекательности. Проблемы возникают при использовании устаревших технологий, нарушенной верстке, перегруженности элементами или плохом форматировании контента. В таких случаях рекомендуется провести модернизацию UX/UI.
Как проверить, корректно ли Яндекс создает Снимок моей страницы?
Необходимо убедиться, что основные ресурсы сайта (CSS, JavaScript, изображения) доступны для сканирования поисковыми роботами Яндекса и не заблокированы в robots.txt. Также стоит анализировать скорость рендеринга. Инструменты вроде Просмотра страниц в Яндекс.Вебмастере могут дать представление о том, как робот видит страницу.
Влияет ли мобильная версия сайта на этот коэффициент?
Хотя в патенте это не уточняется, современные поисковые системы преимущественно используют мобильный рендеринг (Mobile-First). С высокой вероятностью, Коэффициент привлекательности рассчитывается именно на основе Снимка мобильной версии страницы. Поэтому оптимизация мобильного UX/UI критически важна для получения высокого коэффициента.
Что мне нужно сказать дизайнерам и разработчикам на основе этого патента?
Ключевой посыл: работа дизайнеров и фронтенд-разработчиков напрямую влияет на SEO. Необходимо фокусироваться на создании чистого, удобного и эстетически приятного интерфейса. Важно следить за качеством верстки, читаемостью текстов, визуальной иерархией и разумным размещением рекламных блоков, так как все это анализируется Яндексом через визуальное представление страницы.