Яндекс патентует метод решения проблемы «холодного старта» в рекомендательных системах (например, Дзен). Когда данных для персонализации нового пользователя недостаточно, система анализирует главные страницы доверенных ресурсов. Она предсказывает популярность контента исключительно на основе его визуальной значимости (размер блока, позиция на странице) и рекомендует этот контент вместо персонализированных предложений.
Описание
Какую задачу решает
Патент решает фундаментальную проблему рекомендательных систем, известную как «Холодный старт» (Cold Start Problem). Эта проблема заключается в неспособности системы предоставлять персонализированный контент новым пользователям (New-User Type), поскольку о них еще не накоплено достаточно данных о взаимодействиях (previous user interactions) для определения их предпочтений. Это критично для удержания пользователей и роста сервиса, особенно при запуске на новых территориях.
Что запатентовано
Запатентован метод выбора неперсонализированных рекомендаций для новых пользователей. Суть изобретения заключается в использовании визуальных характеристик (Visual Characteristics) контента на главных страницах (Landing Pages) заранее определенных доверенных ресурсов (Pre-determined Resources) в качестве прокси-сигнала популярности. Система предсказывает, насколько элемент будет популярен, основываясь только на его внешнем виде и расположении на странице-источнике, а не на семантике контента или истории пользователя.
Как это работает
Система сначала определяет тип пользователя: «новый» или «старый» (Old-User Type). Если пользователь «старый», используется стандартная персонализация. Если «новый», активируется механизм «холодного старта». Система анализирует главные страницы заранее отобранных «доверенных» сайтов (например, крупных новостных порталов). Извлекаются визуальные характеристики элементов (размер, позиция, наличие картинок). Специально обученный алгоритм машинного обучения (MLA) использует эти характеристики для расчета «неспецифичной для пользователя оценки популярности» (User-Non-Specific Popularity Score). Элементы с наивысшими оценками подаются пользователю в качестве рекомендаций.
Актуальность для SEO
Высокая. Решение проблемы «холодного старта» критически важно для роста платформ рекомендаций (таких как Яндекс Дзен). Использование анализа визуальной верстки (layout analysis) для определения важности элементов на странице является актуальным и технически продвинутым подходом в Information Retrieval.
Важность для SEO
Влияние на SEO (5/10). Важно понимать разницу: влияние на традиционное SEO (Web Search) минимальное, так как патент не описывает алгоритмы веб-поиска. Однако он имеет высокое значение для оптимизации под рекомендательные системы (RSO – Recommendation System Optimization). Патент показывает, что для попадания в стартовую ленту рекомендаций для новых пользователей контент должен (А) находиться на сайте, который Яндекс считает «доверенным», и (Б) быть визуально выделен на главной странице этого сайта.
Детальный разбор
Термины и определения
- Cold Start Problem (Проблема «холодного старта»)
- Ситуация, когда рекомендательная система не обладает достаточной информацией о новом пользователе для предоставления персонализированных рекомендаций.
- Feature Vector (Вектор признаков)
- Численное представление элемента, основанное на его визуальных характеристиках (размер, позиция и т.д.) на главной странице источника.
- Landing Page (Главная страница / Посадочная страница)
- В контексте патента — главная страница (homepage) веб-ресурса, на которой размещаются наиболее важные или популярные материалы, отобранные оператором ресурса.
- MLA (Machine Learned Algorithm / Алгоритм машинного обучения)
- Модель, обученная предсказывать популярность элемента. В патенте упоминаются Первый MLA (116) для новых пользователей (на основе визуальных признаков) и Второй MLA (118) для старых пользователей (персонализация).
- New-User Type («Новый пользователь»)
- Пользователь, у которого уровень предыдущих взаимодействий с сервисом недостаточен для генерации персонализированных рекомендаций.
- Old-User Type («Старый пользователь»)
- Пользователь с достаточной историей взаимодействий для генерации персонализированных рекомендаций.
- Pre-determined Resource (Заранее определенный ресурс / Доверенный ресурс)
- Внешний веб-сайт, который оператор системы (Яндекс) считает «доверенным» (trustworthy) источником контента, подходящего для широкой аудитории.
- Prominence (Значимость / Заметность)
- Степень важности элемента на странице, выраженная через его визуальные характеристики.
- Resource-Native Selection Algorithm (Собственный алгоритм отбора ресурса)
- Метод (программный алгоритм или ручная работа редакторов), используемый внешним ресурсом для выбора контента для своей главной страницы.
- User-Non-Specific Popularity Score (Неспецифичная для пользователя оценка популярности)
- Оценка, предсказанная MLA на основе визуальных признаков, указывающая на потенциальную общую популярность элемента независимо от интересов конкретного пользователя.
- Visual Characteristics (Визуальные характеристики)
- Признаки макета элемента на главной странице: позиция, размер, относительный размер, наличие изображения или видео, шрифты. Используются как индикатор значимости (prominence) элемента.
Ключевые утверждения (Анализ Claims)
Патент защищает два основных аспекта: метод предоставления рекомендаций новым пользователям (Claim 1) и метод обучения модели для этого (Claim 13).
Claim 1 (Независимый пункт): Метод выбора рекомендаций для «Нового пользователя».
- Система получает индикацию доступа пользователя к сервису рекомендаций.
- Определяется тип пользователя (Новый/Старый). Ключевое условие: Новый тип означает, что истории взаимодействий недостаточно для персонализации.
- Если пользователь Новый:
- Система получает информацию о наборе элементов с главной страницы (Landing Page) заранее определенного ресурса. Эта информация включает визуальные характеристики элементов.
- Для каждого элемента генерируется вектор признаков на основе этих визуальных характеристик.
- Используется обученный MLA для генерации User-Non-Specific Popularity Score для каждого элемента на основе его вектора признаков.
- Система выбирает набор элементов для рекомендации на основе этих оценок популярности.
- Выбранный набор передается пользователю вместо (in lieu of) персонализированного контента.
Claim 13 (Независимый пункт): Метод обучения MLA.
Этот пункт описывает, как система учится связывать визуальные характеристики с популярностью.
- Система получает информацию об элементах с главной страницы ресурса (включая визуальные характеристики).
- Система получает индикацию предыдущих взаимодействий пользователей (например, клики, просмотры) с этими элементами на этой странице.
- Для каждого элемента генерируется вектор признаков на основе визуальных характеристик.
- Для каждого элемента создается обучающий набор, состоящий из вектора признаков (вход) и реальных данных о взаимодействиях (выход).
- MLA обучается на этих наборах предсказывать User-Non-Specific Popularity Score. Цель обучения — научить модель предсказывать вероятность взаимодействия, используя только визуальные признаки.
Где и как применяется
Важно отметить: этот патент НЕ применяется к стандартной архитектуре веб-поиска. Он относится исключительно к инфраструктуре Систем Рекомендаций (например, Яндекс Дзен).
CRAWLING & ACQUISITION (Сбор данных)
Система выполняет целевое сканирование исключительно главных страниц (Landing Pages) из списка доверенных ресурсов (Pre-determined Resources). Собираются данные о макете (layout) и контенте.
INDEXING & FEATURE EXTRACTION (Индексация и извлечение признаков)
Система парсит HTML/CSS/DOM главных страниц для извлечения визуальных характеристик каждого элемента (размер, позиция, медиа). Эти характеристики преобразуются в Feature Vector.
RANKING (Ранжирование рекомендаций)
При запросе контента сначала запускается алгоритм определения типа пользователя (User-type determination algorithm). Если пользователь новый, активируется Первый MLA (116), который использует извлеченные визуальные векторы для предсказания User-Non-Specific Popularity Score. Затем система выбирает элементы с наивысшими оценками.
На что влияет
- Типы контента: В первую очередь влияет на контент, который размещается на главных страницах крупных ресурсов. В патенте упоминаются новостные элементы (news items) и товары (retail items).
- Специфические запросы: Не применимо. Система работает без явного запроса пользователя.
- Ниши и тематики: Наибольшее влияние оказывается на общетематические ниши (новости, развлечения, e-commerce). Система предпочитает контент с сайтов, признанных «доверенными» для широкой аудитории. В патенте приводится пример, что CNN или Amazon могут быть доверенными, а нишевые или сатирические сайты (The Onion) — нет.
Когда применяется
- Условия работы: Алгоритм активируется, когда пользователь обращается к рекомендательному сервису.
- Триггер активации: Ключевым триггером является классификация пользователя как «Новый» (New-User Type). Это происходит, когда объем его предыдущих взаимодействий не достигает заранее определенного уровня (pre-determined level), необходимого для персонализации.
Пошаговый алгоритм
Фаза Использования (In-Use Phase)
- Получение запроса: Сервер получает индикацию того, что пользователь обратился к сервису рекомендаций.
- Определение типа пользователя: Сервер анализирует историю взаимодействий пользователя.
- Ветвление логики:
- Если история достаточна (Old-User Type): Запускается стандартный процесс персонализации (Second MLA).
- Если история недостаточна (New-User Type): Запускается механизм «холодного старта» (First MLA).
- Сбор данных (для Нового пользователя): Сервер получает данные главных страниц из списка «доверенных» ресурсов.
- Извлечение признаков и Векторизация: Сервер парсит данные и извлекает визуальные характеристики (размер, позиция и т.д.) для каждого элемента, преобразуя их в векторы признаков.
- Скоринг (MLA): Обученный MLA обрабатывает векторы и генерирует User-Non-Specific Popularity Score для каждого элемента.
- Отбор и Ранжирование: Система выбирает элементы с наивысшими оценками популярности. Может применяться диверсификация (например, выбор топ-элементов из разных ресурсов или тематик — class driven selection).
- Фильтрация (Опционально): Применение эвристического анализа (heuristic analysis) для исключения нежелательного контента (например, насилия, контента для взрослых, как указано в Claims 11, 12).
- Выдача: Отобранные элементы передаются пользователю.
Фаза Обучения (Training Phase — Офлайн)
- Сбор макетов: Получение данных главных страниц доверенных ресурсов и извлечение визуальных характеристик.
- Сбор взаимодействий: Получение реальных данных о взаимодействиях пользователей (клики, просмотры) с элементами на этих страницах.
- Создание обучающих наборов: Сопоставление векторов визуальных признаков с реальными взаимодействиями.
- Обучение MLA: Модель учится предсказывать вероятность взаимодействия на основе визуальных признаков (например, «большие элементы получают больше кликов»).
Какие данные и как использует
Данные на входе
- Структурные и Визуальные факторы (Ключевые): Это ядро патента. Используются данные о макете (layout) главных страниц доверенных ресурсов, извлеченные из HTML/CSS/DOM. Конкретно:
- Позиция элемента на странице (Position).
- Размер элемента на странице (Size).
- Относительный размер элемента (Relative size).
- Наличие изображения или видео.
- Шрифты текстовой информации.
Эти факторы служат индикаторами заметности (Prominence).
- Поведенческие факторы (На этапе обучения): Данные о взаимодействиях пользователей с элементами на внешних главных страницах. Упоминаются: клики, долгие клики, наведение курсора, скроллинг, загрузки, покупки, шеринг. Они служат целевой переменной (Ground Truth) для популярности.
- Пользовательские факторы (На этапе использования): История взаимодействий пользователя с самим рекомендательным сервисом. Используется исключительно для определения типа пользователя (Новый/Старый).
- Системные данные: Список предопределенных доверенных ресурсов.
Какие метрики используются и как они считаются
- Вектор признаков (Feature Vector): Численное представление совокупности визуальных характеристик одного элемента. Измерения вектора соответствуют различным визуальным признакам.
- User-Non-Specific Popularity Score: Выходная метрика MLA. Предсказание популярности элемента, основанное только на его векторе признаков.
- Pre-determined Level (Пороговое значение истории): Метрика, определяющая границу между новым и старым пользователем. Если история пользователя ниже этого уровня, активируется механизм патента.
- Алгоритмы машинного обучения: Используется MLA (тип не указан), обученный предсказывать популярность на основе визуальных признаков.
Выводы
- Разделение Поиска и Рекомендаций: Это исключительно патент о рекомендательных системах (Дзен). Он не дает информации об алгоритмах ранжирования в основном веб-поиске Яндекса.
- Визуальная значимость как прокси популярности: Ключевая идея патента — использование внешнего вида и расположения контента на главных страницах сторонних авторитетных сайтов как сильного индикатора общей популярности для решения проблемы «холодного старта». Предполагается, что более заметные элементы (больше размер, выше позиция) более популярны.
- Анализ рендеринга внешних сайтов: Патент подтверждает наличие у Яндекса технологий для анализа визуального макета (рендеринга) внешних страниц и сопоставления его с поведением пользователей на этих страницах (на этапе обучения MLA).
- Зависимость от «Доверенных ресурсов»: Эффективность метода зависит от качества списка Pre-determined Resources. Если сайт не входит в этот список, данный алгоритм не будет использовать его контент для «холодного старта».
- Игнорирование семантики для «холодного старта»: На этом этапе система полагается на визуальные признаки и редакционный выбор внешнего источника, а не на анализ содержания (семантику) самого элемента.
Практика
Best practices (это мы делаем)
Практическое применение касается оптимизации под рекомендательные системы (RSO), а не традиционного SEO.
Для владельцев потенциально «Доверенных Ресурсов» (крупные СМИ, порталы):
- Стремление к статусу «Доверенного ресурса»: Необходимо работать над общим качеством, авторитетностью сайта и соблюдением правил платформ, чтобы повысить вероятность его включения в список Pre-determined Resources.
- Оптимизация визуальной значимости (Visual Prominence) на главной: Для ключевого контента на главной странице следует использовать визуально доминирующие элементы: крупные блоки, заметное позиционирование (в верхней части страницы) и привлекательные изображения. Патент подтверждает, что Яндекс считает эти визуальные сигналы напрямую коррелирующими с популярностью.
- Улучшение UX и дизайна главной страницы: Четкая визуальная иерархия помогает не только пользователям, но и алгоритмам Яндекса определить наиболее важный контент. Убедитесь, что верстка технически корректна и позволяет роботам легко определять визуальные характеристики.
Для всех сайтов (Стратегия дистрибуции):
- Внешнее продвижение и PR: Если ваш сайт не является крупным порталом, стратегически важно добиваться размещения вашего контента на главных страницах тех ресурсов, которые Яндекс считает доверенными. При размещении стремитесь получить наиболее заметные позиции.
Worst practices (это делать не надо)
- Скрытие ключевого контента: Размещение важных статей или товаров глубоко в структуре сайта без вывода на главную, или использование мелких, незаметных ссылок на главной странице.
- Однородный или перегруженный макет: Если все элементы на главной странице выглядят одинаково (например, сетка одинаковых карточек без явных акцентов) или страница перегружена рекламой, MLA не сможет эффективно выделить наиболее значимые элементы.
- Визуальное выделение низкокачественного контента: Размещение кликбейта на самых заметных позициях. Это может привести к потере статуса доверенного ресурса.
Стратегическое значение
Патент демонстрирует, что Яндекс глубоко анализирует UX и визуальный дизайн сторонних сайтов. Это подчеркивает важность качественного дизайна и пользовательского опыта в том, как алгоритмы воспринимают ценность контента. Стратегически, это подтверждает, что для максимальной видимости в экосистеме Яндекса (включая рекомендации) необходимо сочетать качественный контент с качественным визуальным представлением и сильной стратегией дистрибуции.
Практические примеры
Сценарий 1: Оптимизация новостного портала (Доверенный ресурс).
- Исходная ситуация: Новостной портал (входит в список «доверенных») имеет главную страницу в виде однородной сетки из 15 новостей одинакового размера.
- Действие системы: MLA Яндекса анализирует страницу. Так как визуальные характеристики всех новостей схожи, оценки популярности будут близки. Отбор новостей для новых пользователей будет близок к случайному.
- Оптимизация: Портал проводит редизайн. Главная новость дня теперь занимает блок в 3 раза больше остальных и расположена в самом верху по центру, с большой фотографией.
- Результат: MLA Яндекса присваивает этой новости значительно более высокую оценку популярности из-за улучшенных визуальных характеристик. Вероятность ее показа новым пользователям в ленте рекомендаций резко возрастает.
Сценарий 2: Стратегия дистрибуции для небольшого сайта.
- Исходная ситуация: Нишевый блог хочет получить трафик от новых пользователей Дзена, но не является «доверенным ресурсом».
- Оптимизация: Владелец блога договаривается о публикации своего лучшего материала на крупном портале (который является «доверенным ресурсом»). Материал размещается на главной странице портала на заметной позиции.
- Результат: Система Яндекса анализирует главную страницу крупного портала, идентифицирует материал блога как визуально значимый, присваивает ему высокий балл популярности и начинает рекомендовать его новым пользователям.
Вопросы и ответы
Влияет ли этот патент на ранжирование моего сайта в основном поиске Яндекса?
Нет, прямого влияния нет. Патент описывает исключительно механизмы работы рекомендательной системы (например, Яндекс Дзен), в частности, как она выбирает контент для показа новым пользователям (проблема «холодного старта»). Он не касается алгоритмов ранжирования в ответ на поисковые запросы в Яндекс Поиске.
Что конкретно подразумевается под «Визуальными характеристиками» (Visual Characteristics)?
Патент перечисляет конкретные примеры: позиция элемента на главной странице, его физический размер, его размер относительно других элементов, наличие связанного изображения или видео, а также используемые шрифты. По сути, это все, что определяет, насколько заметным (Prominence) является элемент на странице.
Как система определяет, что элемент популярен, если она не анализирует его содержание для новых пользователей?
Система полагается на визуальную значимость как на прокси-сигнал популярности. Логика такова: редакторы или алгоритмы доверенного сайта стараются разместить самый важный и популярный контент на самых заметных местах (крупнее и выше). MLA Яндекса обучен распознавать эту корреляцию между заметностью и реальной популярностью.
Как Яндекс узнает, какие сайты являются «Доверенными» (Pre-determined Resources)?
Патент не описывает механизм выбора. Упоминается, что оператор сервиса (Яндекс) определяет набор ресурсов, которые он считает «trustworthy». Вероятно, это курируемый список крупных и качественных площадок (СМИ, E-commerce и т.д.), контент которых подходит для широкой аудитории.
Как Яндекс получает данные о кликах на сторонних сайтах для обучения модели (MLA)?
Патент указывает, что на этапе обучения система получает индикацию предыдущих взаимодействий пользователей с элементами на главных страницах. Это может происходить через партнерские соглашения, API или использование систем аналитики (например, Яндекс Метрика), установленных на этих доверенных ресурсах, что позволяет собирать необходимые данные для обучения.
Значит ли это, что для попадания в рекомендации Яндекса мой сайт должен иметь определенный дизайн?
Если ваш сайт является «доверенным ресурсом», то да, дизайн главной страницы напрямую влияет на отбор контента для новых пользователей. Если ваш сайт не является крупным доверенным ресурсом, то вам нужно стремиться к тому, чтобы ваш контент был заметно размещен на главных страницах таких ресурсов (стратегия дистрибуции и PR).
Если мой контент находится не на главной странице, может ли он быть рекомендован этим алгоритмом?
Нет. Патент четко указывает, что данный механизм анализирует и извлекает элементы именно с главной страницы (Landing Page) заранее определенных ресурсов. Контент, расположенный только на внутренних страницах, этим алгоритмом не обрабатывается.
Значит ли это, что Яндекс рендерит страницы для работы этого алгоритма?
Да. Для извлечения точных визуальных характеристик (размер блока, позиция на экране, шрифты) система должна выполнить парсинг HTML/CSS и осуществить рендеринг страницы или построить модель рендеринга. Это подтверждает наличие у Яндекса развитых технологий визуального анализа страниц.
Что такое «Новый пользователь»? Сколько нужно взаимодействий, чтобы стать «Старым»?
Патент не дает точного числа. Он определяет «Нового пользователя» как того, чей уровень предыдущих взаимодействий не достигает заранее определенного порога (pre-determined level), необходимого для генерации персонализированных рекомендаций. Этот порог устанавливается оператором системы и может меняться.
Применяет ли система фильтрацию к контенту, отобранному таким образом?
Да, патент (Claims 11 и 12) упоминает возможность исключения элементов на основе эвристического анализа (heuristic analysis). В качестве примеров контента для исключения приводятся насилие (violent content), шок-контент (gore content) и контент сексуального характера (sexually-explicit content).