Яндекс патентует метод для рекомендательных сервисов (например, Дзен), решающий проблему «холодного старта». Если у пользователя нет истории взаимодействий, система не может создать персонализированную ленту. Вместо этого она анализирует визуальные характеристики (размер, позиция, изображения) контента на главных страницах заранее определенных «надежных» ресурсов. Используя обученную модель, система предсказывает популярность контента на основе его визуальной заметности и формирует из него неперсонализированную ленту рекомендаций.
Описание
Какую задачу решает
Патент решает фундаментальную проблему рекомендательных систем — «холодный старт» (Cold Start). Эта проблема возникает, когда в систему приходит новый пользователь, о предпочтениях, интересах и поведении которого системе ничего не известно. В таких условиях традиционные алгоритмы персонализации не могут предоставить релевантный контент, что ухудшает пользовательский опыт и замедляет рост сервиса. Патент предлагает механизм генерации неперсонализированных рекомендаций, которые с высокой вероятностью будут интересны большинству новых пользователей.
Что запатентовано
Запатентованы способ и сервер для выборочного предоставления рекомендаций в зависимости от типа пользователя. Система классифицирует пользователей на «старых» (с достаточной историей взаимодействий) и «новых» (истории недостаточно для персонализации). Для «старых» пользователей генерируется персонализированный контент. Ядро изобретения — механизм для «новых» пользователей: генерация неспецифических для пользователя рекомендаций на основе прогнозирования популярности контента, взятого с «надежных» ресурсов.
Как это работает
Ключевой механизм для новых пользователей основан на анализе визуальных характеристик контента (размер, позиция на странице, наличие изображений) на целевых страницах (например, главных страницах) заранее определенных «надежных» ресурсов. Система предполагает, что более заметное расположение элемента коррелирует с его важностью или популярностью. Специальный Алгоритм Машинного Обучения (MLA) предварительно обучается прогнозировать популярность элемента, используя только эти визуальные факторы. Когда приходит новый пользователь, этот MLA оценивает свежий контент с надежных ресурсов и выбирает элементы с наивысшей прогнозируемой популярностью.
Актуальность для SEO
Высокая (для рекомендательных систем, таких как Дзен). Проблема «холодного старта» остается актуальной для любых сервисов, основанных на персонализации. Использование анализа верстки и визуальной заметности как прокси-сигнала важности контента является эффективным техническим решением для генерации стартовой ленты рекомендаций.
Важность для SEO
Влияние на SEO минимально (1/10). Патент описывает внутренние механизмы сервисов рекомендаций (например, Яндекс Дзен), а не алгоритмы ранжирования основного веб-поиска Яндекса. Он не дает практических рекомендаций для продвижения сайтов в поисковой выдаче. Однако он имеет критическое значение для оптимизации под рекомендательные системы (Dzen Optimization), показывая, как визуальное представление контента на сайте-источнике влияет на его попадание в ленту новых пользователей Дзена.
Детальный разбор
Термины и определения
- MLA (Machine Learning Algorithm / Алгоритм Машинного Обучения)
- В патенте упоминаются два MLA. Первый MLA используется для прогнозирования неспецифической популярности на основе визуальных факторов. Второй MLA используется для генерации персонализированных рекомендаций для «старых» пользователей.
- Визуальные характеристики (Visual Characteristics)
- Параметры отображения элемента на целевой странице. Включают: положение на странице, размер элемента, относительный размер, наличие изображений или видео, шрифты. Используются как признаки для прогнозирования популярности у новых пользователей.
- Вектор факторов (Feature Vector)
- Численное представление визуальных характеристик элемента, используемое в качестве входных данных для MLA.
- Заранее определенный ресурс («Надежный» ресурс / Trusted Resource)
- Ресурс (например, веб-сайт), который оператор сервиса рекомендаций считает надежным источником контента, интересного большинству новых пользователей.
- Новый пользователь (New User)
- Пользователь, у которого количество предыдущих взаимодействий с сервисом рекомендаций ниже заранее определенного порога, что недостаточно для создания персонализированной рекомендации.
- Оценка популярности (Popularity Score)
- Метрика, прогнозирующая интерес к элементу. Может быть Специфической (персонализированной, для старых пользователей) или Неспецифической (общей, для новых пользователей).
- Сервис рекомендаций (Recommendation Service)
- Система, которая предоставляет пользователю контент на основе его явных или неявных интересов, без отдельного поискового запроса (например, Яндекс Дзен).
- Старый пользователь (Old User)
- Пользователь, у которого достаточно предыдущих взаимодействий для создания персонализированной рекомендации.
- Целевая страница (Target Page)
- Главная или домашняя страница ресурса, на которую направляется большая часть трафика и где оператор ресурса размещает наиболее важный/популярный контент.
- Холодный старт (Cold Start)
- Ситуация, когда система рекомендаций не может предоставить персонализированный контент из-за отсутствия данных о пользователе.
Ключевые утверждения (Анализ Claims)
Патент описывает систему, которая использует принципиально разные подходы к генерации рекомендаций в зависимости от наличия истории у пользователя.
Claim 1 (Независимый пункт): Описывает полный процесс работы системы с фокусом на обработку «Нового пользователя».
- Система получает информацию о пользователе, получающем доступ к сервису рекомендаций.
- Определяется тип пользователя: «Новый» или «Старый». «Новый» означает, что уровень предыдущих взаимодействий недостаточен для персонализации.
- В ответ на то, что пользователь «Новый»:
- Система получает информацию о наборе элементов с Целевой страницы заранее определенного («надежного») ресурса. Эта информация включает Визуальные характеристики элементов. (Уточняется, что целевая страница содержит предварительно выбранные/высоко ранжированные самим ресурсом элементы).
- Создается Вектор факторов для каждого элемента на основе его визуальных характеристик.
- С помощью MLA (который был предварительно обучен связывать визуальные факторы с пользовательскими взаимодействиями) создается Неспецифическая для пользователя оценка популярности для каждого элемента на основе его Вектора факторов.
- Создается набор неспецифических рекомендаций путем выбора элементов на основе этих оценок популярности.
- Этот набор передается пользователю вместо персонализированной рекомендации.
Claim 13 (Независимый пункт): Описывает процесс обучения MLA, который используется в Claim 1 для прогнозирования популярности у новых пользователей.
- Система получает информацию об элементах с целевой страницы (включая визуальные характеристики).
- Система получает указания на предыдущие пользовательские взаимодействия (например, клики, просмотры), связанные с этими элементами (исторические данные).
- Создается Вектор факторов для каждого элемента на основе визуальных характеристик.
- Создается обучающий набор для каждого элемента, включающий Вектор факторов и соответствующие пользовательские взаимодействия.
- MLA обучается на этих наборах прогнозировать популярность (т.е. пользовательские взаимодействия) на основе Вектора факторов. Эта оценка популярности не зависит от конкретного пользователя.
Где и как применяется
Важно подчеркнуть: данный патент НЕ относится к архитектуре основного Поиска Яндекса (Crawling, Indexing, Ranking и т.д.). Он применяется исключительно в рамках Сервисов Рекомендаций Яндекса (например, Яндекс Дзен).
Процесс применяется на этапе генерации ленты рекомендаций при обращении пользователя к сервису.
Взаимодействие компонентов:
- Алгоритм определения типа пользователя: Взаимодействует с Базой данных пользовательских взаимодействий для классификации пользователя (Новый/Старый).
- Сервер: Оркестрирует процесс. При классификации «Новый пользователь» он запускает Первый MLA. При классификации «Старый пользователь» он запускает Второй MLA.
- Первый MLA: Принимает на вход Векторы факторов (основанные на визуальных характеристиках контента с надежных ресурсов) и возвращает Неспецифические оценки популярности.
На что влияет
- Типы контента: Влияет на все типы контента, доступные в рекомендательной системе (новостные статьи, товары, аудиовизуальные элементы).
- Специфические пользователи: Критически влияет на опыт «Новых пользователей» или пользователей при запуске сервиса в новых регионах, где у системы нет накопленных данных.
- Ниши и тематики: Влияние сильнее в тематиках, которые широко представлены на главных страницах «надежных» ресурсов (например, новости, популярная розничная торговля). Нишевые или специфические тематики могут быть исключены из списка «надежных» ресурсов.
Когда применяется
- Условия работы: Алгоритм применяется при каждом обращении пользователя к сервису рекомендаций (явно или неявно, например, при открытии браузера или новой вкладки).
- Триггеры активации: Ключевой триггер для активации запатентованного механизма (Первый MLA) — это классификация пользователя как «Новый пользователь». Это происходит, когда количество его предыдущих взаимодействий ниже заранее определенного порога. Если порог превышен, активируется стандартный механизм персонализации (Второй MLA).
Пошаговый алгоритм
Описание процесса генерации рекомендаций (на основе Фиг. 5 и Claims).
- Получение запроса: Сервер получает указание на пользователя, получающего доступ к сервису рекомендаций (например, пользователь открыл ленту Дзена).
- Определение типа пользователя: Сервер проверяет историю взаимодействий пользователя в базе данных. Определяется, соответствует ли объем истории заранее определенному уровню, необходимому для персонализации.
- Ветвление логики:
- Путь А: «Старый пользователь» (Достаточно истории):
- Запускается стандартный механизм персонализации (Второй MLA).
- Создаются Специфические для пользователя оценки популярности на основе его истории.
- Генерируется и передается персонализированная рекомендация.
- Путь Б: «Новый пользователь» (Недостаточно истории – Холодный старт):
- Сбор данных с ресурсов: Сервер получает информацию (HTML, стили) с Целевых страниц заранее определенных «надежных» ресурсов.
- Парсинг и Извлечение признаков: Сервер анализирует полученную информацию для извлечения Визуальных характеристик (размер, позиция, изображения) для каждого элемента на этих страницах.
- Векторизация: Создается Вектор факторов для каждого элемента на основе его визуальных характеристик.
- Прогнозирование популярности (Первый MLA): Векторы факторов подаются на вход обученному MLA. MLA генерирует Неспецифическую для пользователя оценку популярности для каждого элемента.
- Выбор и Фильтрация: Сервер выбирает элементы с наивысшими оценками популярности. Может применяться кластеризация по ресурсам или тематикам для обеспечения разнообразия. Также может применяться эвристический анализ для исключения нежелательного контента (жестокость, секс и т.д.).
- Ранжирование: Выбранные элементы могут быть дополнительно ранжированы для оптимального отображения на устройстве пользователя.
- Передача: Генерируется и передается набор неспецифических рекомендаций.
- Путь А: «Старый пользователь» (Достаточно истории):
Какие данные и как использует
Данные на входе
- Структурные и Контентные факторы (Визуальные): Это ключевые данные для обработки «Новых пользователей». Используются: положение элемента на целевой странице, размер элемента, относительный размер, наличие изображений/видео, шрифты. Эти данные извлекаются путем парсинга HTML и связанных файлов (стили, скрипты).
- Поведенческие факторы: Используются на двух этапах:
- Определение типа пользователя: История взаимодействий текущего пользователя используется для определения, является ли он «Новым» или «Старым».
- Обучение MLA (Офлайн): Исторические данные о взаимодействиях (клики, просмотры, наведения, скроллинг) других пользователей с элементами на целевых страницах используются как целевая переменная (Ground Truth) для обучения Первого MLA.
- Системные данные: Список заранее определенных «надежных» ресурсов, определенный оператором сервиса.
Какие метрики используются и как они считаются
- Вектор факторов (Feature Vector): Численное представление визуальных характеристик элемента. Каждое измерение вектора соответствует определенной характеристике (например, одно измерение — размер, другое — позиция).
- Неспецифическая для пользователя оценка популярности (Non-specific Popularity Score): Выход Первого MLA. Это прогноз вероятности взаимодействия с элементом, основанный исключительно на его Векторе факторов.
- Методы обучения MLA: Первый MLA обучается на наборах данных, где входными данными является Вектор факторов, а выходными — реальные исторические пользовательские взаимодействия. Цель обучения — научить модель находить корреляции между визуальной заметностью и популярностью.
Выводы
- Фокус на Рекомендациях, а не Поиске: Патент описывает исключительно работу рекомендательных систем (например, Дзен) и не имеет отношения к алгоритмам ранжирования основного веб-поиска Яндекса. Практических выводов для SEO (Search Engine Optimization) нет.
- Решение проблемы «Холодного старта»: Для новых пользователей персонализация невозможна. Яндекс заменяет ее прогнозированием общей популярности контента.
- Визуальная заметность как прокси популярности: Ключевая идея патента — использование визуальных характеристик (размер, позиция, изображения) контента на сайте-источнике как основного фактора для прогнозирования его популярности у новых пользователей. Система предполагает, что владельцы сайтов размещают более важный контент на более заметных местах.
- Роль «Надежных ресурсов»: Для генерации стартовой ленты используется контент только с заранее отобранных «надежных» ресурсов. Это гарантирует определенный уровень качества и общей привлекательности контента.
- Техническая возможность анализа верстки: Патент подтверждает, что Яндекс обладает технологиями детального парсинга и анализа визуального представления веб-страниц (рендеринга), извлекая точные данные о расположении и размере элементов.
Практика
Best practices (это мы делаем)
Поскольку патент не относится к основному веб-поиску, прямых рекомендаций для SEO нет. Однако, если задача стоит в оптимизации под рекомендательные системы (Dzen Optimization), то для максимизации охвата среди новых пользователей (при условии, что ваш сайт рассматривается как «надежный ресурс») следует:
- Оптимизация главной страницы (Целевой страницы): Убедитесь, что наиболее важный и привлекательный контент размещен на главной странице, так как именно она анализируется системой для «холодного старта».
- Максимизация визуальной заметности: Используйте крупные элементы, размещайте контент на высоких позициях и используйте качественные изображения. Согласно патенту, именно эти визуальные характеристики используются MLA для прогнозирования популярности.
- Повышение авторитетности ресурса: Работайте над тем, чтобы ваш сайт попал в список «надежных ресурсов» Яндекса. Хотя критерии отбора в патенте не описаны, это, вероятно, связано с общим качеством, трафиком и репутацией сайта.
Worst practices (это делать не надо)
- Применение выводов к SEO: Ошибочно считать, что описанный анализ визуальной верстки используется Яндексом для ранжирования в веб-поиске. Контекст патента ограничен рекомендательными системами.
- Размещение важного контента только на внутренних страницах: Если важный контент не представлен на главной странице, он не будет учтен системой при формировании ленты для новых пользователей Дзена (согласно этому механизму).
- Мелкие элементы и низкая позиция на главной: Контент, размещенный внизу главной страницы или в мелких блоках, получит низкую прогнозируемую оценку популярности от MLA и вряд ли попадет в рекомендации для новых пользователей.
Стратегическое значение
Патент подчеркивает техническое разделение между Поиском и Рекомендательными системами Яндекса. Он демонстрирует способность Яндекса к сложному визуальному анализу страниц, но ограничивает применение этой технологии конкретной задачей — решением проблемы «холодного старта». Для SEO-стратегов это напоминание о том, что оптимизация под Дзен и оптимизация под Поиск требуют разных подходов и опираются на разные алгоритмические принципы.
Практические примеры
Пример оптимизации сайта для увеличения трафика из Дзена от новых пользователей (при условии, что сайт является «надежным ресурсом»).
Сценарий: Оптимизация главной страницы новостного портала
- Анализ текущей верстки: Главная страница содержит 3 равнозначных блока с новостями вверху и большой блок с авторской колонкой в середине.
- Действие системы (до оптимизации): MLA Яндекса анализирует верстку. Три новости получают средние оценки популярности (из-за небольшого размера блока). Авторская колонка получает высокую оценку (из-за большого размера блока).
- Оптимизация: Редакция решает продвинуть одну главную новость дня. Верстка меняется: главная новость занимает большой блок в самом верху страницы с крупным изображением. Авторская колонка смещается ниже.
- Действие системы (после оптимизации): MLA Яндекса анализирует новую верстку. Главная новость получает максимальную прогнозируемую оценку популярности благодаря визуальным характеристикам (большой размер, высокая позиция, изображение).
- Результат: Эта главная новость с большей вероятностью будет выбрана для показа в ленте рекомендаций новым пользователям Дзена, что увеличит ее охват.
Вопросы и ответы
Влияет ли этот патент на ранжирование моего сайта в поиске Яндекса?
Нет, этот патент не влияет на ранжирование в основном веб-поиске. Он описывает исключительно работу рекомендательных систем Яндекса (таких как Дзен) и специфический механизм решения проблемы «холодного старта» для новых пользователей. Алгоритмы SEO и алгоритмы рекомендаций работают независимо друг от друга.
Что такое проблема «холодного старта» и почему Яндекс ее решает?
Проблема «холодного старта» (Cold Start) возникает, когда в рекомендательный сервис приходит новый пользователь, о котором система ничего не знает (нет истории кликов, интересов). Система не может создать для него персонализированную ленту. Яндекс решает эту проблему, показывая контент, который предположительно будет интересен большинству, чтобы удержать пользователя и начать собирать данные о его предпочтениях.
Как Яндекс определяет, какой контент показывать новым пользователям?
Для новых пользователей Яндекс использует специальный Алгоритм Машинного Обучения (MLA), который прогнозирует популярность контента на основе его визуального представления на сайте-источнике. Система анализирует размер блока, его позицию на странице и наличие изображений. Предполагается, что чем заметнее контент на сайте, тем он популярнее.
Что такое «надежные ресурсы» и как туда попасть?
«Надежные ресурсы» (в патенте — заранее определенные ресурсы) — это сайты, которые оператор Яндекса считает качественными источниками контента, подходящего для большинства новых пользователей. Патент не раскрывает критерии попадания в этот список, но обычно это крупные, авторитетные сайты с высоким трафиком и хорошей репутацией.
Значит ли это, что Яндекс анализирует верстку моего сайта?
Да, патент подтверждает, что у Яндекса есть техническая возможность детально анализировать визуальную верстку страниц (рендеринг), определять размеры и положение элементов. В контексте данного патента этот анализ используется для прогнозирования популярности контента в рекомендательных системах.
Какие именно визуальные характеристики учитываются?
В патенте прямо упоминаются: положение элемента на целевой странице, размер элемента, относительный размер, наличие изображения или видео, а также шрифты. MLA обучается находить корреляции между этими характеристиками и вероятностью взаимодействия пользователя с контентом.
С каких страниц моего сайта берется контент для этого механизма?
Механизм фокусируется на «Целевых страницах», под которыми в патенте подразумеваются главные или домашние страницы ресурса. Считается, что именно на них владельцы сайтов размещают наиболее важный и популярный контент. Контент только с внутренних страниц в этом механизме не участвует.
Как я могу использовать этот патент для увеличения трафика из Дзена?
Если ваш сайт является источником для Дзена (и потенциально «надежным ресурсом»), вы можете оптимизировать главную страницу. Размещайте наиболее важный контент на самых визуально заметных позициях — выше на странице, в более крупных блоках и с качественными изображениями. Это повысит прогнозируемую оценку популярности и увеличит шансы на показ новым пользователям Дзена.
Применяется ли этот механизм ко всем пользователям Дзена?
Нет. Этот механизм применяется только к «Новым пользователям», у которых недостаточно истории взаимодействий для персонализации. Для «Старых пользователей» (с историей) используются стандартные алгоритмы персонализированных рекомендаций, основанные на их интересах и поведении.
Может ли система исключить мой контент из рекомендаций, даже если он визуально заметен?
Да. В патенте упоминается этап эвристического анализа для исключения контента из «черного списка». Если контент содержит жестокость, кровь или материалы сексуального характера, он может быть исключен из набора рекомендаций независимо от прогнозируемой оценки популярности.