Как Яндекс создает единое векторное пространство для текста и изображений на основе поведения пользователей (для персонализации и рекомендаций)

Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего данные о поведении пользователей с характеристиками разнородного контента (текста и изображений). Система анализирует прошлую активность пользователя, векторизует ее, а затем совмещает с векторами текста и изображений. Это позволяет находить семантические связи между разными типами контента через призму пользовательских интересов и эффективно рекомендовать релевантный контент, включая новый.

Описание

Какую задачу решает

Патент решает задачу построения эффективной системы персонализации и рекомендаций, способной работать с разнородными типами контента (мультимодальность). Ключевые проблемы, которые устраняет изобретение: (1) Сложность сопоставления элементов разных типов (например, текста и изображений) в рамках единой модели интересов пользователя. (2) Проблема «холодного старта» для новых элементов контента, по которым еще не накоплена статистика взаимодействий.

Что запатентовано

Запатентован способ и система для создания общего многомерного векторного пространства, названного «пространство пользовательских элементов» (User Element Space). Суть изобретения заключается в методологии совместного обучения (co-embedding) векторов пользовательской активности, векторов текста и векторов изображений. Это позволяет системе понимать взаимосвязи между различными типами контента на основе того, как пользователи с ними взаимодействуют.

Как это работает

Система собирает данные о прошлой активности пользователя и характеристики контента (текстовые потоки и файлы изображений). Все эти данные векторизуются. Далее система выполняет ключевые шаги: (1) Создает первое пространство, отражающее связь между прошлой активностью и текстом. (2) Создает второе пространство, отражающее связь между прошлой активностью и изображениями. (3) Совмещает эти два пространства в единое «пространство пользовательских элементов». В этом пространстве элементы, с которыми пользователи взаимодействуют схожим образом (например, в рамках одной сессии), расположены близко друг к другу. Для генерации рекомендаций текущая активность пользователя также векторизуется и помещается в это пространство; ближайшие элементы предлагаются пользователю.

Актуальность для SEO

Высокая. Использование векторных представлений (эмбеддингов) для построения рекомендательных систем является стандартом индустрии. Мультимодальные модели, способные одновременно обрабатывать текст и изображения, и методы совместного обучения (co-embedding) находятся на переднем крае исследований в области ML и активно внедряются в продакшн-системы (например, в рекомендательных платформах типа Dzen).

Важность для SEO

Влияние на SEO значительно (7/10), но специфично. Этот патент не описывает традиционное ранжирование в веб-поиске по ключевым словам. Он описывает механизмы, лежащие в основе систем обнаружения контента (Content Discovery) и персонализированных рекомендаций (например, Dzen, ленты новостей). Для SEO-специалистов, стремящихся получать трафик из рекомендательных систем, понимание этого патента критически важно. Он показывает, что связь между текстом и изображениями устанавливается через поведение пользователей, и оптимизация должна быть комплексной (мультимодальной).

Детальный разбор

Термины и определения

Показатели активности (Activity Indicators): Данные, характеризующие взаимодействие пользователя с сетевыми ресурсами. Включают прошлую активность (используемую для обучения модели) и текущую активность (используемую для генерации рекомендаций в реальном времени).
Элемент (Element/Item): Единица контента, которая может быть представлена пользователю. Патент явно указывает, что элементы могут быть связаны с потоком текста или файлом изображения. Элементы могут быть как ранее показанными пользователю, так и новыми.
Вектор характеристик (Feature Vector): Численное представление сущности в многомерном пространстве (эмбеддинг). В патенте используются векторы для предыдущей активности, текущей активности, текста и изображений.
Пространство характеристик текста (Text Feature Space): Многомерное пространство, созданное путем совместного перенесения (отображения) векторов предыдущей активности и векторов текста. Отражает связь между поведением пользователей и текстовым контентом.
Пространство характеристик изображения (Image Feature Space): Многомерное пространство, созданное путем совместного перенесения векторов предыдущей активности и векторов изображений. Отражает связь между поведением пользователей и визуальным контентом.
Пространство пользовательских элементов (User Element Space): Ключевая сущность патента. Единое многомерное пространство, созданное путем совмещения Пространства характеристик текста и Пространства характеристик изображения. Оно отражает комплексную связь между показателями активности пользователя и всеми типами элементов.
Сетевой ресурс (Network Resource): Веб-сайт, приложение или платформа, на которой фиксируется активность пользователя и размещаются элементы.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных сценария: создание общего мультимодального пространства (Claim 1) и метод интеграции нового контента в существующее пространство (Claim 12).

Claim 1 (Независимый пункт): Описывает способ создания мультимодального пространства пользовательских элементов.

Система получает доступ к данным о предыдущей активности пользователя и к данным об элементах (текст и изображения).
Генерируются характеристики и соответствующие им векторы для: (i) предыдущей активности, (ii) текста, (iii) изображений.
Создание текстового пространства: Вектор активности и вектор текста переносятся (отображаются) в первое многомерное пространство. Это пространство фиксирует связь между поведением и текстом.
Создание пространства изображений: Вектор активности и вектор изображения переносятся во второе многомерное пространство. Это пространство фиксирует связь между поведением и изображениями.
Совмещение (Мультимодальность): Пространство характеристик текста и пространство характеристик изображения совмещаются для создания единого пространства пользовательских элементов. Это ключевой шаг, позволяющий сопоставлять текст и изображения через общие паттерны пользовательской активности.
Пространство сохраняется для дальнейшего использования.

Claims 2, 3, 8, 9 (Зависимые пункты): Описывают применение созданного пространства для генерации рекомендаций.

Система получает показатели текущей активности пользователя.
Текущая активность векторизуется.
Вектор текущей активности переносится в пространство пользовательских элементов (или в третье пространство вместе с ним).
Определяется элемент, который будет связан с пользователем (рекомендован).
Механизм определения основан на анализе расстояния между вектором текущей активности и элементами в этом пространстве. Ближайшие элементы являются наиболее релевантными текущему контексту пользователя.

Claims 6, 7 (Зависимые пункты): Уточняют семантику расстояния в созданных пространствах.

Расстояние между двумя элементами в пространстве отражает то, были ли эти элементы представлены пользователю в течение одного сеанса просмотра, или отражает число сеансов, разделяющих их представление. Это указывает на то, что модель учитывает временную и контекстную близость взаимодействий (co-occurrence и последовательности) при обучении.

Claim 12 (Независимый пункт): Описывает способ связывания первого (известного) и второго (нового) элементов, решая проблему «холодного старта».

Система имеет доступ к данным о предыдущей активности, первому элементу (ранее показанному пользователю) и второму элементу (ранее не показанному).
Создается пространство элементов, отражающее связь между активностью и первым элементом.
Интеграция нового элемента: Второй элемент переносится в это пространство на основе анализа данных, связанных с первым элементом, и данных, связанных со вторым элементом. Это означает, что новый контент позиционируется в пространстве на основе его сходства (вероятно, контентного или тематического) с уже известным контентом и связанными с ним паттернами поведения.

Где и как применяется

Изобретение не является частью классического конвейера веб-поиска (Crawling-Indexing-Ranking). Оно относится к инфраструктуре систем персонализации и рекомендаций.

Системы рекомендаций (например, Dzen)
Это основная область применения патента. Алгоритм используется для формирования персонализированной ленты контента без явного запроса пользователя (Content Discovery).

Офлайн-процессы: Основная работа по созданию пространства пользовательских элементов происходит офлайн. Система анализирует логи поведения пользователей (показатели активности) и контент (текст, изображения), обучая модели для генерации векторов и их совмещения в общем пространстве.
Онлайн-процессы (Генерация рекомендаций): Когда пользователь взаимодействует с платформой, система фиксирует показатели текущей активности. Эти данные векторизуются в реальном времени и используются для запроса к пространству пользовательских элементов (поиск ближайших соседей).

RANKING – Ранжирование (L4 — Personalization)
В контексте веб-поиска этот механизм может использоваться на финальных этапах ранжирования для глубокой персонализации выдачи или для формирования персонализированных блоков (виджетов) на SERP.

Входные данные: Логи предыдущей активности пользователей, сессии просмотра, текстовые потоки, файлы изображений.

Выходные данные: Сохраненное пространство пользовательских элементов; список рекомендованных элементов в ответ на текущую активность пользователя.

На что влияет

Типы контента: Напрямую влияет на ранжирование и видимость текстовых материалов (статьи, новости) и изображений (галереи, карточки товаров) в рекомендательных системах. Патент закладывает основу для работы с мультимодальным контентом.
Обнаружение контента (Content Discovery): Влияет на то, как новый контент находит свою аудиторию. Благодаря механизму из Claim 12, новый контент может быть рекомендован пользователям, интересующимся похожим известным контентом.
Персонализация: Определяет точность понимания интересов пользователя на основе его поведения.

Когда применяется

Триггеры активации (Онлайн): Любое действие пользователя на сетевом ресурсе, которое генерирует показатели текущей активности (например, просмотр статьи, лайк, скроллинг ленты). Это запускает процесс генерации рекомендаций.
Частота применения (Офлайн): Модель (пространство пользовательских элементов) периодически пересчитывается и обновляется для учета новой активности и нового контента.

Пошаговый алгоритм

Процесс А: Офлайн-построение Пространства Пользовательских Элементов

Сбор данных: Получение доступа к логам предыдущей активности пользователей и базе элементов (тексты и изображения).
Извлечение характеристик и Векторизация:
1. Создание характеристик и векторов предыдущей активности (Activity Vectors).
2. Создание характеристик и векторов текста (Text Vectors).
3. Создание характеристик и векторов изображений (Image Vectors).
Построение модально-специфичных пространств (Co-embedding):
1. Перенесение Activity Vectors и Text Vectors в первое многомерное пространство (Пространство характеристик текста). Обучение модели таким образом, чтобы векторы активности и тексты, с которыми происходило взаимодействие (особенно в рамках одной сессии, Claims 6, 7), находились близко.
2. Перенесение Activity Vectors и Image Vectors во второе многомерное пространство (Пространство характеристик изображения). Аналогичное обучение для связи активности и изображений.
Совмещение пространств (Мультимодальная интеграция): Совмещение Пространства характеристик текста и Пространства характеристик изображения для создания единого Пространства пользовательских элементов. Этот шаг обеспечивает связь между текстом и изображениями через общие паттерны активности.
Интеграция нового контента (Обработка холодного старта): Перенесение новых элементов (ранее не показанных) в созданное пространство на основе их сходства с уже размещенными элементами (согласно Claim 12).
Сохранение: Сохранение финального Пространства пользовательских элементов на носителе.

Процесс Б: Онлайн-генерация рекомендаций

Получение контекста: Фиксация показателей текущей активности пользователя на сетевом ресурсе.
Векторизация контекста: Создание вектора характеристик текущей активности (Current Activity Vector).
Поиск релевантных элементов: Перенесение Current Activity Vector в сохраненное Пространство пользовательских элементов и выполнение поиска ближайших соседей (Nearest Neighbors Search).
Ранжирование и Выдача: Определение элементов на основе расстояния до Current Activity Vector. Инициирование отображения выбранных элементов (текста или изображения) на устройстве пользователя.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Показатели активности): Данные о предыдущей и текущей активности пользователя. Claims 6 и 7 явно упоминают сеансы просмотра сетевого ресурса (browsing sessions). Это подразумевает использование данных о последовательности просмотров элементов, времени взаимодействия, совместной встречаемости элементов в рамках сессии.
Контентные факторы (Поток текста): Текстовое содержание элементов. Используется для создания характеристик и векторов текста.
Мультимедиа факторы (Файл изображения): Визуальное содержание элементов. Используется для создания характеристик и векторов изображения.

Какие метрики используются и как они считаются

Векторы характеристик (Эмбеддинги): Система генерирует численные представления для активности, текста и изображений. Методы генерации в патенте не раскрыты, но они являются основой для построения пространств.
Многомерные пространства (Multidimensional Spaces): Ключевая метрика системы. Положение вектора в пространстве определяется в процессе обучения (перенесения/отображения).
Расстояние (Distance): Используется для определения релевантности в реальном времени. Расстояние между вектором текущей активности и элементом определяет вероятность рекомендации (Claims 8, 9). Также расстояние между элементами несет семантическую нагрузку, связанную с сессиями просмотра (Claims 6, 7). Метрика расстояния (например, косинусная близость, евклидово расстояние) не указана.

Выводы

Мультимодальность как основа рекомендаций: Яндекс разработал систему, которая объединяет понимание текста и изображений в едином векторном пространстве. Это позволяет системе находить связи между разнородным контентом.
Поведение пользователя — связующее звено: Ключевая особенность патента в том, что объединение текста и изображений происходит не только на основе их содержания, но и через призму пользовательской активности. Показатели активности являются общим знаменателем для разных модальностей.
Совместное обучение (Co-embedding): Запатентованная методология включает создание отдельных пространств для «активность-текст» и «активность-изображение» с последующим их совмещением.
Важность контекста и сессий: Система явно учитывает контекст сессии. Элементы, просмотренные в рамках одной сессии или последовательно, будут расположены ближе в векторном пространстве (Claims 6, 7).
Решение проблемы «холодного старта»: Патент предлагает механизм для интеграции нового контента в существующее рекомендательное пространство на основе его сходства с уже известным контентом (Claim 12).
Фокус на Content Discovery: Этот патент наиболее релевантен для систем обнаружения контента (Dzen) и персонализированных лент, а не для традиционного веб-поиска.

Практика

Best practices (это мы делаем)

Эти рекомендации особенно актуальны для продвижения в рекомендательных системах типа Dzen или получения трафика через персонализированные виджеты Яндекса.

Комплексная оптимизация текста и изображений: Поскольку текст и изображения попадают в единое пространство пользовательских элементов, необходимо уделять равное внимание качеству и релевантности обоих типов контента. Изображения должны семантически соответствовать тексту и быть привлекательными.
Стимулирование длительных и тематических сессий: Так как расстояние в векторном пространстве связано с сессиями просмотра (Claims 6, 7), важно удерживать пользователя на ресурсе и предлагать ему связанный контент (перелинковка, блоки «Читать далее»). Чем чаще ваши материалы потребляются в рамках одной тематической сессии, тем сильнее будет их связь в модели Яндекса.
Работа над позитивными поведенческими сигналами: Показатели активности являются ядром системы. Необходимо максимизировать вовлеченность (дочитывания, время взаимодействия, лайки в рекомендательных системах). Это формирует паттерны поведения, которые система использует для обучения.
Создание серийного контента: Публикация материалов, объединенных общей темой или сюжетом, стимулирует пользователей потреблять их последовательно, что укрепит позиции этого контента в пространстве пользовательских элементов.

Worst practices (это делать не надо)

Использование нерелевантных изображений: Использование стоковых или не связанных с темой изображений может привести к некорректному позиционированию элемента в мультимодальном пространстве, так как система не сможет установить четкую связь между текстом и картинкой через поведение пользователей.
Кликбейт и обман ожиданий: Контент, который генерирует клики, но не обеспечивает вовлеченности (короткие сессии, быстрые отказы), формирует негативные показатели активности. Это приведет к тому, что система не будет ассоциировать этот контент с долгосрочными интересами пользователей.
Публикация разрозненного контента: Если ресурс публикует материалы на совершенно не связанные темы, системе будет сложнее определить его тематический профиль и найти устойчивые паттерны активности пользователей, что затруднит рекомендации.

Стратегическое значение

Патент подтверждает глобальный тренд на развитие систем обнаружения контента (Content Discovery) и глубокую персонализацию, основанную на машинном обучении и векторных представлениях. Для Яндекса это стратегическое направление (развитие Dzen, персонализированных лент). SEO-стратегия должна учитывать эти каналы трафика. Патент подчеркивает, что в мультимодальном мире поведение пользователя является ключевым фактором, определяющим семантическую близость контента, даже если он разных типов.

Практические примеры

Сценарий 1: Мультимодальная рекомендация

Обучение (Офлайн): Система анализирует логи и обнаруживает, что пользователи, которые читают статьи про «цифровую живопись» (Текст 1), часто затем просматривают галереи работ в стиле «киберпанк» (Изображение 1).
Создание пространства: В пространстве пользовательских элементов Текст 1 и Изображение 1 располагаются близко друг к другу, так как связаны общим паттерном активности.
Рекомендация (Онлайн): Новый пользователь читает статью про «инструменты для digital art» (Текущая активность).
Действие системы: Вектор текущей активности оказывается близок к области, где расположены Текст 1 и Изображение 1.
Результат: Система рекомендует пользователю галерею работ в стиле «киберпанк» (Изображение 1), хотя он искал информацию об инструментах.

Сценарий 2: Рекомендация нового контента (Холодный старт)

Существующий контент: В системе есть популярная статья про «Уход за Монстерой» (Элемент 1), которая уже размещена в пространстве и связана с определенными паттернами активности.
Новый контент: На ресурсе публикуется новая статья «Пересадка Замиокулькаса» (Элемент 2). Статистики по ней нет.
Действие системы (Claim 12): Система анализирует данные Элемента 1 и Элемента 2 (например, текстовую или тематическую близость) и переносит Элемент 2 в пространство рядом с Элементом 1.
Результат: Пользователи, чья активность близка к Элементу 1 (интересующиеся уходом за Монстерой), начнут видеть рекомендации новой статьи про Замиокулькас, что обеспечивает быстрый старт для нового материала.

Вопросы и ответы

Что такое «Пространство пользовательских элементов»?

Это единое многомерное векторное пространство (эмбеддинг), в котором представлены как пользователи (через их активность), так и элементы контента (тексты и изображения). Особенность этого пространства в том, что оно создается путем совмещения данных из разных источников. В нем элементы, которыми интересуются одни и те же пользователи или которые потребляются в рамках одной сессии, расположены близко друг к другу.

Этот патент описывает работу поиска Яндекса или рекомендательных систем (Dzen)?

Этот патент в первую очередь описывает механизмы работы персонализированных рекомендательных систем, таких как Dzen или ленты новостей. Он фокусируется на предложении контента на основе истории и текущей активности пользователя, а не на ранжировании документов в ответ на явный текстовый запрос. Однако эти технологии могут использоваться и в основном поиске на этапе глубокой персонализации (L4 Ranking).

Что означает мультимодальность в контексте этого патента?

Мультимодальность означает способность системы обрабатывать и связывать информацию разных типов (модальностей). В данном патенте это конкретно текст и изображения. Система учится понимать, как текстовая статья может быть связана с определенным изображением, и наоборот, через анализ того, как пользователи взаимодействуют с обоими типами контента.

Как система связывает текст и изображения, если они совершенно разные по структуре?

Ключевым связующим звеном выступают показатели активности пользователя. Система создает отдельные пространства для связи «активность-текст» и «активность-изображение», а затем совмещает их. Если пользователи часто переходят от определенного текста к определенному изображению (или наоборот), система фиксирует эту связь через общие паттерны активности, и эти элементы окажутся близко в финальном пространстве.

Как этот патент помогает бороться с «холодным стартом» нового контента?

Патент (Claim 12) описывает механизм интеграции нового элемента (ранее не показанного) в существующее пространство. Новый элемент размещается в пространстве на основе анализа его сходства с уже известными элементами, по которым есть статистика. Это позволяет сразу начать рекомендовать новый контент пользователям, которые интересовались похожими материалами.

Что важнее для этой системы: качество контента или поведение пользователей?

Оба аспекта критически важны и взаимозависимы. Характеристики контента (текста и изображений) используются для его векторизации. Однако именно поведение пользователей (показатели активности, сессии просмотра) определяет, как эти векторы будут расположены относительно друг друга в финальном пространстве. Без позитивного поведения даже самый качественный контент не будет эффективно рекомендоваться.

Как SEO-специалист может использовать информацию о сессиях просмотра (Claims 6, 7)?

Claims 6 и 7 указывают, что близость элементов в пространстве зависит от того, как часто они просматриваются в рамках одной сессии. SEO-специалисту следует оптимизировать структуру сайта и перелинковку так, чтобы стимулировать пользователя к изучению связанных материалов в рамках одного визита. Это укрепляет тематическую связь между страницами в модели Яндекса.

Нужно ли мне оптимизировать изображения для этого алгоритма?

Да, абсолютно. Изображения являются полноправными участниками пространства пользовательских элементов. Качественные, релевантные и привлекательные изображения генерируют позитивные сигналы активности и способствуют лучшему позиционированию связанного с ними контента в рекомендательных системах.

Что такое «показатели текущей активности»?

Это данные о действиях пользователя в реальном времени, которые служат контекстом для генерации следующей порции рекомендаций. Это может быть просмотр конкретного элемента, лайк, подписка, время, проведенное на странице. Эти данные векторизуются и используются для поиска релевантного контента в общем пространстве.

Может ли этот алгоритм рекомендовать текст на основе просмотренного изображения?

Да, именно это и является одной из целей создания единого пространства пользовательских элементов. Если система обучена, что определенные изображения коррелируют с определенными текстами через поведение пользователей, она сможет рекомендовать текст пользователю, который в данный момент просматривает похожее изображение.