Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего данные о поведении пользователей с характеристиками разнородного контента (текста и изображений). Система анализирует прошлую активность пользователя, векторизует ее, а затем совмещает с векторами текста и изображений. Это позволяет находить семантические связи между разными типами контента через призму пользовательских интересов и эффективно рекомендовать релевантный контент, включая новый.
Описание
Какую задачу решает
Патент решает задачу построения эффективной системы персонализации и рекомендаций, способной работать с разнородными типами контента (мультимодальность). Ключевые проблемы, которые устраняет изобретение: (1) Сложность сопоставления элементов разных типов (например, текста и изображений) в рамках единой модели интересов пользователя. (2) Проблема «холодного старта» для новых элементов контента, по которым еще не накоплена статистика взаимодействий.
Что запатентовано
Запатентован способ и система для создания общего многомерного векторного пространства, названного «пространство пользовательских элементов» (User Element Space). Суть изобретения заключается в методологии совместного обучения (co-embedding) векторов пользовательской активности, векторов текста и векторов изображений. Это позволяет системе понимать взаимосвязи между различными типами контента на основе того, как пользователи с ними взаимодействуют.
Как это работает
Система собирает данные о прошлой активности пользователя и характеристики контента (текстовые потоки и файлы изображений). Все эти данные векторизуются. Далее система выполняет ключевые шаги: (1) Создает первое пространство, отражающее связь между прошлой активностью и текстом. (2) Создает второе пространство, отражающее связь между прошлой активностью и изображениями. (3) Совмещает эти два пространства в единое «пространство пользовательских элементов». В этом пространстве элементы, с которыми пользователи взаимодействуют схожим образом (например, в рамках одной сессии), расположены близко друг к другу. Для генерации рекомендаций текущая активность пользователя также векторизуется и помещается в это пространство; ближайшие элементы предлагаются пользователю.
Актуальность для SEO
Высокая. Использование векторных представлений (эмбеддингов) для построения рекомендательных систем является стандартом индустрии. Мультимодальные модели, способные одновременно обрабатывать текст и изображения, и методы совместного обучения (co-embedding) находятся на переднем крае исследований в области ML и активно внедряются в продакшн-системы (например, в рекомендательных платформах типа Dzen).
Важность для SEO
Влияние на SEO значительно (7/10), но специфично. Этот патент не описывает традиционное ранжирование в веб-поиске по ключевым словам. Он описывает механизмы, лежащие в основе систем обнаружения контента (Content Discovery) и персонализированных рекомендаций (например, Dzen, ленты новостей). Для SEO-специалистов, стремящихся получать трафик из рекомендательных систем, понимание этого патента критически важно. Он показывает, что связь между текстом и изображениями устанавливается через поведение пользователей, и оптимизация должна быть комплексной (мультимодальной).
Детальный разбор
Термины и определения
- Показатели активности (Activity Indicators)
- Данные, характеризующие взаимодействие пользователя с сетевыми ресурсами. Включают прошлую активность (используемую для обучения модели) и текущую активность (используемую для генерации рекомендаций в реальном времени).
- Элемент (Element/Item)
- Единица контента, которая может быть представлена пользователю. Патент явно указывает, что элементы могут быть связаны с потоком текста или файлом изображения. Элементы могут быть как ранее показанными пользователю, так и новыми.
- Вектор характеристик (Feature Vector)
- Численное представление сущности в многомерном пространстве (эмбеддинг). В патенте используются векторы для предыдущей активности, текущей активности, текста и изображений.
- Пространство характеристик текста (Text Feature Space)
- Многомерное пространство, созданное путем совместного перенесения (отображения) векторов предыдущей активности и векторов текста. Отражает связь между поведением пользователей и текстовым контентом.
- Пространство характеристик изображения (Image Feature Space)
- Многомерное пространство, созданное путем совместного перенесения векторов предыдущей активности и векторов изображений. Отражает связь между поведением пользователей и визуальным контентом.
- Пространство пользовательских элементов (User Element Space)
- Ключевая сущность патента. Единое многомерное пространство, созданное путем совмещения Пространства характеристик текста и Пространства характеристик изображения. Оно отражает комплексную связь между показателями активности пользователя и всеми типами элементов.
- Сетевой ресурс (Network Resource)
- Веб-сайт, приложение или платформа, на которой фиксируется активность пользователя и размещаются элементы.
Ключевые утверждения (Анализ Claims)
Патент описывает два основных сценария: создание общего мультимодального пространства (Claim 1) и метод интеграции нового контента в существующее пространство (Claim 12).
Claim 1 (Независимый пункт): Описывает способ создания мультимодального пространства пользовательских элементов.
- Система получает доступ к данным о предыдущей активности пользователя и к данным об элементах (текст и изображения).
- Генерируются характеристики и соответствующие им векторы для: (i) предыдущей активности, (ii) текста, (iii) изображений.
- Создание текстового пространства: Вектор активности и вектор текста переносятся (отображаются) в первое многомерное пространство. Это пространство фиксирует связь между поведением и текстом.
- Создание пространства изображений: Вектор активности и вектор изображения переносятся во второе многомерное пространство. Это пространство фиксирует связь между поведением и изображениями.
- Совмещение (Мультимодальность): Пространство характеристик текста и пространство характеристик изображения совмещаются для создания единого пространства пользовательских элементов. Это ключевой шаг, позволяющий сопоставлять текст и изображения через общие паттерны пользовательской активности.
- Пространство сохраняется для дальнейшего использования.
Claims 2, 3, 8, 9 (Зависимые пункты): Описывают применение созданного пространства для генерации рекомендаций.
- Система получает показатели текущей активности пользователя.
- Текущая активность векторизуется.
- Вектор текущей активности переносится в пространство пользовательских элементов (или в третье пространство вместе с ним).
- Определяется элемент, который будет связан с пользователем (рекомендован).
- Механизм определения основан на анализе расстояния между вектором текущей активности и элементами в этом пространстве. Ближайшие элементы являются наиболее релевантными текущему контексту пользователя.
Claims 6, 7 (Зависимые пункты): Уточняют семантику расстояния в созданных пространствах.
Расстояние между двумя элементами в пространстве отражает то, были ли эти элементы представлены пользователю в течение одного сеанса просмотра, или отражает число сеансов, разделяющих их представление. Это указывает на то, что модель учитывает временную и контекстную близость взаимодействий (co-occurrence и последовательности) при обучении.
Claim 12 (Независимый пункт): Описывает способ связывания первого (известного) и второго (нового) элементов, решая проблему «холодного старта».
- Система имеет доступ к данным о предыдущей активности, первому элементу (ранее показанному пользователю) и второму элементу (ранее не показанному).
- Создается пространство элементов, отражающее связь между активностью и первым элементом.
- Интеграция нового элемента: Второй элемент переносится в это пространство на основе анализа данных, связанных с первым элементом, и данных, связанных со вторым элементом. Это означает, что новый контент позиционируется в пространстве на основе его сходства (вероятно, контентного или тематического) с уже известным контентом и связанными с ним паттернами поведения.
Где и как применяется
Изобретение не является частью классического конвейера веб-поиска (Crawling-Indexing-Ranking). Оно относится к инфраструктуре систем персонализации и рекомендаций.
Системы рекомендаций (например, Dzen)
Это основная область применения патента. Алгоритм используется для формирования персонализированной ленты контента без явного запроса пользователя (Content Discovery).
- Офлайн-процессы: Основная работа по созданию пространства пользовательских элементов происходит офлайн. Система анализирует логи поведения пользователей (показатели активности) и контент (текст, изображения), обучая модели для генерации векторов и их совмещения в общем пространстве.
- Онлайн-процессы (Генерация рекомендаций): Когда пользователь взаимодействует с платформой, система фиксирует показатели текущей активности. Эти данные векторизуются в реальном времени и используются для запроса к пространству пользовательских элементов (поиск ближайших соседей).
RANKING – Ранжирование (L4 — Personalization)
В контексте веб-поиска этот механизм может использоваться на финальных этапах ранжирования для глубокой персонализации выдачи или для формирования персонализированных блоков (виджетов) на SERP.
Входные данные: Логи предыдущей активности пользователей, сессии просмотра, текстовые потоки, файлы изображений.
Выходные данные: Сохраненное пространство пользовательских элементов; список рекомендованных элементов в ответ на текущую активность пользователя.
На что влияет
- Типы контента: Напрямую влияет на ранжирование и видимость текстовых материалов (статьи, новости) и изображений (галереи, карточки товаров) в рекомендательных системах. Патент закладывает основу для работы с мультимодальным контентом.
- Обнаружение контента (Content Discovery): Влияет на то, как новый контент находит свою аудиторию. Благодаря механизму из Claim 12, новый контент может быть рекомендован пользователям, интересующимся похожим известным контентом.
- Персонализация: Определяет точность понимания интересов пользователя на основе его поведения.
Когда применяется
- Триггеры активации (Онлайн): Любое действие пользователя на сетевом ресурсе, которое генерирует показатели текущей активности (например, просмотр статьи, лайк, скроллинг ленты). Это запускает процесс генерации рекомендаций.
- Частота применения (Офлайн): Модель (пространство пользовательских элементов) периодически пересчитывается и обновляется для учета новой активности и нового контента.
Пошаговый алгоритм
Процесс А: Офлайн-построение Пространства Пользовательских Элементов
- Сбор данных: Получение доступа к логам предыдущей активности пользователей и базе элементов (тексты и изображения).
- Извлечение характеристик и Векторизация:
- Создание характеристик и векторов предыдущей активности (Activity Vectors).
- Создание характеристик и векторов текста (Text Vectors).
- Создание характеристик и векторов изображений (Image Vectors).
- Построение модально-специфичных пространств (Co-embedding):
- Перенесение Activity Vectors и Text Vectors в первое многомерное пространство (Пространство характеристик текста). Обучение модели таким образом, чтобы векторы активности и тексты, с которыми происходило взаимодействие (особенно в рамках одной сессии, Claims 6, 7), находились близко.
- Перенесение Activity Vectors и Image Vectors во второе многомерное пространство (Пространство характеристик изображения). Аналогичное обучение для связи активности и изображений.
- Совмещение пространств (Мультимодальная интеграция): Совмещение Пространства характеристик текста и Пространства характеристик изображения для создания единого Пространства пользовательских элементов. Этот шаг обеспечивает связь между текстом и изображениями через общие паттерны активности.
- Интеграция нового контента (Обработка холодного старта): Перенесение новых элементов (ранее не показанных) в созданное пространство на основе их сходства с уже размещенными элементами (согласно Claim 12).
- Сохранение: Сохранение финального Пространства пользовательских элементов на носителе.
Процесс Б: Онлайн-генерация рекомендаций
- Получение контекста: Фиксация показателей текущей активности пользователя на сетевом ресурсе.
- Векторизация контекста: Создание вектора характеристик текущей активности (Current Activity Vector).
- Поиск релевантных элементов: Перенесение Current Activity Vector в сохраненное Пространство пользовательских элементов и выполнение поиска ближайших соседей (Nearest Neighbors Search).
- Ранжирование и Выдача: Определение элементов на основе расстояния до Current Activity Vector. Инициирование отображения выбранных элементов (текста или изображения) на устройстве пользователя.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (Показатели активности): Данные о предыдущей и текущей активности пользователя. Claims 6 и 7 явно упоминают сеансы просмотра сетевого ресурса (browsing sessions). Это подразумевает использование данных о последовательности просмотров элементов, времени взаимодействия, совместной встречаемости элементов в рамках сессии.
- Контентные факторы (Поток текста): Текстовое содержание элементов. Используется для создания характеристик и векторов текста.
- Мультимедиа факторы (Файл изображения): Визуальное содержание элементов. Используется для создания характеристик и векторов изображения.
Какие метрики используются и как они считаются
- Векторы характеристик (Эмбеддинги): Система генерирует численные представления для активности, текста и изображений. Методы генерации в патенте не раскрыты, но они являются основой для построения пространств.
- Многомерные пространства (Multidimensional Spaces): Ключевая метрика системы. Положение вектора в пространстве определяется в процессе обучения (перенесения/отображения).
- Расстояние (Distance): Используется для определения релевантности в реальном времени. Расстояние между вектором текущей активности и элементом определяет вероятность рекомендации (Claims 8, 9). Также расстояние между элементами несет семантическую нагрузку, связанную с сессиями просмотра (Claims 6, 7). Метрика расстояния (например, косинусная близость, евклидово расстояние) не указана.
Выводы
- Мультимодальность как основа рекомендаций: Яндекс разработал систему, которая объединяет понимание текста и изображений в едином векторном пространстве. Это позволяет системе находить связи между разнородным контентом.
- Поведение пользователя — связующее звено: Ключевая особенность патента в том, что объединение текста и изображений происходит не только на основе их содержания, но и через призму пользовательской активности. Показатели активности являются общим знаменателем для разных модальностей.
- Совместное обучение (Co-embedding): Запатентованная методология включает создание отдельных пространств для «активность-текст» и «активность-изображение» с последующим их совмещением.
- Важность контекста и сессий: Система явно учитывает контекст сессии. Элементы, просмотренные в рамках одной сессии или последовательно, будут расположены ближе в векторном пространстве (Claims 6, 7).
- Решение проблемы «холодного старта»: Патент предлагает механизм для интеграции нового контента в существующее рекомендательное пространство на основе его сходства с уже известным контентом (Claim 12).
- Фокус на Content Discovery: Этот патент наиболее релевантен для систем обнаружения контента (Dzen) и персонализированных лент, а не для традиционного веб-поиска.
Практика
Best practices (это мы делаем)
Эти рекомендации особенно актуальны для продвижения в рекомендательных системах типа Dzen или получения трафика через персонализированные виджеты Яндекса.
- Комплексная оптимизация текста и изображений: Поскольку текст и изображения попадают в единое пространство пользовательских элементов, необходимо уделять равное внимание качеству и релевантности обоих типов контента. Изображения должны семантически соответствовать тексту и быть привлекательными.
- Стимулирование длительных и тематических сессий: Так как расстояние в векторном пространстве связано с сессиями просмотра (Claims 6, 7), важно удерживать пользователя на ресурсе и предлагать ему связанный контент (перелинковка, блоки «Читать далее»). Чем чаще ваши материалы потребляются в рамках одной тематической сессии, тем сильнее будет их связь в модели Яндекса.
- Работа над позитивными поведенческими сигналами: Показатели активности являются ядром системы. Необходимо максимизировать вовлеченность (дочитывания, время взаимодействия, лайки в рекомендательных системах). Это формирует паттерны поведения, которые система использует для обучения.
- Создание серийного контента: Публикация материалов, объединенных общей темой или сюжетом, стимулирует пользователей потреблять их последовательно, что укрепит позиции этого контента в пространстве пользовательских элементов.
Worst practices (это делать не надо)
- Использование нерелевантных изображений: Использование стоковых или не связанных с темой изображений может привести к некорректному позиционированию элемента в мультимодальном пространстве, так как система не сможет установить четкую связь между текстом и картинкой через поведение пользователей.
- Кликбейт и обман ожиданий: Контент, который генерирует клики, но не обеспечивает вовлеченности (короткие сессии, быстрые отказы), формирует негативные показатели активности. Это приведет к тому, что система не будет ассоциировать этот контент с долгосрочными интересами пользователей.
- Публикация разрозненного контента: Если ресурс публикует материалы на совершенно не связанные темы, системе будет сложнее определить его тематический профиль и найти устойчивые паттерны активности пользователей, что затруднит рекомендации.
Стратегическое значение
Патент подтверждает глобальный тренд на развитие систем обнаружения контента (Content Discovery) и глубокую персонализацию, основанную на машинном обучении и векторных представлениях. Для Яндекса это стратегическое направление (развитие Dzen, персонализированных лент). SEO-стратегия должна учитывать эти каналы трафика. Патент подчеркивает, что в мультимодальном мире поведение пользователя является ключевым фактором, определяющим семантическую близость контента, даже если он разных типов.
Практические примеры
Сценарий 1: Мультимодальная рекомендация
- Обучение (Офлайн): Система анализирует логи и обнаруживает, что пользователи, которые читают статьи про «цифровую живопись» (Текст 1), часто затем просматривают галереи работ в стиле «киберпанк» (Изображение 1).
- Создание пространства: В пространстве пользовательских элементов Текст 1 и Изображение 1 располагаются близко друг к другу, так как связаны общим паттерном активности.
- Рекомендация (Онлайн): Новый пользователь читает статью про «инструменты для digital art» (Текущая активность).
- Действие системы: Вектор текущей активности оказывается близок к области, где расположены Текст 1 и Изображение 1.
- Результат: Система рекомендует пользователю галерею работ в стиле «киберпанк» (Изображение 1), хотя он искал информацию об инструментах.
Сценарий 2: Рекомендация нового контента (Холодный старт)
- Существующий контент: В системе есть популярная статья про «Уход за Монстерой» (Элемент 1), которая уже размещена в пространстве и связана с определенными паттернами активности.
- Новый контент: На ресурсе публикуется новая статья «Пересадка Замиокулькаса» (Элемент 2). Статистики по ней нет.
- Действие системы (Claim 12): Система анализирует данные Элемента 1 и Элемента 2 (например, текстовую или тематическую близость) и переносит Элемент 2 в пространство рядом с Элементом 1.
- Результат: Пользователи, чья активность близка к Элементу 1 (интересующиеся уходом за Монстерой), начнут видеть рекомендации новой статьи про Замиокулькас, что обеспечивает быстрый старт для нового материала.
Вопросы и ответы
Что такое «Пространство пользовательских элементов»?
Это единое многомерное векторное пространство (эмбеддинг), в котором представлены как пользователи (через их активность), так и элементы контента (тексты и изображения). Особенность этого пространства в том, что оно создается путем совмещения данных из разных источников. В нем элементы, которыми интересуются одни и те же пользователи или которые потребляются в рамках одной сессии, расположены близко друг к другу.
Этот патент описывает работу поиска Яндекса или рекомендательных систем (Dzen)?
Этот патент в первую очередь описывает механизмы работы персонализированных рекомендательных систем, таких как Dzen или ленты новостей. Он фокусируется на предложении контента на основе истории и текущей активности пользователя, а не на ранжировании документов в ответ на явный текстовый запрос. Однако эти технологии могут использоваться и в основном поиске на этапе глубокой персонализации (L4 Ranking).
Что означает мультимодальность в контексте этого патента?
Мультимодальность означает способность системы обрабатывать и связывать информацию разных типов (модальностей). В данном патенте это конкретно текст и изображения. Система учится понимать, как текстовая статья может быть связана с определенным изображением, и наоборот, через анализ того, как пользователи взаимодействуют с обоими типами контента.
Как система связывает текст и изображения, если они совершенно разные по структуре?
Ключевым связующим звеном выступают показатели активности пользователя. Система создает отдельные пространства для связи «активность-текст» и «активность-изображение», а затем совмещает их. Если пользователи часто переходят от определенного текста к определенному изображению (или наоборот), система фиксирует эту связь через общие паттерны активности, и эти элементы окажутся близко в финальном пространстве.
Как этот патент помогает бороться с «холодным стартом» нового контента?
Патент (Claim 12) описывает механизм интеграции нового элемента (ранее не показанного) в существующее пространство. Новый элемент размещается в пространстве на основе анализа его сходства с уже известными элементами, по которым есть статистика. Это позволяет сразу начать рекомендовать новый контент пользователям, которые интересовались похожими материалами.
Что важнее для этой системы: качество контента или поведение пользователей?
Оба аспекта критически важны и взаимозависимы. Характеристики контента (текста и изображений) используются для его векторизации. Однако именно поведение пользователей (показатели активности, сессии просмотра) определяет, как эти векторы будут расположены относительно друг друга в финальном пространстве. Без позитивного поведения даже самый качественный контент не будет эффективно рекомендоваться.
Как SEO-специалист может использовать информацию о сессиях просмотра (Claims 6, 7)?
Claims 6 и 7 указывают, что близость элементов в пространстве зависит от того, как часто они просматриваются в рамках одной сессии. SEO-специалисту следует оптимизировать структуру сайта и перелинковку так, чтобы стимулировать пользователя к изучению связанных материалов в рамках одного визита. Это укрепляет тематическую связь между страницами в модели Яндекса.
Нужно ли мне оптимизировать изображения для этого алгоритма?
Да, абсолютно. Изображения являются полноправными участниками пространства пользовательских элементов. Качественные, релевантные и привлекательные изображения генерируют позитивные сигналы активности и способствуют лучшему позиционированию связанного с ними контента в рекомендательных системах.
Что такое «показатели текущей активности»?
Это данные о действиях пользователя в реальном времени, которые служат контекстом для генерации следующей порции рекомендаций. Это может быть просмотр конкретного элемента, лайк, подписка, время, проведенное на странице. Эти данные векторизуются и используются для поиска релевантного контента в общем пространстве.
Может ли этот алгоритм рекомендовать текст на основе просмотренного изображения?
Да, именно это и является одной из целей создания единого пространства пользовательских элементов. Если система обучена, что определенные изображения коррелируют с определенными текстами через поведение пользователей, она сможет рекомендовать текст пользователю, который в данный момент просматривает похожее изображение.