Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс создает единое векторное пространство для текста и изображений на основе поведения пользователей (для персонализации и рекомендаций)

    METHOD AND SYSTEM FOR PROCESSING ACTIVITY INDICATORS RELATED TO A USER, METHOD AND SYSTEM FOR LINKING A FIRST ELEMENT AND A SECOND ELEMENT (Способ и система для обработки показателей активности, связанных с пользователем, способ и система связывания первого элемента и второго элемента)
    • RU2018132052A
    • Yandex LLC
    • 2020-03-10
    • 2018-09-07
    2020 Обучение моделей Патенты Яндекс Рекомендательные системы Холодный старт

    Яндекс патентует метод создания общего многомерного пространства (эмбеддинга), объединяющего данные о поведении пользователей с характеристиками разнородного контента (текста и изображений). Система анализирует прошлую активность пользователя, векторизует ее, а затем совмещает с векторами текста и изображений. Это позволяет находить семантические связи между разными типами контента через призму пользовательских интересов и эффективно рекомендовать релевантный контент, включая новый.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу построения эффективной системы персонализации и рекомендаций, способной работать с разнородными типами контента (мультимодальность). Ключевые проблемы, которые устраняет изобретение: (1) Сложность сопоставления элементов разных типов (например, текста и изображений) в рамках единой модели интересов пользователя. (2) Проблема «холодного старта» для новых элементов контента, по которым еще не накоплена статистика взаимодействий.

    Что запатентовано

    Запатентован способ и система для создания общего многомерного векторного пространства, названного «пространство пользовательских элементов» (User Element Space). Суть изобретения заключается в методологии совместного обучения (co-embedding) векторов пользовательской активности, векторов текста и векторов изображений. Это позволяет системе понимать взаимосвязи между различными типами контента на основе того, как пользователи с ними взаимодействуют.

    Как это работает

    Система собирает данные о прошлой активности пользователя и характеристики контента (текстовые потоки и файлы изображений). Все эти данные векторизуются. Далее система выполняет ключевые шаги: (1) Создает первое пространство, отражающее связь между прошлой активностью и текстом. (2) Создает второе пространство, отражающее связь между прошлой активностью и изображениями. (3) Совмещает эти два пространства в единое «пространство пользовательских элементов». В этом пространстве элементы, с которыми пользователи взаимодействуют схожим образом (например, в рамках одной сессии), расположены близко друг к другу. Для генерации рекомендаций текущая активность пользователя также векторизуется и помещается в это пространство; ближайшие элементы предлагаются пользователю.

    Актуальность для SEO

    Высокая. Использование векторных представлений (эмбеддингов) для построения рекомендательных систем является стандартом индустрии. Мультимодальные модели, способные одновременно обрабатывать текст и изображения, и методы совместного обучения (co-embedding) находятся на переднем крае исследований в области ML и активно внедряются в продакшн-системы (например, в рекомендательных платформах типа Dzen).

    Важность для SEO

    Влияние на SEO значительно (7/10), но специфично. Этот патент не описывает традиционное ранжирование в веб-поиске по ключевым словам. Он описывает механизмы, лежащие в основе систем обнаружения контента (Content Discovery) и персонализированных рекомендаций (например, Dzen, ленты новостей). Для SEO-специалистов, стремящихся получать трафик из рекомендательных систем, понимание этого патента критически важно. Он показывает, что связь между текстом и изображениями устанавливается через поведение пользователей, и оптимизация должна быть комплексной (мультимодальной).

    Детальный разбор

    Термины и определения

    Показатели активности (Activity Indicators)
    Данные, характеризующие взаимодействие пользователя с сетевыми ресурсами. Включают прошлую активность (используемую для обучения модели) и текущую активность (используемую для генерации рекомендаций в реальном времени).
    Элемент (Element/Item)
    Единица контента, которая может быть представлена пользователю. Патент явно указывает, что элементы могут быть связаны с потоком текста или файлом изображения. Элементы могут быть как ранее показанными пользователю, так и новыми.
    Вектор характеристик (Feature Vector)
    Численное представление сущности в многомерном пространстве (эмбеддинг). В патенте используются векторы для предыдущей активности, текущей активности, текста и изображений.
    Пространство характеристик текста (Text Feature Space)
    Многомерное пространство, созданное путем совместного перенесения (отображения) векторов предыдущей активности и векторов текста. Отражает связь между поведением пользователей и текстовым контентом.
    Пространство характеристик изображения (Image Feature Space)
    Многомерное пространство, созданное путем совместного перенесения векторов предыдущей активности и векторов изображений. Отражает связь между поведением пользователей и визуальным контентом.
    Пространство пользовательских элементов (User Element Space)
    Ключевая сущность патента. Единое многомерное пространство, созданное путем совмещения Пространства характеристик текста и Пространства характеристик изображения. Оно отражает комплексную связь между показателями активности пользователя и всеми типами элементов.
    Сетевой ресурс (Network Resource)
    Веб-сайт, приложение или платформа, на которой фиксируется активность пользователя и размещаются элементы.

    Ключевые утверждения (Анализ Claims)

    Патент описывает два основных сценария: создание общего мультимодального пространства (Claim 1) и метод интеграции нового контента в существующее пространство (Claim 12).

    Claim 1 (Независимый пункт): Описывает способ создания мультимодального пространства пользовательских элементов.

    1. Система получает доступ к данным о предыдущей активности пользователя и к данным об элементах (текст и изображения).
    2. Генерируются характеристики и соответствующие им векторы для: (i) предыдущей активности, (ii) текста, (iii) изображений.
    3. Создание текстового пространства: Вектор активности и вектор текста переносятся (отображаются) в первое многомерное пространство. Это пространство фиксирует связь между поведением и текстом.
    4. Создание пространства изображений: Вектор активности и вектор изображения переносятся во второе многомерное пространство. Это пространство фиксирует связь между поведением и изображениями.
    5. Совмещение (Мультимодальность): Пространство характеристик текста и пространство характеристик изображения совмещаются для создания единого пространства пользовательских элементов. Это ключевой шаг, позволяющий сопоставлять текст и изображения через общие паттерны пользовательской активности.
    6. Пространство сохраняется для дальнейшего использования.

    Claims 2, 3, 8, 9 (Зависимые пункты): Описывают применение созданного пространства для генерации рекомендаций.

    1. Система получает показатели текущей активности пользователя.
    2. Текущая активность векторизуется.
    3. Вектор текущей активности переносится в пространство пользовательских элементов (или в третье пространство вместе с ним).
    4. Определяется элемент, который будет связан с пользователем (рекомендован).
    5. Механизм определения основан на анализе расстояния между вектором текущей активности и элементами в этом пространстве. Ближайшие элементы являются наиболее релевантными текущему контексту пользователя.

    Claims 6, 7 (Зависимые пункты): Уточняют семантику расстояния в созданных пространствах.

    Расстояние между двумя элементами в пространстве отражает то, были ли эти элементы представлены пользователю в течение одного сеанса просмотра, или отражает число сеансов, разделяющих их представление. Это указывает на то, что модель учитывает временную и контекстную близость взаимодействий (co-occurrence и последовательности) при обучении.

    Claim 12 (Независимый пункт): Описывает способ связывания первого (известного) и второго (нового) элементов, решая проблему «холодного старта».

    1. Система имеет доступ к данным о предыдущей активности, первому элементу (ранее показанному пользователю) и второму элементу (ранее не показанному).
    2. Создается пространство элементов, отражающее связь между активностью и первым элементом.
    3. Интеграция нового элемента: Второй элемент переносится в это пространство на основе анализа данных, связанных с первым элементом, и данных, связанных со вторым элементом. Это означает, что новый контент позиционируется в пространстве на основе его сходства (вероятно, контентного или тематического) с уже известным контентом и связанными с ним паттернами поведения.

    Где и как применяется

    Изобретение не является частью классического конвейера веб-поиска (Crawling-Indexing-Ranking). Оно относится к инфраструктуре систем персонализации и рекомендаций.

    Системы рекомендаций (например, Dzen)
    Это основная область применения патента. Алгоритм используется для формирования персонализированной ленты контента без явного запроса пользователя (Content Discovery).

    • Офлайн-процессы: Основная работа по созданию пространства пользовательских элементов происходит офлайн. Система анализирует логи поведения пользователей (показатели активности) и контент (текст, изображения), обучая модели для генерации векторов и их совмещения в общем пространстве.
    • Онлайн-процессы (Генерация рекомендаций): Когда пользователь взаимодействует с платформой, система фиксирует показатели текущей активности. Эти данные векторизуются в реальном времени и используются для запроса к пространству пользовательских элементов (поиск ближайших соседей).

    RANKING – Ранжирование (L4 — Personalization)
    В контексте веб-поиска этот механизм может использоваться на финальных этапах ранжирования для глубокой персонализации выдачи или для формирования персонализированных блоков (виджетов) на SERP.

    Входные данные: Логи предыдущей активности пользователей, сессии просмотра, текстовые потоки, файлы изображений.

    Выходные данные: Сохраненное пространство пользовательских элементов; список рекомендованных элементов в ответ на текущую активность пользователя.

    На что влияет

    • Типы контента: Напрямую влияет на ранжирование и видимость текстовых материалов (статьи, новости) и изображений (галереи, карточки товаров) в рекомендательных системах. Патент закладывает основу для работы с мультимодальным контентом.
    • Обнаружение контента (Content Discovery): Влияет на то, как новый контент находит свою аудиторию. Благодаря механизму из Claim 12, новый контент может быть рекомендован пользователям, интересующимся похожим известным контентом.
    • Персонализация: Определяет точность понимания интересов пользователя на основе его поведения.

    Когда применяется

    • Триггеры активации (Онлайн): Любое действие пользователя на сетевом ресурсе, которое генерирует показатели текущей активности (например, просмотр статьи, лайк, скроллинг ленты). Это запускает процесс генерации рекомендаций.
    • Частота применения (Офлайн): Модель (пространство пользовательских элементов) периодически пересчитывается и обновляется для учета новой активности и нового контента.

    Пошаговый алгоритм

    Процесс А: Офлайн-построение Пространства Пользовательских Элементов

    1. Сбор данных: Получение доступа к логам предыдущей активности пользователей и базе элементов (тексты и изображения).
    2. Извлечение характеристик и Векторизация:
      1. Создание характеристик и векторов предыдущей активности (Activity Vectors).
      2. Создание характеристик и векторов текста (Text Vectors).
      3. Создание характеристик и векторов изображений (Image Vectors).
    3. Построение модально-специфичных пространств (Co-embedding):
      1. Перенесение Activity Vectors и Text Vectors в первое многомерное пространство (Пространство характеристик текста). Обучение модели таким образом, чтобы векторы активности и тексты, с которыми происходило взаимодействие (особенно в рамках одной сессии, Claims 6, 7), находились близко.
      2. Перенесение Activity Vectors и Image Vectors во второе многомерное пространство (Пространство характеристик изображения). Аналогичное обучение для связи активности и изображений.
    4. Совмещение пространств (Мультимодальная интеграция): Совмещение Пространства характеристик текста и Пространства характеристик изображения для создания единого Пространства пользовательских элементов. Этот шаг обеспечивает связь между текстом и изображениями через общие паттерны активности.
    5. Интеграция нового контента (Обработка холодного старта): Перенесение новых элементов (ранее не показанных) в созданное пространство на основе их сходства с уже размещенными элементами (согласно Claim 12).
    6. Сохранение: Сохранение финального Пространства пользовательских элементов на носителе.

    Процесс Б: Онлайн-генерация рекомендаций

    1. Получение контекста: Фиксация показателей текущей активности пользователя на сетевом ресурсе.
    2. Векторизация контекста: Создание вектора характеристик текущей активности (Current Activity Vector).
    3. Поиск релевантных элементов: Перенесение Current Activity Vector в сохраненное Пространство пользовательских элементов и выполнение поиска ближайших соседей (Nearest Neighbors Search).
    4. Ранжирование и Выдача: Определение элементов на основе расстояния до Current Activity Vector. Инициирование отображения выбранных элементов (текста или изображения) на устройстве пользователя.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Показатели активности): Данные о предыдущей и текущей активности пользователя. Claims 6 и 7 явно упоминают сеансы просмотра сетевого ресурса (browsing sessions). Это подразумевает использование данных о последовательности просмотров элементов, времени взаимодействия, совместной встречаемости элементов в рамках сессии.
    • Контентные факторы (Поток текста): Текстовое содержание элементов. Используется для создания характеристик и векторов текста.
    • Мультимедиа факторы (Файл изображения): Визуальное содержание элементов. Используется для создания характеристик и векторов изображения.

    Какие метрики используются и как они считаются

    • Векторы характеристик (Эмбеддинги): Система генерирует численные представления для активности, текста и изображений. Методы генерации в патенте не раскрыты, но они являются основой для построения пространств.
    • Многомерные пространства (Multidimensional Spaces): Ключевая метрика системы. Положение вектора в пространстве определяется в процессе обучения (перенесения/отображения).
    • Расстояние (Distance): Используется для определения релевантности в реальном времени. Расстояние между вектором текущей активности и элементом определяет вероятность рекомендации (Claims 8, 9). Также расстояние между элементами несет семантическую нагрузку, связанную с сессиями просмотра (Claims 6, 7). Метрика расстояния (например, косинусная близость, евклидово расстояние) не указана.

    Выводы

    1. Мультимодальность как основа рекомендаций: Яндекс разработал систему, которая объединяет понимание текста и изображений в едином векторном пространстве. Это позволяет системе находить связи между разнородным контентом.
    2. Поведение пользователя — связующее звено: Ключевая особенность патента в том, что объединение текста и изображений происходит не только на основе их содержания, но и через призму пользовательской активности. Показатели активности являются общим знаменателем для разных модальностей.
    3. Совместное обучение (Co-embedding): Запатентованная методология включает создание отдельных пространств для «активность-текст» и «активность-изображение» с последующим их совмещением.
    4. Важность контекста и сессий: Система явно учитывает контекст сессии. Элементы, просмотренные в рамках одной сессии или последовательно, будут расположены ближе в векторном пространстве (Claims 6, 7).
    5. Решение проблемы «холодного старта»: Патент предлагает механизм для интеграции нового контента в существующее рекомендательное пространство на основе его сходства с уже известным контентом (Claim 12).
    6. Фокус на Content Discovery: Этот патент наиболее релевантен для систем обнаружения контента (Dzen) и персонализированных лент, а не для традиционного веб-поиска.

    Практика

    Best practices (это мы делаем)

    Эти рекомендации особенно актуальны для продвижения в рекомендательных системах типа Dzen или получения трафика через персонализированные виджеты Яндекса.

    • Комплексная оптимизация текста и изображений: Поскольку текст и изображения попадают в единое пространство пользовательских элементов, необходимо уделять равное внимание качеству и релевантности обоих типов контента. Изображения должны семантически соответствовать тексту и быть привлекательными.
    • Стимулирование длительных и тематических сессий: Так как расстояние в векторном пространстве связано с сессиями просмотра (Claims 6, 7), важно удерживать пользователя на ресурсе и предлагать ему связанный контент (перелинковка, блоки «Читать далее»). Чем чаще ваши материалы потребляются в рамках одной тематической сессии, тем сильнее будет их связь в модели Яндекса.
    • Работа над позитивными поведенческими сигналами: Показатели активности являются ядром системы. Необходимо максимизировать вовлеченность (дочитывания, время взаимодействия, лайки в рекомендательных системах). Это формирует паттерны поведения, которые система использует для обучения.
    • Создание серийного контента: Публикация материалов, объединенных общей темой или сюжетом, стимулирует пользователей потреблять их последовательно, что укрепит позиции этого контента в пространстве пользовательских элементов.

    Worst practices (это делать не надо)

    • Использование нерелевантных изображений: Использование стоковых или не связанных с темой изображений может привести к некорректному позиционированию элемента в мультимодальном пространстве, так как система не сможет установить четкую связь между текстом и картинкой через поведение пользователей.
    • Кликбейт и обман ожиданий: Контент, который генерирует клики, но не обеспечивает вовлеченности (короткие сессии, быстрые отказы), формирует негативные показатели активности. Это приведет к тому, что система не будет ассоциировать этот контент с долгосрочными интересами пользователей.
    • Публикация разрозненного контента: Если ресурс публикует материалы на совершенно не связанные темы, системе будет сложнее определить его тематический профиль и найти устойчивые паттерны активности пользователей, что затруднит рекомендации.

    Стратегическое значение

    Патент подтверждает глобальный тренд на развитие систем обнаружения контента (Content Discovery) и глубокую персонализацию, основанную на машинном обучении и векторных представлениях. Для Яндекса это стратегическое направление (развитие Dzen, персонализированных лент). SEO-стратегия должна учитывать эти каналы трафика. Патент подчеркивает, что в мультимодальном мире поведение пользователя является ключевым фактором, определяющим семантическую близость контента, даже если он разных типов.

    Практические примеры

    Сценарий 1: Мультимодальная рекомендация

    1. Обучение (Офлайн): Система анализирует логи и обнаруживает, что пользователи, которые читают статьи про «цифровую живопись» (Текст 1), часто затем просматривают галереи работ в стиле «киберпанк» (Изображение 1).
    2. Создание пространства: В пространстве пользовательских элементов Текст 1 и Изображение 1 располагаются близко друг к другу, так как связаны общим паттерном активности.
    3. Рекомендация (Онлайн): Новый пользователь читает статью про «инструменты для digital art» (Текущая активность).
    4. Действие системы: Вектор текущей активности оказывается близок к области, где расположены Текст 1 и Изображение 1.
    5. Результат: Система рекомендует пользователю галерею работ в стиле «киберпанк» (Изображение 1), хотя он искал информацию об инструментах.

    Сценарий 2: Рекомендация нового контента (Холодный старт)

    1. Существующий контент: В системе есть популярная статья про «Уход за Монстерой» (Элемент 1), которая уже размещена в пространстве и связана с определенными паттернами активности.
    2. Новый контент: На ресурсе публикуется новая статья «Пересадка Замиокулькаса» (Элемент 2). Статистики по ней нет.
    3. Действие системы (Claim 12): Система анализирует данные Элемента 1 и Элемента 2 (например, текстовую или тематическую близость) и переносит Элемент 2 в пространство рядом с Элементом 1.
    4. Результат: Пользователи, чья активность близка к Элементу 1 (интересующиеся уходом за Монстерой), начнут видеть рекомендации новой статьи про Замиокулькас, что обеспечивает быстрый старт для нового материала.

    Вопросы и ответы

    Что такое «Пространство пользовательских элементов»?

    Это единое многомерное векторное пространство (эмбеддинг), в котором представлены как пользователи (через их активность), так и элементы контента (тексты и изображения). Особенность этого пространства в том, что оно создается путем совмещения данных из разных источников. В нем элементы, которыми интересуются одни и те же пользователи или которые потребляются в рамках одной сессии, расположены близко друг к другу.

    Этот патент описывает работу поиска Яндекса или рекомендательных систем (Dzen)?

    Этот патент в первую очередь описывает механизмы работы персонализированных рекомендательных систем, таких как Dzen или ленты новостей. Он фокусируется на предложении контента на основе истории и текущей активности пользователя, а не на ранжировании документов в ответ на явный текстовый запрос. Однако эти технологии могут использоваться и в основном поиске на этапе глубокой персонализации (L4 Ranking).

    Что означает мультимодальность в контексте этого патента?

    Мультимодальность означает способность системы обрабатывать и связывать информацию разных типов (модальностей). В данном патенте это конкретно текст и изображения. Система учится понимать, как текстовая статья может быть связана с определенным изображением, и наоборот, через анализ того, как пользователи взаимодействуют с обоими типами контента.

    Как система связывает текст и изображения, если они совершенно разные по структуре?

    Ключевым связующим звеном выступают показатели активности пользователя. Система создает отдельные пространства для связи «активность-текст» и «активность-изображение», а затем совмещает их. Если пользователи часто переходят от определенного текста к определенному изображению (или наоборот), система фиксирует эту связь через общие паттерны активности, и эти элементы окажутся близко в финальном пространстве.

    Как этот патент помогает бороться с «холодным стартом» нового контента?

    Патент (Claim 12) описывает механизм интеграции нового элемента (ранее не показанного) в существующее пространство. Новый элемент размещается в пространстве на основе анализа его сходства с уже известными элементами, по которым есть статистика. Это позволяет сразу начать рекомендовать новый контент пользователям, которые интересовались похожими материалами.

    Что важнее для этой системы: качество контента или поведение пользователей?

    Оба аспекта критически важны и взаимозависимы. Характеристики контента (текста и изображений) используются для его векторизации. Однако именно поведение пользователей (показатели активности, сессии просмотра) определяет, как эти векторы будут расположены относительно друг друга в финальном пространстве. Без позитивного поведения даже самый качественный контент не будет эффективно рекомендоваться.

    Как SEO-специалист может использовать информацию о сессиях просмотра (Claims 6, 7)?

    Claims 6 и 7 указывают, что близость элементов в пространстве зависит от того, как часто они просматриваются в рамках одной сессии. SEO-специалисту следует оптимизировать структуру сайта и перелинковку так, чтобы стимулировать пользователя к изучению связанных материалов в рамках одного визита. Это укрепляет тематическую связь между страницами в модели Яндекса.

    Нужно ли мне оптимизировать изображения для этого алгоритма?

    Да, абсолютно. Изображения являются полноправными участниками пространства пользовательских элементов. Качественные, релевантные и привлекательные изображения генерируют позитивные сигналы активности и способствуют лучшему позиционированию связанного с ними контента в рекомендательных системах.

    Что такое «показатели текущей активности»?

    Это данные о действиях пользователя в реальном времени, которые служат контекстом для генерации следующей порции рекомендаций. Это может быть просмотр конкретного элемента, лайк, подписка, время, проведенное на странице. Эти данные векторизуются и используются для поиска релевантного контента в общем пространстве.

    Может ли этот алгоритм рекомендовать текст на основе просмотренного изображения?

    Да, именно это и является одной из целей создания единого пространства пользовательских элементов. Если система обучена, что определенные изображения коррелируют с определенными текстами через поведение пользователей, она сможет рекомендовать текст пользователю, который в данный момент просматривает похожее изображение.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.