Яндекс патентует метод создания единого векторного пространства (User Item Space), объединяющего данные о поведении пользователей, текстовый контент и изображения. Система обучается понимать связь между разными типами контента (кросс-модальное отображение) на основе того, как пользователи взаимодействуют с ними в рамках одной сессии. Это позволяет автоматически ассоциировать контент с интересами пользователя без ручной разметки ключевыми словами.
Описание
Какую задачу решает
Патент решает проблему эффективного и автоматизированного сопоставления интересов пользователя с релевантными «элементами» (Items) — например, товарами, услугами, рекламными баннерами или контентом. Традиционные подходы часто требуют ручного подбора ключевых слов для таргетинга, что неэффективно и неточно. Изобретение направлено на автоматизацию этого процесса путем анализа разнородных данных (поведения, текста и изображений) и нахождения латентных связей между ними в общем пространстве, устраняя зависимость от ручной разметки.
Что запатентовано
Запатентована система для создания единого мультимодального векторного пространства (User Item Space) путем кросс-модального отображения (Cross-Modal Mapping). Суть изобретения заключается в генерации векторов признаков из трех модальностей: прошлой активности пользователя (Past Activity Feature Vector), текстового содержания элементов (Text Feature Vector) и изображений (Image Feature Vector). Эти векторы проецируются и объединяются в общем пространстве, где близость отражает поведенческую релевантность.
Как это работает
Система использует машинное обучение (в частности, нейронные сети) для векторизации данных. Сначала создаются два промежуточных пространства: одно для связи Поведение+Текст (Text Feature Space), другое для связи Поведение+Изображение (Image Feature Space). Для обучения этих пространств могут использоваться Coupled Siamese Neural Networks. Цель обучения — сблизить элементы, которые часто просматриваются пользователями в рамках одной сессии (co-occurrence). Затем эти пространства объединяются в финальное User Item Space. Когда пользователь проявляет текущую активность, она также векторизуется и проецируется в это пространство. Элементы, чьи векторы оказываются ближе всего к вектору текущей активности пользователя, считаются наиболее релевантными.
Актуальность для SEO
Высокая. Мультимодальный анализ (объединение текста, изображений и поведенческих данных) и создание общих векторных пространств для кросс-модального поиска являются передовыми направлениями в современных системах информационного поиска, рекомендательных системах и платформах персонализации (например, Дзен, РСЯ, Маркет).
Важность для SEO
Влияние на SEO среднее (7/10). Патент напрямую фокусируется на системах таргетированной рекламы и рекомендаций, а не на ранжировании органического веб-поиска. Однако он раскрывает фундаментальные механизмы того, как Яндекс анализирует и связывает поведение пользователей с контентом разных модальностей. Понимание этих механизмов критически важно для стратегий в e-commerce, Image SEO и оптимизации пользовательского пути (User Journey), подчеркивая важность совместной встречаемости контента в пользовательских сессиях.
Детальный разбор
Термины и определения
- Coupled Siamese Neural Network (Связанная сиамская нейронная сеть)
- Архитектура нейронной сети, состоящая из нескольких подсетей, используемая для обучения метрикам схожести между разнородными данными. Упоминается в патенте как возможный метод обучения для минимизации cross-modal loss (кросс-модальных потерь) при отображении векторов в общие пространства.
- Cross-Modal Mapping (Кросс-модальное отображение)
- Процесс проецирования данных разных типов (модальностей), например, текста и изображений, или поведения и текста, в общее векторное пространство, где их можно сравнивать.
- Feature Vector (Вектор признаков)
- Численное представление данных (эмбеддинг). В патенте описаны:
- Past Activity Feature Vector: Вектор, представляющий прошлую активность пользователя.
- Text Feature Vector: Вектор, представляющий текстовый поток (Text Stream).
- Image Feature Vector: Вектор, представляющий файл изображения (Image File).
- Current Activity Feature Vector: Вектор, представляющий текущую активность пользователя.
- Item (Элемент)
- Объект, который система стремится ассоциировать с пользователем. Может относиться к продукту, услуге, рекламному баннеру или контенту.
- Multidimensional Space (Многомерное пространство)
- Векторное пространство, в которое проецируются векторы признаков. Включает:
- Text Feature Space: Пространство, отражающее ассоциации между прошлой активностью и текстом.
- Image Feature Space: Пространство, отражающее ассоциации между прошлой активностью и изображениями.
- User Item Space: Финальное объединенное пространство.
- Past Activity Indications (Индикаторы прошлой активности)
- Поведенческая информация о пользователе: списки просмотренных элементов в рамках сессий, клики, поисковые запросы, время просмотра (dwell times), посещенные URI, географическая история (GPS координаты, чекины).
Ключевые утверждения (Анализ Claims)
Патент защищает метод создания единого пространства, объединяющего разнородные данные для целей таргетинга и рекомендаций.
Claim 1 (Независимый пункт): Описывает основной процесс создания и использования User Item Space.
- Доступ к индикаторам прошлой активности пользователя и индикаторам элементов (текст и изображения).
- Генерация векторов признаков: Past Activity Vector, Text Vector, Image Vector.
- Отображение (Mapping) Поведения и Текста в первое многомерное пространство для генерации Text Feature Space.
- Отображение (Mapping) Поведения и Изображения во второе многомерное пространство для генерации Image Feature Space.
- Объединение (Combining) Text Feature Space и Image Feature Space для генерации User Item Space. Ключевой момент: это позволяет ассоциировать активность с элементами, даже если элемент связан только с одним типом данных (только текст или только изображение).
- Хранение User Item Space.
- (Применение): Получение индикаторов текущей активности и генерация Current Activity Feature Vector.
- Отображение Current Activity Vector в третье многомерное пространство.
- Идентификация релевантного элемента на основе расстояния (distance) между вектором текущей активности и векторами элементов в этом пространстве.
- Важное уточнение (в конце Claim 1): Первое, второе и третье многомерные пространства определяют одно и то же многомерное пространство.
Claim 5 и 6 (Зависимые пункты): Определяют значение расстояния в сгенерированных пространствах.
- Расстояние между двумя элементами отражает, были ли эти элементы ранее представлены пользователю в рамках одной и той же навигационной сессии (Claim 5).
- Или расстояние отражает количество навигационных сессий, разделяющих представление первого и второго элементов пользователю (Claim 6).
Это подтверждает, что модель обучается на основе поведенческой совместной встречаемости (behavioral co-occurrence). Элементы, которые пользователи потребляют вместе или последовательно, будут расположены ближе в векторном пространстве.
Где и как применяется
Изобретение в основном применяется в инфраструктуре персонализации, рекомендательных систем (Дзен, Маркет) и таргетинга рекламы (РСЯ). Оно не встраивается напрямую в стандартный конвейер ранжирования веб-поиска.
Офлайн-процессы (Обработка данных и обучение моделей)
Основная часть работы по обучению модели происходит офлайн:
- Сбор и агрегация логов пользовательской активности (Past Activity Indications) и данных об элементах.
- Извлечение признаков и генерация векторов для поведения, текстов и изображений.
- Обучение моделей (например, Siamese Neural Networks) для выполнения кросс-модального отображения. Цель обучения — минимизировать расстояние между векторами элементов, которые часто встречаются в одних и тех же сессиях.
- Генерация и хранение финального User Item Space.
Онлайн-процессы (RANKING – Персонализация L4 / Рекомендации)
В реальном времени система использует предобученное пространство для генерации ответов:
- Получение текущей активности пользователя и генерация Current Activity Feature Vector.
- Проецирование этого вектора в User Item Space.
- Поиск ближайших соседей (Items) к вектору пользователя. Эти элементы используются для формирования персонализированной выдачи или выбора рекламы.
На что влияет
- Конкретные типы контента и ниши: Наибольшее влияние оказывается на e-commerce, рекламные сети и рекомендательные системы. Влияет на любой контент, где важна персонализация и где контент представлен мультимодально (текст + изображение).
- Кросс-платформенность: Патент указывает (в описании), что система может обрабатывать и сравнивать элементы с разных сетевых ресурсов (например, товар на Yandex.Market и товар на Amazon).
- Кросс-модальность: Система позволяет найти релевантный текстовый контент на основе взаимодействия пользователя с изображениями, и наоборот.
Когда применяется
- Условия применения: Наличие достаточного объема исторических данных о поведении пользователей для обучения User Item Space.
- Триггеры активации: Запрос на генерацию рекомендаций или выбор рекламного баннера для показа пользователю в реальном времени на основе его текущей активности или профиля.
Пошаговый алгоритм
Этап 1: Сбор и подготовка данных (Офлайн)
- Сбор поведенческих данных: Доступ к Past Activity Indications (логи сессий, просмотренные URI, клики, время, геолокация).
- Сбор данных об элементах: Доступ к Item Indications, извлечение Text Streams и Image Files.
Этап 2: Генерация векторов признаков (Офлайн)
- Векторизация поведения: Генерация Past Activity Feature Vector (например, с помощью хеширования или нейронных сетей).
- Векторизация контента: Генерация Text Feature Vector и Image Feature Vector для каждого элемента.
Этап 3: Кросс-модальное отображение и обучение (Офлайн)
- Генерация Text Feature Space: Отображение Past Activity Vector и Text Vector в общее пространство. Обучение (например, с использованием Siamese NN) направлено на то, чтобы векторы элементов, просмотренных в одной сессии, располагались ближе друг к другу.
- Генерация Image Feature Space: Аналогичный процесс для Past Activity Vector и Image Vector.
Этап 4: Создание единого пространства (Офлайн)
- Объединение: Комбинирование Text Feature Space и Image Feature Space для генерации финального User Item Space.
- Хранение: Сохранение User Item Space.
Этап 5: Применение (Онлайн)
- Получение текущей активности: Доступ к User Current Activity.
- Векторизация и Отображение: Генерация Current Activity Feature Vector и его проецирование в User Item Space.
- Поиск и рекомендация: Идентификация элементов (Items), расположенных на минимальном расстоянии от проекции пользователя. Передача этих элементов для показа.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Являются основой для обучения системы. Используются Past Activity Indications, включающие: списки просмотренных элементов в рамках навигационных сессий, URI посещенных ресурсов, временные метки, время просмотра (dwell time), поисковые запросы, географическая история (GPS координаты, чекины).
- Контентные факторы: Text Streams, связанные с элементами (например, описания товаров, текст рекламных баннеров).
- Мультимедиа факторы: Image Files, связанные с элементами (изображения товаров, графика баннеров). Упоминаются также видеофайлы.
Какие метрики используются и как они считаются
- Векторы признаков (Feature Vectors/Embeddings): Многомерные численные представления поведения, текста и изображений. Могут генерироваться с помощью хеширования (упоминается hashing function) или нейронных сетей (Neural Network Analysis).
- Метрика расстояния (Distance Metric): Ключевая метрика в сгенерированных пространствах. Расстояние между двумя точками (элементами) в пространстве отражает их поведенческую схожесть (вероятность просмотра в одной сессии).
- Алгоритмы машинного обучения: Патент явно указывает на использование нейронных сетей для генерации векторов и для отображения (Mapping). Особо выделяется архитектура Coupled Siamese Neural Network для обучения кросс-модальному отображению.
- Cross-Modal Loss (Кросс-модальные потери): Функция потерь, которую минимизируют нейронные сети во время обучения, чтобы сблизить представления разнородных данных (например, текст и поведение), если они связаны исторически.
Выводы
- Единое мультимодальное пространство: Яндекс использует сложные архитектуры (включая сиамские нейросети) для создания единого векторного пространства (User Item Space), где одновременно представлены поведение пользователей, текст и изображения.
- Поведение как связующее звено (Ground Truth): История поведения пользователей (совместная встречаемость контента в сессиях) используется как эталон для обучения связей между текстом и изображениями. Система учится понимать, что текст А и изображение Б семантически связаны, если пользователи часто просматривают их вместе.
- Кросс-модальный поиск и таргетинг: Эта архитектура позволяет выполнять кросс-модальный поиск — например, рекомендовать текстовый контент на основе того, какие изображения пользователь просматривал ранее, и наоборот.
- Автоматизация таргетинга и обработка Cold Start: Система снижает зависимость от ручного подбора ключевых слов и позволяет обрабатывать новые элементы («холодный старт») путем анализа их контента и проецирования в уже обученное пространство.
- Важность сессионного контекста (Co-occurrence): Расстояние в векторном пространстве напрямую коррелирует с тем, насколько близко контент потреблялся в рамках пользовательских сессий. Это подчеркивает важность контекста сессии для понимания интента.
Практика
Best practices (это мы делаем)
Хотя патент в первую очередь описывает механизмы рекомендаций и рекламы, он дает важное понимание того, как Яндекс интерпретирует контент и поведение, что имеет стратегическое значение для SEO, особенно в E-commerce.
- Оптимизация пользовательских путей и сессий (User Journey): Проектируйте сайт так, чтобы пользователи могли легко находить и потреблять связанный контент в рамках одной сессии. Если пользователи часто переходят со страницы товара А на страницу обзора Б, Яндекс укрепляет связь между ними в своем User Item Space (на основе co-occurrence). Используйте продуманную перелинковку и блоки рекомендаций («С этим товаром смотрят», «Похожие статьи»).
- Мультимодальная согласованность контента: Обеспечивайте максимальное семантическое соответствие между текстом и изображениями на странице. Так как система отображает их в общее пространство на основе поведения, согласованный контент будет формировать более четкие сигналы.
- Комплексная оптимизация изображений (Image SEO): Изображения являются полноценными участниками анализа (Image Feature Vector). Необходимо уделять внимание качеству, уникальности и релевантности изображений, так как они напрямую влияют на позиционирование контента в векторном пространстве Яндекса. Используйте четкие изображения, легко интерпретируемые алгоритмами.
- Построение тематических кластеров: Создавайте плотные семантические кластеры контента, которые пользователи склонны изучать последовательно. Это усиливает сигналы совместной встречаемости, которые используются для обучения модели.
Worst practices (это делать не надо)
- Несоответствие изображений и текста (Кликбейт/Мисматч): Использование изображений, не соответствующих тексту, может привести к противоречивым поведенческим сигналам и размытию позиционирования элемента в User Item Space.
- Изолированный контент (Silos): Создание страниц, с которых пользователю некуда перейти для продолжения изучения темы. Это минимизирует полезные сигналы совместной встречаемости и ухудшает анализ сессий.
- Игнорирование качества изображений: Использование стоковых, некачественных или нерелевантных изображений снижает эффективность мультимодального анализа и генерации качественного Image Feature Vector.
Стратегическое значение
Патент подтверждает стратегический фокус Яндекса на использовании машинного обучения для глубокого понимания взаимосвязей между контентом разных типов через призму поведения пользователей. Он демонстрирует, что для Яндекса семантическая связь определяется не только анализом текста, но и тем, как реальные пользователи взаимодействуют с контентом. Для SEO это означает, что оптимизация должна быть направлена на создание ценности в рамках всей сессии пользователя, а не только на отдельных страницах.
Практические примеры
Сценарий 1: Кросс-модальная рекомендация в E-commerce
- Действия пользователя: Пользователь активно просматривает изображения и характеристики горных велосипедов на Yandex.Market.
- Обучение системы (Офлайн): Система ранее обучила User Item Space, где изображения велосипедов (Image Vectors) и статьи о выборе велошлемов (Text Vectors) расположены близко, так как пользователи часто изучают их в одной сессии.
- Применение (Онлайн): Система проецирует текущую активность пользователя (просмотр велосипедов) в User Item Space.
- Результат: Система рекомендует пользователю статью о выборе шлема или показывает баннер велошлема, так как эти элементы находятся близко к его текущему положению в пространстве, даже если пользователь не вводил текстовый запрос «шлем».
Сценарий 2: Таргетинг нового рекламного баннера (Cold Start)
- Новый элемент: Рекламодатель загружает новый баннер для кроссовок (текст + изображение). У баннера нет истории кликов.
- Действие системы: Система генерирует Text Vector и Image Vector для нового баннера и проецирует его в предобученный User Item Space, используя обученные модели кросс-модального маппинга.
- Анализ пространства: Новый баннер позиционируется рядом с другими элементами, имеющими похожие текстовые и визуальные характеристики, которые уже привязаны к историческому поведению.
- Текущая активность: Пользователь ищет «обзор спортивной обуви». Генерируется его Current Activity Vector.
- Результат: Если вектор пользователя оказывается близко к позиции нового баннера в User Item Space, баннер будет показан пользователю, несмотря на отсутствие у него собственной истории.
Вопросы и ответы
Этот патент описывает алгоритмы органического ранжирования Яндекса?
Нет, напрямую этот патент не описывает ранжирование основного веб-поиска. Он сфокусирован на системах таргетированной рекламы (упоминаются Banners) и рекомендательных системах (например, для E-commerce). Однако технология, лежащая в его основе — создание единого векторного пространства для мультимодального контента и поведения пользователей — является фундаментальной для понимания того, как Яндекс в целом интерпретирует интент и релевантность.
Что такое «кросс-модальное отображение» простыми словами?
Это процесс обучения компьютерной системы понимать связь между данными разных типов, например, между текстом и изображением. Вместо того чтобы анализировать их по отдельности, система учится представлять их в виде точек в общем пространстве (векторном пространстве). Если текст и изображение семантически связаны, их точки будут расположены близко друг к другу в этом пространстве.
Как именно обучается User Item Space? Что является критерием истины?
Критерием истины (Ground Truth) является история поведения пользователей. Система анализирует миллионы навигационных сессий. Если пользователи часто просматривают Элемент А и Элемент Б в рамках одной сессии или с небольшим интервалом (co-occurrence), система стремится разместить векторы этих элементов как можно ближе друг к другу в User Item Space. Для этого используются нейронные сети, например, архитектура Siamese Neural Network.
Что означает «совместная встречаемость» (co-occurrence) в контексте этого патента?
Это означает, что два или более элемента контента были просмотрены или с ними взаимодействовали в рамках одной и той же пользовательской сессии, либо в рамках сессий, близких по времени. Согласно патенту (Claims 5 и 6), именно этот фактор определяет расстояние между элементами в сгенерированном векторном пространстве.
Как этот патент влияет на SEO для изображений (Image SEO)?
Он подчеркивает критическую важность изображений как самостоятельных единиц анализа. Изображения напрямую отображаются в общее пространство с текстом и поведением (Image Feature Space). Это означает, что качественные, релевантные и уникальные изображения могут влиять на понимание системой всего контента страницы и его связи с интересами пользователя, особенно в E-commerce.
Насколько важна согласованность между изображениями и текстом согласно этому патенту?
Согласованность критически важна. Система строит общее пространство (User Item Space), объединяя данные из Text Feature Space и Image Feature Space. Если изображение и текст элемента согласованы и оба соответствуют определенному поведенческому паттерну, элемент получит более точное и сильное позиционирование в пространстве. Несоответствие приведет к размыванию вектора и слабым ассоциациям.
Как я могу повлиять на позиционирование моего контента в этом User Item Space?
Вы можете повлиять на это косвенно, оптимизируя пользовательский опыт на своем сайте. Обеспечивайте высокое качество и согласованность текста и изображений. Стимулируйте пользователей просматривать связанный контент в рамках одной сессии с помощью продуманной навигации и перелинковки. Чем чаще ваш контент совместно потребляется с другим релевантным контентом, тем сильнее становятся связи в модели Яндекса.
Что такое сиамские нейронные сети (Siamese Neural Networks), упомянутые в патенте?
Это архитектура, состоящая из двух или более идентичных подсетей. Они используются для обучения метрикам схожести. В контексте патента, одна подсеть может обрабатывать вектор активности, а другая — текстовый вектор. Они обучаются совместно так, чтобы минимизировать расстояние между их выходами, если активность и текст связаны (например, встречались в одной сессии), и максимизировать, если не связаны.
Может ли система работать, если у товара есть только изображение, но нет текста?
Да. Одно из преимуществ системы, описанное в патенте (Claim 1), заключается в том, что она позволяет позиционировать элемент в User Item Space, даже если он связан только с одним типом индикации (например, только с изображением). Это возможно благодаря тому, что пространство построено на основе комплексных данных от других элементов, имеющих обе модальности.
Используются ли в этой системе данные о том, на каких сайтах был пользователь?
Да. В описании патента указано, что Past Activity Indications могут включать историю посещений различных сетевых ресурсов (URI), таймстемпы и dwell time. Это позволяет системе строить модели интересов на основе активности пользователя в рамках одного сервиса (например, Маркета) или в целом в сети (например, для РСЯ).