Яндекс разрабатывает систему для глубокого понимания контента (текста и изображений) путем анализа того, как пользователи взаимодействуют с ним. Система создает единое векторное пространство (User Item Space), где поведенческие паттерны (в частности, совместный просмотр в рамках одной сессии), текстовые описания и визуальные характеристики товаров или баннеров напрямую сопоставимы. Это позволяет Яндексу рекомендовать релевантные элементы, основываясь на визуальной схожести или поведенческой близости.
Описание
Какую задачу решает
Патент решает проблему эффективного сопоставления разнородных (мультимодальных) данных для понимания интересов пользователя и релевантности контента (называемого Items – товары, реклама, контент). Традиционные системы часто требуют ручной разметки контента ключевыми словами для таргетинга, что трудоемко и неточно. Это изобретение автоматизирует этот процесс, изучая связи между поведением пользователя (Activity Indications), текстом (Text Stream) и изображениями (Image File). Также решается проблема «холодного старта» для новых элементов.
Что запатентовано
Запатентована система создания общего векторного пространства (User Item Space) для мультимодальных данных. Суть изобретения заключается в использовании нейронных сетей для преобразования поведенческих данных, текста и изображений в векторы (Feature Vectors). Эти векторы проецируются в общие пространства, которые затем объединяются. В этом едином пространстве близость между вектором пользователя и вектором элемента указывает на релевантность.
Как это работает
Система анализирует исторические данные о том, какие элементы пользователь просматривал (например, сессии на e-commerce платформах). Используя нейронные сети (в описании упоминаются Siamese Neural Networks), система генерирует три типа векторов: поведенческий, текстовый и визуальный. Ключевой механизм — это обучение моделей таким образом, чтобы векторы поведения пользователя были близки к векторам текста и изображений, с которыми он взаимодействовал, и чтобы элементы, просмотренные в одной сессии, были близки друг к другу. В результате создается единое User Item Space. Когда пользователь проявляет новую активность, система генерирует его текущий вектор и находит в этом пространстве ближайшие элементы для рекомендации.
Актуальность для SEO
Высокая. Мультимодальные нейронные сети и создание общих векторных пространств для текста, изображений и поведения пользователей (включая CLIP-подобные модели и продвинутые системы рекомендаций) являются передним краем современных технологий поиска, рекламы и E-commerce. Описанный подход крайне актуален для персонализации выдачи на 2025 год.
Важность для SEO
Влияние на SEO умеренно-высокое (6.5/10). Патент в первую очередь относится к рекомендательным системам и AdTech (Яндекс.Маркет, РСЯ, Дзен), а не к органическому ранжированию. Однако он раскрывает критически важные механизмы того, как Яндекс понимает контент вне ключевых слов и как интерпретирует сессии пользователей. Понимание того, что Яндекс определяет близость элементов на основе их совместного просмотра в рамках одной сессии (Navigation Session), имеет стратегическое значение для E-commerce и оптимизации пользовательского пути.
Детальный разбор
Термины и определения
- Activity Indications (Индикаторы активности)
- Данные о поведении пользователя: история просмотров (URI), списки просмотренных товаров в рамках сессии, клики, поисковые запросы, dwell time, географические координаты.
- Feature Vector (Вектор признаков / Эмбеддинг)
- Численное представление объекта в многомерном пространстве. В патенте упоминаются:
- Past Activity Feature Vector: Вектор прошлой активности пользователя.
- Text/Image Feature Vector: Векторы текстового или визуального контента элемента.
- Current Activity Feature Vector: Вектор текущей активности пользователя.
- Item (Элемент)
- Объект, который система ассоциирует с пользователем (продукт, услуга, рекламный баннер или единица контента). Состоит из текста (Text Stream) и/или изображения (Image File).
- Mapping Module (Модуль проецирования)
- Компонент (часто нейронная сеть), который проецирует существующие векторы в общее пространство.
- Navigation Session (Навигационная Сессия)
- Последовательность действий пользователя на веб-ресурсе. Совместный просмотр элементов в рамках одной сессии является ключевым сигналом для обучения системы.
- Siamese Neural Network (Сиамская нейронная сеть)
- Архитектура нейронной сети, упомянутая в описании патента. Используется для изучения функции сходства. Она обрабатывает два разных входа (например, вектор активности и вектор текста) и обучается минимизировать расстояние между выходами (cross-modal loss), если входы связаны.
- Text/Image Feature Space (Пространство текстовых/визуальных признаков)
- Промежуточные многомерные пространства, созданные путем совместного проецирования вектора активности и вектора текста (или изображения). Отражают ассоциации между поведением и соответствующей модальностью контента.
- User Item Space (Пространство пользователя и элементов)
- Финальное объединенное многомерное пространство, полученное путем комбинирования Text Feature Space и Image Feature Space. В этом пространстве все модальности напрямую сопоставимы.
Ключевые утверждения (Анализ Claims)
Патент фокусируется на методе создания общего векторного пространства, где поведение пользователя служит анкорем для связывания текста и изображений.
Claim 1 и 31 (Независимые пункты): Описывают основной процесс создания мультимодального пространства.
- Система получает доступ к прошлым активностям (Past Activity Indications) и данным элементов (текст, изображения).
- Генерируются векторы признаков для активности, текста и изображений.
- Выполняется первое проецирование: Вектор активности и вектор текста проецируются для создания Text Feature Space.
- Выполняется второе проецирование: Вектор активности и вектор изображения проецируются для создания Image Feature Space.
- Комбинирование: Эти пространства объединяются для генерации User Item Space.
Claim 10/40 и 11/41 (Зависимые пункты): Критически важные пункты, определяющие значение расстояния в созданных пространствах.
- Расстояние между двумя элементами в любом из пространств (User Item Space, Text/Image Feature Space) отражает, были ли эти элементы представлены пользователю в рамках одной и той же Navigation Session (Claim 10/40).
- Или расстояние отражает количество навигационных сессий, разделяющих показ этих элементов (Claim 11/41).
Это означает, что система обучается так, чтобы близость в векторном пространстве напрямую коррелировала с совместной встречаемостью (co-occurrence / co-visitation) элементов в поведении пользователя.
Claim 4/34 и 5/35 (Зависимые пункты): Описывают применение пространства в реальном времени.
Получается текущая активность пользователя, генерируется Current Activity Feature Vector, который проецируется в User Item Space. Идентификация релевантного элемента основана на расстоянии (близости) к этому вектору.
Claim 12 и 42 (Независимые пункты): Описывают решение проблемы «холодного старта» для новых элементов.
Новый элемент (Item 2), который пользователь не видел, проецируется в существующее Item Space (созданное на основе поведения и известного элемента Item 1). Позиционирование Item 2 основано на анализе данных, связанных с Item 1 и Item 2 (например, их текстовой или визуальной схожести).
Где и как применяется
Этот патент описывает инфраструктуру, которая в первую очередь используется в рекомендательных системах и платформах таргетированной рекламы (Яндекс.Маркет, РСЯ, Дзен), а не в основном конвейере органического поиска.
Офлайн-обработка данных (аналог INDEXING)
Система обрабатывает огромные объемы исторических данных для обучения моделей.
- Сбор и Векторизация: Обработка логов активности и базы данных элементов для создания Feature Vectors. Упоминается использование нейронных сетей.
- Обучение и Маппинг: Обучение моделей (например, Siamese neural networks) для генерации Text/Image Feature Spaces. Цель обучения — минимизировать расстояние между элементами, которые часто встречаются в одной сессии (на основе Claims 10/11).
- Комбинирование: Генерация и сохранение финального User Item Space.
Онлайн-обработка (аналог RANKING/BLENDER для рекомендаций)
Когда пользователь активен, система использует предварительно рассчитанное пространство.
- Обработка текущей активности: Текущие действия пользователя векторизуются.
- Проекция и Ранжирование: Вектор текущей активности проецируется в User Item Space. Система идентифицирует элементы, расположенные наиболее близко к текущей позиции пользователя.
На что влияет
- E-commerce и Реклама: Наибольшее влияние на точность товарных рекомендаций, блоки «Похожие товары» и таргетинг баннерной рекламы.
- Визуальный контент: Позволяет оценивать релевантность изображений напрямую на основе визуальных признаков и поведенческого контекста, без необходимости полагаться на окружающий текст.
- Кросс-модальное понимание: Влияет на то, как Яндекс понимает связь между текстом и изображениями через наблюдение за совместным взаимодействием пользователей с ними.
- Гибкость данных: Система может позиционировать товар в User Item Space, даже если у него есть только текст или только изображение.
- Кросс-платформенные рекомендации: Технология позволяет проецировать элементы с разных платформ в одно пространство (Параграф), позволяя сравнивать их релевантность.
Когда применяется
- Обучение моделей: Периодически в офлайн-режиме для обновления User Item Space.
- Генерация рекомендаций: В реальном времени при загрузке страницы пользователем, когда необходимо определить, какой контент или рекламу показать.
- Интеграция новых элементов: При добавлении нового товара/контента без истории взаимодействий (активация механизма из Claim 12).
Пошаговый алгоритм
Процесс А: Генерация User Item Space (Офлайн)
- Сбор данных: Доступ к логам прошлых действий (Past Activity Indications) и базе данных элементов (текст, изображения).
- Генерация векторов:
- Обработка логов для создания Past Activity Feature Vectors.
- Обработка текста/изображений для создания Text/Image Feature Vectors.
- Создание Пространств (Маппинг и Обучение):
- Маппинг Вектора Активности и Текстового Вектора в Text Feature Space.
- Маппинг Вектора Активности и Вектора Изображения в Image Feature Space.
- (Обучение моделей, например Siamese Neural Networks, происходит так, чтобы элементы, просмотренные в одной сессии, находились близко друг к другу).
- Генерация Финального Пространства: Комбинирование пространств для создания User Item Space.
- Сохранение Пространства.
Процесс Б: Генерация рекомендаций (Онлайн)
- Получение текущей активности: Система получает Current Activity Indications.
- Векторизация и Проекция: Генерация Current Activity Feature Vector и его отображение в User Item Space.
- Идентификация: Поиск ближайших соседей (элементов) к текущей позиции пользователя в пространстве.
- Выдача: Показ идентифицированных элементов пользователю.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Являются основой системы. Используются Past/Current Activity Indications. Критически важными являются данные о Navigation Sessions — какие элементы просматривались совместно (co-visitation). Также могут использоваться клики, dwell time, логи браузера и географические данные.
- Контентные факторы (Текстовые): Text streams (описания товаров, заголовки). Используются для генерации Text Feature Vectors.
- Мультимедиа факторы: Image files (фотографии товаров, баннеры). Используются для генерации Image Feature Vectors.
Какие метрики используются и как они считаются
- Векторизация: Преобразование сырых данных в Feature Vectors (эмбеддинги). Патент указывает на использование нейронных сетей.
- Алгоритмы машинного обучения (Маппинг): Для создания многомерных пространств используются нейронные сети. Конкретно упоминается конфигурация Coupled Siamese Neural Network, которая обучается минимизировать cross-modal loss (кросс-модальные потери).
- Метрика расстояния (Distance): Ключевая метрика для определения релевантности в User Item Space. Патент явно определяет (Claims 10, 11), что это расстояние сконструировано так, чтобы отражать совместную встречаемость элементов в рамках навигационных сессий (поведенческую близость).
Выводы
- Поведение как основа семантической связи: Яндекс использует поведенческие данные как «Ground Truth» для определения связи между элементами. Текст и изображения маппируются на основе того, как пользователи взаимодействуют с ними, а не только на основе анализа их содержания.
- Критическая важность сессии (Co-visitation): Ключевым фактором, определяющим близость элементов в векторном пространстве, является их совместная встречаемость в рамках одной Navigation Session (Claims 10 и 11).
- Кросс-модальный маппинг: Система создает единое пространство (User Item Space), где текст и изображения связаны через поведение. Это позволяет рекомендовать товар на основе его изображения, даже если у него нет текстового описания, и наоборот.
- Релевантность вне ключевых слов: Механизм позволяет обойти необходимость ручной разметки ключевыми словами, определяя релевантность на основе анализа контента (визуального и текстового) в контексте выученных поведенческих паттернов.
- Решение проблемы «холодного старта»: Система способна интегрировать новые элементы (без истории) путем анализа их характеристик и сравнения с уже существующими элементами в поведенческом пространстве (Claim 12).
Практика
Best practices (это мы делаем)
Хотя патент ориентирован на рекомендательные и рекламные системы Яндекса, понимание его механизмов критически важно для SEO, особенно в E-commerce.
- Оптимизация пользовательского пути (User Journey) и Co-visitation: Проектируйте структуру сайта и внутреннюю перелинковку так, чтобы способствовать логичным навигационным сессиям. Поскольку совместная встречаемость в сессии определяет близость в User Item Space (Claims 10/11), элементы, которые должны быть ассоциированы (товар и аксессуары), должны быть легко доступны друг от друга.
- Эффективные блоки рекомендаций: Активно используйте блоки «Похожие товары», «С этим товаром смотрят». Это не только улучшает UX, но и напрямую предоставляет Яндексу данные о совместных просмотрах, которые используются для обучения этой системы.
- Согласованность текста и изображений (Cross-Modal Consistency): Убедитесь, что изображения максимально релевантны текстовому описанию. Яндекс учится связывать Text Feature Vector и Image Feature Vector через поведение; четкое соответствие поможет системе сформировать более точное представление элемента.
- Оптимизация визуального контента: Используйте высококачественные, четкие и репрезентативные изображения. Поскольку система генерирует Image Feature Vector, визуальные характеристики напрямую влияют на позиционирование элемента в векторном пространстве.
Worst practices (это делать не надо)
- Использование нерелевантных или стоковых изображений: Использование изображений, не связанных с основным контентом. Система может ошибочно ассоциировать поведение, вызванное изображением, с поведением, вызванным текстом, что приведет к размытию позиционирования элемента.
- Слабая внутренняя перелинковка и тупиковые страницы: Создание страниц, с которых пользователю трудно перейти к связанным элементам. Это ослабляет сигналы совместной встречаемости и затрудняет системе определение поведенческих связей.
- Манипуляции с рекомендациями: Внедрение блоков рекомендаций, которые показывают несвязанные товары ради продвижения. Если пользователи не будут взаимодействовать с ними (т.е. не будет совместных просмотров), система не сформирует сильной связи в User Item Space.
Стратегическое значение
Патент подтверждает стратегический фокус Яндекса на анализе поведения пользователей и использовании векторных пространств для понимания семантики. Он демонстрирует, как поведенческие данные (в частности, данные сессий) используются для связывания разнородной информации (текст и изображения). Для E-commerce это означает, что успех на платформах Яндекса во многом зависит от того, насколько хорошо структура сайта и UX способствуют созданию четких и сильных сигналов совместной встречаемости для связанных товаров.
Практические примеры
Сценарий 1: Оптимизация карточки товара E-commerce (Ноутбук) для усиления Co-visitation
- Задача: Улучшить видимость ноутбука и связанных аксессуаров (сумка, мышь) в рекомендациях Яндекса.
- Анализ на основе патента: Необходимо усилить поведенческую связь (совместную встречаемость в сессии) между этими товарами (Claims 10/11).
- Действия:
- Внедрить на карточке ноутбука заметный и релевантный блок «Необходимые аксессуары» (сумка, мышь).
- Оптимизировать UX так, чтобы переход к аксессуарам и возврат к ноутбуку был бесшовным.
- Ожидаемый результат: Пользователи чаще просматривают ноутбук и мышь в рамках одной Navigation Session. В модели Яндекса (User Item Space) векторы ноутбука и мыши сближаются. Это увеличивает вероятность их совместного показа в рекомендациях.
Сценарий 2: Интеграция нового товара (Холодный старт, Claim 12)
- Ситуация: Магазин добавляет новый товар — «Синий бархатный диван Арт-деко». Статистики по нему нет.
- Действие системы: Система анализирует текст и изображение нового дивана и генерирует его Text/Image Feature Vectors.
- Поиск аналогов: Система находит существующие товары (например, «Кресло Арт-деко»), по которым есть история взаимодействий и которые имеют схожие векторы.
- Позиционирование: Новый диван позиционируется в User Item Space рядом с этими существующими товарами (Claim 12).
- Результат: Когда пользователи, интересующиеся стилем Арт-деко, проявляют активность, новый диван сразу попадает в их рекомендации, минуя необходимость накопления собственной статистики.
Вопросы и ответы
Что является самым важным сигналом, определяющим связи в этом векторном пространстве (User Item Space)?
Согласно патенту (Claims 10 и 11), самым важным сигналом является совместная встречаемость (co-occurrence или co-visitation) элементов в рамках одной навигационной сессии пользователя. Расстояние между элементами в пространстве напрямую отражает, насколько часто они просматриваются вместе. Это поведенческий сигнал, который система использует как основу (Ground Truth) для определения схожести.
Этот патент описывает алгоритм органического ранжирования или рекомендательную систему?
Этот патент в первую очередь описывает технологию для рекомендательных систем и таргетированной рекламы (AdTech). Он фокусируется на том, как ассоциировать «элементы» (товары, рекламу) с поведением пользователя. Он не описывает ранжирование в органическом веб-поиске, но используемые технологии (векторизация поведения, кросс-модальный анализ) дают представление о возможностях Яндекса в понимании контента.
Как SEO-специалист может повлиять на позицию своего товара в этом «User Item Space»?
Основной способ влияния — это оптимизация пользовательского пути (User Journey) на сайте. Необходимо стимулировать пользователей просматривать связанные товары в рамках одной сессии. Внедрение эффективных блоков перелинковки, рекомендаций («Похожие товары», «Аксессуары») и улучшение UX напрямую влияют на сигналы совместной встречаемости, которые Яндекс использует для построения этого пространства.
Патент упоминает маппинг текста и изображений. Как это влияет на SEO-оптимизацию изображений?
Это значительно повышает важность самих изображений. Система генерирует Image Feature Vector на основе визуальных характеристик и учится связывать их с поведением и текстом. Для SEO это подчеркивает важность использования уникальных, высококачественных и строго релевантных тексту изображений, так как они напрямую влияют на позиционирование элемента в векторном пространстве, а не только через атрибуты alt.
Как система обрабатывает новые товары, по которым еще нет истории поведения пользователей (холодный старт)?
Патент описывает механизм (Claim 12) для решения этой проблемы. Система анализирует характеристики нового элемента (текст, изображение) и сравнивает их с характеристиками уже известных элементов, которые уже позиционированы в User Item Space. Новый элемент размещается в пространстве на основе этой схожести, что позволяет сразу включить его в рекомендации.
Что такое Siamese Neural Networks и как они используются здесь?
Siamese Neural Networks (Сиамские нейронные сети) — это архитектура, используемая для изучения схожести. В контексте патента они используются для обучения системы связывать разнородные данные (например, поведение и текст). Сеть обучается так, чтобы минимизировать расстояние между выходами, если входы связаны (например, просмотрены в одной сессии). Это позволяет создать общее пространство, где связанные элементы находятся близко.
Означает ли этот патент, что ключевые слова больше не важны?
Для систем рекомендаций и AdTech важность традиционных ключевых слов снижается, так как система может работать напрямую с векторами контента, связывая их с поведением. Однако для органического поиска ключевые слова остаются критически важными для определения текстовой релевантности. Этот патент просто показывает альтернативный, поведенческий способ определения релевантности.
Может ли эта система работать, если у товара есть только изображение без текста?
Да. В патенте указано (Параграф), что технология позволяет позиционировать товар в User Item Space, даже если он связан только с одним типом индикатора (например, только с изображением). В этом случае позиционирование будет основано на Image Feature Vector и его связи с поведенческими паттернами пользователей, которые взаимодействовали с визуально похожими товарами.
Применяется ли этот механизм только к E-commerce?
Хотя E-commerce является наиболее очевидным применением (товары и баннеры), механизм универсален. Он может применяться к любому типу «элементов», включая статьи (Дзен), видео или услуги. Система может рекомендовать контент на основе истории чтения или просмотра, используя те же принципы поведенческой близости.
Если два разных сайта продают один и тот же товар, как система обрабатывает их?
Патент указывает (Параграф), что система может обрабатывать элементы с разных сетевых ресурсов. Если пользователи часто просматривают один и тот же товар на Сайте А и Сайте Б в рамках своих поисковых сессий, или если товары имеют схожие текстовые/визуальные векторы, система может распознать эти элементы как схожие и расположить их близко друг к другу в User Item Space.