Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс объединяет данные из разных источников (Метрика, Браузеры, Провайдеры) для построения профилей пользователей и персонализации контента

    СПОСОБ И УСТРОЙСТВО ДЛЯ ДОСТАВКИ ЦЕЛЕВОГО КОНТЕНТА ЦЕЛЕВОМУ ПОЛЬЗОВАТЕЛЮ (METHOD AND DEVICE FOR DELIVERING TARGET CONTENT TO TARGET USER)
    • RU2632136C2
    • Yandex LLC
    • 2017-10-02
    • 2015-10-06
    2017 Патенты Яндекс Персонализация Поведенческие факторы Холодный старт

    Яндекс патентует метод построения детальных профилей пользователей путем объединения данных из разных источников (например, данные интернет-провайдера и данные Яндекс.Метрики). Система обучает модель на пользователях, о которых известно максимум информации (пересечение источников), а затем использует эту модель для прогнозирования интересов новых пользователей с похожим поведением (Look-alike). Это позволяет персонализировать выдачу и другой целевой контент.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему «холодного старта» (cold start problem) — сложности прогнозирования интересов пользователя, о котором накоплено мало информации. Он также адресует задачу повышения точности профилирования за счет объединения разрозненных источников данных (Data Fusion). Это позволяет системе более эффективно доставлять целевой контент (включая персонализированные результаты поиска и рекламу), даже если история пользователя ограничена.

    Что запатентовано

    Запатентован способ и система для генерации профилей пользователей путем триангуляции данных из независимых источников. Суть изобретения заключается в обучении предиктивной модели на основе максимально полной, объединенной истории пользователей, которые были идентифицированы сразу в нескольких наборах данных (например, в логах интернет-провайдера И в логах Яндекс.Метрики). Эта модель затем используется для прогнозирования интересов других пользователей.

    Как это работает

    Система собирает Первые данные (например, от поставщика браузера или ISP) и Вторые данные (например, от Метрики на сайтах). Она идентифицирует Третье множество пользователей — тех, кто присутствует в обоих наборах. Их истории объединяются, создавая эталонный («золотой») набор данных. На этом наборе обучается модель генерации профилей. Когда появляется Целевой пользователь (даже с короткой историей), система ищет корреляции его поведения с эталонной выборкой. При нахождении корреляции профиль известного пользователя используется для прогнозирования профиля целевого пользователя (модель Look-alike), что позволяет доставить ему релевантный контент.

    Актуальность для SEO

    Высокая. Триангуляция данных, построение детальных поведенческих профилей и моделирование Look-alike являются фундаментом современных систем персонализации и рекламы. Описанные методы лежат в основе технологий анализа больших данных Яндекса (таких как Крипта) и активно используются для персонализации поиска (L4) и таргетинга в РСЯ.

    Важность для SEO

    Влияние на SEO значительно (7/10). Патент не описывает алгоритмы базового ранжирования (L1-L3). Однако он раскрывает инфраструктуру глубокой персонализации (L4). В патенте прямо указано, что целевым контентом могут быть «результаты поиска». Это означает, что финальная выдача может существенно меняться в зависимости от прогнозируемого профиля пользователя. Патент критически важен для понимания того, как Яндекс собирает поведенческие данные (особенно через Метрику и Браузер) для понимания интересов пользователей в масштабах всего интернета.

    Детальный разбор

    Термины и определения

    Первое множество пользователей
    Группа пользователей, данные о которых получены из первого источника (например, от интернет-провайдера или поставщика браузера).
    Второе множество пользователей
    Группа пользователей, которые взаимодействовали с определенной группой электронных ресурсов (например, данные, собранные Метрикой на этих сайтах).
    Третье множество пользователей
    Пересечение Первого и Второго множеств. Это ключевая группа пользователей, которые присутствуют в обоих источниках данных. На их объединенной, более полной истории происходит обучение модели.
    Пользовательская история (User History)
    Данные о взаимодействии пользователя с электронными ресурсами. Включает посещения, конкретные действия на сайтах, время взаимодействия, используемые устройства, навигационные пути.
    Профиль пользователя (User Profile)
    Численное представление интересов и поведения пользователя. В патенте описывается как точка или вектор в многомерном пространстве.
    Пользовательский вектор (User Vector)
    Конкретная реализация профиля пользователя. Вектор в многомерном пространстве, где измерения соответствуют ресурсам или действиям, а значения — весовым коэффициентам этих действий.
    Субпрофиль (Subprofile)
    Часть профиля пользователя, ограниченная определенным временным интервалом (например, профиль за последние 3 минуты, день или месяц). Позволяет учитывать динамику интересов.
    Целевой пользователь (Target User)
    Пользователь, для которого необходимо сгенерировать профиль и доставить контент. Обычно это пользователь с ограниченной известной историей («холодный старт»).
    Целевой контент (Targeted Content)
    Контент, доставляемый пользователю на основе его профиля (реклама, рекомендации, персонализированные результаты поиска).

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод использования пересечения данных из разных источников для обучения модели прогнозирования поведения пользователей и доставки контента.

    Claim 1 (Независимый пункт): Описывает полный цикл работы системы.

    1. Получение Первых данных о Первом множестве пользователей.
    2. Получение Вторых данных о Втором множестве пользователей.
    3. Определение пересечения — Третьего множества пользователей.
    4. Обучение модели для генерации профилей на основании пользовательской истории Третьего множества.
    5. Получение данных о Целевом пользователе.
    6. Проверка корреляции между историей Целевого пользователя и историей пользователей из Третьего множества.
    7. Если корреляция есть: генерация части профиля Целевого пользователя на основании профилей схожих пользователей из Третьего множества (Look-alike).
    8. Отправка Целевого контента.

    Claim 9 (Независимый пункт): Описывает способ обучения модели.

    Фокусируется на подготовке данных. Ключевым является использование Третьего множества как эталонной обучающей выборки. Объединение данных из разных источников дает более полную картину поведения, которая используется как Ground Truth для обучения.

    Claim 14 (Зависимый пункт от Claim 9): Уточняет механизм обучения.

    Машинное обучение использует в качестве входных данных часть истории пользователей из Третьего множества, а в качестве выходных (целевых) данных — их полные профили. Это означает, что модель учится предсказывать полный профиль интересов пользователя, имея на входе только фрагментарные данные о его поведении.

    Claim 7 (Зависимый пункт от Claim 1): Уточняет структуру профиля.

    Генерация профиля включает определение Пользовательского вектора за определенный интервал времени, что подтверждает использование временной сегментации (субпрофилей).

    Где и как применяется

    Изобретение описывает инфраструктуру для сбора данных и построения профилей пользователей (User Data Processing), которая работает параллельно основному поисковому конвейеру и тесно связана с технологиями Яндекс Крипта.

    CRAWLING – Сканирование и Сбор данных (Data Acquisition)
    На этом уровне система агрегирует данные не из веба, а из различных источников пользовательской активности. В патенте явно упоминаются:

    • Интернет-провайдеры (ISP).
    • Поставщики браузеров (например, Яндекс Браузер).
    • Владельцы сайтов (через системы метрик, например, Яндекс.Метрика).

    Офлайн-процессы и Машинное Обучение
    Значительная часть работы происходит офлайн:

    • Data Fusion: Идентификация пересечения пользователей и консолидация их истории.
    • Model Training: Обучение модели генерации профилей на основе этих консолидированных данных.

    RANKING – Ранжирование (L4 — Personalization)
    Сгенерированные Профили пользователей используются на этапе персонализации. Целевой контент, который доставляется пользователю, может включать персонализированные результаты поиска, подобранные на основе его прогнозируемых интересов. Система использует профиль для переранжирования базовой выдачи.

    Рекламные и Рекомендательные системы
    Также система активно используется для таргетинга рекламы (РСЯ/Директ) и формирования лент рекомендаций.

    На что влияет

    • Персонализация SERP: Влияет на точность адаптации результатов поиска под интересы конкретного пользователя.
    • Новые пользователи: Система особенно эффективна для пользователей с короткой историей («холодный старт»), позволяя быстро спрогнозировать их интересы методом Look-alike.
    • Типы контента: Влияет на любой персонализированный контент, включая результаты поиска, рекламу и рекомендации.

    Когда применяется

    • Обучение модели: Происходит периодически офлайн по мере накопления новых данных.
    • Генерация профиля: Происходит онлайн в момент взаимодействия пользователя с системой (например, при выполнении поискового запроса).
    • Триггер активации Look-alike: Недостаток информации о пользователе при необходимости доставить персонализированный контент.

    Пошаговый алгоритм

    Этап 1: Сбор и Подготовка Данных (Офлайн)

    1. Получение Первых Данных: Загрузка данных о Первом множестве пользователей (например, из Яндекс Браузера).
    2. Получение Вторых Данных: Загрузка данных о Втором множестве пользователей (например, из Яндекс Метрики).
    3. Идентификация Пересечения: Определение Третьего множества пользователей, присутствующих в обоих наборах.
    4. Консолидация Истории: Объединение данных из обоих источников для Третьего множества для формирования максимально полной пользовательской истории.

    Этап 2: Обучение Модели (Офлайн)

    1. Формирование Эталонных Профилей: Генерация профилей (многомерных векторов) для Третьего множества на основе их консолидированной истории.
    2. Обучение Модели: Обучение модели (например, нейронной сети) предсказывать полный эталонный профиль пользователя, используя в качестве входных данных только часть его истории (согласно Claim 14).

    Этап 3: Применение (Онлайн)

    1. Получение Данных о Целевом Пользователе: Система получает текущую историю Целевого пользователя.
    2. Анализ Корреляции: Система определяет схожесть (корреляцию) истории Целевого пользователя с историями пользователей из Третьего множества (или использует обученную модель).
    3. Генерация Профиля (Look-alike): Если корреляция обнаружена, система генерирует профиль Целевого пользователя на основании профиля похожего пользователя. Может генерироваться только часть профиля (например, краткосрочный субпрофиль).
    4. Доставка Контента: Отправка Целевому пользователю контента (персонализация SERP), соответствующего сгенерированному профилю.

    Какие данные и как использует

    Данные на входе

    Система использует обширные данные о поведении пользователей, собранные из разных источников.

    • Поведенческие факторы (Пользовательская история): Это ядро системы. Включает:
      • Посещенные электронные ресурсы (сайты).
      • Действия на ресурсах: ввод логина и пароля, регистрация, подписка на рассылку новостей.
      • Продолжительность посещения (время на сайте).
      • Навигационные пути: с каких ресурсов пользователь перешел и на какие ушел после посещения.
    • Технические факторы: Тип устройства пользователя.
    • Временные факторы: Время посещения сайта (ночь, день, утро, вечер).
    • Источники данных: Данные от интернет-провайдеров, поставщиков браузеров (Яндекс Браузер), владельцев сайтов (Яндекс Метрика).

    Какие метрики используются и как они считаются

    Патент детально описывает механизм построения профилей в виде векторов.

    • Многомерное пространство Профилей: Профиль пользователя представляется как точка или вектор в многомерном пространстве (упоминается пример 1000-мерного пространства). Каждая ось ассоциирована с ресурсом или действием.
    • Весовые коэффициенты (Weights): Система присваивает различные веса разным действиям. Пример из патента: посещение сайта = 1, ввод логина/регистрация = 2, подписка на рассылку = 3.
    • Метрика Схожести (Корреляция): Схожесть между пользователями определяется как расстояние между их векторами. Меньшее расстояние означает большую схожесть. В патенте приводится пример расчета расстояния (например, Евклидово расстояние).
    • Направление Вектора: В некоторых вариантах важна не только близость точек, но и направление вектора. Это позволяет идентифицировать схожие интересы у пользователей с разным уровнем активности.
    • Временные Субпрофили: Профиль пользователя состоит из субпрофилей, ограниченных по времени (например, профиль за последние 3 минуты, день, месяц). Это позволяет учитывать как краткосрочные, так и долгосрочные интересы.

    Выводы

    1. Data Fusion как основа экосистемы: Яндекс активно объединяет данные из разрозненных источников (ISP, Яндекс.Метрика, Яндекс Браузер) для построения максимально полных профилей пользователей. Это фундамент технологий типа Крипта и персонализации.
    2. Решение «холодного старта» через Look-alike: Основной механизм патента — использование объединенных данных для обучения моделей Look-alike. Это позволяет прогнозировать интересы новых пользователей на основе поведения похожих людей, о которых известно много.
    3. Глубина поведенческого анализа: Отслеживание не ограничивается фактом посещения. Учитываются конкретные действия (регистрация, подписка), время, устройство и полные навигационные пути. Разные действия имеют разный вес.
    4. Сложная векторная модель профиля: Профили моделируются как многомерные векторы с весовыми коэффициентами и временной сегментацией (субпрофили), что позволяет учитывать динамику интересов.
    5. Критическая роль Яндекс.Метрики: Патент подчеркивает стратегическую ценность данных Метрики как одного из ключевых источников (Вторые данные) для работы глобальных систем персонализации Яндекса.

    Практика

    Best practices (это мы делаем)

    • Использование и настройка Яндекс.Метрики: Метрика является ключевым источником поведенческих данных для Яндекса. Корректная установка и настройка целей (особенно на значимые действия, такие как регистрация или подписка) обеспечивает систему необходимыми данными для точного профилирования вашей аудитории.
    • Фокус на вовлеченности и конверсиях: Система придает больший вес значимым действиям, чем простым посещениям. Работайте над улучшением UX/UI, чтобы стимулировать пользователей к взаимодействию (время на сайте, глубина просмотра, целевые действия). Это формирует более сильные и ценные профили.
    • Привлечение и удержание целевой аудитории: Необходимо четко понимать профиль своей ЦА. Если ваш сайт стабильно привлекает пользователей с определенным набором интересов, Яндекс ассоциирует ваш сайт с этим профилем. Это может улучшить ранжирование вашего сайта в персонализированной выдаче (L4) для других пользователей с похожим профилем (Look-alike).
    • Анализ интересов аудитории (Affinity Index): Используйте отчеты Метрики по долгосрочным интересам, чтобы понять, как Яндекс профилирует ваших посетителей, и учитывайте эти смежные интересы в контент-стратегии.

    Worst practices (это делать не надо)

    • Привлечение нецелевого трафика и накрутки ПФ: Привлечение мотивированного или нерелевантного трафика «размывает» профиль аудитории сайта. Это затрудняет системе ассоциацию вашего сайта с конкретными интересами и может ухудшить работу персонализированных алгоритмов в отношении вашего ресурса.
    • Накрутка простых посещений: Генерация трафика без значимых действий малоэффективна, так как система использует весовые коэффициенты, и простые посещения имеют низкий вес по сравнению с регистрациями или подписками.
    • Игнорирование пользовательского опыта: Плохой UX приводит к коротким сессиям, что формирует негативные поведенческие сигналы и снижает вес взаимодействий с вашим сайтом при построении профилей.

    Стратегическое значение

    Патент демонстрирует наличие у Яндекса сложной инфраструктуры (Крипта) для отслеживания и анализа поведения пользователей по всему интернету, далеко за пределами только поисковых логов. Персонализация выдачи (L4) базируется на этом всестороннем понимании поведения. Стратегически это означает, что SEO должно фокусироваться на качестве трафика, соответствии контента интересам конкретных сегментов аудитории и формировании положительных поведенческих паттернов.

    Практические примеры

    Сценарий 1: Влияние весовых коэффициентов действий на профилирование

    1. Ситуация: Два конкурирующих сайта по тематике «Инвестиции». Сайт А имеет много трафика, но пользователи быстро уходят. Сайт Б имеет меньше трафика, но высокий процент регистраций в личном кабинете и подписок на аналитику.
    2. Как работает система: При построении профилей пользователей система присваивает действиям «регистрация» и «подписка» (Сайт Б) больший вес (например, 2 или 3), чем простому «посещению» (Сайт А, вес 1).
    3. Результат: Профили пользователей Сайта Б будут сильнее связаны с тематикой «Инвестиции» в модели Яндекса. Когда новый пользователь проявит начальный интерес к инвестициям, система, используя модель Look-alike на основе пользователей Сайта Б, с большей вероятностью покажет ему Сайт Б в персонализированной выдаче.

    Сценарий 2: Персонализация выдачи через Look-alike

    1. Сбор данных (Офлайн): Яндекс выявил группу пользователей (Третье множество), которые часто посещают сайты по Python-разработке и сайты по анализу данных. Для них сформирован профиль «Интерес: Data Science».
    2. Новый пользователь (Онлайн): Новый пользователь (Целевой пользователь) посещает сайт по Python-разработке.
    3. Действие системы: Система видит корреляцию поведения нового пользователя с поведением группы «Data Science». Система прогнозирует, что новый пользователь также интересуется Data Science.
    4. Доставка контента: Когда этот пользователь вводит запрос «курсы машинного обучения», Яндекс на этапе персонализации (L4) повысит в выдаче те сайты, которые предпочитают пользователи с профилем «Интерес: Data Science».

    Вопросы и ответы

    Что такое «Третье множество пользователей» и почему оно так важно в этом патенте?

    Третье множество — это пользователи, которые были идентифицированы одновременно в двух разных источниках данных (например, в логах Яндекс.Браузера И в данных Яндекс.Метрики на конкретных сайтах). Эта группа критически важна, потому что объединение данных из разных источников позволяет составить максимально полную историю их поведения. Они служат эталонной выборкой (Ground Truth) для обучения модели прогнозирования интересов.

    Влияет ли этот патент на ранжирование в поиске или он только про рекламу?

    Он влияет и на ранжирование. Хотя основное применение — это реклама и рекомендации, в патенте явно указано, что «целевой контент» может включать «результаты поиска». Это означает, что описанный механизм построения профилей используется для глубокой персонализации поисковой выдачи на уровне L4 (Personalization), адаптируя ее под прогнозируемые интересы пользователя.

    Как Яндекс решает проблему «холодного старта» для новых пользователей?

    Система использует механизм Look-alike. Когда новый пользователь совершает первые действия, система сравнивает его короткую историю с историями известных пользователей (Третье множество). Если находится корреляция (похожее поведение), система предполагает, что их интересы схожи, и применяет соответствующий профиль интересов для нового пользователя. Это позволяет сразу персонализировать контент.

    Какие источники данных использует Яндекс согласно патенту?

    Патент упоминает три основных типа источников: данные от интернет-провайдеров (ISP), данные от поставщиков браузеров (например, Яндекс.Браузер) и данные от владельцев сайтов (системы аналитики, в частности, Яндекс.Метрика). Ключевая идея — объединение этих данных.

    Что такое «Профиль пользователя» в контексте этого патента?

    Профиль пользователя — это математическая модель его интересов, представленная в виде многомерного вектора. Каждое измерение соответствует сайту или действию. Важно, что разные действия имеют разный вес: например, регистрация весит больше (вес 2 или 3), чем простое посещение (вес 1). Схожесть пользователей определяется близостью их векторов.

    Учитывает ли система краткосрочные и долгосрочные интересы?

    Да, учитывает. В патенте описана концепция «субпрофилей». Профиль пользователя может состоять из частей, характеризующих разные временные интервалы (например, последние 3 минуты, последний день, последний месяц). Это позволяет системе гибко реагировать как на сиюминутные потребности пользователя, так и учитывать его долгосрочные интересы.

    Как этот патент влияет на SEO-стратегию?

    Он подчеркивает важность работы над поведенческими факторами, вовлеченностью и качеством аудитории. Поскольку система придает больший вес значимым действиям (регистрация, подписка), стратегия должна быть направлена на стимулирование таких взаимодействий. Также критически важно привлекать целевой трафик, чтобы формировать четкие профили, ассоциированные с вашим сайтом.

    Подтверждает ли этот патент, что Яндекс.Метрика используется в ранжировании?

    Патент подтверждает, что данные Метрики являются одним из ключевых источников данных для обучения моделей персонализации (L4). Хотя он не говорит об использовании Метрики в базовом ранжировании (L1-L3), он четко показывает ее роль в формировании профиля пользователя, который влияет на финальную персонализированную выдачу.

    Что произойдет, если я буду привлекать много нецелевого трафика на сайт?

    Привлечение смешанного или нецелевого трафика «размывает» профиль аудитории сайта в системе Яндекса. Это затрудняет системе ассоциацию вашего сайта с конкретными интересами. В результате вы можете потерять преимущества от персонализированного ранжирования для вашей реальной целевой аудитории, так как система не сможет эффективно применять Look-alike модели.

    Как я могу понять, к какому профилю Яндекс относит посетителей моего сайта?

    Наиболее прямой способ — это анализ отчетов Яндекс.Метрики, в частности отчета «Долгосрочные интересы» (Affinity Index). Этот отчет показывает, какие тематики интересуют ваших посетителей в целом, давая представление о том, как система профилирования Яндекса классифицирует вашу аудиторию на основе их глобального поведения в сети.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.