Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс профилирует пользователей и определяет их интересы и демографию на основе истории посещенных доменов

    METHOD AND SYSTEM FOR CREATING PERSONALIZED USER PARAMETER OF INTEREST FOR IDENTIFYING PERSONALIZED TARGET CONTENT ELEMENT (Способ и система для создания персонализированного пользовательского параметра интереса для идентификации персонализированного целевого элемента содержимого)
    • RU2757546C2
    • Yandex LLC
    • 2021-10-18
    • 2017-07-25
    2021 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

    Яндекс патентует метод создания профиля пользователя исключительно на основе истории его браузера (URL). Система анализирует, какие домены пользователь посещал в рамках одной сессии, и использует алгоритмы типа word2vec для определения близости этих доменов. На основе этой близости, редкости доменов и давности посещений вычисляется навигационный профиль, который затем используется для предсказания интересов и социально-демографических характеристик пользователя (возраст, доход, пол) для таргетинга рекламы и рекомендаций (например, в Дзен).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу эффективного создания детализированных профилей пользователей для систем рекомендаций контента и таргетированной рекламы. Существующие методы (например, анализ содержимого посещенных страниц или сложная коллаборативная фильтрация) часто требуют значительных вычислительных ресурсов. Патент предлагает менее затратный способ профилирования, основанный исключительно на анализе истории посещенных URL (конкретнее, их доменных частей), без необходимости анализа контента страниц.

    Что запатентовано

    Запатентована система и метод создания «Персонализированного пользовательского параметра интереса» (профиля пользователя) на основе его истории переходов. Суть изобретения заключается в двухступенчатом применении машинного обучения. Первый алгоритм (на основе word2vec) создает векторные представления посещенных доменов (Сегментов URL) на основе их совместного появления в сессиях. Второй алгоритм преобразует агрегированный Навигационный профиль пользователя в конкретные характеристики (интересы и демографию).

    Как это работает

    Система получает историю посещений пользователя и разбивает ее на сессии. URL нормализуются до уровня доменов (Сегментов URL). С помощью модели, аналогичной word2vec, обученной на совместной встречаемости доменов в сессиях разных пользователей, каждому домену присваивается вектор. Далее вычисляется Значение навигационного профиля пользователя как взвешенная сумма этих векторов. Веса (W) учитывают глобальную редкость домена (Inverse Frequency) и давность посещения (Recency). Финальный этап — использование этого профиля для предсказания социально-демографических характеристик и интересов пользователя, которые затем применяются для подбора релевантной рекламы или рекомендаций.

    Актуальность для SEO

    Высокая. Поведенческое профилирование и использование векторных представлений (эмбеддингов) для персонализации являются стандартом индустрии и основой работы РСЯ и рекомендательных систем (Дзен). Хотя конкретное упоминание word2vec может указывать на технологический стек 2017 года, базовый принцип использования навигационных данных и совместного посещения для построения векторов остается крайне актуальным.

    Важность для SEO

    Влияние на органическое SEO минимально (3/10). Патент не описывает алгоритмы ранжирования поисковой выдачи. Он относится к системам персонализации, рекомендаций и рекламного таргетинга. Однако он дает критически важное понимание того, как Яндекс анализирует поведение пользователей на межсайтовом уровне и как кластеризует веб-сайты на основе совместного посещения. Это важно для общей цифровой стратегии, понимания аудитории и оптимизации под рекомендательные системы Яндекса.

    Детальный разбор

    Термины и определения

    Значение навигационного профиля (Navigation Profile Value, Vпрофиль)
    Агрегированный вектор, представляющий навигационные характеристики пользователя за определенный период. Является суммой скорректированных векторных значений всех посещенных сегментов URL.
    Первый алгоритм машинного обучения (First MLA)
    Алгоритм (в патенте указан основанный на word2vec), обученный создавать векторные значения (эмбеддинги) для сегментов URL. Обучение основано на совместном вхождении сегментов URL в сессии. Сегменты, посещаемые вместе, проецируются близко в векторном пространстве.
    Персонализированный пользовательский параметр интереса (Personalized User Interest Parameter)
    Итоговый профиль пользователя. Включает предсказанные интересы и социально-демографические характеристики (возраст, доход, регион, пол). Используется для выбора целевого контента.
    Сегмент URL (URL Segment)
    Укороченная версия URL, полученная после удаления протокола, пути, имени файла, домена верхнего уровня и ‘www’. Обычно соответствует имени домена второго уровня и его субдоменам (например, ‘news.yandex’).
    Второй алгоритм машинного обучения (Second MLA)
    Алгоритм (например, дерево принятия решений или нейросеть), обученный предсказывать Персонализированный пользовательский параметр интереса на основе Значения навигационного профиля.
    Шаблон навигационных переходов в сессии (Session Navigation Pattern)
    Последовательность URL (или сегментов URL), посещенных пользователем в рамках одной браузерной сессии (ограниченного периода времени).
    Весовое значение (W) (Weight Value)
    Коэффициент важности сегмента URL. Основан на Редкости (обратная частота в глобальном журнале) и/или Свежести (давности посещения).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной способ создания персонализированного профиля.

    1. Сервер получает данные об истории переходов пользователя (URL) за определенный период.
    2. История преобразуется в шаблоны навигационных переходов в сессии (сессионизация).
    3. Для каждого шаблона выполняется обработка:
      1. URL укорачиваются до сегментов URL.
      2. Для каждого сегмента создается векторное значение с помощью Первого MLA. Этот алгоритм обучен на основе совместного вхождения сегментов в сессиях (co-occurrence).
      3. Каждому сегменту назначается весовое значение (W). Оно определяется на основе (i) обратной пропорциональности частоте сегмента в глобальном журнале всех пользователей (Редкость/Inverse Frequency) И/ИЛИ (ii) давности доступа к URL пользователем (Свежесть/Recency).
    4. Определяется Значение навигационного профиля пользователя на основе векторных значений и их весов.
    5. С помощью Второго MLA создается Персонализированный пользовательский параметр интереса. Второй MLA обучен размечать соответствие навигационного профиля параметрам интереса (например, демографии).

    Claim 6 и 7: Уточняют, что Первый MLA использует алгоритм на основе word2vec, который проецирует сегменты URL, появляющиеся в одной сессии, близко друг к другу в многомерном пространстве.

    Claim 8: Детализирует вычисление значения навигационного профиля (из пункта 1).

    1. Для каждого векторного значения ($V_{хост}$) в истории пользователя вычисляется скорректированное векторное значение ($V_{скоррект.}$) по формуле:
      $$V_{скоррект.} = V_{хост} \times W \times N$$
      Где W — весовое значение (из п.1), а N — число вхождений данного сегмента URL (имени доменного уровня) в истории пользователя.
    2. Значение навигационного профиля получается путем сложения всех скорректированных векторных значений.

    Где и как применяется

    Этот патент не относится к основному конвейеру поискового ранжирования (CRAWLING, INDEXING, RANKING). Он описывает механизмы, используемые в системах Персонализации, Рекомендаций (например, Дзен) и Рекламного таргетинга (РСЯ).

    Сбор данных и профилирование (Вне основного поиска)

    • Источники данных: Данные об истории переходов собираются, вероятнее всего, через сервисы веб-аналитики (упоминается Яндекс.Метрика) или через Яндекс.Браузер. Система использует уникальный ID браузера (например, куки `yandexuid`) для идентификации пользователя.
    • Офлайн-обработка:
      • Обучение Первого MLA (Domain Embeddings на базе word2vec) происходит офлайн на основе анализа массива сессий разных пользователей для определения близости доменов.
      • Обучение Второго MLA (предсказание интересов/демографии) также происходит офлайн на размеченных данных.
    • Онлайн-обработка (или Near-Real-Time): Когда пользователь взаимодействует с сервисом Яндекса, система вычисляет (или обновляет) его Значение навигационного профиля и определяет Параметр интереса для подбора контента или рекламы.

    На что влияет

    • Рекомендательные системы и Рекламный таргетинг: Напрямую влияет на то, какой контент будет показан пользователю в персонализированных лентах (Дзен) и какие рекламные объявления будут выбраны в РСЯ.
    • Кластеризация сайтов (Косвенно): Механизм влияет на то, как Яндекс группирует сайты по тематикам и аудиториям. Сайты, которые часто посещаются в рамках одной сессии (Co-visitation), считаются близкими в векторном пространстве (Domain Embeddings).
    • Органический поиск: В патенте нет информации о влиянии этого механизма на ранжирование в органическом поиске.

    Когда применяется

    Алгоритм применяется, когда необходимо предоставить пользователю персонализированный контент или рекламу.

    • Триггеры активации: Доступ пользователя к веб-сервису, который поддерживает персонализацию, или загрузка страницы с рекламными блоками.
    • Условия работы: Наличие достаточной истории переходов у пользователя за определенный период (например, за последние несколько дней или недель).

    Пошаговый алгоритм

    Процесс А: Офлайн-обучение моделей

    1. Сбор данных: Агрегация истории переходов множества пользователей.
    2. Подготовка данных: Сессионизация истории и нормализация URL до сегментов URL.
    3. Обучение Первого MLA (Domain Embeddings): Обучение модели (word2vec) на последовательностях сегментов URL в сессиях. Цель — получить векторы доменов, где совместно посещаемые домены находятся близко.
    4. Расчет глобальных весов: Определение частоты каждого сегмента URL в глобальном журнале для расчета компонента Редкости (Inverse Frequency) веса (W).
    5. Обучение Второго MLA: Вычисление значений навигационного профиля для обучающей выборки пользователей с известными характеристиками (демография, интересы). Обучение Второго MLA предсказывать эти характеристики на основе профиля.

    Процесс Б: Создание профиля пользователя и выбор контента

    1. Получение истории: Получение истории переходов (URL и время) целевого пользователя за период.
    2. Сессионизация и Нормализация: Разбиение истории на сессии и укорачивание URL до сегментов URL. Удаление дубликатов.
    3. Векторизация: Получение векторных значений ($V_{хост}$) для каждого сегмента с помощью предобученного Первого MLA.
    4. Взвешивание: Определение весового значения (W) для каждого сегмента, учитывая его глобальную редкость и давность посещения пользователем (Свежесть).
    5. Вычисление скорректированных векторов: Расчет скорректированного векторного значения для каждого посещения:
      $$V_{скоррект.} = V_{хост} \times W \times N$$
      (где N — частота сегмента в истории пользователя).
    6. Агрегация профиля: Вычисление Значения навигационного профиля путем суммирования всех скорректированных векторов.
    7. Предсказание интересов: Использование Второго MLA для генерации Персонализированного пользовательского параметра интереса.
    8. Выбор контента: Сопоставление Параметра интереса с векторами свойств целевых элементов содержимого (рекламы/рекомендаций) и выбор ближайших.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы: Это основной тип данных. Используется история переходов пользователя:
      • Список посещенных URL.
      • Время доступа к каждому URL.
      • Последовательность посещений (для сессионизации).
      • Частота посещения конкретных URL/доменов пользователем (N).
    • Глобальные поведенческие данные: История переходов множества пользователей используется для:
      • Обучения Первого MLA (определение совместной встречаемости доменов).
      • Расчета глобальной частоты доменов для весового значения W (Редкость).
    • Технические факторы: Уникальный ID браузера (например, `yandexuid`), используемый для идентификации пользователя.

    Важно отметить, что патент специально разработан так, чтобы НЕ использовать контентные, ссылочные или структурные факторы страниц.

    Какие метрики используются и как они считаются

    • Векторное значение сегмента URL ($V_{хост}$): Генерируется Первым MLA (word2vec). Отражает контекст совместного посещения домена с другими доменами.
    • Весовое значение (W): Метрика важности сегмента. Учитывает:
      • Редкость (Inverse Frequency): Обратная пропорциональность глобальной частоте сегмента. Редкие домены получают больший вес.
      • Свежесть (Recency): Основано на давности доступа. Недавние посещения получают больший вес.
    • Частота сегмента (N): Число вхождений сегмента URL в истории конкретного пользователя.
    • Скорректированное векторное значение ($V_{скоррект.}$): Промежуточная метрика, рассчитываемая по формуле:
      $$V_{скоррект.} = V_{хост} \times W \times N$$
    • Значение навигационного профиля ($V_{профиль}$): Итоговая метрика профиля пользователя, рассчитываемая как сумма скорректированных векторов:
      $$V_{профиль} = \Sigma V_{скорректированное}$$

    Выводы

    1. Профилирование без анализа контента: Яндекс использует метод профилирования пользователей, который опирается исключительно на историю посещенных доменов (Сегментов URL) и временные метки. Анализ содержимого страниц не требуется, что делает систему вычислительно эффективной.
    2. Domain Embeddings на основе совместного посещения (Co-visitation): Ключевой механизм — использование алгоритма типа word2vec (Первый MLA), обученного на сессиях пользователей. Это позволяет строить векторные представления доменов. Если пользователи часто посещают Сайт А и Сайт Б в одной сессии, их векторы сближаются. Это формирует понимание Яндексом тематической и поведенческой близости сайтов.
    3. Важность Редкости и Свежести: При расчете профиля пользователя приоритет отдается (i) доменам, которые редко встречаются в глобальной статистике (более специфичные, нишевые интересы), и (ii) доменам, которые были посещены недавно. Популярные ресурсы (например, google, yandex) пессимизируются.
    4. Цель — предсказание интересов и демографии: Конечная цель системы — преобразовать навигационный профиль в понятные характеристики (возраст, пол, доход, интересы) с помощью Второго MLA для использования в таргетинге рекламы и рекомендациях.
    5. Не является патентом о ранжировании: Этот патент не описывает, как ранжируются результаты в органическом поиске. Он описывает работу вспомогательных систем (рекомендации, реклама).

    Практика

    Best practices (это мы делаем)

    Хотя патент не влияет напрямую на органическое ранжирование, он дает важные инсайты для общей стратегии, понимания экосистемы Яндекса и оптимизации под рекомендательные системы.

    • Анализ поведенческого «соседства» (Co-visitation): Необходимо понимать, с какими другими сайтами ваш ресурс совместно посещается пользователями. Это определяет, как Яндекс позиционирует ваш сайт в векторном пространстве (Domain Embeddings). Используйте отчеты Яндекс.Метрики (например, долгосрочные интересы посетителей), чтобы понять, в какие кластеры интересов попадает ваша аудитория и с кем вы ассоциируетесь.
    • Стратегия на формирование четкого профиля аудитории: Фокусируйтесь на привлечении целевого трафика. Качество и тип трафика имеют значение для того, как система классифицирует ваш ресурс. Фокус на Topical Authority помогает сформировать более четкий поведенческий профиль аудитории, привлекаемой сайтом.
    • Оптимизация под рекомендательные системы (Яндекс.Дзен): Патент напрямую описывает механизм профилирования для рекомендаций. Чтобы эффективно получать трафик из Дзена, контент должен соответствовать тем интересам и демографии, которые Яндекс идентифицирует у пользователей с помощью описанного механизма.
    • Удержание аудитории и стимулирование повторных визитов: Давность (Recency, компонент W) и частота (N) посещений напрямую используются в формуле расчета навигационного профиля. Регулярное взаимодействие пользователя с сайтом усиливает его вес в профиле пользователя.

    Worst practices (это делать не надо)

    • Привлечение нецелевого или мусорного трафика: Покупка дешевого трафика или использование кликбейта для привлечения широкой, но не заинтересованной аудитории может привести к размытию профиля сайта. Система может начать ассоциировать ваш ресурс с нежелательными пользовательскими сегментами, если эта аудитория посещает ваш сайт вместе с низкокачественными ресурсами.
    • Игнорирование данных Метрики об интересах аудитории: Пренебрежение анализом того, как Яндекс видит вашу аудиторию на основе их кросс-сайтового поведения (отчеты по интересам и демографии), может привести к неэффективным контент-стратегиям.

    Стратегическое значение

    Патент подтверждает стратегическую важность поведенческих данных в экосистеме Яндекса далеко за пределами основного поиска. Он демонстрирует, как Яндекс использует данные Метрики и Браузера для глубокого профилирования пользователей и кластеризации веб-ресурсов. Для SEO-стратега это подчеркивает необходимость комплексного подхода: понимание не только того, как пользователи ищут, но и того, как они ведут себя в интернете в целом, формирует их профиль и определяет позиционирование сайта в глазах Яндекса.

    Практические примеры

    Сценарий 1: Определение близости сайтов (Первый MLA / Co-visitation)

    1. Поведение пользователей: Большое количество пользователей в течение дня ищут информацию о покупке машины. Они посещают `auto.ru`, затем `drom.ru`, а затем идут на `banki.ru` для изучения автокредитов. Все это происходит в рамках одной сессии.
    2. Действие системы (Офлайн): Первый MLA (word2vec) обрабатывает эти сессии. Он видит совместное вхождение сегментов ‘auto’, ‘drom’ и ‘banki’.
    3. Результат: Векторные представления (Domain Embeddings) этих трех сайтов сближаются в многомерном пространстве, формируя кластер интересов, связанный с покупкой авто.

    Сценарий 2: Расчет навигационного профиля пользователя (Влияние Редкости и Частоты)

    1. История пользователя: Пользователь за последнюю неделю 10 раз посетил `habr.com` (часто, но популярный ресурс) и 2 раза посетил `nplus1.ru` (реже, но более нишевый ресурс). Последний визит на `nplus1.ru` был сегодня.
    2. Взвешивание:
      • `habr.com`: Высокая частота (N=10), но низкий вес W (так как домен глобально популярен — низкая Редкость).
      • `nplus1.ru`: Низкая частота (N=2), но высокий вес W (так как домен нишевый — высокая Редкость) и высокий вес W (посещение сегодня — высокая Свежесть).
    3. Расчет: Система вычисляет скорректированные векторы ($V_{хост} \times W \times N$). Благодаря высоким весам W, вклад `nplus1.ru` в итоговый навигационный профиль может оказаться выше, чем вклад `habr.com`, несмотря на меньшую частоту посещений.
    4. Результат: Пользователь профилируется как интересующийся не просто IT, а глубокой наукой/научпопом. Ему будут рекомендованы соответствующий контент в Дзене или таргетированная реклама.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование в органическом поиске Яндекса?

    Нет, прямого влияния нет. Патент описывает способ создания профиля пользователя для систем рекомендаций контента (например, Яндекс.Дзен) и таргетирования рекламы (РСЯ). Он не затрагивает факторы, используемые для определения релевантности документов в ответ на поисковый запрос в основном поиске.

    Какие данные использует Яндекс в этой системе и откуда их берет?

    Система использует исключительно навигационные данные: список посещенных URL и время их посещения. Содержимое страниц не анализируется. Источником данных, вероятнее всего, являются сервисы, интегрированные с экосистемой Яндекса, такие как счетчики Яндекс.Метрики, установленные на множестве сайтов, и данные из Яндекс.Браузера.

    Что такое «Сегмент URL» и почему используется он, а не полный URL?

    Сегмент URL — это укороченная версия адреса, обычно соответствующая домену второго уровня и субдоменам (например, ‘news.yandex’). Использование сегментов позволяет значительно снизить объем данных и сфокусироваться на источнике информации (сайте), а не на конкретных страницах. Это делает профилирование более стабильным и эффективным.

    Как именно работает Первый алгоритм машинного обучения (MLA) и при чем тут word2vec?

    Первый MLA основан на технологии word2vec. В данном контексте аналогом «слова» является Сегмент URL, а аналогом «предложения» — сессия пользователя. Алгоритм обучается на совместном вхождении сегментов: если два домена часто встречаются в одной сессии у разных людей, алгоритм делает вывод, что эти домены близки по смыслу, и размещает их векторы (Domain Embeddings) рядом в векторном пространстве.

    Какие факторы увеличивают вес домена в профиле пользователя?

    Формула $V_{скоррект.} = V_{хост} \times W \times N$ учитывает три ключевых аспекта. Вес увеличивается, если пользователь часто посещает домен (высокий N). Также общий вес (W) увеличивается, если домен редко встречается в глобальной статистике Яндекса (Редкость/Inverse Frequency — нишевый интерес) и если пользователь посещал его недавно (Свежесть/Recency).

    Почему популярные сайты типа ‘google’ или ‘yandex’ получают меньший вес?

    Система использует механизм Редкости (Inverse Frequency) в весовом значении (W). Если домен посещают почти все (он не является редким), он считается менее информативным для определения специфических интересов конкретного человека. Система намеренно занижает вес таких общеупотребительных ресурсов, чтобы сфокусироваться на более уникальных паттернах поведения.

    Что такое Второй MLA и что он предсказывает?

    Второй MLA — это классификатор (например, нейросеть или дерево решений), который принимает на вход агрегированный Навигационный профиль пользователя (сумму взвешенных векторов). Он обучен предсказывать конкретные характеристики пользователя: его возрастную группу, диапазон дохода, пол и географическое положение. Это позволяет перейти от сложного вектора к понятным параметрам таргетинга.

    Как SEO-специалист может использовать знание о совместном посещении (Co-visitation)?

    Понимание того, что Яндекс считает сайты близкими, если их посещают в одной сессии, можно использовать для стратегии линкбилдинга и партнерств. Получение ссылок или упоминаний с сайтов, которые ваша целевая аудитория уже активно посещает, может стимулировать совместное посещение и помочь Яндексу лучше понять тематику вашего ресурса и его аудиторию (сблизить ваши Domain Embeddings).

    Как эта система связана с отчетами в Яндекс.Метрике?

    Яндекс.Метрика является вероятным источником данных об истории переходов для этой системы. Отчеты Метрики по долгосрочным интересам, полу, возрасту и доходу аудитории вашего сайта, скорее всего, являются прямым отражением работы Второго ML-алгоритма, описанного в патенте, который предсказывает эти характеристики на основе навигационных профилей ваших посетителей.

    Используются ли в этой системе BERT или YATI модели?

    Нет. В патенте (поданном в 2017 году) явно указано использование алгоритма на основе word2vec для Первого MLA. Это связано с тем, что входными данными являются последовательности идентификаторов (доменов), а не тексты. Word2vec хорошо подходит для анализа совместной встречаемости элементов в последовательностях, в то время как трансформеры типа BERT/YATI предназначены для глубокого анализа естественного языка.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.