Яндекс использует историю браузера пользователя для определения его интересов и социально-демографических характеристик (возраст, пол, доход). Система анализирует посещенные URL, разбивает их на сессии, преобразует домены в векторы (используя модель типа word2vec) и взвешивает их по редкости и свежести. Полученный навигационный профиль используется для подбора персонализированной рекламы (РСЯ) или рекомендаций контента (Дзен).
Описание
Какую задачу решает
Патент решает задачу эффективного определения интересов и характеристик пользователя для предоставления персонализированного контента (рекомендаций, рекламы). Основная цель — повысить точность профилирования при одновременном снижении вычислительной нагрузки. В отличие от методов, анализирующих содержание страниц или требующих сложных вычислений (например, SVD для look-alike), это изобретение предлагает метод профилирования, основанный исключительно на истории посещенных URL, что делает его менее затратным.
Что запатентовано
Запатентована система генерации параметра интересов персонализации пользователя (User-personalization interest parameter). Суть изобретения заключается в двухуровневом анализе истории навигации. Сначала Первый алгоритм машинного обучения (First MLA, например, word2vec) создает векторные представления (эмбеддинги) посещенных доменов на основе их совместной встречаемости в сессиях. Эти векторы взвешиваются и агрегируются в Навигационный профиль. Затем Второй алгоритм (Second MLA) предсказывает характеристики пользователя (например, демографию) на основе этого профиля.
Как это работает
Система собирает историю посещенных URL (например, через Яндекс.Метрику). История разбивается на сессии, URL усекаются до сегментов (доменов/субдоменов). First MLA (word2vec) генерирует векторы для этих сегментов. Каждый вектор взвешивается (W): больший вес получают редкие сайты (Inverse Frequency) и недавно посещенные сайты (Recency). Также учитывается частота посещения сайта пользователем (N). Взвешенные векторы суммируются для получения Навигационного профиля. Наконец, Second MLA использует этот профиль для предсказания интересов и демографии, которые применяются для выбора целевого контента.
Актуальность для SEO
Высокая. Поведенческое профилирование (например, технология Крипта) и использование векторных представлений являются основой современных систем персонализации Яндекса (Дзен, РСЯ, персонализированный поиск). Описанный метод использования эмбеддингов URL, обученных на совместной посещаемости, остается актуальным и эффективным подходом к анализу поведения пользователей.
Важность для SEO
Влияние на SEO умеренное (6/10). Патент не описывает алгоритмы основного органического ранжирования (L1-L3). Он фокусируется на системах таргетинга и рекомендаций. Однако он критически важен для понимания того, как Яндекс профилирует пользователей и определяет их интересы. Это имеет стратегическое значение для оптимизации под рекомендательные системы (Дзен), понимания аффинитивности аудитории и потенциально влияет на слой персонализации поиска (L4). Патент подчеркивает важность поведенческой ассоциации сайта с другими качественными ресурсами.
Детальный разбор
Термины и определения
- First Machine Learning Algorithm (First MLA)
- Алгоритм, обученный преобразовывать сегменты URL в векторы на основе их совместной встречаемости (co-occurrence) в рамках навигационных сессий. В патенте упоминается алгоритм на базе word2vec.
- Navigational History Data (Данные истории навигации)
- Набор данных, включающий URL, посещенные пользователем, и время доступа. Собирается, например, через системы веб-аналитики (Яндекс.Метрика).
- Navigational Profile Value ($V_{profile}$)
- Значение навигационного профиля. Векторное представление навигационных характеристик пользователя за определенный период. Рассчитывается как сумма скорректированных векторных значений ($V_{profile} = \Sigma V_{adjusted}$).
- Navigational Session Transition Pattern
- Паттерн переходов навигационной сессии. Последовательность URL, посещенных пользователем в течение одной сессии (ограниченного временного интервала).
- Second Machine Learning Algorithm (Second MLA)
- Алгоритм (например, дерево решений или нейронная сеть), обученный предсказывать Параметры интересов пользователя на основе его Навигационного профиля.
- URL Segment (Сегмент URL)
- Усеченная версия URL, полученная после удаления протокола, пути, TLD и хоста «www». Обычно соответствует домену второго уровня и значимым субдоменам (например, «news.yandex»).
- User-Personalization Interest Parameter
- Параметр интересов персонализации пользователя. Вектор, описывающий характеристики пользователя, предсказанные системой. Может включать социально-демографические признаки (возраст, доход, регион, пол).
- Vector Value ($V_{host}$)
- Векторное значение (эмбеддинг) конкретного сегмента URL, сгенерированное First MLA.
- Weight Value (W)
- Значение веса. Коэффициент, присваиваемый сегменту URL. Определяется на основе редкости сегмента (Inverse Frequency) в общем логе и/или свежести посещения (Recency).
- Adjusted Vector Value ($V_{adjusted}$)
- Скорректированное векторное значение. Рассчитывается как $V_{adjusted} = V_{host} \times W \times N$, где N — количество вхождений сегмента в истории пользователя.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт) определяет ядро изобретения — метод генерации параметра интересов персонализации пользователя.
- Система получает данные истории навигации (URL).
- Генерируются паттерны навигационных сессий (группировка URL по сессиям).
- Для каждого паттерна выполняется:
- Усечение URL для получения сегмента URL.
- Генерация векторного значения ($V_{host}$) для каждого сегмента с помощью First MLA. Этот алгоритм обучен на основе совместной встречаемости (co-occurrence) сегментов в сессиях.
- Присвоение значения веса (W) каждому сегменту. Вес определяется на основе: (i) значения, обратно пропорционального частоте сегмента в общем логе всех пользователей (Редкость/Inverse Frequency); и/или (ii) значения, основанного на свежести доступа (recentness of access).
- Определение значения навигационного профиля ($V_{profile}$) пользователя на основе векторных значений и весов.
- Генерация параметра интересов персонализации пользователя на основе $V_{profile}$ с помощью Second MLA.
Claim 2 (Зависимый): Уточняет процесс усечения URL. Он включает удаление протокола, пути, имени файла, TLD и хоста ‘www’.
Claim 6 и 7 (Зависимые): Уточняют, что First MLA использует алгоритм на базе word2vec, обученный так, чтобы сегменты, встречающиеся в одной сессии, располагались близко в многомерном пространстве.
Claim 8 (Зависимый): Определяет формулу для расчета Навигационного профиля. Рассчитывается скорректированное значение ($V_{adjusted}$):
$$ V_{adjusted} = V_{host} \times W \times N $$
Где N — количество вхождений сегмента в истории навигации пользователя. Навигационный профиль ($V_{profile}$) является суммой всех скорректированных значений.
Где и как применяется
Патент не относится к основному алгоритму ранжирования органического поиска, но тесно связан с инфраструктурой сбора данных и персонализации Яндекса.
CRAWLING & ACQUISITION LAYER – Сбор данных
Система полагается на данные, собранные Web analytic application (например, Яндекс.Метрика) или Яндекс.Браузером. Собираются Navigational History Data (URL и время доступа), привязанные к уникальному идентификатору браузера (Unique browser ID, например, cookie ‘yandexuid’).
Профилирование пользователя (Офлайн/Онлайн)
Основной этап применения патента. Происходит обработка истории для генерации Navigational profile value и определения User-personalization interest parameter с использованием First MLA и Second MLA.
RANKING (L4 – Personalization) и Доставка контента
Результаты профилирования используются системами доставки контента (РСЯ, Дзен) для выбора Targeted content items. Также сгенерированный профиль интересов может использоваться на уровне персонализации L4 веб-поиска для переранжирования результатов.
Входные данные: История навигации (URL, время), ID браузера, глобальные логи частотности URL.
Выходные данные: Параметр интересов персонализации пользователя (интересы/демография).
На что влияет
- Основное влияние: Таргетированная реклама (РСЯ) и системы рекомендаций контента (Яндекс.Дзен).
- Вторичное влияние: Персонализированные результаты поиска (L4).
- Типы сайтов: Алгоритм придает больший вес (W) нишевым, специализированным ресурсам (редким в глобальных логах), считая их более информативными для профилирования, чем общепопулярные порталы.
Когда применяется
- Триггеры активации: Алгоритм профилирования активируется периодически или при накоплении новых данных. Использование профиля происходит, когда пользователь обращается к персонализированному веб-сервису (Дзен, сайт с РСЯ).
- Временные рамки: Алгоритм учитывает свежесть данных (вес W увеличивается для недавних посещений) и строит профиль за определенный период времени.
Пошаговый алгоритм
Процесс А: Обучение моделей (Офлайн)
- Обучение First MLA: Сбор большого массива навигационных сессий, усечение URL до сегментов и обучение модели (word2vec) на совместной встречаемости URL в сессиях.
- Обучение Second MLA: Сбор данных пользователей с известными характеристиками (Ground Truth), расчет их Навигационных профилей с помощью First MLA и обучение Second MLA сопоставлять профили с характеристиками.
Процесс Б: Генерация профиля пользователя (Применение)
- Сбор и подготовка данных: Получение истории навигации пользователя. Группировка URL в сессии. Усечение URL до сегментов и удаление дубликатов в сессии.
- Векторизация: Применение First MLA для получения вектора ($V_{host}$) для каждого сегмента.
- Расчет весов (W) и частоты (N): Для каждого сегмента определяется вес на основе редкости и свежести (W), а также частота его появления в истории пользователя (N).
- Расчет Навигационного Профиля ($V_{profile}$):
- Расчет скорректированного значения: $$ V_{adjusted} = V_{host} \times W \times N $$
- Агрегация: $$ V_{profile} = \Sigma V_{adjusted} $$
- Определение интересов: Применение Second MLA к $V_{profile}$ для получения User-Personalization Interest Parameter (например, Пол: М, Доход: Высокий).
- Выбор контента: Использование параметра интересов для выбора и показа целевого контента путем сопоставления с векторами признаков контента (item feature vectors).
Какие данные и как использует
Данные на входе
- Поведенческие/Технические факторы (Навигационные данные): Основные данные — URL посещенных ресурсов (усекаются до URL Segments) и время доступа.
- Временные факторы: Время доступа используется для разделения на сессии и расчета веса свежести (W).
- Пользовательские факторы: Уникальный идентификатор браузера (Unique browser ID, Cookie) для связывания истории.
- Системные данные (Глобальные логи): Лог посещений всех пользователей сервера для расчета веса редкости (W).
Важно: Патент подчеркивает, что система НЕ использует контент посещенных страниц или данные о взаимодействиях на странице (клики, формы) для этого метода профилирования.
Какие метрики используются и как они считаются
- Вектор Сегмента URL ($V_{host}$): Генерируется First MLA (word2vec). Метрика близости в этом пространстве отражает вероятность совместного посещения сайтов в рамках одной сессии.
- Вес (W): Комбинированная метрика:
- Редкость (Inverse Frequency): Обратно пропорциональна частоте сегмента в глобальном логе.
- Свежесть (Recency): Основана на времени последнего доступа.
- Частота Сегмента (N): Количество вхождений данного сегмента в истории навигации пользователя.
- Скорректированный Вектор ($V_{adjusted}$): Рассчитывается по формуле:
$$ V_{adjusted} = V_{host} \times W \times N $$
- Навигационный Профиль ($V_{profile}$): Агрегированный вектор пользователя. Рассчитывается как сумма:
$$ V_{profile} = \Sigma V_{adjusted} $$
- Машинное обучение (Second MLA): Алгоритм классификации/регрессии (например, нейросеть, решающие деревья), предсказывающий интересы/демографию на основе $V_{profile}$.
Выводы
- Профилирование на основе URL, а не контента: Яндекс использует эффективный метод профилирования пользователей (определения интересов и демографии) исключительно на основе истории посещенных доменов, без анализа содержания страниц. Это снижает вычислительные затраты.
- Важность навигационного контекста (Co-visitation): Ядро системы — анализ того, какие сайты пользователи посещают в рамках одной сессии. Использование модели типа word2vec (First MLA) позволяет строить семантические связи между сайтами на основе этого поведения.
- Взвешивание по редкости, свежести и частоте: При формировании профиля приоритет отдается недавно посещенным (W) и редким сайтам (W), а также сайтам, которые пользователь посещает часто (N). Нишевые интересы имеют больший вес, чем посещение популярных порталов.
- Двухуровневое машинное обучение: Используется каскад моделей: первая (First MLA) для понимания семантики URL на основе поведения, вторая (Second MLA) для перевода поведенческого профиля в конкретные характеристики пользователя.
- Роль экосистемы и Метрики: Механизм опирается на данные, собираемые кросс-сайтовыми трекерами (Яндекс.Метрика), что подчеркивает ее роль как глобального инструмента сбора поведенческих данных.
- Не для основного органического ранжирования: Изобретение направлено на улучшение работы рекомендательных систем (Дзен) и таргетинга (РСЯ), а не на основное ранжирование веб-поиска, хотя может влиять на слой персонализации (L4).
Практика
Best practices (это мы делаем)
Хотя патент не влияет напрямую на органическое ранжирование, он дает критически важное понимание анализа поведения пользователей Яндексом.
- Построение поведенческой авторитетности (Topical Authority): Стремитесь к тому, чтобы ваш сайт посещали в одной сессии с другими авторитетными, тематически релевантными сайтами. Так как эмбеддинги строятся на совместной встречаемости (co-occurrence), это укрепляет тематическую привязку вашего сайта в модели First MLA.
- Фокус на нишевых интересах и аудиториях: Поскольку редкие (нишевые) сайты получают больший вес (W), создание узкоспециализированного ресурса может генерировать сильные поведенческие сигналы, четко сегментируя аудиторию в глазах Яндекса.
- Стимулирование повторных и частых визитов: Частота (N) и свежесть (W) являются множителями в формуле расчета профиля. Работайте над удержанием аудитории (email-маркетинг, регулярные обновления), чтобы увеличить вклад вашего сайта в профили пользователей.
- Использование Яндекс.Метрики и анализ аудитории: Установка Метрики необходима для сбора данных. Анализируйте отчеты Метрики по интересам и демографии (которые строятся в том числе этим методом), чтобы проверить соответствие контента целевой аудитории и понять, с какими еще ресурсами вас посещают (аффинитивность).
- Оптимизация под Яндекс.Дзен: Для получения трафика из Дзена важно, чтобы ваш контент потребляла аудитория с четким профилем интересов. Система будет рекомендовать ваш контент пользователям, чей Навигационный профиль похож на профиль ваших существующих читателей.
Worst practices (это делать не надо)
- Привлечение нецелевого или «мусорного» трафика: Если ваш сайт часто посещается в рамках одной сессии с низкокачественными, спамными или нерелевантными ресурсами (например, из-за покупки трафика), модель First MLA свяжет вектор вашего домена с этими негативными контекстами. Это может ухудшить качество аудитории, направляемой на вас из рекомендательных систем.
- Игнорирование паттернов навигации: Рассмотрение сайта в отрыве от общего паттерна поведения пользователей (в какой сессии он вписан) не дает полной картины того, как его воспринимают системы профилирования.
- Ориентация только на общий трафик: Привлечение только общего трафика, который также посещает очень распространенные веб-сайты (имеющие низкий вес W), генерирует слабые поведенческие сигналы для профилирования.
Стратегическое значение
Патент подтверждает стратегический фокус Яндекса на анализе кросс-сайтового поведения для глубокой персонализации всех сервисов. Он демонстрирует, как Яндекс строит граф интересов не только на основе контента или ссылок, а на основе реальных навигационных сессий. Для SEO-стратегии это означает, что тематичность и авторитетность сайта все больше определяются тем, КТО его посещает и В КАКОМ КОНТЕКСТЕ (вместе с какими другими сайтами). Долгосрочная стратегия должна включать построение бренда, который становится частью привычного паттерна навигации целевой аудитории.
Практические примеры
Сценарий: Повышение тематической авторитетности сайта о кофе.
- Задача: Сделать так, чтобы Яндекс ассоциировал новый сайт «CoffeeGeekBlog.ru» с интересом «Специализированный кофе».
- Действия на основе патента:
- Стимулировать пользователей посещать сайт в одной сессии с авторитетными ресурсами (сайты обжарщиков, форумы бариста). Это можно делать через полезные ссылки, обзоры, коллаборации.
- Фокусироваться на узких нишевых темах, так как такие сайты могут иметь больший вес (W, редкость).
- Регулярно публиковать контент, чтобы стимулировать частые (N) и недавние (W, свежесть) визиты.
- Как работает система: Пользователь посещает форум бариста, затем переходит на CoffeeGeekBlog.ru. First MLA фиксирует совместную встречаемость в сессии и сближает их векторы. Second MLA определяет, что пользователи с таким профилем интересуются «Специализированным кофе».
- Результат: Контент с CoffeeGeekBlog.ru начинает чаще показываться в Дзене и РСЯ пользователям с релевантными интересами.
Вопросы и ответы
Описывает ли этот патент алгоритмы ранжирования основного поиска Яндекса?
Нет, напрямую патент не описывает основные алгоритмы ранжирования (L1-L3). Он фокусируется на генерации профиля интересов пользователя для идентификации целевого контента (реклама в РСЯ, рекомендации в Дзене). Однако сгенерированные профили могут использоваться на слое персонализации (L4) основного поиска для переранжирования выдачи под конкретного пользователя.
Что такое First MLA и Second MLA и чем они отличаются?
First MLA (например, word2vec) переводит домены (URL Segments) в векторы на основе их совместной посещаемости в сессиях. Он изучает связи между сайтами. Second MLA (например, нейросеть или CatBoost) берет агрегированный профиль пользователя (сумму векторов посещенных им сайтов) и предсказывает его конкретные характеристики, такие как пол, возраст, доход или тематические интересы.
Использует ли система анализ контента на страницах для профилирования?
Согласно этому патенту, нет. Метод разработан так, чтобы быть вычислительно эффективным, анализируя только сокращенные URL и время их посещения. Это метод профилирования, основанный исключительно на навигационных паттернах, без анализа содержания страниц.
Почему система придает больший вес (W) редким сайтам?
Система использует вес, обратно пропорциональный глобальной частоте посещения сайта (редкость). Логика в том, что посещение популярных ресурсов (yandex.ru, vk.com) мало говорит о специфических интересах пользователя, так как их посещают почти все. Посещение нишевого, редкого сайта гораздо точнее характеризует уникальные интересы пользователя и поэтому более ценно для профилирования.
Как именно рассчитывается Навигационный Профиль пользователя ($V_{profile}$)?
Он рассчитывается как сумма скорректированных векторов всех посещенных пользователем URL. Корректировка происходит по формуле $V_{adjusted} = V_{host} \times W \times N$. Исходный вектор сайта ($V_{host}$) умножается на его вес (W – редкость и свежесть) и на частоту его посещения этим пользователем (N). Это учитывает и глобальную значимость сайта, и его важность для конкретного пользователя.
Что такое «Паттерн переходов навигационной сессии» и почему он важен?
Это последовательность сайтов, которые пользователь посетил за короткий промежуток времени (например, в течение 10-30 минут). Это критически важно, так как обеспечивает контекст. First MLA (word2vec) изучает взаимосвязь между доменами на основе их совместной встречаемости (co-occurrence) в этих сессиях. Если два сайта часто посещаются вместе, их векторы будут близки.
Какова роль Яндекс.Метрики в работе этого алгоритма?
Яндекс.Метрика является одним из основных источников данных (Navigational History Data). Устанавливая Метрику, вы позволяете Яндексу видеть, когда и в контексте каких сессий пользователи посещают ваш сайт. Это необходимо для того, чтобы ваш сайт был корректно векторизован (First MLA) и учтен при построении профилей интересов пользователей.
Как SEO-специалист может использовать эти знания для продвижения сайта?
Нужно фокусироваться на построении поведенческой авторитетности. Стимулируйте посещение вашего сайта целевой аудиторией в одной сессии с другими тематически релевантными, авторитетными ресурсами. Это укрепит тематическую привязку вашего сайта. Также важно работать над удержанием аудитории (повышать N) и регулярно обновлять контент (повышать W за счет свежести).
Может ли этот механизм негативно повлиять на мой сайт?
Косвенно да. Если ваш сайт часто посещается в рамках одной сессии с низкокачественными или спамными ресурсами (например, из-за покупки мусорного трафика), то в векторном пространстве эмбеддингов (First MLA) ваш сайт окажется рядом с ними. Это может повлиять на то, как система классифицирует вашу аудиторию и какой трафик направляет на вас из рекомендательных систем.
Актуально ли использование word2vec, упомянутое в патенте?
Word2vec был передовым методом на момент подачи заявки. Сейчас могут использоваться более сложные модели (например, трансформеры) для создания эмбеддингов. Однако базовый принцип, заложенный в патенте, — обучение векторов на основе совместной встречаемости в последовательности (сессии) — остается фундаментальным для поведенческого анализа, независимо от конкретной модели.