Патент Яндекса описывает двухкомпонентную систему генерации персональных рекомендаций. Первый компонент (офлайн) оценивает качество и пригодность сайтов (Source Suitability) на основе агрегированных поведенческих метрик и трафика. Второй компонент (онлайн) формирует ленту, смешивая контент из известных пользователю источников с новыми, подобранными с помощью коллаборативной фильтрации (SVD/PMI), и затем персонально ранжирует их.
Описание
Какую задачу решает
Патент решает задачу масштабирования и повышения эффективности систем рекомендаций контента (например, Дзен). Основные проблемы — огромный объем потенциальных источников и вычислительная сложность анализа всего контента в реальном времени. Изобретение направлено на (1) предварительный отбор (pre-qualification) качественных источников контента в офлайн-режиме для снижения нагрузки и (2) эффективное совмещение контента из известных пользователю источников (Exploitation) с открытием нового (Exploration), обеспечивая релевантность и разнообразие.
Что запатентовано
Запатентована система генерации контентных рекомендаций, состоящая из двух ключевых механизмов. Первый механизм (описанный в FIG. 4) использует ML-модель для оценки пригодности сетевого ресурса (Source Suitability Parameter) на основе его поведенческих и трафиковых характеристик. Второй механизм (описанный в FIG. 5 и Claims 1-15) формирует персональную ленту, комбинируя user-specific sources (известные) и user-non-specific sources (новые), подобранные методами коллаборативной фильтрации (SVD, PMI), с последующим персональным ранжированием.
Как это работает
Система работает в двух режимах:
Офлайн (Квалификация источников): Система анализирует агрегированные поведенческие метрики ресурса (например, Hits per visit, Time spent, источники трафика). На основе этих данных формируется Network Resource Profile. ML-алгоритм оценивает этот профиль и присваивает Source Suitability Parameter. Если он выше порога, контент с ресурса попадает в пул системы рекомендаций.
Онлайн (Генерация рекомендаций): При запросе пользователя система определяет известные ему источники. Затем она ищет новые похожие источники, используя данные других пользователей (коллаборативная фильтрация SVD/PMI). Из этих двух групп отбираются кандидаты (например, самые свежие или популярные). Финальный ML-алгоритм ранжирует этих кандидатов на основе user-profile-vector для формирования ленты.
Актуальность для SEO
Высокая. Рекомендательные системы являются стратегическим направлением для Яндекса. Описанные механизмы — оценка качества источников через поведенческие метрики и использование коллаборативной фильтрации (SVD, PMI) для баланса персонализации и новизны — являются стандартными и актуальными подходами в современных системах рекомендаций.
Важность для SEO
Влияние на SEO значительно (7/10), но специфично. Патент напрямую не относится к ранжированию в основном веб-поиске, но критически важен для оптимизации под трафик из рекомендательных систем (Recommendation System Optimization). Он раскрывает конкретные поведенческие метрики, по которым Яндекс оценивает пригодность сайта как источника. Для попадания в эту экосистему сайт должен демонстрировать высокое вовлечение пользователей и регулярное обновление контента.
Детальный разбор
Термины и определения
- DPV (Dated-pages per visit) / DPH (Dated-pages per hit)
- Количество страниц с датой в URL, посещенных пользователем за визит/хит. Используется как индикатор того, что ресурс содержит новостной или статейный контент.
- First Machine Learning Algorithm (Первый ML-алгоритм)
- Алгоритм в онлайн-процессе, отвечающий за отбор источников контента для пользователя. Он комбинирует User-Specific и User-Non-Specific источники.
- HPV (Hits per visit) / HPU (Hits per user)
- Количество хитов (переходов между страницами) за визит или в среднем на пользователя. Метрика вовлеченности.
- MTIME (Time spent on the network resource)
- Время, проведенное на сетевом ресурсе.
- Network Resource Profile (Профиль сетевого ресурса)
- Набор признаков, описывающий ресурс. Включает агрегированные поведенческие метрики (HPV, MTIME, источники трафика и т.д.). Используется для оценки пригодности источника.
- PMI (Pointwise Mutual Information)
- Алгоритм коллаборативной фильтрации. Используется для поиска новых источников на основе анализа совместной встречаемости (co-occurrence) ресурсов в сессиях пользователей.
- Second Machine Learning Algorithm (Второй ML-алгоритм)
- Финальный алгоритм ранжирования в онлайн-процессе. Отбирает и ранжирует конкретные материалы из списка кандидатов на основе user-profile-vector.
- Source Suitability Parameter (Параметр пригодности источника)
- Оценка, генерируемая ML-алгоритмом в офлайн-режиме. Указывает, подходит ли сетевой ресурс для публикации контента, пригодного для рекомендательной системы (например, часто обновляемый контент).
- SVD (Singular Value Decomposition)
- Алгоритм коллаборативной фильтрации. Используется для разложения матрицы взаимодействий (пользователи х ресурсы) на векторы. Позволяет находить новые ресурсы на основе близости векторов пользователей и ресурсов.
- User-Non-Specific Content Sources (Второй набор источников)
- Источники, с которыми пользователь ранее не взаимодействовал. Добавляются для открытия нового контента (Exploration/Discovery).
- User-Specific Content Sources (Первый набор источников)
- Источники, с которыми пользователь взаимодействовал в прошлом (Exploitation).
Ключевые утверждения (Анализ Claims)
Патент описывает два основных процесса: (А) Оценка пригодности источников (детально описана в Description, FIG. 4) и (Б) Генерация персональных рекомендаций (защищена Claims 1-15, FIG. 5).
Процесс А: Оценка пригодности источников (На основе Description):
Этот механизм направлен на предварительный отбор ресурсов, подходящих для рекомендательной системы.
- Система получает индикацию сетевого ресурса и извлекает множество признаков (поведенческие метрики, трафик).
- Генерируется Network Resource Profile на основе этих признаков.
- Использование обученного ML-алгоритма для определения Source Suitability Parameter на основе профиля. Этот параметр показывает, склонен ли ресурс публиковать контент, пригодный для системы.
- Если параметр выше порога, контент с ресурса отбирается для последующей обработки.
Процесс Б: Генерация персональных рекомендаций (На основе Claims 1-15):
Claim 1 (Независимый пункт): Описывает основной метод генерации рекомендации в ответ на запрос.
- Система получает запрос на рекомендацию.
- Выполняется Первый ML-алгоритм для определения набора рекомендованных источников. Этот процесс включает:
- Получение данных о прошлых взаимодействиях пользователя (user-past-interactions).
- Определение Первого набора User-Specific Sources (известные пользователю).
- Генерация Второго набора User-Non-Specific Sources (новые). Это делается на основе (i) обученной ML-формулы (коллаборативная фильтрация), использующей взаимодействия других пользователей, И (ii) данных текущего пользователя (Первый набор источников ИЛИ user-profile-vector).
- Обработка Первого и Второго наборов для формирования финального набора источников.
- Анализ рекомендованных источников для выбора кандидатов (потенциально рекомендуемых единиц контента).
- Выполняется Второй ML-алгоритм для выбора и ранжирования финальных рекомендаций из кандидатов на основе user-profile-vector.
Claims 2-6 (Зависимые): Уточняют, что для генерации Второго набора (User-Non-Specific) могут использоваться алгоритмы SVD (Claims 2-4) или PMI (Claims 5-6).
Claims 7-8 (Зависимые): Уточняют, что отбор кандидатов из источников может осуществляться путем выбора предопределенного числа самых свежих (Claim 7) или самых популярных (Claim 8) материалов.
Где и как применяется
Изобретение применяется не в архитектуре основного веб-поиска, а в рамках отдельной Рекомендательной Системы (например, Дзен). Процесс разделен на офлайн и онлайн фазы.
CRAWLING & INDEXING (Офлайн-процессы / Оценка источников)
Здесь применяется Процесс А (Квалификация источников).
- Входные данные: URL ресурса, агрегированные поведенческие данные (логи браузеров, счетчики типа Яндекс.Метрики).
- Процесс: Система генерирует Network Resource Profile и рассчитывает Source Suitability Parameter.
- Выходные данные: Список квалифицированных источников, контент которых индексируется для пула рекомендаций. Это позволяет отсеять неподходящие ресурсы до запроса пользователя.
RANKING (Онлайн-процессы / Генерация рекомендаций)
Здесь применяется Процесс Б. Активируется в момент запроса пользователя.
- Этап 1 (Отбор источников): Первый ML-алгоритм определяет персональный набор источников, смешивая известные (User-Specific) и новые (User-Non-Specific). Для поиска новых используются предобученные модели SVD или PMI.
- Этап 2 (Отбор кандидатов): Из выбранных источников извлекаются конкретные материалы (например, по свежести/популярности).
- Этап 3 (Ранжирование): Второй ML-алгоритм выполняет финальное ранжирование кандидатов на основе user-profile-vector.
На что влияет
- Типы контента: Система предпочитает ресурсы с часто обновляемым контентом (новости, блоги, агрегаторы) — на это указывает использование признаков вроде DPV (страницы с датой в URL). Статические или узконишевые сайты с меньшей вероятностью пройдут фильтр Source Suitability.
- Видимость в рекомендациях: Патент напрямую влияет на то, будет ли сайт вообще допущен к показам (Процесс А) и как часто он будет предлагаться новым пользователям через механизм Exploration (Процесс Б).
Когда применяется
- Процесс А (Квалификация): Выполняется периодически в офлайн-режиме для обновления пула источников или при обнаружении нового ресурса краулером.
- Процесс Б (Генерация рекомендаций): Выполняется в реальном времени каждый раз, когда пользователь запрашивает ленту рекомендаций (например, открывает приложение или новую вкладку браузера с лентой).
Пошаговый алгоритм
Процесс А: Оценка пригодности источника (Офлайн)
- Сбор данных: Получение индикации о сетевом ресурсе.
- Извлечение признаков: Сбор множества поведенческих признаков, связанных с ресурсом (HPV, MTIME, DPV, источники трафика и т.д.).
- Генерация профиля: Создание Network Resource Profile. Может включать генерацию производных признаков (например, логарифмирование) и нормализацию.
- Вычисление оценки: Выполнение обученного ML-алгоритма (например, логистическая регрессия, случайный лес) для определения Source Suitability Parameter.
- Применение порога: Если параметр выше порога, ресурс считается пригодным.
- Индексация контента: Отбор контента с пригодного ресурса для добавления в пул рекомендательной системы.
Процесс Б: Генерация персональной рекомендации (Онлайн)
- Получение запроса: Получение запроса от пользователя.
- Идентификация пользователя: Получение user-past-interactions и user-profile-vector.
- Отбор известных источников (Exploitation): Определение Первого набора (User-Specific Sources).
- Отбор новых источников (Exploration): Генерация Второго набора (User-Non-Specific Sources) с помощью коллаборативной фильтрации:
- Вариант SVD: Использование user-profile-vector для поиска близких ресурсов на основе поведения похожих пользователей.
- Вариант PMI: Расчет близости (co-occurrence) между известными источниками и другими ресурсами в сессиях других пользователей.
- Формирование пула источников: Объединение или выборка из Первого и Второго наборов.
- Отбор кандидатов: Выбор конкретных материалов из пула источников (например, Топ-N самых свежих/популярных).
- Ранжирование (Второй ML-алгоритм): Персональное ранжирование отобранных кандидатов на основе user-profile-vector.
- Выдача: Формирование ленты рекомендаций.
Какие данные и как использует
Данные на входе
Патент описывает использование большого количества поведенческих факторов, как на уровне ресурса (для Процесса А), так и на уровне пользователя (для Процесса Б).
Поведенческие факторы (Агрегированные на уровне ресурса, Процесс А):
- Метрики вовлечения: Hits per visit (HPV), Time spent (MTIME), Home page per visit (MPV), Hits per user (HPU), Visits per user (VPU).
- Метрики сессий: Sessions per visit (SPV), Last/First domain per session (LPS/FPS), Hits per session (HPS), Sessions per user (SPU).
Структурные / Технические факторы (Процесс А):
- Наличие даты в URL: Используется для метрик Dated-pages per visit (DPV) и Dated-pages per hit (DPH). Помогает идентифицировать новостной или блоговый контент.
Источники трафика (Процесс А):
- Доли переходов: Поисковые системы (TT_SE), Социальные сети (TT_SN), Прямые заходы (TT_GR), Мессенджеры (TT_IM), Рекламные платформы (TT_AD), Сокращатели ссылок (TT_US).
Пользовательские факторы (Персональные, Процесс Б):
- User-past-interactions: История взаимодействий пользователя.
- Географические и языковые настройки: Упоминаются как критерии для фильтрации контента.
Какие метрики используются и как они считаются
- Source Suitability Parameter: Рассчитывается ML-моделью (упомянуты логистическая регрессия, наивный Байес, k-NN, Random Forest). Модель обучается на основе Network Resource Profile.
- Network Resource Profile: Вектор поведенческих признаков. Патент упоминает использование абсолютных и относительных признаков, а также генерацию производных признаков (например, через логарифмирование) и нормализацию (mean=0, stddev=1).
- Коллаборативная фильтрация:
- SVD: Разложение матрицы взаимодействий для получения латентных векторов пользователей и ресурсов. Ранк рассчитывается как произведение векторов.
- PMI: Метрика, рассчитывающая отношение частоты совместного появления двух ресурсов к произведению частот их индивидуальных появлений.
Выводы
- Квалификация источников основана на поведении, а не только на контенте: Яндекс использует механизм предварительного отбора сайтов (Процесс А). Этот отбор (Source Suitability) базируется на анализе общих паттернов трафика и вовлеченности аудитории сайта (MTIME, HPV), а не только на анализе текстов статей.
- Структура сайта и частота обновлений имеют значение: Явно выделяются признаки, связанные с датами в URL (DPV, DPH). Это указывает на приоритет ресурсов с регулярно обновляемым, «fast paced» контентом (новости, статьи).
- Явное разделение Exploitation и Exploration: Система в реальном времени (Процесс Б) активно управляет балансом между контентом из известных пользователю источников (User-Specific) и открытием новых (User-Non-Specific).
- Коллаборативная фильтрация для поиска новых источников: Для Exploration используются методы SVD и PMI. Это означает, что сайт будет рекомендован новым пользователям, если он поведенчески похож на сайты, которые эти пользователи уже читают (схожесть аудитории или совместное потребление).
- Многоступенчатое машинное обучение: Применяется несколько уровней MLA: один для офлайн-квалификации источников, второй для онлайн-выбора источников (SVD/PMI), и третий для финального ранжирования контента.
Практика
Best practices (это мы делаем)
Рекомендации направлены на повышение шансов сайта быть принятым в рекомендательную систему Яндекса и увеличить охват внутри нее.
- Улучшение общесайтовых поведенческих метрик: Фокусируйтесь на увеличении глубины просмотра (HPV) и времени на сайте (MTIME). Это ключевые факторы для расчета Source Suitability Parameter. Используйте качественную перелинковку и блоки рекомендаций для удержания пользователя.
- Регулярное обновление контента: Поддерживайте высокий темп публикаций. Система отдает предпочтение источникам с динамичным контентом.
- Оптимизация структуры URL для статейного контента: Если вы публикуете новости или статьи, рассмотрите возможность включения даты публикации в URL. Признаки DPV/DPH явно используются системой для идентификации подходящих форматов контента.
- Диверсификация и качество трафика: Система анализирует профиль источников трафика (Direct, Search, Social и т.д.). Развивайте разные каналы привлечения аудитории, особенно прямые заходы, что свидетельствует о лояльности.
- Стимулирование поведенческой схожести с лидерами ниши: Для успешной работы алгоритмов Exploration (SVD/PMI) ваш сайт должен привлекать аудиторию, схожую с аудиторией других качественных ресурсов. Стремитесь к пересечению аудиторий с авторитетными источниками.
Worst practices (это делать не надо)
- Использование кликбейта для краткосрочного привлечения трафика: Если трафик привлекается, но не удерживается (низкий MTIME, низкий HPV), это негативно скажется на Network Resource Profile и может привести к исключению из пула источников.
- Публикация редко обновляемого или узконишевого контента: Сайты с редкими обновлениями могут быть классифицированы как непригодные источники для динамичной ленты рекомендаций.
- Игнорирование внутренней перелинковки и юзабилити: Плохая навигация напрямую снижает метрики HPV и MTIME, что негативно сказывается на оценке пригодности источника.
Стратегическое значение
Патент подтверждает, что для успеха в рекомендательных системах Яндекса критически важен холистический подход к качеству ресурса. Недостаточно создать хороший контент; необходимо обеспечить положительный пользовательский опыт на уровне всего сайта и сформировать четкие поведенческие паттерны у аудитории. Стратегия должна быть направлена на формирование лояльного ядра аудитории и обеспечение высоких метрик вовлеченности, что является фундаментом для работы как алгоритмов квалификации источников, так и механизмов коллаборативной фильтрации.
Практические примеры
Сценарий 1: Повышение Source Suitability Parameter (Процесс А)
- Проблема: Новостной сайт получает мало трафика из рекомендательной системы из-за низкого Source Suitability Parameter. Метрики показывают низкий HPV (1.2).
- Действия (на основе патента):
- Внедрение бесконечной ленты или эффективных блоков «Читайте также» после каждой статьи для увеличения HPV.
- Проверка структуры URL, чтобы убедиться, что новости имеют дату в адресе для корректного учета DPV.
- Ожидаемый результат: Улучшение поведенческих метрик ведет к пересчету Network Resource Profile в офлайн-процессе и повышению Source Suitability Parameter.
Сценарий 2: Увеличение охвата через Exploration (Процесс Б, PMI)
- Проблема: Тематический блог читает только лояльная аудитория (User-Specific), но он редко предлагается новым пользователям (User-Non-Specific). Вероятно, низкая совместная встречаемость (co-occurrence) с другими ресурсами.
- Действия (на основе патента):
- Анализ интересов аудитории крупных тематических порталов.
- Создание контента, который пересекается с интересами этой аудитории, чтобы стимулировать посещение обоих ресурсов.
- Активное продвижение, таргетированное на аудиторию смежных по тематике крупных ресурсов.
- Ожидаемый результат: Увеличение случаев, когда блог и крупные порталы посещаются совместно. Алгоритм PMI идентифицирует эту связь, и блог начинает чаще предлагаться читателям этих порталов как User-Non-Specific Source.
Вопросы и ответы
Относится ли этот патент к основному поиску Яндекса или только к рекомендательным системам (Дзен)?
Патент напрямую описывает механизмы работы именно рекомендательной системы. Он не описывает ранжирование в основном веб-поиске. Однако он дает ценное понимание того, как Яндекс в целом оценивает качество сайтов на основе агрегированных поведенческих факторов, что может косвенно влиять и на другие сервисы.
Что такое Source Suitability Parameter и почему он важен?
Source Suitability Parameter (Параметр пригодности источника) — это оценка, которую Яндекс вычисляет в офлайн-режиме, чтобы определить, подходит ли сайт в принципе для использования в рекомендательной системе. Он основан на общих поведенческих метриках сайта. Если этот параметр ниже порога, контент с сайта, скорее всего, не попадет в рекомендации, независимо от его содержания.
Какие поведенческие метрики наиболее важны для попадания в рекомендации согласно патенту?
Патент перечисляет множество метрик, но ключевыми для оценки вовлечения являются Hits per Visit (HPV) — глубина просмотра, и Time Spent (MTIME) — время на ресурсе. Также важны метрики лояльности, такие как Visits per User (VPU), и анализ профиля источников трафика (доли поиска, соцсетей, прямых заходов).
В чем разница между User-Specific и User-Non-Specific источниками?
User-Specific источники — это сайты, с которыми пользователь уже знаком и взаимодействовал ранее (Exploitation). Они гарантируют базовую релевантность. User-Non-Specific источники — это новые для пользователя сайты, подобранные системой для расширения его кругозора (Exploration). Баланс между ними определяет разнообразие ленты.
Как Яндекс находит «новые» (User-Non-Specific) источники, которые могут мне понравиться?
Для этого используются методы коллаборативной фильтрации — SVD и PMI. SVD ищет пользователей со схожими вкусами и предлагает источники, которые понравились им. PMI анализирует, какие сайты часто посещаются вместе (co-occurrence). Если многие читатели сайта А также читают сайт Б, система порекомендует сайт Б другим читателям сайта А.
Влияет ли частота обновления контента на моем сайте на получение трафика из рекомендаций?
Да, критически влияет. Система предпочитает источники с «быстрым темпом» («fast paced» content), то есть часто обновляемые. Также используются метрики, связанные с датами в URL (DPV, DPH), что подтверждает фокус на свежем контенте. Редко обновляемые сайты имеют меньше шансов пройти фильтр Source Suitability.
Имеет ли смысл включать дату в URL страниц для лучшей индексации в рекомендательных системах?
Согласно патенту, да. Система явно использует признаки Dated-pages per visit (DPV) и Dated-pages per hit (DPH), которые основаны на анализе URL, содержащих дату. Для новостных сайтов, блогов и медиа это может быть сигналом, помогающим системе классифицировать контент как подходящий для рекомендаций.
Что такое User-profile-vector и как он используется?
User-profile-vector — это математическое представление интересов пользователя, основанное на истории его взаимодействий. Он используется дважды: во-первых, в алгоритме SVD для поиска похожих источников путем сравнения с векторами других пользователей и ресурсов; во-вторых, на финальном этапе ранжирования (Второй ML-алгоритм) для определения релевантности конкретного материала.
Мой сайт имеет качественный контент, но плохие поведенческие факторы. Есть ли шанс попасть в рекомендации?
Шансы минимальны. Первый этап системы — офлайн-оценка пригодности источника (Source Suitability) — в значительной степени основан на агрегированных поведенческих метриках. Если у сайта низкое время вовлечения и глубина просмотра, он, скорее всего, будет отфильтрован еще до анализа качества конкретных статей.
Как SEO-специалист может повлиять на коллаборативную фильтрацию (SVD/PMI)?
Напрямую повлиять сложно, но можно создать условия для ее активации. Необходимо привлекать на сайт аудиторию, которая также читает другие авторитетные ресурсы в вашей тематике. Если система увидит пересечение аудиторий (SVD) или совместное посещение (PMI), она начнет ассоциировать ваш сайт с этими авторитетными ресурсами и рекомендовать его их читателям.