Яндекс патентует систему для новостных агрегаторов, которая анализирует текст статьи и предсказывает вероятность того, что пользователь захочет найти дополнительную информацию об упомянутых объектах (людях, местах). Система обучается на исторических данных о том, как часто пользователи искали объект сразу после прочтения статьи о нем. Если вероятность высока, система автоматически показывает информационную «Карточку Объекта», уменьшая необходимость ручного поиска.
Описание
Какую задачу решает
Патент решает проблему пользовательского опыта (UX) при потреблении контента в новостных агрегаторах (например, Яндекс.Новости, Дзен). Он устраняет неудобство, связанное с необходимостью пользователя вручную покидать статью и переходить в поиск для получения контекстной информации об упомянутых сущностях (объектах). Цель — превентивно удовлетворить информационную потребность, улучшить вовлеченность и удержать пользователя внутри сервиса.
Что запатентовано
Запатентована система и метод генерации «Карточки Объекта» (Object Card) в контексте цифровой новостной статьи. Суть изобретения заключается в использовании алгоритма машинного обучения (MLA) для предсказания вероятности (Score Value) того, что пользователь выполнит последующий веб-поиск по конкретному объекту, упомянутому в статье. Если вероятность превышает порог, система автоматически генерирует и отображает карточку.
Как это работает
Система работает на основе предсказательной модели, обученной на исторических данных о поведении. MLA учится на логах браузера, выявляя «Паттерны перехода навигационной сессии» (Navigational Session Transition Patterns) — случаи, когда пользователь переходил от чтения статьи к поиску информации об объекте из этой статьи. При обработке новой статьи система идентифицирует объекты и рассчитывает для них признаки: Статистические (контекст упоминания), Профильные (векторное описание сущности) и Популярности (частота поиска). MLA использует эти признаки для расчета Score Value. Если оценка высока, генерируется Object Card.
Актуальность для SEO
Высокая. Предсказание намерений пользователя и превентивная доставка информации (Proactive Knowledge Delivery) являются ключевыми трендами в развитии поисковых и рекомендательных систем. Использование поведенческих логов для обучения предсказательных моделей активно применяется в современных системах Яндекса для максимизации вовлеченности.
Важность для SEO
Влияние на SEO среднее (5/10). Патент не описывает алгоритмы ранжирования веб-поиска. Он сфокусирован на UX внутри агрегаторов контента. Однако он имеет важное стратегическое значение, так как описывает механизм, разработанный для того, чтобы предотвратить последующий поиск (концепция Zero-Click). Если Object Card удовлетворяет потребность пользователя, он не выполняет поиск и не переходит на сайты из органической выдачи. Это может сократить трафик на сайты, ранжирующиеся по запросам о базовых фактах об этих сущностях.
Детальный разбор
Термины и определения
- Browsing Log (Лог браузера)
- База данных, хранящая историю посещений веб-страниц пользователями (URL, временные метки, идентификаторы браузера).
- Label (Метка)
- Целевая переменная (Ground Truth) для обучения MLA. Рассчитывается как соотношение числа сессий, в которых пользователь перешел от статьи к поиску объекта, к общему числу релевантных сессий.
- MLA (Machine Learning Algorithm / Алгоритм машинного обучения)
- Модель (в патенте упоминается нейронная сеть), обученная предсказывать вероятность последующего поиска объекта пользователем. Использует Object Features в качестве входных данных.
- Navigational Session Transition Patterns (Паттерны перехода навигационной сессии)
- Последовательность веб-страниц, посещенных пользователем в рамках одной сессии. Ключевой паттерн для обучения: просмотр статьи с Объектом X -> просмотр SERP по запросу Объекта X.
- Object (Объект)
- Сущность (Entity), упомянутая в тексте статьи (человек, место, событие и т.д.), которая идентифицирована в Базе Данных Объектов (Object Database).
- Object Card (Карточка Объекта)
- Сгенерированный информационный блок (аналог Панели Знаний), содержащий дополнительную информацию об Объекте (текст, изображение, видео, ссылку). Отображается вместе с новостной статьей.
- Object Features (Признаки Объекта)
- Набор характеристик объекта, используемых MLA. Включает:
- Statistical Features (Статистические признаки): Метрики упоминания объекта в текущей статье и/или в корпусе новостей (например, частота упоминания, размер статьи).
- Profile Features (Профильные признаки): Векторное представление (эмбеддинг) профиля объекта. Генерируется путем анализа связанной веб-страницы (например, Википедии).
- Popularity Feature (Признак популярности): Показатель популярности объекта как поискового запроса в поисковой системе.
- Score Value (Оценка)
- Выходное значение MLA, представляющее вероятность того, что пользователь выполнит веб-поиск для получения дополнительной информации об объекте.
Ключевые утверждения (Анализ Claims)
Патент защищает систему, которая предсказывает будущие действия пользователя на основе анализа контента и исторических данных о поведении.
Claim 1 (Независимый пункт): Описывает основной процесс работы системы в режиме применения (In-use phase).
- Система получает запрос на цифровую новостную статью от устройства пользователя.
- Статья извлекается и парсится для идентификации Объекта (Object), присутствующего в Object Database.
- Для объекта определяется набор Object Features. Обязательно включаются Статистические признаки (Statistical Features).
- MLA генерирует Score Value — оценку вероятности того, что пользователь выполнит веб-поиск по этому объекту.
- Если Score Value выше порога, генерируется Object Card.
- Object Card и статья передаются на устройство пользователя.
Claim 2, 3, 4, 6 (Зависимые пункты): Описывают процесс обучения MLA (например, нейронной сети) и необходимую для этого инфраструктуру.
Подготовка данных и обучение:
- Система использует Browsing Log, содержащий множество Navigational Session Transition Patterns.
- Определяется обучающий набор данных, включающий признаки объекта и Метку (Label).
- Критически важно: Label указывает на количество (или соотношение — ratio) сессий, в которых пользователь просмотрел статью с объектом (First web page) И затем просмотрел SERP, где этот объект был поисковым запросом (Second web page).
- Нейронная сеть обучается предсказывать эту Label (вероятность поиска) на основе входных Object Features.
Claim 8 (Зависимый пункт): Детализирует состав Признаков Объекта.
Признаки включают Статистические признаки (например, количество упоминаний в статье, размер текста), а также могут включать Профильные признаки (Profile Features) (векторы профиля объекта) и Признак Популярности (Popularity Feature).
Где и как применяется
Изобретение предназначено для использования в рамках сервисов агрегации контента (например, Яндекс.Новости, Дзен), а не в основном веб-поиске. Оно затрагивает несколько слоев архитектуры.
INDEXING & FEATURE EXTRACTION – Индексирование и извлечение признаков
На этом этапе происходит необходимая предварительная обработка:
- Статьи парсятся для распознавания сущностей (Entity Recognition) и сопоставления с Object Database (Граф Знаний).
- Вычисляются Object Features: Статистические (на основе анализа статьи и новостного кластера), Профильные (офлайн, на основе внешних источников, например, Википедии) и Популярности (офлайн, на основе логов поиска).
Офлайн-процессы (Аналитика и Обучение)
Ключевой компонент — офлайн-обучение MLA. Это включает анализ больших объемов поведенческих данных (Browsing Logs и Search Logs) для вычисления Метки (Label) на основе Navigational Session Transition Patterns.
Генерация Страницы (Presentation Layer в агрегаторах)
Механизм применяется в момент, когда пользователь запрашивает конкретную статью:
- MLA в реальном времени оценивает признаки объектов и генерирует Score Value.
- Система модифицирует отображение статьи, добавляя Object Cards (аналогично работе Колдунщиков/Wizards).
На что влияет
- Типы контента: Влияет исключительно на отображение цифровых новостных статей в рамках сервиса-агрегатора.
- Специфические запросы: Влияет на последующие информационные запросы о сущностях. Система стремится сократить количество таких запросов, удовлетворяя интент превентивно.
- Пользовательский опыт (UX) и Удержание: Направлен на улучшение UX и удержание пользователя внутри сервиса (концепция Zero-Click).
Когда применяется
Алгоритм активируется при каждом запросе пользователя на просмотр новостной статьи в рамках соответствующего сервиса.
- Условие 1 (Идентификация): Объект в статье должен быть распознан и найден в Object Database.
- Условие 2 (Порог): Предсказанная MLA вероятность последующего поиска (Score Value) должна превысить установленный порог (Threshold).
Пошаговый алгоритм
Процесс А: Обучение MLA (Офлайн)
- Сбор данных: Агрегация Browsing Logs и Search History Logs.
- Парсинг сессий: Разделение логов на Navigational Session Transition Patterns.
- Идентификация паттернов: Поиск сессий, где пользователь (i) посетил страницу со статьей, содержащей объект, и (ii) в течение короткого времени после этого посетил SERP, используя этот объект как запрос.
- Генерация Метки (Label): Расчет целевой метрики — отношения числа сессий с переходом к поиску к общему числу релевантных сессий.
- Извлечение признаков: Расчет Object Features (Statistical, Profile, Popularity) для обучающих объектов.
- Обучение: Тренировка MLA (нейронной сети) предсказывать Label на основе Object Features.
Процесс Б: Применение (Онлайн)
- Получение запроса: Пользователь запрашивает новостную статью.
- Парсинг и Идентификация: Система парсит текст статьи и идентифицирует известные объекты (сущности).
- Извлечение признаков (Real-time): Для каждого объекта система определяет его Object Features.
- Предсказание (MLA): Обученный MLA генерирует Score Value (вероятность последующего поиска) для каждого объекта.
- Принятие решения: Сравнение Score Value с порогом.
- Генерация карточки: Если порог превышен, система формирует Object Card, используя данные из Object Database.
- Отображение: Передача статьи и сгенерированных Object Cards пользователю.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Критически важны для обучения MLA. Используются Browsing Logs и Search History Logs для выявления Navigational Session Transition Patterns и расчета популярности.
- Контентные факторы: Текст (corpus of text) новостной статьи используется для идентификации объектов и расчета статистических признаков. Контент внешних страниц (например, Wikipedia) используется для генерации профильных признаков.
- Временные факторы: Временные метки в логах используются для определения сессий и временного окна между чтением статьи и поиском.
- Пользовательские факторы: Идентификатор пользователя (User ID) или браузера (Browser ID). Патент упоминает возможность персонализации предсказаний на основе истории конкретного пользователя (Claim 7).
Какие метрики используются и как они считаются
Система вычисляет три ключевых группы признаков (Object Features) для использования в MLA:
1. Statistical Features (Статистические признаки):
- Количество упоминаний объекта в данной статье.
- Размер текста статьи.
- Среднее количество объектов в статьях корпуса.
- Количество статей в рамках одной тематики (Topic Cluster), которые также упоминают этот объект.
2. Profile Features (Профильные признаки):
- Набор векторов (эмбеддингов), представляющих профиль объекта. Генерируются путем анализа связанной веб-страницы (например, Wikipedia) и отражают категорию, атрибуты сущности и т.д.
3. Popularity Features (Признаки популярности):
- Популярность объекта как поискового запроса в основном или вертикальном поиске (Картинки, Видео) за определенный период времени.
Ключевые метрики:
- Label (Метка): Целевая переменная для обучения (Ground Truth). Отношение (Ratio) количества сессий с переходом от статьи к поиску по объекту к общему числу релевантных сессий.
- Score Value (Оценка): Предсказанная вероятность последующего поиска (выход MLA).
- Алгоритмы ML: В качестве MLA упоминается нейронная сеть.
Выводы
- Прогнозирование поведения и интента: Яндекс активно использует анализ истории навигации (Navigational Session Transition Patterns) между разными сервисами (Агрегатор и Поиск) для обучения моделей, предсказывающих будущие действия пользователя. Поведенческие данные являются основой для определения «полезности» функции.
- Стратегия удержания и Zero-Click: Основная цель — улучшение удержания (Retention) на платформах-агрегаторах за счет предоставления информации до того, как пользователь уйдет в поиск. Это реализация концепции превентивного ответа (Zero-Click).
- Фундаментальная роль сущностей и Графа Знаний: Система опирается на продвинутое распознавание сущностей и наличие качественной Object Database (Графа Знаний). Это необходимо как для идентификации объектов, так и для расчета сложных признаков (Profile Features) и наполнения карточек.
- Комплексная оценка интереса к сущности: Вероятность интереса зависит от комбинации факторов: контекста статьи (Statistical Features), типа сущности (Profile Features) и ее текущей популярности (Popularity Features).
- Возможность персонализации: Система может учитывать индивидуальную историю пользователя (User ID) при расчете вероятности последующего поиска.
Практика
Best practices (это мы делаем)
Хотя патент не влияет на основное ранжирование, он критически важен для понимания роли сущностей в экосистеме Яндекса.
- Оптимизация под сущности (Entity SEO) и Граф Знаний: Обеспечьте, чтобы ключевые сущности вашего бренда (продукты, компания, ключевые лица) были четко определены и присутствовали в источниках, которые Яндекс использует для Object Database (например, Википедия, авторитетные справочники). Это необходимо для генерации качественных Profile Features и наполнения Object Card.
- Использование структурированных данных (Schema.org): Внедрение микроразметки (Organization, Person, Product) на официальном сайте помогает корректно идентифицировать сущности и их атрибуты, что косвенно способствует качеству данных в Object Database.
- Четкость сущностей в контенте (для издателей): Для контента, попадающего в агрегаторы, важно обеспечить четкое и недвусмысленное упоминание ключевых сущностей. Это необходимое условие для идентификации объекта системой.
Worst practices (это делать не надо)
- Ставка на трафик по базовым фактическим запросам: Полагаться на органический трафик от пользователей, ищущих базовую информацию о сущностях, упомянутых в новостях (например, «Кто такой X»). Этот патент направлен на то, чтобы перехватить этот трафик и удовлетворить интент прямо в агрегаторе.
- Игнорирование работы с Графом Знаний: Отсутствие структурированных данных и четкого представления сущностей снижает вероятность их корректного распознавания и использования в подобных механиках.
- Неоднозначное упоминание сущностей: Использование аббревиатур или имен без контекста может помешать системе корректно идентифицировать объект.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на удовлетворение интента пользователя с минимальными усилиями, часто без перехода на внешние сайты (Zero-Click). Он демонстрирует возможности Яндекса в области анализа поведения пользователей на кросс-сервисном уровне для обучения сложных предсказательных моделей. Для SEO это означает необходимость смещения фокуса со стратегий, нацеленных на простые фактические ответы, к стратегиям, предоставляющим глубокую экспертизу, которую невозможно уместить в Object Card.
Практические примеры
Сценарий: Перехват трафика и удовлетворение интента
- Контекст: Пользователь читает в Яндекс.Новостях статью о запуске нового космического телескопа. В статье упоминается его точка назначения — «Точка Лагранжа L2».
- Действие системы (Идентификация): Система идентифицирует объект «Точка Лагранжа L2».
- Действие системы (Анализ признаков): MLA анализирует признаки: объект часто упоминается в новостном кластере (Statistical), но имеет сложный научный профиль (Profile).
- Предсказание: Основываясь на исторических данных о том, как часто пользователи ищут научные термины после прочтения новостей о космосе, MLA выдает высокий Score Value (высокая вероятность последующего поиска).
- Результат: Рядом со статьей показывается Object Card с определением Точки Лагранжа L2 и схемой.
- Влияние на SEO: Пользователь получает информацию и не уходит в поиск по запросу «что такое точка Лагранжа L2». Сайты, ранжирующиеся по этому запросу, теряют потенциальный трафик.
Вопросы и ответы
Влияет ли этот патент на ранжирование в основном поиске Яндекса?
Нет, напрямую не влияет. Патент описывает механизм улучшения пользовательского опыта внутри отдельного сервиса — новостного агрегатора (например, Яндекс.Новости или Дзен). Он не описывает факторы, используемые для ранжирования документов в органической выдаче веб-поиска.
Какое главное последствие для SEO от внедрения этой технологии?
Главное последствие — это усиление тренда «Zero-Click» (поиск без клика). Система разработана для того, чтобы превентивно удовлетворить информационную потребность пользователя и предотвратить последующий ручной поиск. Это означает потенциальное сокращение органического трафика для сайтов, которые ранжируются по базовым фактическим запросам о сущностях, упомянутых в новостях.
Что такое Object Card и откуда берется информация для нее?
Object Card (Карточка Объекта) — это элемент интерфейса, похожий на Панель Знаний, который показывает краткую информацию об объекте (человеке, месте и т.д.) прямо в интерфейсе агрегатора. Информация для нее берется из Object Database — внутреннего хранилища знаний Яндекса (аналог Knowledge Graph), которое агрегирует данные из доверенных источников вроде Википедии.
Как система решает, для какого объекта показать карточку, а для какого нет?
Решение принимает алгоритм машинного обучения (MLA). Он анализирует набор признаков (Object Features) для каждого объекта в статье и предсказывает вероятность (Score Value) того, что пользователь захочет искать дополнительную информацию о нем. Если эта вероятность превышает установленный порог, карточка показывается.
Какие признаки использует MLA для предсказания необходимости поиска?
Патент выделяет три основных типа признаков. Статистические (как часто объект упоминается в этой статье или других новостях на эту тему). Профильные (векторное представление сущности, например, это известный политик или редкий научный термин). Популярность (как часто этот объект ищут в основном поиске Яндекса в последнее время).
Как обучается эта предсказательная модель (MLA)?
Модель обучается на исторических логах браузинга пользователей. Система анализирует прошлые сессии (Navigational Session Transition Patterns) и ищет случаи, когда пользователь прочитал новость, содержащую Объект X, и сразу после этого (в рамках той же сессии) выполнил поиск по Объекту X. Эти данные используются как Ground Truth для обучения модели.
Учитывает ли система персонализацию при показе карточек?
Да, патент предусматривает такую возможность (Claim 7). Система может использовать User ID или Browser ID для обучения персонализированной модели. В этом случае Score Value будет отражать вероятность того, что именно этот конкретный пользователь захочет выполнить поиск, основываясь на его предыдущем поведении.
Как я могу повлиять на то, чтобы по моей компании или продукту показывалась такая карточка?
Напрямую управлять показом нельзя. Однако можно повысить вероятность этого, обеспечив присутствие вашей сущности в Графе Знаний Яндекса (Object Database). Для этого необходим качественный официальный сайт с микроразметкой (Schema.org) и, желательно, наличие профилей в авторитетных источниках (например, Википедии), что помогает системе сформировать Profile Features.
Что такое «Паттерны перехода навигационной сессии»?
Это последовательность URL-адресов, посещенных пользователем в течение одного сеанса. Например: (1) Статья про Илона Маска -> (2) SERP по запросу. Анализ этих паттернов позволяет системе понять связь между прочтением контента и последующим поисковым интентом и использовать эти данные для обучения MLA.
Какие типы сайтов больше всего пострадают от этой технологии?
Больше всего пострадают сайты-справочники, биографические ресурсы и энциклопедии, которые полагаются на трафик по простым фактическим запросам о сущностях, часто фигурирующих в новостной повестке. Этот трафик будет перехвачен агрегатором новостей с помощью Object Cards.