Как Яндекс предсказывает интерес пользователя к сущностям в новостях и проактивно показывает информационные карточки

Яндекс патентует систему для улучшения пользовательского опыта в новостных агрегаторах (например, Яндекс.Новости или Дзен). Система анализирует текст статьи и предсказывает вероятность того, что пользователь захочет искать дополнительную информацию об упомянутой сущности (человеке, месте, событии). Прогноз строится на анализе исторических паттернов поведения. Если вероятность высока, система автоматически генерирует и показывает «Карточку Объекта».

Описание

Какую задачу решает

Патент решает проблему улучшения пользовательского опыта при потреблении новостного контента. Часто пользователи, читая статью, хотят получить дополнительный контекст об упомянутых объектах (сущностях). Традиционно для этого пользователю приходится прерывать чтение, покидать статью и вручную выполнять поиск. Изобретение автоматизирует этот процесс, проактивно предоставляя информацию о тех объектах, которые с наибольшей вероятностью заинтересуют пользователя, экономя его время и удерживая на платформе.

Что запатентовано

Запатентована система генерации Карточек Объектов (Object Cards) для новостных статей на основе предиктивного анализа. Суть изобретения заключается в использовании алгоритма машинного обучения (MLA), обученного предсказывать вероятность (Score Value) того, что пользователь выполнит веб-поиск по конкретному объекту после прочтения статьи. Обучение основано на исторических данных о переходах пользователей от чтения статьи к поиску информации о ее объектах.

Как это работает

Система работает в два этапа: обучение и применение. На этапе обучения анализируются исторические логи браузера (Browsing Log) для выявления паттернов навигационных сессий (Navigational Session Transition Patterns): случаев, когда пользователь просмотрел статью с объектом X и вскоре выполнил поиск по объекту X. Частота таких переходов используется как целевая метрика (Label) для обучения MLA. На этапе применения система идентифицирует объекты в новой статье, извлекает их признаки (статистические, профильные, популярность) и использует MLA для предсказания вероятности последующего поиска. При высокой вероятности генерируется Object Card.

Актуальность для SEO

Высокая. Понимание сущностей (Entities), анализ кросс-сервисного поведения пользователей (например, Новости -> Поиск) и предиктивная аналитика для улучшения UX и удержания пользователя являются ключевыми направлениями развития современных поисковых и рекомендательных систем (таких как Яндекс.Новости и Дзен).

Важность для SEO

Влияние на классическое SEO умеренное (4/10). Патент не описывает алгоритмы ранжирования основного веб-поиска, а фокусируется на улучшении UX внутри новостных агрегаторов. Однако он имеет важное стратегическое значение, демонстрируя, как глубоко Яндекс анализирует сущности и поведение пользователей. Система подчеркивает критическую важность корректного представления сущностей в авторитетных источниках (Графе Знаний, Википедии), так как эти данные используются для наполнения Карточек Объектов и расчета признаков.

Детальный разбор

Термины и определения

Browsing Log (Лог браузера)

База данных, хранящая историю посещений веб-страниц пользователями (URL и временные метки). Может собираться через системы аналитики (например, Яндекс.Метрика) или напрямую из браузера.

Label (Метка/Целевая переменная)

Метрика для обучения MLA. Представляет собой историческую вероятность того, что объект будет искаться после прочтения статьи. Рассчитывается как отношение (ratio) числа сессий с переходом к поиску к общему числу релевантных сессий.

MLA (Machine Learning Algorithm / Алгоритм машинного обучения)

Модель (в патенте упоминается возможность использования нейронной сети), обученная предсказывать Score Value на основе Object Features.

Navigational Session Transition Pattern (Паттерн перехода навигационной сессии)

Последовательность посещенных пользователем URL в рамках одной сессии. Ключевой паттерн: переход от страницы новостной статьи, содержащей объект, к странице результатов поиска (SERP) по этому объекту в течение определенного времени.

Object (Объект/Сущность)

Именованная сущность (Entity), упомянутая в тексте новостной статьи (например, человек, место, организация, событие).

Object Card (Карточка Объекта)

Сгенерированный информационный блок (аналог элемента Графа Знаний или Колдунщика), содержащий краткую информацию об объекте (текст, изображение, видео, ссылка). Отображается вместе со статьей.

Object Features (Признаки Объекта)

Набор характеристик объекта, используемый MLA для предсказания. Включает три типа:

Popularity Feature (Признак популярности): Насколько часто объект ищут в поиске (основном или вертикальном).
Profile Features (Профильные признаки): Векторное представление профиля объекта (например, категория, профессия), основанное на анализе авторитетных источников (например, Википедии).
Statistical Features (Статистические признаки): Характеристики упоминания объекта в контексте данной статьи или корпуса статей (например, частота упоминания в статье, размер статьи, частота упоминания в рамках новостного сюжета/кластера).

Score Value (Оценка/Скор)

Выходное значение MLA. Представляет собой предсказанную вероятность того, что пользователь выполнит веб-поиск для получения дополнительной информации об объекте.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод предсказания необходимости генерации информационной карточки на основе анализа исторических паттернов поведения пользователей.

Claim 1 (Независимый пункт): Описывает основной процесс работы системы в режиме реального времени (In-use phase).

Система получает запрос на цифровую новостную статью.
Статья извлекается и парсится для идентификации содержащихся в ней объектов (сущностей).
Для каждого объекта определяется набор признаков (Object Features), включая статистические характеристики упоминания объекта.
Алгоритм машинного обучения (MLA) генерирует оценку (Score Value) для объекта. Эта оценка представляет собой вероятность того, что пользователь выполнит веб-поиск по этому объекту.
Если оценка превышает предопределенный порог, генерируется Карточка Объекта (Object Card).
Карточка и статья передаются пользователю для отображения.

Claims 2, 3, 4, 5, 6 (Зависимые пункты): Детализируют процесс обучения MLA (Training phase). MLA может быть нейронной сетью (Claim 2).

Обучение основано на анализе логов браузера (Browsing Log) и выявлении паттернов навигационных сессий.
Обучающий набор данных состоит из признаков объекта и метки (Label).
Критически важно (Claim 3): Метка указывает на количество сессий, в которых пользователь перешел от статьи с объектом (первая веб-страница) к результатам поиска по этому объекту (вторая веб-страница).
Метка рассчитывается как отношение (ratio) таких сессий к общему количеству сессий (Claim 4).
Переход между первой и второй страницами должен произойти в течение предопределенного периода времени (Claim 5).
Цель обучения — научить MLA предсказывать высокую или низкую вероятность последующего поиска на основе признаков объекта.

Claim 7 (Зависимый пункт): Уточняет возможность персонализации.

Если система имеет доступ к идентификатору пользователя (User ID) или браузера, и обучающие данные также привязаны к этому идентификатору, то предсказанная Score Value будет отражать вероятность поиска именно этим конкретным пользователем (персонализированное предсказание).

Claims 8, 9, 10 (Зависимые пункты): Детализируют типы признаков (Object Features).

Статистические признаки: количество упоминаний объекта в статье, размер текста, среднее количество объектов в статьях.
Профильные признаки: векторы, представляющие профиль объекта (генерируются анализом связанных веб-страниц, например, Википедии).
Признак популярности: популярность объекта как поискового запроса (на основе логов истории поиска, включая вертикальный поиск).
Также учитывается кластеризация новостей по темам: признаком может быть количество статей в том же тематическом кластере, упоминающих данный объект.

Где и как применяется

Этот патент не описывает работу основного веб-поиска (L1-L4 Ranking), а скорее функционирование сервисов-агрегаторов контента, таких как Яндекс.Новости или Дзен. Он затрагивает следующие слои в контексте работы этих сервисов:

Офлайн-процессы (INDEXING и Анализ данных)
Система требует значительной предварительной обработки данных:

Сбор и кластеризация новостных статей в News Database.
Сбор и структурирование данных о сущностях в Object Database (Граф Знаний).
Сбор логов поведения пользователей (Browsing Log, Search History Log) из различных источников (Браузер, Метрика).
Обучение MLA: анализ логов для выявления переходов от Новостей к Поиску, расчет целевых меток (Labels) и признаков (Features).

Онлайн-процессы (Генерация ответа пользователю)
Когда пользователь запрашивает статью в агрегаторе, система активируется:

Понимание контента (Parsing): Анализ статьи и распознавание сущностей (Entity Recognition).
Предиктивная аналитика (Ranking/Scoring): Извлечение признаков сущностей и расчет Score Value с помощью MLA в реальном времени.
Генерация ответа (BLENDER / Wizards): Если скор высок, система действует как генератор специализированных колдунщиков (Object Cards) для обогащения статьи. Она запрашивает данные из Object Database и формирует карточку.

На что влияет

Конкретные типы контента: В первую очередь влияет на отображение цифровых новостных статей в рамках сервисов Яндекса (Новости, Дзен).
Сущности (Entities): Напрямую влияет на видимость информации о людях, компаниях, местах, событиях, упомянутых в новостях.
Пользовательский опыт (UX): Направлен на удержание пользователя в рамках текущей сессии и снижение необходимости ручного поиска контекста.

Когда применяется

Условия работы: Алгоритм применяется в момент запроса пользователем новостной статьи через сервис-агрегатор.
Триггеры активации: 1) Идентификация известной сущности в тексте статьи. 2) Предсказанное значение Score Value (вероятность последующего поиска) для этой сущности превышает установленный порог (например, 0.5).

Пошаговый алгоритм

Процесс А: Офлайн-обучение MLA (Training Phase)

Сбор данных: Агрегация логов браузера (Browsing Log) и логов поиска (Search History Log).
Идентификация сессий: Разделение логов на отдельные навигационные сессии (группы URL, посещенных в течение ограниченного времени).
Выявление паттернов перехода: Поиск сессий, где пользователь посетил новостную статью с Объектом X, а затем, в течение заданного времени, посетил SERP по запросу «Объект X».
Расчет целевой метки (Label): Для Объекта X рассчитывается отношение (ratio) числа сессий с переходом к общему числу релевантных сессий. Это «истинная» вероятность поиска.
Извлечение признаков (Feature Extraction): Для Объекта X рассчитываются признаки популярности, профильные векторы и статистические признаки.
Обучение MLA: Модель (например, нейронная сеть) обучается предсказывать рассчитанную метку (Label) на основе извлеченных признаков.

Процесс Б: Обработка запроса в реальном времени (In-Use Phase)

Получение запроса: Пользователь запрашивает новостную статью.
Парсинг и распознавание: Система анализирует текст статьи и идентифицирует упомянутые объекты (сущности), сверяясь с базой объектов.
Извлечение признаков: Для каждого найденного объекта система рассчитывает или извлекает его текущие признаки (популярность, профиль, статистика в контексте данной статьи/сюжета).
Предсказание (MLA): Обученный MLA принимает признаки на вход и генерирует Score Value (вероятность последующего поиска) для каждого объекта.
Принятие решения: Система сравнивает Score Value с пороговым значением.
Генерация Карточки: Если порог превышен, система генерирует Object Card, извлекая связанную информацию (текст, фото, ссылки) из базы данных (Графа Знаний).
Отображение: Пользователю возвращается статья вместе с сгенерированными карточками (сразу видимыми или по наведению/клику).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые для обучения): Browsing Logs (история посещений, URL, временные метки) и Search History Logs (история поисковых запросов, включая вертикальный поиск). Эти данные критически важны для выявления Navigational Session Transition Patterns и расчета Label.
Контентные факторы: Текст новостной статьи (для распознавания объектов и расчета статистических признаков). Контент авторитетных источников, таких как Википедия (для генерации профильных признаков и наполнения карточек). Корпус новостных статей и их кластеризация по темам.
Данные Графа Знаний (Knowledge Graph): Object Database, хранящая идентификаторы сущностей и связанную с ними информацию. Используется для идентификации объектов и генерации Profile Features.
Временные факторы: Временные метки в логах используются для определения сессий и последовательности событий. Признаки популярности могут быть ограничены по времени.
Пользовательские факторы (Опционально): User ID или Browser ID для персонализированного предсказания (Claim 7).

Какие метрики используются и как они считаются

Label (Метка): Основная метрика для обучения. Рассчитывается как отношение (ratio) количества навигационных сессий, включающих переход от статьи к поиску по объекту, к общему количеству релевантных сессий.
Score Value (Оценка): Выход MLA, предсказывающий вероятность последующего поиска. Может быть бинарным (1/0) или в диапазоне (например, от 0 до 1).
Признаки (Features):
- Popularity: Количество поисковых запросов по объекту за период времени (в основном и вертикальном поиске).
- Profile Vectors: Векторные представления (эмбеддинги) сущности, сгенерированные на основе анализа связанных веб-страниц (например, Википедии).
- Statistical Metrics: Частота объекта в статье, размер статьи, среднее количество объектов в статьях, количество статей в новостном сюжете (кластере), упоминающих объект.
Пороговое значение (Threshold): Эмпирически определяемое значение (например, 0.5), при превышении которого генерируется карточка.
Алгоритмы машинного обучения: Упоминается использование нейронной сети (Neural Network) в качестве реализации MLA.

Выводы

Кросс-сервисный анализ поведения: Яндекс активно отслеживает и анализирует пути пользователей между своими сервисами (например, между Новостным агрегатором и Поиском). Историческое поведение является эталоном (Ground Truth) для предсказания будущих намерений.
Предиктивный UX и удержание: Цель системы — улучшить пользовательский опыт путем проактивного удовлетворения любопытства. Это снижает необходимость ручного поиска и удерживает пользователя в экосистеме сервиса.
Центральная роль Сущностей и Графа Знаний: Эффективность системы напрямую зависит от качества распознавания сущностей (Entity Recognition) и полноты данных в Object Database (Графе Знаний), которая используется для расчета признаков и наполнения карточек.
Комплексная оценка значимости сущности: Решение о показе карточки базируется на сложном ML-предсказании, учитывающем как общую популярность сущности (Popularity), ее характеристики (Profile), так и контекст ее упоминания в статье и новостном потоке (Statistical Features).
Персонализация предсказаний: Система может быть настроена как на предсказание поведения среднего пользователя, так и на персонализированное предсказание для конкретного пользователя на основе его личной истории (Claim 7).

Практика

Практическое применение в SEO

Хотя патент не влияет напрямую на ранжирование в основном поиске, он критически важен для стратегий Entity SEO и SERM.

Best practices (это мы делаем)

Обеспечение корректности данных в Графе Знаний (Knowledge Graph): Поскольку Object Cards наполняются из Object Database (часто основанной на Википедии и других авторитетных источниках), критически важно обеспечить точное и актуальное представление ваших ключевых сущностей (бренд, ключевые лица, продукты) в этих источниках. Это влияет и на содержание карточки, и на генерацию Profile Features.
Стимулирование поискового интереса (Popularity): Популярность сущности в поиске (Popularity Feature) является фактором, повышающим вероятность показа карточки. Маркетинговые активности, повышающие частоту поиска вашей сущности, способствуют ее лучшей обработке системой.
Четкое именование сущностей (для издателей): При публикации контента, который может попасть в Яндекс.Новости или Дзен, используйте общепринятые и однозначные названия сущностей. Это облегчает системе распознавание объекта и увеличивает вероятность генерации карточки.
Мониторинг репутации (SERM): Так как система автоматически подтягивает информацию о сущностях в новостной контекст, необходимо активно управлять содержанием информационных карточек (через управление источниками Графа Знаний), чтобы избежать негативного представления сущности при упоминании в новостях.

Worst practices (это делать не надо)

Игнорирование авторитетных источников: Пренебрежение работой над представлением сущности в Википедии или других источниках Графа Знаний может привести к тому, что карточка либо не будет сгенерирована (из-за слабых Profile Features), либо будет содержать неверную информацию.
Использование неоднозначных названий (для издателей): Использование жаргона или неоднозначных названий может помешать системе корректно идентифицировать сущности и связать их с данными в Object Database.
Манипулятивное упоминание сущностей (Entity Stuffing): Искусственное насыщение текста популярными сущностями без контекста неэффективно. Система учитывает комплекс признаков и исторические паттерны поведения, связанные с конкретным контекстом.

Стратегическое значение

Патент подтверждает стратегический фокус Яндекса на сущностях как основе организации информации и на глубоком анализе поведения пользователей для улучшения UX и удержания пользователей внутри экосистемы. Он демонстрирует, как данные о переходах между разными сервисами используются для обучения предиктивных моделей. Для SEO-стратегии это подчеркивает переход от ключевых слов к оптимизации сущностей (Entity Optimization) и управлению их представлением в Графе Знаний как критически важного элемента видимости.

Практические примеры

Сценарий 1: Как работает предсказание (Анализ статьи о назначении нового CEO)

Статья: Публикуется новость: «Компания Ромашка назначает Ивана Петрова новым CEO».
Идентификация сущностей: Система определяет две сущности: «Компания Ромашка» и «Иван Петров».
Расчет признаков:
- «Компания Ромашка»: Высокая популярность, сильные профильные признаки.
- «Иван Петров»: Низкая общая популярность (ранее неизвестен), слабые профильные признаки, но высокие статистические признаки (он главный герой новости).
Анализ MLA (на основе истории): MLA анализирует исторические данные. Он знает, что когда назначается новый CEO (контекст), пользователи часто ищут информацию о его биографии (паттерн поведения), даже если человек ранее не был популярен.
Результат: MLA присваивает высокий Score Value Ивану Петрову, несмотря на его низкую общую популярность. Система генерирует Object Card с его биографией (если она есть в базе).

Сценарий 2: Оптимизация представления ключевого спикера компании (Действия SEO/PR)

Задача: Обеспечить максимальную информативность при упоминании CEO в новостях.
Действия SEO/PR-специалиста:
1. Убедиться, что статья о CEO в Википедии актуальна, содержит качественное фото и корректно описывает его должность (влияние на Profile Features и содержание Карточки).
2. Провести PR-активности для повышения узнаваемости и частоты поиска CEO (Popularity Feature).
3. При подготовке пресс-релизов использовать полное и общепринятое имя CEO (облегчение идентификации).
Результат: Когда пользователь читает новость с упоминанием CEO, система, благодаря сильным признакам, с высокой вероятностью генерирует корректную и полную информационную карточку, улучшая восприятие.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в основном поиске Яндекса?

Напрямую нет. Патент описывает механизм улучшения пользовательского опыта внутри новостных агрегаторов (таких как Яндекс.Новости или Дзен) путем добавления информационных карточек к статьям. Он не описывает алгоритмы L1-L4 ранжирования основного веб-поиска. Однако он показывает, насколько важны для Яндекса сущности и Граф Знаний.

Что такое «Карточка Объекта» (Object Card) и откуда берутся данные для нее?

Object Card — это информационный блок (похожий на панель Графа Знаний в поиске), содержащий краткую справку о сущности (человеке, месте, событии), упомянутой в статье. Данные для нее берутся из Object Database Яндекса (Графа Знаний), которая агрегирует информацию из авторитетных источников. В патенте в качестве примера такого источника упоминается Википедия.

Как Яндекс определяет, для каких сущностей нужно показывать карточку, а для каких нет?

Решение принимается алгоритмом машинного обучения (MLA). Он предсказывает вероятность (Score Value) того, что пользователь захочет искать дополнительную информацию об этой сущности после прочтения статьи. Если вероятность выше установленного порога, карточка показывается. Предсказание основано на популярности сущности, ее профиле и статистике упоминаний в статье.

На основе каких данных обучается этот алгоритм предсказания?

Алгоритм обучается на исторических данных о поведении пользователей (Browsing Logs). Система анализирует прошлые навигационные сессии и ищет паттерны (Navigational Session Transition Patterns), когда пользователь прочитал статью с упоминанием сущности X и сразу после этого пошел в поиск искать информацию о сущности X. Частота таких переходов является целевой метрикой (Label) для обучения.

Какие признаки (Features) использует алгоритм для предсказания интереса пользователя?

В патенте упомянуты три основных типа признаков. Statistical Features: как часто сущность упоминается в данной статье или в рамках новостного сюжета. Popularity Feature: насколько часто эту сущность ищут в поиске в целом. Profile Features: векторное представление профиля сущности (например, ее категория, профессия), основанное на анализе связанных авторитетных источников (например, Википедии).

Что это значит для моей работы по SEO и SERM?

Это подчеркивает критическую важность оптимизации сущностей (Entity Optimization) и управления репутацией (SERM). Вы должны убедиться, что ваши ключевые сущности (бренды, продукты, персоны) корректно представлены в источниках, которые использует Граф Знаний Яндекса. Содержание этих источников напрямую влияет на то, что пользователь увидит в Object Card.

Может ли система делать персонализированные предсказания?

Да, патент предусматривает такую возможность (Claim 7). Если система имеет доступ к идентификатору пользователя (User ID или Browser ID) и его персональной истории поведения, она может обучить модель предсказывать вероятность последующего поиска именно этим конкретным пользователем, а не усредненным.

Откуда Яндекс берет данные о поведении пользователей (Browsing Logs)?

В патенте упоминается, что логи могут быть получены через приложения веб-аналитики (например, Яндекс.Метрика, установленная на сайтах издателей) или напрямую из браузера пользователя (например, Яндекс.Браузера). При этом данные могут быть анонимизированы.

Как издатель новостного сайта может повлиять на генерацию этих карточек?

Издатель может повысить вероятность генерации карточек, используя четкие, общепринятые и однозначные названия для сущностей в своих статьях. Это облегчает системе распознавание объекта (Entity Recognition). Генерация карточек делает статью более информативной для пользователя, что потенциально улучшает поведенческие факторы.

Является ли этот механизм аналогом Колдунщиков (Wizards)?

Концептуально да. Object Card — это форма специализированного Колдунщика, который срабатывает не в ответ на прямой поисковый запрос на SERP, а в ответ на запрос новостной статьи в агрегаторе. Механизм принятия решения о показе основан на предсказании будущего запроса, а не на анализе текущего.