Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс прогнозирует интерес пользователя к сущностям в новостях для показа информационных карточек

    СПОСОБ И СИСТЕМА ДЛЯ ФОРМИРОВАНИЯ КАРТОЧКИ ОБЪЕКТА (Method and system for generating an object card)
    • RU2739554C1
    • Yandex LLC
    • 2020-12-25
    • 2018-12-13
    2020 Интент пользователя Патенты Яндекс Поведенческие факторы Яндекс Новости

    Яндекс использует машинное обучение для анализа новостных статей и прогнозирования вероятности того, что пользователь захочет найти дополнительную информацию об упомянутых сущностях (людях, местах, событиях). Система анализирует исторические данные о поведении (просмотры статей и последующие поиски). Если вероятность интереса высока, система автоматически показывает «Карточку объекта» с краткой сводкой прямо в статье.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему улучшения пользовательского опыта при потреблении новостного контента в агрегаторах (например, Яндекс.Новости или Дзен). Он устраняет необходимость для пользователя вручную покидать страницу статьи и выполнять отдельный поиск для получения контекстной информации об упомянутых в тексте сущностях (объектах). Это экономит время пользователя и повышает вовлеченность, проактивно удовлетворяя информационную потребность.

    Что запатентовано

    Запатентованы способ и система для автоматического формирования Карточки объекта (Object Card). Суть изобретения заключается в использовании Алгоритма машинного обучения (MLA) для прогнозирования вероятности того, что пользователь выполнит последующий веб-поиск по конкретному объекту (сущности), идентифицированному в статье. MLA обучается на исторических поведенческих данных, анализируя связь между просмотром новостей и последующим поиском.

    Как это работает

    Когда пользователь открывает новостную статью, система анализирует текст и идентифицирует известные сущности, сверяясь с Базой данных объектов (Графом Знаний). Для каждой сущности извлекается набор признаков: статистические (контекст в статье), профильные (характеристики сущности) и популярность (трендовость в поиске). Обученный MLA рассчитывает Значение оценки (Score) — вероятность последующего поиска. Если эта оценка превышает порог, система генерирует и отображает Карточку объекта вместе со статьей.

    Актуальность для SEO

    Высокая. Прогнозирование намерений пользователя, распознавание сущностей (NER) и проактивное предоставление информации на основе Графа Знаний являются ключевыми технологиями в современных системах доставки контента и поисковых системах. Механизм актуален для улучшения UX в сервисах типа Яндекс.Новости и Дзен.

    Важность для SEO

    Влияние на SEO среднее (5/10). Патент не описывает ранжирование в основном веб-поиске. Он сфокусирован на улучшении UX внутри агрегаторов контента. Однако он имеет высокое стратегическое значение, так как демонстрирует способность Яндекса удовлетворять интент напрямую (Zero-Click), что может снижать последующий поисковый трафик. Это подчеркивает критическую важность оптимизации сущностей (Entity Optimization) и обеспечения их корректного представления в Графе Знаний Яндекса.

    Детальный разбор

    Термины и определения

    Алгоритм машинного обучения (MLA)
    Модель (в патенте упоминается нейронная сеть), обученная прогнозировать вероятность выполнения пользователем последующего поиска по объекту. Обучение происходит на исторических данных о сеансах навигации.
    База данных объектов
    Репозиторий (аналог Knowledge Graph), содержащий множество объектов (сущностей) и связанные с ними информационные данные (описания, медиа, URL-адреса, например, на Википедию).
    Значение оценки (Score)
    Выходное значение MLA, представляющее вероятность того, что пользователь выполнит веб-поиск для обнаружения дополнительной информации об объекте после прочтения статьи.
    Карточка объекта (Object Card)
    Элемент интерфейса, который генерируется и отображается совместно с новостной статьей, если Значение оценки для объекта превышает порог. Содержит информационные данные об объекте.
    Метка (Label)
    Целевая переменная (Ground Truth) для обучения MLA. Указывает на долю исторических сеансов навигации, в которых пользователь после просмотра статьи с объектом выполнил поиск этого объекта в течение заданного времени.
    Объект (Сущность, Entity)
    Слово или фраза в тексте статьи, связанная с идентифицируемым элементом (человек, место, организация и т.п.), присутствующим в Базе данных объектов.
    Паттерн переходов в ходе сеансов навигации
    Последовательность посещенных URL-адресов в рамках одного сеанса просмотра. Анализируется для обучения MLA.
    Признаки объекта
    Набор характеристик объекта, используемых MLA для расчета Значения оценки. Включает Статистические признаки, Признаки профиля и Признаки популярности.

    Ключевые утверждения (Анализ Claims)

    Патент защищает метод проактивного предоставления информации о сущностях, основанный на прогнозировании интереса пользователя с помощью ML.

    Claim 1 (Независимый пункт): Описывает основной способ работы системы в реальном времени.

    1. Система получает запрос на цифровую новостную статью.
    2. Статья извлекается, и ее текст разбирается для идентификации объектов (сущностей), присутствующих в базе данных.
    3. Для объекта определяется набор признаков, включающий статистические признаки (характеристики объекта в контексте данной статьи и/или всего корпуса статей).
    4. MLA формирует Значение оценки для объекта. Эта оценка представляет вероятность того, что пользователь выполнит веб-поиск по этому объекту.
    5. Если значение оценки превышает заданный порог, формируется Карточка объекта.
    6. Карточка и статья передаются пользователю для совместного отображения.

    Claim 2, 3, 4, 5 (Зависимые пункты): Детализируют механизм обучения MLA (например, нейронной сети) и формирование обучающих данных (Ground Truth).

    1. Обучение использует исторические данные из Журнала просмотра (сессии навигации).
    2. Формируется Метка (Label). Она рассчитывается как доля сессий, которые включали (i) просмотр статьи с объектом И (ii) просмотр SERP, где этот объект использовался как поисковый термин (Claim 3, 4).
    3. Критическое условие: эти два события должны произойти в течение заранее заданного периода времени (Claim 5).

    Claim 8 (Зависимый пункт): Детализирует состав признаков, используемых MLA.

    • Статистические признаки: количество вхождений объекта в статье, размер текста статьи, среднее количество объектов в статьях корпуса.
    • Дополнительные признаки: Признаки профиля (векторное представление/эмбеддинг профиля объекта) и/или Признак популярности (популярность объекта как поискового термина).

    Где и как применяется

    Изобретение применяется в рамках Приложения агрегатора новостей (например, Яндекс.Новости или Дзен). Оно не относится к основному веб-поиску, но тесно взаимодействует с его инфраструктурой.

    Офлайн-процессы (Подготовка данных и Обучение)

    • CRAWLING & INDEXING: Сбор и кластеризация новостных статей. Поддержание Базы данных объектов (Графа Знаний).
    • Анализ данных и Обучение (QUALITY LAYER):
      • Анализ Журналов просмотра и поиска для выявления паттернов поведения.
      • Расчет Метки (Ground Truth) на основе исторических сессий.
      • Расчет Признаков профиля (векторизация сущностей, например, из Википедии) и Признаков популярности (тренды поиска).
      • Обучение MLA.

    Онлайн-процессы (Обработка запроса на статью)

    • Entity Extraction (INDEXING): Анализ текста запрошенной статьи и идентификация объектов.
    • Scoring (RANKING): Расчет Статистических признаков и извлечение предрассчитанных признаков. Применение MLA для вычисления Значения оценки (вероятности поиска) для каждого объекта.
    • Генерация Ответа (BLENDER / Presentation Layer): Сравнение оценки с порогом. Если порог превышен, генерация Карточки объекта и встраивание ее в финальный ответ пользователю.

    На что влияет

    • Конкретные типы контента: Влияет на отображение цифровых новостных статей в сервисах-агрегаторах Яндекса.
    • Сущности (Entities): Механизм напрямую зависит от качества распознавания сущностей (люди, места, организации) и полноты Графа Знаний.
    • Пользовательский опыт (UX) и Поиск (Zero-Click): Повышает удобство потребления контента, но потенциально снижает количество последующих поисковых запросов в основном поиске, так как интент удовлетворяется проактивно.

    Когда применяется

    • Условия применения: Алгоритм активируется при каждом запросе пользователя на просмотр цифровой новостной статьи через соответствующий сервис.
    • Триггеры генерации карточки:
      1. Идентификация известного объекта в тексте статьи.
      2. Превышение рассчитанным Значением оценки заранее заданного порога. Порог может определяться эмпирически.

    Пошаговый алгоритм

    Процесс А: Обучение MLA (Офлайн)

    1. Сбор и Разбор Данных: Агрегация Журналов просмотра и поиска. Идентификация Паттернов переходов в ходе сеансов навигации (группировка URL в рамках ограниченного времени).
    2. Формирование Метки (Ground Truth): Для обучающего объекта (Entity X) определяются сессии, где пользователь (i) посетил статью с Entity X и (ii) в течение той же сессии выполнил поиск Entity X. Метка рассчитывается как доля таких сессий.
    3. Расчет Признаков: Для Entity X рассчитываются Признаки профиля (векторы), Признаки популярности (тренды) и Статистические признаки (в контексте статей).
    4. Обучение: MLA (например, нейронная сеть) обучается предсказывать Метку на основе входных признаков.

    Процесс Б: Формирование карточки (Онлайн)

    1. Прием запроса и Разбор статьи: Пользователь запрашивает статью. Система идентифицирует содержащиеся в ней объекты (Entity A, Entity B).
    2. Определение признаков: Для Entity A и Entity B определяются наборы признаков (Статистические, Профильные, Популярность).
    3. Формирование Значения оценки (Scoring): Обученный MLA рассчитывает вероятность последующего поиска для Entity A и Entity B.
    4. Сравнение с порогом: Значения оценки сравниваются с порогом (например, 0.5).
    5. Формирование карточки: Если оценка превышает порог (например, для Entity A), генерируется Карточка объекта (описание, фото, ссылка).
    6. Отображение: Статья и сгенерированная карточка передаются пользователю.

    Какие данные и как использует

    Данные на входе

    • Поведенческие факторы (Критические для обучения): Журнал просмотра (URL, отметки времени) и Журнал поиска (запросы). Анализируются последовательности действий в рамках сессий для выявления связей между чтением и поиском.
    • Контентные факторы: Текст новостной статьи (для идентификации объектов и расчета статистических признаков). Корпус новостных статей (для расчета общих статистик и кластеризации).
    • Данные Графа Знаний (База данных объектов): Каталог сущностей и связанные с ними данные (текст, медиа, URL).
    • Внешние данные: Веб-страницы, связанные с объектом (например, Википедия), используются для формирования Признаков профиля (векторного представления).
    • Временные факторы: Используются для определения границ сеанса при обучении и для расчета Признаков популярности (трендовость поиска за период).
    • Пользовательские факторы: Может использоваться идентификатор пользователя для персонализации прогноза (Claim 7).

    Какие метрики используются и как они считаются

    Система вычисляет несколько ключевых метрик и признаков:

    • Метка (Label) (для обучения): Рассчитывается как отношение количества сессий, включающих просмотр статьи с объектом и последующий поиск этого объекта, к общему количеству релевантных сессий. $${ Метка = \frac{Кол-во\_сессий\_с\_последующим\_поиском}{Общее\_кол-во\_сессий} }$$
    • Значение оценки (Score) (для применения): Выход MLA. Вероятностное значение (например, от 0 до 1), предсказывающее Метку.
    • Статистические признаки:
      • Количество вхождений объекта в статье.
      • Размер корпуса текста (длина статьи).
      • Среднее количество вхождений объекта в корпусе документов.
      • Количество документов в тематическом кластере, содержащих объект (Claim 10).
    • Признаки профиля (Эмбеддинги сущности): Набор векторов, представляющих профиль объекта. Формируется путем анализа связанной веб-страницы (например, Википедии) с использованием ML (Claim 9).
    • Признаки популярности: Количество поисков объекта в основном или вертикальных поисках (Картинки, Видео) за заданный период времени (Claim 9).

    Алгоритмы машинного обучения: Используется обученный MLA, в качестве примера приводится нейронная сеть (Claim 2).

    Выводы

    1. Прогнозирование интента на основе поведения: Яндекс активно использует исторические данные о поведении пользователей (связку «чтение -> поиск» в рамках одной сессии) для обучения ML-моделей, предсказывающих будущие информационные потребности.
    2. Проактивное удовлетворение интента (Zero-Click): Система направлена на удержание пользователя внутри платформы агрегатора и снижение необходимости перехода в основной поиск. Это подтверждает тренд на Zero-Click взаимодействие.
    3. Критическая роль Графа Знаний (Базы данных объектов): Эффективность системы зависит от качества распознавания сущностей и полноты данных в Графе Знаний Яндекса, который служит источником для карточек.
    4. Комплексная оценка значимости сущности: Решение о показе информации принимается на основе комбинации факторов: контекста статьи (Статистические признаки), характеристик сущности (Признаки профиля/Эмбеддинги) и текущей популярности (Трендовость).
    5. Использование внешних авторитетных источников: Патент подтверждает использование источников типа Википедии для формирования векторных представлений (Признаков профиля) сущностей.

    Практика

    Best practices (это мы делаем)

    Хотя патент не описывает ранжирование в веб-поиске, он дает критически важные стратегические инсайты для SEO.

    • Оптимизация под Сущности (Entity Optimization): Необходимо обеспечить присутствие ключевых сущностей (бренд, продукты, персоны) в Графе Знаний Яндекса. Это достигается через микроразметку (Schema.org) и поддержание актуальной информации в авторитетных источниках (Википедия, справочники), которые Яндекс использует для формирования Признаков профиля.
    • Управление репутацией и данными в Графе Знаний: Мониторьте, какая информация используется для наполнения Карточек объекта. Убедитесь, что данные точны и позитивны, так как они могут стать основным источником информации для пользователя (Zero-Click).
    • Стимулирование брендового спроса и популярности: Высокие Признаки популярности (частота поиска сущности) являются фактором для показа карточки. Развитие бренда и PR-активности, стимулирующие интерес, положительно влияют на эти метрики.
    • Четкость упоминаний в контенте (для издателей): Для контента, попадающего в агрегаторы (Новости/Дзен), важно четкое и недвусмысленное упоминание сущностей для корректной идентификации и расчета Статистических признаков.

    Worst practices (это делать не надо)

    • Игнорирование тренда Zero-Click: Фокусироваться только на получении трафика из поиска и игнорировать тот факт, что Яндекс стремится удовлетворять интент напрямую. Это может привести к потере видимости, даже если трафик снижается.
    • Неоднозначное упоминание сущностей: Использование неточных или двусмысленных названий затрудняет идентификацию (Entity Recognition) и связывание с Базой данных объектов.

    Стратегическое значение

    Патент подтверждает стратегический фокус Яндекса на глубоком понимании контента через призму сущностей и на прогнозировании намерений пользователей через анализ полных сессий. Для SEO это означает переход от управления трафиком к управлению видимостью сущностей (Entity Visibility Management). Долгосрочная стратегия должна строиться на создании авторитетных сущностей, информация о которых будет доступна пользователю напрямую через интерфейсы Яндекса.

    Практические примеры

    Сценарий: Запуск нового продукта и его освещение в новостях

    1. Действия компании: Компания «Альфа» запускает продукт «Бета». Проводится PR-кампания, стимулирующая поисковый интерес (высокий Признак популярности). Информация о продукте размещена на официальном сайте с Schema.org и в отраслевых справочниках (формирование Признаков профиля).
    2. Действие пользователя: Пользователь читает новость о запуске в агрегаторе Яндекса.
    3. Действие системы: Система идентифицирует сущность «Продукт Бета». MLA на основе высокой популярности и исторических паттернов предсказывает высокую вероятность (0.8) интереса пользователя.
    4. Результат: Рядом со статьей отображается Карточка объекта для «Продукта Бета» с кратким описанием и фото.
    5. Эффект для SEO: Пользователь может не пойти в поиск (Zero-Click), но бренд получил видимость и донес ключевую информацию.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в органической выдаче Яндекса?

    Напрямую нет. Патент описывает механизм улучшения пользовательского опыта внутри сервисов агрегации контента (например, Яндекс.Новости, Дзен), а не алгоритмы ранжирования основного веб-поиска. Он определяет, когда показывать дополнительную информацию о сущности в статье.

    Каков основной риск для SEO, следующий из этого патента?

    Основной риск связан с усилением тренда Zero-Click. Цель системы — проактивно удовлетворить интент пользователя, чтобы ему не нужно было выполнять поиск вручную. Если Карточка объекта предоставляет достаточную информацию, пользователь не переходит в SERP, что может снизить органический трафик по запросам, связанным с сущностями, упомянутыми в новостях.

    Как Яндекс предсказывает, заинтересует ли меня объект в статье?

    Прогноз строится Алгоритмом машинного обучения (MLA), обученным на огромном массиве исторических данных о поведении. Система анализирует паттерны: как часто пользователи в прошлом читали статьи об этом объекте и затем выполняли по нему поиск в рамках одной сессии. На основе этих паттернов, текущей популярности объекта и контекста статьи MLA рассчитывает вероятность интереса.

    Какие ключевые признаки (факторы) Яндекс анализирует для сущностей?

    Патент выделяет три типа признаков. Статистические признаки (как часто и в каком контексте объект упоминается в статье и новостях в целом). Признаки профиля (векторное представление/эмбеддинг сущности, описывающее ее тип и свойства). Признаки популярности (насколько часто этот объект ищут в поиске Яндекса в последнее время).

    Откуда берутся данные для наполнения Карточки объекта и Признаков профиля?

    Данные берутся из «Базы данных объектов» Яндекса (Граф Знаний). Для формирования Признаков профиля (векторного представления) и наполнения базы используются авторитетные внешние источники. В патенте в качестве примера такого источника прямо упоминается Википедия.

    Как я могу оптимизировать свой бренд или компанию, чтобы появляться в этих карточках?

    Необходимо сфокусироваться на оптимизации сущностей (Entity Optimization). Убедитесь, что ваш бренд корректно представлен в Графе Знаний Яндекса. Для этого поддерживайте актуальную информацию в авторитетных источниках (Википедия, Справочники) и используйте микроразметку Schema.org на своем сайте. Также повышение общей популярности бренда в поиске (Признак популярности) увеличит шансы.

    Является ли эта система персонализированной?

    Да, патент предусматривает такую возможность (Claim 7). Система может использовать идентификатор пользователя и его индивидуальную историю просмотра и поиска для расчета персонализированной вероятности интереса к объекту. Это означает, что разные пользователи могут видеть разные карточки для одной и той же статьи.

    Что такое «Паттерн переходов в ходе сеансов навигации» и почему он важен?

    Это последовательность действий пользователя (посещенных URL) в рамках одного временного окна (сеанса). Он критически важен для обучения системы, так как позволяет Яндексу установить прямую поведенческую связь (Ground Truth) между просмотром новостной статьи с сущностью и последующим поисковым запросом этой же сущности.

    Использует ли Яндекс BERT или YATI для формирования Признаков профиля?

    Патент не упоминает конкретные модели, но описывает Признаки профиля как «набор векторов, представляющих профиль текстового объекта», формируемый с помощью машинного обучения на основе анализа связанных веб-страниц. Это описание соответствует концепции эмбеддингов сущностей, для генерации которых Яндекс, вероятно, использует свои современные NLP-модели, включая трансформеры типа YATI.

    В каких сервисах Яндекса применяется эта технология?

    Технология описана в контексте «Приложения агрегатора новостей». Наиболее вероятными местами применения являются Яндекс.Новости и контентная платформа Дзен. Она применяется на этапе отображения конкретной статьи пользователю для улучшения его опыта и вовлеченности.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.