Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

Описание

Какую задачу решает

Патент решает проблему автоматического определения того, какие аспекты (категории или свойства) конкретной сущности или темы наиболее интересны пользователям, и как эффективно организовать и представить связанный контент. Система стремится избежать отображения фактически верной, но неинтересной пользователям информации (например, малоизвестных фактов), фокусируясь на тех связях, которые подтверждены реальным интересом аудитории.

Что запатентовано

Запатентована система для автоматической генерации страниц контента, организованного по категориям (Properties). Ядром изобретения является метод оценки и выбора категорий для отображения. Эта оценка (Score) рассчитывается путем анализа пересечения двух наборов данных: связей, выведенных из поведения пользователей (User Interaction Information), и связей, определенных в структурированной базе данных (например, Knowledge Graph). Это позволяет системе динамически адаптировать представление сущности под интересы аудитории.

Как это работает

Система работает следующим образом:

Инициация: Поступает запрос на генерацию страницы для First Entity (например, «Superhero X»).
Анализ поведения (Первая группа): Идентифицируется First group of entities — сущности, связанные с «Superhero X» на основе поведения пользователей (например, совместные поиски, просмотры).
Анализ структуры (Вторая группа): Идентифицируются Properties (Свойства) «Superhero X» из базы данных (например, «Актеры», «Фильмы») и связанные с ними сущности (Second group of entities).
Расчет Оценки (Score): Для каждого Свойства рассчитывается оценка, основанная на том, какая доля сущностей из Второй группы также присутствует в Первой группе. Если пользователи часто ищут актеров вместе с супергероем, свойство «Актеры» получит высокую оценку.
Отбор и наполнение: Выбираются Свойства с высокими оценками. Для них ищутся релевантные Content Items, из которых отбираются наиболее популярные (на основе popularity).
Представление: Генерируется интерфейс, где популярный контент организован по выбранным Свойствам.

Актуальность для SEO

Высокая. Автоматическая организация контента и динамическая адаптация под интересы пользователя являются центральными элементами современных продуктов Google, таких как Google Discover, тематические страницы YouTube, динамические Панели Знаний (Knowledge Panels) и функции «Explore». Этот патент описывает конкретный механизм для обеспечения релевантности таких автоматизированных страниц.

Важность для SEO

Патент имеет высокое значение (85/100) для Entity-Based SEO. Он демонстрирует, что для отображения информации о сущности недостаточно просто иметь связи в Knowledge Graph или структурированных данных. Критически важно, чтобы эти связи были подтверждены реальным интересом пользователей (User Interaction Information). SEO-специалистам необходимо не только оптимизировать представление сущности в графе знаний, но и понимать и стимулировать пользовательский интерес вокруг ключевых свойств этой сущности.

Детальный разбор

Термины и определения

Content Items (Единицы контента): Медиафайлы (видео, аудио, веб-страницы) или агрегации контента (плейлисты, каналы), которые представляются пользователю.
First Entity (Первая сущность): Основная тема или сущность (например, персонаж, фильм, организация), для которой генерируется страница.
First group of entities (Первая группа сущностей): Набор сущностей, которые считаются связанными с Первой сущностью на основе User Interaction Information. Это связи, выведенные из поведения пользователей.
Property (Свойство): Категория или поле, через которое Первая сущность связана с другими сущностями в структурированной базе данных (например, «Актеры, сыгравшие персонажа» или «Фильмы с участием»). Используется как заголовок категории в интерфейсе.
Score (Оценка): Метрика, рассчитываемая для каждого Свойства. Указывает на вероятность того, что пользователь будет заинтересован в контенте, соответствующем этому Свойству. Рассчитывается на основе пересечения Первой и Второй групп сущностей.
Second group of entities (Вторая группа сущностей): Набор сущностей, связанных с Первой сущностью через конкретное Свойство в структурированной базе данных (например, список актеров, сыгравших персонажа).
User Interaction Information (Информация о взаимодействии пользователей): Данные о поведении пользователей (поисковые запросы, совместно просматриваемый контент в одной сессии), используемые для вывода связей между сущностями.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод представления контента, организованного по категориям.

Система получает запрос на представление страницы о First Entity с пользовательского устройства.
Идентифицируется First group of entities, связанных с First Entity, на основе User Interaction Information, собранной от множества других пользователей (агрегированные данные, не персонализация).
Идентифицируется группа Properties (Свойств) для First Entity.
Для каждого Свойства идентифицируется Second group of entities, соответствующих этому Свойству.
Для каждого Свойства рассчитывается Score, основанный на Первой и Второй группах. Оценка указывает на вероятность интереса пользователя к контенту этого Свойства.
Определяется подмножество Свойств на основе их Оценок.
Для отобранных Свойств идентифицируется группа Content Items.
Определяется подмножество Content Items.
Система вызывает отображение пользовательского интерфейса, показывающего отобранный контент, организованный по соответствующим Свойствам.

Claim 2 (Зависимый от 1): Определяет метод расчета Оценки.

Расчет Score включает вычисление пропорции сущностей из Second group of entities, которые также присутствуют в First group of entities.

Claim 3 (Зависимый от 1): Определяет критерий выбора контента.

Подмножество Content Items определяется на основе популярности (popularity) каждого элемента контента.

Claim 8 (Зависимый от 1): Определяет источник структурных данных.

Идентификация Second group of entities включает доступ к базе данных (например, Knowledge Graph), которая указывает на взаимосвязь каждой сущности из Второй группы с Первой сущностью через Свойство.

Где и как применяется

Изобретение затрагивает этапы, связанные с генерацией финального представления результатов, особенно для страниц, сфокусированных на сущностях.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна предварительно обрабатывать и хранить два ключевых типа данных:

Структурированные данные: Хранение сущностей, их свойств и связей между ними (Knowledge Graph), которые формируют Second group of entities. Также индексируются метрики популярности контента.
Данные о поведении: Анализ логов поиска и просмотров для выявления и хранения связей между сущностями на основе User Interaction Information, которые формируют First group of entities.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основное применение патента происходит при генерации ответа на запрос о сущности (например, при формировании Панели Знаний, страницы темы на YouTube или ленты Discover).

Ранжирование Свойств: Система использует данные этапа INDEXING для расчета Score для каждого Свойства и ранжирует их по вероятности интереса пользователя.
Ранжирование Контента: Для выбранных Свойств система ранжирует доступный контент на основе его популярности.
Генерация Интерфейса: Система формирует финальный пользовательский интерфейс, организуя контент по категориям.

Входные данные:

Идентификатор Первой сущности (First Entity).
Предварительно рассчитанная Первая группа сущностей (First group of entities).
Структурированная база данных (Knowledge Graph), содержащая Свойства и Вторую группу сущностей (Second group of entities).
Данные о популярности контента (Popularity).

Выходные данные:

Структурированный пользовательский интерфейс (UI) с отобранными категориями (Свойствами) и популярными единицами контента внутри них.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы о известных сущностях (люди, организации, фильмы, персонажи, темы).
Типы контента и форматы: Влияет на отображение видео, плейлистов, каналов (особенно актуально для YouTube), статей и другого контента в организованных блоках, таких как Панели Знаний, Google Discover и тематические страницы.
Конкретные ниши или тематики: Развлечения, медиа, культура, спорт — тематики, где сущности имеют богатые структурированные связи и высокий объем данных о взаимодействии пользователей.

Когда применяется

Триггер активации: Алгоритм активируется, когда система получает запрос на генерацию страницы или организованного представления контента о конкретной First Entity.
Условия применения: Применяется, когда необходимо решить, какие аспекты (Свойства) сущности следует выделить в интерфейсе, чтобы максимизировать вовлеченность пользователя, и когда доступны достаточные объемы структурированных и поведенческих данных.

Пошаговый алгоритм

Процесс автоматической генерации страницы сущности.

Получение запроса: Система получает указание сгенерировать страницу о Первой сущности (First Entity) на устройстве пользователя.
Идентификация связей по поведению: Идентифицируется Первая группа сущностей (First group of entities), связанных с Первой сущностью на основе User Interaction Information (данные о совместных поисках/просмотрах).
Идентификация Свойств: Извлекается группа Свойств (Properties), соответствующих Первой сущности из структурированной базы данных.
Идентификация связей по структуре: Для каждого Свойства идентифицируется Вторая группа сущностей (Second group of entities), связанных с Первой сущностью через это Свойство.
Расчет Оценки Свойств (Scoring): Для каждого Свойства рассчитывается Score. Расчет основан на пересечении Первой и Второй групп. Например, вычисляется пропорция сущностей из Второй группы, которые также присутствуют в Первой группе.
Отбор Свойств: Идентифицируется подмножество Свойств на основе их Оценок (например, превышающих порог или Топ-N).
Поиск релевантного контента: Для каждого Свойства в отобранном подмножестве идентифицируются релевантные Единицы контента (Content Items).
Отбор популярного контента: Идентифицируется подмножество релевантного контента на основе его популярности (popularity).
Генерация Интерфейса: Система вызывает отображение пользовательского интерфейса на странице, который показывает отобранный контент, организованный по Свойствам (категориям).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании трех основных типов данных:

Поведенческие факторы (User Interaction Information): Критически важны для формирования First group of entities. Включают данные о том, что пользователи ищут или смотрят в связи с Первой сущностью (совместная встречаемость в запросах, сессиях просмотра). Патент подчеркивает, что эти данные собираются от множества пользователей, а не от текущего пользователя.
Структурные факторы (Structured Data/Database): Данные из базы знаний (Knowledge Graph). Используются для определения доступных Properties и формирования Second group of entities. Это фактические связи между сущностями.
Метрики контента (Content Popularity): Используются на финальном этапе для выбора Content Items. Включают количество просмотров, просмотры за период времени, средний процент просмотра контента (удержание), комментарии, шейры, количество подписчиков (для каналов).

Какие метрики используются и как они считаются

Score (Оценка Свойства): Основная метрика патента. Определяет вероятность интереса пользователя к Свойству.
- Формула расчета (Claim 2): Пропорция сущностей из Второй группы, которые также включены в Первую группу. Математически это можно выразить как:

Выводы

Синергия структурированных данных и поведения пользователей: Ключевой вывод заключается в том, что Google определяет релевантность категорий путем объединения фактических знаний (Knowledge Graph) и данных об интересах пользователей. Недостаточно просто иметь связь в графе; необходимо, чтобы пользователи демонстрировали интерес к этой связи через свое поведение (поиск, просмотры).
Интерес пользователя определяет структуру представления сущности: Система явно отдает приоритет тем Свойствам (Properties), которые интересны аудитории (высокий Score), и игнорирует те, которые не вызывают интереса (низкий Score), даже если они фактически верны и присутствуют в базе данных.
Оценка на основе пропорции (Intersection): Метод расчета Score как пропорции пересечения групп является конкретным и измеримым способом оценки релевантности Свойства. Это позволяет отфильтровать менее релевантные или неинтересные пользователям факты о сущности.
Критичность популярности контента: Даже если Свойство выбрано как интересное, в финальный интерфейс попадут только те Content Items, которые доказали свою популярность. Это подчеркивает важность метрик вовлеченности контента.
Динамическая адаптация: Поскольку First group of entities основана на поведении пользователей, она может меняться со временем. Это означает, что представление сущности будет адаптироваться под текущие тренды и интересы аудитории.

Практика

Best practices (это мы делаем)

Комплексная оптимизация сущностей (Entity Optimization): Обеспечьте полное, точное и связанное представление вашей сущности (бренда, продукта, персоны) в источниках структурированных данных (Schema.org, Wikidata, профили Google). Это необходимо для формирования корректных Properties и Second group of entities.
Стимулирование и мониторинг пользовательского интереса (Co-occurrence): Создавайте контент и PR-активности, которые естественным образом связывают вашу основную сущность с ее ключевыми свойствами. Необходимо стимулировать совместные поиски и просмотры, чтобы эти свойства попали в First group of entities. Например, если вы продвигаете фильм, активно продвигайте контент об актерах этого фильма.
Анализ поведенческих связей: Используйте инструменты анализа трендов и связанных запросов (например, Google Trends), чтобы понять, какие сущности уже ассоциируются с вашей основной сущностью в сознании пользователей (потенциальная First group of entities). Усиливайте эти связи в контенте и структуре.
Оптимизация популярности контента: Работайте над улучшением метрик вовлеченности (CTR, глубина просмотра, время просмотра, шейры) для контента, связанного с вашими ключевыми свойствами. Популярность является финальным фильтром для попадания в интерфейс.

Worst practices (это делать не надо)

Манипуляция структурированными данными без реального интереса: Добавление множества свойств и связей в разметку Schema.org или Wikidata не гарантирует их отображения, если они не подтверждены сигналами пользовательского взаимодействия (User Interaction Information). Система отфильтрует их из-за низкого Score.
Фокус на малозначимых или неинтересных фактах: Попытки продвигать контент о свойствах сущности, которые не интересны широкой аудитории. Например, фокусироваться на технических деталях продукта, когда пользователи интересуются только его применением.
Игнорирование вовлеченности контента: Создание большого количества низкокачественного или невовлекающего контента по релевантным темам. Такой контент будет отфильтрован на этапе оценки популярности.

Стратегическое значение

Патент подтверждает критическую важность Entity-Based SEO и смещение фокуса с анализа текста на анализ связей и пользовательского поведения. Он показывает, что Google стремится не просто информировать пользователя, а вовлекать его, предлагая наиболее интересный контент. Это ключевой механизм для понимания того, как контент отбирается и организуется в автоматизированных системах, таких как Google Discover, Панели Знаний и тематические агрегаторы.

Практические примеры

Сценарий: Оптимизация представления музыкальной группы для продвижения нового альбома

Текущая ситуация: При поиске Группы (First Entity) Google показывает категории (Properties) «Популярные песни» (старые хиты) и «Участники группы». Новый альбом не выделен.
Анализ (Гипотеза): Свойство «Новый альбом» имеет низкий Score, так как пользователи пока мало ищут его вместе с названием группы (слабая First group of entities).
Действия SEO/Маркетинга:
- Обновление Структуры (Вторая группа): Убедиться, что в Wikidata, MusicBrainz и Schema.org на сайте группы новый альбом корректно связан с группой.
- Стимулирование Интереса (Первая группа): Запустить PR-кампанию, активно публиковать интервью и видео, где участники обсуждают новый альбом. Стимулировать обсуждения в соцсетях, чтобы увеличить количество совместных запросов [Группа + Новый альбом].
- Популярность Контента: Оптимизировать официальные видеоклипы нового альбома на YouTube для максимальной вовлеченности (просмотры, время).
Ожидаемый результат: Увеличение User Interaction Information приводит к попаданию «Нового альбома» в First group of entities. Score для свойства «Новый альбом» увеличивается. Google начинает отображать категорию, посвященную новому альбому, наполненную популярными видеоклипами, в представлении Группы.

Вопросы и ответы

В чем ключевое различие между «Первой группой сущностей» (First group of entities) и «Второй группой сущностей» (Second group of entities)?

Первая группа формируется на основе анализа поведения пользователей (User Interaction Information) — это то, что люди часто ищут или смотрят вместе с основной сущностью. Это выведенные (inferred) связи, отражающие интерес аудитории. Вторая группа формируется из структурированной базы данных (например, Knowledge Graph) — это фактические, подтвержденные связи между сущностью и ее свойством (например, список актеров в фильме). Ядро патента заключается в сравнении этих двух групп.

Как именно рассчитывается Оценка (Score) для Свойства (Property)?

Согласно Claim 2, оценка рассчитывается как пропорция сущностей из Второй группы, которые также присутствуют в Первой группе. Например, если у фильма 10 актеров (Вторая группа), и 8 из них часто ищутся пользователями вместе с фильмом (Первая группа), то Score для свойства «Актеры» будет 8/10 = 0.8. Это высокий показатель интереса к данной категории.

Что произойдет, если связь есть в Knowledge Graph, но пользователи ей не интересуются?

Если связь (Свойство и его сущности) присутствует во Второй группе, но отсутствует в Первой группе (нет User Interaction Information), то Score этого Свойства будет низким или нулевым. В результате система, скорее всего, не выберет это Свойство для отображения в пользовательском интерфейсе. Это предотвращает показ фактически верной, но неинтересной информации.

Что важнее для отображения категории: наличие в Knowledge Graph или поведение пользователей?

Необходимы оба компонента. Наличие в Knowledge Graph (Вторая группа) определяет потенциально доступные категории (Свойства). Поведение пользователей (Первая группа) определяет, какие из этих категорий будут фактически показаны. Система ищет пересечение между ними, поэтому одно без другого не работает в рамках этого алгоритма.

Как этот патент влияет на работу с разметкой Schema.org?

Он подчеркивает, что простого добавления разметки недостаточно для гарантированного отображения информации в продуктах Google. Разметка помогает Google понять структуру данных (формируя Вторую группу), но если контент, описанный разметкой, не вызывает интереса у пользователей (не формирует Первую группу), он может быть проигнорирован системой при генерации интерфейса.

На основе чего выбирается контент внутри уже отобранной категории (Свойства)?

После того как Свойство выбрано на основе его Score, система ищет релевантный контент (Content Items). Согласно Claim 3, финальный отбор контента для отображения осуществляется на основе его популярности (popularity). Это могут быть метрики просмотров, вовлеченности, времени просмотра и т.д.

Может ли этот механизм использоваться для персонализации выдачи?

Патент (в частности, Claim 1) указывает, что User Interaction Information собирается от множества пользователей (a plurality of users associated with a plurality of user devices other than the user device). Это подразумевает, что механизм направлен на определение общепринятого интереса аудитории к сущности, а не на глубокую индивидуальную персонализацию.

Как SEO-специалист может повлиять на «Первую группу сущностей»?

Напрямую повлиять сложно, так как она основана на агрегированном поведении пользователей. Однако можно повлиять косвенно через контент-стратегию и PR. Создавая качественный контент, который связывает основную сущность с ее ключевыми свойствами, и продвигая его, можно стимулировать пользователей искать и просматривать эти сущности вместе (co-search, co-view), тем самым укрепляя связи в Первой группе.

Актуален ли этот патент для Google Discover или YouTube?

Да, очень актуален. И Google Discover, и YouTube активно используют автоматическую организацию контента по темам и сущностям. Описанный механизм идеально подходит для определения того, какие категории видео показать на странице канала или какие аспекты темы выделить в ленте Discover, основываясь на популярности контента и интересе аудитории.

Применяется ли этот механизм только к медиа-сущностям (фильмы, актеры)?

Хотя примеры в патенте в основном касаются медиа, механизм описан обобщенно и может применяться к любым сущностям. В патенте также приводится пример темы «Итальянская еда» со Свойствами «Повара», «Блюда», «Регион происхождения», что подтверждает его универсальность для любых тем с достаточным объемом данных.