Как Google персонализирует списки трендовых тем на основе профиля интересов пользователя

Google использует механизм для адаптации списков популярных («горячих») тем под конкретного пользователя. Система сравнивает профиль интересов пользователя (основанный на его истории поиска и активности) с тематическим профилем трендовой темы. На основе схожести стандартный рейтинг темы корректируется с помощью Boost Factor, формируя персонализированный список трендов.

Описание

Какую задачу решает

Патент решает проблему низкой релевантности общих списков популярных или трендовых тем (Popular Topics или Hot Topics) для конкретного пользователя. Стандартные списки трендов отражают интересы всех пользователей в целом, но часто не совпадают с интересами отдельного человека. Изобретение улучшает процесс обнаружения информации (information discovery), адаптируя эти списки и показывая пользователю те тренды, которые с большей вероятностью его заинтересуют.

Что запатентовано

Запатентована система и метод персонализации списков популярных тем. Система получает общий, неперсонализированный (generic) рейтинг трендовых тем и переранжирует его для конкретного пользователя. Это достигается путем сравнения профиля интересов пользователя (User Profile) с тематическим профилем каждой горячей темы (Topic Profile) и корректировки исходного рейтинга на основе степени их схожести.

Как это работает

Система работает следующим образом:

Получение общих данных: Извлекается список популярных тем с их общими оценками ранжирования (Generic Ranking Scores).
Профилирование: Система получает User Profile (интересы пользователя, основанные на его активности) и Topic Profile (тематические категории, связанные с трендовой темой).
Расчет схожести: Вычисляется оценка персонализации (Personalization Score), также называемая Boost Factor. Это делается путем определения схожести между User Profile и Topic Profile, которые представлены как векторы. Используются функции векторного сходства (Vector Similarity Function).
Переранжирование: Исходный Generic Ranking Score корректируется с помощью Boost Factor для получения пересмотренной оценки (Revised Ranking Score). Список тем сортируется заново.

Актуальность для SEO

Высокая. Персонализация контента и системы рекомендаций являются стратегическими направлениями развития поиска. Механизмы, описанные в патенте — профилирование пользователей и контента, использование векторного представления интересов и расчет схожести — лежат в основе современных рекомендательных систем, таких как Google Discover и персонализированные новостные ленты.

Важность для SEO

Влияние на SEO оценивается как среднее (6/10). Патент не описывает механизмы ранжирования в основном веб-поиске по конкретным запросам. Однако он имеет критическое значение для понимания работы рекомендательных систем Google (Discover, News). Понимание того, как Google профилирует контент (Topic Profile) и сопоставляет его с интересами пользователей (User Profile), необходимо для стратегий, направленных на получение трафика из этих источников.

Детальный разбор

Термины и определения

Boost Factor (Коэффициент повышения): Числовое значение Personalization Score. Используется для корректировки Generic Ranking Score темы. Рассчитывается на основе схожести между User Profile и Topic Profile.
Generic Ranking Score (Общая оценка ранжирования): Неперсонализированная оценка популярности темы, основанная на общих статистических данных (например, частота запросов, всплеск интереса, география).
Popular Topic / Hot Topic (Популярная / Горячая тема): Тема, которая часто появляется в течение определенного периода времени на основе активности пользователей (запросы, блоги, посты) или независимо от нее.
Topic Profile (Профиль темы): Набор данных, описывающий тему. Включает категории, подкатегории, ключевые слова или векторы, представляющие релевантность темы различным предметным областям. Генерируется для сравнения с User Profile.
Transformation Function (Функция преобразования): Математическая функция, применяемая к результату Similarity Score для масштабирования и получения финального Boost Factor.
User Activity Database (База данных активности пользователя): Хранилище информации о действиях пользователя (поисковые запросы, клики, посещенные страницы, созданные документы). Используется для генерации User Profile (с согласия пользователя).
User Profile (Профиль пользователя): Набор данных, описывающий интересы пользователя. Может включать ключевые слова, тематические кластеры, категории или векторы, представляющие интерес пользователя к различным предметным областям.
Vector Similarity Function (Функция векторного сходства): Алгоритм (например, косинусное сходство, сходство Жаккара, размер пересечения) для расчета степени схожести между двумя векторами (User Profile и Topic Profile).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод персонализации популярных тем.

Система получает запрос пользователя.
Получает список популярных тем, их Generic Ranking Scores и Topic Profile для конкретной темы.
Идентифицирует User Profile пользователя.
Определяет Personalization Score (оценку персонализации) для темы на основе схожести между User Profile и Topic Profile. Этот шаг детализирован и является ядром изобретения:
- User Profile представляется как первый компонент (вектор), отражающий интерес пользователя к различным категориям.
- Topic Profile представляется как второй компонент (вектор), отражающий релевантность темы этим же категориям.
- Применяется Vector Similarity Function к этим двум компонентам для вычисления Similarity Score.
- Применяется Transformation Function к полученному Similarity Score.
- Определяется числовое значение Boost Factor на основе результата преобразования.
Определяет пересмотренную оценку ранжирования (Revised Ranking Score) для темы на основе Personalization Score (Boost Factor) и Generic Ranking Score.
Ранжирует темы в списке, используя пересмотренную оценку.

Claim 10 (Независимый пункт): Описывает серверное устройство, реализующее метод Claim 1. Ключевые технические аспекты повторяются: процессор выполняет те же шаги по представлению профилей в виде векторов категорий, применению функций векторного сходства и преобразования для расчета Boost Factor и последующего переранжирования.

Где и как применяется

Изобретение применяется в компонентах поисковой системы, отвечающих за генерацию рекомендаций и отображение трендов (например, Google Trends, Google News, Google Discover).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит анализ контента, связанного с популярными темами. Система (например, text categorization system) анализирует предметное содержание и метаданные темы для генерации Topic Profile. Темы категоризируются и сохраняются в Topic Database.

QUNDERSTANDING / INDEXING (Обработка данных пользователя)
Система собирает данные в User Activity Database (с согласия пользователя). Компонент User Profiler анализирует эту активность (поисковые запросы, клики, посещения) для создания и обновления User Profile. Этот процесс может происходить офлайн или частично в реальном времени.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения патента. Когда пользователь запрашивает список трендов (явно или неявно, например, при загрузке домашней страницы или ленты Discover):

Topic Ranker получает общий список популярных тем с Generic Ranking Scores.
Система извлекает User Profile и Topic Profiles.
Вычисляется схожесть (Similarity Score) между профилями с использованием векторных операций.
Рассчитывается и применяется Boost Factor.
Список переранжируется на лету для предоставления персонализированного результата.

Входные данные:

Запрос пользователя (явный или неявный).
Список популярных тем и их Generic Ranking Scores.
Topic Profiles (векторы релевантности категорий).
User Profile (вектор интересов пользователя).

Выходные данные:

Персонализированный список популярных тем с пересмотренными оценками ранжирования (Revised Ranking Scores).

На что влияет

Конкретные типы контента: В первую очередь влияет на новостной контент, блоги, статьи и любой контент, который быстро набирает популярность и может быть классифицирован как трендовый (Hot Topic).
Специфические запросы и интерфейсы: Влияет не на стандартную поисковую выдачу по ключевым словам, а на интерфейсы, предназначенные для обнаружения контента: страницы трендов, рекомендательные блоки на домашних страницах поисковых систем, ленты рекомендаций (Google Discover).

Когда применяется

Триггеры активации: Запрос пользователя на список популярных тем или загрузка интерфейса, который отображает персонализированные тренды или рекомендации.
Условия применения: Алгоритм активируется при наличии достаточных данных для формирования User Profile (что требует предварительного согласия пользователя на сбор истории активности) и возможности сгенерировать Topic Profile для трендовых тем.

Пошаговый алгоритм

Процесс генерации персонализированного списка горячих тем.

Получение запроса: Система получает запрос от клиента на предоставление популярных тем.
Получение общих данных: Компонент Topic Retriever запрашивает Topic Database и получает список популярных тем с их Generic Ranking Scores.
Получение профиля пользователя: Компонент User Profile Retriever идентифицирует пользователя (например, через cookie, логин или IP, с анонимизацией) и извлекает его User Profile из User Profile Database.
Итерация по темам: Система начинает цикл обработки для каждой темы из списка.
Генерация/Получение профиля темы: Компонент Topic Profile Generator генерирует или извлекает из кэша Topic Profile для текущей темы. Профили представлены как векторы релевантности по категориям.
Расчет Boost Factor: Компонент Boost Factor Calculator выполняет расчет персонализации:
- Сравнивает вектор User Profile и вектор Topic Profile.
- Применяет Vector Similarity Function (например, косинусное сходство) для получения Similarity Score.
- Применяет Transformation Function (например, логарифмическое масштабирование) к Similarity Score для получения финального Boost Factor.
Корректировка рейтинга: Компонент Ranking Modifier рассчитывает Revised Ranking Score, комбинируя Generic Ranking Score и Boost Factor.
Завершение цикла: Процесс повторяется для всех тем в списке.
Сортировка и выдача: Компонент Personal List Generator сортирует список тем по Revised Ranking Scores и формирует финальный персонализированный список для пользователя (возможно, применяя пороговые значения для отсечения нерелевантных тем).

Какие данные и как использует

Данные на входе

Система использует несколько источников данных для профилирования тем и пользователей.

Контентные/Тематические факторы (для Topic Profile):
- Предметное содержание (Subject matter) популярной темы.
- Метаданные (Metadata), связанные с темой.
- Эти данные обрабатываются системой категоризации текста для определения релевантности различным категориям.
Поведенческие факторы (для User Profile):
- История поисковых запросов (Search queries).
- Выбранные результаты поиска (Clicks).
- Посещенные веб-страницы.
- Закладки (Bookmarks).
- Созданные пользователем документы (блоги, комментарии, электронные письма).
- Полученные пользователем документы (электронные письма).
- Подписки (RSS subscriptions) и оповещения (Alerts).
Пользовательские факторы:
- Язык (Language).
- Местоположение (Location), определяемое через IP, GPS, WiFi, данные сотовой сети или указанное пользователем.
- Явно указанные интересы или «негативные интересы» (отметки «не нравится»).
Временные факторы:
- Time window (временное окно) — период, за который рассчитывается популярность темы (текущий или прошлый).

Какие метрики используются и как они считаются

Generic Ranking Score: Метрика популярности темы в целом. Рассчитывается на основе статистики запросов, упоминаний, «всплеска» (spike) интереса.
Vector Representation (Векторное представление): Профили пользователя и темы представляются как векторы, где компоненты указывают на интерес/релевантность определенным категориям (например, Политика, Спорт, Наука). Значения могут быть в диапазоне от 0 до 1.
Similarity Score: Результат применения Vector Similarity Function. Упомянутые функции:
- Cosine similarity (Косинусное сходство).
- Jaccard similarity (Сходство Жаккара).
- Intersection size (Размер пересечения) — количество общих ненулевых компонентов в векторах.
Transformation Function: Функция для масштабирования Similarity Score. Пример из патента: $ln(similarity score+1)$ .
Boost Factor (Personalization Score): Финальная оценка персонализации. Пример формулы из патента: $B o o s t_{F} a c t o r = 1 + T r a n s f o r m a t i o n (S i m i l a r i t y (U s e r$

Выводы

Основа персонализации — сравнение профилей: Патент четко описывает механизм персонализации рекомендаций как процесс сравнения профиля интересов пользователя (User Profile) и тематического профиля контента (Topic Profile).
Векторное представление интересов: Ключевым техническим аспектом является представление профилей в виде векторов, где каждый компонент соответствует определенной категории (предметной области), а его значение отражает степень интереса или релевантности.
Использование Vector Similarity: Для определения схожести интересов применяются стандартные математические методы векторного сходства (например, косинусное сходство). Это позволяет численно оценить, насколько тема соответствует интересам пользователя.
Зависимость от поведенческих данных: Формирование User Profile напрямую зависит от сбора и анализа истории поведения пользователя (поиск, клики, просмотры). Патент подчеркивает, что сбор этих данных требует явного согласия пользователя.
Важность категоризации контента для SEO: Чтобы система могла эффективно рекомендовать контент, он должен быть правильно категоризирован для формирования точного Topic Profile. Это подчеркивает важность тематической чистоты и структуры контента для попадания в рекомендательные системы.

Практика

Best practices (это мы делаем)

Хотя патент не относится к основному ранжированию, он критически важен для оптимизации под рекомендательные системы типа Google Discover и Google News.

Фокус на четкой тематической направленности (Topical Clarity): Создавайте контент с ясной и однозначной тематикой. Это помогает системам категоризации текста точно определить Topic Profile. Чем точнее профиль, тем выше вероятность сопоставления с релевантным User Profile и получения высокого Boost Factor.
Использование сущностей и структурированных данных: Патент упоминает использование категорий (например, Open Directory Project) и сущностей (например, Freebase) для профилирования. Необходимо активно использовать релевантные сущности из Knowledge Graph и микроразметку Schema.org для помощи Google в правильной интерпретации и категоризации контента.
Работа с трендами (Newsjacking): Для новостных и контентных сайтов важно отслеживать актуальные тренды (Hot Topics) и оперативно создавать качественный контент по этим темам. Это увеличивает шансы попадания в список популярных тем, который затем будет персонализирован для пользователей.
Построение аудитории с явными интересами: Развивайте ресурс так, чтобы привлекать и удерживать аудиторию с определенными интересами. Google использует поведение этой аудитории для понимания того, кому может быть интересен ваш контент.

Worst practices (это делать не надо)

Создание тематически размытого контента: Попытка охватить слишком много разных тем в рамках одного документа или сайта без четкой структуры затрудняет формирование точного Topic Profile. Это снижает шансы на получение высоких оценок схожести с профилями пользователей.
Игнорирование сущностей: Создание контента без привязки к известным сущностям усложняет процесс категоризации и профилирования темы.
Фокус только на ключевые слова без учета интересов: Оптимизация под запросы не гарантирует попадания в рекомендации. Необходимо понимать глубинные интересы аудитории, так как User Profile строится на категориях интересов, а не только на истории запросов.

Стратегическое значение

Патент демонстрирует техническую реализацию рекомендательных систем Google, основанную на векторном представлении интересов. Это подтверждает стратегический сдвиг в сторону семантического понимания контента и поведения пользователей. Для SEO это означает, что оптимизация под системы обнаружения контента (Google Discover) требует работы над тематикой, структурой и сущностями, чтобы обеспечить максимальное векторное сходство между контентом сайта и интересами целевой аудитории.

Практические примеры

Сценарий: Оптимизация статьи для попадания в Google Discover

Идентификация тренда (Hot Topic): Появляется новость о запуске новой модели электромобиля Tesla.
Создание контента и формирование Topic Profile: SEO-специалист готовит статью, обеспечивая четкую структуру и упоминание ключевых сущностей (Tesla, Elon Musk, Electric Vehicle, Battery Technology). Система категоризации Google формирует Topic Profile с высокими значениями в категориях «Автомобили», «Технологии», «Бизнес».
Анализ User Profile целевой аудитории: Целевая аудитория – пользователи, которые ранее искали информацию об электромобилях и следили за новостями Tesla. Их User Profile имеет высокие значения в категориях «Автомобили» и «Технологии».
Расчет схожести и бустинг: При загрузке ленты Discover система рассчитывает Vector Similarity между Topic Profile статьи и User Profile пользователя. Сходство оказывается высоким.
Результат: Система применяет значительный Boost Factor, и статья появляется вверху персонализированной ленты рекомендаций пользователя.

Вопросы и ответы

Влияет ли этот патент на ранжирование в основном веб-поиске?

Нет, напрямую не влияет. Патент описывает механизм персонализации списков «горячих тем» (трендов) или рекомендаций. Это отдельный процесс от ранжирования результатов по конкретному поисковому запросу пользователя. Он применяется в таких сервисах, как Google Trends, Google News или Google Discover.

Что такое Topic Profile и как он формируется?

Topic Profile — это тематический профиль трендовой темы. Он представлен в виде вектора, который показывает релевантность темы различным категориям (например, Спорт, Политика, Технологии). Он формируется с помощью системы категоризации текста, которая анализирует содержание и метаданные, связанные с этой темой.

Как Google определяет интересы пользователя (User Profile)?

User Profile также представлен как вектор интересов по категориям. Он формируется на основе анализа активности пользователя: истории поисковых запросов, кликов по результатам, посещенных страниц, закладок, а также (с согласия пользователя) данных из его блогов, email и подписок. Для сбора этих данных требуется согласие пользователя.

Что такое Vector Similarity Function и почему это важно?

Это математическая функция (например, косинусное сходство), которая измеряет степень схожести между двумя векторами — User Profile и Topic Profile. Это ядро изобретения. Чем выше схожесть, тем больший Boost Factor получает тема для данного пользователя, и тем выше она будет в его персонализированном списке.

Как SEO-специалист может повлиять на Topic Profile своего контента?

Необходимо обеспечивать четкую тематическую направленность контента, использовать логичную структуру и активно использовать релевантные сущности (Entities) из Knowledge Graph. Это помогает системе категоризации текста правильно определить категории, к которым относится контент, и сформировать точный Topic Profile.

Насколько этот патент важен для оптимизации под Google Discover?

Он критически важен. Механизмы, описанные в патенте (профилирование тем и пользователей, расчет векторного сходства), лежат в основе работы рекомендательных систем, таких как Google Discover. Понимание этого патента дает представление о том, как контент отбирается и ранжируется в ленте рекомендаций.

Может ли система понизить тему, если она не соответствует интересам пользователя?

Да. Патент упоминает возможность учета «негативных интересов» пользователя (например, отметок «не нравится»). В этом случае Boost Factor может быть низким или даже отрицательным, что приведет к понижению или исключению темы из персонализированного списка пользователя.

Происходят ли эти вычисления в реальном времени?

Частично. User Profiles и Topic Profiles могут рассчитываться и кэшироваться заранее (офлайн). Однако финальный расчет схожести (Vector Similarity), применение Boost Factor и переранжирование списка происходят в реальном времени в ответ на запрос пользователя.

Какие системы категоризации использует Google для профилирования?

В патенте в качестве примеров упоминаются Open Directory Project (для категорий) и Freebase (для сущностей). Хотя эти конкретные системы устарели, принцип остается тем же: Google использует собственную таксономию категорий и граф знаний (Knowledge Graph) для профилирования тем и интересов.

Что означает Transformation Function в расчете Boost Factor?

Transformation Function используется для масштабирования оценки схожести (Similarity Score) в диапазон, пригодный для переранжирования. Например, она может использоваться для нелинейного усиления эффекта схожести, как в приведенном в патенте примере использования логарифмической функции $ln(similarity score+1)$ .