Как Google использует редкость сущностей (IDF) для персонализации и повышения интересности контента

Google использует механизм для персонализации выдачи (например, в Новостях или Рекомендациях), который повышает в ранжировании документы, содержащие сущности, интересующие пользователя, если эти сущности редко встречаются в недавнем корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF). Система продвигает уникальные комбинации тем (группы сущностей), которые могут быть особенно интересны пользователю.

Описание

Какую задачу решает

Патент решает проблему повышения качества персонализированных рекомендаций контента (например, новостных лент). Стандартные системы могут перегружать пользователя популярными или часто повторяющимися материалами, даже если они соответствуют его интересам. Цель изобретения — идентифицировать и продвигать документы, которые не только релевантны интересам пользователя, но и являются редкими или уникальными в текущем информационном потоке, что повышает их потенциальную «интересность» (interestingness).

Что запатентовано

Запатентована система ранжирования документов, которая использует профиль интересов пользователя в сочетании с метрикой редкости тем (сущностей) в корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF), часто рассчитываемой за определенный период времени. Если документ содержит сущность (или группу сущностей), которая интересует пользователя и имеет высокий IDF (т.е. встречается редко), этот документ получает повышение в ранжировании.

Как это работает

Система работает в двух основных режимах: офлайн и онлайн.

Офлайн (Предварительный расчет): Система анализирует корпус документов (часто ограниченный по времени, например, новости за последнюю неделю). Для каждой сущности (Entity) и комбинации сущностей (Entity Group) вычисляется Inverse Document Frequency (IDF). Высокий IDF указывает на редкость.
Онлайн (Обработка запроса): Система получает запрос на контент (например, загрузка новостной ленты). Она извлекает профиль интересов пользователя (User Interest Profile). Для документов, соответствующих этим интересам, система проверяет IDF связанных с ними сущностей. Если IDF превышает определенный порог редкости, оценка документа (Score) повышается.

Актуальность для SEO

Высокая. С ростом значимости персонализированных лент, таких как Google Discover и обновленный Google News, механизмы, определяющие «интересность» контента за пределами простой релевантности, критически важны. Этот патент описывает конкретный, основанный на сущностях механизм для достижения этой цели.

Важность для SEO

Патент имеет высокое значение для SEO-стратегий, нацеленных на Google Discover, Google News и другие персонализированные поверхности. Он показывает, что простое создание контента по популярной теме недостаточно для гарантированного показа заинтересованным пользователям. Система предпочитает уникальные углы освещения тем или редкие комбинации сущностей (Entity Groups). Это напрямую влияет на контент-стратегию, подчеркивая важность поиска нишевых и уникальных инфоповодов.

Детальный разбор

Термины и определения

Corpus of Documents (Корпус документов): Набор документов, используемый для анализа и расчета частот. В контексте патента часто подразумевается корпус, ограниченный по времени (например, недавние новости).
Entity (Сущность): Идентифицируемый объект или концепция (человек, место, вещь, идея), который является темой документа. Используется как единица интереса пользователя и единица анализа частоты.
Entity Annotator (Аннотатор сущностей): Компонент системы, который анализирует документы, идентифицирует упомянутые в них сущности и может определять основные темы документа.
Entity Group (Группа сущностей): Комбинация двух или более сущностей, которые совместно встречаются в документе (co-occurring topics). Рассматривается как «псевдо-сущность» для анализа редкости комбинации.
Inverse Document Frequency (IDF, Обратная частота документа): Метрика, используемая для измерения редкости сущности или группы сущностей в корпусе документов. Высокий IDF указывает на редкость. Рассчитывается как отношение общего числа документов в корпусе к числу документов, содержащих данную сущность (часто с применением логарифмирования).
Interestingness (Интересность): Предполагаемая ценность документа для пользователя, которая в данном патенте определяется как сочетание релевантности интересам пользователя и редкости (высокого IDF) темы.
Topicality Score (Оценка тематичности): Вес, присваиваемый сущности в документе, указывающий, насколько эта сущность значима для данного документа (т.е. является ли она основной темой или просто упоминается).
User Interest Profile (Профиль интересов пользователя): Набор данных, содержащий сущности (темы), которые интересуют пользователя. Может быть сформирован явно (подписки) или неявно (история просмотров).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования на основе частоты одной сущности.

Система получает запрос на документы от клиентского устройства.
Получает набор релевантных документов из корпуса.
Получает из профиля пользователя темы (сущности), интересующие его.
Выбирает документ, связанный с интересующей темой.
Получает значение Inverse Document Frequency (IDF) для этой темы в корпусе. Ключевое уточнение: IDF рассчитывается на основе документов, созданных в течение ограниченного периода времени (limited time period) (соотношение числа всех недавних документов к числу недавних документов, упоминающих тему).
Генерируется оценка (Score) для документа на основе этого значения IDF.
Определяется, удовлетворяет ли оценка пороговому значению (threshold score), указывающему на то, что тема является редкой (infrequent topic) в корпусе.
Если ДА, информация о документе передается на клиентское устройство.

Claim 7 (Независимый пункт): Описывает метод ранжирования на основе частоты группы совместно встречающихся сущностей (group of co-occurring topics).

Процесс аналогичен Claim 1, но вместо одной темы система ищет документ, связанный с группой совместно встречающихся тем, которые интересуют пользователя.
Значение IDF получается для этой конкретной группы тем в корпусе документов, также в течение ограниченного периода времени.
Оценка генерируется на основе IDF группы.
Определяется, удовлетворяет ли оценка порогу, указывающему, что эта комбинация тем является редкой (infrequent group of co-occurring topics).
Если ДА, информация о документе передается пользователю.

Где и как применяется

Изобретение затрагивает этапы индексирования (для предварительных расчетов) и ранжирования/переранжирования (для применения логики персонализации).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы:

Извлечение сущностей: Entity Annotator обрабатывает документы, извлекает сущности и определяет Topicality Scores.
Расчет IDF: Entity Frequency Calculator и Entity Group Frequency Calculator периодически пересчитывают IDF для сущностей и групп сущностей. Важно, что расчеты производятся для разных временных окон (например, IDF за час, день, неделю).

QUNDERSTANDING – Понимание Запросов
Хотя это не традиционный текстовый запрос, система должна интерпретировать «запрос» на персонализированный контент. Это включает загрузку и интерпретацию User Interest Profile.

RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение патента происходит во время формирования выдачи (например, новостной ленты):

Отбор кандидатов: Выбираются документы, соответствующие интересам пользователя.
Применение IDF: Для этих кандидатов извлекаются предварительно рассчитанные значения IDF (соответствующие нужному временному окну).
Корректировка оценки (Scoring): Scoring Engine корректирует оценки документов. Документы с высокими значениями IDF (редкие темы) получают бустинг, если они соответствуют интересу пользователя.

Входные данные:

User Interest Profile (список интересующих сущностей).
Набор документов-кандидатов.
Предварительно рассчитанные значения IDF для сущностей и групп сущностей за определенный период.

Выходные данные:

Отсортированный список персонализированных документов с скорректированными оценками ранжирования.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, потребляемый через персонализированные ленты: новостные статьи (Google News), посты в блогах, обновления в социальных сетях (упомянуты в патенте), рекомендации (Google Discover).
Специфические запросы: Влияет на неявные запросы (формирование ленты), а не на традиционный поиск по ключевым словам.
Временной фактор: Система спроектирована для учета текущей информационной повестки. Сущность может быть редкой сегодня, но частой завтра.

Когда применяется

Триггеры активации: Механизм активируется, когда система генерирует персонализированный набор документов для пользователя и идентифицирует совпадение между темами документа и User Interest Profile.
Пороговые значения: Бустинг применяется, если значение IDF для сущности или группы сущностей превышает определенный порог (threshold), что свидетельствует о редкости темы.

Пошаговый алгоритм

Процесс А: Офлайн-расчет частот (Периодический)

Сбор данных: Получение набора документов из корпуса, созданных в течение определенного периода времени (например, за последние 24 часа).
Аннотирование: Обработка документов с помощью Entity Annotator для извлечения сущностей и определения основных тем (на основе Topicality Score).
Генерация групп сущностей: Идентификация всех комбинаций сущностей (Entity Groups), совместно встречающихся в документах.
Расчет частот: Подсчет количества документов, содержащих каждую сущность и каждую группу сущностей.
Расчет IDF: Вычисление Inverse Document Frequency для каждой сущности и группы.

Выводы

Редкость как сигнал «интересности»: Патент формализует идею о том, что пользователи больше заинтересованы в редких или необычных новостях о темах, за которыми они следят, чем в часто повторяющейся информации. Inverse Document Frequency (IDF) используется как объективная мера этой редкости.
Временная чувствительность редкости: Критически важным аспектом является расчет IDF за ограниченный период времени (limited time period). Это позволяет системе адаптироваться к новостному циклу: тема, которая была редкой на прошлой неделе, может быть повсеместной сегодня.
Важность групп сущностей (Co-occurrence): Система не ограничивается отдельными сущностями. Она активно ищет редкие комбинации (Entity Groups). Две очень популярные сущности могут образовать очень редкую комбинацию, если о них почти никогда не пишут вместе.
Персонализация обязательна: Редкость сама по себе не является сигналом ранжирования. Бустинг применяется только в том случае, если редкая сущность или группа сущностей присутствует в User Interest Profile.
Отделение темы от упоминания: Система использует Topicality Scores, чтобы сосредоточиться на основных темах документа, а не на случайных упоминаниях сущностей.

Практика

Best practices (это мы делаем)

Оптимизация под Entity Groups (Комбинации сущностей): Ищите уникальные пересечения между темами в вашей нише. Создавайте контент, который связывает несколько сущностей (например, Технология А + Индустрия Б), особенно если такая комбинация редко освещается. Это увеличивает шансы получить бустинг за счет высокого IDF группы сущностей.
Поиск нишевых углов в популярных темах: Даже если основная сущность имеет низкий IDF (очень популярна), можно найти редкий аспект или связанную с ней менее известную сущность. Освещение этого угла может активировать механизм бустинга.
Мониторинг инфоповодов и быстрая реакция: Поскольку IDF рассчитывается за ограниченный период времени, быстрое создание качественного контента по новой, еще не растиражированной теме (высокий IDF) дает преимущество в персонализированных лентах (Discover, News).
Четкое структурирование контента для определения тем: Помогайте Google (Entity Annotator) правильно определить основные темы статьи (Topicality Score). Используйте ясные заголовки, подзаголовки и убедитесь, что основная часть текста посвящена заявленным сущностям.

Worst practices (это делать не надо)

Поверхностное освещение трендовых тем: Создание контента, который повторяет то, что уже многократно освещено другими источниками по популярной теме (низкий IDF), не получит преимуществ от этого алгоритма.
Clickbait и несоответствие заголовка содержанию: Если заголовок обещает редкую комбинацию сущностей, но в тексте они лишь упоминаются (низкий Topicality Score), система не классифицирует их как основные темы документа, и бустинг применен не будет.
Игнорирование Entity-based SEO: Фокус исключительно на ключевых словах без понимания того, как контент связан с конкретными сущностями в Knowledge Graph, не позволит эффективно использовать этот механизм.

Стратегическое значение

Этот патент подчеркивает стратегический переход Google к оценке «интересности» контента в персонализированных сервисах. Для SEO это означает, что стратегии для Google Discover и Google News должны включать анализ текущего информационного поля не только с точки зрения спроса, но и с точки зрения предложения (насыщенности). Создание уникального, основанного на сущностях контента становится ключевым фактором для привлечения трафика из рекомендательных систем.

Практические примеры

Сценарий: Использование редкой комбинации сущностей (Entity Group)

Анализ интересов аудитории: Мы знаем, что наша аудитория интересуется «Искусственным Интеллектом» (AI) и «Археологией».
Анализ IDF: Обе сущности по отдельности могут быть относительно популярны (средний IDF). Однако анализ недавних публикаций показывает, что комбинация «AI + Археология» встречается редко (высокий IDF для группы).
Создание контента: Создается глубокая статья на тему «Как новые алгоритмы AI помогают расшифровывать Мертвые свитки».
Результат: Когда система формирует ленту для пользователя, интересующегося AI и Археологией, эта статья получает значительный бустинг благодаря высокому IDF комбинации тем и занимает более высокую позицию, чем стандартные новости об AI или Археологии по отдельности.

Сценарий: Использование временного IDF

Мониторинг: Происходит неожиданное событие, связанное с сущностью, которая обычно редко освещается (например, извержение конкретного вулкана).
Начальный этап: В первый час после события количество документов мало. IDF этой сущности резко возрастает.
Реакция: Быстрое создание экспертного материала об этом вулкане.
Результат: Статья получает бустинг в лентах заинтересованных пользователей за счет высокого временного IDF. Через 2 дня, когда о вулкане напишут все, IDF снизится, и бустинг уменьшится.

Вопросы и ответы

Применяется ли этот патент к основному веб-поиску Google?

Патент описывает механизм для персонализированных рекомендаций, таких как новостные ленты. В основном веб-поиске его влияние менее вероятно, так как там доминирует релевантность запросу, а не предварительно известные интересы пользователя. Однако, если поисковая выдача сильно персонализирована или включает модули рекомендаций (например, блок «Интересное»), этот механизм может быть задействован.

Как отличается использование IDF в этом патенте от традиционного TF-IDF?

В традиционном TF-IDF метрика IDF используется для определения важности термина для определения релевантности документа запросу (редкие термины более важны). В этом патенте IDF используется как мера «интересности» или редкости темы в целом корпусе документов за определенный период. Это сигнал качества/уникальности контента, а не его релевантности конкретному запросу.

Как определить, какие сущности или группы сущностей являются редкими (имеют высокий IDF)?

Патент не предоставляет инструментов для внешних пользователей. SEO-специалистам необходимо проводить собственный анализ информационного поля. Можно использовать Google Trends для оценки динамики интереса и ручной анализ Google News или других агрегаторов, чтобы понять, насколько часто освещается та или иная тема или комбинация тем в последнее время.

Что важнее: редкость отдельной сущности или группы сущностей?

Система оценивает оба фактора. Однако патент уделяет значительное внимание группам сущностей (Entity Groups). Редкая комбинация двух популярных сущностей может оказаться более мощным сигналом «интересности», чем одна умеренно редкая сущность. Стратегически выгоднее искать уникальные пересечения тем.

Как Google определяет интересы пользователя (User Interest Profile)?

Патент упоминает, что профиль может быть основан на информации, предоставленной пользователем (явные подписки), или определен неявно. Неявные методы включают анализ ранее просмотренных документов, введенных поисковых запросов, а также активность пользователей с похожими профилями.

Насколько важен временной фактор (Time-limited IDF)?

Он критически важен. Расчет IDF за ограниченный период времени позволяет системе реагировать на текущую информационную повестку. Это означает, что для SEO важна скорость реакции на новые инфоповоды и понимание того, что насыщенность темы может быстро меняться.

Как обеспечить высокий Topicality Score для нужных сущностей?

Topicality Score определяет, является ли сущность основной темой документа. Для этого сущность должна быть центральным элементом контента. Упоминание в заголовке, частое и естественное использование в тексте, а также выделение значительной части документа под раскрытие этой темы способствуют повышению этой оценки.

Влияет ли авторитетность сайта (E-E-A-T) на этот механизм?

Патент не упоминает авторитетность сайта напрямую. Он фокусируется на редкости контента и интересах пользователя. Однако базовые сигналы качества и авторитетности всегда учитываются Google при отборе кандидатов для ранжирования. Качественный контент с высоким IDF имеет больше шансов на успех, чем низкокачественный контент с высоким IDF.

Стоит ли специально создавать контент под очень редкие, но малоизвестные сущности?

Это зависит от вашей аудитории. Механизм активируется только тогда, когда редкая сущность уже находится в профиле интересов пользователя. Если никто не интересуется этой редкой сущностью, высокий IDF не принесет пользы. Стратегия должна заключаться в поиске редких аспектов или комбинаций тем, которые уже интересны вашей целевой аудитории.

Как этот патент связан с Google Discover?

Google Discover является идеальным примером системы, где этот патент может применяться. Discover формирует ленту без явного запроса пользователя, основываясь на его интересах. Механизм использования IDF для поиска «интересного» и редкого контента напрямую соответствует целям Discover по предоставлению пользователям актуальной и увлекательной информации.