
Google использует механизм для персонализации выдачи (например, в Новостях или Рекомендациях), который повышает в ранжировании документы, содержащие сущности, интересующие пользователя, если эти сущности редко встречаются в недавнем корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF). Система продвигает уникальные комбинации тем (группы сущностей), которые могут быть особенно интересны пользователю.
Патент решает проблему повышения качества персонализированных рекомендаций контента (например, новостных лент). Стандартные системы могут перегружать пользователя популярными или часто повторяющимися материалами, даже если они соответствуют его интересам. Цель изобретения — идентифицировать и продвигать документы, которые не только релевантны интересам пользователя, но и являются редкими или уникальными в текущем информационном потоке, что повышает их потенциальную "интересность" (interestingness).
Запатентована система ранжирования документов, которая использует профиль интересов пользователя в сочетании с метрикой редкости тем (сущностей) в корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF), часто рассчитываемой за определенный период времени. Если документ содержит сущность (или группу сущностей), которая интересует пользователя и имеет высокий IDF (т.е. встречается редко), этот документ получает повышение в ранжировании.
Система работает в двух основных режимах: офлайн и онлайн.
Entity) и комбинации сущностей (Entity Group) вычисляется Inverse Document Frequency (IDF). Высокий IDF указывает на редкость.User Interest Profile). Для документов, соответствующих этим интересам, система проверяет IDF связанных с ними сущностей. Если IDF превышает определенный порог редкости, оценка документа (Score) повышается.Высокая. С ростом значимости персонализированных лент, таких как Google Discover и обновленный Google News, механизмы, определяющие "интересность" контента за пределами простой релевантности, критически важны. Этот патент описывает конкретный, основанный на сущностях механизм для достижения этой цели.
Патент имеет высокое значение для SEO-стратегий, нацеленных на Google Discover, Google News и другие персонализированные поверхности. Он показывает, что простое создание контента по популярной теме недостаточно для гарантированного показа заинтересованным пользователям. Система предпочитает уникальные углы освещения тем или редкие комбинации сущностей (Entity Groups). Это напрямую влияет на контент-стратегию, подчеркивая важность поиска нишевых и уникальных инфоповодов.
co-occurring topics). Рассматривается как "псевдо-сущность" для анализа редкости комбинации.Claim 1 (Независимый пункт): Описывает основной метод ранжирования на основе частоты одной сущности.
Inverse Document Frequency (IDF) для этой темы в корпусе. Ключевое уточнение: IDF рассчитывается на основе документов, созданных в течение ограниченного периода времени (limited time period) (соотношение числа всех недавних документов к числу недавних документов, упоминающих тему).Score) для документа на основе этого значения IDF.threshold score), указывающему на то, что тема является редкой (infrequent topic) в корпусе.Claim 7 (Независимый пункт): Описывает метод ранжирования на основе частоты группы совместно встречающихся сущностей (group of co-occurring topics).
infrequent group of co-occurring topics).Изобретение затрагивает этапы индексирования (для предварительных расчетов) и ранжирования/переранжирования (для применения логики персонализации).
INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы:
Entity Annotator обрабатывает документы, извлекает сущности и определяет Topicality Scores.Entity Frequency Calculator и Entity Group Frequency Calculator периодически пересчитывают IDF для сущностей и групп сущностей. Важно, что расчеты производятся для разных временных окон (например, IDF за час, день, неделю).QUNDERSTANDING – Понимание Запросов
Хотя это не традиционный текстовый запрос, система должна интерпретировать "запрос" на персонализированный контент. Это включает загрузку и интерпретацию User Interest Profile.
RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение патента происходит во время формирования выдачи (например, новостной ленты):
Scoring Engine корректирует оценки документов. Документы с высокими значениями IDF (редкие темы) получают бустинг, если они соответствуют интересу пользователя.Входные данные:
User Interest Profile (список интересующих сущностей).Выходные данные:
User Interest Profile.threshold), что свидетельствует о редкости темы.Процесс А: Офлайн-расчет частот (Периодический)
Entity Annotator для извлечения сущностей и определения основных тем (на основе Topicality Score).Entity Groups), совместно встречающихся в документах.Inverse Document Frequency для каждой сущности и группы.
Inverse Document Frequency (IDF) используется как объективная мера этой редкости.limited time period). Это позволяет системе адаптироваться к новостному циклу: тема, которая была редкой на прошлой неделе, может быть повсеместной сегодня.Entity Groups). Две очень популярные сущности могут образовать очень редкую комбинацию, если о них почти никогда не пишут вместе.User Interest Profile.Topicality Scores, чтобы сосредоточиться на основных темах документа, а не на случайных упоминаниях сущностей.Entity Annotator) правильно определить основные темы статьи (Topicality Score). Используйте ясные заголовки, подзаголовки и убедитесь, что основная часть текста посвящена заявленным сущностям.Topicality Score), система не классифицирует их как основные темы документа, и бустинг применен не будет.Этот патент подчеркивает стратегический переход Google к оценке "интересности" контента в персонализированных сервисах. Для SEO это означает, что стратегии для Google Discover и Google News должны включать анализ текущего информационного поля не только с точки зрения спроса, но и с точки зрения предложения (насыщенности). Создание уникального, основанного на сущностях контента становится ключевым фактором для привлечения трафика из рекомендательных систем.
Сценарий: Использование редкой комбинации сущностей (Entity Group)
Сценарий: Использование временного IDF
Применяется ли этот патент к основному веб-поиску Google?
Патент описывает механизм для персонализированных рекомендаций, таких как новостные ленты. В основном веб-поиске его влияние менее вероятно, так как там доминирует релевантность запросу, а не предварительно известные интересы пользователя. Однако, если поисковая выдача сильно персонализирована или включает модули рекомендаций (например, блок "Интересное"), этот механизм может быть задействован.
Как отличается использование IDF в этом патенте от традиционного TF-IDF?
В традиционном TF-IDF метрика IDF используется для определения важности термина для определения релевантности документа запросу (редкие термины более важны). В этом патенте IDF используется как мера "интересности" или редкости темы в целом корпусе документов за определенный период. Это сигнал качества/уникальности контента, а не его релевантности конкретному запросу.
Как определить, какие сущности или группы сущностей являются редкими (имеют высокий IDF)?
Патент не предоставляет инструментов для внешних пользователей. SEO-специалистам необходимо проводить собственный анализ информационного поля. Можно использовать Google Trends для оценки динамики интереса и ручной анализ Google News или других агрегаторов, чтобы понять, насколько часто освещается та или иная тема или комбинация тем в последнее время.
Что важнее: редкость отдельной сущности или группы сущностей?
Система оценивает оба фактора. Однако патент уделяет значительное внимание группам сущностей (Entity Groups). Редкая комбинация двух популярных сущностей может оказаться более мощным сигналом "интересности", чем одна умеренно редкая сущность. Стратегически выгоднее искать уникальные пересечения тем.
Как Google определяет интересы пользователя (User Interest Profile)?
Патент упоминает, что профиль может быть основан на информации, предоставленной пользователем (явные подписки), или определен неявно. Неявные методы включают анализ ранее просмотренных документов, введенных поисковых запросов, а также активность пользователей с похожими профилями.
Насколько важен временной фактор (Time-limited IDF)?
Он критически важен. Расчет IDF за ограниченный период времени позволяет системе реагировать на текущую информационную повестку. Это означает, что для SEO важна скорость реакции на новые инфоповоды и понимание того, что насыщенность темы может быстро меняться.
Как обеспечить высокий Topicality Score для нужных сущностей?
Topicality Score определяет, является ли сущность основной темой документа. Для этого сущность должна быть центральным элементом контента. Упоминание в заголовке, частое и естественное использование в тексте, а также выделение значительной части документа под раскрытие этой темы способствуют повышению этой оценки.
Влияет ли авторитетность сайта (E-E-A-T) на этот механизм?
Патент не упоминает авторитетность сайта напрямую. Он фокусируется на редкости контента и интересах пользователя. Однако базовые сигналы качества и авторитетности всегда учитываются Google при отборе кандидатов для ранжирования. Качественный контент с высоким IDF имеет больше шансов на успех, чем низкокачественный контент с высоким IDF.
Стоит ли специально создавать контент под очень редкие, но малоизвестные сущности?
Это зависит от вашей аудитории. Механизм активируется только тогда, когда редкая сущность уже находится в профиле интересов пользователя. Если никто не интересуется этой редкой сущностью, высокий IDF не принесет пользы. Стратегия должна заключаться в поиске редких аспектов или комбинаций тем, которые уже интересны вашей целевой аудитории.
Как этот патент связан с Google Discover?
Google Discover является идеальным примером системы, где этот патент может применяться. Discover формирует ленту без явного запроса пользователя, основываясь на его интересах. Механизм использования IDF для поиска "интересного" и редкого контента напрямую соответствует целям Discover по предоставлению пользователям актуальной и увлекательной информации.

Knowledge Graph
Семантика и интент
EEAT и качество

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Персонализация
Поведенческие сигналы
Свежесть контента

Персонализация
Поведенческие сигналы
Свежесть контента

Персонализация
Поведенческие сигналы
Свежесть контента

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Семантика и интент

EEAT и качество
Антиспам
Ссылки

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Ссылки

Local SEO
Поведенческие сигналы

Персонализация
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы
