Как Google рассчитывает значимость сущности в документе (Entity Score) и использует всплески трафика (Traffic Spike Score) для рекомендации контента

Google использует систему для определения того, насколько важна конкретная сущность (человек или бренд) для документа. Система анализирует количество упоминаний, их расположение (заголовок, тело) и упоминания других сущностей для расчета «Entity Score». Этот механизм используется для предложения пользователям контента о них самих для распространения в социальных сетях, а также учитывает «Traffic Spike Score» (всплески трафика) для выявления актуальных документов.

Описание

Какую задачу решает

Патент решает проблему неосведомленности сущностей (людей, брендов, организаций) о контенте, который публикуется о них третьими сторонами в интернете. Зачастую такой контент сложно найти вручную. Система автоматизирует обнаружение этого контента и упрощает его распространение (dissemination) через онлайн-среды, контролируемые сущностью (например, профиль в социальной сети).

Что запатентовано

Запатентована система для автоматического предложения контента сущности для ее дальнейшего распространения. Система идентифицирует документы, ссылающиеся на конкретную сущность, и вычисляет Entity Score — меру важности этой сущности для документа. На основе этого и других сигналов, таких как популярность контента (Traffic Spike Score) или авторитетность источника (Trusted Site), выбирается подмножество документов, которые предлагаются сущности.

Как это работает

Система функционирует следующим образом:

Индексирование сущностей: Документы анализируются для выявления упоминаний уникальных сущностей и сохраняются в Entity-Document Index.
Расчет Entity Score: Определяется, насколько документ сфокусирован на конкретной сущности. Учитывается частота упоминаний, их расположение (заголовок, начало текста) и соотношение упоминаний этой сущности к другим.
Отбор кандидатов: Выбираются документы, превышающие пороговое значение Entity Score.
Дополнительный отбор: В выборку могут быть добавлены документы с низким Entity Score, если они имеют высокий Traffic Spike Score (резкий рост популярности) или опубликованы на Trusted Site.
Предложение: Отобранные документы отображаются в онлайн-среде сущности с возможностью поделиться ими через Dissemination Element.

Актуальность для SEO

Средняя/Высокая. Хотя патент (подача 2012 г.) явно ориентирован на функционал социальных сетей (вероятно, Google+), лежащие в его основе технологии критически важны для современного поиска. Механизмы расчета значимости сущности (Entity Score), определение главной темы документа (Primary Subject), оценка авторитетности источников (Trusted Sites) и анализ трендов (Traffic Spike Score) активно используются в Google Search, Knowledge Panels и Google Discover.

Важность для SEO

Патент имеет значительное стратегическое влияние (7/10) на Entity SEO и Управление репутацией (ORM). Он не описывает ранжирование в веб-поиске, но детально раскрывает, как Google количественно оценивает взаимосвязь между документом и сущностью (Entity Score). Понимание этих механизмов позволяет оптимизировать контент так, чтобы четко сигнализировать поисковой системе, кто является главным субъектом документа.

Детальный разбор

Термины и определения

Dissemination Element (Элемент распространения): Элемент пользовательского интерфейса (например, кнопка «Поделиться»), который позволяет сущности распространить предложенный документ среди других сущностей в онлайн-среде.
Document Date (Дата документа): Дата, связанная с документом (например, дата публикации или индексации). Используется для обеспечения темпорального разнообразия предложенных документов.
Entity (Сущность): Уникально идентифицируемый человек, место или концепция, часто представленные в Графе Знаний (Knowledge Graph).
Entity Score (Оценка сущности): Метрика, определяющая меру важности (measure of importance) конкретной сущности для данного документа. Рассчитывается на основе количества, расположения и соотношения упоминаний сущности.
Entity-Document Index (Индекс Сущность-Документ): База данных, хранящая связи между уникальными сущностями и документами, которые их упоминают.
Information Retrieval Score (Оценка информационного поиска): Стандартная оценка релевантности, показывающая, насколько хорошо контент документа соответствует термину (например, имени сущности).
Primary Subject (Основной субъект): Сущность, которая является главной темой документа.
Traffic Spike Score (Оценка всплеска трафика): Значение, основанное на дисперсии (variance) или резком изменении количества пользовательских запросов к документу за определенный период времени. Указывает на виральность или трендовость контента.
Trusted Site (Надежный сайт): Веб-сайт, классифицированный как надежный на основании качества размещенных на нем документов (например, оригинальность контента, форматирование, ссылочный профиль).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс предложения документов члену социальной сети, фокусируясь на взаимодействии Entity Score и Traffic Spike Score.

Система идентифицирует документы, ссылающиеся на конкретного члена социальной сети (независимо от его запроса).
Вычисляется Entity Score (мера важности), основанная на количестве упоминаний.
Отбирается подмножество документов, у которых Entity Score превышает порог.
Идентифицируется дополнительный документ, который ссылается на члена, но чей Entity Score ниже порога.
Определяется, что этот документ имеет Traffic Spike Score (оценка дисперсии трафика), превышающий порог.
Этот дополнительный (виральный) документ включается в набор предложенных документов на основании высокого Traffic Spike Score.
Система предоставляет эти документы и Dissemination Element на странице социальной сети этого члена.

Ключевой аспект — механизм включения трендового контента (Traffic Spike Score) может компенсировать низкую базовую оценку важности (Entity Score).

Claim 2 (Зависимый от 1): Уточняет расчет Entity Score.

Entity Score определяется на основе как количества упоминаний, так и их расположения (locations) в документе.

Claim 3 (Зависимый от 1): Детализирует расчет Entity Score через соотношение.

Определяется первое число: количество упоминаний целевой сущности.
Определяется второе число: количество упоминаний других сущностей.
Entity Score определяется как функция от первого и второго чисел.

Это подчеркивает важность эксклюзивности фокуса документа на сущности.

Claim 4 (Зависимый от 1): Описывает альтернативный критерий включения.

Документ может быть включен, если он одновременно размещен на Trusted Site (классифицированном как надежный) И система определила, что данная сущность является Primary Subject этого документа.

Claim 5 (Зависимый от 1): Описывает еще один критерий включения.

Документ может быть включен, если его заголовок (Title) содержит упоминание данной сущности.

Claim 7 (Зависимый от 1): Описывает механизм обеспечения разнообразия.

Если два документа имеют совпадающую Document Date и оба подходят для включения, система включает только один из них. Это обеспечивает темпоральное разнообразие.

Где и как применяется

Изобретение применяется в основном на уровне приложений (например, социальной сети), но критически зависит от данных, обработанных на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная подготовка данных:

Распознавание сущностей (Entity Recognition) в документах и их связывание с Knowledge Graph.
Создание и обновление Entity-Document Index.
Предварительная оценка качества сайтов для классификации их как Trusted Sites.
Сбор временных меток (Document Date).
Предварительный расчет Entity Scores.

Application Layer (Уровень Приложения)
Основная логика патента выполняется здесь (это не стандартный процесс RANKING для веб-поиска, а процесс генерации предложений):

Получение данных: Система запрашивает документы из Entity-Document Index для конкретной сущности.
Анализ оценок: Извлекаются Entity Scores. Анализируются данные о трафике для расчета Traffic Spike Score.
Применение логики отбора: Применяются пороги и правила (Claims 1, 4, 5, 7) для формирования финального набора предложений.
Интеграция в UI: Предложения и Dissemination Element встраиваются в интерфейс пользователя.

Входные данные:

Entity-Document Index.
Предварительно рассчитанные Entity Scores.
Данные о классификации сайтов (Trusted Sites).
Данные о трафике/запросах к документам (для Traffic Spike Score).
Document Dates.

Выходные данные:

Список предложенных документов, отображаемый в онлайн-среде сущности.
Dissemination Element (кнопка «Поделиться»).

На что влияет

Конкретные типы контента: Влияет на любые документы, в которых распознаются сущности (новости, статьи, блоги, пресс-релизы).
Стратегии: Патент напрямую влияет на ORM (Online Reputation Management) и мониторинг упоминаний бренда, автоматизируя обнаружение важного или трендового контента. Косвенно влияет на Entity SEO, раскрывая механизмы определения значимости сущности.

Когда применяется

Условия работы: Алгоритм применяется при генерации ленты или блока предложений в онлайн-среде сущности (например, при загрузке профиля в социальной сети).
Триггеры активации: Активация происходит, когда документы удовлетворяют заданным критериям отбора:
- Entity Score выше порога.
- ИЛИ Traffic Spike Score выше порога (даже при низком Entity Score).
- ИЛИ комбинация Trusted Site и Primary Subject.
- ИЛИ упоминание сущности в Заголовке (Title).

Пошаговый алгоритм

Процесс отбора предложенных документов для сущности (E).

Идентификация документов: Система идентифицирует набор документов (D), ссылающихся на конкретную сущность E (используя Entity-Document Index).
Расчет Entity Score: Для каждого документа в D вычисляется Entity Score. Учитывается количество упоминаний E, их расположение (заголовок, начало текста) и соотношение упоминаний E к другим сущностям.
Первичный отбор: Формируется первичное подмножество документов, чьи Entity Score превышают установленный порог.
Идентификация дополнительных кандидатов: Система анализирует документы, не вошедшие в первичное подмножество (с низким Entity Score).
Анализ дополнительных сигналов: Для дополнительных кандидатов проверяются условия:
- Трендовость: Рассчитывается Traffic Spike Score. Если он превышает порог, документ добавляется.
- Авторитетность и Фокус: Если документ размещен на Trusted Site И сущность E является Primary Subject, он добавляется.
- Упоминание в заголовке: Если сущность E упомянута в заголовке документа, он может быть добавлен.
Диверсификация (Дедупликация по времени): Финальное подмножество анализируется. Если несколько документов имеют одинаковую Document Date, система может выбрать только один из них.
Предоставление результатов: Сформированный набор документов предоставляется в онлайн-среду сущности E вместе с Dissemination Element.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Текст документа: используется для подсчета количества упоминаний сущностей (целевой и других).
- Заголовок (Title): Упоминание в заголовке является сильным сигналом для расчета Entity Score и отдельным критерием включения.
- Расположение текста: Местоположение упоминаний (начало документа, тело, сноски) используется для взвешивания при расчете Entity Score.
Факторы авторитетности (Системные):
- Хост/Домен: Используется для определения, является ли источник Trusted Site (на основе анализа качества контента сайта).
Поведенческие факторы (Трафик):
- Данные о пользовательских запросах к документу (User Requests): Используются для анализа популярности и расчета Traffic Spike Score.
Временные факторы:
- Document Date (дата публикации или индексации): Используется для обеспечения темпорального разнообразия.

Какие метрики используются и как они считаются

Entity Score (Оценка значимости сущности): Комплексная метрика. Рассчитывается как функция от:
- Частота (Frequency): Общее количество упоминаний сущности.
- Проминентность (Prominence): Взвешенные оценки расположения упоминаний (вес выше для заголовка и начала текста).
- Эксклюзивность (Exclusivity/Ratio): Соотношение упоминаний целевой сущности к упоминаниям других сущностей.
Traffic Spike Score: Метрика трендовости. Рассчитывается на основе дисперсии (variance) или максимального изменения количества пользовательских запросов к документу за определенный период времени (например, сравнение трафика сегодня и вчера).
Trusted Site: Бинарная или пороговая классификация на уровне сайта, основанная на качестве контента.
Primary Subject: Классификация, указывающая, является ли сущность главной темой документа. Определяется на основе анализа Entity Score и доминирования сущности в тексте.

Выводы

Квантификация значимости сущности (Entity Salience): Google использует сложную метрику (Entity Score) для определения фокуса документа на конкретной сущности. Это не просто подсчет упоминаний, а анализ частоты, проминентности (расположения) и эксклюзивности (соотношения).
Критичность структуры контента и Заголовка (Title): Расположение упоминаний критически важно. Упоминание сущности в заголовке является настолько сильным сигналом, что выделено как самостоятельный критерий для отбора контента.
Виральность и Тренды (Traffic Spike Score): Google активно отслеживает всплески популярности контента. Высокий Traffic Spike Score может компенсировать низкий Entity Score, подчеркивая важность актуальности и вовлеченности.
Ценность авторитетных источников (Trusted Sites): Статус Trusted Site является важным фактором доверия. Комбинация авторитетного источника и четкого фокуса на сущности (Primary Subject) является сильным сигналом для системы.
Разнообразие выдачи: Система применяет темпоральную диверсификацию (по Document Date), чтобы избежать предложения однотипного контента, опубликованного в одно время.

Практика

Best practices (это мы делаем)

Хотя патент не о ранжировании в поиске, он раскрывает механизмы NLP для определения значимости сущностей (Entity Score). Эти механизмы, вероятно, используются и в основном поиске, Google Discover и для Knowledge Graph.

Оптимизация значимости (Salience Optimization): При создании контента о целевой сущности (бренд, автор, продукт) убедитесь, что она является Primary Subject. Для этого необходимо упоминать сущность в ключевых местах: в заголовке (Title), в первых абзацах и естественно по всему тексту.
Повышение эксклюзивности (Минимизация Entity Dilution): Убедитесь, что целевая сущность имеет наибольшее количество упоминаний по сравнению с другими сущностями в документе. Если страница посвящена Сущности А, она не должна упоминать Сущность Б и В с той же частотой и проминентностью.
Digital PR и работа с Trusted Sites: Активно работайте над размещением контента на авторитетных площадках, которые Google может классифицировать как Trusted Sites. Согласно патенту, это значительно повышает ценность публикации.
Генерация инфоповодов и всплесков трафика: Интегрируйте SEO с PR и дистрибуцией контента для создания резких всплесков пользовательского интереса. Высокий Traffic Spike Score является сильным сигналом важности для Google.

Worst practices (это делать не надо)

Размытие фокуса документа: Создание контента, который упоминает множество сущностей без выделения Primary Subject. Это снижает Entity Score для каждой отдельной сущности из-за низкого соотношения упоминаний.
Размещение ключевой сущности в конце документа: Если основная сущность упоминается только в конце текста или в неважных блоках (например, в футере), это снижает Entity Score, так как система придает меньший вес таким упоминаниям.
Игнорирование качества площадки: Размещение важного контента о сущности на сайтах низкого качества, которые не являются Trusted Sites.
Создание однотипного контента в короткий срок: Публикация нескольких очень похожих материалов в один день может привести к тому, что система отфильтрует их из-за механизма темпоральной диверсификации.

Стратегическое значение

Патент подтверждает критическую важность распознавания сущностей (Entity Recognition) и определения их значимости (Entity Salience) в стеке NLP Google. Понимание расчета Entity Score критически важно для Entity SEO. Стратегии должны быть направлены на то, чтобы сделать основную сущность (Primary Subject) документа максимально очевидной для поисковых систем, что улучшает ассоциацию контента с этой сущностью в Knowledge Graph и повышает видимость в релевантных системах.

Практические примеры

Сценарий: Оптимизация пресс-релиза о запуске нового продукта (например, «Pixel 9») для максимизации Entity Score.

Задача: Обеспечить, чтобы система Google определила «Pixel 9» как Primary Subject и присвоила максимально высокий Entity Score.

Действие (Проминентность — Title): Включить точное название «Pixel 9» в заголовок (например, «Google представляет Pixel 9: новые функции и дата выхода»).
Обоснование (Патент): Упоминание в заголовке является отдельным критерием включения (Claim 5) и имеет больший вес (Claim 2).
Действие (Проминентность — Текст): В первом абзаце четко описать продукт и упомянуть «Pixel 9».
Обоснование (Патент): Расположение упоминаний влияет на вес (Claim 2).
Действие (Эксклюзивность): Убедиться, что в тексте релиза «Pixel 9» упоминается значительно чаще, чем другие сущности (например, имена спикеров или старые модели).
Обоснование (Патент): Entity Score зависит от соотношения упоминаний разных сущностей (Claim 3).
Действие (Авторитетность): Опубликовать релиз на официальном блоге или авторитетном новостном ресурсе (потенциальный Trusted Site).
Обоснование (Патент): Комбинация Trusted Site и Primary Subject является критерием включения (Claim 4).

Вопросы и ответы

Что такое Entity Score и чем он отличается от стандартной оценки релевантности (IR Score)?

Entity Score — это специфическая метрика, измеряющая, насколько важна конкретная сущность для документа (Entity Salience). Она учитывает частоту, расположение (проминентность) и эксклюзивность (соотношение с другими сущностями). В отличие от нее, Information Retrieval (IR) Score — это стандартная оценка того, насколько документ релевантен запросу (например, имени сущности), часто основанная на совпадении терминов. Документ может иметь высокий IR Score, но низкий Entity Score, если сущность упоминается вскользь.

Как повысить Entity Score для моего бренда на странице?

Для повышения Entity Score необходимо сфокусироваться на трех аспектах. Упомяните название бренда в заголовке (Title и H1) и в первых абзацах текста (проминентность). Естественно используйте название бренда в контексте (частота). Убедитесь, что ваш бренд упоминается значительно чаще, чем любые другие сущности на этой странице (эксклюзивность).

Учитывает ли Google расположение упоминаний сущности на странице?

Да, абсолютно. Патент явно указывает (Claim 2), что местоположение ссылок на сущность используется при определении Entity Score. Упоминания в заголовках и в начале документа обычно имеют больший вес, чем упоминания в конце текста или в сносках.

Что произойдет, если на странице упоминается много разных сущностей?

Это затрудняет определение основного субъекта (Primary Subject) страницы. Патент учитывает это (Claim 3): Entity Score рассчитывается с учетом упоминаний других сущностей. Если вы упоминаете 10 сущностей с одинаковой частотой, Entity Score для каждой из них будет низким из-за плохого соотношения (эксклюзивности).

Что такое Traffic Spike Score и как он влияет на видимость контента?

Traffic Spike Score измеряет резкие всплески пользовательского интереса (трафика) к документу за короткий период, указывая на трендовость или виральность. Патент показывает, что Google использует это как сильный сигнал актуальности. Документ может быть продвинут системой, даже если его Entity Score низок, при условии высокого Traffic Spike Score.

Используется ли этот патент в Google Поиске или Google Discover?

Конкретная реализация (предложение контента в социальной сети), скорее всего, нет. Однако базовые технологии — расчет Entity Score (значимости сущности) и анализ Traffic Spike Score (популярности) — являются стандартными методами NLP, которые Google применяет повсеместно, особенно в системах рекомендаций контента, таких как Google Discover.

Что в патенте подразумевается под Trusted Site?

Trusted Site — это веб-сайт, классифицированный системой как надежный источник на основе качества размещаемых им документов (упоминаются оригинальность, форматирование, ссылочный профиль). Патент указывает, что размещение на таком сайте является самостоятельным критерием для отбора контента (при условии, что сущность является Primary Subject). Это соответствует концепциям E-E-A-T.

Может ли упоминание сущности в заголовке компенсировать низкую частоту упоминаний в тексте?

Да, в значительной степени. Патент выделяет упоминание в заголовке как отдельный критерий для включения документа (Claim 5), а также как фактор, повышающий вес при расчете Entity Score (Claim 2). Наличие сущности в заголовке — один из самых сильных сигналов значимости.

Как система обеспечивает разнообразие предлагаемого контента?

Патент описывает механизм диверсификации по времени (Claim 7). Если система находит несколько документов, удовлетворяющих критериям отбора (например, высокому Entity Score), но имеющих одинаковую дату публикации (Document Date), она может выбрать только один из них. Это увеличивает вероятность того, что предложенные документы будут касаться разных событий.

Как система отличает одного человека от другого с таким же именем?

Патент исходит из того, что работает с уникальными сущностями (uniquely identified person), связанными с Knowledge Graph. Система использует контекст документа (например, профессию, связанные события или других людей), чтобы устранить неоднозначность (disambiguate) и привязать упоминание к конкретному уникальному субъекту, прежде чем рассчитывать Entity Score.