Как Google рассчитывает значимость сущностей внутри документа и использует это для ранжирования

Google анализирует документы (включая книги и веб-страницы), чтобы рассчитать независимую от запроса оценку значимости (Importance Score) для упомянутых сущностей (люди, места, даты). Эта оценка учитывает контекст упоминания, точность, TF-IDF, внешние ссылки и поведение пользователей. Затем эта оценка значимости используется как сигнал для ранжирования самого документа в поиске.

Описание

Какую задачу решает

Патент решает проблему определения относительной значимости (важности) различных сущностей (например, мест, дат, людей), упомянутых в документе, при отсутствии явных указаний на их важность в самом тексте. Это необходимо для двух целей: 1) Улучшения представления информации о документе (например, какие локации показать на карте, связанной с книгой, чтобы не перегружать интерфейс). 2) Более точного расчета релевантности документа поисковым запросам для улучшения ранжирования.

Что запатентовано

Запатентована система и метод для расчета независимых от запроса оценок значимости (Query-Independent Importance Scores) для сущностей, упомянутых в корпусе документов (определяемых как «книги», но включающих веб-страницы). Система использует различные сигналы, включая контекст упоминания, точность определения, внешние и внутренние ссылки, активность пользователей и частоту упоминаний (TF-IDF). Критически важно, что эти оценки используются поисковой системой для влияния на ранжирование самих документов.

Как это работает

Система (Entity Importance Engine) работает в несколько этапов:

Идентификация сущностей: Текст документа анализируется с использованием NLP для выявления сущностей разных типов.
Расчет значимости (Офлайн): Для каждой сущности рассчитываются оценки на основе множества факторов. Оценка повышается, если сущность упомянута в важных разделах (Book Context), указана точно (Precision), если на раздел с ней часто ссылаются извне (References) или его часто просматривают пользователи (User Activities), и если она уникально частотна для этого документа (Term Weighting/TF-IDF).
Агрегация: Отдельные оценки взвешиваются и объединяются (линейная комбинация) в итоговый балл значимости для каждой сущности внутри документа.
Использование в Поиске (Онлайн): При обработке запроса система ранжирует документы, используя предварительно рассчитанные Importance Scores сущностей как один из сигналов релевантности.

Актуальность для SEO

Высокая. Понимание значимости (salience) сущностей в контексте документа является фундаментом современного семантического поиска (Knowledge Graph, BERT, MUM). Описанные методы оценки важности контента на основе контекста, структуры, уникальности и внешних сигналов крайне актуальны для Entity SEO и построения тематического авторитета (Topical Authority) в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10). Он предоставляет четкую схему того, как Google оценивает важность сущностей внутри контента. Критически важно, что Формула изобретения (Claim 1) прямо указывает на использование этих независимых от запроса оценок значимости сущностей для ранжирования самих документов в результатах поиска. Это позволяет оптимизировать контент так, чтобы подчеркнуть ключевые сущности, напрямую улучшая оценку релевантности и демонстрируя E-E-A-T.

Детальный разбор

Термины и определения

Book (Книга/Документ): Любое письменное произведение. В патенте определение включает традиционные книги, газеты, журналы, веб-страницы и другие электронные документы.
Book Context (Контекст документа): Фактор значимости, оценивающий упоминания сущности в контексте всего документа. Учитывает раздел (заголовок, основная часть, сноска), форматирование, позицию в документе и метаданные (жанр, тема).
Corpus (Корпус): Набор документов и метаданных о них, хранящийся в системе.
Entity (Сущность): Объект, обладающий свойством, описанным в документе. Типы включают географические местоположения (Geopoint), даты/время, события, людей или набор фактов.
Entity Importance Engine (Механизм оценки значимости сущностей): Система, которая обрабатывает корпус для генерации независимых от запроса оценок значимости сущностей.
Precision (Точность): Фактор значимости, оценивающий, насколько точно указана сущность (например, полный адрес точнее города). Также учитывает уверенность оптического распознавания текста (OCR confidence scores).
Query-Independent Importance Score (Независимая от запроса оценка значимости): Метрика, указывающая на важность сущности относительно других сущностей того же типа в том же документе. Рассчитывается до получения каких-либо запросов.
References (Ссылки): Фактор значимости, использующий информацию о перекрестных ссылках. Включает внутренние ссылки (внутри документа) и сторонние ссылки (обзоры, цитаты, веб-ссылки).
Term Weighting (Взвешивание терминов): Фактор значимости, использующий частоту упоминаний сущности. В патенте упоминается использование методов TF-IDF (Term Frequency-Inverse Document Frequency) для оценки частоты в документе относительно всего корпуса.
User Activities (Активность пользователей): Фактор значимости, учитывающий, как часто пользователи получают доступ к разделам документа, упоминающим сущность.

Ключевые утверждения (Анализ Claims)

Патент защищает систему (Claim 1), программный продукт (Claim 7) и метод (Claim 14) для представления сущностей.

Claim 1 (Независимый пункт): Описывает основную логику системы и ее связь с ранжированием в поиске.

Система имеет Entity Importance Engine для присвоения Query-Independent Importance Scores сущностям в документах корпуса. Оценки основаны, в частности, на контексте упоминания и показывают относительную важность сущностей одного типа в рамках одного документа.
Система имеет Search Module (Поисковый модуль), который принимает запрос и идентифицирует список документов, удовлетворяющих запросу.
Критический момент для SEO: Search Module ранжирует документы в списке в порядке, основанном, по крайней мере частично, на Query-Independent Importance Scores, присвоенных сущностям, упомянутым в этих документах.
Система имеет Presentation Module для представления списка документов в ранжированном порядке.

Этот пункт подтверждает, что оценка значимости сущностей внутри документа используется как фактор ранжирования самого документа.

Claim 2 (Зависимый от 1): Детализирует факторы, используемые для расчета значимости (Importance Calculation Module). Утверждается использование одного или нескольких из следующих модулей:

Book Context Module (Контекст).
Precision Module (Точность).
References Module (Сторонние ссылки).
User Activities Module (Активность пользователей).
Term Weighting Module (Взвешивание терминов/TF-IDF).

Claim 3 (Зависимый от 1): Описывает механизм агрегации оценок.

Итоговые оценки значимости рассчитываются как взвешенные суммы (weighted sums) индивидуальных оценок значимости. Сущности ранжируются на основе этих итоговых оценок.

Где и как применяется

Изобретение применяется на нескольких ключевых этапах поисковой архитектуры, фокусируясь на глубоком понимании контента и его использовании для ранжирования.

INDEXING – Индексирование и извлечение признаков
Основная работа по патенту происходит на этом этапе в режиме предварительной обработки (офлайн/асинхронно запросам).

Идентификация сущностей (Entity Identification): Документы обрабатываются с использованием NLP для поиска сущностей.
Расчет значимости (Importance Calculation): Система анализирует контекст, точность, ссылки, активность пользователей и TF-IDF для вычисления Query-Independent Importance Scores.
Ранжирование и сохранение: Ranking module вычисляет финальные оценки как взвешенные суммы и сохраняет их в индексе вместе с документом.

RANKING – Ранжирование
На этом этапе система использует предварительно рассчитанные данные для ранжирования документов.

Search Module использует Query-Independent Importance Scores сущностей, упомянутых в документе, как один из сигналов для определения итогового рейтинга документа в ответ на запрос пользователя (как указано в Claim 1).
Патент указывает, что упоминания сущности в важных разделах (название, заголовки глав) дают больший вес при определении релевантности, чем тривиальные упоминания (например, адрес издателя на странице копирайта). Также упоминается использование синонимии сущностей (запрос «Нью-Йорк» может соответствовать «Бруклин»).

METASEARCH – Метапоиск и Смешивание (Визуализация)
Presentation Engine использует оценки значимости для выбора наиболее важных сущностей и их отображения в соответствующем стиле (например, места на карте, даты на временной шкале), например, в Google Books или потенциально в обогащенных сниппетах.

Входные данные:

Текст и структура документа.
Метаданные документа (автор, жанр, классификация).
Данные о внешних и внутренних ссылках.
Данные об активности пользователей (просмотры разделов).
Статистика частотности терминов по всему корпусу (для TF-IDF).

Выходные данные:

Набор идентифицированных сущностей для каждого документа.
Query-Independent Importance Score для каждой сущности.

На что влияет

Конкретные типы контента: Наибольшее влияние на информационный контент, богатый сущностями (статьи, исследования, путеводители, биографии, подробные обзоры продуктов). Применимо к любым документам, включая веб-страницы.
Специфические запросы: Влияет на запросы, содержащие именованные сущности. Документы, в которых искомая сущность имеет высокую значимость, получат преимущество.
Конкретные ниши: Влияет на все ниши, особенно YMYL, где важна глубина проработки темы. Патент упоминает, что классификация документа (например, география) может повысить значимость сущностей определенного типа (например, локаций) внутри этого документа.

Когда применяется

Расчет значимости: Происходит асинхронно, во время индексации или обновления корпуса документов (предварительная обработка).
Использование в ранжировании: В реальном времени при обработке поискового запроса, когда система оценивает релевантность документов.

Пошаговый алгоритм

Процесс А: Расчет значимости сущностей (Офлайн / Индексация)

Установление корпуса: Сбор документов и метаданных.
Идентификация сущностей: Анализ текста документа для выявления сущностей (мест, дат, людей и т.д.) с использованием NLP.
Расчет индивидуальных оценок значимости: Параллельный расчет оценок для каждой сущности по разным факторам:
- Оценка контекста (Book Context): Анализ структурного расположения упоминания (повышение для заголовков, начала текста; понижение для сносок, страниц копирайта), форматирования, внутренних ссылок и метаданных.
- Оценка точности (Precision): Анализ специфичности определения сущности. Учет OCR confidence.
- Оценка ссылок (References): Анализ сторонних ссылок (цитат, обзоров), указывающих на документ или его разделы и упоминающих сущность.
- Оценка активности (User Activities): Анализ частоты просмотра пользователями разделов, содержащих сущность.
- Взвешивание терминов (Term Weighting): Расчет TF-IDF для сущности относительно всего корпуса.
Расчет итоговой оценки (Ranking): Вычисление финального Query-Independent Importance Score как взвешенной линейной комбинации индивидуальных оценок.
Сохранение данных: Запись оценок значимости в индекс.

Процесс Б: Использование значимости при поиске (Онлайн / Ранжирование)

Получение запроса: Пользователь вводит поисковый запрос.
Идентификация документов: Система находит документы в корпусе, соответствующие запросу.
Ранжирование документов: Система ранжирует документы, используя различные сигналы, включая предварительно рассчитанные Query-Independent Importance Scores сущностей, упомянутых в этих документах.
Представление результатов: Отображение ранжированного списка пользователю.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных для определения значимости сущностей:

Контентные и Структурные факторы:
- Расположение упоминания: Обложка (аналог Title/H1), оглавление, предисловие, заголовки глав, первая страница главы, основное содержание, индекс, сноски, страница авторских прав.
- Позиция в документе: Упоминания в начале документа считаются более важными.
- Форматирование: Полужирный шрифт, курсив.
- Расположение на странице: Обычный текст, список, таблица, подпись к изображению.
Ссылочные факторы:
- Внутренние ссылки: Ссылки из одного раздела документа на другой.
- Сторонние ссылки (Third-party references): Обзоры, научные цитаты, ссылки из интернета (World-Wide Web references). Патент отмечает, что сторонние ссылки имеют больший вес, так как считаются менее предвзятыми.
Поведенческие факторы (User Activities):
- Частота доступа/просмотра пользователями определенных страниц или разделов документа.
Технические факторы:
- Оценки уверенности оптического распознавания символов (OCR confidence scores) используются для снижения веса неточно распознанных сущностей.
Метаданные документа:
- Данные записи: Автор, название, тема, жанр.
- Классификационные данные (например, ISBN, BISAC).

Какие метрики используются и как они считаются

Индивидуальные оценки значимости: Рассчитываются для каждого фактора (Контекст, Точность, Ссылки, Активность, Взвешивание). Обычно нормализованы (например, от 0 до 1).
Точность (Precision): Метрика, оценивающая специфичность сущности. Более точные сущности получают более высокую оценку.
TF-IDF (Term Frequency-Inverse Document Frequency): Используется для взвешивания сущностей. Рассчитывается как частота упоминания сущности в документе (TF), умноженная на логарифм общего числа документов в корпусе, деленного на число документов, в которых появляется эта сущность (IDF). Это выделяет сущности, уникально частые для данного документа.
Итоговая оценка значимости (Final Importance Score): Рассчитывается как взвешенная сумма (линейная комбинация) индивидуальных оценок. Формула: Final Score = A*X + B*Y + C*Z…, где X, Y, Z — индивидуальные оценки, а A, B, C — весовые коэффициенты.
Нормализация и Веса: Итоговая оценка может быть нормализована путем деления на сумму весов. Патент предполагает, что разные факторы имеют разные веса; в одном из вариантов Book Context и Precision получают наивысшие веса.

Выводы

Значимость сущностей (Entity Salience) рассчитывается независимо от запросов: Google предварительно анализирует документы на этапе индексации, чтобы понять, какие сущности являются для них центральными.
Прямое влияние на ранжирование: Критически важный вывод для SEO: патент явно указывает (Claim 1), что эти Query-Independent Importance Scores используются поисковым модулем для ранжирования самих документов. Оптимизация значимости ключевых сущностей в контенте напрямую влияет на его видимость.
Контекст и структура документа критически важны: То, где и как упомянута сущность, сильно влияет на ее значимость. Упоминания в заголовках, в начале текста или выделенные форматированием весят значительно больше, чем упоминания в сносках или служебных разделах (например, на странице копирайта).
Внешнее подтверждение значимости (E-E-A-T): Система активно использует внешние сигналы для валидации важности. Сторонние ссылки (цитаты, обзоры) и активность пользователей (частые просмотры раздела) повышают значимость упомянутых там сущностей.
Точность определения имеет значение (Precision): Более специфичные упоминания (например, полный адрес вместо города) считаются более важными. Это актуально для локального SEO и точности данных.
Уникальность сущности (TF-IDF): Сущности, которые часто упоминаются в конкретном документе, но редко в остальном корпусе, считаются особенно важными для этого документа.

Практика

Best practices (это мы делаем)

Структурное выделение ключевых сущностей (Context): Убедитесь, что основные сущности документа (темы, продукты, локации, персоны) упоминаются в важных структурных элементах: Title, H1, подзаголовках (H2-H6), в начале документа (первые абзацы) и при необходимости выделяются форматированием (списки, таблицы, полужирный шрифт).
Повышение точности (Precision) сущностей: Используйте максимально точные и полные данные. В локальном SEO указывайте полный адрес, а не только город. При описании событий указывайте точные даты, а не только год.
Оптимизация внутреннего контекста и ссылок: Используйте внутреннюю перелинковку для указания на наиболее важные разделы контента. Разделы, на которые часто ссылаются внутри сайта (или внутри длинного документа, согласно патенту), могут считаться более важными.
Стимулирование внешних ссылок и цитирования (References): Работайте над получением внешних ссылок, цитат и обзоров, которые ссылаются на ваш контент и, в идеале, упоминают ключевые сущности в анкорном или околоссылочном тексте. Это напрямую подтверждает значимость этих сущностей.
Фокус на уникальной значимости (TF-IDF): Создавайте контент, который глубоко раскрывает тему, обеспечивая высокую частоту релевантных сущностей, которые могут быть менее распространены в общем корпусе интернета. Это помогает выделиться на фоне поверхностных статей.
Улучшение вовлеченности (User Activities): Оптимизируйте UX и подачу контента так, чтобы пользователи активно взаимодействовали с разделами, содержащими ключевые сущности.

Worst practices (это делать не надо)

Поверхностное упоминание сущностей (Entity Stuffing): Простое перечисление множества сущностей без контекста не даст высокой оценки значимости, особенно если они расположены в неважных частях документа (футер, сноски, boilerplate текст).
Неоднозначные или неточные ссылки на сущности: Использование только общих названий или неоднозначных дат снижает оценку Precision.
Игнорирование структуры контента: Публикация «стены текста», где ключевые сущности теряются в середине абзацев и не имеют структурного выделения.
«Накачка» частотности без контекста: Попытки манипулировать TF-IDF путем неестественного повторения сущностей будут неэффективны, если другие факторы (контекст, ссылки) останутся низкими.

Стратегическое значение

Этот патент подтверждает стратегический переход Google от ключевых слов к семантическому пониманию контента через сущности (Entity SEO). Он показывает, что релевантность — это взвешенная оценка важности концепций (сущностей), обсуждаемых в документе. Для долгосрочной SEO-стратегии критически важно фокусироваться на создании структурированного, точного и авторитетного контента, который четко сигнализирует поисковой системе, какие сущности являются центральными для темы документа (Topical Authority). Это также подчеркивает синергию между качественным контентом, UX и ссылочным профилем.

Практические примеры

Сценарий: Оптимизация страницы путеводителя по Риму

Необходимо повысить значимость ключевых достопримечательностей (сущностей) для улучшения ранжирования страницы.

Контекст (Book Context): Упомянуть «Колизей» и «Ватикан» в H1 или H2 и в первом абзаце текста. Сделать разделы о них структурно выделенными.
Точность (Precision): Указать точные адреса и координаты для Колизея (Piazza del Colosseo, 1, 00184 Roma RM, Italy), а не просто «Колизей в Риме».
Внутренние ссылки: Ссылаться на раздел о Колизее из других разделов путеводителя (например, из раздела «История Рима»).
Внешние ссылки (References): Получить обзор от тревел-блогера, который ссылается на эту страницу и упоминает в тексте обзора, насколько полезной была информация о Колизее.
TF-IDF: Убедиться, что страница содержит глубокое описание Колизея, упоминая связанные с ним сущности (например, «Гладиаторы», «Веспасиан»), которые могут быть менее частотны в общих статьях о Риме.
Ожидаемый результат: Система присвоит сущности «Колизей» высокий Query-Independent Importance Score для этого документа. Это, в свою очередь, улучшит ранжирование страницы по запросам, связанным с Римом и Колизеем.

Вопросы и ответы

Означает ли термин «Книги» (Books) в патенте только печатные издания?

Нет. Патент дает широкое определение термину «Книга», которое включает традиционные книги, а также нетрадиционные, такие как газеты, журналы, брошюры, веб-страницы и другие электронные документы. Методы, описанные в патенте, применимы к любому текстовому контенту в корпусе Google.

Подтверждает ли этот патент, что оценки значимости сущностей используются для ранжирования веб-страниц?

Да, это ключевой момент патента для SEO. В Claim 1 прямо указано, что поисковый модуль ранжирует результаты (книги/веб-страницы) в порядке, основанном, по крайней мере частично, на Query-Independent Importance Scores, присвоенных сущностям, упомянутым в этих документах.

Как именно «Контекст документа» (Book Context) влияет на значимость сущности?

Контекст учитывает структурное расположение и форматирование. Сущности, упомянутые в важных разделах (заголовки, оглавление, начало главы, первая страница), получают более высокий балл. Упоминания в менее важных разделах (например, страница копирайта, сноски) получают меньший вес. Также учитывается форматирование (полужирный, курсив), и упоминания в начале документа часто весят больше, чем в конце.

Что такое «Точность» (Precision) в контексте этого патента и как ее улучшить?

Точность относится к специфичности упоминания сущности. Например, географическая сущность, указанная с уличным адресом, считается более точной, чем указанная только с городом. Для улучшения точности всегда предоставляйте наиболее полные и специфичные данные о сущностях (полные имена, точные адреса, точные даты).

Как внешние ссылки (References) влияют на значимость сущности внутри моего документа?

Система учитывает сторонние ссылки (цитаты, обзоры, веб-ссылки). Если внешний авторитетный источник ссылается на ваш документ (или его раздел) и при этом упоминает ту же сущность, ее значимость возрастает. Патент отмечает, что сторонние ссылки имеют больший вес, чем внутренние, так как считаются менее предвзятыми.

Какова роль TF-IDF в этом патенте?

TF-IDF используется для взвешивания сущностей. Этот метод снижает вес сущностей, которые часто встречаются во всем корпусе (например, «США»), и повышает вес сущностей, которые уникально часто встречаются в вашем документе. Это помогает определить, какие сущности являются определяющими именно для вашего контента.

Влияет ли поведение пользователей на значимость сущностей?

Да, патент описывает модуль User Activities. Если пользователи часто получают доступ или просматривают определенные разделы документа, значимость сущностей, упомянутых в этих разделах, повышается. Это указывает на важность хорошего UX и вовлеченности пользователей.

Как система комбинирует различные факторы значимости?

Система рассчитывает индивидуальные оценки для каждого фактора (Контекст, Точность, Ссылки и т.д.), а затем вычисляет итоговую оценку как взвешенную сумму (линейную комбинацию) этих индивидуальных оценок. Весовые коэффициенты определяют влияние каждого фактора на итог.

Какой фактор является наиболее весомым согласно патенту?

Патент не устанавливает фиксированные веса, но упоминает, что в одном из описанных вариантов реализации факторы Book Context (контекст/структура документа) и Precision (точность упоминания) получают наивысшие веса и оказывают наибольшее влияние на финальный рейтинг сущностей.

Связан ли этот патент с Google Knowledge Graph?

Патент описывает фундаментальную работу по идентификации, извлечению и взвешиванию сущностей внутри документов (Entity Salience). Эти процессы являются необходимым шагом для наполнения и обновления баз знаний, таких как Google Knowledge Graph. Понимание значимости сущности в авторитетном источнике помогает Google определять ключевые факты об этой сущности.