
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
Патент решает проблему ограниченности структурированных баз знаний (Knowledge Base), которые обычно хранят типовые факты (например, дата рождения, население). Цель изобретения — автоматически находить, извлекать и отображать в поиске неструктурированные, уникальные или «интересные» факты о сущностях, которые не смоделированы в базе знаний.
Запатентована система для автоматического обнаружения, извлечения, кластеризации, ранжирования и отображения уникальных фактов (Unique Facts) о сущностях из репозитория документов. Система использует специальные «триггеры» для поиска источников контента, применяет NLP-методы для группировки схожих фактов и использует комплексные метрики для выбора наилучшей формулировки и оценки достоверности факта.
Система работает в несколько этапов (преимущественно офлайн):
Unique Fact Triggers (например, «fun facts», «did you know»).Entity-Sentence Pairs).Topicality Threshold (сущность должна быть достаточно важна для документа/предложения).Salient Terms (ключевых слов).Sentence Score и Cluster Score на основе качества источника (упоминается PageRank), топикальности, «коэффициента интересности» (Fun-Quotient) и уникальности терминов (IDF Score). Выбирается лучшее предложение (Representative Sentence) из каждого кластера.Высокая. Google активно развивает способы прямого ответа на вопросы и обогащения поисковой выдачи с помощью извлеченной информации (Featured Snippets, Knowledge Panels, блоки «Знаете ли вы?»). Этот патент описывает конкретный механизм для поиска и валидации именно «интересных» и нетривиальных фактов, что является актуальным направлением развития поиска.
Влияние на SEO значительно (7.5/10). Патент раскрывает механизм, с помощью которого Google оценивает и извлекает уникальную информацию для отображения в SERP-функциях. Он дает SEO-специалистам понимание того, как оптимизировать контент для извлечения: фокусироваться на уникальности (высокий IDF), ясности формулировок (избегание Bad Sentences) и сигнализировании об «интересности» контента через внешние ссылки и пользовательские запросы.
Sentence Scores предложений в основном и поддерживающем кластерах, исключая дублированный контент.Unique Fact Triggers.IDF Score предложения определяется как наивысший IDF среди всех терминов в этом предложении. Предпочтение отдается редким терминам.Salient Terms. Представляет собой конкретный уникальный факт.Main Cluster с наивысшим Sentence Score, которое не классифицировано как Bad Sentence. Это лучшая формулировка факта для показа пользователю.Fun-Quotient и IDF Score.Salient Terms является подмножеством набора Salient Terms основного кластера. Поддерживает факт, но не является его лучшим выражением.Semantic Importance Score) или для документа в целом (Document Topicality Score).Topicality Score, необходимое для включения Entity-Sentence Pair в обработку. Порог может варьироваться в зависимости от типа или широты категории сущности.Knowledge Base.Whitelist Triggers (например, «fun facts», «did you know») и Blacklist Triggers (например, «myths», «lies», «fake»). Используются для идентификации источников.Claim 1 (Независимый пункт, Система): Описывает основную архитектуру и процесс системы.
Unique Fact Trigger (включая whitelisted trigger phrase).Entity-Sentence Pairs путем извлечения предложений и идентификации сущностей.Main Unique Fact Cluster путем кластеризации пар на основе Salient Terms.Representative Sentence для каждого кластера.Topicality Score для репрезентативного предложения относительно исходных документов.Topicality Threshold, основанный на широте категории (breadth of a category) сущности.Topicality Score соответствует порогу, репрезентативное предложение предоставляется в ответ на запрос, идентифицирующий сущность.Ядро изобретения — это комплексный пайплайн отбора контента с многоуровневой фильтрацией, где финальное решение о показе факта зависит от переменного порога топикальности, зависящего от категории сущности.
Claim 9 (Независимый пункт, Метод): Описывает метод, зеркалирующий Claim 1, но с акцентом на процесс кластеризации.
Entity-Sentence Pairs.Salient Terms, результатом которой являются Main Clusters и как минимум один Supporting Cluster.Representative Sentence.Topicality Scores и Topicality Threshold (на основе широты категории сущности).Здесь подчеркивается важность структуры кластеров (основные и поддерживающие) для валидации фактов.
Claim 16 и 20 (Независимые пункты, Методы показа): Описывают логику предоставления фактов в ответ на запрос.
Unique Fact Trigger (whitelisted phrase).Unique Fact List для сущности. (Важно: включение фактов в этот список зависит от прохождения проверки Topicality Score против Topicality Threshold, основанного на широте категории сущности).Изобретение в основном применяется на этапе индексирования для предварительной обработки данных и на финальных этапах для формирования выдачи.
INDEXING – Индексирование и извлечение признаков
Это основной этап работы системы. Процессы, описанные в патенте (обнаружение источников, извлечение, фильтрация, кластеризация, ранжирование), выполняются офлайн (в пакетном режиме) для наполнения Unique Fact Repository. Также на этом этапе оценивается качество источников (например, с использованием PageRank).
QUNDERSTANDING – Понимание Запросов
На этом этапе система анализирует запрос пользователя, чтобы идентифицировать упоминаемую сущность и наличие Unique Fact Trigger (например, пользователь ищет «интересные факты о кошках»).
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На финальных этапах формирования SERP система извлекает предварительно рассчитанные Unique Facts из репозитория и внедряет их в выдачу. Это может быть обогащение Knowledge Panel или формирование отдельного блока (например, карусель фактов или блок «Знаете ли вы?»).
Входные данные:
PageRank).Выходные данные:
Representative Sentences для различных сущностей.Unique Facts.Процесс А: Извлечение фактов (Офлайн)
PageRank, классификации как спам/порно/блоги/форумы, синдицированного или плагиатного контента).Whitelist Triggers и не связанных с Blacklist Triggers. Связь определяется, если триггер присутствует в тексте входящей ссылки на документ или в поисковом запросе, по которому этот документ был показан.Knowledge Base в каждом предложении (включая местоимения).Topicality Score (Document Topicality и Semantic Importance). Исключение сущностей, не достигающих Topicality Threshold. Порог может быть выше для общих категорий (например, «животное») и ниже для конкретных сущностей (например, «коала»).Entity-Sentence Pairs вместе с идентификатором источника и оценками топикальности.Процесс Б: Обработка и Ранжирование (Офлайн)
Bad Sentences — предложений, требующих контекста (неразрешенные местоимения, неоднозначные существительные, фразы типа «позже» в начале). Опционально: удаление префиксов типа «Однако».Salient Terms (лемматизированные термины, исключая стоп-слова и сущность).Main Clusters (предложения с эквивалентными наборами Salient Terms) и Supporting Clusters (набор терминов является подмножеством основного кластера).Sentence Score для каждого предложения на основе комбинации факторов: топикальность, ранг источника (PageRank), длина (демоушен за слишком короткие/длинные), Fun-Quotient источника, IDF Score предложения.Main Cluster выбирается предложение с наивысшим Sentence Score, которое не помечено как «плохое».Cluster Score путем комбинирования Sentence Scores из основного и поддерживающего кластеров, исключая дубликаты.Unique Fact List для сущности.Процесс В: Отображение фактов (Онлайн)
Unique Fact List для этой сущности.Unique Fact Trigger. Knowledge Panel).PageRank) для оценки качества источника. Также анализируется текст входящих ссылок (анкоры или околоссылочный текст) для идентификации Unique Fact Triggers и расчета Fun-Quotient.core portion) документа. Анализируется структура предложений, наличие стоп-слов, местоимений и конкретных терминов (для расчета IDF).Search Records). Используются для определения того, какие запросы приводили к показу документа, что помогает идентифицировать связь документа с триггерами и рассчитать Fun-Quotient.Система использует комплексный подход к оценке.
Метрики Источника:
PageRank).Метрики Топикальности:
breadth of a category).Метрики Предложения (Sentence Score):
Рассчитывается как комбинация (произведение или взвешенная сумма) нескольких факторов:
Topicality Score * Ранг источника.Fun-Quotient источника.Метрики Кластера (Cluster Score):
Sentence Scores всех недублированных предложений в основном и поддерживающем кластерах.Knowledge Graph. Она целенаправленно ищет уникальную информацию в вебе для обогащения выдачи.Unique Fact Triggers в этих сигналах критично для идентификации источника и расчета Fun-Quotient.IDF Score при ранжировании предложений означает, что факты, содержащие более редкие и специфические термины, получат преимущество перед тривиальными фактами.Sentence Score напрямую зависит от ранга источника (PageRank) и топикальности (Topicality Score). При этом порог топикальности адаптивен: для общих тем он выше, чем для узких.Bad Sentences. Факт должен быть изложен в одном предложении, не требующем дополнительного контекста (все местоимения и существительные должны быть разрешены внутри предложения или относиться к основной сущности).Main и Supporting Clusters позволяет системе подтверждать достоверность факта наличием нескольких источников, выражающих его разными словами, и выбирать наилучшую формулировку.IDF. Это повышает уникальность предложения в глазах системы и помогает при ранжировании и дедупликации.Whitelist Triggers (например, «интересные факты о X», «а вы знали, что X...») в анкорах или околоссылочном тексте. Это повышает Fun-Quotient.PageRank) используется при расчете Sentence Score, общий авторитет и качество сайта критически важны для того, чтобы ваши факты были выбраны системой.Topicality Threshold.Bad Sentence.IDF), будут отфильтрованы или получат низкий рейтинг.Cluster Score.Патент подтверждает стратегию Google по извлечению ответов из контента для формирования SERP-функций. Для SEO это означает, что создание контента должно учитывать не только релевантность ключевым словам, но и способность контента быть легко извлеченным и интерпретированным системами NLP. Победа в борьбе за такие блоки, как «Знаете ли вы?» или обогащенные Knowledge Panels, требует сочетания сильного ссылочного профиля (для качества источника и Fun-Quotient), уникальности контента (IDF) и идеальной технической подачи (четкие предложения, высокая топикальность).
Сценарий: Оптимизация статьи о Коалах для блока «Интересные факты»
Fun-Quotient.Как система определяет, что факт является «уникальным» или «интересным»?
Система использует несколько сигналов. Во-первых, она ищет источники, на которые ссылаются с использованием Whitelist Triggers (например, «fun facts»), что повышает Fun-Quotient. Во-вторых, она отфильтровывает факты, которые уже есть в Knowledge Base (структурированные данные). В-третьих, при ранжировании предпочтение отдается предложениям с высоким IDF Score, то есть содержащим редкие термины.
Что такое «плохое предложение» (Bad Sentence) и как его избежать?
Bad Sentence — это предложение, требующее внешнего контекста. Чаще всего это происходит из-за неразрешенных местоимений (например, «Он пошел туда», если неясно, кто «он» и где «туда») или неоднозначных существительных (например, «В фильме снимался известный актер», если название фильма не указано в этом же предложении). Чтобы избежать этого, формулируйте факты в виде полностью самодостаточных предложений.
Насколько важен авторитет сайта для этого алгоритма?
Критически важен. Патент явно упоминает использование независимого ранга документа (например, PageRank) как фактора при расчете Sentence Score. Кроме того, низкокачественные документы отфильтровываются еще на этапе отбора источников. Высокий авторитет сайта значительно повышает шансы на выбор вашего факта.
Что такое Salient Terms и как они используются?
Salient Terms — это значимые термины в предложении (исключая стоп-слова и название самой сущности), приведенные к базовой форме (лемматизированные). Они используются для кластеризации: если два предложения имеют эквивалентный набор Salient Terms (с учетом синонимов и чисел), они считаются выражающими один и тот же факт.
Как работает переменный порог топикальности (Topicality Threshold)?
Патент указывает, что порог зависит от широты категории сущности (breadth of a category). Для общих сущностей (например, «Книга» или «Животное») порог выше — они должны быть центральной темой документа или предложения. Для конкретных сущностей (например, «Моби Дик» или «Коала») порог может быть ниже. Это гарантирует, что извлекаемые факты действительно релевантны сущности.
Как можно повлиять на Fun-Quotient документа?
Fun-Quotient рассчитывается на основе доли входящих ссылок и поисковых запросов, которые содержат Whitelist Triggers. Для повышения этого показателя необходимо стимулировать появление ссылок с анкорами или околоссылочным текстом, содержащим фразы типа «интересные факты», «любопытные детали», «а вы знали» и т.п.
Использует ли система только текст страницы для поиска фактов?
Для извлечения фактов система анализирует только «центральную часть» (core portion) документа, игнорируя меню, футеры, комментарии и рекламу. Однако для идентификации самого документа как источника фактов используются внешние сигналы — входящие ссылки и поисковые запросы.
Что произойдет, если несколько сайтов опубликуют один и тот же уникальный факт?
Система кластеризует эти факты в один Main Cluster. Затем она выберет одно Representative Sentence — лучшую формулировку факта из предложения с наивысшим Sentence Score. Преимущество получит сайт с более высоким рангом источника, лучшей топикальностью и более высоким Fun-Quotient.
Как система борется с ложными фактами или мифами?
Для борьбы с недостоверной информацией система использует Blacklist Triggers (например, «мифы», «ложь», «фейк»). Если документ связан с такими триггерами через входящие ссылки или запросы, он исключается из рассмотрения в качестве источника уникальных фактов. Также используется оценка качества источника (PageRank).
В каком формате лучше всего представлять факты на странице?
Лучше всего представлять факты в виде списка или отдельных абзацев, где каждый факт сформулирован в одном четком, самодостаточном предложении оптимальной длины (упоминается ориентир в 140 символов или 20 слов) и содержит специфические (высокочастотные по IDF) термины.

Свежесть контента
EEAT и качество

Персонализация
Семантика и интент
SERP

Knowledge Graph
Семантика и интент
SERP

Семантика и интент

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Ссылки
Структура сайта
Семантика и интент

Поведенческие сигналы
Индексация
Техническое SEO

Поведенческие сигналы
Персонализация
Семантика и интент

Поведенческие сигналы
Персонализация
EEAT и качество

Семантика и интент
Персонализация
SERP

Поведенческие сигналы
SERP
Семантика и интент

Ссылки
Индексация
Поведенческие сигналы

SERP
EEAT и качество
Персонализация

Поведенческие сигналы
Семантика и интент
EEAT и качество

Семантика и интент
Персонализация
Поведенческие сигналы
