Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google находит, проверяет и показывает «интересные факты» о сущностях в поиске

    SURFACING UNIQUE FACTS FOR ENTITIES (Выявление уникальных фактов о сущностях)
    • US20230177360A1
    • Google LLC
    • 2023-06-08
    • 2017-07-12
    2017 EEAT и качество Knowledge Graph Патенты Google Семантика и интент

    Google использует систему для автоматического извлечения неструктурированных «уникальных фактов» о сущностях из веб-документов. Система идентифицирует источники по внешним сигналам (триггерным фразам), кластеризует схожие утверждения для валидации, отфильтровывает общеизвестные данные и отбирает лучшие формулировки. Эти факты дополняют структурированные данные Knowledge Graph и отображаются в выдаче (например, в блоках «Знаете ли вы?»).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности структурированных баз знаний (Knowledge Base), которые хранят смоделированные атрибуты, общие для типа сущности (например, дата рождения, население). Изобретение фокусируется на автоматическом поиске и валидации уникальных фактов (unique facts) или «интересных фактов» (fun facts) — неструктурированной информации, которая обычно не представлена в стандартной базе знаний, но может быть интересна пользователю.

    Что запатентовано

    Запатентована система для автоматического обнаружения, обработки и предоставления уникальных фактов о сущностях. Она включает офлайн-компонент (Unique Fact Discovery System), который извлекает, фильтрует, кластеризует и ранжирует потенциальные факты из веб-документов. Онлайн-компонент (Query System) отвечает за показ этих предварительно обработанных фактов в ответ на запросы пользователей. Ключевой аспект — фильтрация, гарантирующая, что извлеченные факты не повторяют уже известные структурированные данные.

    Как это работает

    Система работает в два этапа: офлайн-обнаружение и онлайн-обслуживание.

    • Офлайн (Unique Fact Discovery System): Идентифицируются документы-источники на основе внешних сигналов (ссылки или запросы с триггерными фразами, например, «fun facts»). Из них извлекаются предложения и формируются Entity-Sentence Pairs. Эти пары фильтруются (удаляются «плохие» предложения и структурированные факты), кластеризуются по ключевым терминам (Salient Terms) и ранжируются. Для каждого кластера выбирается лучшее предложение (Representative Sentence).
    • Онлайн (Query System): Когда пользователь вводит запрос о сущности, система проверяет наличие готового списка уникальных фактов. В зависимости от наличия триггеров в запросе (например, «интересные факты о кошках» против «кошки»), система показывает либо список фактов, либо один выбранный факт.

    Актуальность для SEO

    Высокая. Представление уникальной и интересной информации о сущностях остается ключевым направлением для улучшения пользовательского опыта в поиске, особенно в контексте Knowledge Panels и ответов голосовых ассистентов. Тот факт, что Google подал заявку на продолжение (Continuation Application) в 2023 году (с приоритетом от 2016 года), подчеркивает стратегическую важность этой технологии.

    Важность для SEO

    Патент имеет высокое значение (8/10) для SEO, особенно для контент-стратегии, оптимизации под сущности (Entity SEO) и SERM. Он раскрывает механизмы, по которым Google оценивает и извлекает неструктурированную информацию для использования в prominent SERP features (например, блоки «Did you know?»). Понимание критериев отбора источников (качество, триггеры в ссылках) и оценки контента (Topicality, уникальность терминов (IDF), четкость формулировок) позволяет оптимизировать контент для повышения его видимости.

    Детальный разбор

    Термины и определения

    Bad Sentence (Плохое предложение)
    Предложение, которое грамматически некорректно или требует внешнего контекста для понимания (например, содержит неразрешенные местоимения). Такие предложения используются для поддержки факта, но не могут быть показаны пользователю.
    Cluster Score (Оценка кластера)
    Метрика для ранжирования кластеров фактов. Рассчитывается на основе агрегации Sentence Scores предложений в основном и поддерживающем кластерах, исключая дублированный контент.
    Distinctive Terms (Отличительные термины)
    Термины в предложении, чей показатель IDF (Inverse Document Frequency) превышает определенный порог (редкие слова). Используются для обеспечения разнообразия при финальном отборе фактов.
    Entity-Sentence Pair (Пара сущность-предложение)
    Базовая единица данных: связь между идентифицированной сущностью из Knowledge Base и предложением из документа, в котором она упоминается.
    Fun-Quotient (Коэффициент интересности)
    Фактор повышения оценки в Sentence Score. Основан на доле входящих ссылок или запросов на исходный документ, которые содержат Whitelist Triggers.
    Main Cluster (Основной кластер)
    Группа предложений, выражающих один и тот же факт. Предложения имеют эквивалентные наборы Salient Terms.
    Representative Sentence (Репрезентативное предложение)
    Предложение из Main Cluster с наивысшим Sentence Score (и не помеченное как Bad Sentence). Лучшая формулировка факта для показа пользователю.
    Salient Terms (Значимые термины)
    Термины в предложении, исключая стоп-слова и саму сущность. Используются для кластеризации. При сравнении используется лемматизация; синонимы и числа считаются эквивалентными.
    Sentence Score (Оценка предложения)
    Метрика качества и интересности предложения. Учитывает Topicality Score, ранг источника (PageRank), длину предложения, Fun-Quotient и IDF терминов.
    Structured Fact Pattern (Шаблон структурированного факта)
    Паттерн (например, регулярное выражение), используемый для идентификации предложений, которые выражают общеизвестные, смоделированные факты (например, «X родился в Y»). Такие факты отфильтровываются.
    Topicality Score (Оценка тематичности)
    Метрика, определяющая, насколько сущность важна для документа (Document Topicality Score) или для предложения (Semantic Importance Score).
    Unique Fact Triggers (Триггеры уникальных фактов)
    Фразы, используемые для идентификации источников фактов (Whitelist: «fun facts», «did you know») или ненадежных источников (Blacklist: «fake», «myths», «lies»).

    Ключевые утверждения (Анализ Claims)

    Патент US20230177360A1 является заявкой на продолжение (Continuation Application). Его Claims сфокусированы на механизме фильтрации структурированных фактов.

    Claim 1 (Независимый пункт): Описывает основной метод генерации уникальных фактов.

    1. Система выбирает документы из репозитория, связанные с unique fact trigger.
    2. Система генерирует entity-sentence pairs для сущности:
      • Извлекаются предложения из выбранных документов.
      • Для каждого предложения:
        1. Идентифицируется ссылка на сущность.
        2. Определяется, соответствует ли предложение structured fact pattern.
        3. Ключевое действие: Предложение сохраняется как entity-sentence pair ТОЛЬКО в ответ на определение, что оно НЕ соответствует паттерну структурированного факта.
    3. Система предоставляет по крайней мере одно сохраненное предложение в ответ на запрос, идентифицирующий сущность.

    Ядро изобретения в этой заявке — это явное исключение предложений, которые соответствуют structured fact pattern, чтобы гарантировать, что система выявляет именно уникальные (неструктурированные) факты, а не то, что уже есть в Knowledge Base.

    Claim 4 (Зависимый от 1): Уточняет, что structured fact pattern может быть сгенерирован автоматически на основе фактов, хранящихся в Knowledge Base.

    Claim 7 (Зависимый от 1): Добавляет механизм улучшения качества через кластеризацию.

    1. Система генерирует main unique fact cluster путем кластеризации сохраненных entity-sentence pairs на основе salient terms.
    2. Система определяет representative sentence для кластера.
    3. Именно это representative sentence предоставляется в ответ на запрос.

    Где и как применяется

    Изобретение охватывает несколько этапов поисковой архитектуры, разделяя процесс на офлайн-подготовку и онлайн-обслуживание.

    INDEXING – Индексирование и Извлечение признаков (Офлайн)
    Основная работа системы (Unique Fact Discovery System) происходит здесь.

    • Анализ данных: Система анализирует Document Repository (веб-индекс) и Search Records (логи запросов).
    • Извлечение признаков и Оценка качества:
      • Оценка качества документов (PageRank, классификаторы спама/блогов/форумов).
      • Идентификация внешних сигналов (ссылки и запросы с триггерами), указывающих на документ как на источник фактов.
      • NLP и Семантика: Извлечение предложений, распознавание сущностей, расчет Topicality Score.
      • Кластеризация и Ранжирование фактов: Расчет Sentence Score и Cluster Score.
    • Результат этапа: Unique Fact Repository, содержащий списки проверенных Representative Sentences для различных сущностей.

    QUNDERSTANDING – Понимание Запросов (Онлайн)
    Система определяет интент пользователя: ищет ли он общую информацию о сущности или конкретно интересуется уникальными фактами (наличие Unique Fact Triggers в запросе).

    METASEARCH & RERANKING – Метапоиск, Смешивание и Переранжирование (Онлайн)
    Query System интегрирует уникальные факты в выдачу.

    • Агрегация и Смешивание: Система извлекает данные из Unique Fact Repository и объединяет их с результатами из веб-индекса и Knowledge Base.
    • Формирование SERP Features: Уникальные факты могут быть представлены в виде специального блока (например, скроллируемый список) или интегрированы в Панель Знаний (Knowledge Panel).

    На что влияет

    • Типы контента: Наибольшее влияние на информационный контент, который агрегирует факты, списки, «интересные сведения» о сущностях (люди, места, продукты и т.д.).
    • Специфические запросы: Влияет на информационные запросы, связанные с сущностями. Особенно сильно влияет на запросы с явным интентом поиска фактов (например, «интересные факты о [сущность]»).
    • Форматы контента: Предпочтение отдается контенту, где факты сформулированы в виде законченных, автономных предложений в основном теле документа.

    Когда применяется

    • Триггеры активации (Офлайн): Наличие внешних сигналов (ссылок/запросов с whitelist triggers), указывающих на документ, при условии отсутствия сигналов с blacklist triggers (например, «fake», «myths») и прохождения фильтров качества (PageRank).
    • Триггеры активации (Онлайн): Запрос пользователя идентифицирован как относящийся к сущности, для которой у системы есть заранее подготовленный Unique Fact List.
    • Условия и пороги:
      • Topicality Threshold: Сущность должна быть достаточно релевантна предложению/документу. Порог может варьироваться в зависимости от типа сущности.
      • IDF Threshold: Используется для определения Distinctive Terms и при расчете Sentence Score.

    Пошаговый алгоритм

    Процесс А: Офлайн-обнаружение и обработка фактов

    Стадия 1: Идентификация и подготовка источников

    1. Фильтрация качества: Исключение низкокачественных документов (низкий PageRank, блоги, форумы, синдицированный контент).
    2. Выбор источников (Unique Fact Sources): Отбор документов, на которые указывают ссылки или запросы, содержащие Whitelist Triggers и не содержащие Blacklist Triggers.

    Стадия 2: Извлечение и Фильтрация фактов

    1. Извлечение предложений: Извлечение текста из центральной (основной) части документов.
    2. Распознавание сущностей и Фильтрация по тематичности: Идентификация сущностей и исключение тех, чей Topicality Score ниже порога.
    3. Генерация пар: Сохранение Entity-Sentence Pairs.
    4. Идентификация «плохих» предложений: Пометка предложений, требующих контекста, как Bad Sentence.
    5. Фильтрация структурированных фактов: Удаление предложений, соответствующих Structured Fact Pattern (Ключевой этап Claim 1).

    Стадия 3: Кластеризация

    1. Определение значимых терминов: Генерация наборов Salient Terms для каждого предложения.
    2. Кластеризация: Генерация Main Clusters (эквивалентные наборы Salient Terms) и Supporting Clusters (подмножества Salient Terms).

    Стадия 4: Ранжирование и Выбор

    1. Расчет оценок предложений (Sentence Score): Вычисление оценки на основе Topicality, PageRank источника, длины, Fun-Quotient, IDF.
    2. Выбор репрезентативных предложений: Выбор предложения с наивысшим Sentence Score в каждом Main Cluster (если оно не Bad).
    3. Расчет оценок кластеров (Cluster Score): Агрегация Sentence Scores в кластере (исключая дубликаты контента).

    Стадия 5: Генерация финального списка (Diversification)

    1. Определение отличительных терминов: Определение Distinctive Terms (термины с высоким IDF) для каждого репрезентативного предложения.
    2. Дедупликация и формирование списка: Выбор предложений в порядке убывания Cluster Score, обеспечивая разнообразие путем проверки непересечения Distinctive Terms.
    3. Сохранение: Сохранение Unique Fact List для сущности.

    Процесс Б: Онлайн-обслуживание запросов

    1. Анализ запроса: Определение сущности и наличия Unique Fact Triggers.
    2. Проверка наличия фактов: Поиск Unique Fact List для сущности.
    3. Выбор формата отображения:
      • Если триггер есть в запросе: Показать список фактов.
      • Если триггера нет: Показать один выбранный факт (случайно или по рейтингу).
    4. Формирование SERP: Встраивание уникальных фактов в результаты поиска.

    Какие данные и как использует

    Данные на входе

    • Ссылочные факторы:
      • PageRank (или аналог): Используется для фильтрации низкокачественных источников и как важный компонент Sentence Score.
      • Анкорный текст входящих ссылок (и околоссылочный текст): Анализируется на наличие Unique Fact Triggers для идентификации источников и расчета Fun-Quotient.
    • Контентные факторы: Текст из центральной (основной) части документа. Анализируется грамматика, длина предложений, использование терминов (для расчета IDF и кластеризации).
    • Поведенческие факторы (Search Records): Логи запросов используются для идентификации источников фактов (если документ был результатом по запросу с триггером) и расчета Fun-Quotient.
    • Структурные факторы: Система анализирует структуру документа для определения центральной части и исключения нежелательных разделов (комментарии, меню).
    • Данные из Knowledge Base: Используются для распознавания сущностей и для генерации Structured Fact Patterns.

    Какие метрики используются и как они считаются

    • Topicality Score: Оценка релевантности сущности документу (Document Topicality) или предложению (Semantic Importance).
    • Sentence Score: Комбинация (например, произведение или взвешенная сумма) нескольких факторов:
      • Confidence Factor: Например, Topicality Score * PageRank источника.
      • Length Factor (Demotion): Штраф за слишком короткие или слишком длинные предложения (оптимально около 140 символов / 20 слов).
      • Fun-Quotient (Promotion): Доля входящих сигналов (ссылок/запросов), содержащих триггеры.
      • IDF Factor: Максимальный IDF среди всех терминов в предложении (предпочтение редким словам).
      • Interestingness Factor (Promotion): (Опционально) Ручная оценка асессором.
    • Cluster Score: Агрегация Sentence Scores всех недублированных предложений в основном и поддерживающем кластерах. Служит мерой валидации и важности факта.
    • Методы NLP: Лемматизация, анализ синонимов, распознавание сущностей (NER), расчет IDF.

    Выводы

    1. Google активно ищет неструктурированные факты: Система целенаправленно ищет информацию, которая дополняет Knowledge Graph. Ключевой механизм (Claim 1) — это фильтрация предложений, соответствующих structured fact patterns, чтобы сфокусироваться на уникальности.
    2. Внешние сигналы определяют источники фактов: Идентификация надежных источников фактов сильно зависит от внешних сигналов — как на документ ссылаются (анкоры) и по каким запросам его находят. Наличие Whitelist Triggers (например, «fun facts») в этих сигналах критично и повышает Fun-Quotient.
    3. Многоуровневая оценка качества: Качество оценивается на уровне источника (PageRank, фильтрация спама/блогов/форумов), на уровне релевантности (Topicality) и на уровне формулировки (фильтр Bad Sentences, Length Factor).
    4. Валидация через кластеризацию: Достоверность факта проверяется путем группировки схожих утверждений из разных источников (кластеризация по Salient Terms). Чем выше поддержка (Cluster Score), тем надежнее факт.
    5. Предпочтение редким терминам (IDF): Уникальность оценивается также на уровне используемых слов. Предложения с высоким IDF получают преимущество в ранжировании (Sentence Score) и используются для обеспечения разнообразия (Distinctive Terms).
    6. Требования к ясности формулировок: Факт должен быть сформулирован как самодостаточное предложение, не требующее контекста, чтобы быть выбранным в качестве Representative Sentence.

    Практика

    Best practices (это мы делаем)

    • Создание целевых страниц с уникальными фактами: Разрабатывайте качественный контент, агрегирующий малоизвестные факты о ключевых сущностях. Используйте заголовки, которые могут привлекать внешние сигналы с триггерами (например, «10 удивительных фактов о…»).
    • Оптимизация формулировок (Standalone Sentences): Формулируйте каждый факт в виде законченного предложения, которое можно понять без контекста. Избегайте неразрешенных местоимений. Пример: Вместо «Он изобрел это в 1990 году» пишите «[Имя] изобрел [Продукт] в 1990 году».
    • Использование уникальной лексики (High IDF): Включайте в текст специфические, редкие термины. Это повышает Sentence Score и помогает пройти фильтр Distinctive Terms на финальном этапе отбора.
    • Стимулирование «Fun-Quotient» (Link Building/PR): Работайте над получением ссылок с анкорами, содержащими триггерные фразы (например, «интересные факты о X»). Это напрямую влияет на идентификацию вашего сайта как источника и повышает Fun-Quotient.
    • Построение авторитетности и Topicality: Факты, извлеченные с авторитетных сайтов (высокий PageRank), где сущность является основной темой (высокий Topicality Score), получают значительный буст при ранжировании.

    Worst practices (это делать не надо)

    • Перечисление стандартных структурированных фактов: Повторение общеизвестных фактов (даты, размеры). Система отфильтровывает их как соответствующие structured fact patterns.
    • Использование контекстно-зависимых предложений: Формулировки, начинающиеся с «Однако», «Позже», или требующие знания предыдущего текста, будут помечены как Bad Sentences и не будут выбраны.
    • Размещение фактов вне основного контента: Размещение информации в комментариях, сайдбарах или футере бесполезно, так как система анализирует только центральную часть документа.
    • Копирование контента (Плагиат/Синдикация): Система активно борется с дублированным контентом на уровне документа и на уровне контекста предложения при расчете Cluster Score.
    • Использование вводящих в заблуждение заголовков: Ассоциация контента с Blacklist Triggers (например, «мифы», «фейки») приведет к исключению документа из рассмотрения.

    Стратегическое значение

    Патент подтверждает стратегию Google по извлечению знаний напрямую из неструктурированного контента для обогащения SERP и ответов ассистентов. Для SEO это означает, что существует конкретный механизм для попадания в SERP Features за счет уникального фактического контента. Ключевое значение приобретает сочетание качества контента, его уникальности и правильных внешних сигналов (триггерных фраз), что требует скоординированной работы контент-стратегии и PR/линкбилдинга.

    Практические примеры

    Сценарий: Оптимизация страницы о породе собак (например, Сиба-ину)

    Цель: Попасть в блок уникальных фактов по запросу «Сиба-ину».

    1. Анализ (Что делать не надо): Не фокусироваться на весе, росте, стране происхождения (структурированные факты).
    2. Разработка контента (Что делать): Найти уникальный факт. Например: «Сиба-ину известны своим уникальным вокальным звуком, называемым ‘Siba scream'».
    3. Формулировка:
      Плохо (Bad Sentence): «Они также издают этот звук, когда расстроены.» (Местоимение «Они» требует контекста).
      Хорошо (Representative Sentence): «Сиба-ину издают пронзительный вокальный звук, известный как ‘Siba scream’, когда они недовольны или взволнованы.» (Самодостаточно, специфические термины).
    4. Продвижение: Получить ссылку с авторитетного блога с анкором «10 удивительных фактов о Сиба-ину». Это активирует Unique Fact Trigger и повышает Fun-Quotient.
    5. Ожидаемый результат: Система извлекает предложение, выбирает его как Representative Sentence, и оно отображается в Knowledge Panel или специальном блоке по запросам о Сиба-ину.

    Вопросы и ответы

    Как Google определяет, является ли факт «уникальным» или «структурированным»?

    Система использует Structured Fact Patterns — шаблоны, соответствующие общеизвестным типам фактов, уже хранящимся в Knowledge Base (например, «X родился в Y»). Если извлеченное предложение соответствует такому паттерну, оно отфильтровывается. Уникальным считается факт, который не соответствует этим стандартным моделям.

    Что такое «триггеры уникальных фактов» (Unique Fact Triggers) и почему они важны?

    Это фразы типа «fun facts», «did you know». Они критически важны для идентификации источников контента. Если на документ часто ссылаются (в анкорах ссылок или в запросах) с использованием этих триггеров, Google считает его потенциальным источником уникальных фактов. Это также повышает метрику Fun-Quotient документа.

    Насколько важен авторитет сайта (E-E-A-T, PageRank) для этого патента?

    Критически важен. Авторитет сайта (упоминается PageRank) используется на двух уровнях. Сначала он используется для фильтрации низкокачественных источников (low-quality documents). Затем ранг источника используется как множитель при расчете Sentence Score, напрямую влияя на вероятность выбора факта для показа.

    Что такое «Bad Sentence» и как избежать этой пометки?

    Bad Sentence — это предложение, которое не может быть понято автономно из-за грамматических ошибок или необходимости контекста (например, неразрешенные местоимения). Чтобы избежать этой пометки, факты должны быть сформулированы как самодостаточные утверждения, где все сущности явно названы в рамках этого предложения.

    Как система борется с дублированием фактов?

    Система использует многоуровневую дедупликацию. Сначала фильтруются дублированные документы. Затем используется кластеризация по Salient Terms для группировки разных формулировок одного факта, из которых выбирается только один Representative Sentence. Наконец, используется фильтр разнообразия по Distinctive Terms (редким словам), чтобы не показывать факты, слишком похожие по смыслу.

    Какую роль играет Inverse Document Frequency (IDF) в этой системе?

    IDF играет ключевую роль в оценке уникальности. Предложения с более редкими терминами (высокий IDF) получают более высокий Sentence Score. Кроме того, Distinctive Terms (термины с высоким IDF) используются на финальном этапе для обеспечения разнообразия отображаемой информации.

    Что такое Topicality Score и как он влияет на извлечение фактов?

    Topicality Score измеряет, насколько сущность релевантна документу или предложению. Он используется для фильтрации: если сущность упоминается вскользь (низкий score), факт не будет извлечен. Также он является компонентом при ранжировании фактов (Sentence Score). Это подчеркивает важность Topical Authority.

    Влияет ли длина предложения на ранжирование фактов?

    Да. Система применяет штраф (Length Factor) к предложениям, которые слишком короткие или слишком длинные. В патенте упоминается целевая длина, например, около 140 символов или 20 слов. Предложения, близкие к оптимальной длине, получают преимущество при расчете Sentence Score.

    Где в поиске отображаются эти уникальные факты?

    Патент показывает несколько вариантов. Если запрос содержит триггер (например, «Koala fun facts»), может отображаться выделенный скроллируемый список фактов. Если запрос общий (например, «Koala»), один факт может быть интегрирован в Knowledge Panel (с пометкой «Did you know») или показан как блок ответа над основными результатами поиска.

    Если несколько сайтов публикуют один и тот же факт, какой из них будет выбран?

    Будет выбрана формулировка (Representative Sentence) с наивысшим Sentence Score. Эта оценка зависит от авторитетности источника (PageRank), Topicality, качества написания (Length Factor), Fun-Quotient и уникальности терминов (IDF). Предпочтение отдается лучшему изложению на самом авторитетном и релевантном сайте.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.