Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google извлекает, верифицирует и выбирает числовые факты для прямых ответов (Featured Snippets)

    PROVIDING NUMERICAL ANSWERS TO QUERIES (Предоставление числовых ответов на запросы)
    • US20160110360A1
    • Google LLC
    • 2016-04-21
    • 2013-02-05
    2013 EEAT и качество SERP Патенты Google Семантика и интент

    Google использует систему для ответов на количественные запросы (например, «Сколько…?»). Система анализирует результаты поиска, извлекает предложения с числами и оценивает их по грамматике, формату и релевантности. Затем она группирует ответы по значению числа (консенсус) и выбирает наиболее достоверный и лучше всего сформулированный ответ для показа пользователю.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу предоставления точных прямых ответов на запросы пользователей, которые ищут числовую информацию (например, «Сколько континентов в мире?»). Цель — извлечь и валидировать числовые факты из неструктурированного текста веб-документов или сниппетов для использования в системах прямых ответов (Direct Answers, Featured Snippets) и диалоговых интерфейсах (голосовой поиск).

    Что запатентовано

    Запатентована система для извлечения, оценки и выбора числовых ответов. Ключевым элементом является двухэтапный процесс оценки: сначала оценивается качество отдельных предложений, содержащих числа (Text Score), а затем они кластеризуются по значению числа для определения консенсуса между источниками (Group Score). Система выбирает ответ, комбинируя достоверность факта и качество его формулировки.

    Как это работает

    Система работает следующим образом:

    • Извлечение кандидатов: Из текста результатов поиска (например, сниппетов) извлекаются фрагменты, содержащие числа (Numerical Sentences).
    • Индивидуальная оценка (Text Score): Каждый фрагмент оценивается по ряду критериев: грамматическая полнота (Sentence Confidence Score), релевантность запросу (включая синонимы), формат числа (цифры предпочтительнее слов) и ранг источника.
    • Кластеризация: Фрагменты группируются по числу, которое они содержат (например, все предложения с числом «7» попадают в один кластер).
    • Оценка кластеров (Group Score): Вычисляется агрегированная оценка для каждого кластера на основе Text Scores входящих в него фрагментов.
    • Выбор ответа: Система выбирает кластер с наивысшим Group Score (консенсус), а затем выбирает из него фрагмент с наивысшим Text Score (лучшая формулировка).

    Актуальность для SEO

    Высокая. Извлечение фактов и использование консенсуса для верификации данных являются фундаментальными задачами для работы Featured Snippets и голосовых ассистентов, которые активно развиваются Google. Описанные механизмы критически важны для предоставления точных ответов на фактические запросы.

    Важность для SEO

    Патент имеет высокое значение для SEO (8/10), особенно в контексте оптимизации под Featured Snippets и голосовой поиск. Он детально описывает критерии, по которым Google оценивает и выбирает контент для прямых ответов на количественные запросы. Понимание факторов, влияющих на Text Score и Sentence Confidence Score (грамматика, форматирование, авторитетность), дает SEO-специалистам конкретные рычаги для оптимизации контента с целью захвата «нулевой позиции».

    Детальный разбор

    Термины и определения

    Cluster / Group (Кластер / Группа)
    Набор текстовых фрагментов (Numerical Sentences), сгруппированных на основании общего числа, которое они содержат.
    Group Score / Cluster Score (Оценка группы/кластера)
    Агрегированная оценка для кластера, рассчитываемая на основе индивидуальных Text Scores предложений, входящих в этот кластер. Отражает достоверность и консенсус вокруг конкретного числа.
    Number-triggering query (Запрос, инициирующий числовой ответ)
    Запрос, который система идентифицирует как требующий числового ответа (например, содержащий «how many», «how much»).
    Numerical Sentence (Числовое предложение)
    Текстовый фрагмент (Text Portion), извлеченный из результатов поиска, который содержит число (записанное цифрами или прописью). В патенте уточняется, что он должен содержать полную независимую клаузу (independent clause).
    Sentence Confidence Score (Оценка уверенности в предложении)
    Метрика, указывающая вероятность того, что извлеченный текстовый фрагмент является грамматически полным предложением или независимой клаузой, а не обрывком фразы (sentence fragment).
    Text Score (Оценка текста)
    Индивидуальная оценка качества, релевантности и форматирования отдельного Numerical Sentence как потенциального ответа на запрос.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод работы системы.

    1. Получение запроса и результатов поиска.
    2. Идентификация текстовых фрагментов (Text Portions), соответствующих Numerical Sentences.
    3. Определение Text Score для каждого фрагмента. Важное уточнение: критерии оценки включают определение того, содержит ли фрагмент термины, являющиеся синонимами терминов запроса.
    4. Группировка фрагментов по числу, которое они содержат.
    5. Определение Group Score для каждой группы на основе Text Scores фрагментов в группе.
    6. Выбор конкретного текстового фрагмента на основе Group Scores.
    7. Предоставление ответа, включающего число из выбранного фрагмента.

    Claim 2 (Зависимый от 1): Конкретизирует механизм выбора (пункт 6 из Claim 1).

    Выбирается текстовый фрагмент, имеющий наивысший Text Score из группы, имеющей наивысший Group Score. Это ключевой двухэтапный процесс: сначала определяется консенсус (лучшая группа), затем выбирается лучшая формулировка внутри консенсуса.

    Claim 3 и 4 (Зависимые от 1): Детализируют процесс идентификации и оценки фрагментов с использованием Sentence Confidence Score.

    • Система определяет Sentence Confidence Score и сравнивает его с порогом для фильтрации кандидатов (Claim 3).
    • Определение Sentence Confidence Score включает проверку наличия подлежащего, сказуемого и дополнения (subject, verb, object) (Claim 4). Это указывает на использование грамматического NLP-анализа.

    Claims 8, 9, 10, 11 (Зависимые от 1): Описывают конкретные критерии для расчета Text Score.

    • Формат числа (Claim 8): Фрагменты с числами прописью (alphabetic numbers) получают более низкую оценку, чем фрагменты с цифрами (numerals).
    • Ранг источника (Claim 9): Text Score определяется на основе ранга (rank) результата поиска, который содержит этот фрагмент.
    • Пунктуация (Claim 10): Фрагменты, заканчивающиеся вопросительным знаком, получают более низкую оценку.
    • Грамматика (Claim 11): Фрагменты, которые являются частями предложений (sentence fragments), получают более низкий Text Score, чем полные предложения.

    Где и как применяется

    Изобретение применяется на финальных этапах обработки запроса для генерации прямых ответов.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе может происходить предварительный NLP-анализ для определения грамматической структуры предложений, что необходимо для последующего расчета Sentence Confidence Score.

    QUNDERSTANDING – Понимание Запросов
    Система должна классифицировать запрос как Number-triggering query. Также на этом этапе определяются синонимы терминов запроса, которые будут использоваться для оценки релевантности ответов (Text Score).

    RANKING – Ранжирование
    Генерируется стандартный набор результатов поиска. Ранг (rank) этих результатов используется системой как сигнал авторитетности при расчете Text Score для извлеченных фактов.

    METASEARCH – Метапоиск и Смешивание (Генерация Featured Snippet)
    Это основной этап применения патента. Система (Numerical answer system) активируется для генерации прямого ответа.

    1. Анализ Топа: Система анализирует текст (например, сниппеты), связанный с топовыми результатами этапа RANKING.
    2. Извлечение и Скоринг: Происходит извлечение Numerical Sentences, расчет Text Scores и Group Scores.
    3. Формирование ответа: Выбранный ответ интегрируется в поисковую выдачу, часто как «нулевая позиция» или озвучивается ассистентом.

    Входные данные:

    • Запрос пользователя.
    • Топ-N результатов поиска (включая их ранг и связанный текст/сниппеты).

    Выходные данные:

    • Выбранный текстовый фрагмент (Numerical Sentence) и/или число, извлеченное из него.

    На что влияет

    • Специфические запросы: В первую очередь влияет на фактологические информационные запросы, предполагающие числовой ответ («Сколько», «Какова длина/высота», «В каком количестве»).
    • Конкретные типы контента: Статьи, содержащие статистику, спецификации продуктов, исторические данные, научные факты.
    • Определенные форматы контента: Повышает значимость контента, сформулированного в виде полных, утвердительных и грамматически корректных предложений.

    Когда применяется

    • Триггеры активации: Система активируется, когда запрос классифицируется как Number-triggering query.
    • Пороговые значения: Для того чтобы фрагмент был рассмотрен, его Sentence Confidence Score должен превышать определенный порог (Claim 3).

    Пошаговый алгоритм

    1. Получение данных: Система получает запрос и набор ранжированных результатов поиска (включая сниппеты и ранги).
    2. Извлечение текстовых фрагментов: Из сниппетов извлекаются Text Portions, которые потенциально содержат независимые клаузы.
    3. Расчет Sentence Confidence Score и Фильтрация: Для каждого фрагмента оценивается вероятность того, что он является полным предложением (проверка наличия подлежащего, сказуемого, дополнения). Фрагменты ниже порога могут быть отброшены.
    4. Идентификация Числовых Предложений (Numerical Sentences): Определение, какие из фрагментов содержат числа (цифрами или прописью).
    5. Расчет индивидуальной оценки (Text Score): Для каждого числового предложения рассчитывается оценка на основе:
      • Релевантности: Наличие терминов запроса или их синонимов.
      • Грамматики: Использование Sentence Confidence Score.
      • Формата числа: Пессимизация чисел, написанных буквами.
      • Пунктуации: Пессимизация предложений, заканчивающихся вопросительным знаком.
      • Анализа дат: Определение, является ли число частью даты (может пессимизироваться).
      • Авторитетности: Учет ранга исходного документа.
    6. Кластеризация по Числу: Числовые предложения группируются по конкретному числу, которое они содержат.
    7. Расчет групповой оценки (Group Score): Для каждого кластера рассчитывается агрегированная оценка (например, сумма Text Scores предложений в кластере).
    8. Выбор Ответа (Двухэтапный):
      • Этап 1: Выбирается кластер с наивысшим Group Score (определение правильного числа на основе консенсуса).
      • Этап 2: Из этого кластера выбирается предложение с наивысшим Text Score (определение лучшей формулировки).
    9. Вывод результата: Выбранное предложение или число из него предоставляется пользователю.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст из сниппетов или документов. Анализируется наличие ключевых слов, синонимов, чисел. Пунктуация (наличие вопросительного знака в конце).
    • Структурные (Грамматические) факторы: Синтаксическая структура текста (идентификация независимых предложений, анализ наличия подлежащего, сказуемого, дополнения).
    • Технические факторы (Форматирование): Формат представления числа – используются ли цифровые символы (0-9) или буквенные («один», «десять»).
    • Системные данные (Факторы авторитетности): Ранг (rank) результата поиска, из которого извлечен фрагмент. Используется как показатель доверия к источнику.

    Какие метрики используются и как они считаются

    Система использует три ключевые метрики:

    1. Sentence Confidence Score:
      • Как считается: С помощью методов NLP (синтаксический и семантический анализ) для определения грамматической полноты. Патент упоминает проверку наличия субъекта, предиката, объекта.
      • Как используется: Для фильтрации некачественных фрагментов и как компонент Text Score.
    2. Text Score (Оценка фрагмента):
      • Как считается: Агрегированная метрика качества. Рассчитывается как взвешенная комбинация факторов: Sentence Confidence Score, релевантность запросу (включая синонимы), формат числа (штраф за буквы), пунктуация (штраф за «?»), ранг источника.
      • Как используется: Для расчета Group Score и для финального выбора лучшей формулировки.
    3. Group Score (Оценка группы/консенсуса):
      • Как считается: Агрегация Text Scores внутри кластера. В патенте упоминаются различные методы: сумма, среднее, медиана, максимум.
      • Как используется: Для определения наиболее вероятного правильного числового ответа (консенсуса).

    Выводы

    1. Консенсус определяет факт (Достоверность): Система в первую очередь ищет консенсус в вебе (максимальный Group Score). Число, которое поддерживается наибольшим количеством качественных источников, считается наиболее вероятным ответом. Это механизм защиты от ошибок и спама.
    2. Качество формулировки определяет показ (Представление): После того как факт (число) установлен через консенсус, система выбирает наилучшую формулировку этого факта (максимальный Text Score) для показа пользователю.
    3. Грамматическая полнота критична: Наличие Sentence Confidence Score подчеркивает стремление Google предоставлять полные, связные ответы. Система штрафует обрывки фраз и предпочитает грамматически корректные предложения (с подлежащим, сказуемым и дополнением).
    4. Авторитетность источника влияет на достоверность факта: Ранг исходного документа (rank) напрямую влияет на Text Score. Ответы с лучше ранжирующихся страниц имеют преимущество.
    5. Четкие требования к форматированию: Патент явно указывает на предпочтения системы: использование цифр вместо текста (Claim 8) и отсутствие вопросительных знаков в утвердительных ответах (Claim 10).
    6. Использование синонимов при оценке ответа: Система оценивает релевантность ответа, учитывая не только прямые вхождения слов из запроса, но и их синонимы (Claim 1), что указывает на использование семантического анализа.

    Практика

    Best practices (это мы делаем)

    • Формулируйте ответы как полные предложения: Чтобы максимизировать Sentence Confidence Score, ответы на предполагаемые фактологические вопросы должны быть сформулированы как грамматически полные, независимые предложения. Например, вместо списка «Количество континентов: 7» лучше использовать предложение «В мире насчитывается 7 континентов».
    • Используйте цифры, а не слова: Всегда записывайте числа цифрами (например, «56»), а не прописью (например, «пятьдесят шесть»). Это напрямую увеличивает Text Score (Claim 8).
    • Интегрируйте термины запроса и синонимы в ответ: Для повышения Text Score убедитесь, что предложение, содержащее ответ, включает ключевые слова из запроса или их релевантные синонимы. Это помогает системе сопоставить ответ с интентом (Claim 1).
    • Используйте утвердительные формулировки: Убедитесь, что предложения, содержащие факты, не заканчиваются вопросительным знаком, так как это снижает Text Score (Claim 10).
    • Повышайте авторитетность и ранжирование страницы: Поскольку ранг исходного документа влияет на Text Score (Claim 9), общие усилия по SEO для повышения позиций страницы увеличивают вероятность выбора фактов с этой страницы для прямого ответа.

    Worst practices (это делать не надо)

    • Предоставление фактов в виде коротких фраз или списков: Избегайте ответов, которые не являются полными предложениями. Это снижает Sentence Confidence Score и может привести к тому, что система проигнорирует ваш контент в пользу конкурента с полным предложением.
    • Запись чисел прописью: Использование слов для записи чисел напрямую противоречит критериям оценки, описанным в патенте.
    • Формулирование ответа в виде вопроса: Построение предложения в виде риторического вопроса или использование вопросительного знака в конце утверждения приведет к снижению Text Score.
    • Публикация данных, противоречащих консенсусу: Предоставление числовых данных, которые сильно расходятся с общепринятыми фактами на авторитетных ресурсах, приведет к низкому Group Score.

    Стратегическое значение

    Патент раскрывает механизм работы систем извлечения фактов, лежащих в основе многих Featured Snippets. Он демонстрирует, что Google использует сложный NLP для оценки качества текста на микроуровне (грамматика, структура предложения) и применяет принцип консенсуса для верификации информации. Для SEO это означает, что структурирование контента для четкого, грамматически правильного и легко обрабатываемого (machine-readable) предоставления фактов является ключевым элементом стратегии по захвату «нулевой позиции» и трафика из голосового поиска.

    Практические примеры

    Сценарий: Оптимизация страницы под запрос «Сколько планет в Солнечной системе?»

    Плохая реализация (Низкий Text Score и Sentence Confidence Score):

    …Обсуждается статус Плутона. Планет: восемь. Это Меркурий, Венера…

    Проблемы: Ответ не является полным предложением (низкий Sentence Confidence Score). Число записано прописью (штраф Text Score).

    Хорошая реализация (Высокий Text Score и Sentence Confidence Score):

    В Солнечной системе насчитывается 8 планет. Эти планеты включают Меркурий, Венеру…

    Преимущества: Полное грамматически корректное предложение. Число записано цифрой. В предложении присутствуют ключевые термины из запроса («Солнечной системе», «планет»).

    Вопросы и ответы

    Что важнее для выбора ответа: качество отдельного предложения (Text Score) или консенсус вокруг числа (Group Score)?

    Оба критичны, так как выбор происходит в два этапа. Сначала система выбирает лучший Group Score, чтобы определить правильное число на основе консенсуса. Затем она выбирает лучший Text Score внутри этой группы, чтобы определить лучшую формулировку ответа. Вы не сможете победить, если у вас лучшая формулировка неправильного (неконсенсусного) числа.

    Как именно система определяет, является ли фрагмент полным предложением (Sentence Confidence Score)?

    Патент упоминает использование грамматического анализа, в частности, проверку наличия ключевых компонентов предложения: подлежащего (subject), сказуемого (verb) и дополнения (object) (Claim 4). На практике это реализуется с помощью сложных NLP-моделей для синтаксического разбора текста.

    Насколько сильно штрафуется использование чисел прописью вместо цифр?

    Патент не указывает конкретных весовых коэффициентов, но явно выделяет это как критерий для снижения Text Score (Claim 8). Учитывая, что цель системы — предоставить точный и однозначный числовой ответ, рекомендуется всегда использовать цифры для фактологических данных, чтобы максимизировать шансы на выбор вашего контента.

    Влияет ли авторитетность сайта (E-E-A-T) на выбор числового ответа этой системой?

    Да, влияет опосредованно. Патент указывает (Claim 9), что Text Score зависит от ранга (rank) результата поиска, из которого извлечен фрагмент. Поскольку ранг результата поиска коррелирует с авторитетностью и E-E-A-T источника, ответы с более авторитетных и высокоранжируемых сайтов получают преимущество.

    Учитывает ли система синонимы при оценке релевантности ответа запросу?

    Да, это явно указано в Claim 1. Система определяет Text Score, проверяя наличие во фрагменте не только терминов запроса, но и их синонимов. Это означает, что для оптимизации важно использовать естественный язык и релевантную терминологию вокруг факта, а не только точные ключевые слова.

    Как система обрабатывает предложения, содержащие несколько чисел?

    Патент описывает, что такое предложение может быть ассоциировано с несколькими кластерами (по одному на каждое число). Для каждого числа может быть рассчитан отдельный Text Score, учитывающий контекст именно этого числа (например, одно число может быть идентифицировано как дата и пессимизировано, а другое — как количество).

    Применяется ли этот патент только к голосовому поиску?

    Нет. Хотя патент упоминает диалоговые системы, описанный механизм универсален. Он напрямую применим к формированию Featured Snippets (блоков с ответами) в стандартной текстовой поисковой выдаче, которые также часто используются для ответов в голосовом поиске.

    Что делать, если в нише нет консенсуса по какому-либо факту?

    В ситуациях, когда есть несколько примерно равных по силе кластеров, система выберет тот, у которого Group Score выше. Если разница минимальна, выбор может быть нестабильным. В таких случаях критически важно работать над качеством формулировок (Text Score) и авторитетностью источника (Rank), чтобы повысить совокупную оценку вашего варианта.

    Почему система штрафует предложения, заканчивающиеся вопросительным знаком?

    Система ищет утвердительные факты в ответ на вопрос пользователя. Предложение, заканчивающееся вопросительным знаком, скорее всего, само является вопросом или выражает неуверенность, а не предоставляет надежный ответ, поэтому его Text Score снижается (Claim 10).

    Может ли эта система эффективно извлекать ответы из таблиц или списков?

    Патент сфокусирован на извлечении numerical sentences и подчеркивает важность полных предложений (высокий Sentence Confidence Score). Хотя текст из таблиц и списков может быть проанализирован, система предпочтет данные, представленные в виде полноценных грамматических структур. Поэтому рекомендуется дублировать ключевые факты из таблиц в основном тексте в виде полных предложений.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.