Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google проверяет, выбирает и подтверждает факты из интернета для своей базы знаний (Knowledge Graph)

    CORROBORATING FACTS EXTRACTED FROM MULTIPLE SOURCES (Подтверждение фактов, извлеченных из нескольких источников)
    • US8682913B1
    • Google LLC
    • 2014-03-25
    • 2005-03-31
    2005 EEAT и качество Knowledge Graph Патенты Google Семантика и интент

    Google использует многоэтапную систему для проверки фактов, извлеченных из интернета. Чтобы факт попал в базу знаний, он должен быть подтвержден несколькими независимыми источниками. Система оценивает распространенность атрибута и достоверность значения, учитывая авторитетность (например, PageRank) источников. Если источник доказал свою надежность, требования к другим его фактам снижаются или отменяются.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему обеспечения качества и достоверности данных в автоматизированной базе фактов (Fact Repository, аналог Knowledge Graph), которая наполняется путем извлечения информации из множества веб-источников. Он устраняет риск включения в базу ошибочных, устаревших, тривиальных или намеренно ложных фактов («gaming»). Цель — создать механизм, который подтверждает (corroborates) факты, основываясь на консенсусе и авторитетности источников.

    Что запатентовано

    Запатентована система и метод подтверждения фактов, представленных в виде пар атрибут-значение (A-V pairs). Система использует двухуровневую модель проверки: сначала оценивается значимость атрибута на основе его распространенности в источниках (First Corroboration Requirement), а затем определяется наиболее достоверное значение для этого атрибута (Second Corroboration Requirement), учитывая количество и авторитетность (Page Importance Metric, например, PageRank) подтверждающих источников. Также запатентован механизм «бутстрэппинга» доверия: источники, предоставившие много подтвержденных фактов, признаются надежными, и требования к другим их фактам снижаются.

    Как это работает

    Система работает в несколько этапов:

    • Извлечение и группировка: Факты (A-V pairs) извлекаются из веб-документов и группируются по общему субъекту (common subject).
    • Проверка Атрибута (Уровень 1): Система подсчитывает, сколько независимых источников упоминают определенный атрибут (например, «Дата рождения»). Если количество превышает порог N, атрибут проходит дальше.
    • Проверка Значения (Уровень 2): Для прошедших атрибутов система анализирует значения. Для каждого значения подсчитывается количество источников и вычисляется взвешенная оценка авторитетности (page importance-weighted score).
    • Выбор победителя: Значение принимается, только если его оценка значительно (на predefined margin) превышает оценки конкурентных значений, обеспечивая четкий консенсус.
    • Бутстрэппинг доверия: Если источник уже предоставил много принятых фактов, он считается надежным, и его оставшиеся факты могут быть приняты по сниженным требованиям или автоматически.

    Актуальность для SEO

    Высокая. Описанные механизмы являются фундаментальными для построения и поддержания качества Knowledge Graph. В условиях роста объемов контента и дезинформации, системы автоматизированной проверки фактов на основе консенсуса и авторитетности источников критически важны для Google.

    Важность для SEO

    Патент имеет высокое значение (8/10) для SEO, особенно в области Entity SEO и управления информацией в Knowledge Panel. Он демонстрирует, что Google не полагается на один источник (даже официальный сайт), а ищет подтверждение фактов в независимых и авторитетных источниках. Это подчеркивает критическую важность последовательного распространения точной информации об организации на авторитетных сторонних ресурсах.

    Детальный разбор

    Термины и определения

    Accepted A-V pair (Принятая пара A-V)
    Пара атрибут-значение, которая удовлетворила всем требованиям подтверждения и была принята в базу фактов.
    Attribute-Value Pair (A-V Pair) (Пара Атрибут-Значение)
    Структура данных для представления факта. Например, Атрибут=»Столица», Значение=»Варшава».
    Common Subject (Общий субъект)
    Сущность (человек, место, организация), к которой относятся извлеченные факты.
    Corroboration Requirement (Требование подтверждения)
    Критерии, которым должен удовлетворять факт для его принятия в базу. Включает First Corroboration Requirement (для атрибута) и Second Corroboration Requirement (для значения).
    Fact Repository (База фактов)
    Хранилище подтвержденной фактической информации (аналог Knowledge Graph). Сущности представлены как Objects.
    Page Importance Metric (Метрика важности страницы)
    Оценка авторитетности, популярности или репутации исходного документа. Патент явно упоминает PageRank в качестве примера.
    Page importance-weighted score (Оценка, взвешенная по важности страницы)
    Метрика для оценки достоверности значения. Рассчитывается как сумма или среднее значение Page Importance Metrics источников, поддерживающих данное значение.
    Predefined Margin (Предопределенный отрыв)
    Минимальная разница в оценках между лучшим значением и его конкурентами, необходимая для принятия лучшего значения. Обеспечивает «однобокий» (lopsided) консенсус.
    Source (Источник)
    Документ (например, веб-страница), из которого был извлечен факт.
    Source Count Score (Оценка количества источников)
    Количество независимых источников, подтверждающих атрибут (First Source Count Score) или конкретное значение (Second Source Count Score).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод подтверждения фактов.

    1. Система идентифицирует множество исходных документов, содержащих факты об общем субъекте.
    2. Из них извлекаются пары атрибут-значение (A-V pairs).
    3. Происходит подтверждение факта путем определения, соответствует ли конкретная пара A-V предопределенным требованиям.
    4. В ответ на подтверждение обновляется статус этой пары в Fact Repository.
    5. Ключевой аспект: Подтверждение включает в себя определение того, что атрибут пары соответствует First Corroboration Requirement, И что сама пара (атрибут+значение) соответствует Second Corroboration Requirement.

    Это определяет двухуровневую систему проверки: сначала проверяется атрибут, затем значение.

    Claim 7 (Независимый пункт): Описывает метод подтверждения с акцентом на механизм оценки.

    1. Идентифицируются источники и извлекаются A-V pairs.
    2. Процесс подтверждения включает:
      • Идентификацию кандидата в атрибуты.
      • Вычисление первой оценки (first score) на основе атрибута.
      • Определение, что первая оценка превышает первый порог.
      • Идентификацию кандидата в значения для этого атрибута.
      • Вычисление второй оценки (second score) на основе атрибута и значения.
      • Определение, что вторая оценка превышает вторые оценки других кандидатов в значения по крайней мере на predefined margin.
    3. В ответ на подтверждение обновляется статус соответствующей пары A-V в Fact Repository.

    Этот пункт детализирует, как работают требования подтверждения: через сравнение оценок с порогами и обеспечение значительного отрыва победителя.

    Где и как применяется

    Изобретение применяется на этапе обработки данных для наполнения базы знаний (Knowledge Graph).

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются исходные документы (Sources) и вычисляются их метрики авторитетности (Page Importance Metric, например, PageRank).

    INDEXING – Индексирование и извлечение признаков
    Основное применение патента. Это не стандартное индексирование веб-страниц, а процесс обработки данных для Fact Repository.

    1. Извлечение фактов: Импортер (Importer) извлекает A-V pairs из документов.
    2. Группировка: Факты группируются по общему субъекту (Common Subject).
    3. Подтверждение (Corroboration): Менеджер репозитория (Repository Manager) применяет описанный алгоритм для проверки фактов с использованием Source Count Scores и Page Importance Metrics.
    4. Сохранение: Подтвержденные факты (Accepted A-V pairs) сохраняются в Fact Repository и индексируются в Fact Index.

    RANKING / METASEARCH
    Подтвержденные факты из Fact Repository используются на этих этапах для формирования ответов на фактические запросы и отображения Knowledge Panels.

    Входные данные:

    • Извлеченные A-V pairs.
    • Идентификаторы источников (URL).
    • Page Importance Metrics (например, PageRank) для каждого источника.

    Выходные данные:

    • Набор подтвержденных фактов (Accepted A-V pairs) в Fact Repository.
    • Обновленный статус фактов (принято/отклонено).

    На что влияет

    • Типы контента и форматы: Наибольшее влияние оказывается на структурированные и полуструктурированные данные, а также текст, из которого можно извлечь четкие фактические утверждения (пары атрибут-значение).
    • Специфические запросы: Влияет на информационные запросы, где пользователь ищет конкретный факт (например, «возраст Илона Маска», «столица Польши», «дата основания Google»).
    • Конкретные ниши: Влияет на все тематики, представленные в Knowledge Graph, включая бренды, локальный бизнес, биографии, продукты, медиа. Критически важно для YMYL-тематик, где точность фактов имеет первостепенное значение.

    Когда применяется

    • Временные рамки: Алгоритм применяется в процессе импорта новых фактов в Fact Repository или при периодической переоценке уже хранящихся фактов для поддержания их актуальности и точности.
    • Условия работы: Применяется, когда система обнаруживает факты об одном и том же субъекте в нескольких источниках, что делает возможным процесс подтверждения через сравнение.

    Пошаговый алгоритм

    Процесс подтверждения фактов можно разделить на три фазы.

    Фаза 1: Первичное подтверждение (Initial Corroboration)

    1. Идентификация источников и субъекта: Определяются источники, содержащие факты об общем субъекте.
    2. Извлечение фактов: Извлекаются пары атрибут-значение (A-V pairs).
    3. Оценка Атрибутов (Уровень 1): Для каждого атрибута вычисляется First Source Count Score (количество независимых источников, упоминающих этот атрибут).
    4. Фильтрация Атрибутов: Отбираются атрибуты, чья оценка превышает первый порог (N).
    5. Оценка Значений (Уровень 2): Для отобранных атрибутов анализируются их значения. Для каждого значения вычисляется Second Source Count Score и Page importance-weighted score (на основе PageRank источников).
    6. Фильтрация Значений: Отбираются значения, чья Second Source Count Score превышает второй порог (M).
    7. Выбор Победителя: Среди отобранных значений выбирается то, чья Page importance-weighted score превышает оценки конкурентов на predefined margin (например, по формуле

    Выводы

    1. Консенсус как основа истины: Google не полагается на один источник для определения фактов. Факт должен быть подтвержден несколькими независимыми источниками (Source Count Score), чтобы считаться достоверным.
    2. Авторитетность определяет вес голоса: При наличии противоречивых фактов система отдает предпочтение тому значению, которое поддерживается более авторитетными источниками. Page Importance Metric (PageRank) используется для взвешивания голосов.
    3. Требование явного консенсуса (Lopsided Consensus): Недостаточно просто иметь большинство голосов. Победившее значение должно значительно опережать конкурентов (predefined margin). Это защищает систему от принятия фактов в спорных или неоднозначных ситуациях.
    4. Двухуровневая проверка: Система сначала проверяет, достаточно ли распространен сам атрибут (Уровень 1), и только потом проверяет его значение (Уровень 2). Это позволяет отсеивать тривиальные или слишком редкие атрибуты.
    5. Бутстрэппинг доверия (Trust Bootstrapping): Доверие можно заслужить. Источники, которые постоянно предоставляют точные и подтвержденные факты, классифицируются как надежные. В дальнейшем факты из этих источников могут приниматься автоматически или по упрощенной процедуре. Это позволяет масштабировать сбор фактов.
    6. Защита от манипуляций («Anti-Gaming»): Требование независимости источников и учет PageRank направлены на борьбу с попытками манипулирования базой фактов через создание множества низкокачественных страниц.

    Практика

    Best practices (это мы делаем)

    Рекомендации направлены на оптимизацию сущностей (Entity SEO) и обеспечение корректного попадания информации в Knowledge Graph.

    • Обеспечение абсолютной консистентности ключевых фактов: Убедитесь, что основные данные о вашей сущности (Название, Адрес, Телефон (NAP), дата основания, ключевые лица и т.д.) абсолютно идентичны на всех платформах: официальный сайт, Google Business Profile, Wikipedia, крупные каталоги, социальные сети, отраслевые ресурсы. Это помогает максимизировать Source Count Scores.
    • Распространение фактов на авторитетных ресурсах (Digital PR): Активно работайте над тем, чтобы ключевые факты о компании (например, запуск нового продукта, смена CEO, финансовые показатели) публиковались на сайтах с высоким Page Importance Metric (PageRank). Пресс-релизы в авторитетных СМИ, интервью, авторитетные отраслевые обзоры имеют больший вес в подтверждении фактов.
    • Использование структурированных данных (Schema.org): Внедряйте разметку Schema.org на официальном сайте, чтобы четко определить пары атрибут-значение. Это облегчает извлечение фактов (работу Importer) и позиционирует ваш сайт как надежный источник данных о себе.
    • Мониторинг и исправление внешних данных: Регулярно отслеживайте информацию о вашей компании на сторонних сайтах (особенно авторитетных). При обнаружении ошибок стремитесь их исправить, так как неверные данные на авторитетном сайте могут перевесить правильные данные на менее авторитетных ресурсах.
    • Построение репутации источника: Если ваш сайт является источником уникальных фактических данных (например, отраслевой портал, база данных), сосредоточьтесь на качестве и точности. Достижение статуса «высоконадежного источника» позволит вашим фактам попадать в Knowledge Graph автоматически (Фаза 3 алгоритма).

    Worst practices (это делать не надо)

    • Несогласованность данных: Наличие разных адресов, дат или названий на разных платформах затрудняет подтверждение фактов, так как система не может достичь явного консенсуса (predefined margin).
    • Манипуляция фактами через спам-сайты: Попытки создать искусственный консенсус путем публикации фактов на множестве низкокачественных сайтов или PBN неэффективны. Алгоритм учитывает Page Importance Metric (PageRank) и требует независимости источников.
    • Игнорирование ошибок в авторитетных источниках: Оставление без внимания неверной информации в Wikipedia, крупных СМИ или государственных реестрах может привести к тому, что Google примет именно эту информацию как факт из-за высокого авторитета источника.

    Стратегическое значение

    Патент подтверждает стратегию Google по построению семантической сети знаний, основанной на машинном анализе веба, но с сильным акцентом на авторитетность и консенсус. Для SEO это означает, что управление сущностью (Entity Management) выходит за рамки оптимизации собственного сайта. Digital PR и работа с внешними авторитетными площадками становятся не просто инструментом построения ссылок, а критически важным механизмом для валидации фактов о бизнесе в глазах Google.

    Практические примеры

    Сценарий: Подтверждение даты основания компании

    Компания «Ромашка» хочет, чтобы в Knowledge Panel отображалась дата основания: 1995 год.

    1. Извлечение: Google извлекает атрибут «Дата основания» из 10 источников (Порог N пройден).
    2. Анализ значений и источников:
      • Значение «1995»: 5 источников. Средний PageRank низкий (официальный сайт, 2 блога, 2 каталога).
      • Значение «2001»: 3 источника. Средний PageRank высокий (статья в Forbes, отраслевой реестр, Wikipedia).
    3. Расчет оценок: Система рассчитывает Page importance-weighted score. Несмотря на меньшее количество источников, оценка для «2001» оказывается значительно выше из-за высокого PageRank источников.
    4. Результат: Google принимает «2001» как дату основания.
    5. Действия SEO-специалиста: Необходимо не просто добавить «1995» на большее количество сайтов, а исправить информацию в Forbes, Wikipedia и реестре, или добиться публикации корректной даты (1995) в источниках сопоставимого авторитета, чтобы изменить баланс взвешенных оценок.

    Вопросы и ответы

    Как Google определяет, какой факт верный, если источники противоречат друг другу?

    Google использует систему взвешенных оценок. Он не просто считает количество источников, поддерживающих тот или иной факт, но и учитывает их авторитетность (Page Importance Metric, например, PageRank). Факт, поддержанный меньшим количеством, но более авторитетных источников, может победить. Кроме того, для принятия факта требуется, чтобы его оценка значительно превышала оценки конкурентов (predefined margin).

    Имеет ли значение PageRank в 2025 году в контексте этого патента?

    Да, имеет. Патент явно указывает PageRank как пример Page Importance Metric, используемой для взвешивания голосов источников при подтверждении фактов. Хотя внутренние механизмы Google эволюционировали, базовая концепция использования метрики авторитетности источника для оценки достоверности извлеченных из него фактов остается критически важной для Knowledge Graph.

    Может ли информация с моего официального сайта попасть в Knowledge Panel, если ее нет больше нигде?

    Это маловероятно для большинства сайтов. Патент описывает, что для подтверждения факта требуется несколько независимых источников (преодоление порогов N и M). Исключение составляют только сайты, которые уже классифицированы как «высоконадежные источники» (Фаза 3 алгоритма), например, крупные государственные порталы или мировые базы данных, чьи факты могут приниматься автоматически.

    Что такое «бутстрэппинг доверия» (Trust Bootstrapping) в этом патенте?

    Это механизм повышения доверия к источнику на основе его предыдущей точности. Если система приняла много фактов из определенного источника (превышен порог P), она начинает считать этот источник высоконадежным. После этого оставшиеся факты из данного источника могут приниматься автоматически, без стандартной процедуры подтверждения.

    Как этот патент влияет на локальное SEO и Google Business Profile (GBP)?

    Он напрямую влияет на данные, которые Google считает достоверными для локального бизнеса. GBP является одним из источников, но не единственным. Для подтверждения NAP (Name, Address, Phone), часов работы и других атрибутов Google ищет подтверждение в каталогах, СМИ, на картах и других сайтах. Несоответствия между GBP и другими авторитетными источниками могут привести к игнорированию данных из GBP.

    Что важнее: количество сайтов, упоминающих факт, или их качество?

    Важны оба аспекта. Необходимо преодолеть пороговые значения по количеству источников (пороги N и M), чтобы факт вообще рассматривался. Однако при разрешении конфликтов и финальном выборе значения решающую роль играет качество (авторитетность) источников, выраженное через Page importance-weighted score.

    Как бороться с неверной информацией о моем бренде в Knowledge Panel?

    Необходимо определить источник, который Google использует для этого факта. Затем нужно либо исправить информацию в этом источнике (если он авторитетный), либо обеспечить публикацию корректной информации на множестве других сайтов, чей суммарный авторитет значительно превысит авторитет источника ошибки, чтобы сместить консенсус.

    Что означает требование «предопределенного отрыва» (predefined margin)?

    Это означает, что Google ищет явный, «однобокий» консенсус. Если оценки двух разных значений близки (например, 51% против 49%), система, скорее всего, не примет ни одно из них, так как отрыв недостаточен. Это защищает базу фактов от включения спорной или неоднозначной информации.

    Учитывает ли система синонимы при подсчете фактов?

    Да, патент упоминает возможность идентификации синонимичных или эквивалентных атрибутов (например, «Дата рождения» и «День рождения») и значений. При расчете Source Count Scores они могут группироваться вместе, что подчеркивает важность семантического понимания данных.

    Какова роль Schema.org в контексте этого патента?

    Schema.org помогает системе на этапе извлечения фактов (Importer) более точно идентифицировать пары атрибут-значение на вашем сайте. Хотя сама по себе разметка не гарантирует принятие факта (так как требуется подтверждение из нескольких источников), она повышает вероятность того, что ваш сайт будет корректно учтен в процессе оценки консенсуса.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.