Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google динамически выбирает и ранжирует факты об объектах в зависимости от запроса пользователя (Основы Knowledge Graph)

    BROWSEABLE FACT REPOSITORY (Просматриваемый репозиторий фактов)
    • US7774328B2
    • Google LLC
    • 2010-08-10
    • 2006-02-17
    2006 Knowledge Graph Индексация Патенты Google Семантика и интент

    Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности традиционных баз знаний и поисковых систем, которые возвращают целые статьи или документы в ответ на запрос. Это перекладывает на пользователя задачу анализа всего документа для поиска конкретных фактов. Система устраняет неспособность поиска динамически реорганизовывать и выделять информацию, наиболее релевантную конкретному намерению пользователя в рамках определенной темы.

    Что запатентовано

    Запатентована система и метод для поиска и просмотра структурированной информации в Fact Repository. Система хранит факты как дискретные единицы (Атрибут-Значение), связанные с Objects (Сущностями). Ключевое изобретение — это механизм динамического выбора и ранжирования того, какие именно факты, связанные с объектом, должны быть показаны в результатах поиска, основываясь на их релевантности конкретному запросу пользователя.

    Как это работает

    Система работает в двух режимах: офлайн и онлайн.

    Офлайн (Построение базы): Компоненты Importers извлекают факты из исходных документов и связывают их с Objects. Компоненты Janitors очищают, нормализуют данные (например, стандартизируют атрибуты) и объединяют дубликаты фактов и объектов. Для каждого факта рассчитываются метрики Confidence (достоверность) и Importance (важность).

    Онлайн (Обработка запроса): Service Engine получает запрос и находит релевантные объекты. Оценка объекта рассчитывается на основе агрегированной релевантности его фактов. Затем система независимо оценивает факты этих объектов, используя релевантность запросу, Confidence и Importance. В результатах поиска отображаются топовые объекты вместе с динамически выбранным набором их наиболее релевантных фактов.

    Актуальность для SEO

    Чрезвычайно высокая. Этот патент закладывает основу для перехода Google от поиска документов к поиску сущностей (Entity Search) и является фундаментальным для работы Knowledge Graph. Механизм динамического выбора фактов на основе запроса сегодня повсеместно используется в Панелях Знаний (Knowledge Panels), расширенных сниппетах и ответах на информационные запросы.

    Важность для SEO

    Патент имеет критическое значение (9.5/10) для современной SEO-стратегии. Он описывает базовые механизмы того, как Google организует и представляет информацию о сущностях. Понимание того, как факты извлекаются (Importers), нормализуются (Janitors) и ранжируются (на основе Confidence и Importance), жизненно важно для оптимизации видимости бренда или сущности в Knowledge Graph и связанных функциях поиска.

    Детальный разбор

    Термины и определения

    Attribute (Атрибут)
    Тип факта, связанного с объектом (например, «Население», «Дата рождения», «Автор»).
    Confidence Level (Уровень уверенности/Достоверность)
    Метрика факта, указывающая на вероятность того, что факт верен.
    Fact (Факт)
    Отдельная единица информации в репозитории. Состоит из Атрибута и Значения и связан с одним Объектом. Хранится независимо.
    Fact Repository (Репозиторий фактов)
    База данных, хранящая коллекцию фактов, извлеченных из множества источников. Основа для Knowledge Graph.
    Importer (Импортер)
    Программный модуль, который обрабатывает документы, извлекает из них факты и определяет объекты, с которыми эти факты связаны.
    Importance Level (Уровень важности)
    Метрика факта, указывающая на релевантность факта объекту по сравнению с другими фактами того же объекта. Мера того, насколько факт важен для понимания сущности.
    Janitor (Уборщик/Нормализатор)
    Программный модуль, обрабатывающий факты после извлечения. Выполняет очистку данных, нормализацию (стандартизацию атрибутов и значений), объединение дубликатов объектов и фактов.
    Name Fact (Факт имени)
    Специализированный факт, который передает имя сущности, представленной Object ID.
    Object (Объект/Сущность)
    Представление сущности реального мира (человек, место, компания и т.д.) в репозитории. Определяется набором фактов, связанных общим Object ID.
    Property Fact (Факт свойства)
    Специализированный факт, который передает утверждение или сводную информацию об объекте (например, краткое описание).
    Service Engine (Сервисный движок)
    Интерфейс для запросов к репозиторию. Обрабатывает запросы, оценивает соответствующие объекты и факты и возвращает результаты.
    Value (Значение)
    Конкретное значение атрибута (например, для атрибута «Население» значением может быть «1,306,313,812»). Может содержать текст любого объема, числа или ссылки на другие объекты.

    Ключевые утверждения (Анализ Claims)

    Claim 1 и Claim 14 (Независимые пункты): Описывают основной метод обеспечения возможности просмотра репозитория фактов.

    1. Система получает поисковый запрос.
    2. В ответ на запрос извлекается множество релевантных объектов из Fact Repository (факты в котором предварительно извлечены из документов). Каждый объект включает множество фактов.
    3. Извлеченные объекты отображаются, упорядоченные по релевантности поисковому запросу.
    4. Для каждого извлеченного объекта отображается:
      • Множество фактов (подмножество всех фактов объекта).
      • Критически важно: Отображаемые факты упорядочиваются по их релевантности поисковому запросу (rank-ordered by relevance to the search query).
      • Ссылка на страницу сведений об объекте (object detail page).
      • Поисковая ссылка (search link), связанная с производным поисковым запросом, основанным на фактах этого объекта.

    Ядром изобретения является не просто хранение фактов, а динамическое ранжирование и отображение подмножества фактов, наиболее релевантных текущему запросу пользователя, что позволяет динамически формировать представление объекта.

    Claim 2 (Зависимый): Уточняет, что каждый факт хранится как отдельный элемент данных (separate item of data) в репозитории.

    Claim 5 (Зависимый): Уточняет природу поисковой ссылки.

    Система отображает attribute search link (поисковая ссылка по атрибуту). При выборе этой ссылки выполняется запрос на поиск других объектов, у которых есть факт с таким же атрибутом (например, найти все объекты с атрибутом «Дата рождения»).

    Claim 6 (Зависимый): Уточняет другой тип поисковой ссылки.

    Система отображает value search link (поисковая ссылка по значению). При выборе этой ссылки выполняется запрос на поиск других объектов, у которых есть факт с таким же значением (например, найти все объекты со значением «12 мая 1907»).

    Claim 7 (Зависимый): Уточняет третий тип поисковой ссылки.

    Система отображает attribute-value search link. При выборе этой ссылки выполняется запрос на поиск других объектов, у которых есть факт с таким же атрибутом И таким же значением (например, найти все объекты с атрибутом «Дата рождения» и значением «12 мая 1907»).

    Где и как применяется

    Изобретение затрагивает практически все этапы работы поисковой системы, формируя инфраструктуру для Entity Search.

    CRAWLING – Сканирование и Сбор данных
    На этом этапе собираются исходные документы (Sources), которые будут использоваться для извлечения фактов.

    INDEXING – Индексирование и извлечение признаков
    Это ключевой этап для создания Fact Repository.

    1. Извлечение фактов: Importers анализируют документы для извлечения фактов и определения связанных с ними объектов.
    2. Нормализация и Очистка: Janitors обрабатывают факты, стандартизируют атрибуты и значения, объединяют дублирующиеся факты и объекты (Entity Resolution).
    3. Расчет метрик: Вычисляются Confidence Level и Importance Level для каждого факта.
    4. Хранение и Индексация: Факты сохраняются в Fact Repository и индексируются (Index) для быстрого поиска по терминам в атрибутах и значениях.

    RANKING / METASEARCH – Ранжирование и Метапоиск
    Service Engine использует Fact Repository для ответа на запрос.

    1. Поиск Объектов: Система ищет объекты, чьи факты релевантны запросу.
    2. Оценка Объектов: Рассчитывается Object Score на основе совокупной релевантности фактов.
    3. Динамический выбор Фактов: Для топовых объектов система рассчитывает индивидуальные оценки фактов (Fact Scores) на основе их релевантности запросу и метрик.
    4. Сборка Выдачи: Результаты собираются динамически. Это проявляется в виде Knowledge Panels, обогащенных сниппетов или каруселей сущностей.

    Входные данные:

    • Поисковый запрос пользователя.
    • Fact Repository (Объекты, Факты, Атрибуты, Значения).
    • Метрики фактов (Confidence, Importance).
    • Индекс фактов.

    Выходные данные:

    • Ранжированный список объектов.
    • Для каждого объекта — динамически выбранный и отсортированный набор релевантных фактов.

    На что влияет

    • Специфические запросы: Наибольшее влияние на информационные запросы и запросы, связанные с сущностями (имена людей, названия компаний, места и т.д.).
    • Форматы контента: Влияет на формирование блоков с прямыми ответами, Панелей Знаний (Knowledge Panels) и других элементов выдачи, основанных на структурированных данных.
    • Конкретные ниши: Критически важно для любых тематик, где важны факты и данные (биографии, финансы, география, медиа, продукты, локальный бизнес).

    Когда применяется

    • Условия работы: Алгоритм применяется, когда поисковая система идентифицирует в запросе намерение найти информацию об объектах, присутствующих в Fact Repository.
    • Триггеры активации: Наличие терминов запроса в атрибутах или значениях фактов, хранящихся в репозитории.
    • Временные рамки: Процессы извлечения и нормализации работают офлайн. Процесс ранжирования и динамического выбора фактов работает в реальном времени при запросе.

    Пошаговый алгоритм

    Процесс А: Создание Репозитория (Офлайн)

    1. Извлечение Фактов: Importers обрабатывают исходные документы. Извлекаются факты (пары Атрибут-Значение) и идентифицируются связанные с ними Объекты (Object IDs).
    2. Нормализация и Очистка: Janitors обрабатывают извлеченные данные. Происходит стандартизация форматов, объединение синонимичных атрибутов (например, «День Рождения» и «Дата Рождения» становятся «Birthdate») и значений, а также слияние дублирующихся фактов и объектов.
    3. Расчет Метрик: Система вычисляет Confidence Level (достоверность факта) и Importance Level (важность факта для понимания объекта).
    4. Индексация: Содержимое фактов (атрибуты и значения) индексируется. Индекс связывает термины с соответствующими фактами и объектами.

    Процесс Б: Обработка Запроса (Реал-тайм)

    1. Получение Запроса: Service Engine получает запрос пользователя.
    2. Поиск Кандидатов: Система ищет в индексе объекты, у которых есть факты, содержащие термины запроса.
    3. Оценка Фактов (Fact Scoring): Для объектов-кандидатов система оценивает их индивидуальные факты. Оценка факта базируется на наличии терминов запроса (в атрибуте или значении), а также корректируется метриками Confidence и Importance.
    4. Оценка Объектов (Object Scoring): Вычисляется оценка релевантности для каждого объекта. В патенте упоминается, что это может быть линейная комбинация оценок релевантности каждого из его фактов.
    5. Ранжирование Объектов: Объекты сортируются по их итоговой оценке.
    6. Выбор и Сортировка Фактов: Для топовых объектов выбирается N лучших фактов. Они сортируются на основе их оценки релевантности запросу.
    7. Генерация Выдачи: Система отображает ранжированные объекты, сопровождая их выбранными и отсортированными фактами, а также генерирует ссылки для дальнейшей навигации (attribute/value search links).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст из исходных документов (Source Documents), из которого извлекаются Значения (Values) фактов.
    • Структурные факторы: Importers могут использовать структуру документа (например, таблицы, списки, разметку) для идентификации Атрибутов и Значений.
    • Технические факторы: Идентификаторы источников (например, URL), используемые для отслеживания происхождения факта (Source) и потенциально для расчета Confidence.
    • Мультимедиа факторы: Упоминается возможность ассоциации медиа-файлов (изображения, аудио) с объектами.

    Какие метрики используются и как они считаются

    Система использует несколько ключевых метрик для оценки как объектов, так и фактов:

    • Relevance Score (Оценка Релевантности Факта): Оценка того, насколько факт соответствует запросу. Она основывается на наличии терминов запроса в Атрибуте или Значении факта.
      • Term Weighting: В патенте упоминается возможность использования модели весов терминов на основе TF-IDF (более редкие термины получают более высокие оценки).
      • Дополнительные факторы: Оценка корректируется на основе появления последовательных терминов запроса в факте, появления терминов в том же порядке, что и в запросе, точного совпадения всего запроса, а также появления терминов запроса в Name Fact.
    • Confidence Level (Уровень Уверенности): Метрика, указывающая на вероятность корректности факта. Патент не детализирует расчет, но упоминает, что при объединении дублирующихся фактов их источники объединяются.
    • Importance Level (Уровень Важности): Метрика, определяющая, насколько факт важен для понимания объекта по сравнению с другими фактами этого объекта.
    • Fact Score (Итоговая Оценка Факта): Оценка релевантности факта, скорректированная с учетом его Confidence Level и Importance Level.
    • Object Score (Оценка Объекта): Оценка релевантности объекта запросу. В патенте описывается как линейная комбинация оценок релевантности (Relevance Scores) его фактов.

    Выводы

    1. Приоритет сущностей и фактов над документами: Патент фиксирует фундаментальный сдвиг от хранения неструктурированных статей к организации информации в виде дискретных фактов, связанных с объектами (сущностями). Это архитектурная основа для Entity-First подхода и Knowledge Graph.
    2. Динамическая релевантность фактов: Ключевая инновация заключается в том, что набор фактов, отображаемых для объекта, не является статичным. Он динамически выбирается и ранжируется в зависимости от конкретного запроса пользователя. Объект представляется пользователю через призму его текущего интента.
    3. Независимая оценка и хранение фактов: Факты хранятся и оцениваются независимо на основе их релевантности запросу, достоверности (Confidence) и важности (Importance). Это позволяет системе гибко собирать ответы.
    4. Нормализация как ключевой процесс: Работа модулей Janitors по нормализации атрибутов и значений, а также объединению дубликатов (Entity Resolution) критически важна для качества репозитория. Согласованность данных в сети напрямую влияет на качество Fact Repository.
    5. Инфраструктура для связанности данных: Механизмы поисковых ссылок (по атрибуту, значению, паре атрибут-значение) обеспечивают связанность данных в репозитории, позволяя пользователям перемещаться между связанными объектами и фактами (Pivoting).

    Практика

    Best practices (это мы делаем)

    • Обеспечение легкого извлечения фактов (для Importers): Структурируйте ключевую информацию на веб-страницах так, чтобы Importers могли легко извлекать факты. Используйте семантический HTML (таблицы для данных, списки определений DL/DT/DD для пар атрибут-значение) и микроразметку Schema.org для явного указания фактов о сущностях.
    • Повышение Достоверности (Confidence): Обеспечьте максимальную согласованность (консистентность) ключевых фактов о вашей сущности (Название, Адрес, Дата основания, CEO, Свойства продукта) на всех авторитетных площадках в интернете (официальный сайт, Википедия, отраслевые каталоги, СМИ). Это помогает в процессе нормализации (Janitors) и повышает Confidence Level фактов.
    • Расширение покрытия атрибутов: Создавайте контент, который всесторонне описывает сущность и покрывает множество ее атрибутов. Поскольку система динамически выбирает факты на основе запроса, более широкое покрытие увеличивает вероятность того, что у вас будет релевантный факт для разнообразных запросов.
    • Повышение Важности (Importance) через E-E-A-T: Развивайте общую авторитетность сущности и ее источников. Хотя механизм расчета Importance не раскрыт, факты, связанные с более авторитетными сущностями и подтвержденные экспертными источниками, с большей вероятностью будут считаться важными и достоверными.
    • Оптимизация сводной информации (Property Facts): Предоставляйте краткие, четкие описания сущности (например, первый абзац статьи или поле description в разметке). Они могут быть использованы как Property Fact (сводная информация) и отображаться при общих запросах о сущности.

    Worst practices (это делать не надо)

    • Публикация противоречивой информации: Размещение разных версий фактов на разных ресурсах (например, разные даты основания компании или разные характеристики продукта). Это затрудняет работу Janitors, снижает Confidence Level и может привести к игнорированию фактов или ошибкам в Knowledge Panel.
    • Скрытие фактов в неструктурированном контенте: Размещение важной фактической информации внутри изображений, сложного JavaScript или длинных блоков неструктурированного текста затрудняет ее извлечение Importers.
    • Игнорирование Entity SEO и структурированных данных: Фокусировка исключительно на традиционном keyword-based SEO без учета того, как ваша организация или контент представлены в виде объектов и фактов в Fact Repository (Knowledge Graph).
    • Манипуляции с фактами: Попытки внедрить ложные факты через недостоверную разметку или спам-ресурсы. Система кросс-верифицирует данные для расчета Confidence.

    Стратегическое значение

    Этот патент является одним из foundational-документов для стратегии Entity-First SEO. Он подтверждает, что успех в современном поиске зависит не только от контента страниц, но и от того, насколько хорошо Google понимает, извлекает и верифицирует факты о вашей сущности. Стратегия должна быть направлена на управление представлением сущности в Fact Repository (Knowledge Graph), обеспечивая точность, полноту и авторитетность связанных с ней фактов.

    Практические примеры

    Сценарий: Оптимизация профиля компании для динамического отображения фактов

    1. Цель: Обеспечить, чтобы при разных запросах о компании отображались наиболее релевантные факты в Панели Знаний.
    2. Действия (Обеспечение Extraction и Confidence):
      • На официальном сайте в разделе «О нас» четко структурируется информация: используется список определений для указания Года основания, Штаб-квартиры, CEO, Отрасли. Применяется разметка Schema.org/Organization с этими же данными.
      • Информация в профилях соцсетей, Википедии и бизнес-каталогах (Google Business Profile, Crunchbase) сверяется и приводится в полное соответствие с официальным сайтом.
    3. Результат (Динамический выбор фактов):
      • Запрос 1: «Кто CEO [Компания]». Система извлекает объект [Компания]. Факт «CEO: Имя Фамилия» имеет максимальную релевантность запросу и отображается.
      • Запрос 2: «Где находится [Компания]». Система извлекает тот же объект. Факт «Штаб-квартира: Город, Страна» теперь имеет максимальную релевантность и отображается.
      • Запрос 3: «[Компания]». Система извлекает объект. Отображаются факты с наивысшим общим Importance Level (например, Property Fact (описание), Отрасль, Цена акции).

    Вопросы и ответы

    Что такое Fact Repository, описанный в патенте, и как он связан с Knowledge Graph?

    Fact Repository — это база данных, которая хранит информацию в виде дискретных фактов (Атрибут-Значение), связанных с конкретными объектами (сущностями). Этот патент описывает раннюю версию и фундаментальные принципы работы системы, которая эволюционировала в Google Knowledge Graph. Это способ организации мировой информации, выходящий за рамки простого индексирования веб-страниц.

    В чем основное отличие этого подхода от традиционного поиска по ключевым словам?

    В традиционном поиске система ищет документы, содержащие ключевые слова, и возвращает эти документы. Описанный подход ищет объекты в Fact Repository и динамически собирает ответ, выбирая наиболее релевантные факты этого объекта для конкретного запроса. Это позволяет Google отвечать на вопросы напрямую (например, в Knowledge Panel), а не просто давать ссылки на документы.

    Что такое Importers и Janitors и как SEO-специалист может повлиять на их работу?

    Importers извлекают факты из контента, а Janitors очищают и нормализуют их. SEO-специалист может помочь Importers, предоставляя информацию в четко структурированном виде (семантический HTML, Schema.org). Помочь Janitors можно, обеспечивая максимальную согласованность (консистентность) фактической информации о сущности на разных сайтах, что упрощает нормализацию и повышает достоверность данных.

    Патент упоминает метрики Confidence и Importance. Что они означают для SEO?

    Confidence (Достоверность) — это уверенность системы в корректности факта. Для SEO это означает необходимость верификации фактов через авторитетные и согласованные источники. Importance (Важность) — это то, насколько факт важен для понимания объекта в целом. Это связано с общей авторитетностью сущности. Оба показателя влияют на то, будет ли факт показан в выдаче.

    Почему для одного и того же объекта (например, компании) в выдаче показываются разные факты?

    Это ключевая особенность патента. Система не имеет статического набора фактов для отображения. Она динамически ранжирует все факты объекта на основе их релевантности конкретному запросу пользователя. Если вы ищете «размер компании», факты о сотрудниках будут более релевантны и показаны выше, чем факты о ее CEO.

    Как система рассчитывает оценку релевантности факта?

    Оценка основывается на наличии терминов запроса в атрибуте или значении факта. Патент упоминает использование весов на основе TF-IDF (редкие слова важнее) и учет дополнительных сигналов, таких как последовательность слов, точное совпадение запроса, а также корректировку на основе Confidence и Importance факта.

    Как этот патент влияет на стратегию создания контента?

    Он подчеркивает важность создания всестороннего контента, который покрывает множество атрибутов и фактов о целевой сущности. Чем полнее вы опишете сущность в структурированном виде, тем больше вероятность, что Fact Repository будет содержать релевантные факты для широкого спектра пользовательских запросов.

    Что делать, если Google показывает неверные факты о моей сущности в Knowledge Panel?

    Это указывает на проблему на этапе извлечения (Importers) или нормализации (Janitors), возможно, из-за низкого Confidence. Необходимо найти источник неверной информации и исправить его. Также следует убедиться, что официальный сайт предоставляет верную информацию в легко извлекаемом формате (например, через Schema.org) для повышения достоверности правильных фактов.

    Влияет ли этот механизм на локальный поиск?

    Да, очень сильно. Локальные бизнесы являются объектами в Fact Repository, а их адрес, часы работы, телефон и услуги — это факты. Динамическое отображение этих фактов в ответ на локальные запросы (например, «часы работы [ресторан]») напрямую управляется механизмами, описанными в этом патенте.

    Актуальны ли методы ранжирования (линейная комбинация, TF-IDF), упомянутые в патенте 2006 года?

    Хотя базовые принципы релевантности (такие как TF-IDF) все еще играют роль, современные системы Google, вероятно, используют гораздо более сложные модели машинного обучения для оценки релевантности объектов и фактов. Однако концептуальная модель, описанная в патенте (независимая оценка фактов, учет Confidence/Importance), остается высоко актуальной.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.