Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google индексирует, оценивает и ранжирует цитаты, связывая их с сущностями Knowledge Graph

    SYSTEMS AND METHODS FOR SEARCHING QUOTES OF ENTITIES USING A DATABASE (Системы и методы поиска цитат сущностей с использованием базы данных)
    • US11250052B1
    • Google LLC
    • 2022-02-15
    • 2014-03-10
    2014 Gal Chechik Knowledge Graph Индексация Патенты Google

    Google использует систему для создания структурированной базы данных цитат. Система извлекает цитаты из веба, идентифицирует автора и сущность, о которой идет речь. Цитаты оцениваются на основе авторитетности источника, релевантности сущности, свежести и популярности. Это позволяет поиску предоставлять семантически точные цитаты об объектах, людях или событиях, а не просто совпадения по ключевым словам.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему нерелевантности результатов при поиске цитат, основанном исключительно на текстовом совпадении. Существующие системы часто возвращают цитаты, содержащие нужные слова, но не относящиеся к подразумеваемой пользователем сущности (например, цитаты о «breaking bad habits» вместо цитат о сериале «Breaking Bad»). Изобретение улучшает семантическое понимание запроса и обеспечивает выдачу цитат, релевантных конкретным сущностям (entities).

    Что запатентовано

    Запатентована система для идентификации, индексации и поиска цитат, связанных с конкретными сущностями. Система создает структурированную базу данных (Quotes Database), где цитаты ассоциированы с авторами и тематическими сущностями. При обработке запроса или анализе контента система идентифицирует релевантные сущности и извлекает соответствующие цитаты. Ключевым элементом является механизм оценки (Quote Score), учитывающий авторитетность источника цитаты, ее свежесть, популярность и релевантность сущности.

    Как это работает

    Система работает в двух режимах:

    1. Индексация (Офлайн): Система сканирует контент, идентифицирует цитаты (используя лингвистические сигналы), определяет автора и тематические сущности (subject entities), валидирует цитату (например, по частоте упоминаний) и сохраняет ее в Quotes Database с метаданными.
    2. Поиск/Извлечение (Онлайн): При получении запроса или анализе веб-страницы система определяет ключевые сущности. Она использует Knowledge Graph для расширения списка связанных сущностей. Затем извлекаются релевантные цитаты и рассчитываются их оценки (Quote Scores). Оценка включает Source Page Score (авторитетность источника), Relevance Score, Recency Score и Frequency Score. Цитаты ранжируются и отображаются пользователю, часто в контексте Knowledge Panel.

    Актуальность для SEO

    Высокая. Патент напрямую связан с эволюцией поиска от ключевых слов к сущностям (entities) и структурированию информации. Извлечение и оценка мнений, заявлений и цитат об известных сущностях является ключевой функцией современных поисковых систем для формирования ответов и обогащения контента. Участие Yossi Matias (VP, Google Search) подчеркивает значимость этой технологии.

    Важность для SEO

    Патент имеет существенное значение для SEO (7/10), особенно для контент-стратегии и работы с репутацией. Он раскрывает механизм, с помощью которого Google оценивает авторитетность источника (Source Page Score) при извлечении структурированных данных (цитат). Это подтверждает важность размещения экспертных мнений и заявлений на авторитетных площадках для их видимости в поиске. Понимание того, как цитаты связываются с сущностями, критично для управления видимостью брендов и публичных персон.

    Детальный разбор

    Термины и определения

    Author (Автор)
    Человек, группа или организация, которая написала, произнесла или выразила цитату.
    Content Database (База данных контента)
    Хранилище корпуса контента (веб-страницы, новости, книги, социальные медиа и т.д.), используемое для извлечения цитат.
    Frequency Score (Оценка частотности/популярности)
    Метрика, основанная на том, как часто цитата появляется в корпусе контента, как часто к ней обращаются пользователи или как часто она идентифицируется в ответ на запросы.
    Knowledge Graph Item (Элемент Графа Знаний)
    Корпус информации, связанный с конкретной сущностью. Включает атрибуты, связанные сущности и ссылки на контент. Используется для расширения поиска цитат на связанные темы.
    Personalized Corpus (Персонализированный корпус)
    Контент, специфичный для пользователя (например, его собственные документы, электронные письма, контент из социальных сетей пользователя или его контактов).
    Quote (Цитата)
    Слово, фраза, предложение или абзац, выраженный автором.
    Quotes Database (База данных цитат)
    Структурированное хранилище проиндексированных цитат и их метаданных (автор, сущность, дата, источник).
    Quote Score (Оценка цитаты)
    Итоговая оценка, используемая для ранжирования цитат. Является комбинацией Source Page Score, Relevance Score, Recency Score и Frequency Score.
    Recency Score (Оценка свежести)
    Метрика, основанная на времени, прошедшем с момента создания или публикации цитаты.
    Relevance Score (Оценка релевантности)
    Метрика, определяющая, насколько цитата отвечает запросу. Учитывает популярность цитаты, автора, источника и связь с тематическими сущностями.
    Set Score (Оценка набора)
    Оценка, присваиваемая группе связанных цитат (например, цитаты от авторов одной категории).
    Source Page Score (Оценка страницы-источника)
    Метрика качества контента, из которого была извлечена цитата. Основана на релевантности, репутации, достоверности (credibility) и популярности источника или его автора/издателя.
    Subject Entity (Тематическая сущность)
    Человек, место, вещь, событие или тема, к которой относится цитата или запрос.

    Ключевые утверждения (Анализ Claims)

    Патент US11250052B1 является продолжением (continuation) более ранних патентов. Его Claims (Формула изобретения) описывают специфический сценарий обогащения контента, а не стандартный ответ на поисковый запрос, хотя описание патента (Description) охватывает оба сценария.

    Claim 1 (Независимый пункт): Описывает метод обогащения просматриваемого ресурса релевантными цитатами.

    1. Система получает доступ к электронному ресурсу (веб-странице или документу).
    2. Ресурс анализируется для идентификации ключевых слов.
    3. Ключевые слова сопоставляются с Subject Entity в базе данных.
    4. Система идентифицирует множество цитат, связанных с этой Subject Entity. Каждая цитата извлекается из другого электронного ресурса (веб-страницы).
    5. Идентифицируется дополнительная сущность (additional subject entity), связанная с основной.
    6. Выбирается подмножество цитат, связанных с этой дополнительной сущностью.
    7. Рассчитываются Quote Scores для этого подмножества. Оценка основана на (одном или нескольких факторах): связи цитаты с сущностью, свежести цитаты и популярности цитаты.
    8. На основе оценок выбирается цитата.
    9. Информация передается на клиентское устройство, которое просматривает исходный ресурс. Это заставляет устройство отобразить выбранную цитату и гиперссылку на веб-страницу, с которой она была взята.

    Ядром изобретения в этом конкретном патенте является механизм контекстного обогащения контента. Система определяет, о чем страница, находит авторитетные/популярные/свежие цитаты об этих сущностях из внешних источников и встраивает их в просмотр. Ключевыми техническими компонентами являются точная идентификация сущностей и многофакторная модель оценки цитат.

    Claims 6, 7, 8 (Зависимые): Уточняют, что Quote Score может рассчитываться на основе комбинации нескольких факторов (релевантность + свежесть, свежесть + популярность и т.д.).

    Где и как применяется

    Технологии, описанные в патенте, применяются на нескольких этапах поисковой архитектуры.

    CRAWLING – Сканирование и Сбор данных
    Система собирает corpus of content items, включая новости, блоги, книги, социальные медиа и, возможно, personalized corpus.

    INDEXING – Индексирование и извлечение признаков
    Это ключевой этап для офлайн-процесса. Система анализирует контент для извлечения и структурирования цитат:

    • Извлечение цитат: Идентификация цитат с помощью лингвистических и структурных сигналов.
    • NLP и Семантика: Идентификация авторов и Subject Entities. Связывание их с Knowledge Graph.
    • Валидация и Оценка Качества: Валидация цитат и предварительный расчет метрик качества источников (Source Page Score).
    • Хранение: Сохранение данных в Quotes Database.

    QUNDERSTANDING – Понимание Запросов
    (Применимо к сценарию поиска, описанному в Description). Система анализирует запрос для идентификации Subject Entities и определения намерения пользователя найти цитаты (например, «[Entity] quotes»).

    RANKING – Ранжирование
    Система извлекает кандидатов из Quotes Database. Происходит расчет Quote Scores в реальном времени, учитывая Relevance Score (связь с запросом/контекстом), Recency Score и Frequency Score, а также используя предварительно рассчитанный Source Page Score.

    METASEARCH – Метапоиск и Смешивание
    Выбранные цитаты могут быть представлены как отдельный блок в выдаче (SERP Feature) или интегрированы в Knowledge Panel (как показано в примерах интерфейсов в патенте).

    RERANKING – Переранжирование
    Цитаты могут быть сгруппированы по категориям авторов (Set Scores), и может применяться персонализация (если используются данные из Personalized Corpus).

    На что влияет

    • Конкретные типы контента: Статьи, новости, интервью, обзоры, блоги, посты в социальных сетях — любой контент, содержащий мнения или заявления.
    • Специфические запросы: Информационные запросы о мнениях (e.g., «что X думает о Y»), запросы, связанные с репутацией, и запросы о популярных сущностях.
    • Конкретные ниши или тематики: Политика, развлечения, технологии, спорт — ниши, где цитаты публичных персон или экспертов имеют высокую ценность. Влияет на видимость брендов и персон (Entities).

    Когда применяется

    • Триггеры активации (Сценарий поиска): Когда запрос явно ищет цитаты или когда система определяет, что цитаты являются полезным дополнением к информации о запрашиваемой сущности.
    • Триггеры активации (Сценарий обогащения контента — Claim 1): Когда пользователь просматривает контент, содержащий идентифицируемые Subject Entities, для которых в Quotes Database есть высококачественные цитаты.
    • Условие применения: Наличие достаточного количества валидированных цитат, связанных с идентифицированными сущностями.

    Пошаговый алгоритм

    Процесс А: Индексация и создание базы цитат (Офлайн)

    1. Доступ к контенту: Система получает доступ к элементу контента из корпуса (например, новостной статье).
    2. Идентификация цитат: Анализ текста на наличие сигналов цитирования (кавычки, слова типа «сказал», структура автор: цитата) или анализ аудио/видео.
    3. Идентификация автора: Определение источника высказывания (например, по тексту, предшествующему цитате, или по метаданным контента).
    4. Идентификация тематических сущностей: Извлечение слов/фраз из цитаты и контекста, сопоставление их с базой данных сущностей.
    5. Идентификация даты: Определение даты высказывания или первой публикации.
    6. Валидация цитаты: Проверка точности цитаты, например, путем поиска ее в других источниках или сверки с транскриптами.
    7. Расчет качества источника: Определение Source Page Score на основе репутации, достоверности и популярности источника контента.
    8. Хранение: Сохранение цитаты, метаданных (автор, сущности, дата) и оценок в Quotes Database.

    Процесс Б: Поиск и ранжирование цитат (Онлайн)

    1. Получение контекста: Система получает запрос пользователя ИЛИ анализирует контент, просматриваемый пользователем.
    2. Идентификация сущностей: Определение Subject Entities в контексте/запросе. Используются оценки релевантности для разрешения неоднозначностей.
    3. Расширение сущностей (Entity Expansion): Поиск Knowledge Graph Item, связанного с основной сущностью, и идентификация дополнительных связанных сущностей (например, актеров сериала).
    4. Извлечение кандидатов: Поиск цитат в Quotes Database, соответствующих исходным и расширенным сущностям.
    5. Расчет оценок (Scoring): Для каждой цитаты-кандидата вычисляется:
      • Relevance Score (насколько соответствует контексту/запросу).
      • Recency Score (насколько свежая).
      • Frequency Score (насколько популярная).
      • Извлекается предопределенный Source Page Score.
    6. Определение итоговой оценки: Расчет Quote Score путем комбинации (например, взвешенного суммирования) всех метрик.
    7. Группировка (Опционально): Группировка цитат по авторам или темам и расчет Set Scores.
    8. Ранжирование и Выбор: Сортировка цитат по Quote Score или Set Score и выбор Топ-N.
    9. Отображение: Передача выбранных цитат и ссылок на источники для отображения пользователю (в SERP, Knowledge Panel или на просматриваемой странице).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст контента используется для идентификации цитат, авторов и сущностей. Лингвистические маркеры (кавычки, глаголы речи) критичны.
    • Факторы качества/авторитетности (Site Quality Factors): Система использует данные о репутации, достоверности (credibility) и популярности источника (веб-сайта, издателя, автора контента) для расчета Source Page Score.
    • Поведенческие факторы: Популярность контента (частота доступа пользователями), популярность цитаты (частота кликов/просмотров), популярность сущностей в поисковых запросах пользователей используются для расчета Frequency Score, Relevance Score и Source Page Score.
    • Временные факторы: Дата создания или публикации цитаты используется для расчета Recency Score.
    • Структурные данные (Knowledge Graph): Данные из Knowledge Graph используются для идентификации сущностей, разрешения неоднозначностей и расширения поиска (Entity Expansion).
    • Пользовательские факторы: Может использоваться Personalized Corpus (социальные связи, личный контент) для персонализации результатов.

    Какие метрики используются и как они считаются

    Система использует многокомпонентную модель оценки:

    • Source Page Score: Оценка авторитетности источника. Рассчитывается на основе репутации, достоверности и популярности (например, частоты доступа пользователей к контенту источника).
    • Relevance Score: Оценка релевантности цитаты контексту. Рассчитывается на основе популярности цитаты, автора и источника, а также частоты их совместного появления с тематическими сущностями в корпусе контента или поисковых логах.
    • Recency Score: Оценка свежести. Рассчитывается на основе времени, прошедшего с даты публикации/создания цитаты до текущего момента.
    • Frequency Score: Оценка популярности цитаты. Рассчитывается на основе частоты ее появления в корпусе или частоты доступа к ней пользователей.
    • Quote Score: Итоговая оценка. Патент предлагает использовать взвешенную сумму, взвешенное среднее, максимум или минимум из вышеперечисленных метрик. Конкретные веса не указаны.

    Выводы

    1. Структурирование мнений вокруг сущностей: Google активно индексирует не только факты, но и мнения (цитаты), структурируя их вокруг Entities в Knowledge Graph. Система четко разделяет автора цитаты и сущность, о которой идет речь.
    2. Авторитетность источника критична для видимости цитат: Source Page Score является ключевым компонентом ранжирования цитат. Он базируется на репутации, достоверности и популярности источника. Цитата с авторитетного сайта имеет значительно больше шансов быть показанной, чем цитата с низкокачественного ресурса.
    3. Семантика важнее текста: Цель системы — предоставить цитаты, релевантные сущности, а не просто содержащие ключевые слова. Это достигается через идентификацию Subject Entities и использование Relevance Score, основанного на популярности и связях сущностей.
    4. Важность свежести и популярности: Помимо авторитетности и релевантности, система явно учитывает Recency Score и Frequency Score (популярность). Актуальные и широко распространенные цитаты получают приоритет.
    5. Расширение через Knowledge Graph: Система не ограничивается прямым соответствием. Она использует Knowledge Graph для поиска цитат о связанных сущностях (например, цитаты об актере при поиске фильма), что расширяет охват и полноту ответа.
    6. Потенциал для обогащения контента: Описанный в Claims механизм показывает, что Google может использовать эту технологию не только в SERP, но и для динамического обогащения контента на сторонних сайтах или в браузере.

    Практика

    Best practices (это мы делаем)

    • Публикация экспертных мнений на авторитетных площадках: Для того чтобы заявления экспертов или представителей бренда были проиндексированы и высоко ранжировались системой, они должны быть размещены на сайтах с высоким Source Page Score (высокая репутация и популярность). Работайте над повышением авторитетности собственного сайта.
    • Четкое структурирование цитат и мнений: Используйте ясный и понятный язык, который облегчает системе идентификацию автора и Subject Entity. Применяйте лингвистические конструкции, которые Google легко распознает (например, «[Автор] сказал: [Цитата] о [Сущность]»). Используйте семантическую разметку (например,

      , <cite>).

    • Усиление связи с Knowledge Graph: Убедитесь, что ваш бренд, продукты и ключевые сотрудники четко определены как сущности в Knowledge Graph. Это позволит системе корректно ассоциировать цитаты с ними.
    • Стимулирование распространения (Popularity): Популярные цитаты имеют более высокий Frequency Score. Стратегии контент-маркетинга и PR, направленные на широкое цитирование ключевых заявлений на качественных ресурсах, напрямую влияют на видимость в этой системе.
    • Актуализация контента (Recency): Регулярно публикуйте свежие мнения и комментарии по актуальным темам, так как Recency Score является фактором ранжирования.

    Worst practices (это делать не надо)

    • Размещение ключевых заявлений на низкокачественных сайтах: Публикация важных цитат или экспертных мнений на сайтах без репутации или популярности приведет к низкому Source Page Score, и цитата не будет высоко ранжироваться.
    • Использование неоднозначных формулировок: Сложные или двусмысленные тексты затрудняют извлечение цитат и корректную идентификацию автора и сущности, что снижает вероятность индексации в Quotes Database.
    • Накрутка популярности (Fake Popularity): Попытки манипулировать Frequency Score путем спамного распространения цитат на некачественных ресурсах будут неэффективны, так как Source Page Score этих ресурсов нивелирует эффект популярности.
    • Игнорирование контекста сущности: Фокус только на ключевых словах без учета связи с Subject Entity. Система приоритезирует семантическую связь, а не текстовое совпадение.

    Стратегическое значение

    Патент подтверждает стратегию Google по структурированию не только фактической информации, но и субъективных данных (мнений, цитат). Для SEO это означает, что управление репутацией (ORM/SERM) и продвижение экспертизы тесно связаны с технической оптимизацией и качеством площадки. Авторитетность сайта (E-E-A-T) напрямую влияет на то, как заявления, сделанные на этом сайте, будут восприняты, оценены и ранжированы поисковой системой. Долгосрочная стратегия должна включать построение авторитетного источника мнений в своей нише.

    Практические примеры

    Сценарий: Повышение видимости экспертного мнения CEO компании.

    1. Задача: Гарантировать, что комментарий CEO о новом технологическом тренде (Subject Entity) будет виден в поиске.
    2. Действия:
      • Опубликовать интервью или статью с этим комментарием на авторитетном новостном ресурсе или в высококачественном корпоративном блоге (для высокого Source Page Score).
      • Структурировать текст так, чтобы было ясно, кто говорит (CEO, Author) и о чем (Тренд, Subject Entity). Пример: «Комментируя новый тренд [Название тренда], [Имя CEO] заявил: ‘[Цитата]'».
      • Распространить этот комментарий через PR и социальные сети для повышения его популярности (Frequency Score).
    3. Ожидаемый результат: Система индексирует цитату, присваивает ей высокий Quote Score (за счет авторитетности источника, свежести и популярности) и отображает ее при запросах о тренде или о CEO в Knowledge Panel или специальном блоке выдачи.

    Вопросы и ответы

    Как система определяет авторитетность источника цитаты?

    Для этого используется метрика Source Page Score. Патент указывает, что она базируется на репутации, достоверности (credibility) и популярности страницы-источника, ее автора или издателя. Популярность может определяться частотой доступа пользователей к этому контенту. На практике это соответствует общим сигналам качества и авторитетности сайта (E-E-A-T).

    Что важнее для ранжирования цитаты: авторитетность сайта, где она размещена, или авторитетность автора цитаты?

    Система учитывает оба аспекта. Авторитетность сайта влияет на Source Page Score. Авторитетность (популярность) автора цитаты влияет на Relevance Score. Однако, если цитата даже очень известного человека размещена на низкокачественном сайте, ее итоговый Quote Score может быть низким из-за плохого Source Page Score.

    Как Google понимает, о какой сущности идет речь в цитате?

    Система анализирует текст цитаты и окружающий контекст, извлекает ключевые слова и фразы и сопоставляет их с базой данных сущностей (Knowledge Graph). Для разрешения неоднозначностей используются оценки релевантности, основанные на популярности сущностей в корпусе контента и поисковых логах.

    Влияет ли свежесть цитаты на ее ранжирование?

    Да, напрямую. В патенте описана метрика Recency Score, которая является одним из компонентов итоговой оценки Quote Score. Более свежие цитаты при прочих равных получат преимущество, особенно если они касаются актуальных событий или тем.

    Что такое «Entity Expansion» и как это влияет на поиск цитат?

    Entity Expansion — это процесс использования Knowledge Graph для поиска связанных сущностей. Например, если пользователь ищет цитаты о фильме, система может также искать цитаты о режиссере и главных актерах. Это позволяет предоставить более полный ответ, но также означает, что ваш контент может быть найден по более широкому кругу связанных запросов.

    Как можно оптимизировать контент, чтобы цитаты из него попадали в базу Google?

    Необходимо размещать контент на авторитетном сайте, использовать четкие лингвистические конструкции, указывающие на цитирование (кавычки, глаголы речи), ясно обозначать автора цитаты и сущность, о которой идет речь. Семантическая верстка (например, blockquote) также может помочь системе корректно интерпретировать контент.

    Учитывает ли система популярность цитаты?

    Да, для этого используется Frequency Score. Он учитывает, как часто цитата встречается в интернете, как часто пользователи обращаются к ней или как часто она появляется в результатах поиска. Широко распространенные цитаты получают более высокую оценку.

    Может ли эта система использоваться для поиска цитат в моих личных документах или почте?

    Да, патент упоминает возможность использования Personalized Corpus, который включает личные документы, электронные письма и контент из социальных сетей пользователя и его контактов. Это позволяет системе находить цитаты, релевантные лично пользователю, при условии предоставления соответствующих разрешений на доступ к данным.

    Описывает ли патент, как именно комбинируются оценки (Source, Relevance, Recency, Frequency)?

    Патент не предоставляет конкретных формул или весовых коэффициентов. Он указывает, что итоговый Quote Score может быть взвешенной суммой, взвешенным средним, максимумом или минимумом из этих компонентов. Конкретная реализация остается на усмотрение инженеров поисковой системы.

    Чем отличается механизм, описанный в Claim 1 этого патента (B1), от стандартного поиска?

    Claim 1 патента US11250052B1 описывает механизм обогащения контента: система анализирует страницу, которую пользователь уже просматривает, определяет ее сущности и динамически встраивает релевантные цитаты из внешних источников. Это отличается от стандартного поиска, где система отвечает на явный запрос пользователя. Однако базовые технологии индексации, оценки и связи цитат с сущностями идентичны для обоих сценариев.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.