Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google динамически определяет сущности и контекст в тексте для показа Панелей Знаний в приложениях

    CONTEXTUALLY RELEVANT KNOWLEDGE PANELS IN AN APPLICATION ENVIRONMENT (Контекстуально релевантные панели знаний в среде приложения)
    • US10867122B1
    • Google LLC
    • 2020-12-15
    • 2015-03-12
    2015 Knowledge Graph Патенты Google Семантика и интент

    Патент Google описывает систему для анализа контента документа в реальном времени (например, по мере ввода текста пользователем). Система идентифицирует ключевые фактические сущности и контекст их упоминания, а затем отображает релевантные Панели Знаний рядом с документом в среде приложения (например, в текстовом редакторе).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности поиска информации при создании или чтении документа. Он устраняет необходимость для пользователя покидать текущее приложение (например, текстовый редактор или почтовый клиент) и вручную формулировать поисковые запросы для поиска контекстуальной информации. Система автоматизирует этот процесс, предоставляя релевантную информацию проактивно.

    Что запатентовано

    Запатентована система для динамического анализа контента документа в среде приложения (Application Environment). Система идентифицирует factual entities (фактические сущности) и контекст их упоминания в реальном времени, например, по мере того как пользователь вводит текст. На основе этого анализа система отображает соответствующие Knowledge Panels (Панели Знаний) рядом с документом, предоставляя сводную информацию о сущности без необходимости перехода в поисковую систему.

    Как это работает

    Система работает в динамическом режиме:

    • Анализ контента: Система анализирует контент документа, фокусируясь на области внимания пользователя (например, текст за курсором).
    • Идентификация сущностей: Используя NLP и статистические модели, система определяет factual entities.
    • Оценка намерения: Система измеряет level of intent (уровень намерения) или threshold intent measure, чтобы убедиться, что сущность является значимой темой, а не случайным упоминанием.
    • Запрос и отображение KP: Если порог достигнут, система запрашивает данные у Knowledge Panel System и отображает Панель Знаний. KP может содержать данные из разных источников (веб-страницы, базы данных, электронные письма).
    • Взаимодействие: Пользователь может переносить контент (текст, изображения) из панели в документ (например, с помощью drag-and-drop), возможно с автоматическим добавлением цитат.

    Актуальность для SEO

    Высокая. Описанная технология активно используется в продуктах Google, таких как Google Docs (функция «Explore»/»Анализ контента») и, вероятно, в Gmail. Лежащие в основе механизмы NLP для извлечения сущностей в реальном времени и понимания контекста являются ядром технологического стека Google.

    Важность для SEO

    Влияние на SEO (4/10). Этот патент описывает инфраструктуру и пользовательский интерфейс для прикладных сред (например, текстовых редакторов), а не алгоритмы ранжирования веб-поиска. Он не дает прямых рекомендаций по оптимизации сайтов для повышения позиций в SERP. Однако он предоставляет критически важные инсайты о том, как Google идентифицирует factual entities, определяет контекст и оценивает «значимость» (level of intent) сущности в неструктурированном тексте. Это подтверждает важность стратегий контента, основанных на сущностях, но практическое применение в SEO является косвенным.

    Детальный разбор

    Термины и определения

    Document System (Система документов)
    Система, предоставляющая среду для редактирования и/или просмотра документов. Может быть облачной (например, Google Docs) или локальным приложением.
    Entity and Context Identifier (Идентификатор сущности и контекста)
    Компонент, который обрабатывает контент документа (текст, изображения, метаданные) для идентификации основных тем или сущностей и контекста, в котором они упоминаются.
    Factual Entity (Фактическая сущность)
    Единая концептуальная сущность, идентифицированная в контенте. Примеры включают человека, место, организацию, историческое событие, произведение искусства и т.д. Также может быть концепцией или темой.
    Knowledge Panel (Панель Знаний, KP)
    Элемент пользовательского интерфейса, который предоставляет коллекцию контента и сводку информации, относящейся к конкретной factual entity. Контент может поступать из разных источников.
    Knowledge Panel System (Система Панелей Знаний)
    Система, которая обрабатывает запросы от Document System и генерирует Панели Знаний, используя шаблоны (Knowledge Panel Templates), исторические данные и элементы контента (Content Items).
    Threshold intent measure / Measured level of intent (Пороговая мера намерения / Измеренный уровень намерения)
    Мера уверенности в том, что конкретная сущность является основной темой в предложении, абзаце или разделе. Используется как триггер для показа KP, чтобы избежать реакции на случайные упоминания.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной динамический процесс анализа контента и отображения Панели Знаний по мере ввода текста.

    1. Система получает контент, отображаемый в среде приложения, по мере его ввода пользователем.
    2. Во время получения первой части контента система анализирует ранее введенный контент (вторую часть), находящийся за курсором ввода (behind an input cursor), и определяет первую factual entity.
    3. Затем, во время получения новой (третьей) части контента, система анализирует весь обновленный контент (совокупность всех частей) для определения второй factual entity.
    4. Определение второй сущности включает критически важный шаг: измерение level of intent для нового контента и проверку, превышает ли он пороговое значение (threshold level of intent).
    5. Только если порог превышен, вторая сущность считается определенной.
    6. Система запрашивает контент для элемента интерфейса (KP), который связан с обеими (первой и второй) сущностями.
    7. Система получает контент KP и предоставляет инструкции для его отображения одновременно со средой приложения.

    Claim 4 (Зависимый): Детализирует процесс обновления KP.

    После отображения исходного KP система получает дополнительный введенный контент и определяет третью factual entity. Затем она запрашивает обновленный контент для KP, который теперь связан с первой, второй и третьей сущностями, и отображает его.

    Claim 5 (Зависимый): Описывает интерактивность KP.

    KP содержит элемент ввода. Система получает индикацию ввода пользователя (например, drag-and-drop) и вставляет часть контента из KP в основной контент среды приложения.

    Где и как применяется

    Этот патент не описывает традиционную архитектуру веб-поиска (Сканирование, Индексирование, Ранжирование). Он описывает взаимодействие на уровне приложения (например, в Google Docs или Gmail).

    Тем не менее, система полагается на технологии, разработанные для поиска:

    QUNDERSTANDING – Понимание Запросов (Технологии)
    Механизмы NLP, извлечения сущностей (Entity Extraction) и определения намерений (Intent Determination), описанные в патенте, являются ключевыми технологиями этапа Понимания Запросов. Entity and Context Identifier использует эти технологии для анализа текста документа в реальном времени и формулирования неявного запроса к Knowledge Panel System.

    INDEXING – Индексирование (Данные)
    Knowledge Panel System использует данные, которые были предварительно проиндексированы и структурированы (например, в Knowledge Graph). Система хранит индекс сущностей и связанных с ними элементов контента (Content Items), полученных из различных источников (веб-сайты, базы данных).

    Применение на уровне приложения:

    • Система работает внутри Document System (например, текстового редактора).
    • Она отслеживает действия пользователя (ввод текста, положение курсора) и изменения в контенте.
    • При обнаружении значимых сущностей она взаимодействует с Knowledge Panel System для получения данных.

    Входные данные:

    • Содержимое документа (текст, изображения).
    • Метаданные документа (название, авторы, ACL).
    • Действия пользователя в реальном времени (ввод текста, положение курсора, прокрутка).
    • Исторические данные пользователя (ранее созданные документы, электронные письма, просмотренный веб-контент) для персонализации.

    Выходные данные:

    • Отображаемые Knowledge Panels в интерфейсе приложения.
    • Контент, вставленный из KP в документ (возможно, с автоматическим форматированием или цитированием).

    На что влияет

    • Типы контента и приложений: В первую очередь влияет на взаимодействие пользователя с текстовыми редакторами, почтовыми клиентами, приложениями для заметок, программами для чтения электронных книг и новостей.
    • Персонализация: Система может адаптировать содержание KP в зависимости от предполагаемого уровня знаний пользователя. Например, профессору и ученику 4-го класса могут быть показаны разные KP по одной и той же теме, основываясь на их истории взаимодействия с контентом.
    • Типы данных: Система может обрабатывать не только публичные данные из интернета, но и частные данные (например, из интранета компании, электронной почты пользователя) для генерации KP.

    Когда применяется

    • Условия работы: Алгоритм работает динамически во время редактирования (ввода текста) или потребления контента (чтения, прокрутки).
    • Триггеры активации: Активация происходит, когда система идентифицирует factual entity и определяет, что measured level of intent (уверенность в том, что это основная тема) превышает установленный порог.
    • Задержки: Система может намеренно задерживать обновление KP на определенный интервал времени, до ввода определенного количества слов или до достижения достаточного уровня уверенности, чтобы избежать слишком частых обновлений или реакции на общие слова.

    Пошаговый алгоритм

    Процесс обработки контента в реальном времени

    1. Получение контента и обновлений: Система получает содержимое отображаемого документа и отслеживает обновления (например, ввод текста пользователем, изменение положения курсора).
    2. Анализ контекста: Entity and Context Identifier анализирует контент в области фокуса пользователя (например, текст за курсором).
    3. Идентификация кандидатов в сущности: Система использует лингвистические и семантические модели для определения потенциальных factual entities. Могут использоваться статистические методы, такие как Term Frequency-Inverse Document Frequency (TF-IDF), для выявления уникальных или редких терминов.
    4. Оценка намерения (Intent Measurement): Система рассчитывает measured level of intent для кандидатов. Это оценка уверенности, что сущность является доминирующей темой текущего фрагмента текста.
    5. Проверка порога: Система проверяет, превышает ли level of intent установленный порог.
      • Если НЕТ: Продолжить мониторинг.
      • Если ДА: Перейти к следующему шагу.
    6. Выбор сущностей и формулирование запроса: Система выбирает доминирующую сущность (или комбинацию сущностей) и генерирует запрос для Knowledge Panel System. Запрос может быть в виде ключевых слов или на естественном языке.
    7. Генерация и получение KP: Knowledge Panel System обрабатывает запрос, выбирает подходящий шаблон и заполняет его релевантными данными (Content Items), возможно, с учетом персонализации пользователя.
    8. Отображение KP: Система получает данные KP и отображает панель одновременно с документом в интерфейсе приложения.
    9. Обработка взаимодействий: Система отслеживает взаимодействие пользователя с KP (например, клики, drag-and-drop). При переносе контента в документ система может автоматически форматировать его или добавлять библиографические цитаты.
    10. Обновление документа: При обнаружении дальнейших изменений в документе процесс повторяется, что может привести к обновлению текущего KP или отображению нового.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа, изображения внутри документа. Система анализирует семантику и структуру текста (например, субъект и объект первого предложения абзаца).
    • Технические факторы: Метаданные документа, такие как заголовок, дата создания и списки контроля доступа (ACL).
    • Пользовательские факторы:
      • История взаимодействия: Ранее созданные или просмотренные документы, электронные письма, просмотренный веб-контент, прочитанные электронные книги. Используется для персонализации KP и оценки уровня знаний пользователя.
      • Действия в реальном времени: Положение курсора, местоположение прокрутки (Document location indicators).
    • Внешние и внутренние источники данных (для заполнения KP): Веб-страницы, базы данных, энциклопедии, изображения, видео, карты, социальные сети, а также внутренние данные компании (интранет) и личные данные пользователя (контакты, электронная почта).

    Какие метрики используются и как они считаются

    • Measured level of intent / Threshold intent measure: Ключевая метрика уверенности в том, что сущность является основной темой. Патент не дает формулы расчета, но указывает, что она используется как триггер для активации KP и предотвращения ложных срабатываний.
    • Методы анализа текста и идентификации сущностей:
      • Лингвистические и семантические модели: Используются для определения доминирующего намерения абзаца.
      • Лингвистические правила и эвристики: Например, анализ субъекта и объекта первого предложения абзаца для идентификации сущности.
      • Статистические методы: Патент явно упоминает Term Frequency-Inverse Document Frequency (TF-IDF) как пример статистического процесса для идентификации слов, которые встречаются в документе значительно чаще, чем в обучающем корпусе (т.е. уникальных или редких терминов).
    • Определение контекста: Система анализирует окружающий текст, чтобы определить специфический аспект обсуждаемой сущности (например, детство певца против его наград) и соответствующим образом адаптировать KP.

    Выводы

    1. Фокус на приложениях, а не на веб-поиске: Патент описывает функцию для улучшения пользовательского опыта в приложениях (например, текстовых редакторах), а не алгоритм ранжирования веб-поиска. Прямых SEO-рекомендаций для улучшения ранжирования в нем нет.
    2. Продвинутое понимание сущностей в реальном времени: Патент демонстрирует способность Google извлекать factual entities и определять контекст динамически, по мере создания контента. Это подчеркивает глубину технологий NLP, используемых Google.
    3. Ключевая роль «Уровня Намерения» (Level of Intent): Система не реагирует на каждое упоминание сущности. Она использует Threshold intent measure для определения того, является ли сущность доминирующей темой фрагмента. Это критически важно для фильтрации шума.
    4. Комбинирование сущностей и контекста: Система способна определять несколько сущностей последовательно и запрашивать информацию, относящуюся к их логическому объединению (например, «медведи» + «Smokey Mountains» = информация о черных медведях в этом регионе).
    5. Персонализация и адаптация: Содержание KP адаптируется не только к контексту документа, но и к профилю пользователя (его истории взаимодействия и предполагаемому уровню знаний).
    6. Синтез и проверка фактов: Система может синтезировать информацию (например, автоматически генерировать графики на основе данных, упомянутых в тексте) и даже указывать на фактические ошибки в тексте пользователя, предлагая исправления через KP.

    Практика

    ВАЖНО: Этот патент является инфраструктурным и фокусируется на пользовательском интерфейсе приложений. Он не описывает алгоритмы ранжирования веб-поиска. Приведенные ниже пункты являются косвенными выводами для SEO, основанными на понимании возможностей Google в области NLP и обработки сущностей, которые демонстрирует этот патент.

    Best practices (это мы делаем)

    • Обеспечение четкой выраженности основной сущности (Entity Prominence): Структурируйте контент так, чтобы основная factual entity страницы или раздела была очевидна. Патент показывает, что Google использует NLP и статистические методы (упоминается TF-IDF) для выявления доминирующей темы. Чем четче фокус контента, тем выше вероятность достижения Threshold intent measure.
    • Использование сильных тематических предложений (Topic Sentences): Патент упоминает эвристику анализа субъекта и объекта первого предложения абзаца для идентификации сущностей. Это подтверждает важность начала абзацев с четких утверждений, определяющих их основную тему.
    • Предоставление однозначного контекста: Обеспечьте четкий контекст вокруг упоминаемых сущностей. Система способна различать общий разговор о сущности и обсуждение ее конкретных атрибутов (например, кинокарьера актера против его сценической карьеры) и адаптировать информацию соответствующим образом.
    • Оптимизация под Граф Знаний (Knowledge Graph): Поскольку Knowledge Panel System полагается на структурированные данные о сущностях, необходимо обеспечить присутствие ваших ключевых сущностей в Графе Знаний с помощью авторитетного контента и микроразметки.

    Worst practices (это делать не надо)

    • Entity Stuffing (Перенасыщение сущностями): Простое упоминание множества сущностей неэффективно. Система требует достижения threshold intent measure, что означает, что контент должен быть действительно сфокусирован на сущности, чтобы она была признана доминирующей.
    • Неоднозначный или расфокусированный контент: Текст, который перескакивает с темы на тему без четкой структуры, затрудняет для Entity and Context Identifier определение доминирующего намерения и идентификацию ключевых сущностей.
    • Игнорирование статистической уникальности терминов: Опора только на высокочастотные общие термины может быть менее эффективной для определения темы, чем использование специфической терминологии. Упоминание TF-IDF указывает на то, что Google ценит термины, которые являются отличительными для документа.

    Стратегическое значение

    Патент подтверждает глубокую интеграцию NLP и понимания сущностей во все продукты Google. Хотя данная конкретная реализация предназначена для приложений, базовые технологии анализа текста и идентификации сущностей являются теми же, что используются в Поиске. Это подчеркивает стратегический сдвиг от оптимизации под ключевые слова к оптимизации под концепции и factual entities. Понимание того, как Google определяет «доминирующую тему» (level of intent), является ключом к созданию релевантного контента.

    Практические примеры

    Пример: Оптимизация структуры абзаца для четкой идентификации сущности

    Цель: Убедиться, что система правильно идентифицирует основную сущность абзаца.

    • Слабая структура (Низкий Level of Intent): «Многие люди интересуются космосом. В 1969 году произошла высадка на Луну. Аполлон-11 был кораблем, который использовался для этого. Это было важное событие для всего мира.» (Сущности неоднозначны, фокус размыт).
    • Сильная структура (Высокий Level of Intent): «Миссия Аполлон-11 стала кульминацией космической гонки, завершившись первой высадкой человека на Луну в 1969 году. Этот космический корабль доставил Нила Армстронга и Базза Олдрина на лунную поверхность, что стало историческим достижением.» (Сущность «Аполлон-11» четко заявлена в первом предложении (Topic Sentence) и является доминирующей темой абзаца).

    Вопросы и ответы

    Описывает ли этот патент, как Google ранжирует сайты в поиске?

    Нет. Этот патент описывает технологию для отображения информационных панелей (Knowledge Panels) внутри приложений, таких как текстовые редакторы или почтовые клиенты, на основе содержимого документа. Он не связан напрямую с алгоритмами ранжирования веб-страниц в поисковой выдаче (SERP).

    Что такое «Factual Entity» в контексте этого патента?

    Factual Entity — это единая концептуальная сущность, которую система идентифицирует в тексте. Это может быть человек, место, организация, событие, произведение искусства или любая другая конкретная тема. Система анализирует контент, чтобы определить, какие сущности являются основными предметами обсуждения.

    Что такое «Threshold intent measure» или «Measured level of intent» и почему это важно?

    Это метрика уверенности системы в том, что определенная сущность является доминирующей темой текущего фрагмента текста. Это критически важно, так как предотвращает активацию системы при каждом случайном упоминании сущности или общих слов. Для SEO это означает, что контент должен быть четко сфокусирован на теме, а не просто упоминать ее.

    Какие методы NLP упоминаются в патенте для идентификации сущностей?

    Патент упоминает использование лингвистических и семантических моделей, а также лингвистических правил и эвристик (например, анализ первого предложения абзаца). Кроме того, явно упоминается статистический метод Term Frequency-Inverse Document Frequency (TF-IDF) как способ идентификации уникальных или важных терминов в документе.

    Как упоминание TF-IDF в патенте влияет на современное SEO?

    Хотя современные модели (такие как Трансформеры) ушли далеко вперед, упоминание TF-IDF показывает, что Google использует статистические методы для определения важности и уникальности терминов относительно общего корпуса текстов. Это напоминает о важности использования специфической, релевантной терминологии, которая отличает ваш контент и помогает определить его основную тему.

    Может ли система комбинировать несколько сущностей для предоставления информации?

    Да. В патенте описан механизм последовательного определения нескольких сущностей по мере ввода текста (первая, затем вторая, затем третья) и запроса информации, относящейся к их комбинации. Например, определив «медведи», а затем «Smokey Mountains», система может показать информацию о конкретном виде медведей в этом регионе.

    Использует ли эта система персонализацию?

    Да, патент явно указывает на возможность персонализации Панелей Знаний. Система учитывает историю пользователя (ранее просмотренные документы, электронные письма, веб-контент), чтобы адаптировать информацию к его предполагаемому уровню знаний и интересам.

    Какова связь этой системы с Knowledge Graph?

    Патент описывает Knowledge Panel System, который хранит индекс сущностей и связанных с ними элементов контента из различных источников. Хотя Knowledge Graph явно не упоминается, он, скорее всего, является основным источником данных и инфраструктурой, на которой работает Knowledge Panel System для предоставления структурированных фактов о сущностях.

    Может ли эта система использовать внутренние (непубличные) данные?

    Да. Патент утверждает, что источники данных могут включать частные данные, хранящиеся в интранете компании, электронные письма и контакты пользователя. Это позволяет генерировать Панели Знаний, релевантные для рабочего контекста пользователя, например, при подготовке к встрече.

    Каков главный вывод для SEO-специалиста из этого патента?

    Главный вывод заключается в понимании того, как Google анализирует текст для определения доминирующей темы. Необходимо создавать контент с четкой структурой, использовать сильные тематические предложения и обеспечивать достаточный фокус на основной сущности, чтобы превысить порог level of intent. Это подтверждает стратегическую важность Entity-based SEO.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.