Google патентует метод улучшения поиска за счет расширения сущностей в запросах и контенте с помощью Knowledge Graph. Система использует курируемые связи (предикаты) для выявления неявной релевантности. Также вводится «дескриптор релевантности» — UI элемент, объясняющий пользователю, почему показан конкретный результат, основываясь на этих связях.
Описание
Какую задачу решает
Патент решает ограничения традиционных методов поиска. Exact matching (точное совпадение) и базовое сопоставление сущностей часто дают разреженные результаты (sparse results), пропуская релевантный контент, который семантически связан, но не содержит точных ключевых слов или исходных сущностей запроса. Методы на основе эмбеддингов (Embedding operations) вычислительно дороги, сложны в обучении и лишены объяснимости (Explainability). Изобретение направлено на повышение полноты поиска (Recall) путем использования семантических связей и улучшение пользовательского опыта за счет объяснения логики выбора результата.
Что запатентовано
Запатентована система, использующая Knowledge Graph (KG) для улучшения сопоставления запросов и результатов (контента, рекламы) через механизм Predicate-Based Entity Expansion. Система расширяет набор сущностей, связанных с запросом и/или результатом, используя определенные, заранее отобранные связи (Curated Set of Predicates) из KG. Совпадение определяется по пересечению этих расширенных наборов. Ключевым элементом также является генерация Relevance Descriptor — объяснения, почему результат релевантен запросу.
Как это работает
Система работает следующим образом:
- Извлечение сущностей: Из запроса и потенциальных результатов извлекаются начальные наборы сущностей.
- Расширение (Expansion): Система использует Knowledge Graph для расширения этих наборов. Она переходит от одной сущности к связанным с ней сущностям (например, от «Книги» к «Автору») через предикаты.
- Курирование предикатов: Для расширения используется не весь KG, а только специальный, отобранный набор предикатов (Curated Set), которые были валидированы (в том числе людьми) как обеспечивающие релевантность.
- Сопоставление (Matching): Система ищет пересечения (общие сущности) между расширенными наборами запроса и результата.
- Объяснение (Explainability): При отображении результата система может показать Relevance Descriptor (например, текстовое пояснение), который указывает на общую сущность или предикат, который привел к совпадению.
Актуальность для SEO
Крайне высокая. Патент опубликован в 2024 году и напрямую связан с ключевыми направлениями развития поиска: глубокое использование Knowledge Graph, переход к поиску на основе сущностей (Entity-based SEO), и тренд на объяснимый ИИ (Explainable AI, XAI) в результатах поиска. Описанные механизмы предоставляют конкретную реализацию того, как Google может интерпретировать и использовать тематический авторитет (Topical Authority).
Важность для SEO
Патент имеет высокое стратегическое значение для SEO (8.5/10). Он детально описывает механизм, как Google устанавливает релевантность за пределами ключевых слов и прямых упоминаний сущностей, фокусируясь на связях между ними (предикатах). Это подтверждает критическую важность оптимизации контента под семантические отношения и интеграции в Knowledge Graph. Понимание того, как Google расширяет запросы через предикаты, является ключом к обеспечению видимости контента по широкому спектру семантически связанных запросов.
Детальный разбор
Термины и определения
- Entity (Сущность)
- Узел в Графе Знаний. Представляет объект, концепцию, событие, продукт и т.д.
- Predicate (Предикат)
- Ребро в Графе Знаний. Определяет тип отношения между двумя сущностями (например, «автор книги», «принадлежит к серии», «находится в»).
- Knowledge Graph (KG) (Граф знаний)
- Структура данных, состоящая из сущностей (узлов) и предикатов (ребер), описывающая факты о мире.
- Entity Expansion (Расширение сущностей)
- Процесс добавления связанных сущностей к начальному набору с использованием предикатов из Knowledge Graph.
- Relevance Descriptor (Дескриптор релевантности)
- Элемент пользовательского интерфейса (Explainability Component), который объясняет взаимосвязь между запросом и показанным результатом (например, «Ваша тема упоминается в этом видео»).
- Curated Set of Predicates (Курируемый набор предикатов)
- Специально отобранный список предикатов, одобренный для использования в поиске. Отбор основан на вероятности того, что эти предикаты генерируют совпадения, воспринимаемые пользователем как релевантные (human-perceived relevance).
- First Plurality of Predicate Relationships (Набор предикатов 1)
- Основной курируемый набор предикатов. Используется для расширения сущностей (Entity Expansion) с целью поиска совпадений (Ранжирование).
- Second Plurality of Predicate Relationships (Набор предикатов 2)
- Подмножество Набора 1. Если совпадение найдено с использованием предиката из этого набора, система может сгенерировать и показать Relevance Descriptor (Объяснение).
- Evaluation Module (Модуль оценки)
- Компонент для оценки релевантности результатов, полученных с помощью тестовых предикатов. Включает оценку человеком (human evaluation) или машинными моделями.
- Confidence Score (Оценка уверенности)
- Метрика, указывающая на вероятность того, что сущность связана с запросом/результатом или что связь (предикат) является релевантной.
Ключевые утверждения (Анализ Claims)
Claim 12 (Независимый пункт): Описывает основной механизм расширения и сопоставления.
- Система определяет первый набор сущностей для запроса и второй набор для результата.
- Система расширяет один или оба набора на основе предикатов.
- Ключевое условие: Используемый предикат должен принадлежать к first plurality of predicate relationships (Набор 1 — Курируемый набор для расширения).
- Система определяет, что некая сущность принадлежит к обоим (расширенным) наборам (т.е. есть совпадение).
- Система предоставляет результат как ответ на запрос.
Claim 15 (Зависимый от 12): Описывает процесс курирования (генерации) Набора 1.
- Система использует тестовый запрос и расширяет его с помощью тестового предиката.
- Находится тестовый результат.
- Тестовый запрос и результат передаются в Evaluation Module.
- Модуль обеспечивает human evaluation (оценку человеком).
- На основе вывода модуля принимается решение о включении тестового предиката в Набор 1.
Это критически важный пункт, подтверждающий роль асессоров в определении того, какие семантические связи Google считает релевантными для поиска.
Claim 18 (Зависимый от 12): Описывает логику показа Relevance Descriptor.
- Система принимает решение, показывать ли Relevance Descriptor.
- Решение основано на том, принадлежит ли предикат, использованный для совпадения, к second plurality of predicate relationships (Набор 2). Набор 2 является подмножеством Набора 1.
Система может найти результат через расширение (используя Набор 1), но покажет объяснение, только если использованная связь также входит в более строгий Набор 2.
Claim 19 и 20 (Зависимые от 12): Описывают использование оценок уверенности.
- Система получает оценки уверенности (Confidence Scores) в том, что сущность связана с запросом и с результатом.
- Решение о предоставлении результата принимается на основе обеих оценок.
- Решение может основываться на мультипликативной вероятности (multiplicative probability) этих оценок.
Где и как применяется
Изобретение затрагивает несколько ключевых этапов поиска, интегрируя данные из Knowledge Graph в процесс обработки запросов и ранжирования.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит извлечение исходных сущностей из контента (Result Entity Extraction). Система аннотирует документы сущностями из Knowledge Graph. Также может происходить предварительное расширение сущностей для документов.
QUNDERSTANDING – Понимание Запросов
Это центральный этап применения.
- Извлечение сущностей из запроса (Query Entity Extraction).
- Расширение сущностей (Entity Expansion) с использованием Knowledge Graph и курируемых предикатов (Набор 1). Это позволяет системе понять не только явный интент, но и связанные темы.
- Офлайн-процесс курирования предикатов также относится к этому этапу.
RANKING – Ранжирование (L1 Retrieval/Matching)
На этапе отбора кандидатов система использует расширенные наборы сущностей для нахождения совпадений (Matching) между запросом и потенциальными результатами. Это увеличивает полноту (Recall) поиска.
RANKING – Ранжирование (L2/L3 Scoring)
На этапах ранжирования используются Confidence Scores и Multiplicative Probability для определения итоговой релевантности и позиции результата.
RERANKING / SERP Generation
На финальном этапе система генерирует Relevance Descriptor (если предикат входит в Набор 2) и отображает его в пользовательском интерфейсе рядом с результатом.
Входные данные:
- Пользовательский запрос.
- Данные Knowledge Graph (сущности и предикаты).
- Курируемые наборы предикатов (Набор 1 и Набор 2).
- Confidence Scores.
- Данные человеческой оценки и поведения пользователей (для курирования).
Выходные данные:
- Набор релевантных результатов поиска (контент, реклама).
- Relevance Descriptors для объяснения связи с запросом.
На что влияет
- Специфические запросы: Наибольшее влияние на информационные, исследовательские и коммерческие запросы, где важны связи между сущностями (продукты и производители, книги и авторы, события и участники).
- Типы контента: Влияет на контент, богатый сущностями и хорошо связанный с Knowledge Graph (статьи, обзоры, товары, медиаконтент).
- Тематический охват: Повышает значимость Topical Authority. Контент, покрывающий тему широко, с большей вероятностью будет содержать сущности, соответствующие расширенному запросу.
Когда применяется
- Условия работы: Алгоритм расширения активируется для улучшения полноты поиска, когда система идентифицирует сущности в запросе, к которым можно применить предикаты из Набора 1.
- Показ дескриптора: Relevance Descriptor показывается, только если совпадение было найдено с использованием предиката из Набора 2 (более строгое условие).
- Пороговые значения: Система использует Confidence Scores для принятия решения о показе результата. Если итоговая Multiplicative Probability ниже порога, результат может быть отфильтрован.
Пошаговый алгоритм
Процесс А: Обработка запроса и ранжирование (Online)
- Получение запроса и Извлечение сущностей: Определяются начальные наборы сущностей для запроса (Set Q) и результатов (Set R).
- Расширение сущностей (Entity Expansion): Система расширяет Set Q и/или Set R, используя Knowledge Graph и предикаты из Набора 1. Генерируются расширенные наборы (Expanded Set Q, Expanded Set R).
- Сопоставление (Matching): Система ищет пересечения (общие сущности) между расширенными наборами.
- Оценка уверенности (Confidence Scoring): Рассчитывается Multiplicative Probability для найденных совпадений на основе Confidence Scores.
- Выбор результатов: Отбор результатов, превышающих порог уверенности.
- Генерация объяснений (Relevance Descriptor): Система проверяет, принадлежит ли предикат, использованный для совпадения, к Набору 2. Если да, генерируется Relevance Descriptor.
- Отображение SERP: Пользователю предоставляется UI с результатами и дескрипторами.
Процесс Б: Курирование предикатов (Offline/Continuous)
- Выбор тестового предиката: Система выбирает предикат для оценки.
- Генерация тестовых данных: Генерируются тестовые пары запрос-результат с использованием этого предиката.
- Оценка релевантности: Пары передаются в Evaluation Module (асессоры или ML-модели). Также анализируются данные о взаимодействии пользователей (user interaction) с результатами в реальной выдаче.
- Анализ обратной связи: Система анализирует оценки релевантности и поведенческие сигналы.
- Обновление наборов: На основе анализа принимается решение о включении/исключении предиката в Набор 1 и/или Набор 2.
Какие данные и как использует
Данные на входе
- Структурные данные (Knowledge Graph): Критически важные данные. Используются сущности (Nodes) и связи между ними (Predicates).
- Системные данные (Curated Lists): Заранее определенные и обновляемые списки предикатов (Набор 1 и Набор 2).
- Поведенческие факторы (User Interaction): Данные о взаимодействии пользователей с результатами поиска (клики, dwell time) используются для оценки эффективности предикатов и обновления курируемых списков (Claim 16).
- Данные оценки качества (Human Evaluation): Результаты работы асессоров (evaluation module) используются для валидации релевантности связей, обеспечиваемых конкретными предикатами (Claim 15).
Какие метрики используются и как они считаются
- Confidence Score (Оценка уверенности): Вероятностная метрика, указывающая на уверенность системы в связи между сущностью и запросом/результатом или в релевантности предиката.
- Multiplicative Probability (Мультипликативная вероятность): Метод комбинирования нескольких Confidence Scores путем их перемножения для определения итоговой вероятности релевантности совпадения (Claim 20). Используется для принятия решения о показе результата.
- Relevance Score (Оценка релевантности): Метрика, получаемая от Evaluation Module или Relevance Model (Claim 17) в процессе курирования предикатов.
Выводы
- Релевантность определяется связями (Предикатами): Патент подтверждает, что Google активно использует отношения между сущностями в Knowledge Graph для определения релевантности. Это позволяет находить контент, который семантически связан с запросом, даже если прямые совпадения отсутствуют.
- Курирование связей и роль Асессоров: Не все связи в KG используются одинаково. Google полагается на Курируемые наборы предикатов (Набор 1), которые проходят строгую валидацию, включая человеческую оценку (human evaluation). Асессоры определяют, какие типы связей считаются релевантными для пользователей.
- Механизм Entity Expansion: Расширение сущностей является стандартной процедурой для увеличения полноты поиска. Система ищет пересечения между начальными и расширенными наборами сущностей запроса и контента.
- Внедрение Объяснимого Поиска (Explainable AI): Relevance Descriptor — это реализация XAI в поиске. Google стремится объяснить пользователю логику выбора результата, что может повлиять на доверие и CTR.
- Иерархия предикатов для Ранжирования и Объяснения: Система использует более широкий набор предикатов для поиска результатов (Набор 1) и более строгий набор (Набор 2) для генерации объяснений. Это гарантирует, что объяснения будут понятны и полезны.
- Управление качеством через вероятности: Использование Confidence Scores и Multiplicative Probability позволяет системе управлять качеством совпадений, найденных через косвенные связи, фильтруя ненадежные результаты.
Практика
Best practices (это мы делаем)
- Фокус на связях между сущностями (Предикатах): При создании контента необходимо не просто перечислять сущности, но и четко прописывать взаимосвязи между ними. Используйте язык, который явно указывает на отношения (например, «X является автором Y», «A входит в состав B»). Это помогает системе распознать предикаты и использовать ваш контент для ответов на связанные запросы через Entity Expansion.
- Построение Тематического Авторитета (Topical Authority): Создавайте контент, который всесторонне охватывает тему, включая связанные сущности. Чем полнее ваш контент описывает семантическую область и связи внутри нее, тем выше вероятность совпадения с сущностями, полученными в результате расширения запроса.
- Использование структурированных данных (Schema.org): Активно внедряйте микроразметку для явного указания сущностей и их свойств (предикатов). Используйте свойства, которые соответствуют надежным предикатам в KG (например, author, isPartOf, brand, mentions). Это напрямую предоставляет системе данные для расширения.
- Улучшение внутренней перелинковки: Внутренние ссылки должны отражать семантические отношения между страницами (сущностями). Это укрепляет предикаты между контентом вашего сайта в глазах поисковой системы.
Worst practices (это делать не надо)
- Поверхностный контент и «Entity Stuffing»: Создание контента, который упоминает множество сущностей без раскрытия их взаимосвязей и контекста. Система оценивает качество связей (через курируемые предикаты и Confidence Scores), а не только наличие сущностей.
- Игнорирование связанных концепций: Фокусировка только на основной сущности или ключевом слове без охвата связанных тем. Это ограничивает возможности системы найти ваш контент через косвенные связи (Entity Expansion).
- Неоднозначный контент: Создание контента, в котором сложно определить основные сущности и их отношения, затрудняет работу механизмов Entity Extraction и Entity Expansion.
Стратегическое значение
Патент подтверждает стратегию Google на построение полностью семантического поиска, основанного на Knowledge Graph. Для SEO это означает, что оптимизация должна смещаться от уровня отдельных страниц к уровню построения семантической модели предметной области на сайте. Необходимо понимать, какие связи (предикаты) Google считает важными (курируемыми) в данной нише, и активно использовать их в контент-стратегии. Появление Relevance Descriptors также меняет ландшафт SERP, делая объяснение релевантности новым фактором привлечения кликов.
Практические примеры
Сценарий: Использование Entity Expansion для коммерческого запроса
- Запрос пользователя: «iPhone 15 Pro Max»
- Исходная сущность запроса: [iPhone 15 Pro Max]
- Расширение сущности (Query Expansion): Система использует курируемый предикат «Производитель» (Manufacturer) из Набора 1. Расширенный набор сущностей теперь включает: [iPhone 15 Pro Max], [Apple].
- Потенциальный результат: Статья «Новые функции безопасности в продуктах Apple».
- Сущности результата: [Apple], [iOS], [Security Features].
- Сопоставление: Система находит совпадение по сущности [Apple].
- Генерация дескриптора: Поскольку предикат «Производитель» входит в Набор 2 (одобрен для объяснений), система генерирует Relevance Descriptor.
- Отображение в SERP:
Заголовок: Новые функции безопасности в продуктах Apple
URL: example.com/apple-security
Relevance Descriptor: Связано с производителем iPhone 15 Pro Max.
Вопросы и ответы
Что такое «Предикат» (Predicate) в контексте этого патента и почему он важен для SEO?
Предикат — это тип отношения между двумя сущностями в Knowledge Graph (например, «автор», «находится в», «является частью»). Они важны для SEO, потому что Google использует их для расширения (Expansion) значения запроса. Это означает, что ваш контент может быть признан релевантным, даже если он не содержит точных ключевых слов, но связан с запросом через эти семантические отношения.
Что такое «Курируемый набор предикатов» и как он формируется?
Это специально отобранный список связей, которые Google считает надежными индикаторами релевантности. Не все связи в KG используются. Патент подчеркивает (Claim 15), что этот набор формируется с помощью human evaluation (асессоров). Google тестирует предикаты, асессоры оценивают релевантность результатов, и только одобренные предикаты попадают в этот набор.
Что такое «Дескриптор релевантности» (Relevance Descriptor) и как он выглядит?
Это элемент интерфейса в выдаче, который объясняет пользователю, почему показан конкретный результат. Это реализация Объяснимого ИИ (XAI) в поиске. Он может выглядеть как короткая текстовая строка под сниппетом, например, «Ваша тема упоминается в этом видео» или указывающая на связь: «Связано с автором [Имя]».
Всегда ли будет показываться Relevance Descriptor, если результат найден через расширение?
Нет. Патент описывает два набора предикатов. Первый (Набор 1) используется для поиска результатов (Ранжирование). Второй (Набор 2, подмножество Набора 1) используется для принятия решения о показе Relevance Descriptor (Объяснение). Дескриптор будет показан, только если связь основана на предикате из второго, более строгого набора.
Как SEO-специалист может оптимизировать контент для этого механизма?
Необходимо фокусироваться на четком описании взаимосвязей между сущностями в контенте. Используйте ясные формулировки, указывающие на отношения (предикаты). Активно используйте структурированные данные (Schema.org), чтобы явно указать эти связи (например, свойства author, isPartOf). Создавайте контент, который полностью покрывает тему и связанные с ней концепции (Topical Authority).
Как «Оценка уверенности» (Confidence Score) влияет на ранжирование?
Система рассчитывает уверенность для каждой связи в цепочке расширения. Патент предлагает использовать мультипликативную вероятность (Multiplicative Probability) — перемножение оценок уверенности. Если итоговая оценка ниже определенного порога, результат может не быть показан или будет понижен в ранжировании, даже если семантическая связь существует.
Повлияет ли появление Relevance Descriptors на CTR в выдаче?
Весьма вероятно. Relevance Descriptor предоставляет дополнительную информацию, которая может как привлечь пользователя, подтвердив релевантность, так и помочь ему понять, что результат не совсем то, что он искал. Это делает оптимизацию под ясность и точность контента еще более важной для привлечения целевых кликов.
Применяется ли этот механизм только к веб-страницам?
Нет. В патенте явно упоминаются Content Platform System (например, видеохостинги) и Advertisement Platform. Это означает, что механизм расширения сущностей используется для сопоставления запросов с видеоконтентом и рекламой, улучшая релевантность во всех вертикалях поиска.
Как этот патент влияет на концепцию Тематического Авторитета (Topical Authority)?
Он значительно усиливает ее значение и объясняет механизм ее работы. Чтобы быть авторитетным источником, сайт должен покрывать не только основную сущность, но и все ключевые связанные сущности и отношения между ними. Поскольку система расширяет запросы через предикаты, авторитетный сайт с широким охватом темы с большей вероятностью будет соответствовать этим расширенным запросам.
Означает ли этот патент, что ключевые слова стали менее важны?
Ключевые слова остаются важными для базового сопоставления. Однако этот патент подчеркивает, что семантическое соответствие на уровне сущностей и их связей приобретает все большее значение. Система готова предпочесть результат, который семантически связан через Knowledge Graph, даже если он слабее оптимизирован под точную текстовую формулировку запроса.