Google использует модель оценки для различения именованных сущностей с одинаковыми названиями (например, «Ягуар» как животное или автомобиль). Система анализирует контекст запроса и сравнивает его со статьями о сущностях в базе знаний (например, Wikipedia). Модель учитывает текстовую релевантность, тематические категории, а также метрики авторитетности (ссылки, популярность, репутация) этих статей для выбора наиболее вероятного значения имени.
Описание
Какую задачу решает
Патент решает фундаментальную проблему информационного поиска: неоднозначность имен собственных (proper names). Многие поисковые запросы содержат имена, которые могут относиться к разным сущностям (например, «Python» — язык программирования, змея или фильм). Это приводит к смешанным результатам поиска. Изобретение направлено на точное определение того, какая именно именованная сущность (named entity) подразумевается в конкретном запросе, исходя из его контекста.
Что запатентовано
Запатентована система и метод для устранения неоднозначности (disambiguation) именованных сущностей с использованием Disambiguation Scoring Model. Эта модель обучается на основе внешней структурированной базы знаний (Knowledge Base), такой как Wikipedia. Система анализирует структуру KB — заголовки статей, перенаправления (redirects), страницы разрешения неоднозначностей, гиперссылки и категории — для изучения взаимосвязей между именами, контекстами и конкретными сущностями.
Как это работает
Система работает в двух фазах:
- Офлайн-обучение (Generation Phase): Система анализирует Knowledge Base (KB), идентифицирует статьи о сущностях и создает словарь (Named Entity Dictionary). Затем она генерирует обучающий набор данных, используя внутренние ссылки в KB как готовые примеры правильного разрешения неоднозначности. На этих данных обучается Disambiguation Scoring Model.
- Обработка запроса (Runtime): Когда поступает запрос с неоднозначным именем, система определяет всех кандидатов. Для каждого кандидата модель рассчитывает similarity score между контекстом запроса и статьей об этой сущности. Оценка учитывает текстовое сходство, корреляцию слов запроса с категориями сущности, а также метрики авторитетности и популярности статьи. Сущность с наивысшей оценкой признается правильным значением.
Актуальность для SEO
Критически высокая. Устранение неоднозначности сущностей является ядром современного семантического поиска и основой для работы Knowledge Graph и систем NLP (BERT, MUM). Хотя методы, описанные в патенте (поданном в 2006 г.), технологически устарели (например, использование TF-IDF и SVM), описанные принципы — использование контекста, категорий и авторитетности для различения сущностей — остаются фундаментальными для Google.
Важность для SEO
Патент имеет высокое значение (90/100) для SEO. Он раскрывает фундаментальные механизмы, которые Google использует для понимания сущностей. Критически важно, что система использует не только текстовый контекст, но и метрики авторитетности (link structure metrics, popularity, reputation) связанных статей в KB для разрешения неоднозначностей. Это подчеркивает важность построения авторитета (E-E-A-T) и обеспечения точного представления сущности в базах знаний.
Детальный разбор
Термины и определения
- Context (Контекст)
- Текст, окружающий упоминание имени. Используется для обучения (текст вокруг ссылки в статье KB) и во время выполнения (слова в поисковом запросе помимо самого имени).
- Disambiguation Article (Страница разрешения неоднозначности)
- Статья в Knowledge Base, которая перечисляет различные значения (senses) неоднозначного имени и ссылается на соответствующие статьи о сущностях.
- Disambiguation Scoring Model (Модель оценки разрешения неоднозначности)
- Модель (например, SVM), обученная для расчета similarity score. Определяет вероятность того, что имя в данном контексте относится к конкретной сущности.
- Knowledge Base (KB) (База знаний)
- Внешняя коллекция гипертекстовых статей (например, Wikipedia). Используется как источник данных о сущностях и обучающих данных.
- Named Entity (Именованная сущность)
- Объект реального мира (человек, место, организация и т.д.), имеющий имя собственное (proper name) и описанный в статье Knowledge Base.
- Redirect Article (Страница перенаправления)
- Статья в KB, которая связывает альтернативное имя (синоним, аббревиатуру, вариант написания) с основной статьей о сущности.
- Similarity Score (Оценка сходства)
- Числовая оценка, измеряющая корреляцию между контекстом запроса и статьей о сущности. Включает текстовое сходство, корреляцию с категориями и метрики авторитетности.
- Word-Category Correlation (Корреляция Слово-Категория)
- Метрика, оценивающая связь между конкретным словом в контексте и категориями, к которым принадлежит сущность-кандидат.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной процесс разрешения неоднозначности во время обработки запроса.
- Система получает запрос, содержащий proper name в определенном context (включает имя и дополнительные термины).
- Определяются named entities-кандидаты, соответствующие этому имени.
- Для каждого кандидата идентифицируется соответствующая named entity article.
- Для каждого кандидата вычисляется similarity score между статьей о нем и контекстом запроса.
- Имя разрешается путем ассоциации с той статьей, которая имеет наивысший similarity score.
Критически важная часть Claim 1 определяет компоненты similarity score:
[…determining a similarity score includes determining a similarity score based, in part, on link structure metrics of the named entity article, popularity metrics of the named entity article, recency scores for the named entity article, and reputation based scores for the named entity article.]
Авторитетность и популярность статьи, определяющей сущность (например, страницы в Wikipedia), напрямую влияют на вероятность того, что эта сущность будет выбрана в качестве правильного значения для неоднозначного имени в запросе.
Claim 2 (Зависимый от 1): Уточняет, что similarity score может быть основан на функции косинусного сходства (cosine similarity function) между векторными представлениями контекста и статьи.
Claim 8 (Зависимый от 1): Добавляет использование категорий.
- Определяются категории, назначенные статье о сущности.
- Расчет similarity score включает определение корреляции между словами контекста в запросе и этими категориями (Word-Category Correlation).
Это позволяет системе понять тематическую связь, даже если конкретные слова из запроса отсутствуют в статье о сущности.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя предварительно обработанные данные для понимания запросов в реальном времени.
INDEXING / Офлайн-обработка (Offline Processing)
Обработка Knowledge Base (например, Wikipedia) для построения модели.
- Создание словаря сущностей: Анализ заголовков, редиректов и страниц разрешения неоднозначностей для создания Named Entity Dictionary.
- Генерация обучающих данных: Использование существующих гиперссылок внутри KB как маркированных данных (Disambiguation Dataset).
- Обучение модели: Disambiguation Scoring Model обучается связывать контексты с сущностями, рассчитывая веса для текстового сходства, корреляций слово-категория и метрик авторитетности.
QUNDERSTANDING – Понимание Запросов
Основное применение патента в реальном времени.
- Идентификация имени (NER): Система определяет потенциальное имя собственное в запросе.
- Генерация кандидатов: Извлекаются все сущности, соответствующие этому имени.
- Разрешение неоднозначности (NED): Disambiguation Scoring Model оценивает каждого кандидата на основе контекста запроса. Выбирается сущность с наивысшим similarity score.
RANKING / PRESENTATION – Ранжирование и Представление
Патент упоминает, что результат разрешения неоднозначности используется для дополнения результатов поиска (augment the search results), например, для группировки документов в соответствии с идентифицированными сущностями.
На что влияет
- Специфические запросы: Наибольшее влияние на запросы, содержащие неоднозначные имена собственные (бренды, имена людей, названия продуктов, географические названия).
- Контент, связанный с сущностями: Влияет на то, как контент интерпретируется и классифицируется в зависимости от того, какие сущности в нем определены и насколько точно они разрешены.
Когда применяется
- Триггеры активации: Алгоритм активируется, когда в запросе идентифицировано имя собственное, которое в Named Entity Dictionary связано более чем с одной сущностью.
- Пороговые значения: Система может использовать порог (threshold τ) для оценки уверенности. Если наивысшая оценка ниже порога, система может определить, что искомая сущность отсутствует в базе знаний (Outsider Entity).
Пошаговый алгоритм
Процесс А: Офлайн-обучение модели (Generation Phase)
- Идентификация сущностей: Анализ статей в Knowledge Base (KB) с использованием эвристических правил (например, по капитализации заголовков) для выявления статей об именованных сущностях.
- Построение словаря: Извлечение всех имен для каждой сущности из заголовков, страниц перенаправлений и страниц разрешения неоднозначностей. Создание Named Entity Dictionary.
- Генерация обучающего набора данных (Disambiguation Dataset): Обход статей в KB. Каждая гиперссылка на сущность рассматривается как обучающий пример. Извлекается контекст вокруг ссылки (например, окно в 55 слов) и целевая статья. Это положительный пример для целевой сущности и отрицательные примеры для других сущностей с тем же именем.
- Извлечение признаков: Для каждого примера вычисляются признаки (Feature Vector Φ):
- Текстовое сходство (Context-Article Similarity, например, cosine similarity с tf-idf).
- Корреляция между словами контекста и категориями статьи (Word-Category Correlations).
- Метрики авторитетности статьи (link structure, popularity, reputation, recency).
- Обучение модели: Использование алгоритма машинного обучения (например, SVM с ранжирующим ядром) для изучения весов (W) этих признаков и создания Disambiguation Scoring Model.
Процесс Б: Обработка запроса (Runtime Phase)
- Получение запроса (q): Система получает запрос, содержащий имя и контекст.
- Идентификация кандидатов: Поиск имени в Named Entity Dictionary и получение списка кандидатов (e_k).
- Расчет оценок: Для каждого кандидата модель рассчитывает similarity score (например, W * Φ(q, e_k)), используя обученные веса и признаки, извлеченные из контекста запроса и профиля сущности.
- Разрешение неоднозначности: Выбор кандидата с наивысшим баллом (arg max score).
- Аугментация выдачи: Использование идентифицированной сущности для организации результатов поиска.
Какие данные и как использует
Данные на входе
Система использует данные из Knowledge Base (например, Wikipedia) и данные запроса.
- Контентные факторы:
- Текст статей (e.text) в KB. Используется для расчета текстового сходства с контекстом.
- Заголовки статей (e.title). Используются для идентификации сущностей.
- Структурные факторы (внутри KB):
- Гиперссылки (Links и Piped Links): Внутренние ссылки в KB. Критически важны для генерации обучающих данных.
- Redirect Articles: Определяют альтернативные имена и синонимы сущностей.
- Disambiguation Articles: Определяют набор возможных значений для неоднозначного имени.
- Категории (Categories): Иерархическая таксономия тем. Используются для расчета Word-Category Correlations.
- Факторы авторитетности и качества (Явно указаны в Claim 1):
- Link structure metrics (Метрики ссылочной структуры): Например, PageRank статьи о сущности в KB.
- Popularity metrics (Метрики популярности): Популярность статьи о сущности.
- Reputation metrics (Метрики репутации): Например, репутация авторов статьи.
- Recency metrics (Метрики свежести): Актуальность статьи.
- Пользовательские факторы:
- Текст запроса (q.text). Используется как контекст для разрешения неоднозначности.
Какие метрики используются и как они считаются
Основная метрика — Similarity Score, которая является взвешенной комбинацией различных признаков в модели ранжирования.
- Context-Article Similarity (Сходство контекста и статьи): Может рассчитываться как косинусное сходство между вектором контекста запроса и вектором текста статьи с использованием весов tf-idf.
- Word-Category Correlations (Корреляции слово-категория): Признаки, представляющие комбинации слов и категорий. Модель изучает, насколько сильно определенные слова в контексте коррелируют с определенными категориями (например, слово «концерт» с категорией «Музыканты»).
- Метрики авторитетности: Link structure, Popularity, Reputation, Recency. Включены как компоненты общей оценки Similarity Score.
Выводы
- Контекст определяет сущность: Ключевой вывод — значение неоднозначного имени определяется окружающими его словами. Система обучается распознавать эти контекстуальные сигналы.
- Зависимость от структурированных баз знаний (KB): Эффективность системы напрямую зависит от качества и полноты внешней KB (например, Wikipedia). KB предоставляет описания сущностей и обучающие данные через внутренние ссылки.
- Авторитетность влияет на выбор сущности: Критически важный вывод из Claim 1: Similarity Score включает метрики авторитетности (link structure, popularity, reputation) статьи о сущности. При прочих равных система предпочтет ту сущность, чья определяющая статья более авторитетна или популярна.
- Тематические категории расширяют понимание: Использование Word-Category Correlations позволяет системе разрешать неоднозначность, даже если в статье о сущности отсутствуют точные слова из запроса, благодаря пониманию тематических связей.
- Автоматическое обучение на структуре KB: Патент демонстрирует эффективный метод использования существующих гиперссылок в KB для автоматической генерации обучающих данных без ручной разметки.
Практика
Best practices (это мы делаем)
- Обеспечение четкого контекста вокруг упоминаний сущностей: При упоминании брендов, продуктов или имен людей (особенно неоднозначных) предоставляйте достаточный контекст (определяющие слова, связанные термины). Это помогает поисковой системе корректно сопоставить упоминание с нужной сущностью, используя механизм Context-Article Similarity.
- Согласование с Knowledge Base и оптимизация представления в ней: Убедитесь, что информация о ваших ключевых сущностях точно и полно представлена в авторитетных базах знаний (Wikipedia, Wikidata). Текст, категории и структура этих статей используются Google как основа для понимания сущностей.
- Повышение авторитетности и популярности (E-E-A-T): Поскольку link structure metrics, popularity и reputation явно включены в модель разрешения неоднозначности (Claim 1), работа над общим авторитетом вашего бренда и его представления в KB критически важна. Авторитетные сущности имеют преимущество при разрешении споров о значении имени.
- Использование тематически релевантной лексики (Topical Authority): Насыщайте контент словами и фразами, которые сильно коррелируют с вашей тематической категорией. Механизм Word-Category Correlations поможет Google связать ваш контент с правильной нишей и правильно интерпретировать сущности.
Worst practices (это делать не надо)
- Использование неоднозначных имен без контекста: Упоминание имен или названий, имеющих несколько значений, без уточняющих слов может привести к неправильной интерпретации контента поисковой системой.
- Игнорирование представления в базах знаний: Отсутствие информации о вашем бренде в авторитетных KB или наличие там устаревшей информации снижает способность Google корректно идентифицировать связанные с вами запросы.
- Фокус только на тексте без учета авторитетности: Полагаться только на текстовую оптимизацию недостаточно. Если конкурирующая сущность с тем же именем имеет более сильные сигналы популярности и авторитетности, Google может предпочесть ее при разрешении неоднозначности.
Стратегическое значение
Этот патент подчеркивает стратегический переход Google от сопоставления ключевых слов к пониманию сущностей и контекста (Entity SEO). Он демонстрирует, что идентификация сущностей — это процесс ранжирования, в котором авторитетность и тематическая связанность играют важную роль. Для SEO это означает, что построение реального авторитета, обеспечение точного представления в глобальных базах знаний и создание четких контекстуальных сигналов являются фундаментальными аспектами долгосрочной стратегии.
Практические примеры
Сценарий: Разрешение неоднозначности бренда «Aurora»
Бренд «Aurora» может относиться к автомобильной компании, программному обеспечению или природному явлению.
- Запрос пользователя: «Последние драйверы Aurora»
- Контекст: «Последние драйверы»
- Анализ кандидатов:
- Сущность 1: Aurora (Автомобили). Word-Category Correlation: слово «драйверы» (drivers) может слабо коррелировать с категорией «Автомобили» (водители).
- Сущность 2: Aurora (Программное обеспечение). Context-Article Similarity высокий (статья о ПО часто упоминает драйверы). Word-Category Correlation: слово «драйверы» сильно коррелирует с категорией «Software».
- Сущность 3: Aurora (Природное явление). Similarity Score очень низкий.
- Влияние авторитетности: Если статьи о ПО и автомобилях имеют схожую текстовую релевантность, система проверит popularity metrics и link structure metrics. Если статья о ПО в KB более авторитетна, ее итоговый Similarity Score будет выше.
- Результат: Система выбирает «Aurora (Программное обеспечение)» как правильное значение и организует выдачу вокруг этой сущности.
Вопросы и ответы
Как система определяет, что является «именованной сущностью» в Knowledge Base?
Патент описывает набор эвристических правил, применяемых к заголовкам статей (например, в Wikipedia). Основные правила включают проверку капитализации: если заголовок состоит из нескольких слов и все содержательные слова написаны с заглавной буквы; если это акроним; или если более 75% упоминаний заголовка внутри статьи капитализированы. Это автоматизированный процесс идентификации имен собственных.
Насколько важен контекст запроса для разрешения неоднозначности?
Контекст критически важен. Он является основным источником данных для расчета Similarity Score. Система сравнивает слова, окружающие имя в запросе, с текстом статей о сущностях-кандидатах и с их категориями. Без контекста разрешение неоднозначности значительно усложняется и, вероятно, будет полагаться в основном на метрики популярности сущностей.
Что такое «Word-Category Correlations» и как это работает?
Это механизм, который позволяет системе понять тематическую связь между словами в запросе и сущностью, даже если эти слова не встречаются в статье о сущности. Система изучает, какие слова часто встречаются в контекстах, связанных с определенными категориями (например, слово «режиссер» сильно коррелирует с категорией «Фильмы»). Если сущность принадлежит к категории «Фильмы», а в запросе есть слово «режиссер», это увеличит ее Similarity Score.
Как метрики авторитетности (ссылки, популярность) влияют на выбор сущности?
Патент явно указывает (в Claim 1), что link structure metrics, popularity metrics, и reputation based scores являются частью расчета Similarity Score. Если две разные сущности имеют одинаковое имя и схожую текстовую релевантность контексту запроса, система предпочтет ту сущность, чья определяющая статья (например, в Wikipedia) является более авторитетной или популярной.
Что это значит для SEO моего бренда, если у него распространенное имя?
Это означает, что вам нужно активно работать над тем, чтобы ваша интерпретация имени стала доминирующей в вашей нише. Во-первых, обеспечьте наличие полной и авторитетной статьи о вашем бренде в ключевых базах знаний (Wikipedia/Wikidata). Во-вторых, работайте над повышением популярности и ссылочной авторитетности этой статьи и вашего официального сайта. В-третьих, используйте четкий контекст во всех ваших материалах, чтобы усилить связь вашего бренда с вашей категорией.
Использует ли Google только Wikipedia в качестве Knowledge Base?
В патенте Wikipedia приводится как пример Knowledge Base из-за ее структуры (редиректы, категории, внутренние ссылки), которая идеально подходит для обучения модели. Хотя современный Knowledge Graph Google агрегирует данные из множества источников, принципы, описанные в патенте, основаны на анализе структурированных, энциклопедических данных, и Wikipedia остается ключевым источником.
Что такое Redirect и Disambiguation страницы и как они используются?
Redirect страницы используются для учета альтернативных имен, синонимов и аббревиатур (например, «США» перенаправляет на «Соединенные Штаты Америки»). Disambiguation страницы перечисляют все возможные значения неоднозначного имени. Система использует обе эти структуры для создания полного словаря имен (Named Entity Dictionary) и понимания связей между ними.
Может ли система идентифицировать новые сущности, которых еще нет в Knowledge Base?
Да, патент предусматривает механизм для обработки «внешних» (outsider) сущностей. Если Similarity Score для всех известных кандидатов ниже определенного порога (τ), система может решить, что ни одна из известных сущностей не подходит. Это позволяет идентифицировать упоминания сущностей, которые еще не описаны в базе знаний.
Как генерируются обучающие данные для модели?
Ключевая идея патента — использовать существующие гиперссылки внутри Knowledge Base как готовые обучающие данные. Предполагается, что когда автор статьи в Wikipedia вручную ставит ссылку с имени на конкретную статью о сущности, он выполняет акт разрешения неоднозначности. Система извлекает контекст вокруг этой ссылки и использует его как положительный пример для связанной сущности.
Какие алгоритмы машинного обучения используются?
Патент упоминает возможность использования Support Vector Machine (SVM) или других алгоритмов обучения с учителем. В частности, упоминается подход к ранжированию с большим зазором (large-margin ranking approach) с использованием ядер (kernels) для оптимизации весов признаков (текстовое сходство, категории, авторитетность) в модели оценки.