Как поисковые системы используют «Inverse Network Size» (INS) и знания о реальном мире для различения сущностей с одинаковыми именами

Анализ патента (IBM), описывающего механизм устранения неоднозначности сущностей (люди, места, организации). Система использует контекстные описания и метрику «Inverse Network Size» (INS) для оценки уникальности этих описаний в реальном мире, а не частоты их упоминания в интернете. Это позволяет определить, ссылаются ли разные страницы на одну и ту же конкретную сущность, и переранжировать выдачу.

Описание

Какую задачу решает

Патент решает фундаментальную проблему поиска: неоднозначность имен сущностей (Entity Ambiguity). Одно и то же имя (например, «Asha», «Michael Jordan», «Washington») может относиться к множеству разных людей, организаций или мест. Стандартная выдача смешивает результаты, относящиеся к разным сущностям. Изобретение направлено на то, чтобы помочь системе понять, какая именно сущность интересует пользователя, и отфильтровать результаты соответствующим образом, снижая необходимость ручного уточнения запроса.

Что запатентовано

Запатентована система устранения неоднозначности сущностей, основанная на анализе описаний (descriptions). Система вводит ключевые концепции: Description Subspace (Подпространство Описаний) и Inverse Network Size (INS) — метрику сходства, основанную на знаниях о реальном мире (Domain Statistics), а не на частоте слов в интернете (Corpus Statistics). Механизм использует «базовую страницу» (Base Web Page), выбранную пользователем, как эталон контекста, и переранжирует выдачу, вычисляя вероятность того, что другие страницы ссылаются на ту же самую сущность.

Как это работает

Механизм работает следующим образом:

Определение контекста: Пользователь выбирает результат (Base Web Page), соответствующий искомой сущности.
Извлечение описаний: Система извлекает описания (профессия, местоположение, аффилиация) сущности с базовой и других страниц. Эти описания формируют векторы в Description Subspace.
Расчет INS: Сходство вычисляется с помощью Inverse Network Size (INS). INS отдает приоритет тем общим описаниям, которые являются наиболее уникальными (дискриминирующими) в реальном мире. Например, «Президент США» более уникален, чем «Почтальон».
Переранжирование: Результаты переупорядочиваются на основе вероятности того, что они ссылаются на ту же сущность, что и на базовой странице.

Актуальность для SEO

Высокая. Хотя патент принадлежит IBM (подан в 2005 г.), описанные концепции фундаментальны для современного семантического поиска и Knowledge Graph. Устранение неоднозначности сущностей — ключевая задача для Google. Идея использования знаний о реальном мире (Domain Statistics) для идентификации сущностей остается критически важной, даже если конкретные реализации (например, явная обратная связь пользователя) эволюционировали в более автоматизированные нейросетевые подходы.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10) для SEO, особенно в контексте E-E-A-T и Entity SEO. Он демонстрирует механизм, который отдает предпочтение уникальным, дискриминирующим описаниям сущностей, а не частоте ключевых слов. Это подчеркивает критическую важность предоставления четкого и однозначного контекста для ключевых сущностей (авторов, организаций, продуктов) на странице, чтобы помочь системам правильно интерпретировать контент.

Детальный разбор

Термины и определения

Base Web Page (Базовая веб-страница): Страница, выбранная пользователем как эталонный пример контекста для искомой сущности. Используется для переранжирования остальных результатов.
Corpus Statistics (Статистика корпуса): Данные, основанные на частоте терминов в коллекции документов (например, TF-IDF). Патент доказывает их неэффективность для дисамбигуации сущностей.
Description Subspace (DS) (Подпространство Описаний): Специализированное векторное пространство, где измерениями являются только описательные элементы сущностей (организации, профессии, места, типы), а не все слова документа.
Domain Statistics (Статистика домена): Данные о реальном мире (например, данные переписи населения), используемые для оценки Network Size. Противопоставляется Corpus Statistics.
Entity (Сущность): Объект реального мира (человек, место, организация, продукт), упоминаемый на веб-странице.
Inverse Network Size (INS) (Обратный Размер Сети): Ключевая метрика сходства. Оценивает вероятность того, что две страницы ссылаются на одну и ту же сущность, основываясь на уникальности их общего описания в реальном мире. Обратно пропорциональна Network Size.
Network Size (Nᵢ) (Размер Сети): Количество сущностей в реальном мире, соответствующих определенному описанию. Например, количество людей, связанных со Стэнфордским университетом.
Selection Problem / Elimination Problem: Задачи повышения (Selection) или понижения (Elimination) в выдаче страниц, относящихся к определенной сущности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод устранения неоднозначности сущностей.

Идентификация набора потенциальных значений для сущности.
Получение веб-страниц с описаниями этой сущности.
Установление Base Web Page, содержащей выбранный контекст (значение) сущности.
Присвоение измерений векторного пространства (Description Subspace), атрибутированных доменам на полученных страницах.
Вычисление вероятности сходства между сущностью на полученной странице и сущностью на Base Web Page.
Ключевой аспект: Вычисление включает сопоставление меры сходства (similarity measure, например, INS) между измерениями векторного пространства и вероятностью того, что страницы ссылаются на одну и ту же сущность.
Отчет о вероятности сходства пользователю (через переранжирование).

Ядро изобретения — использование эталонного контекста (Base Web Page) и вычисление вероятности ко-референции сущностей на основе сравнения их описаний в специализированном векторном пространстве с использованием метрик, основанных на знаниях о домене.

Claim 5 (Зависимый от 1): Метод включает ранжирование веб-страниц на основе вычисленной вероятности сходства.

Результаты вычисления вероятности используются для изменения порядка поисковой выдачи.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, требуя предварительной подготовки данных и активируясь в реальном времени.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит подготовка данных:

Извлечение сущностей и их описаний (профессии, локации, аффилиации) со страниц.
Построение Description Subspace.
Сбор внешних данных (Domain Statistics): использование источников типа U.S. Census Bureau для оценки Network Size (Nᵢ) для описательных элементов. Эта информация интегрируется в базу знаний.

QUNDERSTANDING – Понимание Запросов
Система должна распознать, что запрос содержит имя сущности и что это имя является неоднозначным.

RERANKING – Переранжирование (и пользовательский интерфейс SERP)
Основное применение патента. Процесс активируется после стандартного ранжирования в ответ на действия пользователя:

Триггер: Пользователь предоставляет обратную связь (например, кликает «This Asha»), устанавливая Base Web Page.
Вычисление сходства: Система в реальном времени вычисляет меру сходства (INS) между Base Web Page и остальными результатами, используя предварительно извлеченные данные.
Финальное ранжирование: Результаты пересортируются на основе вероятности ко-референции сущностей.

Входные данные:

Исходный запрос и первичный SERP.
Выбор пользователя (Base Web Page).
Предварительно извлеченные описания (векторы в Description Subspace).
Данные о Network Size (Nᵢ).

Выходные данные:

Переранжированный SERP, приоритизирующий страницы о выбранной сущности.

На что влияет

Специфические запросы: Запросы, являющиеся неоднозначными именами сущностей (люди, организации, места, продукты). Например, «Mustang» (автомобиль или лошадь), «Washington» (штат или город).
Конкретные типы контента: Биографии, профили компаний, новостные статьи, каталоги, локальные страницы.

Когда применяется

Условия применения: Когда запрос идентифицирован как неоднозначное имя сущности.
Триггеры активации: В описанной реализации алгоритм переранжирования активируется только после получения явной обратной связи от пользователя (выбора Base Web Page).

Пошаговый алгоритм

Этап А: Подготовка (Офлайн / Индексирование)

Построение Description Subspace: Определение ключевых измерений (организации, профессии, места).
Сбор Domain Statistics: Оценка Network Size (Nᵢ) для каждого измерения с использованием внешних источников.
Индексирование и Извлечение: Извлечение сущностей и связанных с ними описаний со страниц. Патент предлагает использовать совместное появление термина в окне (например, 100 слов) вокруг сущности.

Этап Б: Обработка запроса (Онлайн)

Получение запроса и Ранжирование: Генерация стандартного SERP.
Получение обратной связи (Триггер): Пользователь выбирает Base Web Page.
Вычисление сходства (INS): Расчет INS между Base Web Page и другими страницами.
- Идентифицируются общие измерения (описания) i.
- Сходство INSₐᵦ вычисляется как произведение (Nᵢ/K) для всех общих измерений i (где K — константа нормализации). Меньшее значение INS указывает на большее сходство.
Вычисление вероятности: Оценка вероятности ко-референции на основе INS.
Переранжирование: Сортировка результатов на основе вычисленной вероятности.
Предоставление результатов: Показ обновленного SERP.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст вблизи упоминания сущности (окно 100 слов). Система ищет описания, соответствующие Description Subspace: местоположение, организация и аффилиация, профессия/экспертиза, связи с другими сущностями, тип сущности.
Внешние данные (Domain Statistics): Критически важные данные для расчета INS. Используются знания о реальном мире (например, U.S. Census Bureau) для оценки Network Size.
Пользовательские факторы: Выбор Base Web Page пользователем.

Какие метрики используются и как они считаются

Ключевое нововведение — использование Domain Statistics вместо Corpus Statistics (как в TF-IDF).

Network Size (Nᵢ): Количество сущностей в реальном мире, соответствующих измерению i.
Inverse Network Size (INS): Мера сходства между документами a и b. Рассчитывается как произведение нормализованных размеров сети (Nᵢ/K) для всех общих измерений i.

Логика INS: Чем меньше Network Size общего описания, тем оно более дискриминирующее, и тем выше вероятность, что обе страницы говорят об одной и той же сущности.

Выводы

Приоритет реального мира над веб-корпусом (INS > IDF): Ключевой вывод — для идентификации сущностей уникальность описания в реальном мире (измеряемая INS) гораздо важнее, чем частота его упоминания в интернете (измеряемая IDF). Это фундаментальный принцип семантического поиска.
Дискриминирующие описания как ключ к идентификации: Система различает сущности, анализируя их описания (профессия, локация, аффилиация). Чем более уникальным (меньший Network Size) является описание, тем оно эффективнее.
Фокус на Description Subspace: Вместо анализа всего текста система фокусируется на подпространстве описательных терминов. Это позволяет сравнивать контексты сущностей, игнорируя общий тематический шум страницы.
Важность близости и структуры (Proximity): Описания часто находятся рядом с сущностью. Патент показал эффективность окна в 100 слов для извлечения контекста, хотя и отмечает, что структура страницы (заголовки) также играет роль.
Зависимость от внешних знаний: Эффективность системы зависит от доступа к точным данным о реальном мире (Domain Statistics), что подчеркивает роль Графов Знаний в современном поиске.

Практика

Best practices (это мы делаем)

Предоставляйте четкие и дискриминирующие описания: Для любой ключевой сущности (автор, организация, продукт) используйте наиболее уникальные атрибуты. Указывайте точные названия должностей, конкретные организационные аффилиации и точные местоположения. Это напрямую формирует данные для Description Subspace.
Используйте атрибуты с малым Network Size: Сосредоточьтесь на связях, которые уникальны в реальном мире. Связь с конкретным уникальным проектом или узкоспециализированной организацией более эффективна для идентификации, чем связь с общими понятиями («эксперт», «Москва»).
Оптимизируйте близость (Proximity): Размещайте ключевые описания как можно ближе к имени сущности в тексте (в пределах 100 слов), чтобы гарантировать правильное извлечение контекста.
Используйте структурированные данные (Schema.org): Микроразметка позволяет явно указать атрибуты сущности (jobTitle, affiliation, location). Это идеальный способ предоставить данные для Description Subspace, устраняя неоднозначность извлечения из текста.
Укрепляйте E-E-A-T через четкую идентификацию: Обеспечьте, чтобы профессиональные достижения и аффилиации авторов и организации были четко указаны. Это помогает системе точно идентифицировать сущность и связать ее с сигналами авторитетности.

Worst practices (это делать не надо)

Неоднозначные ссылки на сущности: Упоминание имен собственных без контекста или описания. Это затрудняет работу алгоритмов disambiguation.
Использование только общих описаний: Опора на описания с большим Network Size (например, «менеджер», «житель города»). Они не помогают отличить вашу сущность от тысяч других.
Изоляция описаний от сущности: Размещение важных описательных данных далеко от основного упоминания сущности. Система может не установить связь между ними, если они выходят за пределы анализируемого окна.
Мышление в категориях TF-IDF: Предположение, что частое повторение термина поможет идентифицировать сущность. Для этой задачи уникальность описания (INS) важнее частоты.

Стратегическое значение

Этот патент подтверждает стратегический сдвиг от анализа слов к пониманию объектов реального мира (Entity-Oriented Search). Концепции Description Subspace и INS лежат в основе того, как поисковые системы строят и используют Графы Знаний. Для долгосрочной SEO-стратегии критически важно сосредоточиться на точном и полном описании ключевых сущностей сайта и их уникальных атрибутов. Это напрямую влияет на то, как система оценит авторитетность (E-E-A-T) и релевантность контента.

Практические примеры

Сценарий: Оптимизация биографической страницы автора с распространенным именем («Джон Смит»)

Задача: Гарантировать, что страница об ученом Джоне Смите не будет перепутана с другими людьми с таким же именем и будет связана с его экспертизой (E-E-A-T).
Анализ Network Size: Определить наиболее дискриминирующие атрибуты. «Профессор MIT» имеет значительно меньший Network Size, чем «Писатель».
Действия (Оптимизация контента и Proximity):
- В первом абзаце (близко к имени) четко указать: «Джон Смит, профессор кафедры компьютерных наук Массачусетского технологического института (MIT)…»
- Включить упоминания его уникальных проектов или наград.
Обоснование: Эти атрибуты являются высоко уникальным описанием (имеют низкий Inverse Network Size).
Ожидаемый результат: Поисковая система с высокой вероятностью правильно идентифицирует сущность «Джон Смит (MIT)» и кластеризует эту страницу с другими релевантными страницами об этом человеке, повышая ее авторитетность и релевантность.

Вопросы и ответы

В чем ключевое отличие предложенной метрики INS от стандартной TF-IDF?

TF-IDF основывается на статистике корпуса (частоте слов в интернете). IDF снижает вес часто встречающихся в сети слов. INS (Inverse Network Size) основывается на статистике домена (знаниях о реальном мире). Он снижает вес описаний, которые применимы к большому количеству реальных объектов, независимо от их частоты в интернете. INS ищет уникальные идентификаторы в реальности.

Что такое «Description Subspace» и почему это важно для SEO?

Description Subspace — это векторное пространство, где измерениями являются только описательные термины (профессии, локации, организации), а не все слова документа. Для SEO это важно, так как показывает, что система фокусируется именно на этих атрибутах для устранения неоднозначности. Размещение качественных, фактологических описаний рядом с сущностью критически важно для правильной интерпретации контента.

Как этот патент связан с Google Knowledge Graph и E-E-A-T?

Патент описывает механизмы, необходимые для построения Knowledge Graph — точное различение сущностей и понимание их атрибутов. Сигналы E-E-A-T связаны с конкретными сущностями. Если система не может точно идентифицировать сущность (автора, организацию) из-за неоднозначности имени, она не сможет правильно атрибутировать сигналы E-E-A-T. Этот патент показывает, как избежать такой неоднозначности через четкие описания.

Насколько важна близость описаний к имени сущности (Proximity)?

Очень важна. Патент указывает, что из-за сложности анализа неструктурированных веб-страниц система полагается на близость как на сильный сигнал связи. Эксперименты показали эффективность окна в 100 слов вокруг имени сущности для извлечения релевантных описаний. SEO-специалистам следует размещать ключевые атрибуты рядом с упоминанием сущности.

Что делать, если у моей сущности нет уникальных описаний (большой Network Size)?

Необходимо использовать комбинацию нескольких описаний. Хотя каждое отдельное описание может иметь большой Network Size (например, «инженер» и «житель Сиэтла»), их комбинация может быть гораздо более дискриминирующей. Убедитесь, что все релевантные атрибуты четко указаны на странице, чтобы система могла использовать их совокупность для идентификации.

Применяется ли этот механизм только к людям?

Нет. Патент явно указывает, что механизм применяется к различным типам сущностей, включая людей, организации, места и продукты. Например, он помогает отличить «Mustang» (автомобиль) от «Mustang» (лошадь), используя соответствующие описания (например, «Ford» для автомобиля).

Патент описывает систему, основанную на обратной связи пользователя (выбор Base Page). Используется ли это сейчас?

Конкретная реализация с явной обратной связью пользователя, вероятно, устарела. Современные системы (BERT, MUM, Knowledge Graph) стремятся устранять неоднозначность автоматически. Однако фундаментальные принципы — использование контекстных описаний (Description Subspace) и знаний о мире (INS) для оценки вероятности ко-референции — остаются крайне актуальными.

Как использование Schema.org соотносится с этим патентом?

Использование Schema.org идеально соответствует принципам патента. Разметка позволяет явно указать атрибуты сущности (jobTitle, affiliation, address), что напрямую соответствует элементам Description Subspace. Это устраняет зависимость от извлечения данных из текста и повышает точность идентификации сущности.

Патент принадлежит IBM и довольно старый. Актуален ли он для Google 2025 года?

Да, концепции абсолютно актуальны. Устранение неоднозначности стало еще более важным. Один из изобретателей, R. Guha, позже присоединился к Google и сыграл ключевую роль в разработке Schema.org и Knowledge Graph. Принципы, заложенные в этом патенте, являются фундаментальными для понимания современного поиска.

Откуда система берет данные о Network Size (Domain Statistics)?

Патент предполагает использование внешних баз знаний. Конкретно упоминаются данные Бюро переписи населения США (U.S. Census Bureau) для оценки профессий и населения городов. В современных реализациях это соответствует использованию обширных Графов Знаний и других структурированных источников данных о реальном мире.