Как Google использует онтологии для предложения связанных сущностей в автоподсказках, даже если они не содержат текст запроса

Google использует структурированные онтологии (графы знаний) для улучшения автоподсказок. Система анализирует вводимый пользователем текст, определяет связанную категорию (онтологию) и типы объектов внутри нее. На основе этого предлагаются связанные сущности (термины, изображения), которые расширяют или уточняют запрос, даже если они текстуально не совпадают с введенными символами.

Описание

Какую задачу решает

Патент решает проблему ограниченности традиционных систем автодополнения (autocomplete), которые предлагают варианты, основанные только на точном или частичном текстуальном совпадении с вводимым пользователем текстом (n-gram). Пользователи часто не знают точной терминологии или испытывают трудности с формулированием исчерпывающего запроса. Изобретение улучшает процесс формирования запроса, предлагая концептуально связанные термины (объекты), которые могут не содержать введенных пользователем символов.

Что запатентовано

Запатентована система, которая в реальном времени предлагает связанные объекты (Suggested Related Objects) во время ввода запроса, используя структурированные онтологии (Ontologies). Вместо простого текстового совпадения система идентифицирует категорию запроса, находит соответствующую онтологию и предлагает сущности из этой онтологии, которые концептуально связаны с намерением пользователя.

Как это работает

Система анализирует вводимый пользователем текст (n-gram). На основе этого ввода (и, возможно, стандартных автодополнений) система идентифицирует релевантную онтологию (например, «Медицинские проблемы, связанные с кожей»). Далее используется модель классификатора (Classifier Model) и оценка неопределенности (Vagueness Score), чтобы определить наиболее релевантные типы объектов (Object Types) внутри онтологии (например, «Побочные эффекты кожных заболеваний»). Объекты (термины), принадлежащие этим типам (например, «Выпадение волос», «Артрит»), предлагаются пользователю в качестве связанных подсказок, расширяя его запрос за пределы введенного текста.

Актуальность для SEO

Высокая. Патент напрямую связан с интеграцией Графа Знаний (Knowledge Graph) и семантического понимания в интерфейс поиска. По мере того как Google все больше полагается на сущности (entities) и структурированные данные для понимания запросов (например, с помощью MUM), механизмы, которые помогают пользователям уточнять запросы с использованием распознанных сущностей из онтологий, становятся критически важными.

Важность для SEO

Влияние на SEO значительно (7.5/10). Хотя патент описывает механизм работы интерфейса (Autosuggest), он раскрывает, как Google использует онтологии для понимания контекста запроса еще до его отправки. Это подчеркивает критическую важность оптимизации под сущности (Entity SEO). Понимание того, какие сущности Google связывает с определенной темой через свои онтологии, позволяет создавать более релевантный контент, который будет соответствовать уточненным запросам пользователей.

Детальный разбор

Термины и определения

Ontology (Онтология): Структура данных или модель (например, древовидная структура), содержащая множество узлов. Используется для идентификации объектов, связанных с вводом пользователя. Каждая онтология связана с определенной категорией (например, «Названия должностей в пищевой промышленности»).
Object Type (Тип объекта): Узел внутри онтологии, представляющий подкатегорию (например, «Официант ресторана»). Типы объектов могут иметь иерархию (родительские и дочерние узлы).
Object (Объект): Конкретная сущность, принадлежащая Типу объекта. Это может быть термин, изображение, аудио и т.д. (например, «Сомелье», «Банкетный официант»).
Suggested Related Objects (Предлагаемые связанные объекты): Объекты из онтологии, которые система предлагает пользователю в качестве подсказок. Они связаны с вводом, но не обязательно содержат текст ввода.
N-gram: Последовательность символов, введенная пользователем (например, «SKIN DIS»).
Classifier Model (Модель классификатора): Машинно обученная модель (например, нейронная сеть), используемая для маппинга пользовательского ввода на онтологию. Модель генерирует векторы (vectors) для введенного текста.
Vagueness Score (Оценка неопределенности/нечеткости): Метрика, указывающая на уровень специфичности ввода пользователя относительно онтологии. Низкий балл означает широкий запрос (например, «КОЖА»), высокий балл — специфичный запрос (например, «КОЖНЫЕ ЗАБОЛЕВАНИЯ»). Определяет, насколько глубоко система будет искать в онтологии.
Propensity Score (Оценка склонности): Метрика, указывающая на уровень специфичности, связанный с n-grams пользовательского ввода, используемыми для генерации автодополнения и связанных объектов. Учитывает количество совпадений и частоту использования терминов.
Confidence Score (Оценка уверенности): Метрика, указывающая на уверенность системы в связанности между конкретным Object Type и пользовательским вводом.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод автоподсказки связанных объектов.

Система получает данные о пользовательском вводе (n-gram).
Идентифицируется одна или несколько онтологий (Ontologies) на основе ввода. Каждая онтология связана с категорией, релевантной вводу, и содержит Object Types, которые включают термины (Objects).
Определяются предлагаемые связанные объекты (Suggested Related Objects) на основе ввода и Object Types из онтологии.
Данные о предлагаемых объектах предоставляются для отображения в пользовательском интерфейсе.

Claim 5 (Зависимый): Вводит понятие Vagueness Score.

Система определяет Vagueness Score для онтологии. Эта оценка указывает на уровень специфичности, связанный с типами объектов в этой онтологии.

Claim 6 (Зависимый от 5): Детализирует процесс выбора предложений с использованием Vagueness Score и Confidence Score.

Выбор одного или нескольких Object Types в онтологии основывается на пользовательском вводе И на Vagueness Score.
Для каждого выбранного Object Type определяется Confidence Score, который указывает на связанность между этим типом и вводом пользователя.
Предлагаемые связанные объекты определяются на основе Object Type с наивысшим Confidence Score.

Claim 7 (Зависимый от 5): Описывает условие отображения подсказок.

Данные о предлагаемых связанных объектах предоставляются для отображения только тогда, когда Vagueness Score превышает определенный порог. Это гарантирует, что подсказки показываются только тогда, когда ввод достаточно специфичен.

Claim 8 (Зависимый): Важное уточнение о данных.

Предлагаемые связанные объекты определяются БЕЗ использования поведенческих данных (behavioral data), связанных с пользователем, который предоставил ввод. Система полагается на структуру онтологии, а не на персональную историю поиска.

Где и как применяется

Изобретение применяется исключительно на этапе понимания запроса и взаимодействия с пользователем.

QUNDERSTANDING – Понимание Запросов

Это основной этап применения патента. Система работает в реальном времени, когда пользователь вводит запрос в поисковую строку (User Interface). Цель — помочь пользователю сформулировать более точный или исчерпывающий запрос до того, как он будет отправлен в основную систему ранжирования.

Взаимодействие с компонентами: Система взаимодействует с базой данных онтологий (вероятно, подмножеством Knowledge Graph) и использует Classifier Model для интерпретации ввода.
Входные данные: N-gram (вводимый текст), стандартные autocomplete suggestions.
Выходные данные: Suggested Related Objects (термины, сущности), отображаемые в интерфейсе автоподсказок.
Технические особенности: Использование машинного обучения (Classifier Model) для генерации векторов из текста и маппинга их на структурированную онтологию. Динамический расчет Vagueness Score для управления уровнем специфичности предложений.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные и исследовательские запросы, где пользователь может не знать точной терминологии или пытается изучить новую область.
Конкретные ниши или тематики: Особенно актуально в сложных тематиках с развитой терминологией, таких как медицина (симптомы, болезни), технологии, юриспруденция или поиск работы (названия должностей), как показано в примерах патента (Skin related medical issues, Restaurant & Hospitality Occupations).
Типы контента: Влияет на любой контент, который связан с четко определенными сущностями (объектами) в онтологии Google.

Когда применяется

Временные рамки: В реальном времени (real-time) или почти в реальном времени (near real-time) по мере ввода пользователем символов в поисковую строку.
Триггеры активации:
1. Когда пользовательский ввод (n-gram) может быть успешно сопоставлен с одной или несколькими онтологиями.
2. (Опционально) Когда Vagueness Score ввода относительно онтологии превышает установленный порог, что указывает на достаточную специфичность ввода для генерации релевантных подсказок.

Пошаговый алгоритм

Процесс работы системы автоподсказки связанных объектов:

Получение ввода: Система получает данные о пользовательском вводе (n-gram) в реальном времени.
Генерация автодополнений (Опционально): Параллельно могут быть идентифицированы стандартные текстовые автодополнения (autocomplete suggestions).
Расчет базовых метрик: Система определяет Propensity Score и начинает оценивать потенциальный Vagueness Score.
Идентификация Онтологий: На основе ввода и/или автодополнений система идентифицирует одну или несколько релевантных онтологий (категорий).
Векторизация ввода: Пользовательский ввод подается в Classifier Model, которая генерирует один или несколько векторов, представляющих семантику ввода.
Определение Специфичности (Vagueness Score): Рассчитывается Vagueness Score ввода относительно идентифицированной онтологии.
Выбор Типов Объектов: Система использует векторы ввода и Vagueness Score для навигации по онтологии. Если Vagueness Score низкий, выбираются более широкие (родительские) Object Types. Если высокий — более специфичные (дочерние).
Оценка Уверенности: Для выбранных Object Types рассчитывается Confidence Score, отражающий их связанность с вводом (например, на основе близости векторов).
Выбор Лучших Кандидатов: Выбираются Object Types с наивысшими Confidence Scores.
Извлечение Объектов: Из выбранных Object Types извлекаются конкретные Objects (термины/сущности).
Проверка Порога и Отображение: Если Vagueness Score превышает пороговое значение, Suggested Related Objects предоставляются для отображения в интерфейсе.
Обработка Выбора: Система получает данные о выборе пользователя и обновляет текст запроса.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурированных данных и пользовательского ввода, явно исключая поведенческие данные пользователя.

Структурные факторы (Ontology Data): Ключевой источник данных — предварительно созданные онтологии. Эти структуры данных определяют категории, иерархию Object Types и конкретные Objects (сущности/термины), связанные с ними. Это представление знаний Google о мире.
Пользовательские факторы (User Input): N-gram — текст, введенный пользователем в реальном времени.

Какие метрики используются и как они считаются

Vagueness Score: Рассчитывается на основе пользовательского ввода и соответствующей онтологии. Указывает на уровень специфичности типа объекта, который можно искать в онтологии при данном состоянии ввода.
Propensity Score: Рассчитывается на основе n-грамм ввода. Включает сигналы, такие как количество совпадений и общее использование точно совпадающих терминов. Указывает на уровень специфичности ввода.
Confidence Score: Рассчитывается для каждого Object Type. Указывает на уверенность системы в связанности между Object Type и пользовательским вводом. Вероятно, рассчитывается на основе близости векторов, сгенерированных Classifier Model.
Алгоритмы машинного обучения: Используется Classifier Model (машинно обученная модель классификатора, например, нейронная сеть). Она обучается на терминах и фразах (например, с использованием методов глубокого обучения) для создания векторных представлений текста.
Пороговые значения: Используется порог для Vagueness Score. Если оценка превышает порог, система считает ввод достаточно точным для отображения связанных предложений.

Выводы

Автоподсказки основаны на онтологиях, а не только на тексте: Google активно использует структурированные данные (Knowledge Graph) не только для ранжирования, но и для формирования автоподсказок. Система стремится понять категорию запроса и предложить связанные сущности из своей базы знаний.
Концептуальная связь важнее текстуального совпадения: Ключевая особенность изобретения — возможность предлагать термины, которые семантически связаны с вводом, но не содержат введенных символов (например, предложить «Артрит» на ввод «Кожное заб»).
Управление специфичностью через Vagueness Score: Система динамически оценивает, насколько специфичен ввод пользователя. Vagueness Score определяет, будут ли предложены широкие категории или узкие сущности, и служит порогом для активации подсказок.
Использование ML для маппинга текста на структуру: Патент подтверждает использование моделей машинного обучения (Classifier Model) для преобразования неструктурированного текста ввода в векторы, которые затем сопоставляются со структурированной онтологией.
Независимость от персонализации: Система спроектирована так, чтобы работать без использования персональных поведенческих данных пользователя (Claim 8). Она опирается на общее знание, заложенное в онтологиях.

Практика

Best practices (это мы делаем)

Оптимизация под сущности (Entity SEO): Необходимо четко определять основные сущности (Objects) вашей тематики и обеспечивать их присутствие и описание на сайте. Работайте над тем, чтобы ваш контент ассоциировался с ключевыми сущностями в онтологии Google.
Построение тематического авторитета (Topical Authority), отражающего онтологию: Структурируйте контент так, чтобы он покрывал не только основной термин, но и связанные с ним сущности, которые Google может предложить через этот механизм. Если вы пишете о кожных заболеваниях, убедитесь, что вы также авторитетно покрываете связанные симптомы (например, «выпадение волос», «покраснение»).
Использование структурированных данных (Schema.org): Используйте разметку для явного указания сущностей и их типов (Object Types). Это помогает Google лучше понять ваш контент и связать его с объектами в своих онтологиях.
Анализ автоподсказок как источника связанных сущностей: Изучайте автоподсказки не только как варианты ключевых слов, но и как указание на связанные сущности, которые Google идентифицирует в рамках своей онтологии. Включайте эти сущности в свою контент-стратегию.

Worst practices (это делать не надо)

Фокус только на узких ключевых фразах: Стратегия, ориентированная только на точное соответствие ключевым словам, игнорирует этот механизм. Если пользователь выберет предложенную Google связанную сущность, узко оптимизированный контент может оказаться нерелевантным.
Игнорирование семантического контекста: Создание контента без учета связанных сущностей и их взаимосвязей снижает вероятность того, что сайт будет ранжироваться по запросам, уточненным с помощью этого механизма.
Поверхностное освещение темы: Если контент не покрывает тему глубоко, он не будет ассоциироваться с достаточным количеством Object Types в онтологии, что снижает его потенциал.

Стратегическое значение

Патент подтверждает стратегический переход к поиску, основанному на сущностях (Entity-first indexing). Google активно формирует путь пользователя (search journey), предлагая уточнения и связанные понятия на основе своего структурированного понимания мира (Онтологии/Knowledge Graph). Для SEO это означает, что понимание взаимосвязей между сущностями в вашей нише становится так же важно, как и анализ ключевых слов. Долгосрочная стратегия должна фокусироваться на том, чтобы стать признанным источником информации для целого кластера связанных сущностей.

Практические примеры

Сценарий 1: Медицинский поиск (Самодиагностика)

Действие пользователя: Пользователь не знает точного названия болезни и начинает вводить «Кожное заб» (N-gram).
Действие системы: Система идентифицирует онтологию «Медицинские проблемы, связанные с кожей». Vagueness Score достаточно высок.
Маппинг: Система определяет Object Types, такие как «Кожные заболевания» и «Симптомы кожных заболеваний».
Предложение: В дополнение к стандартному автодополнению «Кожное заболевание», система предлагает Suggested Related Objects, которые не содержат введенного текста: «Псориаз», «Экзема» (из типа «Болезни»), «Зуд», «Покраснение» (из типа «Симптомы»).
Результат для SEO: Авторитетный медицинский сайт, имеющий сильные страницы по Псориазу и Экземе, получит трафик, даже если пользователь изначально не знал этих терминов.

Сценарий 2: Поиск работы

Действие пользователя: Пользователь ищет работу и вводит «Работа офиц» (N-gram).
Действие системы: Система идентифицирует онтологию «Должности в сфере гостеприимства».
Маппинг: Система находит Object Type «Официант ресторана».
Предложение: Система предлагает стандартизированные или связанные роли (Suggested Related Objects): «Сомелье», «Сервер», «Банкетный менеджер».
Результат для SEO: Агрегатор вакансий должен использовать эти стандартизированные названия сущностей в своих листингах и структуре сайта, чтобы соответствовать запросам, уточненным Google.

Вопросы и ответы

Чем этот патент отличается от стандартного автокомплита (Autocomplete)?

Стандартный автокомплит предлагает завершения, которые текстуально совпадают с введенными символами и основаны на частоте предыдущих поисков. Данный патент описывает систему, которая предлагает концептуально связанные объекты (сущности) из онтологии. Эти предложения могут вообще не содержать текста, введенного пользователем, но они семантически связаны с темой запроса.

Что такое Онтология (Ontology) в контексте этого патента?

Онтология — это структурированная база знаний (похожая на Knowledge Graph), которая определяет категории, подкатегории (Object Types) и конкретные сущности (Objects) в определенной области. Например, онтология «Должности» может содержать тип «Ресторанный бизнес», который включает объекты «Официант», «Сомелье», «Повар».

Какова роль Vagueness Score (Оценки неопределенности)?

Vagueness Score определяет, насколько специфичен ввод пользователя. Если ввод широкий (например, «Работа»), оценка низкая, и система предложит широкие категории. Если ввод узкий (например, «Работа официантом в ресторане»), оценка высокая, и система предложит конкретные связанные должности. Также оценка используется как порог: если она слишком низкая, связанные объекты могут вообще не показываться.

Как система определяет, какие связанные объекты предложить?

Она использует машинно обученную модель (Classifier Model) для преобразования текста ввода в вектор. Затем этот вектор сопоставляется с Object Types в онтологии. Object Types, которые наиболее близки к вектору ввода, получают высокий Confidence Score, и их содержимое предлагается пользователю.

В патенте указано, что система не использует поведенческие данные пользователя. Это важно?

Да, это очень важно (Claim 8). Это означает, что система полагается исключительно на структуру онтологии и семантику ввода, а не на персональную историю поиска пользователя. Это обеспечивает объективность предложений, основанную на общих знаниях, заложенных в базу Google.

Как это влияет на стратегию сбора семантического ядра?

Этот патент требует перехода от сбора списка ключевых слов к идентификации кластеров сущностей. Необходимо анализировать, какие сущности (Objects) связаны с вашей основной темой в онтологии Google, и включать их в контент-план, даже если они не кажутся очевидными ключевыми словами.

Может ли этот механизм объяснить, почему в подсказках появляются термины, не содержащие введенного текста?

Да, именно этот механизм и объясняет такое поведение. Если система уверена (высокий Confidence Score), что определенная сущность из онтологии тесно связана с вводом, она будет предложена, независимо от текстуального совпадения.

Как SEO-специалисту использовать эти знания на практике?

Необходимо сосредоточиться на Entity SEO. Используйте структурированные данные (Schema.org) для явного указания сущностей и их типов. Создавайте контент, который всесторонне охватывает тему, включая все связанные сущности, которые Google может предложить пользователю для уточнения запроса.

В каких тематиках этот механизм наиболее активен?

Он наиболее активен в тематиках с хорошо развитой и сложной терминологией, где пользователи часто не знают точных названий. В патенте приводятся примеры медицины (болезни, симптомы) и поиска работы (названия должностей). Также это актуально для технических, научных и юридических тем.

На каком этапе поиска работает этот алгоритм?

Он работает на этапе QUNDERSTANDING (Понимание запросов), непосредственно в интерфейсе пользователя (Autosuggest). Он влияет на то, какой финальный запрос будет сформулирован пользователем и отправлен в систему ранжирования.