Как Google использует сущности, шаблоны и Knowledge Graph для уточнения смысла поисковых подсказок (Autocomplete)

Google анализирует поисковые подсказки, чтобы определить, ссылаются ли они на конкретные сущности или являются неоднозначными. Для уточнения смысла система добавляет семантические описания (например, «britney spears — Singer»). Эти описания генерируются на основе данных из Knowledge Graph, анализа авторитетных документов (например, Wikipedia) или предопределенных шаблонов для типов сущностей (например, «Movie [year]»). Это помогает пользователю выбрать правильный интент и может приводить к скрытому переписыванию запроса системой.

Описание

Какую задачу решает

Патент решает проблему неоднозначности (ambiguity) или неясности поисковых подсказок (query suggestions), предоставляемых пользователю в процессе ввода запроса (Autocomplete). Если подсказка может относиться к разным сущностям (например, «Phoenix» как город, группа или мифологическое существо), пользователь может выбрать неверную интерпретацию. Изобретение направлено на уточнение смысла подсказок путем добавления к ним семантических описаний, улучшая точность выбора пользователя.

Что запатентовано

Запатентована система для аннотирования поисковых подсказок семантическими описаниями (semantic descriptions). Система определяет, является ли подсказка неоднозначной или ссылается ли она на конкретную сущность (entity). Для генерации описаний используются данные о сущностях из баз знаний, анализ веса терминов в авторитетных документах (document centric weighting) и предопределенные шаблоны (templates) для разных типов сущностей.

Как это работает

Система работает в процессе ввода запроса:

Анализ подсказок: Система анализирует сгенерированные подсказки, определяя, нуждаются ли они в аннотации. Это происходит, если подсказка идентифицирована как неоднозначная (ссылается на несколько популярных сущностей) или как сущность, требующая уточнения.
Генерация описания: Query Suggestion Annotation Engine ищет лучшее описание. Это может включать запрос к базе знаний (Knowledge Graph), анализ авторитетных документов (например, Wikipedia) для взвешивания вариантов или применение шаблонов на основе типа сущности (например, для фильма шаблон «Movie [year]»).
Отображение: Аннотированная подсказка отображается пользователю. В случае неоднозначности показывается несколько вариантов (например, «phoenix — Arizona», «phoenix — Band»).
Обработка выбора: При выборе аннотированной подсказки система может отправить submission query, который отличается от отображаемого текста и нацелен на конкретную сущность (скрытое переписывание запроса).

Актуальность для SEO

Высокая. Механизмы, описанные в патенте, активно используются в Google Autocomplete. Понимание сущностей и устранение неоднозначности (disambiguation) являются ключевыми элементами современного поиска. Способность Google предоставлять структурированные аннотации в реальном времени напрямую связана с развитием Knowledge Graph и технологий понимания языка.

Важность для SEO

Патент имеет важное стратегическое значение для SEO (7/10). Он не описывает алгоритмы ранжирования, но критичен для понимания того, как Google интерпретирует запросы и управляет процессом их формирования (Query Formulation). Патент подчеркивает важность Entity-First подхода. Для SEO-специалистов это означает, что четкая ассоциация бренда или контента с конкретной сущностью, ее типом и свойствами в Knowledge Graph напрямую влияет на видимость в Autocomplete и точность привлекаемого трафика.

Детальный разбор

Термины и определения

Ambiguous Query Suggestion (Неоднозначная поисковая подсказка): Подсказка, которая может относиться к нескольким различным сущностям (например, «Phoenix»). Определяется путем анализа результатов поиска по этой подсказке или запросом к базе знаний.
Annotated Query Suggestion (Аннотированная поисковая подсказка): Поисковая подсказка, дополненная семантическим описанием для уточнения ее значения (например, «britney spears — Singer»).
Document Centric Weighting (Документо-центричное взвешивание): Метод оценки важности потенциального описания для сущности путем анализа его использования в авторитетном документе (например, Wikipedia). Учитывается частота, расположение (как рано встречается) и оформление термина в документе.
Entity (Сущность): Объект реального или концептуального мира (человек, место, организация, концепция), который имеет свойства и может быть однозначно идентифицирован системой.
Entity Type (Тип сущности): Категория, к которой принадлежит сущность (например, Singer, City, Movie). Определяет выбор шаблона для аннотации.
Query Suggestion Annotation Engine: Компонент системы, отвечающий за идентификацию или генерацию семантических описаний для подсказок.
Submission Query (Отправляемый запрос): Фактический запрос, отправляемый в поисковую систему при выборе аннотированной подсказки. Он может содержать термины или идентификаторы, отсутствующие в отображаемом тексте.
Template (Шаблон): Предопределенная структура для генерации описания, основанная на типе сущности. Шаблон определяет фиксированные термины, переменные поля и их расположение (например, «US President #», «Movie [year]»).

Ключевые утверждения (Анализ Claims)

Примечание: Пункты 1-25 патента US20160217181A1 отменены (canceled). Анализ основан на активных пунктах (Claims 26-45).

Claim 26 (Независимый пункт): Описывает метод аннотирования подсказок с использованием шаблонов сущностей.

Система идентифицирует поисковые подсказки для запроса.
Определяется, что выбранная подсказка ассоциирована с конкретной entity.
Идентифицируется тип этой сущности (entity type).
Идентифицируется шаблон (template) для этого типа сущности. Шаблон определяет фиксированные термины, переменные поля и их позиционное отношение.
Определяется значение для переменного поля на основе свойств конкретной сущности.
Генерируется описание для подсказки на основе шаблона.
Описание добавляется к подсказке, формируя annotated query suggestion, которая предоставляется пользователю.

Ядро изобретения (по Claim 26) — это использование структурированных шаблонов, привязанных к типам сущностей, для автоматической генерации консистентных описаний в подсказках.

Claim 27 (Зависимый от 26): Детализирует действие при выборе пользователем аннотированной подсказки.

При выборе пользователем аннотированной подсказки система отправляет submission query. Этот запрос нацелен на конкретную сущность и включает по крайней мере один термин, который отсутствует как в самой подсказке, так и в добавленном описании.

Это критически важный механизм скрытого переписывания запроса (hidden query rewriting). Система использует выбор пользователя для отправки внутреннего, более точного запроса, который может содержать идентификаторы сущности или дополнительные уточняющие термины, невидимые пользователю.

Claim 28 (Зависимый от 26): Описывает обработку неоднозначности.

Система определяет, что подсказка также ассоциирована с дополнительной сущностью (additional entity). Для нее генерируется дополнительное описание, и формируется отдельная дополнительная аннотированная подсказка.

Это механизм disambiguation, позволяющий отображать несколько вариантов для одного текста подсказки (например, «Phoenix» как город и как группа).

Claim 31 и 32 (Зависимые): Описывают триггер и метод определения неоднозначности.

Генерация описания (Claim 31) может происходить в ответ на определение того, что подсказка является неоднозначной (ambiguous). Неоднозначность (Claim 32) определяется путем выполнения поиска по тексту подсказки и анализа результатов: если в результатах идентифицировано разнообразие сущностей, подсказка признается неоднозначной.

Где и как применяется

Изобретение применяется на этапе взаимодействия пользователя с поисковой строкой, до отправки финального запроса на ранжирование.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор данных. Извлекаются сущности, определяются их типы (entity types) и свойства, которые сохраняются в базе знаний (Knowledge Graph). Также индексируются авторитетные ресурсы (например, Wikipedia, Freebase, упомянутые в патенте), которые используются для определения описаний и их весов (Document Centric Weighting).

QUNDERSTANDING – Понимание Запросов (Основной этап)
Это основной этап применения патента, конкретно в подсистеме генерации поисковых подсказок (Autocomplete).

Получение частичного запроса: Система получает ввод пользователя в реальном времени.
Генерация кандидатов: Query Suggestion Engine предлагает варианты завершения.
Анализ подсказок: Query Processing Engine анализирует кандидатов на предмет наличия сущностей и неоднозначности.
Генерация аннотаций: Query Suggestion Annotation Engine использует данные этапа INDEXING (типы, свойства, шаблоны, веса) для создания описаний.

Входные данные:

Частичный запрос пользователя.
Список кандидатов в подсказки.
Данные из Knowledge Graph (сущности, типы, свойства).
Шаблоны для типов сущностей.
Данные об авторитетных документах (для взвешивания описаний).

Выходные данные:

Список аннотированных поисковых подсказок (Annotated Query Suggestions).
(Скрыто) Потенциально переписанный submission query, который будет отправлен при выборе подсказки.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, связанные с сущностями (имена людей, названия организаций, мест, продуктов) и на неоднозначные термины (Ambiguous queries).
Конкретные типы контента: Влияет на видимость контента, связанного с четко определенными сущностями. Помогает пользователям быстрее находить официальные сайты брендов, биографии личностей и т.д.

Когда применяется

Триггеры активации: Алгоритм активируется в реальном времени, когда система идентифицирует, что поисковая подсказка:
1. Ссылается на известную сущность (entity).
2. Является неоднозначной (ambiguous), т.е. может относиться к нескольким популярным сущностям.
Исключения: В патенте упоминается, что очень популярные сущности (например, «Michael Jordan») могут не аннотироваться, так как предполагается, что пользователи их легко узнают и уточнение не требуется.

Пошаговый алгоритм

Этап 1: Получение и первичный анализ подсказок

Система получает частичный запрос от пользователя.
Генерируется список стандартных поисковых подсказок.
Каждая подсказка анализируется для определения необходимости аннотации.

Этап 2: Определение неоднозначности и идентификация сущностей

Для подсказки определяется, ссылается ли она на одну или несколько сущностей (используя Knowledge Graph или анализ результатов поиска по тексту подсказки).
Если результаты поиска содержат ссылки на несколько разных популярных сущностей, подсказка помечается как ambiguous.
Если подсказка ссылается преимущественно на одну сущность, она помечается как требующая аннотации (если не является сверхпопулярной).

Этап 3: Генерация описаний (Annotation Generation)

Для каждой подсказки (или каждой интерпретации неоднозначной подсказки) система ищет лучшее описание. Используется несколько методов:

Метод A: Применение шаблонов (Template-based Generation — Claim 26)

Определяется тип сущности (entity type).
Выбирается соответствующий шаблон (template) (например, для типа «Song» шаблон «[Artist] [year]»).
Система извлекает значения переменных полей (Artist, year) из свойств сущности в Knowledge Graph.
Генерируется описание по шаблону.

Метод B: Взвешивание описаний (Document Centric Weighting — Описано в патенте)

Идентифицируется начальная группа потенциальных описаний (например, из Knowledge Graph).
Анализируется авторитетный документ, связанный с сущностью (например, статья в Wikipedia).
Каждому описанию присваивается вес на основе его использования в документе (частота, расположение, оформление).
Выбирается описание с наибольшим весом.

Этап 4: Формирование и отображение выдачи

Система формирует финальный список аннотированных подсказок.
Если подсказка неоднозначна, создается несколько записей, по одной для каждой основной интерпретации (например, Phoenix – Arizona, Phoenix – Band).
Список ранжируется и отображается пользователю.

Этап 5: Обработка выбора пользователя

Пользователь выбирает аннотированную подсказку.
Система формирует и отправляет submission query. Согласно Claim 27, это может быть внутренний переписанный запрос, содержащий дополнительные термины или идентификаторы сущности, отсутствующие в отображаемом тексте.

Какие данные и как использует

Данные на входе

Пользовательские факторы: Частичный запрос, вводимый пользователем. Логи прошлых запросов (для генерации базовых подсказок и оценки популярности).
Данные о Сущностях (Entity Data): Критически важные данные из Knowledge Graph.
- Идентификаторы сущностей.
- Типы сущностей (Entity Types).
- Свойства и атрибуты сущностей (для заполнения шаблонов).
- Алиасы (альтернативные названия).
Контентные и Структурные факторы (из внешних ресурсов): Система анализирует авторитетные источники (упомянуты Wikipedia, Freebase). Текст и структура этих документов используются для определения неоднозначности (например, наличие Disambiguation page) и для расчета Document Centric Weighting.

Какие метрики используются и как они считаются

Ambiguity Score (Оценка неоднозначности): Метрика, определяющая, насколько сильно подсказка связана с разными сущностями. Рассчитывается на основе анализа разнообразия сущностей в топовых результатах поиска по этой подсказке или по данным Knowledge Graph.
Entity Popularity (Популярность сущности): Оценка известности сущности. Используется для фильтрации (сверхпопулярные могут не аннотироваться) и для ранжирования вариантов при disambiguation.
Document Centric Weighting (Вес описания): Метрика для выбора лучшего описания из кандидатов. Рассчитывается для авторитетного документа и учитывает:
- Расположение: Насколько рано описание встречается в тексте.
- Частота: Как часто описание используется.
- Оформление (Decorations): Визуальное выделение термина.
- TF-IDF: Упоминается как возможный дополнительный метод взвешивания.

Выводы

Сущности как основа понимания запроса: Патент демонстрирует, что Google активно использует Entity Recognition уже на этапе ввода запроса. Система стремится как можно раньше связать ввод пользователя с конкретной сущностью в Knowledge Graph.
Борьба с неоднозначностью (Disambiguation): Устранение неоднозначности является ключевой задачей. Google предпочитает предложить пользователю явный выбор между разными интерпретациями (например, Phoenix как город или группа), чем заставлять его уточнять запрос вручную.
Использование шаблонов (Templates) и Типизация: Для обеспечения консистентности описаний Google использует предопределенные шаблоны, привязанные к типам сущностей (Entity Types). Это указывает на критическую важность наличия четкой типизации и полных данных о свойствах сущности в Knowledge Graph.
Важность авторитетных источников (Wikipedia): Механизм Document Centric Weighting показывает, как Google анализирует структуру контента в авторитетных источниках (таких как Wikipedia) для определения наиболее важных дескрипторов сущности.
Скрытое переписывание запроса (Hidden Query Rewriting): Критически важный вывод из Claim 27: выбор аннотированной подсказки может привести к отправке submission query, который отличается от того, что видит пользователь. Система может добавлять скрытые термины или идентификаторы для более точного таргетинга на выбранную сущность.

Практика

Best practices (это мы делаем)

Обеспечение распознавания сущности (Entity Recognition): Ключевая задача для брендов, продуктов и персон — гарантировать, что они распознаются Google как четкая сущность. Это включает работу над присутствием в Knowledge Graph, согласованное использование разметки Schema.org и построение авторитетности в сети.
Управление типом сущности (Entity Type): Необходимо добиться корректной классификации вашей сущности. Правильный тип (например, Software Company, Musician, Local Business) определяет, какой шаблон будет использован для аннотации. Подкрепляйте тип через разметку и контент.
Оптимизация авторитетных источников (Wikipedia Optimization): Так как Google использует авторитетные источники (в патенте явно упомянута Wikipedia) для расчета Document Centric Weighting, необходимо следить за тем, как ваша сущность описана там. Ключевые дескрипторы должны быть расположены в начале текста (например, в первом предложении).
Полнота данных о сущности: Поскольку система использует шаблоны (Templates), заполняемые свойствами сущности (например, год выпуска, автор), важно обеспечить полноту этих данных в Knowledge Graph и на собственном сайте (через разметку).
Управление неоднозначностью бренда: Если название бренда неоднозначно, активно работайте над тем, чтобы ваша интерпретация была достаточно авторитетной для отображения в подсказках. Обеспечьте, чтобы система могла легко отличить ваш бренд от других сущностей с тем же именем.

Worst practices (это делать не надо)

Игнорирование Knowledge Graph и Schema.org: Рассчитывать только на текстовую оптимизацию без работы над представлением бренда как сущности. Это может привести к тому, что бренд не будет корректно идентифицирован и аннотирован в подсказках.
Несогласованные данные о бренде: Предоставление противоречивой информации о типе сущности или ее ключевых свойствах в разных источниках (сайт, соцсети, каталоги). Это затрудняет выбор корректного шаблона и описания.
Манипуляции с описаниями в сторонних источниках: Агрессивное редактирование Wikipedia с целью искусственно повлиять на Document Centric Weighting может привести к санкциям на этих платформах и игнорированию правок со стороны Google.

Стратегическое значение

Патент подтверждает стратегию Google «Things, not strings» (Сущности, а не строки). Понимание того, как Google идентифицирует, классифицирует и описывает сущности на самых ранних этапах поиска, критично для построения долгосрочной SEO-стратегии. Этот механизм влияет на формирование спроса и уточнение интентов. Для SEO это означает, что работа над Entity Optimization является фундаментальным требованием для видимости в поиске, начиная с поисковой строки.

Практические примеры

Сценарий: Оптимизация подсказок для неоднозначного названия продукта

Компания выпускает программное обеспечение под названием «Mercury». Это название неоднозначно (планета, химический элемент, автомобиль).

Задача: Обеспечить, чтобы при вводе «Merc» в подсказках появлялся вариант, относящийся к ПО.
Действия (Основанные на патенте):
- Идентификация сущности: Создать четкую сущность для ПО «Mercury» (Schema.org/SoftwareApplication, присутствие в Knowledge Graph, статья в Wikipedia).
- Определение типа и шаблона: Убедиться, что сущность классифицирована как ПО (Entity Type). Google может использовать шаблон типа «[Brand] software» или дескриптор «Software».
- Оптимизация описания (Document Centric Weighting): В статье Wikipedia и на официальном сайте в первом абзаце должно быть четко указано: «Mercury is a software for…». Это повышает вес дескриптора «software».
Ожидаемый результат: При вводе «Merc» пользователь увидит:
mercury — Planet
mercury — Element
mercury — Software ← Наша цель
Выбор пользователя: Когда пользователь выбирает «mercury — Software», Google (согласно Claim 27) может отправить внутренний submission query, нацеленный на сущность ПО (например, используя идентификатор сущности или добавив скрытые уточняющие термины), что гарантирует релевантную выдачу.

Вопросы и ответы

Как Google определяет, что подсказка является неоднозначной (ambiguous)?

Система использует несколько методов. Основной метод, описанный в патенте (Claim 32), заключается в выполнении быстрого поиска по тексту подсказки и анализе полученных результатов. Если в топе выдачи присутствуют результаты, относящиеся к нескольким разным популярным сущностям, подсказка признается неоднозначной. Также могут использоваться данные из баз знаний, например, если термин ведет на страницу разрешения неоднозначностей (Disambiguation page) в Wikipedia.

Откуда Google берет описания (аннотации) для подсказок?

Используется несколько источников. Во-первых, это данные из Knowledge Graph (свойства и типы сущностей). Во-вторых, система использует предопределенные шаблоны (Templates) для конкретных типов сущностей, например, «Movie [year]». В-третьих, система анализирует авторитетные документы (например, Wikipedia), используя Document Centric Weighting, чтобы определить наиболее важные дескрипторы.

Что такое Document Centric Weighting и как он влияет на выбор описания?

Это метод оценки важности термина в контексте авторитетного документа. Система анализирует, насколько рано термин встречается в тексте, как часто он используется и как он оформлен. Описание, которое появляется раньше и чаще в основном тексте (например, в первом предложении статьи Wikipedia о сущности), получит больший вес и с большей вероятностью будет выбрано в качестве аннотации в подсказках.

Могу ли я повлиять на то, какое описание Google показывает рядом с моим брендом в подсказках?

Да, косвенно. Убедитесь, что ваш бренд корректно распознается как сущность и имеет правильный тип (Entity Type) в Knowledge Graph. Оптимизируйте представление вашего бренда в авторитетных источниках, таких как Wikipedia, следя за тем, чтобы желаемое описание было использовано в начале текста. Также используйте согласованную разметку Schema.org на вашем сайте для определения типа и свойств сущности.

Что происходит, когда пользователь выбирает аннотированную подсказку? Отправляется ли описание как часть запроса?

Не обязательно. Патент (Claim 27) описывает механизм скрытого переписывания запроса. При выборе аннотированной подсказки система может отправить submission query, который отличается от отображаемого текста. Он может включать дополнительные термины или идентификаторы сущности, которые не видны пользователю, чтобы гарантировать, что результаты поиска будут точно соответствовать выбранной интерпретации.

Что такое шаблоны (Templates) и как они используются?

Шаблоны — это предопределенные структуры для генерации описаний, привязанные к типам сущностей. Например, для типа «Movie» может быть шаблон «Movie [year]», а для «US President» — «US President #». Система определяет тип сущности, выбирает шаблон и заполняет переменные поля ([year] или #) данными из свойств этой сущности в Knowledge Graph. Это обеспечивает консистентное представление.

Почему некоторые очень популярные бренды или имена не имеют аннотаций в подсказках?

В патенте указано, что система может принять решение не аннотировать сверхпопулярные сущности (приводится пример «Michael Jordan»). Логика заключается в том, что такие сущности легко узнаваемы пользователями и не требуют дополнительного пояснения, а их основное значение доминирует над любыми другими интерпретациями.

Как этот патент связан с SEO для сайтов с неоднозначными названиями?

Он имеет критическое значение. Если название вашего сайта или бренда неоднозначно (например, «Apple» как фрукт и как компания), этот механизм помогает пользователям выбрать именно вашу интерпретацию. Для этого необходимо убедиться, что ваша сущность достаточно авторитетна, чтобы появиться в списке вариантов (disambiguation), и имеет четкое, релевантное описание, отличающее ее от других значений.

Насколько важна типизация сущности (Entity Type) в контексте этого патента?

Типизация критически важна. Определение правильного типа сущности позволяет системе выбрать корректный шаблон для генерации описания (Claim 26) и правильно интерпретировать контекст. Работа над корректной типизацией через Schema.org и в Knowledge Graph напрямую поддерживает механизмы, описанные в этом патенте.

Является ли этот патент доказательством важности Википедии для Google?

Да, Википедия явно упоминается в патенте как пример базы знаний и как авторитетный ресурсный документ. Она используется для определения неоднозначности (через страницы разрешения неоднозначностей) и для взвешивания потенциальных описаний (document centric weighting). Это подтверждает, что Википедия остается важным источником для обучения систем понимания сущностей Google.