Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

Описание

Какую задачу решает

Патент решает проблему доступа к релевантной информации без необходимости явного поискового запроса. Пользователи часто не ищут информацию, которая могла бы быть им полезна, потому что они забывают о ее существовании (например, в старых письмах или локальных файлах) или не хотят отвлекаться от текущей задачи для формулирования запроса. Система направлена на проактивное предоставление этой информации на основе текущего контекста пользователя.

Что запатентовано

Запатентована система для генерации имплицитных (фоновых) поисковых запросов (implicit search query). Ядром изобретения является механизм идентификации и использования «именованных сущностей» (Named Entities). Система отслеживает контекст пользователя (события), идентифицирует в нем значимые сущности (имена людей, конкретные темы, email-адреса) и автоматически формирует поисковые запросы на их основе.

Как это работает

Система функционирует в двух основных режимах:

Построение списка сущностей: Система анализирует данные пользователя (email, историю сообщений, документы), чтобы создать и поддерживать список именованных сущностей (Named Entity List). Сущностям присваивается вес (Weight Attribute), отражающий их значимость.
Генерация имплицитных запросов: Система отслеживает текущие действия пользователя (Events), такие как набор текста или чтение письма. Она идентифицирует именованные сущности в этом контексте. Затем формируется имплицитный запрос, в котором больший приоритет отдается сущностям с более высоким весом. Запрос выполняется (в локальном или глобальном индексе), и результаты проактивно показываются пользователю.

Актуальность для SEO

Высокая. Технологии распознавания именованных сущностей (NER), описанные в патенте, являются фундаментальными для современного поиска и понимания языка (NLP). Хотя патент описывает применение этих технологий в контексте имплицитного поиска (например, Google Desktop или ранние версии проактивных ассистентов), сами методы NER критически важны для работы Knowledge Graph и семантического анализа контента в основном поиске Google.

Важность для SEO

Влияние на SEO косвенное, но значительное (6/10). Патент не описывает алгоритмы ранжирования основного веб-поиска. Однако он детально раскрывает методы, которые Google использует для идентификации, извлечения и приоритизации сущностей (NER). Понимание того, как Google определяет Named Entities (используя частотность, часть речи, капитализацию и т.д.), критически важно для оптимизации контента под Knowledge Graph и обеспечения правильной интерпретации тематики сайта.

Детальный разбор

Термины и определения

Article (Статья/Документ): Любой элемент контента, с которым взаимодействует пользователь: документ word processor, email, веб-страница, файл PDF, аудио/видео файл и т.д.
Event (Событие): Действие пользователя или системное событие, фиксируемое системой. События используются для определения текущего контекста пользователя. Делятся на Contextual Events (краткосрочные, например, последние набранные слова) и Real-time Events (более значимые, например, открытие файла).
Implicit Search Query (Имплицитный поисковый запрос): Поисковый запрос, сгенерированный системой автоматически на основе контекста пользователя, без явного ввода запроса пользователем.
Named Entity (Именованная сущность): Термин, фраза или идентификатор, который система определила как релевантный или значимый. Примеры: имена людей, email-адреса, названия организаций, конкретные темы или часто используемые фразы.
Named Entity List (Список именованных сущностей): Коллекция идентифицированных именованных сущностей, часто хранимая в оперативной памяти (например, в виде хэш-таблицы) для быстрого доступа.
Part of Speech (PoS) Tagging (Разметка частей речи): Процесс анализа текста и определения грамматической роли каждого слова (существительное, глагол, прилагательное и т.д.). Используется для более точного извлечения сущностей.
TF-IDF (Term Frequency-Inverse Document Frequency): Метрики, используемые для оценки важности слова. TF (частота термина в документе) и IDF (обратная частота документа – насколько редко слово встречается в корпусе документов). Слова с низким IDF (частые слова) часто игнорируются, а слова с высоким IDF могут быть идентифицированы как сущности.
Weight Attribute (Атрибут веса): Числовое значение, присваиваемое именованной сущности, указывающее на вероятность того, что данный термин действительно является значимой сущностью. Используется для приоритизации при генерации запросов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации имплицитного запроса на основе взвешенных сущностей.

Система определяет коллекцию именованных сущностей (named entity terms) в хранилище данных, связанных с пользователем. Каждой сущности присвоен вес (associated weight), указывающий на вероятность того, что это значимая сущность.
Идентифицируется событие (event), представляющее собой взаимодействие пользователя с документом (article).
В рамках этого события идентифицируется набор именованных сущностей.
Для каждой идентифицированной сущности извлекается ее вес из коллекции.
Автоматически создается имплицитный поисковый запрос (implicit search query) на основе сущностей и их весов. Запрос формируется так, что он в большей степени зависит от сущностей с высоким весом (более высокая вероятность значимости), чем от сущностей с низким весом.
Генерируются результаты поиска, релевантные этому запросу.
Результаты предоставляются для отображения.

Claim 15 (Независимый пункт): Описывает схожий процесс с фокусом на пороговые значения для отображения результатов.

Система определяет коллекцию взвешенных именованных сущностей.
Получается событие, связанное с взаимодействием пользователя с документом.
Идентифицируются сущности в событии и их веса.
Автоматически создается имплицитный запрос, приоритизирующий сущности с более высоким весом.
Запрос передается поисковой системе.
Получается набор результатов (result set).
Результаты выводятся пользователю только в том случае, если связанная с ними оценка (associated score, например, релевантность) превышает определенный порог.

Где и как применяется

Важно понимать, что этот патент описывает систему для имплицитного (контекстного) поиска, которая часто работает на стороне клиента (например, в браузере или как отдельное приложение) и использует персонализированные данные. Однако описанные технологии (NER) применяются и в основном веб-поиске Google.

INDEXING – Индексирование и извлечение признаков

Персонализированное индексирование: Система индексирует локальные данные пользователя (письма, документы, историю IM) для построения персонализированного Named Entity List. Используются методы NLP, такие как PoS Tagging и расчет IDF, для идентификации значимых сущностей.
Веб-индексирование (Технология): Методы NER, описанные в патенте (идентификация имен, организаций, редких терминов), используются Google при индексировании веб-контента для извлечения сущностей и их связи с Knowledge Graph.

QUNDERSTANDING – Понимание Запросов

Имплицитные запросы: Основное применение патента. Система анализирует текущий контекст (Event), извлекает из него Named Entities, используя Named Entity List, и формирует имплицитный запрос.

RANKING и RERANKING

Ранжирование имплицитных результатов: Система выполняет сгенерированный запрос и ранжирует результаты. Ранжирование может учитывать персонализированные сигналы и вес сущностей, инициировавших запрос. Результаты фильтруются по порогу релевантности (Claim 15).

Входные данные:

Текущие события пользователя (Events): набранный текст, открытый документ, полученное сообщение.
Named Entity List с весами (Weight Attribute).
Корпус документов пользователя (для расчета IDF и построения списка сущностей).

Выходные данные:

Имплицитный поисковый запрос.
Набор результатов поиска, отфильтрованный по релевантности.

На что влияет

Типы контента: Влияет на все типы контента, с которыми взаимодействует пользователь (emails, документы, веб-страницы). Особенно эффективно для контента с четко выраженными сущностями (имена, адреса, специфические темы).
Персонализация: Патент напрямую связан с персонализацией поиска, так как Named Entity List часто строится на основе личных данных пользователя.

Когда применяется

Триггеры активации: Система активируется при возникновении событий (Events). Это может быть набор определенного количества слов, завершение предложения (ввод знака препинания), открытие нового документа, получение email или сообщения в мессенджере.
Условия: Применяется, когда система может идентифицировать в текущем контексте одну или несколько значимых именованных сущностей из своего списка.

Пошаговый алгоритм

Процесс А: Построение и поддержка Списка Именованных Сущностей (Офлайн/Фоновый режим)

Сбор данных: Анализ корпуса данных пользователя (логи мессенджеров, почтовые ящики, документы, история браузера, списки контактов).
Извлечение кандидатов: Идентификация потенциальных сущностей. Методы включают:
- Извлечение адресатов/отправителей из полей To/From/Cc/Bcc.
- Извлечение имен из списков контактов/IM.
- Использование PoS Tagging для идентификации существительных и имен собственных.
- Идентификация часто используемых фраз или терминов из явных запросов пользователя.
Фильтрация и Оценка:
- Расчет частотности (DF или IDF). Фильтрация слишком частых слов (например, общих имен или стоп-слов).
- Присвоение веса (Weight Attribute) каждой сущности на основе ее типа и значимости для пользователя.
Хранение: Сохранение Named Entity List. Приоритетные сущности хранятся в оперативной памяти (RAM) для быстрого доступа.

Процесс Б: Генерация Имплицитного Запроса (Реальное время)

Получение события: Система фиксирует событие (например, пользователь набирает текст).
Извлечение текста: Извлечение текста, связанного с событием (например, последнее предложение).
Идентификация сущностей: Поиск терминов из текста в Named Entity List.
Формирование запроса: Создание имплицитного поискового запроса на основе найденных сущностей. Запрос взвешивается так, чтобы сущности с большим Weight Attribute имели большее влияние.
Выполнение запроса: Передача запроса поисковой системе (локальной или глобальной).
Обработка результатов: Получение и ранжирование результатов.
Фильтрация и отображение: Применение порога релевантности. Если результаты превышают порог, они отображаются пользователю.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных, связанных с пользователем и его активностью:

Контентные факторы: Текст активных документов, электронных писем (включая тему и тело), сообщений мессенджеров, просматриваемых веб-страниц (включая заголовки и текст), имена файлов и директорий, анкорный текст ссылок на просмотренные страницы.
Поведенческие факторы: Термины, которые пользователь часто использует в явных поисковых запросах; частота использования определенных терминов в документах; паттерны коммуникации (с кем пользователь часто общается).
Пользовательские данные: Списки контактов (Contact lists), списки задач (To-do lists), данные из календаря.
Внешние данные: Упоминается возможность загрузки списка сущностей из новостей.

Какие метрики используются и как они считаются

Weight Attribute (Вес сущности): Метрика, определяющая значимость сущности. Рассчитывается на основе типа сущности (например, email адрес может иметь больший вес, чем обычное существительное) и ее релевантности пользователю.
TF (Term Frequency): Частота термина в конкретном документе или потоке данных.
IDF (Inverse Document Frequency): Обратная частота документа. Используется для идентификации редких, а значит, потенциально важных терминов. Патент указывает, что существительные с высоким IDF (т.е. редко встречающиеся в репозитории пользователя) добавляются в список сущностей.
DF (Document Frequency): Частота документа. Используется для фильтрации слишком общих слов (высокий DF).
Part of Speech (PoS) Tagging: Используется для определения грамматической роли слов. Система может приоритизировать существительные (Nouns) и имена собственные (Proper Nouns).
Relevance Score (Оценка релевантности): Используется для фильтрации результатов имплицитного поиска перед показом пользователю (порог).

Выводы

Фокус на распознавании сущностей (NER): Патент демонстрирует ранние, но фундаментальные методы Google для идентификации именованных сущностей. Это подтверждает, что идентификация конкретных объектов (людей, мест, тем) является ключевой задачей поисковой системы.
Приоритет специфичности (IDF): Система активно использует метрику IDF для определения важности термина. Предпочтение отдается более редким и специфичным терминам, а не общим словам. Это подчеркивает важность использования точной терминологии в контенте.
Использование грамматического анализа (PoS Tagging): Google использует разметку частей речи для улучшения качества извлечения сущностей. Система может отличать существительные от глаголов и идентифицировать имена собственные, что требует грамматически правильного и структурированного контента.
Взвешивание сущностей: Не все идентифицированные сущности считаются одинаково важными. Система присваивает им веса (Weight Attribute) и при генерации запросов отдает приоритет более значимым сущностям.
Персонализация как источник сущностей: Патент явно указывает на использование личных данных пользователя (email, контакты, документы) для формирования списка релевантных сущностей. Это подчеркивает важность персонализированного контекста в понимании интента.

Практика

Best practices (это мы делаем)

Хотя патент фокусируется на имплицитном поиске, описанные методы NER имеют прямое отношение к тому, как Google анализирует веб-контент.

Четкая идентификация сущностей: Убедитесь, что ключевые сущности вашего контента (названия продуктов, имена людей, организации, локации) представлены ясно и недвусмысленно. Используйте имена собственные и последовательную терминологию.
Фокус на специфичных терминах (Высокий IDF): При создании контента используйте точную и специфичную для ниши терминологию. Патент показывает, что термины с высоким IDF (более редкие) с большей вероятностью будут идентифицированы как значимые сущности.
Использование правильной грамматической структуры: Пишите ясно и грамматически корректно. Использование PoS Tagging означает, что система анализирует структуру предложений для идентификации сущностей (например, определяя существительные и имена собственные по контексту и капитализации).
Оптимизация под Knowledge Graph: Применяйте микроразметку Schema.org для явного указания сущностей и их связей. Это помогает системам NER, подобным описанной, корректно интерпретировать контент.

Worst practices (это делать не надо)

Использование неоднозначных терминов: Использование терминов, которые могут быть интерпретированы по-разному или имеют множество значений, затрудняет идентификацию конкретной Named Entity.
Фокус только на общих запросах (Низкий IDF): Оптимизация исключительно под высокочастотные общие запросы может привести к тому, что контент не будет ассоциирован с конкретными значимыми сущностями.
Неструктурированный и грамматически некорректный текст: Текст, написанный с ошибками или в виде сплошного потока без четкой структуры, усложняет работу алгоритмов PoS Tagging и снижает эффективность извлечения сущностей.

Стратегическое значение

Этот патент подтверждает стратегическую важность Named Entity Recognition (NER) в экосистеме Google. Успех в современном SEO напрямую зависит от способности структурировать информацию таким образом, чтобы поисковые системы могли легко идентифицировать ключевые сущности и их атрибуты. Стратегия должна быть направлена на построение семантического кокона и четкое определение тематики сайта через связанные сущности, а не просто набор ключевых слов.

Практические примеры

Сценарий: Оптимизация страницы биографии эксперта

Цель – обеспечить точное извлечение сущностей, связанных с экспертом.

Действие: Убедиться, что полное имя эксперта (Имя Собственное) используется последовательно и выделено (например, в H1).
Обоснование (Патент): Система использует капитализацию и PoS Tagging для идентификации имен собственных как Named Entities.
Действие: Четко указать названия организаций, с которыми связан эксперт (места работы, университеты).
Обоснование (Патент): Названия организаций являются ключевыми Named Entities.
Действие: Использовать специфическую профессиональную терминологию для описания области экспертизы (например, «Специалист по Information Retrieval» вместо «Эксперт по поиску»).
Обоснование (Патент): Специфичные термины имеют более высокий IDF и с большей вероятностью будут идентифицированы как значимые сущности, определяющие тематику.
Ожидаемый результат: Поисковая система более точно идентифицирует ключевые сущности на странице, что способствует улучшению позиций по запросам, связанным с этими сущностями, и повышает вероятность попадания в Knowledge Graph.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования основного веб-поиска Google?

Нет, этот патент описывает систему для имплицитного (проактивного) поиска, которая работает на основе текущего контекста пользователя и часто использует персонализированные данные. Он не описывает, как Google ранжирует веб-сайты в ответ на явные запросы на google.com. Однако он описывает технологии (NER), которые используются и в основном поиске.

Что такое «Именованная сущность» (Named Entity) согласно этому патенту?

Это термин, фраза или идентификатор, который система считает значимым. К ним относятся имена людей, email-адреса, «buddy names» в мессенджерах, названия организаций, а также часто используемые пользователем фразы или редкие термины (с высоким IDF), идентифицированные как существительные.

Как система определяет, какие сущности важнее?

Каждой сущности присваивается вес (Weight Attribute). Этот вес указывает на вероятность того, что термин является значимой сущностью. При генерации имплицитного запроса система отдает приоритет сущностям с более высоким весом (Claim 1).

Что такое PoS Tagging и почему это важно для SEO?

Part of Speech (PoS) Tagging — это процесс определения части речи для каждого слова в тексте (существительное, глагол и т.д.). Это важно для SEO, потому что Google использует этот анализ для более точного извлечения сущностей. Грамматически правильный и четко структурированный контент облегчает этот процесс и помогает поисковой системе лучше понять смысл текста.

Какова роль IDF (Inverse Document Frequency) в этом патенте?

IDF играет ключевую роль в идентификации сущностей. Система ищет термины (особенно существительные), которые редко встречаются в общем корпусе документов (высокий IDF). Такие редкие термины часто являются специфичными и значимыми, поэтому они добавляются в Named Entity List. Для SEO это означает важность использования точной и нишевой терминологии.

Использует ли Google мои личные данные (email, контакты) для этого?

Да, согласно патенту, система имплицитного поиска активно анализирует электронную почту, списки контактов, логи мессенджеров и локальные документы для построения персонализированного списка именованных сущностей (Named Entity List), релевантных конкретному пользователю.

Как этот патент связан с Knowledge Graph?

Патент описывает базовые технологии Named Entity Recognition (NER), которые необходимы для наполнения Knowledge Graph. Методы идентификации имен собственных, организаций и специфических тем, описанные здесь, используются для извлечения фактов из веб-контента и их последующего сохранения в базе знаний.

Стоит ли использовать очень редкие слова в контенте, чтобы они были распознаны как сущности?

Использование точной и специфичной терминологии (которая часто имеет высокий IDF) полезно для определения тематики контента. Однако это должны быть релевантные термины, понятные вашей целевой аудитории, а не искусственно вставленные редкие слова. Важен баланс между специфичностью и читабельностью.

Влияет ли капитализация слов на распознавание сущностей?

Да. Патент упоминает, что капитализация может использоваться в сочетании с PoS Tagging для идентификации имен собственных. Например, слово, которое обычно является глаголом, но написано с заглавной буквы в середине предложения, может быть интерпретировано как имя собственное (сущность).

Как SEO-специалисту применить знания из этого патента на практике?

Необходимо сосредоточиться на семантической оптимизации. Это включает четкое определение ключевых сущностей в контенте, использование специфичной терминологии (высокий IDF), поддержание правильной грамматической структуры для помощи PoS Tagging и использование микроразметки для явного указания сущностей.