Как Google автоматически определяет интересные термины в электронных книгах и связывает их с внешним веб-контентом

Google использует технологию в приложениях для чтения (eReaders), которая автоматически анализирует текст документа (например, электронной книги). Система идентифицирует «потенциально интересные термины» (сущности, концепции) с помощью NLP и словарей, ищет релевантную внешнюю информацию (карты, музыку, определения) и динамически вставляет гиперссылки (linkifies) в текст, не изменяя исходный документ.

Описание

Какую задачу решает

Патент решает задачу предоставления динамической, контекстуально релевантной внешней информации пользователям, читающим документы на электронных устройствах (eReaders или Ebook applications). Это устраняет необходимость ручного добавления гиперссылок издателем и обогащает статический контент актуальными данными в момент чтения.

Патент не направлен на устранение SEO-манипуляций в веб-поиске; он сфокусирован исключительно на улучшении функциональности приложений для чтения.

Что запатентовано

Запатентована клиент-серверная система для автоматической «линкификации» (linkifying) контента на eReaders. Клиентское устройство идентифицирует «потенциально интересные термины» (Potentially Interesting Terms) с использованием NLP и словарей. Сервер находит и приоритизирует релевантные внешние ссылки для этих терминов. Ключевой особенностью, защищенной патентом, является также механизм оптимизации вычислительной нагрузки на клиентском устройстве во время анализа текста.

Как это работает

Механизм работает в рамках приложения для чтения:

Анализ на клиенте: eReader анализирует текст, опережая текущую позицию чтения пользователя.
Идентификация терминов: Компонент Content Identifier определяет интересные термины (сущности, имена, места), используя NLP, специализированные словари и, возможно, метрику tf-idf (term frequency-inverse document frequency).
Оптимизация обработки: Скорость анализа динамически регулируется (например, замедляется по мере обработки документа), чтобы снизить нагрузку на устройство.
Запрос к серверу: Идентифицированные термины отправляются на сервер.
Контекстуальный поиск на сервере: Сервер ищет актуальную внешнюю информацию (карты, музыку, видео). Он применяет эвристики, которые могут включать персонализацию, социальные тренды и агрегированный CTR для приоритизации результатов.
Возврат и отображение: Сервер возвращает ссылки (например, через Asynchronous HTTP), и eReader отображает их, часто в виде наложения (overlay), не нарушая исходное форматирование.

Актуальность для SEO

Средняя. Хотя патент специфичен для ниши eReaders, базовые технологии, лежащие в его основе — автоматическое связывание сущностей (Entity Linking), контекстный поиск и использование NLP/tf-idf для понимания контента — крайне актуальны для всех систем обработки информации Google. Однако конкретная реализация, включая оптимизацию производительности на стороне клиента, имеет ограниченное значение для веб-поиска.

Важность для SEO

Прямое влияние на SEO минимально (2/10). Этот патент описывает функциональность приложения для eReaders, а не алгоритмы ранжирования веб-поиска. Он не дает прямых рекомендаций для повышения позиций в Google Search. Однако он предоставляет ценное понимание методов Google для идентификации ключевых терминов и сущностей в документе с использованием NLP и tf-idf, а также того, как Google определяет «контекстуальную релевантность» при связывании терминов с внешними источниками.

Детальный разбор

Термины и определения

Asynchronous HTTP (Асинхронный HTTP): Метод связи, позволяющий eReader получать данные (гиперссылки) от сервера без прерывания процесса чтения пользователем.
Clickthrough Rate (CTR): Метрика, упоминаемая как часть эвристик на сервере. Используется для оценки интереса к определенным частям популярных текстов на основе агрегированного поведения пользователей.
Content Identifier (Идентификатор контента): Компонент на eReader, отвечающий за автоматическое и динамическое выявление потенциально интересных терминов в документе.
eReader / Ebook (Электронная книга/Устройство для чтения): Клиентское устройство (специализированное устройство, смартфон, планшет) или приложение (включая расширения браузера), на котором отображается документ.
Language Specific Dictionary (Языковой словарь): Словарь, используемый Content Identifier. Может загружаться динамически в зависимости от языка, жанра (художественная/нехудожественная литература) или технического уровня документа.
Linkify / Linkification (Линкификация): Процесс автоматического анализа документа и связывания определенного контента с внешними ресурсами без ручного программирования гиперссылок.
Look-up table (Таблица поиска): Структура данных, содержащая общеизвестные имена людей, мест или вещей (сущностей). Используется для быстрого распознавания известных сущностей.
Natural Language Processing (NLP) (Обработка естественного языка): Технологии, используемые Content Identifier для идентификации ключевых терминов и фраз и игнорирования нерелевантных (соединительных) слов.
Potentially Interesting Terms (Потенциально интересные термины): Термины и фразы (существительные, глаголы, имена, места, песни, заголовки и т.д.), которые система считает достаточно важными для поиска дополнительной информации.
tf-idf (Term frequency-inverse document frequency): Численная статистика, используемая для определения важности слова для документа в коллекции. Используется Content Identifier для оценки важности идентифицированных терминов.

Ключевые утверждения (Анализ Claims)

Claim 1 и 12 (Независимые пункты): Описывают основную систему (Claim 1) и метод (Claim 12), выполняемые на Ebook reader.

Идентификация множества терминов (существительные, глаголы, имена и т.д.) из документа с использованием комбинации языкового словаря и NLP.
Отправка идентифицированных терминов на сервер.
Получение от сервера множества гиперссылок, соответствующих терминам.
Отображение (hyperlinking) этих терминов в документе.
Ключевой элемент: Скорость или объем обработки, выполняемой при идентификации терминов, изменяется в зависимости от процента документа, который уже был линкфицирован (linkified).

Ядром изобретения является не только автоматическая линкфикация, но и специфический механизм оптимизации производительности клиентского устройства во время этого процесса.

Claim 4 и 15 (Зависимые): Уточняют методы идентификации.

Система использует численную статистику tf-idf для определения того, насколько важен каждый из идентифицированных терминов для представленного документа.

Claim 9 и 21 (Зависимые): Описывают использование предопределенных данных.

Система использует Look-up table общеизвестных имен людей, мест или вещей и сравнивает идентифицированные термины с этой таблицей для получения начального набора результатов.

Claim 10 и 22 (Зависимые): Уточняют механизм оптимизации из Claim 1/12.

Скорость или объем обработки уменьшается по мере уменьшения процента документа, который еще не был линкфицирован. Система замедляется, когда работа почти завершена.

Где и как применяется

ВАЖНО: Этот патент НЕ описывает архитектуру веб-поиска Google (CRAWLING, INDEXING, RANKING веб-страниц). Он описывает технологию, применяемую в рамках экосистемы eReader (Клиент) и его специализированного Сервера.

Клиентская сторона (Приложение eReader):

Процесс функционально схож с этапом INDEXING (Извлечение признаков), но выполняется локально для открытого документа.

Content Identifier анализирует текст и извлекает признаки («интересные термины») с использованием NLP, tf-idf и словарей.
Система активно оптимизирует этот процесс, чтобы не перегружать устройство (динамическая скорость обработки).

Серверная сторона (Бэкенд eReader):

Процесс функционально схож с этапами RANKING и METASEARCH.

Сервер получает термины от клиента.
Выполняет поиск по различным источникам (карты, музыкальные сайты, видео сайты, базы данных).
Приоритизирует результаты (Ранжирование), используя эвристики, которые могут включать персонализацию, CTR по популярным текстам и тренды социальных сетей.
Возвращает лучшие ссылки клиенту.

Входные данные:

Текст документа (Ebook).
Данные о языке и жанре документа (для выбора словаря).
Look-up tables (известные сущности).
Профиль пользователя и история кликов (опционально, для персонализации).

Выходные данные:

Набор гиперссылок, представленных в виде наложения (overlay) на eReader.

На что влияет

Типы контента: В первую очередь влияет на текстовые документы, отображаемые в eReaders (электронные книги, статьи). Также может анализировать изображения (Claim 3 упоминает анализ имени, URL, размера или тегов изображения).
Специфические запросы: Влияет на распознавание и связывание сущностей (имена людей, названия мест, песен, географические объекты) внутри этих документов.
Ниши: Может быть адаптирован к различным нишам (художественная, техническая литература) за счет использования специализированных словарей.

Когда применяется

Условия работы: Алгоритм активируется динамически, когда пользователь читает документ на eReader.
Триггеры активации: Система буферизует и сканирует текст на несколько страниц вперед от того места, где читает пользователь.
Оптимизация производительности: Скорость обработки регулируется: она может снижаться по мере того, как точка обработки удаляется от точки чтения пользователя, или по мере того, как большая часть документа уже обработана.

Пошаговый алгоритм

Этап 1: Идентификация контента на клиенте (eReader)

Анализ документа: Система определяет текущую позицию чтения пользователя и анализирует текст вблизи этой позиции, буферизируя текст впереди.
Извлечение признаков: Content Identifier использует NLP и Language Specific Dictionary для выявления потенциально интересных терминов (сущности, глаголы, существительные), игнорируя соединительные слова.
Оценка важности: Может применяться статистика tf-idf для определения важности термина в контексте документа. Также может использоваться Look-up table для быстрой идентификации известных сущностей.
Оптимизация производительности: Система динамически регулирует скорость обработки. Скорость снижается, если процент необработанного документа уменьшается.

Этап 2: Обработка на сервере

Передача данных: Идентифицированные термины отправляются на сервер.
Контекстуальный поиск: Сервер выполняет обновленный поиск в Интернете или базах данных для поиска актуальных источников данных (карты, музыка, видео).
Приоритизация и Эвристика: Сервер взвешивает и приоритизирует контент. Эвристики могут использовать профиль пользователя (персонализация), CTR других пользователей по этому тексту или частоту упоминаний в социальных сетях.
Верификация: Проверяется работоспособность ссылок и их контекстуальная релевантность. При необходимости проводятся дополнительные поиски по семантически схожим терминам.

Этап 3: Отображение результатов

Возврат данных: Сервер возвращает рабочие ссылки клиенту (например, через Asynchronous HTTP).
Презентация: eReader отображает результаты в электронном документе, как правило, в виде наложения (overlay), не влияющего на форматирование оригинала.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа. Анализируются существительные, глаголы, имена собственные (люди, места), географические объекты, названия песен, модификаторы. Также упоминается анализ изображений (имя, URL, размер, теги).
Структурные факторы: Заголовки абзацев и разделов используются для идентификации контента.
Поведенческие факторы (на стороне сервера): История действий и выборов пользователя (user profile, selection history) для персонализации. Clickthrough Rate (CTR) для определенных частей популярных текстов (агрегированная оценка интереса).
Социальные факторы (на стороне сервера): Количество и частота упоминаний (hits) конкретных терминов на различных сайтах социальных сетей (social media sites).

Какие метрики используются и как они считаются

tf-idf (Term frequency-inverse document frequency): Используется на стороне клиента. Численная статистика, которая отражает, насколько важно слово для документа в контексте корпуса. Помогает выделить ключевые термины.
NLP Techniques: Используются для семантического анализа текста, идентификации ключевых терминов (Entity Recognition) и игнорирования нерелевантных слов.
Numerical Weighting (Численное взвешивание): Упоминается как часть эвристик (протоколов поиска) на сервере для приоритизации найденных внешних ресурсов.
CTR и частота в социальных сетях: Используются сервером как метрики для динамического определения данных, которые с большей вероятностью будут интересны пользователю (оценка актуальности и интереса).

Выводы

Патент носит преимущественно инфраструктурный характер и описывает внутренние процессы Google в контексте приложений для чтения (eReaders), а не алгоритмы веб-поиска. Прямых рекомендаций для SEO он не содержит, но дает важное понимание используемых технологий.

Фокус на eReaders, а не на веб-поиске: Описанная система предназначена для обогащения контента внутри среды электронных книг. Она не описывает, как Google ранжирует веб-сайты.
Подтверждение роли NLP и сущностей: Патент демонстрирует, как Google использует NLP, специализированные словари и таблицы поиска (Look-up tables) для распознавания сущностей (людей, мест, песен) в неструктурированном тексте.
Использование tf-idf для определения важности термина: tf-idf явно упоминается как метод, используемый на клиентском устройстве для определения того, какие термины в документе являются наиболее важными и заслуживают линкфикации.
Оценка «интересности» и релевантности контента: Для определения того, какая внешняя информация наиболее релевантна и интересна, сервер использует сложные эвристики, включающие поведенческие данные (CTR по популярным текстам), социальные сигналы (упоминания в соцсетях) и персонализацию.
Техническая оптимизация: Значительная часть патента и его ключевые Claims посвящены оптимизации вычислительной нагрузки на клиентском устройстве, что не имеет отношения к SEO.

Практика

Best practices (это мы делаем)

Хотя патент не дает прямых SEO-рекомендаций, он подтверждает важность следующих фундаментальных практик, основанных на том, как Google понимает контент и оценивает интерес:

Четкое использование и выделение сущностей (Entity Prominence): Патент подчеркивает использование Look-up tables и NLP для идентификации имен людей, мест и т.д. Это подтверждает важность создания контента вокруг распознаваемых сущностей (Entities) и их четкого, недвусмысленного упоминания в тексте.
Структурирование контента: Использование заголовков абзацев и разделов упоминается как фактор для идентификации контента. Хорошо структурированный контент облегчает системам (подобным описанной) определение ключевых тем и важных терминов.
Применение концепций tf-idf (Тематическая релевантность): Патент показывает, что tf-idf используется для определения важности терминов. Для SEO это напоминание о том, что контент должен содержать уникальные, важные для темы термины, чтобы выделиться, но без переспама (так как tf-idf учитывает частоту слова в общем корпусе).
Стимулирование вовлеченности и социального интереса: Поскольку сервер использует CTR и сигналы из social media sites для оценки интереса, создание контента, который вызывает обсуждение и имеет хорошие поведенческие метрики, может повысить его ценность в глазах систем Google.

Worst practices (это делать не надо)

Keyword Stuffing (Переспам): Чрезмерное использование ключевых слов может негативно сказаться на метриках типа tf-idf и затруднить работу NLP систем по выделению действительно важных концепций.
Игнорирование контекста и сущностей: Создание контента, ориентированного только на ключевые слова без привязки к реальным сущностям и контексту, затрудняет системам понимание его ценности и релевантности.
Создание поверхностного контента без авторитета: Контент с низкой авторитетностью вряд ли будет выбран сервером в качестве целевого внешнего ресурса для обогащения информации о сущности.

Стратегическое значение

Стратегическое значение патента заключается в демонстрации сложности инструментов Google для понимания контента и оценки его интересности. Он подтверждает глобальный сдвиг в сторону сущностей и концепций (Entities and Concepts). Система, способная автоматически идентифицировать ключевые концепции в тексте и связать их с авторитетной внешней информацией, используя при этом поведенческие и социальные сигналы, подчеркивает необходимость фокусироваться на тематической авторитетности (Topical Authority), ясности изложения и вовлеченности пользователей в долгосрочной SEO-стратегии.

Практические примеры

Патент описывает функциональность для Ebooks. Приведем концептуальный пример, основанный на механизмах патента.

Сценарий: Оптимизация контента для становления целевым ресурсом (Entity Authority)

Цель: Сделать страницу вашего сайта о конкретной сущности (например, историческом событии) настолько авторитетной, чтобы системы Google выбирали ее в качестве лучшего источника информации.

Идентификация сущности: Выбрать сущность, например, «Битва при Ватерлоо».
Создание контента (Topical Authority): Создать исчерпывающую страницу, покрывающую все аспекты события, включая связанные сущности (Наполеон, Веллингтон), даты, карты и последствия.
Обоснование (на основе патента): Когда пользователь читает историческую книгу на eReader, система идентифицирует «Битва при Ватерлоо» как Potentially Interesting Term. Сервер ищет лучший внешний ресурс.
Применение Best Practices: Убедиться, что контент хорошо структурирован, имеет высокие показатели вовлеченности (CTR) и упоминается в социальных сетях (сигналы интереса).
Ожидаемый результат: Серверная эвристика определяет вашу страницу как наиболее релевантный и интересный ресурс и использует ее в качестве целевой ссылки в eReader. Это же понимание авторитетности применяется и в веб-поиске.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует сайты в веб-поиске?

Нет. Патент полностью сфокусирован на технологии для электронных книг (eReaders). Он описывает, как автоматически находить интересные термины в книге и связывать их с внешним контентом (например, картами или музыкой). Он не имеет отношения к алгоритмам ранжирования веб-страниц в Google Search.

В патенте упоминается tf-idf. Значит ли это, что SEO-специалистам нужно оптимизировать контент под tf-idf?

Патент подтверждает, что Google использует tf-idf для оценки важности терминов в документе (в данном случае, на клиентском устройстве). Хотя понимание принципов tf-idf полезно для обеспечения наличия уникальных и релевантных терминов, это лишь один из множества сигналов. Фокусироваться следует на создании качественного контента, а не на манипулировании конкретными метриками.

Что такое «Linkify» (Линкификация) и как это работает?

Linkify — это процесс автоматического добавления гиперссылок к тексту без ручного вмешательства. Система использует NLP для идентификации важных терминов (сущностей) в тексте, а затем сервер находит наиболее релевантные внешние ресурсы для связи с этими терминами.

Патент упоминает «Look-up tables» для известных имен и мест. Как это связано с Knowledge Graph?

Look-up tables выполняют функцию, аналогичную Knowledge Graph, в рамках этой системы. Они представляют собой базу данных известных сущностей (людей, мест, вещей). Это подтверждает, что для эффективного понимания контента система должна быстро распознавать эти сущности, что подчеркивает важность оптимизации под сущности в SEO.

Использует ли система данные о поведении пользователей (CTR)?

Да, явно указано. На стороне сервера система может использовать историю кликов пользователя для персонализации. Также упоминается использование агрегированных данных CTR (Clickthrough Rate) по популярным текстам, чтобы определить, какие ссылки наиболее интересны читателям этого документа.

Упоминаются ли социальные сети в патенте и как они используются?

Да. Сервер может использовать количество и частоту упоминаний (hits) конкретных терминов на сайтах социальных сетей как часть своих эвристик. Это используется для определения актуальности и интересности данных, связанных с терминами из документа.

Какая часть патента является наиболее инновационной или ключевой?

Судя по формуле изобретения (Claims 1 и 12), ключевой частью является не только сама идея автоматической линкфикации, но и механизм оптимизации производительности на клиентском устройстве. Система динамически регулирует скорость обработки в зависимости от того, сколько текста уже обработано, чтобы не перегружать процессор eReader.

Может ли эта технология использоваться для вставки рекламы?

Да, в патенте (в описании, не в Claims) прямо упоминается возможность включения контекстуально релевантной рекламы (contextually relevant advertisements). Например, если в книге упоминается песня, гиперссылка может вести на сайт для ее покупки. Пользователям может быть предложена скидка на книгу в обмен на согласие получать такие ссылки.

Как система определяет язык и жанр документа?

Система определяет язык и жанр (например, художественная или нехудожественная литература, технический уровень) для того, чтобы загрузить соответствующий Language Specific Dictionary. Эти специализированные словари помогают более точно идентифицировать термины в зависимости от контекста.

Какова основная ценность этого патента для Senior SEO специалиста?

Основная ценность заключается в подтверждении используемых Google технологий для понимания контента и оценки интереса. Патент детально описывает использование NLP, tf-idf, баз данных сущностей, а также поведенческих и социальных сигналов. Это служит надежным индикатором того, что SEO-стратегия должна быть ориентирована на сущности, тематическую глубину и вовлеченность пользователей.