Патент описывает, как Google автоматически анализирует контент (на примере email), используя правила на основе синтаксиса и содержания. Система распознает сущности (номера телефонов, адреса), объекты на изображениях (Object Recognition) и текст в аудио (Speech Recognition), а затем добавляет скрытые аннотации (поисковые термины). Это позволяет находить контент по его характеристикам, даже если ключевые слова в нем отсутствуют.
Описание
Какую задачу решает
Патент решает проблему ограниченности поиска, основанного только на буквальном совпадении ключевых слов. Пользователи часто хотят находить контент по его типу, смыслу или контексту (например, найти все «контактные данные» или «фотографии моста»), даже если эти конкретные термины отсутствуют в тексте. Изобретение направлено на улучшение эффективности информационного поиска (Information Retrieval) путем автоматического выявления характеристик контента.
Что запатентовано
Запатентована система автоматического аннотирования контента (на примере электронных сообщений). Система анализирует различные типы данных (текст, аудио, изображения, видео) с использованием набора правил аннотирования (Annotation Rules), основанных на синтаксисе, контенте или их комбинации. Ключевым элементом является идентификация и связь с контентом релевантных поисковых терминов (аннотаций), которых нет в самом контенте, и обновление индекса для отражения этой связи.
Как это работает
Система анализирует входящий контент с помощью Analysis Module:
- Мультимодальный анализ: Для нетекстового контента применяются технологии распознавания речи (Speech Recognition) для аудио, оптическое распознавание символов (OCR) и распознавание объектов (Object Recognition) для изображений и видео.
- Применение правил: К извлеченным данным применяются правила. Syntax-based rules ищут совпадения с известными форматами (например, распознавание структуры номера телефона). Content-based rules ищут определенные ключевые слова или концепции.
- Аннотирование и Индексирование: Если правило срабатывает, система ассоциирует с контентом новые Search Terms (например, «телефонный номер») в индексе, даже если этого термина нет в тексте.
Актуальность для SEO
Высокая. Хотя патент описывает применение в контексте электронных сообщений (например, Gmail), описанные технологии (извлечение сущностей, распознавание объектов, транскрибация аудио, семантическое аннотирование) являются фундаментальными для современных поисковых систем. В 2025 году эти методы лежат в основе мультимодального поиска и глубокого понимания контента (включая веб-страницы) системами Google.
Важность для SEO
Умеренное влияние (4/10). Патент не описывает алгоритмы ранжирования веб-поиска напрямую, так как фокусируется на поиске внутри систем обмена сообщениями. Однако он предоставляет критически важное понимание возможностей Google по извлечению структурированной информации из неструктурированного текста и глубокому анализу мультимедийного контента. Понимание этих механизмов извлечения данных необходимо для стратегической оптимизации веб-контента (текста, изображений, видео, подкастов).
Детальный разбор
Термины и определения
- Analysis Module (Модуль анализа)
- Компонент системы, отвечающий за анализ контента электронного сообщения на соответствие правилам аннотирования.
- Annotation Rules (Правила аннотирования)
- Набор правил, используемых для идентификации поисковых терминов, которые следует ассоциировать с сообщением. Делятся на три типа: Content-based, Syntax-based и Hybrid.
- Content-based Annotation Rule (Правило на основе контента)
- Правило, основанное на поиске определенных ключевых слов или концепций в контенте (например, поиск слова «сделка» или «маршрут»).
- Syntax-based Annotation Rule (Правило на основе синтаксиса)
- Правило, основанное на поиске контента, соответствующего определенному формату или шаблону (например, формат номера телефона, email-адреса, почтового адреса).
- Electronic Message (Электронное сообщение)
- Единица контента, анализируемая системой. Включает email, мгновенные сообщения, обновления социальных сетей, голосовые сообщения, факсы, переданные файлы (фото, видео, документы).
- Message Cluster (Кластер сообщений)
- Группа электронных сообщений, объединенных на основе общих аннотаций или критериев (например, кластеры «Promotions» или «Travel»).
- Object Recognition (Распознавание объектов)
- Технология для идентификации объектов на изображениях или в видео.
- OCR (Optical Character Recognition / Оптическое распознавание символов)
- Технология для извлечения текста из изображений.
- Search Term (Поисковый термин / Аннотация)
- Термин, идентифицированный системой и ассоциированный с сообщением в индексе. Этот термин может отсутствовать в исходном контенте сообщения.
- Speech Recognition (Распознавание речи)
- Технология для преобразования аудиоконтента в текст.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной механизм аннотирования на основе синтаксиса.
- Система анализирует тело (message body) электронного сообщения с использованием набора правил, включающего как минимум одно Syntax-based annotation rule.
- Анализ включает поиск контента, соответствующего формату, указанному в синтаксическом правиле (например, поиск шаблона номера телефона).
- Если найдено совпадение с форматом:
- Идентифицируется Search Term, соответствующий этому правилу (например, термин «Телефонный номер»).
- Обновляется индекс (index), чтобы указать, что этот Search Term присутствует в сообщении.
- В ответ на пользовательский запрос, включающий этот Search Term, система предоставляет это сообщение в результатах поиска на основании информации в индексе.
- Ключевое условие: сам Search Term отсутствует в теле исходного сообщения.
Ядро изобретения — это возможность найти документ по его характеристике (например, наличие телефонного номера), даже если пользователь ищет по этой характеристике, а не по содержимому документа, за счет предварительного анализа формата данных и добавления соответствующей аннотации в индекс.
Claims 9-12 (Зависимые): Детализируют обработку мультимедийного контента.
- Claim 9 (Аудио): Если контент содержит аудио, применяется Speech Recognition для создания текста, который затем анализируется правилами.
- Claim 10 (Изображение с текстом): Если контент содержит изображение с символами, применяется OCR для идентификации символов, которые затем анализируются правилами.
- Claims 11 и 12 (Изображение/Видео с объектами): Если контент содержит изображение или видео с объектами, применяется Object Recognition для идентификации объектов, которые затем анализируются правилами.
Claim 13 (Зависимый): Перечисляет примеры форматов для синтаксических правил.
Правила могут использовать предопределенные форматы: номера телефона, email, адреса, кода страны и/или географического местоположения.
Где и как применяется
Патент описывает технологии, применяемые на этапе обработки и индексирования контента. Хотя контекст патента — это системы обмена сообщениями (например, Gmail), описанные механизмы являются фундаментальными для Information Retrieval и применимы к индексированию веб-контента.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения изобретения. Analysis Module обрабатывает контент во время индексации.
- Извлечение признаков (Feature Extraction): Система использует Speech Recognition, OCR и Object Recognition для анализа мультимедийного контента.
- NLP и Семантика (Entity Recognition): Система применяет Syntax-based rules для распознавания структурированных сущностей (адреса, телефоны) в неструктурированном тексте.
- Аннотирование: Применяются Annotation Rules для присвоения контенту дополнительных Search Terms (меток или аннотаций), которые описывают его характеристики или содержание, но не обязательно присутствуют в тексте.
Входные данные:
- Необработанный контент (текст, аудио, изображение, видео).
- Набор Annotation Rules (синтаксические, контентные, гибридные).
- Опционально: данные о местоположении пользователя или устройства для контекстного аннотирования (Claim 4).
Выходные данные:
- Обновленная запись в индексе для данного контента, обогащенная новыми Search Terms (аннотациями).
На что влияет
- Мультимедиа контент: Патент напрямую описывает механизмы анализа аудио, изображений и видео. Это влияет на то, как индексируются и находятся подкасты, видеоролики и графический контент.
- Неструктурированный текст: Влияет на обработку страниц, содержащих информацию в виде простого текста, но имеющую распознаваемую структуру (например, страницы контактов, спецификации, рецепты).
- Локальный контент: Упоминается использование геолокационных данных (location service) для аннотирования контента (например, пометка контента как «Местный»/»Local»).
Когда применяется
Алгоритм применяется в процессе обработки и индексации нового или обновленного контента. Это не процесс ранжирования в реальном времени, а этап подготовки данных (Feature Extraction) для последующего поиска.
Пошаговый алгоритм
Процесс аннотирования контента:
- Получение контента: Система обнаруживает поступление нового контента (электронного сообщения).
- Инициализация анализа: Контент передается в Analysis Module для обработки против набора Annotation Rules.
- Идентификация типа контента: Определяется тип данных в теле сообщения (текст, аудио, изображение, видео).
- Обработка мультимедиа (если применимо):
- Если Аудио: Применяется Speech Recognition для получения текстовой транскрипции.
- Если Изображение (с текстом): Применяется OCR для извлечения текста.
- Если Изображение/Видео (с объектами): Применяется Object Recognition для идентификации объектов.
- Применение правил аннотирования: Полученный текст или идентифицированные объекты анализируются:
- Применение Syntax-based rules: Поиск совпадений с предопределенными форматами (например, шаблон адреса).
- Применение Content-based rules: Поиск ключевых слов или концепций.
- Идентификация аннотаций: В случае успешного срабатывания правила идентифицируется соответствующий Search Term (аннотация).
- Кластеризация (Опционально): Сообщение может быть добавлено в Message Cluster на основе аннотации.
- Индексирование: Индекс обновляется, чтобы связать идентифицированный Search Term с сообщением, даже если этот термин отсутствует в исходном контенте.
Какие данные и как использует
Данные на входе
- Контентные факторы: Анализируются различные компоненты сообщения: тело сообщения, вложения, заголовок, строка темы.
- Мультимедиа факторы: Изображения, видео и аудио файлы, содержащиеся в контенте.
- Структурные факторы: Форматы данных внутри текста (шаблоны номеров телефонов, адресов и т.д.) для применения Syntax-based rules.
- Географические факторы: Данные геолокации (например, IP-адрес устройства, метаданные GPS в фотографиях, распознанные адреса) могут использоваться для применения географически зависимых правил аннотирования (например, определение, является ли адрес «местным»).
Какие метрики используются и как они считаются
Патент фокусируется на методах анализа и применения правил, а не на конкретных метриках ранжирования.
- Анализ синтаксиса (Pattern Matching): Используется сопоставление с шаблонами для проверки соответствия текста предопределенным форматам (Syntax-based rules). Примеры форматов: номер телефона, email-адрес, почтовый адрес, код страны.
- Анализ контента: Используется поиск по ключевым словам в рамках Content-based rules.
- Методы анализа мультимедиа:
- Speech Recognition: Преобразование аудио в текст.
- OCR: Извлечение текста из изображений.
- Object Recognition: Идентификация объектов в изображениях и видео.
- Система на основе правил: Логика ассоциации Search Terms определяется набором Annotation Rules.
Выводы
- Индексирование за пределами ключевых слов: Патент подтверждает, что Google активно аннотирует контент терминами, которые в нем явно не присутствуют. Это основано на понимании смысла, структуры и контекста контента, а не только на наличии ключевых слов. Это фундаментальный принцип семантического поиска.
- Извлечение структурированных данных (Entity Extraction): Особое внимание уделяется Syntax-based rules для распознавания форматов (телефоны, адреса, email). Это демонстрирует способность Google идентифицировать и извлекать структурированные сущности из неструктурированного текста, даже без использования микроразметки.
- Глубокое понимание мультимедиа контента (Мультимодальность): Google систематически использует OCR, Object Recognition и Speech Recognition для анализа нетекстового контента. Мультимедиа индексируется на основе его фактического содержания, а не только окружающего текста или метаданных.
- Контекстуальное аннотирование (Геолокация): Местоположение может использоваться как контекст для применения специфических аннотаций (например, классификация контента как «Местный»/»Local»), что подчеркивает важность локальных сигналов.
Практика
ВАЖНО: Патент описывает реализацию в контексте систем обмена электронными сообщениями (например, Gmail). Однако описанные техники Information Retrieval являются фундаментальными и применимы к тому, как Google индексирует веб-контент. Выводы для SEO основаны на понимании этих базовых возможностей Google.
Best practices (это мы делаем)
- Оптимизация под распознавание сущностей (Синтаксис): Используйте четкие, стандартные и общепринятые форматы для адресов, номеров телефонов, дат, времени и другой структурированной информации в тексте. Даже без использования Schema.org, Google может распознать эти шаблоны с помощью Syntax-based rules для правильной идентификации сущностей.
- Оптимизация мультимедийного контента:
- Изображения и Видео: Обеспечивайте высокое визуальное качество и четкость изображений. Google использует Object Recognition для идентификации объектов и индексации контента на их основе.
- Аудио (Подкасты, звук в видео): Обеспечивайте чистое качество звука и разборчивую речь. Google применяет Speech Recognition для транскрибации аудио, чтобы понять содержание и проиндексировать его.
- Текст на изображениях: Помните, что Google использует OCR для извлечения текста из изображений. Важная информация должна быть доступна в виде текста, но убедитесь, что текст на графике также оптимизирован и читаем.
- Четкая структура и тематичность контента: Создавайте контент с ясной тематической направленностью. Это помогает системам классификации (подобным Content-based rules) корректно интерпретировать и аннотировать страницу для релевантных концепций и тем.
Worst practices (это делать не надо)
- Скрытие информации в изображениях: Размещение важного текста (например, контактных данных, цен или ключевых преимуществ) только в виде изображений в надежде скрыть его от поисковых систем. OCR делает эту практику неэффективной и вредит доступности (Accessibility).
- Игнорирование качества мультимедиа: Публикация видео с плохим изображением или подкастов с неразборчивым звуком. Это напрямую препятствует способности Google понять содержание через Object Recognition и Speech Recognition.
- Использование неоднозначных форматов данных: Использование нестандартных, запутанных или непоследовательных форматов для представления структурированных данных (например, написание адреса разными способами на разных страницах). Это снижает эффективность Syntax-based rules.
Стратегическое значение
Патент подтверждает критическую важность мультимодального индексирования (multi-modal indexing). SEO-стратегии должны учитывать, что Google анализирует визуальные и аудио элементы так же тщательно, как и текст. Это также подчеркивает стратегическую ценность четкой структуры контента и последовательного форматирования для эффективного извлечения сущностей (Entity Extraction), что является основой семантического поиска.
Практические примеры
Сценарий 1: Оптимизация страницы контактов для извлечения сущностей
- Действие: Вместо того чтобы указать адрес и телефон в произвольном формате или вставить их картинкой, SEO-специалист обеспечивает их представление в стандартном текстовом формате (например, (123) 456-7890; Улица, Дом, Город, Индекс).
- Механизм (по патенту): Google при индексации применяет Syntax-based rules. Система распознает шаблоны номера телефона и адреса. Если бы информация была на картинке, был бы применен OCR.
- Результат: Google точно извлекает контактные данные как сущности и аннотирует страницу соответствующим образом. Это повышает вероятность корректного отображения данных в Knowledge Graph, Local Pack и ответах на запросы о контактах компании.
Сценарий 2: Оптимизация видеообзора продукта
- Действие: При создании видеообзора обеспечивается четкое изображение продукта с разных ракурсов и чистая аудиодорожка с ясным описанием его функций.
- Механизм (по патенту): Google применяет Object Recognition для анализа видеоряда и идентификации продукта. Одновременно применяется Speech Recognition для транскрибации аудиодорожки.
- Результат: Google понимает содержание видео как визуально, так и аудиально. Видео индексируется с аннотациями о продукте и его функциях, что улучшает его ранжирование в Google Video и основном поиске, даже если окружающий текст на странице минимален.
Вопросы и ответы
Означает ли этот патент, что Google может читать текст на изображениях?
Да, абсолютно. В патенте явно указывается использование технологии OCR (Optical Character Recognition) для анализа изображений, содержащих символы (Claim 10). Это позволяет системе извлекать текст из изображений и затем анализировать его с помощью правил аннотирования. SEO-специалисты должны учитывать, что текст на баннерах, инфографике или фотографиях доступен для индексации Google.
Как Google понимает, о чем подкаст или аудиофайл?
Патент описывает использование Speech Recognition (Распознавание речи) для преобразования аудиоконтента в текст (Claim 9). После транскрибации этот текст анализируется так же, как и любой другой текстовый контент, с применением синтаксических и контентных правил. Для SEO это подчеркивает важность высокого качества звука и четкости речи в аудиоматериалах.
Что такое «Правила на основе синтаксиса» (Syntax-based rules) и как они влияют на SEO?
Syntax-based rules ищут контент, соответствующий определенным форматам или шаблонам, например, номерам телефонов, адресам, датам (Claim 13). Для SEO это означает, что Google может распознавать структурированные данные в тексте, даже если вы не используете микроразметку Schema.org. Использование стандартных, последовательных форматов для контактной информации критически важно для правильного извлечения этих сущностей.
Может ли Google определить, что изображено на картинке, если нет атрибута alt?
Да. Патент указывает на использование Object Recognition (Распознавание объектов) для идентификации объектов на изображениях и в видео (Claims 11, 12). Система анализирует сами пиксели, чтобы понять содержание изображения. Хотя атрибут alt остается важным фактором, Google не полагается исключительно на него и может самостоятельно идентифицировать визуальное содержание.
Патент говорит об аннотировании контента терминами, которых в нем нет. Что это значит для подбора ключевых слов?
Это означает, что фокус смещается от точного совпадения ключевых слов к тематической релевантности и наличию сущностей. Если ваша страница четко структурирована и содержит нужные сущности (например, спецификации продукта), Google может аннотировать ее соответствующими концептуальными терминами и показывать по запросам, которые вы не предусмотрели, но которые семантически связаны с содержанием.
Применяется ли этот патент к веб-поиску или только к Gmail?
Патент описывает реализацию строго в контексте «электронных сообщений» (email, чаты и т.д.), и примеры показывают интерфейс Gmail. Однако описанные технологии (OCR, Object Recognition, Syntax-based rules) являются фундаментальными для Information Retrieval и используются Google повсеместно, включая индексацию веб-страниц. Ценность патента для SEO заключается в понимании этих базовых возможностей анализа контента.
Что такое «Кластер сообщений» (Message Cluster) и связано ли это с тематической кластеризацией в SEO?
В контексте патента Message Cluster — это группа сообщений, объединенных общими аннотациями (например, все сообщения с акциями или все сообщения о путешествиях), но не обязательно связанных прямой перепиской. Концептуально это похоже на тематическую кластеризацию в SEO, где контент группируется по темам. Это подтверждает, что Google использует классификацию и группировку контента на основе его содержания и характеристик.
Упоминается ли в патенте использование геолокации?
Да, патент упоминает использование служб геолокации (location service) и географических форматов (Claim 13). Например, система может определить, что адрес в сообщении находится рядом с домом пользователя, и аннотировать сообщение как «Местное» (Local). Это подчеркивает способность Google использовать географический контекст при анализе контента.
Что важнее: использовать микроразметку Schema.org или полагаться на синтаксические правила Google?
Микроразметка Schema.org всегда предпочтительнее, так как она предоставляет явные и однозначные сигналы поисковой системе. Однако этот патент показывает, что при отсутствии микроразметки Google активно использует Syntax-based rules для самостоятельного извлечения структурированных данных. Лучшая стратегия — использовать Schema.org и одновременно поддерживать чистое, стандартное форматирование текста.
Как этот патент связан с концепцией E-E-A-T?
Патент напрямую не связан с оценкой качества или авторитетности (E-E-A-T). Он фокусируется исключительно на понимании содержания и извлечении фактов из контента. Однако точное извлечение сущностей (например, контактной информации, имен авторов) с помощью Syntax-based rules может косвенно способствовать оценке E-E-A-T, помогая связать контент с реальными организациями и людьми.