Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google (например, в Gmail) индексирует переписки, отделяя оригинальный текст от цитат для эффективного поиска

    INDEXING QUOTED TEXT IN MESSAGES IN CONVERSATIONS TO SUPPORT ADVANCED CONVERSATION-BASED SEARCHING (Индексирование цитируемого текста в сообщениях в беседах для поддержки расширенного поиска на основе бесед)
    • US9262455B2
    • Google LLC
    • 2016-02-16
    • 2011-08-29
    2011 Индексация Патенты Google

    Патент описывает инфраструктуру индексирования для систем обмена сообщениями (например, Gmail), где коммуникации сгруппированы в беседы. Система идентифицирует цитируемый текст (повторяющийся из предыдущих сообщений) и индексирует его отдельно от нового, оригинального текста. Это позволяет эффективно выполнять поиск внутри переписок, контролируя влияние цитат на результаты и отображение.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему эффективного индексирования и поиска в системах, где сообщения организованы в беседы (conversations), таких как Gmail. Основная сложность заключается в обработке quoted text (цитируемого текста из предыдущих сообщений), который часто повторяется в ответах. Это изобретение направлено на устранение избыточности данных, вызванной повторным индексированием цитат, и улучшение качества поиска, позволяя системе различать оригинальный контент и цитаты.

    Что запатентовано

    Запатентован метод индексирования сообщений внутри бесед, который явно идентифицирует и разделяет (партиционирует) quoted text отдельно от original text (нового контента) непосредственно в структуре индекса. Это достигается путем сравнения нового сообщения с предыдущими сообщениями в той же беседе и специальной маркировки соответствующих индексных компонентов (index components).

    Как это работает

    Когда поступает новое сообщение, оно ассоциируется с беседой. Система сравнивает его текст с текстом предыдущих сообщений для идентификации цитат. При индексировании используется техника разделения адресного пространства (Address Space Partitioning). Терминам из оригинального и цитируемого текста присваиваются разные диапазоны адресов, например, с помощью старших битов адреса (high order address bits). Это позволяет поисковому движку системы обрабатывать эти два типа контента раздельно.

    Актуальность для SEO

    Высокая для инфраструктуры коммуникационных сервисов (Gmail, Google Groups), которые используют организацию контента в виде бесед. Однако актуальность для Google Web Search и SEO низкая/нулевая, так как патент описывает инфраструктуру систем сообщений, а не индексирование веба.

    Важность для SEO

    (1/10 — Минимальное/Инфраструктура). Патент не оказывает влияния на SEO для Google Web Search. Он описывает внутреннюю архитектуру индексирования для систем обмена сообщениями (например, Gmail). Он не содержит информации об алгоритмах ранжирования веб-сайтов и не дает рекомендаций для SEO-специалистов.

    Детальный разбор

    Термины и определения

    Патент описывает инфраструктуру для систем обмена сообщениями и не содержит терминов, напрямую связанных с SEO для веб-поиска.

    Conversation (Беседа)
    Группа связанных сообщений (например, цепочка электронных писем), объединенных последовательностью ответов.
    Quoted Text (Цитируемый текст)
    Текст в сообщении, который идентифицирован как повторяющий контент из одного или нескольких предыдущих сообщений в той же беседе.
    Original Text (Оригинальный текст)
    Текст в сообщении, который не является цитируемым (новый контент, добавленный автором этого сообщения).
    Index Component (Компонент индекса)
    Часть записи индекса, которая связывает термин с конкретным сообщением (Message ID). Включает информацию о местоположении и типе термина.
    Original text index components
    Компоненты индекса, соответствующие терминам в оригинальном тексте.
    Quoted text index components
    Компоненты индекса, соответствующие терминам в цитируемом тексте.
    Address Space Partitioning (Разделение адресного пространства)
    Техника разделения индекса на логические разделы (партиции) для различения типа контента (например, оригинальный vs. цитируемый).
    Mapped Location (Отображенное местоположение)
    Адрес термина в индексе. Структура этого адреса указывает, к какой партиции принадлежит термин.
    High Order Address Bits (Старшие биты адреса)
    Часть адреса в Mapped Location, используемая для реализации Address Space Partitioning. Значение этих битов определяет тип контента.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод индексирования с учетом цитируемого текста.

    1. Система поддерживает индекс, связывающий термины с сообщениями.
    2. В ответ на получение первого сообщения система:
      • Ассоциирует его с беседой, содержащей другие сообщения.
      • Идентифицирует текст в первом сообщении как quoted text на основе сравнения с текстом других сообщений беседы.
      • Обновляет индекс, добавляя компоненты для первого сообщения.
    3. Эти компоненты включают original text index components и quoted text index components.
    4. Ключевое утверждение: Quoted text index components содержат информацию, явно указывающую, что они соответствуют цитируемому тексту.

    Ядро изобретения — это механизм, который при обработке нового сообщения в беседе анализирует его контент для отделения нового (оригинального) текста от повторенного (цитируемого) текста. Оба типа текста индексируются, но система сохраняет различие между ними в структуре индекса.

    Claim 2 (Зависимый от 1): Описывает использование этого индекса при поиске.

    При выполнении поиска система различает (A) совпадения термина запроса с компонентами оригинального текста и (B) совпадения с компонентами цитируемого текста.

    Claim 9 (Зависимый от 1): Описывает конкретное применение при поиске.

    Система выполняет поиск по индексу, при этом компоненты индекса, соответствующие терминам в quoted text, игнорируются.

    Claim 10 (Зависимый от 1) / Claim 17 (Зависимый от 1): Описывает применение для отображения результатов поиска.

    Система подсвечивает (highlighting) термины запроса, найденные в оригинальном тексте, но воздерживается от подсветки (forgo highlighting) терминов, найденных в цитируемом тексте.

    Claim 13 (Зависимый от 1): Детализирует техническую реализацию разделения в индексе.

    Адресное пространство для сообщения разделяется (партиционируется) с использованием старших битов адреса (high order address bits). Местоположение термина в оригинальном тексте имеет одно значение старших битов, а местоположение термина в цитируемом тексте — другое значение.

    Где и как применяется

    Важно: Этот патент чисто технический и описывает внутренние процессы Google для систем управления беседами (например, Gmail). Он не применяется к стандартной архитектуре веб-поиска.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Когда система сообщений получает новое сообщение:

    1. Происходит анализ контента в контексте всей беседы.
    2. Текст сравнивается с предыдущими сообщениями для идентификации quoted text.
    3. Индекс обновляется с использованием Address Space Partitioning, чтобы пометить каждый термин как принадлежащий либо к original text, либо к quoted text.

    RANKING / RETRIEVAL (Поиск в системе сообщений)
    На этом этапе поисковый движок системы (Query Engine) использует специализированную структуру индекса. Система может выполнять поисковые запросы, которые специально игнорируют quoted text или по-разному обрабатывают совпадения в разных типах текста (например, при подсветке результатов).

    Входные данные:

    • Новое входящее сообщение (текст).
    • Существующие сообщения в той же беседе (для сравнения).
    • Структура индекса (Index).

    Выходные данные:

    • Обновленный Index с компонентами, различающими original text и quoted text.

    На что влияет

    • Типы контента: Влияет исключительно на системы, обрабатывающие потоки сообщений, сгруппированных в беседы (электронная почта, форумы). Не влияет на индексирование стандартных веб-страниц, статей или товаров в веб-поиске.
    • Специфические запросы: Влияет на точность и функциональность поиска внутри этих систем (например, поиск по Gmail).

    Когда применяется

    • Условия работы алгоритма: Применяется в системах, где сообщения группируются в беседы.
    • Триггеры активации:
      • Индексирование: Каждый раз, когда новое сообщение добавляется в беседу, содержащую хотя бы одно другое сообщение.
      • Поиск: При выполнении поискового запроса внутри системы сообщений.
      • Обслуживание: Если предыдущее сообщение изменяется или удаляется, система может пересчитать идентификацию quoted text в последующих сообщениях (Claim 7, 8).

    Пошаговый алгоритм

    Процесс индексирования нового сообщения:

    1. Получение и Ассоциация: Система получает новое сообщение и ассоциирует его с существующей беседой.
    2. Идентификация цитируемого текста: Текст нового сообщения сравнивается с текстом предыдущих сообщений в этой беседе.
    3. Классификация текста: Совпадающие блоки текста идентифицируются как Quoted Text. Оставшийся текст классифицируется как Original Text.
    4. Обновление индекса и Разделение пространства: Система обновляет индекс. Используется Address Space Partitioning. Терминам присваиваются адреса (Mapped Locations).
    5. Кодирование типа текста: Старшие биты адреса (high order address bits) используются для указания типа текста (например, «00» для Original Text, «01» для Quoted Text).
    6. Хранение: Компоненты индекса (Index Components) сохраняются с этими закодированными адресами.

    Процесс выполнения поиска (Пример: Игнорирование цитат, Claim 9):

    1. Получение запроса: Система получает поисковый запрос.
    2. Выполнение поиска в индексе: Система ищет совпадения с терминами запроса.
    3. Фильтрация цитат: Система игнорирует индексные компоненты, чьи адреса находятся в партиции Quoted Text (например, игнорирует адреса со старшими битами «01»).
    4. Формирование результатов: Идентифицируются только те сообщения или беседы, где совпадения найдены в Original Text.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст тела сообщения. Это основной источник данных для сравнения и идентификации цитат.
    • Структурные факторы (Беседы): Взаимосвязь и последовательность сообщений в беседе. Необходимо для определения контекста и источников цитируемого текста.
    • Временные факторы: Хронология сообщений используется для определения, какие сообщения являются предыдущими.

    Какие метрики используются и как они считаются

    Патент не описывает метрики ранжирования или оценки качества. Он фокусируется на структуре индекса и методах идентификации текста.

    • Методы анализа текста (Text Comparison/Matching): Используются алгоритмы сравнения текстовых строк для идентификации дублированного контента (цитируемого текста) между новым и предыдущими сообщениями в беседе.
    • Address Space Partitioning (Разделение адресного пространства): Ключевой механизм. Адресное пространство индекса делится на разделы (partitions).
    • High Order Address Bits (Старшие биты адреса): Используются для кодирования принадлежности термина к определенному разделу (например, оригинальный текст vs. цитируемый текст). Это позволяет хранить разную семантику в одном индексе.

    Выводы

    Патент описывает внутренние инфраструктурные процессы Google, специфичные для систем обмена сообщениями (например, Gmail), и не дает практических выводов для SEO-специалистов, занимающихся веб-поиском.

    1. Специфичность для бесед: Патент строго ограничен системами, где контент организован в виде бесед (conversations). Описанные механизмы не применяются к индексированию и ранжированию веб-документов в Google Поиске.
    2. Гранулярность индексации: Ключевая особенность — способность системы на уровне индекса различать оригинальный (Original Text) и цитируемый (Quoted Text) контент.
    3. Техническая реализация: Разделение достигается за счет эффективной техники Address Space Partitioning, использующей старшие биты адреса для кодирования типа текста.
    4. Цель — Улучшение UX в почтовых системах: Механизм позволяет реализовать функции, улучшающие поиск внутри почты, такие как возможность игнорировать цитаты при поиске или дифференцированно подсвечивать результаты.
    5. Отсутствие связи с SEO: В патенте не упоминаются сигналы качества, авторитетности или любые другие механизмы, используемые в алгоритмах ранжирования веб-поиска.

    Практика

    Этот патент является инфраструктурным и специфичным для систем обмена сообщениями (например, Gmail). Он не дает практических выводов или рекомендаций для SEO-специалистов, работающих над оптимизацией веб-сайтов для Google Поиска.

    Best practices (это мы делаем)

    Практических рекомендаций для SEO, основанных на механизмах этого патента, нет.

    Worst practices (это делать не надо)

    Тактик SEO, которые этот патент делает неэффективными или опасными, нет.

    Стратегическое значение

    Стратегическое значение для SEO отсутствует. Патент демонстрирует инженерный подход Google к решению специфической проблемы эффективности индексирования в почтовых системах, но не меняет понимание приоритетов или алгоритмов веб-поиска.

    Практические примеры

    Практических примеров применения в SEO нет.

    Пример применения в контексте системы сообщений (например, Gmail):

    Сценарий: Поиск и подсветка результатов в переписке (на основе Claim 10/17)

    1. Беседа: Пользователь А пишет: «Обсудим проект Тахо». Пользователь Б отвечает: «Я согласен. [Цитата: Обсудим проект Тахо]».
    2. Индексирование: Система индексирует сообщение Б. «Я согласен» помечается как Original Text. «Обсудим проект Тахо» помечается как Quoted Text (используя другие старшие биты адреса).
    3. Поиск: Пользователь ищет «Тахо».
    4. Результат: Система находит совпадение в обоих сообщениях. При отображении результатов система подсветит «Тахо» в сообщении А (так как это оригинальный текст). Однако в сообщении Б система воздержится от подсветки (forgo highlighting) термина «Тахо», так как он находится в разделе, помеченном как Quoted Text.

    Вопросы и ответы

    Имеет ли этот патент какое-либо отношение к SEO для веб-поиска?

    Нет. Патент строго сфокусирован на методах индексирования сообщений, организованных в беседы, таких как электронная почта в Gmail. Он решает проблему эффективности индексирования и обработки цитируемого текста в этих системах. Описанные механизмы не применяются к индексированию и ранжированию веб-сайтов в Google Поиске.

    Означает ли этот патент, что Google Search пессимизирует цитируемый контент на веб-страницах?

    Этот патент не позволяет сделать такой вывод. Он демонстрирует способность Google идентифицировать и по-разному обрабатывать цитируемый текст в контексте переписки (Gmail), но не описывает алгоритмы ранжирования веб-поиска. Обработка цитат и дублированного контента в веб-поиске регулируется другими системами.

    Что такое «Quoted Text» (Цитируемый текст) в контексте этого патента?

    Quoted Text — это текст в новом сообщении, который система идентифицировала как точное повторение текста из предыдущего сообщения в той же беседе. Это типично для функции «Ответить» в электронной почте. Патент описывает, как этот текст индексируется иначе, чем новый, оригинальный контент.

    Какова основная цель отделения цитируемого текста в индексе?

    Основных целей две: эффективность индексирования и улучшение качества поиска внутри системы сообщений. Это позволяет контролировать размер индекса и реализовывать функции, такие как игнорирование цитат во время поиска (Claim 9) или отказ от подсветки совпадений в цитатах (Claim 10/17), чтобы сфокусировать внимание пользователя на оригинальном контенте.

    Как система идентифицирует «Quoted Text»?

    Система идентифицирует quoted text путем сравнения текста нового сообщения с текстом, который встречается в одном или нескольких других (предыдущих) сообщениях этой же беседы (Claim 1, Claim 5). Если найдены совпадения, этот текст маркируется как цитируемый.

    Как технически система различает оригинальный и цитируемый текст в индексе?

    Патент предлагает использовать разделение адресного пространства (Address Space Partitioning). Каждому термину присваивается адрес (Mapped Location) в индексе. Старшие биты этого адреса (High Order Address Bits) используются для указания раздела. Например, адреса с битами «00» могут означать оригинальный текст, а адреса с битами «01» — цитируемый текст.

    Применяется ли этот патент к индексированию контента из Google Groups или форумов?

    Теоретически, да. Механизмы, описанные в патенте, применимы к любой системе, которая организует контент в виде бесед с частым цитированием, включая форумы или Google Groups. Это помогает повысить эффективность поиска внутри этих платформ.

    Есть ли в этом патенте упоминания о факторах ранжирования или E-E-A-T?

    Нет. Патент полностью сосредоточен на структуре индекса (Indexing) и методах извлечения данных (Retrieval) в системах обмена сообщениями. Он не обсуждает, как результаты поиска ранжируются по релевантности или качеству, и не затрагивает концепции E-E-A-T.

    Что происходит, когда сообщение удаляется из беседы?

    Патент упоминает (Claim 7), что при удалении предыдущего сообщения система может обновить идентификацию quoted text в последующих сообщениях. Это необходимо для поддержания точности индекса, так как текст, который ранее считался цитируемым из удаленного сообщения, может потребовать переклассификации.

    Какую ценность этот патент представляет для Senior SEO-специалиста?

    Прямая ценность для практики SEO минимальна. Однако он полезен для глубокого понимания инженерных подходов Google к Information Retrieval и для четкого разграничения между инфраструктурой веб-поиска и инфраструктурой других продуктов, таких как Gmail.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.