Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как поисковые системы используют маппинг микро- и макроконтекстов с учетом истории пользователя для понимания намерений и извлечения структурированных данных

    METHODS AND COMPUTER READABLE MEDIA FOR DETERMINING A MACRO-CONTEXT BASED ON A MICRO-CONTEXT OF A USER SEARCH (Методы и компьютерные носители для определения макроконтекста на основе микроконтекста пользовательского поиска)
    • US7881981B2
    • Google LLC
    • 2011-02-01
    • 2000-08-02
    Индексация Патенты Google Персонализация Семантика и интент

    Анализ патента (Yoogli, Inc.), описывающего механизм глубокого понимания запросов для извлечения структурированной информации, особенно в E-commerce. Система анализирует запрос, формирует взвешенные «микроконтексты» с учетом истории пользователя, определяет общий «макроконтекст» (тему/интент) и извлекает точные данные (например, характеристики продукта) из индекса, минуя необходимость ручной навигации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему нерелевантности традиционного поиска по ключевым словам и сложности навигации по иерархическим каталогам. Он устраняет необходимость для пользователя вручную уточнять контекст запроса или перемещаться по сложной структуре веб-сайтов для поиска специфической информации (например, характеристик товаров). Цель — повысить точность поиска за счет автоматического определения контекстуального намерения пользователя и предоставить точные, структурированные данные напрямую.

    Что запатентовано

    Запатентована система извлечения данных (Data Extraction Tool), которая интерпретирует пользовательский запрос путем его преобразования в микроконтексты (небольшие группы слов) и последующего определения соответствующего макроконтекста (общей темы или намерения). Этот процесс позволяет системе находить высокоспецифичную информацию из базы данных, проиндексированной по макроконтекстам. Ключевой особенностью является использование истории пользователя (User History) для взвешивания (приоритезации) элементов микроконтекста.

    Как это работает

    Механизм работает следующим образом:

    • Обработка запроса: Пользовательский текст разбирается (Block Parser) на микроконтексты. Элементам присваивается относительная ценность (Relative Value), с учетом User History.
    • Определение контекста: Микроконтексты сравниваются с эталонным Corpus — базой данных естественно-языковых текстов, проиндексированных по макроконтекстам. Система определяет наиболее релевантный макроконтекст запроса.
    • Сопоставление информации: Найденный макроконтекст используется для поиска в основной индексированной базе данных (Indexed Database), содержащей специфическую информацию (например, данные о продуктах).
    • Презентация: Система извлекает точные данные и представляет их пользователю в структурированном виде (например, в таблице сравнения продуктов), обеспечивая «горизонтальную навигацию» к нужным данным.

    Актуальность для SEO

    Средняя. Патент не принадлежит Google (Assignee: Yoogli, Inc.) и основан на заявках 1999/2000 годов. Конкретные технические реализации (например, использование Corpus для маппинга контекстов) устарели по сравнению с современными нейросетевыми подходами (трансформеры, эмбеддинги). Однако заложенные концепции — контекстуальное понимание запросов, переход от ключевых слов к интентам (макроконтекстам), использование истории пользователя (персонализация) и извлечение структурированных данных — являются фундаментальными для современного поиска.

    Важность для SEO

    Патент имеет важное концептуальное значение для SEO, особенно в сфере E-commerce. Он иллюстрирует, как поисковые системы стремятся перейти от анализа текста запроса к пониманию его контекста и цели для предоставления прямых структурированных ответов. Для SEO это подчеркивает критическую важность предоставления четких, структурированных и легко извлекаемых данных о продуктах, а также необходимость построения контентной стратегии вокруг тем (макроконтекстов), а не отдельных ключевых слов.

    Детальный разбор

    Термины и определения

    Block Parser (Блочный парсер)
    Компонент, который разбирает входной текст запроса на составляющие (ключевые слова, относительные значения, паттерны вхождения) для формирования микроконтекстов.
    Corpus (Корпус)
    Эталонная база данных, содержащая образцы информации на естественном языке, проиндексированные в соответствии с макроконтекстами. Используется для определения макроконтекста пользовательского запроса путем сравнения.
    Data Extraction Tool (Инструмент извлечения данных)
    Общее название системы, описанной в патенте, предназначенной для каталогизации, поиска и представления информации.
    Horizontal Navigation (Горизонтальная навигация)
    Возможность системы предоставлять пользователю прямой доступ к специфической информации (например, на нижних уровнях иерархической базы данных), минуя необходимость ручного перемещения по верхним уровням иерархии.
    Indexed Database (Индексированная база данных)
    Основная база данных, содержащая специфическую информацию (например, данные о продуктах), организованную и проиндексированную по макроконтекстам.
    Macro-context (Макроконтекст)
    Общая тематика, намерение или категория информации. Определяется системой на основе микроконтекстов запроса.
    Micro-context (Микроконтекст)
    Небольшая, связная группа слов (например, 1-5 слов), извлеченная из пользовательского запроса. Может включать весовые коэффициенты.
    Relative Value / Relative Weighting (Относительная ценность / Взвешивание)
    Весовые коэффициенты или приоритеты, присваиваемые словам в микроконтексте. Согласно Claims, они основаны на информации, к которой пользователь обращался ранее.
    User History (История пользователя)
    Данные о предыдущих действиях пользователя (поиски, результаты, просмотренный контент), используемые для определения контекста и взвешивания элементов запроса.
    User Tracking Module (Модуль отслеживания пользователя)
    Модуль, который отслеживает навигацию пользователя по интернету, если автоматический поиск не дал результатов, для сбора дополнительной контекстной информации и обучения системы.

    Ключевые утверждения (Анализ Claims)

    Claims 1, 2 и 6 (Независимые пункты): Описывают основной метод и систему определения контекста поиска и извлечения данных.

    1. Система индексирует информацию из Интернета, формируя базу данных (в Claim 1 и 6 упоминается иерархическая схема). Информация индексируется по макроконтексту, характеризующему предметную область.
    2. Система получает текст от пользователя.
    3. Идентифицируется микроконтекст, состоящий из нескольких слов, соответствующих запросу.
    4. Ключевой элемент (Ядро изобретения): Этим словам присваивается относительный вес (Relative Weighting) на основе информации, ранее просмотренной пользователем (User History). Это явное указание на персонализацию на этапе интерпретации запроса.
    5. Система получает макроконтекст, соответствующий взвешенному микроконтексту.
    6. Происходит поиск информации в базе данных, соответствующей этому макроконтексту (или находящейся в пределах указанной близости к нему — Claim 2).
    7. Информация предоставляется пользователю.

    Claims 4 и 5 (Зависимые): Описывают механизм обучения через отслеживание.

    Система отслеживает навигацию пользователя по Интернету (User Tracking Module) и идентифицирует макроконтексты просмотренного контента. Это используется для улучшения понимания интересов пользователя и пополнения данных.

    Где и как применяется

    Патент описывает архитектуру специализированной поисковой системы (вертикального поиска), вероятно, ориентированной на E-commerce. Он затрагивает все основные этапы поиска в рамках этой системы.

    CRAWLING & INDEXING – Сканирование и Индексирование
    Система активно собирает (Mining Module) и каталогизирует (Databasing Module) информацию. Происходит извлечение специфических данных (например, атрибутов товаров) и их организация в Indexed Database, которая имеет иерархическую структуру и индексируется по Macro-Contexts. Также офлайн формируется эталонный Corpus.

    QUNDERSTANDING – Понимание Запросов
    Это центральный этап применения патента. Context Construction Module и Context Comparison Module преобразуют запрос пользователя из текста в структурированное намерение (Macro-context). Это включает разбор запроса, формирование Micro-contexts, их взвешивание с помощью User History и определение Macro-context через сравнение с Corpus.

    RANKING – Ранжирование (Retrieval)
    На этапе поиска (Information Matching Module) система использует полученный Macro-context для извлечения релевантной информации из Indexed Database с помощью алгоритмов сопоставления структур (Structure Matching Algorithms).

    PRESENTATION (Представление)
    Presentation Module отвечает за финальное отображение результатов. Особенностью является представление структурированных данных (Information Chart), позволяющее пользователю сортировать и фильтровать результаты по различным атрибутам (цена, характеристики).

    Входные данные:

    • Текст запроса пользователя.
    • User History (история просмотров/поисков).
    • Corpus (эталонная база контекстов).
    • Indexed Database (база извлеченных данных).

    Выходные данные:

    • Структурированный набор специфической информации (например, список товаров с атрибутами).
    • Pinpoint Site Locations (ссылки на источники).

    На что влияет

    • Конкретные типы контента и ниши: Наибольшее влияние патент оказывает на E-commerce и вертикальный поиск товаров. Он направлен на обработку страниц с продуктами, где требуется извлечение и сравнение структурированных атрибутов (цены, характеристики).
    • Специфические запросы: Влияет на информационные и коммерческие запросы, где пользователь ищет специфические данные или сравнение объектов (например, «легкие спальные мешки до 100 долларов»).

    Когда применяется

    • Условия работы: Алгоритм применяется при обработке пользовательского запроса в реальном времени для определения его контекстуального намерения.
    • Триггеры активации: Активируется при поступлении запроса. Процесс взвешивания активируется при наличии доступной User History.
    • Исключения и особые случаи: Если Micro-context не найден в Corpus, система может активировать User Tracking Module для отслеживания ручного поиска пользователя и сбора новых данных (Rapid Mining Module).

    Пошаговый алгоритм

    Процесс А: Офлайн подготовка данных

    1. Сбор данных (Mining): Сканирование источников информации (например, веб-сайтов).
    2. Построение Корпуса (Corpus Construction): Создание базы данных образцов естественного языка, проиндексированных по макроконтекстам.
    3. Построение Базы Данных (Database Construction): Извлечение конкретной информации (например, товаров), структурирование (часто иерархическое) и индексация по макроконтекстам для формирования Indexed Database.

    Процесс Б: Обработка запроса в реальном времени

    1. Получение запроса: Пользователь вводит текст.
    2. Конструирование контекста (Context Construction):
      1. Block Parser разбивает текст на микроконтексты (группы слов).
      2. Извлекается User History.
      3. Словам и микроконтекстам присваивается Relative Value (вес) на основе истории пользователя.
    3. Сравнение контекстов (Context Comparison):
      1. Взвешенные микроконтексты сравниваются с Corpus с использованием алгоритмов сравнения текста (Text Comparison Algorithms).
      2. Определяются наиболее релевантные макроконтексты.
      3. Условие: Если контекст неясен, может быть запрошено уточнение (Context Refinement Page).
    4. Сопоставление информации (Information Matching):
      1. Полученные макроконтексты используются для запроса к Indexed Database.
      2. Извлекается Specific Information (конкретная информация), чей контекст находится в пределах заданной близости к контексту запроса.
    5. Представление (Presentation): Информация форматируется (например, в Information Chart) и предоставляется пользователю с возможностью фильтрации и сортировки.

    Какие данные и как использует

    Данные на входе

    • Пользовательские факторы (User History): Это критически важный входной сигнал. В патенте (и в Claims 1, 2, 6) явно указано использование истории доступа пользователя для присвоения весов (Relative Weighting) словам в запросе. Это используется для разрешения неоднозначностей и персонализации контекста.
    • Контентные факторы: Данные, извлеченные из интернета в процессе майнинга. Система анализирует контент для извлечения специфической информации (атрибутов) и построения Indexed Database и Corpus.
    • Структурные/Лингвистические факторы: Система использует данные о связях между словами (Attributes Index) и статистические данные о языке (Occurrence Patterns) для парсинга запроса.
    • Текст запроса: Сырой ввод от пользователя.

    Какие метрики используются и как они считаются

    • Relative Weighting (Относительное взвешивание): Метрика приоритета слов в микроконтексте. Рассчитывается на основе анализа текста запроса и корректируется данными из User History.
    • Context Matching Score (Оценка соответствия контекста): Система использует Text Comparison Algorithms для оценки степени соответствия между Micro-contexts и данными в Corpus для выбора наилучшего Macro-context.
    • Specified Proximity (Указанная близость): Метрика (упомянутая в Claim 2), определяющая, насколько близким должен быть Macro-context документа к Macro-context запроса, чтобы документ считался релевантным.

    Выводы

    1. Контекст как основа поиска: Патент демонстрирует модель поиска, где главной задачей является определение Macro-context (предметной области или интента), а не просто поиск ключевых слов. Это концептуально близко к современному семантическому поиску и Topical Authority.
    2. Явная персонализация при интерпретации запроса: Использование User History для взвешивания терминов запроса (Relative Weighting) прямо на этапе формирования контекста является сильным сигналом персонализации. Это закреплено в Claims и является ключевой частью изобретения.
    3. Важность структурированных данных и извлечения атрибутов: Система ориентирована на извлечение и представление структурированных данных (особенно атрибутов товаров в E-commerce). Успех работы системы зависит от ее способности точно извлекать эти данные из веб-страниц.
    4. Горизонтальная навигация и удовлетворение интента: Цель системы — предоставить пользователю конечный результат (специфическую информацию) напрямую, избавляя его от необходимости навигации по иерархическим структурам сайтов или каталогов.
    5. Использование базы знаний для понимания языка: Система использует Corpus как эталон для определения контекста. Это предшественник современных моделей машинного обучения, которые обучаются на огромных корпусах текста для понимания языка.

    Практика

    ВАЖНО: Хотя это не патент Google и его техническая реализация устарела, он подтверждает важность следующих стратегических направлений для современного SEO.

    Best practices (это мы делаем)

    • Оптимизация под извлечение данных (Extraction Optimization): Для E-commerce критически важно предоставлять информацию о товарах (цены, характеристики, наличие) в максимально структурированном и доступном для парсинга виде. Используйте микроразметку Schema.org (Product, Offer) и следите за чистотой HTML-кода, чтобы поисковые системы могли легко извлечь атрибуты, как это делает Data Extraction Tool в патенте.
    • Построение тематического авторитета (Topical Authority): Система ищет Macro-contexts. SEO-стратегия должна быть направлена на полное покрытие темы (макроконтекста), чтобы контент сайта соответствовал широкому спектру интентов внутри этой темы.
    • Оптимизация под интент и учет персонализации: Необходимо понимать, какой Macro-context стоит за группой запросов, и предоставлять контент, который точно соответствует этому контексту. Также важно помнить, что User History влияет на интерпретацию запроса, поэтому фокус должен быть на удовлетворении целевой аудитории, а не на «стерильных» позициях.
    • Улучшение структуры сайта для классификации: Хотя система стремится обойти ручную навигацию, четкая иерархическая структура сайта помогает поисковым системам на этапе индексирования правильно классифицировать контент и определить его контекст.

    Worst practices (это делать не надо)

    • Сокрытие атрибутов продукта: Использование сложных макетов или JavaScript для отображения цен или ключевых характеристик, которые затрудняют их извлечение поисковыми роботами. Это снижает вероятность попадания в структурированные результаты поиска.
    • Keyword Stuffing и игнорирование контекста: Создание контента, оптимизированного под ключевые слова (Micro-context), но не соответствующего реальному намерению пользователя (Macro-context).
    • Непоследовательное представление данных: Различное форматирование данных о схожих продуктах на разных страницах сайта усложняет их каталогизацию и сравнение.

    Стратегическое значение

    Патент подтверждает долгосрочный тренд развития поисковых систем от лексического поиска к семантическому и контекстуальному. Он подчеркивает движение в сторону поиска, ориентированного на сущности и их атрибуты, особенно в коммерческих вертикалях. Стратегически, SEO-специалисты должны фокусироваться на том, чтобы их данные были легко обнаруживаемы, извлекаемы и правильно интерпретируемы в контексте намерений пользователя.

    Практические примеры

    Сценарий: Оптимизация карточки товара для контекстного поиска

    Задача: Обеспечить высокое ранжирование товара (Спальный мешок «Arctic») по запросам, связанным с его характеристиками.

    1. Анализ интентов (Macro-contexts): Определить основные контексты, в которых ищут этот товар: «зимний поход», «альпинизм», «кемпинг при низких температурах».
    2. Структурирование данных: На странице товара четко выделить все ключевые атрибуты: Температурный режим (Комфорт, Лимит, Экстрим), Вес, Материал наполнителя, Размеры. Использовать разметку Schema.org/Product для всех этих атрибутов.
    3. Контентное наполнение: В описании товара использовать естественный язык, который покрывает идентифицированные макроконтексты. Например, упомянуть пригодность для «зимних походов в условиях экстремального холода».
    4. Ожидаемый результат: Поисковая система сможет извлечь точные характеристики (например, температуру экстрима -30°C). При запросе пользователя, чей контекст (возможно, усиленный историей поиска об альпинизме) соответствует Macro-context «снаряжение для экстремального холода», система сможет точно сопоставить запрос с характеристиками товара и выдать его в структурированном виде.

    Вопросы и ответы

    В чем основное отличие Micro-context от Macro-context в этом патенте?

    Micro-context — это промежуточное представление самого запроса: небольшая группа слов из него, взвешенная на основе истории пользователя. Это уровень текста запроса. Macro-context — это уже интерпретация интента или определение предметной области (темы), к которой относится запрос. Это более высокий уровень абстракции, используемый для индексации информации в основной базе данных.

    Насколько важна персонализация (User History) в описанном механизме?

    Персонализация критически важна и является одной из ключевых особенностей, закрепленных в Claims (1, 2, 6). Система использует User History для присвоения весов (Relative Weighting) словам в Micro-context. Это означает, что интерпретация одного и того же запроса может привести к разным Macro-contexts для разных пользователей в зависимости от их предыдущего поведения.

    Это патент Google? Актуален ли он сейчас?

    Нет, это патент компании Yoogli, Inc., основанный на заявках 1999/2000 годов. Конкретная техническая реализация устарела. Однако концепции контекстного поиска, персонализации и извлечения структурированных данных, описанные в нем, остаются крайне актуальными и фундаментальными для понимания работы современных поисковых систем, включая Google.

    Что такое Corpus и как он используется?

    Corpus — это эталонная база данных, содержащая примеры текстов на естественном языке, которые заранее размечены по Macro-contexts. Система сравнивает Micro-contexts из запроса пользователя с этим корпусом, чтобы определить, какому Macro-context наиболее соответствует запрос. Это способ научить систему понимать язык и контекст.

    Как этот патент связан со структурированными данными и Schema.org?

    Патент напрямую фокусируется на извлечении и представлении структурированных данных (атрибутов товаров) в Indexed Database. Для эффективной работы такой системы необходимо, чтобы она могла надежно извлекать эти данные из веб-страниц. Использование микроразметки Schema.org значительно упрощает эту задачу для современных поисковых систем, повышая шансы на правильную интерпретацию и отображение контента.

    Что означает «горизонтальная навигация» в контексте SEO?

    Это означает, что поисковая система стремится доставить пользователя непосредственно к искомой информации, минуя необходимость кликать по ссылкам в навигации сайта или каталога. Для SEO это подчеркивает важность оптимизации глубинных страниц (карточек товаров, статей) и обеспечения того, чтобы они содержали исчерпывающую информацию для прямого ответа на запрос пользователя.

    Как SEO-специалисту использовать концепцию Macro-context в работе?

    Концепция Macro-context тесно связана с Topical Authority. Вместо оптимизации отдельных страниц под узкие запросы, необходимо выстраивать стратегию вокруг широких тем (макроконтекстов). Создание кластеров контента, которые полностью покрывают тему и отвечают на различные интенты внутри нее, поможет сайту стать релевантным источником для соответствующего Macro-context.

    Что произойдет, если система не сможет определить контекст?

    Патент предусматривает такую ситуацию. Если Micro-context не найден в Corpus, система может предложить пользователю уточнить запрос или активировать User Tracking Module. Этот модуль отслеживает навигацию пользователя для сбора новой информации и обновления своей базы знаний (используя Rapid Mining Module).

    Какое значение этот патент имеет для E-commerce?

    Патент имеет сильный акцент на E-commerce. Он описывает систему, которая извлекает атрибуты товаров (цена, вес, характеристики) и представляет их в структурированном виде для сравнения (Information Chart). Это подчеркивает фундаментальную важность структурирования данных о товарах для их видимости в поиске.

    Применима ли эта модель за пределами E-commerce?

    Да. Хотя примеры в патенте сосредоточены на товарах, модель применима к любой области, где требуется извлечение и сравнение структурированных данных на основе контекстуального запроса. Это может включать недвижимость (атрибуты: площадь, цена, район), финансы (атрибуты: процентная ставка, срок) или рецепты (атрибуты: время приготовления, ингредиенты).

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.