Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google создает и управляет независимыми пользовательскими поисковыми индексами (Custom Search Engines)

    CUSTOM SEARCH (Пользовательский поиск)
    • US8082242B1
    • Google LLC
    • 2011-12-20
    • 2006-12-29
    2006 Индексация Патенты Google

    Патент описывает инфраструктуру, позволяющую пользователям определять собственный корпус контента (загружая данные или указывая конкретные веб-сайты) и создавать для него отдельный поисковый индекс. Система может искать по этим индексам независимо или совместно с основным веб-индексом, смешивая результаты и интегрируя их с рекламой или предлагая платный доступ к контенту.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему ограниченности поиска в рамках единого, обобщенного веб-индекса. Стандартный поиск охватывает огромный объем информации, что затрудняет нахождение релевантных данных в узкоспециализированных нишах или в рамках определенного набора доверенных источников. Изобретение позволяет создавать и искать по специализированным, изолированным корпусам контента.

    Что запатентовано

    Запатентована система и метод для создания и управления множеством Custom Search Indexes (Пользовательских поисковых индексов), которые отличаются как от основного Web Search Index, так и друг от друга. Пользователи могут определять Custom Content (Пользовательский контент), загружая его или указывая конкретные ресурсы в интернете для индексации. Система позволяет проводить поиск одновременно по основному веб-индексу и выбранным пользовательским индексам, а затем представлять объединенные результаты.

    Как это работает

    Система функционирует следующим образом:

    • Определение контента: Пользователь (провайдер контента) определяет корпус Custom Content через загрузку (Custom Content Upload API) или путем указания ресурсов для сканирования (Custom Content Crawler).
    • Индексация: Система индексирует этот контент, создавая отдельный Custom Search Index для каждой группы контента (Custom Content Group).
    • Выбор поиска: Конечный пользователь выбирает, какие группы пользовательского контента он хочет искать, и указывает тип поиска (только пользовательский или комбинированный с вебом).
    • Аутентификация: При необходимости система аутентифицирует пользователя для доступа к платным или подписным группам.
    • Выполнение запроса: Поисковая система выполняет запрос параллельно в основном веб-индексе и в выбранных пользовательских индексах.
    • Представление результатов: Результаты форматируются и представляются пользователю. Патент описывает несколько вариантов: смешивание веб-результатов и пользовательских результатов, сегрегация пользовательских результатов в отдельный блок или интеграция пользовательских результатов (особенно платных) в рекламные блоки.

    Актуальность для SEO

    Средняя. Технология, описанная в патенте, легла в основу продуктов Google Custom Search Engine (CSE), ныне Programmable Search Engine. Хотя эти продукты все еще используются, их значимость для широкого интернета снизилась. Однако концепция поддержания множества специализированных индексов остается фундаментальной для архитектуры Google (например, для вертикального поиска).

    Важность для SEO

    Влияние на SEO (3/10). Патент имеет низкое прямое влияние на стратегии оптимизации для основного поиска Google, так как он описывает инфраструктуру для создания специализированных поисковых систем, а не алгоритмы ранжирования основного индекса. Однако он имеет значение для стратегий организации контента на сайте, улучшения внутрисайтового поиска и создания нишевых авторитетных ресурсов с использованием технологии CSE.

    Детальный разбор

    Термины и определения

    Custom Content (Пользовательский контент)
    Контент, который был загружен пользователем для индексации и/или контент, идентифицированный пользователем для индексации (например, указанные веб-сайты или страницы).
    Custom Content Group (Группа пользовательского контента)
    Определенный корпус пользовательского контента, связанный с отдельным Custom Search Index.
    Custom Search Index (Пользовательский поисковый индекс)
    Индекс, созданный на основе Custom Content. Он отличается от основного веб-индекса и от других пользовательских индексов.
    Web Search Index (Веб-поисковый индекс)
    Основной индекс, созданный путем сканирования и индексации общего веб-контента.
    For-Pay Content / For-Pay Search Result (Платный контент / Платный результат поиска)
    Пользовательский контент, доступ к которому требует оплаты (единовременной или по подписке).
    Custom Content Feed (Фид пользовательского контента)
    Поток данных (например, RSS или Atom), уведомляющий подписчиков о новом контенте, добавленном в Custom Search Index.
    Custom Content Portal (Портал пользовательского контента)
    Специализированный поисковый интерфейс, дизайн и критерии ранжирования которого определяются провайдером контента для доступа к определенной Custom Content Group.
    Custom Content Upload API
    Интерфейс для загрузки пользовательского контента провайдерами для последующей индексации.
    Custom Content Crawler
    Краулер, используемый для сбора контента с ресурсов, указанных провайдером как часть его Custom Content.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод интеграции пользовательского и веб-поиска с рекламой.

    1. Система получает от первого пользователя (провайдера) выбор документов для формирования Custom Content Groups.
    2. Система индексирует эти документы, создавая уникальный Custom Search Index для каждой группы.
    3. Система получает от второго пользователя (конечного пользователя) выбор одной или нескольких Custom Content Groups.
    4. Система получает поисковый запрос от второго пользователя.
    5. Выполняется поиск по Web Search Index (веб-результаты).
    6. Выполняется поиск по выбранным Custom Search Indexes (пользовательские результаты).
    7. Генерируется документ с результатами поиска, включающий веб-результаты, пользовательские результаты и множество рекламных объявлений. Документ разделен как минимум на две области (Area 1 и Area 2).
    8. Area 1 содержит веб-результаты и часть пользовательских результатов.
    9. Area 2 содержит рекламные объявления и другую часть пользовательских результатов.

    Ключевой аспект Claim 1 — это не просто смешивание результатов, а специфическое размещение части пользовательских результатов в области, предназначенной для рекламы.

    Claim 10 (Зависимый от 1): Детализирует обработку платного контента.

    1. Пользовательские результаты делятся на For-Pay Search Results (требующие оплаты) и прочие результаты (бесплатные).
    2. При генерации документа бесплатные пользовательские результаты размещаются вместе с веб-результатами в Area 1.
    3. For-Pay Search Results размещаются вместе с рекламными объявлениями в Area 2.

    Этот пункт подтверждает, что платные результаты из пользовательского индекса могут быть представлены как реклама или рядом с ней.

    Claim 9 (Зависимый от 1): Уточняет отображение платного контента.

    1. Если результат является For-Pay Search Result, система предоставляет информацию о стоимости доступа к этому результату.

    Где и как применяется

    Изобретение затрагивает инфраструктуру индексации и процесс смешивания результатов поиска.

    CRAWLING – Сканирование и Сбор данных
    Система использует стандартный веб-краулер для сбора общего контента. Для сбора Custom Content используются два механизма: Custom Content Upload API (для прямой загрузки данных пользователем) и Custom Content Crawler (для сканирования конкретных сайтов или документов, указанных пользователем).

    INDEXING – Индексирование и извлечение признаков
    Ключевой этап. Система поддерживает множество независимых индексов: один Web Search Index и множество Custom Search Indexes (по одному на каждую Custom Content Group). Индексация пользовательского контента происходит отдельно.

    QUNDERSTANDING – Понимание Запросов
    На этом этапе система может обрабатывать выбор пользователя относительно того, какие Custom Content Groups следует включить в поиск.

    RANKING – Ранжирование
    Поиск выполняется параллельно в основном веб-индексе и в выбранных пользовательских индексах. Патент указывает, что для ранжирования пользовательских результатов могут использоваться иные критерии, чем для веб-результатов (например, ссылочные факторы могут быть менее полезны для пользовательского контента).

    METASEARCH – Метапоиск и Смешивание
    Основное применение патента. Система агрегирует результаты из разных индексов. Result Formatter отвечает за объединение результатов в итоговый документ, используя различные стратегии представления: смешивание (commingling), сегрегацию или интеграцию с рекламными блоками.

    Входные данные:

    • Определение корпуса контента от провайдера (URLы для сканирования или загруженные данные).
    • Поисковый запрос от конечного пользователя.
    • Выбор Custom Content Groups конечным пользователем.
    • Данные аутентификации/подписки пользователя.

    Выходные данные:

    • Документ с результатами поиска, содержащий комбинацию веб-результатов, пользовательских результатов и рекламы, отформатированный согласно описанным правилам (включая размещение в разных областях).

    На что влияет

    • Конкретные типы контента: Влияет на любой контент, который может быть включен в Custom Search Index. Это могут быть стандартные веб-страницы, данные из баз данных, XML-данные, изображения, видео.
    • Специфические запросы: Влияет на запросы, выполняемые в контексте выбранной Custom Content Group или через Custom Content Portal.
    • Монетизация контента: Патент напрямую влияет на возможность монетизации доступа к специализированному контенту через механизм For-Pay Content и интеграцию результатов с рекламой.

    Когда применяется

    Алгоритм применяется при выполнении следующих условий:

    • Триггер активации: Когда пользователь явно выбирает одну или несколько Custom Content Groups для поиска (через интерфейс поисковой системы, тулбар браузера) или когда пользователь обращается к поиску через Custom Content Portal.
    • Тип поиска: Когда пользователь выбирает поиск только по пользовательскому контенту (Custom Search) или комбинированный поиск (Custom/Web Search).

    Пошаговый алгоритм

    Процесс обработки запроса (комбинированный поиск Custom/Web):

    1. Получение выбора групп: Система получает от пользователя выбор одной или нескольких Custom Content Groups для поиска.
    2. Аутентификация (Опционально): Система проверяет права доступа пользователя к выбранным группам (проверка подписки, оплаты или свободного доступа).
    3. Получение запроса: Система получает поисковый запрос от пользователя.
    4. Параллельный поиск:
      1. Выполняется поиск по Web Search Index для идентификации веб-результатов.
      2. Выполняется поиск по Custom Search Indexes, соответствующим выбранным и разрешенным группам, для идентификации пользовательских результатов.
    5. Классификация пользовательских результатов: Пользовательские результаты классифицируются на For-Pay Search Results и бесплатные результаты.
    6. Скоринг и Ранжирование: Результаты из разных индексов оцениваются (возможно, по разным критериям).
    7. Генерация документа с результатами (Result Formatting):
      1. Определяются области документа (например, основная область Area 1 и рекламная область Area 2).
      2. В Area 1 размещаются веб-результаты и бесплатные пользовательские результаты (могут быть смешаны или сегрегированы).
      3. В Area 2 размещаются рекламные объявления и For-Pay Search Results.
    8. Визуальное выделение: Пользовательские результаты визуально отличаются от веб-результатов (например, иконками). Для For-Pay Search Results указывается стоимость доступа (например, через всплывающую подсказку).
    9. Предоставление результатов: Сгенерированный документ отправляется пользователю.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на инфраструктуре и представлении результатов, но упоминает следующие типы данных:

    • Контентные факторы: Текст, метаданные (упоминаются XML-данные), изображения, видео, извлеченные из Custom Content.
    • Технические факторы: URL-адреса документов, указанных провайдером для включения в Custom Content Group.
    • Пользовательские факторы: Данные аутентификации пользователя (логин/пароль), статус подписки на Custom Content Groups, явный выбор групп для поиска. Упоминается возможность использования предыдущих выборов (кликов или покупок) пользователя для скоринга результатов.

    Какие метрики используются и как они считаются

    Патент не детализирует конкретные формулы ранжирования, но описывает принципы скоринга и критерии отбора:

    • Скоринг (Scoring): Система вычисляет оценки для веб-результатов и пользовательских результатов. Указывается, что критерии могут отличаться. Например, ссылочные критерии (link-based criteria) могут быть неприменимы или менее полезны для пользовательского контента из-за отсутствия хорошей ссылочной структуры.
    • Критерии ранжирования портала: В рамках Custom Content Portal провайдер контента может сам определять критерии для выбора (selecting criteria), оценки (scoring criteria) и представления (presenting criteria) результатов поиска.
    • Релевантность: Стандартное сопоставление терминов запроса с терминами в документах индекса.

    Выводы

    1. Инфраструктура независимых индексов: Патент подтверждает, что архитектура Google способна поддерживать множество изолированных поисковых индексов (Custom Search Indexes) наряду с основным веб-индексом. Это основа для Google CSE/Programmable Search Engine.
    2. Определение корпуса пользователем: Ключевой особенностью является возможность для пользователей (провайдеров контента) самостоятельно определять границы поискового индекса, либо загружая контент, либо указывая конкретные веб-ресурсы.
    3. Тесная интеграция поиска и монетизации: Изобретение детально прорабатывает механизмы монетизации. Это включает For-Pay Content (платный доступ к результатам) и, что особенно важно, интеграцию пользовательских результатов (как платных, так и бесплатных) непосредственно в рекламные блоки (Area 2). Пользовательские результаты могут функционально выступать в роли рекламы.
    4. Гибкость представления результатов: Система предусматривает различные стратегии отображения: полное смешивание с визуальным выделением, сегрегация в отдельный блок или интеграция с рекламой. Это позволяет адаптировать выдачу под контекст.
    5. Настраиваемое ранжирование: Через механизм Custom Content Portal система позволяет провайдерам контента влиять на критерии отбора, оценки и представления результатов, что дает контроль над ранжированием внутри их специализированного индекса.
    6. Важность структурированных данных и фидов: Упоминание XML для загрузки контента и использование фидов (RSS/Atom) для уведомления о новинках подчеркивает важность структурированных форматов для взаимодействия с поисковой системой.

    Практика

    Best practices (это мы делаем)

    • Улучшение внутрисайтового поиска: Использовать технологию, описанную в патенте (Programmable Search Engine), для создания мощного и релевантного поиска по собственному сайту или группе сайтов. Это улучшает пользовательский опыт и позволяет лучше контролировать выдачу по внутренним запросам.
    • Создание нишевых авторитетных ресурсов (CSE): Разрабатывать специализированные поисковые системы (CSE) по узким тематикам, включая в индекс только проверенные и авторитетные источники. Это может служить инструментом для построения тематического авторитета и привлечения целевой аудитории.
    • Использование структурированных данных и фидов: Обеспечивать наличие актуальных Sitemap и RSS/Atom фидов. Патент показывает, что фиды могут использоваться для уведомления о новом контенте в пользовательских индексах, что подчеркивает их важность для быстрой индексации.
    • Монетизация через AdSense for Search: При использовании CSE на сайте необходимо учитывать интеграцию с рекламой. Патент явно описывает размещение результатов в рекламных блоках, что соответствует модели AdSense for Search. Необходимо оптимизировать размещение блоков для максимизации дохода.

    Worst practices (это делать не надо)

    • Попытки повлиять на основной поиск через CSE: Не следует ожидать, что создание Custom Search Index или активность внутри него напрямую повлияет на ранжирование сайта в основном Web Search Index. Это разные системы с разными индексами.
    • Игнорирование качества контента в CSE: При создании публичного CSE нельзя включать в него низкокачественные или спамные ресурсы, так как это подорвет доверие пользователей к самому инструменту.

    Стратегическое значение

    Патент демонстрирует модульность поисковой архитектуры Google и его ранние шаги по предоставлению пользователям контроля над поисковым опытом. Стратегически это позволяет Google выступать не только как поисковая система для всего веба, но и как платформа для создания специализированных вертикальных поисков. Для SEO-специалистов это означает, что фокус смещается с оптимизации под единый алгоритм на создание качественного контента и его эффективную организацию, в том числе с использованием инструментов типа CSE для улучшения навигации и доступности информации в рамках своего домена или ниши.

    Практические примеры

    Сценарий: Улучшение поиска на крупном контентном портале

    1. Задача: Крупный медицинский портал имеет проблемы с внутрисайтовым поиском, который плохо ранжирует статьи и выдает нерелевантные результаты.
    2. Применение патента (Использование CSE): SEO-стратег предлагает внедрить Google Programmable Search Engine (CSE).
    3. Действия:
      1. Портал выступает как провайдер контента и определяет корпус для Custom Search Index, включая только свой домен.
      2. Через панель управления CSE настраиваются критерии ранжирования (как описано в механизме Custom Content Portal), отдавая приоритет более свежим статьям или статьям из определенных разделов.
      3. На сайте размещается поисковая строка CSE.
    4. Результат: Пользователи получают доступ к качественному поиску на базе технологий Google, но ограниченному контентом портала. Ранжирование контролируется владельцем сайта. Дополнительно портал получает доход от AdSense for Search, так как результаты интегрированы с рекламой.

    Сценарий: Создание нишевого поисковика по электромобилям

    1. Задача: Создать авторитетный ресурс для поиска информации об электромобилях, исключив дилерский спам и некачественные обзоры.
    2. Применение патента: Создается публичный CSE.
    3. Действия:
      1. Инициатор проекта определяет список авторитетных источников (сайты производителей, профильные СМИ, научные журналы).
      2. Эти сайты указываются как Custom Content для индексации. Система создает отдельный Custom Search Index.
      3. Создается Custom Content Portal с собственным брендингом для доступа к этому индексу.
    4. Результат: Пользователи получают специализированный поисковик, выдача которого состоит только из проверенных источников. Это повышает ценность ресурса и укрепляет его авторитет в нише.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование в основном поиске Google?

    Нет, прямого влияния нет. Патент описывает создание и управление отдельными Custom Search Indexes, которые существуют параллельно основному Web Search Index. Алгоритмы ранжирования и инфраструктура индексации для них разделены.

    Как называется технология, описанная в патенте, сегодня?

    Технология, описанная в этом патенте, легла в основу Google Custom Search Engine (CSE), который в настоящее время называется Google Programmable Search Engine. Это сервис, позволяющий создавать специализированные поисковые системы.

    Каким образом контент попадает в Custom Search Index?

    Патент описывает два основных пути. Первый — через Custom Content Upload API, когда провайдер напрямую загружает контент (например, в формате XML). Второй — через Custom Content Crawler, который сканирует веб-сайты или документы, явно указанные провайдером как часть его пользовательского контента.

    Может ли владелец Custom Search Engine влиять на ранжирование внутри него?

    Да. Патент описывает механизм Custom Content Portal, который позволяет провайдеру контента определять критерии для выбора, оценки (скоринга) и представления результатов поиска. Это дает значительный контроль над ранжированием внутри специализированного индекса.

    Что означает интеграция пользовательских результатов с рекламой?

    Патент описывает, что результаты поиска из Custom Search Index могут быть размещены в той же области документа, что и рекламные объявления (Area 2), отдельно от основных результатов (Area 1). Это особенно касается платных результатов (For-Pay Search Results). Это соответствует модели монетизации AdSense for Search.

    Что такое «For-Pay Content» в контексте этого патента?

    Это пользовательский контент, доступ к которому требует оплаты или наличия подписки. Патент предусматривает механизмы для аутентификации пользователей и отображения стоимости доступа к таким результатам непосредственно в выдаче (например, с помощью специальной иконки или всплывающей подсказки).

    Как система отображает смешанные результаты из веб-индекса и пользовательского индекса?

    Патент предлагает несколько вариантов. Результаты могут быть полностью смешаны (commingled), но визуально отличаться. Они могут быть сегрегированы (пользовательские результаты в отдельном блоке). Также часть пользовательских результатов может быть вынесена в рекламную область.

    Требуется ли аутентификация для доступа к Custom Search?

    Это зависит от настроек конкретной Custom Content Group. Доступ может быть свободным для всех, требовать подписки или оплаты. Система предусматривает опциональный шаг аутентификации пользователя для проверки прав доступа.

    Что такое Custom Content Portal?

    Это специализированный поисковый интерфейс, созданный провайдером контента для доступа к его Custom Content Group. Провайдер может настроить внешний вид (дизайн) этого портала и определить логику его работы, включая критерии ранжирования.

    Какова роль фидов (RSS/Atom) в этой системе?

    Патент описывает использование Custom Content Feed для уведомления подписчиков о добавлении нового контента в Custom Search Index. Это позволяет пользователям отслеживать обновления в интересующих их группах контента.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.