Анализ патента IBM, описывающего механизм поиска веб-сайтов по частично указанным URL (с ошибками или подстановочными знаками). Система использует инвертированный индекс URL-адресов и ранжирует результаты, учитывая ключевые слова контента, историю посещений пользователя и его профиль интересов, чтобы предложить наиболее релевантные варианты.
Описание
Какую задачу решает
Патент решает проблему навигации в интернете, когда пользователи не помнят точный URL-адрес веб-сайта (например, увидев его в рекламе), вводят его частично, с ошибками или пропусками. Стандартные поисковые системы того времени или прямая навигация браузера часто не могли найти нужный сайт в таких сценариях. Изобретение направлено на создание сервиса, который может интерпретировать неполные URL и предлагать наиболее вероятные совпадения.
Что запатентовано
Запатентована система (разработанная IBM) для специализированного поиска URL-адресов по частично указанному вводу, включая использование подстановочных знаков (wildcard characters, например, *). Система использует инвертированный индекс (inverted index) строк URL и применяет многофакторное ранжирование для упорядочивания результатов. Ключевым элементом является использование персонализации (история посещений, профиль пользователя, peer groups) и ключевых слов контента сайта для уточнения и ранжирования потенциальных совпадений.
Как это работает
Система работает в двух режимах: офлайн и онлайн.
- Офлайн (Индексация): Система сканирует веб, собирает URL-адреса и извлекает основные ключевые слова из контента сайтов. Затем строится инвертированный индекс подстрок (n-грамм) самих URL-адресов. Также анализируются логи для создания профилей пользователей и их кластеризации.
- Онлайн (Обработка запроса): Пользователь вводит частичный URL. Система находит все URL, соответствующие шаблону, в инвертированном индексе. Затем результаты ранжируются с использованием Web Search Request Handler. Ранжирование учитывает: ключевые слова, указанные пользователем (сопоставляя их с контентом сайта), историю недавно посещенных URL (recently accessed URLs) и профиль интересов пользователя (user profile).
Актуальность для SEO
Низкая. Патент подан IBM в 2000 году. Технологии навигационного поиска и автодополнения в браузерах (Omnibox) и поисковых системах значительно эволюционировали. Современные системы используют сложное машинное обучение, глобальные поведенческие данные (CTR, популярность сайтов) и семантический анализ для исправления ошибок и предсказания намерений пользователя, что делает описанные в патенте методы (такие как явное использование подстановочных знаков и ранжирование на основе базовых профилей) устаревшими.
Важность для SEO
Минимальное влияние (2/10). Патент фокусируется исключительно на навигационном поиске — помочь пользователю добраться до конкретного сайта, когда он не знает точного адреса. Он не описывает механизмы информационного или транзакционного ранжирования. Хотя патент подтверждает важность индексации URL и использования ключевых слов контента для понимания тематики сайта, он не дает стратегических инсайтов для улучшения органической видимости в современных поисковых системах.
Детальный разбор
Термины и определения
- Inverted index of web site URLs (Инвертированный индекс URL веб-сайтов)
- Структура данных, которая индексирует URL-адреса на основе содержащихся в них символов и строк символов (n-грамм). Позволяет быстро находить полные URL по их фрагментам.
- Partially specified URL (Частично указанный URL)
- Ввод пользователя, который является неполным, содержит ошибки или включает подстановочные знаки (wildcard characters).
- Peer groups (Группы схожих пользователей)
- Кластеры пользователей, объединенных на основе схожих профилей (демография, интересы, история посещений). Информация, полученная от группы, используется для улучшения ранжирования отдельного пользователя в этой группе.
- Profile Updater (Обновитель профилей)
- Компонент системы, который анализирует логи сервера для обновления профилей пользователей и кластеризации пользователей в peer groups.
- Recently accessed URL list (Список недавно посещенных URL)
- История посещений пользователя, предоставляемая браузером или прокси-сервером. Используется как фактор ранжирования.
- URL Index Builder (Построитель индекса URL)
- Компонент системы, отвечающий за сканирование веба, сбор URL, извлечение ключевых слов из контента и построение inverted index.
- URL Search Request Handler (Обработчик запросов поиска URL)
- Компонент, который использует inverted index для поиска URL, соответствующих частично указанному вводу (поиск по строкам).
- User profile database (База данных профилей пользователей)
- Хранилище данных о пользователях: история поиска, посещенные сайты, ключевые слова интересов, демография и информация о peer groups.
- Web Search Request Handler (Обработчик веб-поисковых запросов)
- Компонент, отвечающий за ранжирование результатов, найденных URL Search Request Handler, на основе ключевых слов, истории посещений и профиля пользователя.
- Web site URL database (База данных URL веб-сайтов)
- Хранилище, содержащее URL-адреса и список топовых ключевых слов (Top ‘m’ keywords), извлеченных из контента соответствующих сайтов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод поиска по частично указанному URL.
- Система получает запрос пользователя, содержащий частично указанный URL (partially specified URL).
- Запускается URL search request handler для поиска этого частичного URL в inverted index of web site URLs.
- Запускается web search request handler для ранжирования результатов поиска.
- Ранжирование основывается на трех типах данных: (i) ключевые слова, указанные в запросе пользователя, (ii) список недавно посещенных URL (list of recently accessed URLs), и (iii) профиль пользователя (user profile).
- Система возвращает пользователю ранжированный список URL-адресов.
Claim 3 (Зависимый): Уточняет структуру inverted index. Он содержит список частично указанных URL-адресов и связанный список полных URL-адресов, которые представлены этим частичным адресом.
Claim 4 и 6 (Зависимые): Уточняют, что частично указанный URL может быть неполным адресом, включающим подстановочный знак (wildcard) (Claim 4), или адресом с орфографическими ошибками (Claim 6).
Claim 7 (Зависимый): Определяет метод индексации. Inverted index индексирует URL-адреса по отдельным символам и строкам символов (n-граммам), которые появляются в тексте URL-адреса.
Claim 10, 11, 12 (Зависимые): Детализируют данные профиля пользователя (user search data).
- Включает демографическую информацию, предоставленную пользователем при регистрации (Claim 10).
- Данные кластеризуются по группам схожих пользователей (user peer group), где информация, полученная от одного пользователя, применяется к другим в группе (Claim 11).
- Данные могут быть собраны прокси-сервером, который пользователь использовал для доступа к сайтам (Claim 12).
Где и как применяется
Изобретение затрагивает несколько этапов поисковой архитектуры, хотя его реализация специфична для навигационного поиска.
CRAWLING – Сканирование и Сбор данных
Система должна сканировать веб для обнаружения URL-адресов и загрузки контента страниц для извлечения ключевых слов.
INDEXING – Индексирование и извлечение признаков
Основной этап подготовки данных.
- Извлечение признаков: Извлечение Top ‘m’ ключевых слов из контента сайта.
- Построение баз данных: Создание Web site URL database (URL + Ключевые слова).
- Построение индекса: Создание Inverted index of web site URLs путем индексации подстрок (n-грамм) самих URL.
- Обработка профилей: Анализ логов доступа и построение User profile database, включая кластеризацию в peer groups.
RANKING – Ранжирование / RERANKING – Переранжирование
Процесс происходит в два этапа при обработке запроса:
- Retrieval (L1): URL Search Request Handler быстро отбирает кандидатов из inverted index на основе совпадения строк (частичный URL, wildcard, fuzzy match).
- Ranking/Reranking (L2/L3): Web Search Request Handler ранжирует отобранных кандидатов, используя сигналы персонализации и контента.
Входные данные:
- Частично указанный URL.
- Опциональные ключевые слова от пользователя.
- Recently accessed URL list (от браузера/прокси).
- User profile data (идентификатор пользователя).
Выходные данные:
- Ранжированный список полных URL-адресов.
На что влияет
- Специфические запросы: Влияет исключительно на навигационные запросы, где пользователь пытается найти конкретный сайт, но не знает или не помнит точный адрес.
- Конкретные типы контента: Не зависит от типа контента, так как фокусируется на URL, но использует ключевые слова контента для ранжирования.
Когда применяется
- Триггеры активации: Когда пользователь вводит запрос в специализированный сервис поиска URL или когда система (например, браузер или поисковая система) интерпретирует ввод как попытку навигации по неполному или ошибочному URL.
Пошаговый алгоритм
Процесс А: Офлайн-обработка (Maintenance Routine)
- Сканирование и извлечение ключевых слов: Система обнаруживает URL и извлекает Top ‘m’ ключевых слов из контента сайта (используя метатеги, частоту слов и т.д.).
- Индексация URL: URL и ключевые слова сохраняются в Web site URL database. Строится inverted index, индексирующий подстроки (n-граммы) URL.
- Обновление профилей (Profile Updater): Анализируются логи сервера. Обновляется история посещений, выбранные результаты и ключевые слова интересов для каждого пользователя в User profile database.
- Кластеризация: Пользователи группируются в peer groups на основе схожести профилей. Информация об интересах группы добавляется в профили участников.
Процесс Б: Обработка запроса в реальном времени (URL Search Request Handler)
- Получение ввода: Система получает частичный URL, опциональные ключевые слова и данные для персонализации (например, recently accessed URL list).
- Поиск совпадений (URL Retrieval): URL Search Request Handler использует inverted index для поиска всех URL, соответствующих частичному вводу (учитывая wildcards и fuzzy matching для исправления ошибок).
- Фильтрация (Опционально): Если пользователь указал ключевые слова, система может отфильтровать результаты, если эти ключевые слова не присутствуют в контенте сайта (в Web site URL database).
- Ранжирование (Web Search Request Handler): Система ранжирует список URL, используя несколько факторов. Описан пример с приоритетами:
- Приоритет 1: Количество совпавших ключевых слов (указанных пользователем и в контенте сайта).
- Приоритет 2 (Tie-breaker): Присутствие URL в recently accessed URL list.
- Приоритет 3 (Tie-breaker): Совпадение с user profile (интересы, демография, peer group info).
- Альтернатива: Использование взвешенной композитной функции (composite function) для расчета итогового балла.
- Вывод результатов: Ранжированный список возвращается пользователю.
- Логирование: Запрос и выбранный пользователем результат логируются для будущего обновления профиля.
Какие данные и как использует
Данные на входе
- Контентные факторы: Top ‘m’ ключевых слов, извлеченных из веб-сайта. Патент упоминает использование мета-информации (например, HTML тег meta), XML, PICS аннотаций или частоты встречаемости слов на сайте в качестве источников этих ключевых слов.
- Технические факторы: Сами строки URL-адресов, которые индексируются по подстрокам (n-граммам).
- Пользовательские и Поведенческие факторы:
- Recently accessed URL list (история посещений от браузера или прокси).
- Last n search results selected (история выбора результатов поиска).
- Top ‘m’ ключевых слов из недавно посещенных URL.
- User ID / Cookie information.
- Демографическая информация (возраст, доход, пол) – если пользователь зарегистрирован.
- Subjects of interest (темы интересов).
Какие метрики используются и как они считаются
- String Matching / Fuzzy Matching: Используется для сопоставления частичного/ошибочного URL с индексом. Патент не детализирует алгоритм, но упоминает обработку wildcards и ошибок (используя fuzzy logic).
- Keyword Matching (Совпадение ключевых слов): Количество ключевых слов, совпавших между вводом пользователя и контентом сайта.
- Кластеризация: Упоминается использование алгоритмов кластеризации для формирования peer groups на основе профилей пользователей.
- Composite Function (Композитная функция / Взвешенная оценка): Патент предлагает пример формулы для ранжирования: w1*(number of matching keywords) + w2*(number of matching subject interests) + w3*(if the Web site appears in the recently accessed URL list), где w1, w2, w3 – весовые коэффициенты.
Выводы
- Фокус на навигационном поиске: Патент описывает инфраструктурное решение для улучшения навигации по неточным URL, а не систему органического ранжирования.
- Индексация URL как строк: Ключевым механизмом является создание инвертированного индекса на основе подстрок (n-грамм) URL-адресов, что позволяет выполнять поиск по фрагментам и с подстановочными знаками.
- Раннее использование персонализации: Патент (подан в 2000 г.) демонстрирует ранние методы интеграции персонализации в поиск. Используются история посещений (recently accessed URLs), профили интересов и демография для ранжирования результатов.
- Кластеризация пользователей (Peer Groups): Система использует кластеризацию для определения интересов групп пользователей и применяет эти данные для улучшения ранжирования отдельных участников группы.
- Контент как фактор ранжирования URL: Для disambiguation (устранения неоднозначности) между похожими URL система использует ключевые слова, извлеченные из контента сайта (например, из метатегов или текста).
- Низкая актуальность для SEO: Описанные методы устарели и не отражают сложности современных поисковых систем. Патент имеет скорее историческую ценность для понимания эволюции поиска.
Практика
Best practices (это мы делаем)
Патент имеет минимальное практическое значение для современных SEO-стратегий, направленных на органический поиск Google. Однако можно выделить несколько общих принципов, которые он подтверждает:
- Четкие и запоминающиеся URL: Хотя современные системы лучше справляются с ошибками, использование ясных, логичных и содержащих ключевые слова (включая бренд) URL-адресов облегчает их индексацию по подстрокам и улучшает навигацию для пользователей.
- Использование мета-информации: Патент упоминает извлечение ключевых слов из метатегов (meta information) для понимания контента сайта. Это подтверждает важность корректного заполнения метаданных (Title, Description) основными ключевыми словами.
Worst practices (это делать не надо)
- Использование криптических или нечитаемых URL: Использование URL, состоящих из случайных символов или идентификаторов без смысловой нагрузки, усложняет их сопоставление по подстрокам и ухудшает пользовательский опыт.
Стратегическое значение
Патент имеет исключительно историческое стратегическое значение. Он показывает, что поисковые системы (в данном случае IBM) давно рассматривали строки URL как индексируемые данные и стремились использовать персонализацию и анализ контента для улучшения навигации. Для современных SEO-стратегий этот патент не меняет понимание приоритетов Google и не влияет на долгосрочное планирование.
Практические примеры
Практических примеров, применимых к современным SEO стратегиям, из этого патента извлечь нельзя, так как он описывает устаревшую инфраструктуру навигационного поиска.
Вопросы и ответы
Это патент Google?
Нет, это патент компании International Business Machines Corporation (IBM), поданный в 2000 году. Он описывает технологии, разработанные IBM, и не имеет прямого отношения к алгоритмам ранжирования Google, хотя и рассматривает общие проблемы информационного поиска.
Насколько актуальны описанные в патенте методы?
Актуальность низкая. Технологии, описанные в патенте (подача 2000 г.), значительно устарели. Современные браузеры (Omnibox) и поисковые системы используют гораздо более совершенные методы машинного обучения, анализа поведения пользователей и семантического анализа для навигационного поиска и исправления ошибок ввода.
Что такое инвертированный индекс URL-адресов (Inverted index of web site URLs)?
Это способ индексации, при котором система разбивает каждый URL на мелкие части (символы и строки символов, или n-граммы) и создает индекс этих частей. Например, для URL «amazon.com» будут созданы индексы для «a», «am», «ama» и т.д. Это позволяет быстро находить полный URL, даже если пользователь ввел только его фрагмент.
Влияет ли этот патент на органическое ранжирование (SEO)?
Практически не влияет. Патент сфокусирован исключительно на навигационном поиске – помочь пользователю найти конкретный сайт по неточному адресу. Он не описывает алгоритмы, которые определяют позиции сайтов в информационном или транзакционном поиске.
Патент упоминает использование ключевых слов из контента. Значит ли это, что контент влияет на поиск по URL?
Да, в рамках описанной системы. Если поиск по частичному URL возвращает несколько похожих вариантов (например, buyPC.com и buyCar.com для запроса *buy*.com), система использует ключевые слова из контента этих сайтов, чтобы определить, какой из них более релевантен интересам пользователя или указанным им дополнительным ключевым словам.
Что такое Peer Groups и как они используются?
Это группы пользователей со схожими интересами, историей посещений или демографией. Система кластеризует пользователей и анализирует поведение группы. Если определенные сайты или ключевые слова популярны в группе, система будет повышать их в ранжировании для отдельного участника этой группы, предполагая схожесть интересов.
Использует ли система подстановочные знаки (wildcards)?
Да, патент явно описывает возможность ввода пользователем подстановочных знаков, таких как «*» (любая строка символов) и «?» (любой одиночный символ), в составе частичного URL для поиска соответствий.
Как система обрабатывает орфографические ошибки в URL?
Патент упоминает использование «fuzzy search» (нечеткого поиска) с применением fuzzy logic для обработки ошибок. Например, при вводе «www.amathon.com» система сможет найти «www.amazon.com» благодаря частичному совпадению в инвертированном индексе и последующему ранжированию на основе других сигналов.
Откуда система берет данные об истории посещений пользователя?
Патент предлагает два варианта: получение списка недавно посещенных URL (recently accessed URL list) непосредственно от браузера пользователя или через прокси-сервер, который отслеживает активность пользователя.
Какой вывод для SEO можно сделать относительно структуры URL?
Патент подтверждает базовый принцип, что URL должны быть читаемыми и логичными. Поскольку система индексирует подстроки URL, наличие бренда или ключевых слов в URL облегчает его нахождение по фрагментам. Избегайте использования нечитаемых идентификаторов, если это возможно.