Как Google оптимизировал локальный (Desktop) поиск, комбинируя поиск по началу названия файла и по полным словам в его содержимом

Этот патент описывает систему для локального поиска (Desktop Search). Для ускорения инкрементального поиска (по мере ввода) система использует два отдельных индекса: один для префиксов названий файлов/приложений, второй – только для полных слов в содержимом документов. Также описана схема ранжирования (Temporal Ranking Scheme), основанная на частоте и недавности использования файлов пользователем на локальном устройстве.

Описание

Какую задачу решает

Патент решает проблему создания эффективного и унифицированного интерфейса для поиска в локальной среде (Object Environment), такой как рабочий стол компьютера. Задача состоит в том, чтобы обеспечить быстрый инкрементальный поиск (Incremental Searching – результаты по мере ввода), сохраняя при этом высокое качество выдачи. Поиск по префиксам (началу слова) удобен для нахождения объектов по названию, но при применении к основному контенту он генерирует слишком много шума («abundance of extraneous results»). Патент предлагает комбинированное решение для баланса скорости и точности в локальном поиске.

Что запатентовано

Запатентована система локального поиска (специфично для Desktop Search на клиентском устройстве), которая использует раздельные стратегии индексирования и поиска. Система создает Prefix Index для заголовков (названий) объектов и Content Index (или Full-word Index) для их содержимого. При запросе система ищет совпадения по префиксам только в заголовках и только полные слова в содержимом. Это позволяет быстро находить объекты по началу названия, минимизируя шум при поиске по контенту.

Как это работает

Система функционирует в локальной среде:

Сбор данных: Harvesting Application сканирует локальные объекты (файлы, email, приложения) и помещает их в Object Database.
Оценка: Scoring Application присваивает объектам оценку (Score). Патент подробно описывает Temporal Ranking Scheme, где оценка базируется на вероятности будущего использования (частота и недавность последнего доступа на локальном устройстве).
Индексирование: Indexing Application создает два индекса. В Prefix Index сохраняются префиксы заголовков. В Content Index сохраняются полные слова из контента.
Поиск: Querying Application получает запрос (инкрементально) и одновременно ищет его как префикс в первом индексе и как полное слово во втором.
Отображение: Результаты из обоих индексов объединяются. Патент описывает механизм сравнения Combined Relevance Scores для определения порядка отображения групп результатов.

Актуальность для SEO

Низкая. Патент описывает технологии для Google Desktop Search (продукт закрыт). Описанные механизмы, включая Temporal Ranking Scheme, основаны на локальных данных использования файлов на клиентском устройстве, что неактуально для алгоритмов современного веб-поиска Google.com.

Важность для SEO

Влияние на современные SEO-стратегии для веб-поиска минимальное (1/10). Патент описывает внутренние процессы и инфраструктуру, специфичную исключительно для локального (Desktop) поиска. Он не содержит информации о факторах ранжирования веб-страниц, анализе ссылок, E-E-A-T или обработке контента в интернете. SEO-специалистам не нужно предпринимать никаких действий на основе этого патента.

Детальный разбор

Термины и определения

Combined Matching System (Комбинированная система сопоставления): Система поиска, которая сопоставляет префиксы или полные слова в заголовках документов и только полные слова в содержимом документов.
Content Index / Full-word Index (Индекс контента / Полнословный индекс): Индекс, хранящий полные слова из текстового содержимого объектов. Используется для поиска по контенту только по полному совпадению слова.
Harvesting Application (Приложение для сбора данных): Компонент, который сканирует объекты в Object Environment и генерирует записи для Object Database (локальный краулер).
Incremental Searching (Инкрементальный поиск): Метод поиска, при котором результаты обновляются по мере ввода пользователем каждого символа запроса.
Object Environment (Объектная среда): Среда, содержащая набор объектов для поиска. В контексте патента — рабочий стол персонального компьютера (файлы, приложения, электронная почта).
Prefix Index (Префиксный индекс): Индекс, который хранит префиксы (начальные части слов или partial words) заголовков объектов. Оптимизирован для быстрого поиска объектов по началу их названия.
Querying Application (Приложение для выполнения запросов): Компонент, который получает поисковый запрос и ищет соответствующие объекты в индексах.
Scoring Application (Приложение для оценки): Компонент, присваивающий оценку (Score или relevance score) объектам.
Temporal Ranking Scheme (Схема временного ранжирования): Метод ранжирования для локального поиска, который определяет релевантность объекта на основе оценки частоты его использования в будущем. Использует данные о недавности и частоте использования объекта в прошлом на локальном устройстве.
Combined Relevance Score (Комбинированная оценка релевантности): Агрегированная оценка для группы топовых результатов (отдельно для результатов из Prefix Index и Content Index).

Ключевые утверждения (Анализ Claims)

Патент защищает реализацию системы локального поиска на клиентском устройстве.

Claim 1 (Независимый пункт): Описывает основной метод комбинированного поиска на клиентском устройстве (client device).

Создание двух индексов на клиентском устройстве:
- Prefix Index: Индексирует документы, хранящиеся на устройстве, по частичным словам (префиксам), являющимся частями слов в заголовках документов.
- Content Index: Индексирует документы по полным словам, найденным в их текстовом содержимом.
Получение запроса на локальный поиск (desktop search request) с поисковым термином.
Запрос к Prefix Index: Идентификация первых документов, чей заголовок содержит слово, совпадающее с термином, ИЛИ префикс которого совпадает с термином.
Запрос к Content Index: Идентификация вторых документов, чей контент содержит полное слово, совпадающее с термином.
Ранжирование: Отдельное ранжирование первых и вторых документов для определения топовых результатов в каждой группе.
Определение оценок: Расчет Relevance Score для топовых документов.
Определение комбинированных оценок: Расчет Combined Relevance Score для первой группы и для второй группы.
Отображение результатов: Определение порядка отображения. Если комбинированная оценка первой группы выше, она отображается над второй группой в окне результатов, и наоборот.

Ядром изобретения является строгое разделение логики индексирования и поиска для заголовков и контента в контексте локального поиска (desktop search на client device). Система использует префиксный поиск только для заголовков и полнотекстовый поиск только для контента, а затем применяет логику сравнения комбинированных оценок релевантности для определения порядка отображения результатов.

Где и как применяется

Патент описывает архитектуру для специализированной локальной поисковой системы (Desktop Search), а не для веб-поиска Google.com.

CRAWLING (Локальный сбор данных)
Harvesting Application выполняет функции краулера в локальной Object Environment (например, на жестком диске), собирая объекты и их метаданные.

INDEXING – Индексирование и извлечение признаков (Локальное)
Это ключевой этап. Indexing Application создает два раздельных индекса: Prefix Index для заголовков и Content Index для контента. Scoring Application вычисляет признаки релевантности (Scores). В патенте описан механизм Temporal Ranking Scheme, использующий локальные данные о поведении пользователя (недавность и частота доступа к файлам) для расчета этих оценок.

RANKING – Ранжирование (Локальное)
Querying Application обрабатывает ввод пользователя в реальном времени (инкрементальный поиск). Запрос направляется к обоим индексам. Результаты ранжируются на основе предварительно рассчитанных оценок (Temporal Ranking Scheme).

METASEARCH – Метапоиск и Смешивание (Локальное)
Система объединяет результаты из двух индексов. Рассчитываются Combined Relevance Scores для каждой группы результатов, что определяет порядок их отображения (смешивание).

Входные данные:

Локальные объекты (файлы, приложения, email).
Метаданные объектов (названия, содержимое).
Локальные данные об использовании объектов (дата последнего доступа, частота использования).
Поисковый запрос пользователя.

Выходные данные:

Комбинированный список локальных результатов, сгруппированный по типу совпадения (заголовок или контент) и отсортированный по релевантности.

На что влияет

Патент влияет исключительно на результаты локального поиска на устройстве пользователя (Desktop Search).

Конкретные типы контента: Влияет на все локальные объекты. Приложения и файлы, которые часто ищут по названию, обрабатываются через Prefix Index. Документы и email обрабатываются через Content Index.
Специфические запросы: Влияет на инкрементальные запросы (поиск по мере ввода).

Когда применяется

При каких условиях работает алгоритм: Алгоритм работает при использовании приложения Desktop Search на локальном компьютере.
Триггеры активации: Активируется при вводе поискового запроса. В случае инкрементального поиска — при вводе каждого символа.

Пошаговый алгоритм

Процесс А: Индексирование и Оценка (Offline или в фоновом режиме)

Сбор данных: Harvesting Application сканирует Object Environment.
Оценка (Temporal Ranking Scheme): Scoring Application рассчитывает Score для объекта. Этот процесс включает:
- Проверка использования через поиск: Определяется, запускался ли этот объект ранее через приложение Desktop Search.
- Ранжирование (Если ДА): Объект ранжируется по дате последнего доступа через систему поиска (чем новее, тем выше ранг).
- Ранжирование (Если НЕТ): Объект ранжируется по дате последнего использования (last use date — например, дата модификации файла или запуска приложения).
- Корректировка по классу (Class Adjustment): Ранг объекта корректируется (понижается/штрафуется) в зависимости от его класса (class). Класс определяется расположением (например, ‘My Documents’ против системных папок) или типом файла (документы против скрытых файлов).
Индексирование заголовков: Генерируются все префиксы для слов в заголовке и добавляются в Prefix Index вместе со ссылкой на объект и его Score.
Индексирование контента: Каждое полное слово из контента добавляется в Content Index вместе со ссылкой на объект и его Score.

Процесс Б: Обработка запроса (Real-time / Инкрементально)

Получение запроса: Пользователь вводит поисковый термин.
Запрос к Prefix Index: Querying Application ищет термин как префикс. Извлекается набор результатов (Группа 1).
Запрос к Content Index: Querying Application ищет термин как полное слово. Извлекается набор результатов (Группа 2).
Ранжирование и фильтрация: Каждая группа ранжируется по Scores. Определяются топовые результаты.
Расчет комбинированных оценок: Рассчитывается Combined Relevance Score для Группы 1 и Группы 2.
Смешивание и отображение: Система определяет, какая группа имеет более высокую комбинированную оценку. Результаты этой группы отображаются выше результатов другой группы.

Какие данные и как использует

Данные на входе

Патент фокусируется на данных, доступных в локальной среде пользователя.

Контентные факторы: Заголовки (Titles) объектов используются для генерации префиксов (Prefix Index). Текстовое содержимое (Content) используется для извлечения полных слов (Content Index).
Технические факторы: Путь к файлу (path) и тип файла. Используются для определения класса объекта при ранжировании (Class Adjustment).
Временные факторы: Критически важны для Temporal Ranking Scheme. Используются даты последнего доступа (last-accessed), модификации (last-modified), запуска (last-launched) или получения.
Поведенческие факторы (Локальные): История использования объектов пользователем (частота доступа). Учитывается, был ли объект ранее запущен через систему поиска.

Какие метрики используются и как они считаются

Relevance Score (Оценка релевантности): Вычисляется на основе Temporal Ranking Scheme. Приоритет отдается объектам, которые использовались недавно и часто, особенно если они запускались через интерфейс поиска. Метрика основана на оценке вероятности будущего использования.
Combined Relevance Score (Комбинированная оценка релевантности): Агрегированная оценка для группы топовых результатов. Используется для определения порядка отображения групп (результаты по заголовкам vs результаты по контенту).
Class Adjustment/Penalty (Корректировка/Штраф за класс): Понижающий коэффициент, применяемый к Relevance Score в зависимости от типа или расположения файла (например, системные файлы штрафуются сильнее).

Выводы

Патент описывает внутренние процессы Google для продукта Desktop Search без прямых рекомендаций для SEO веб-сайтов.

Изоляция от веб-поиска: Описанные механизмы строго ограничены локальной средой пользователя (client device, desktop search). Они не имеют отношения к алгоритмам ранжирования Google.com.
Комбинированный подход для инкрементального поиска: Система решает проблему шума и скорости путем разделения индексов: префиксы используются только для заголовков (названий файлов/приложений), а для содержимого используются только полные слова. Это оптимизировано для Incremental Searching.
Ранжирование на основе локального поведения: Описанная Temporal Ranking Scheme полностью основана на персональной истории использования файлов (частота, недавность доступа, тип файла). Это фундаментально отличается от факторов ранжирования в веб-поиске (таких как E-E-A-T, ссылки, глобальная релевантность контента).
Динамическое смешивание результатов: Система использует Combined Relevance Score для определения того, какой тип результатов (по заголовку или по контенту) более важен для запроса, и отображает его выше.

Практика

ВАЖНО: Патент является инфраструктурным и описывает работу локального приложения (Google Desktop Search). Он не дает практических выводов для SEO-специалистов, занимающихся продвижением сайтов в веб-поиске Google.com.

Best practices (это мы делаем)

Практических рекомендаций для веб-SEO на основе этого патента нет.

Worst practices (это делать не надо)

Практических рекомендаций для веб-SEO на основе этого патента нет.

Стратегическое значение

Стратегическое значение для веб-SEO отсутствует. Патент не меняет понимание приоритетов Google в отношении веб-поиска. Он демонстрирует подход Google к решению специфических задач в локальном поиске, где приоритеты (скорость инкрементального поиска, глубокая персонализация на основе локальной истории использования) отличаются от веб-поиска.

Практические примеры

Практических примеров для веб-SEO нет. Пример ниже иллюстрирует работу системы в контексте Desktop Search.

Сценарий: Поиск документа на локальном компьютере

Пользователь вводит: «SEO»
Поиск по заголовкам (Prefix Index): Система находит приложение «SEOToolkit.exe» и файл «SEO_report_2025.pdf», так как их названия начинаются с «SEO».
Поиск по контенту (Content Index): Система находит файл «Marketing_plan.docx» и электронное письмо, потому что они содержат полное слово «SEO» в тексте.
Ранжирование (Temporal Ranking Scheme):
- «SEO_report_2025.pdf» открывался сегодня (Высокий ранг).
- «Marketing_plan.docx» редактировался вчера (Высокий ранг).
- «SEOToolkit.exe» запускался на прошлой неделе (Средний ранг).
Отображение: Система отображает результаты. «SEO_report_2025.pdf» и «Marketing_plan.docx» будут показаны выше остальных благодаря их недавнему использованию. Система определит порядок блоков (по заголовкам или по контенту) на основе их Combined Relevance Score.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует сайты в интернете?

Нет. Патент полностью сосредоточен на технологиях локального поиска (Desktop Search) на клиентском устройстве. Описанные механизмы предназначены для индексирования, поиска и ранжирования файлов, электронных писем и приложений на персональном компьютере пользователя.

Что такое Temporal Ranking Scheme и используется ли она в веб-поиске?

Temporal Ranking Scheme — это метод ранжирования для Desktop Search. Он оценивает релевантность файла на основе того, как часто и как недавно пользователь обращался к нему на своем компьютере (локальная история использования). В веб-поиске Google не использует локальную историю доступа к файлам для ранжирования сайтов.

Является ли Temporal Ranking Scheme доказательством использования поведенческих факторов в ранжировании Google?

Нет. Хотя это поведенческий фактор, он основан на локальных данных, специфичных для устройства пользователя (дата последнего открытия файла, частота запуска приложения). Этот механизм не следует путать с использованием агрегированных поведенческих данных (например, кликов в SERP) в веб-поиске.

Почему система использует префиксы только для заголовков, но полные слова для контента?

Это компромисс для оптимизации инкрементального поиска. Заголовки (имена файлов/приложений) описательны, и поиск по префиксам удобен для быстрого доступа. Если бы система искала префиксы во всем содержимом документов, это привело бы к огромному количеству нерелевантных результатов (шуму) и замедлило бы работу.

Описывает ли этот патент, как работает Google Autocomplete (Suggest)?

Нет. Хотя и этот патент, и Autocomplete используют концепцию инкрементального поиска и префиксный поиск, их цели и данные разные. Патент описывает поиск по префиксам локальных файлов и ранжирование на основе локальной истории (Temporal Ranking). Google Autocomplete предсказывает запросы на основе агрегированных данных о поисковом поведении миллионов пользователей и трендов.

Какова практическая ценность этого патента для SEO-специалиста?

Практическая ценность для продвижения веб-сайтов (Web SEO) отсутствует. Патент не содержит информации о факторах ранжирования в интернете. Он полезен только для понимания истории развития поисковых технологий или для инженеров, разрабатывающих системы локального поиска.

Что такое Object Environment, упоминаемая в патенте?

Object Environment в контексте этого патента — это среда, содержащая объекты для поиска. В первую очередь подразумевается рабочий стол персонального компьютера, включающий локальные файлы, установленные приложения, электронную почту, историю браузера и другие локальные данные пользователя.

Как обрабатываются результаты из двух разных индексов (Prefix и Content)?

Система ранжирует результаты из каждого индекса по отдельности. Затем она вычисляет комбинированную оценку релевантности (Combined Relevance Score) для каждой группы. Группа с более высокой комбинированной оценкой отображается в интерфейсе пользователя выше другой группы.

В патенте упоминается корректировка ранга в зависимости от класса объекта (Class Adjustment/Penalty). Как это работает?

Это часть Temporal Ranking Scheme. Ранг объекта понижается в зависимости от его типа или расположения. Например, документы в папке «Мои документы» считаются более релевантными и штрафуются меньше, чем системные файлы в папке «Windows», так как вероятность того, что пользователь ищет системный файл, ниже.

Связан ли этот патент с продуктом Google Desktop?

Да, с высокой вероятностью. Патент подан в 2005 году, когда Google активно развивал Google Desktop. Описанные технологии (инкрементальный поиск, комбинированное индексирование локальных файлов, ранжирование по использованию) являлись ключевыми функциями этого продукта.