Как Google индексирует числа для обеспечения эффективного поиска по диапазонам (цены, даты, размеры)

Патент Google, описывающий механизм индексирования чисел и обработки запросов с числовыми диапазонами. Система раскладывает каждое число на компоненты (логарифмическую характеристику и отдельные цифры) и сохраняет их как специальные числовые термины в индексе. Это позволяет пользователям эффективно находить документы, содержащие числа в заданном диапазоне (например, товары по цене от $200 до $500).

Описание

Какую задачу решает

Патент решает проблему неэффективности поиска по диапазону чисел в больших коллекциях документов. Традиционные поисковые системы индексируют числа как конкретные текстовые термины, что не позволяет эффективно обрабатывать запросы на диапазон (например, «товары от $200 до $500»). Цель изобретения — обеспечить возможность такого поиска с высокой точностью при минимальном увеличении размера индекса.

Что запатентовано

Запатентована система индексирования чисел и обработки запросов по числовым диапазонам. Суть изобретения заключается в способе представления чисел в индексе с помощью набора специальных Numerical Index Terms (числовых индексных терминов). Эти термины кодируют математические свойства числа: его магнитуду (используя Characteristic — целую часть логарифма) и его отдельные цифры (Digits). При получении запроса с диапазоном система генерирует сложное булево выражение (Expression Tree) из этих терминов для поиска.

Как это работает

Механизм работает в двух фазах:

Индексирование: Каждое число в документе (например, 727.1) анализируется. Вычисляется его Characteristic (здесь 2) и определяются цифры (7, 2, 7, 1). В индекс добавляются специальные термины, описывающие эти компоненты. Все эти термины привязываются к одной и той же позиции в документе.
Обработка запроса: Когда пользователь ищет диапазон (например, 721-727.1), Query Encoder преобразует этот диапазон в сложное Expression Tree. Это дерево логически описывает все возможные комбинации характеристик и цифр, которые попадают в заданный диапазон. Поисковая система выполняет этот булев запрос, требуя, чтобы все условия (AND) выполнялись в одной и той же позиции документа.

Актуальность для SEO

Высокая. Поиск по числовым диапазонам является стандартной и критически важной функцией в современных поисковых системах, особенно для e-commerce (фильтры цен, характеристик), поиска по датам и использования операторов диапазона (например, ..). Описанный механизм обеспечивает эффективную техническую реализацию этой функции в рамках архитектуры инвертированного индекса.

Важность для SEO

Значительное влияние (6.5/10). Хотя это инфраструктурный патент, описывающий механизм отбора (Retrieval), а не ранжирования (Ranking), он критически важен для видимости (Discoverability) контента в определенных вертикалях. Для E-commerce, сайтов недвижимости и ресурсов с техническими спецификациями корректное индексирование числовых данных этим механизмом является необходимым условием для появления в выдаче по запросам с диапазонами или фильтрами.

Детальный разбор

Термины и определения

Boundary Number (Граничное число): Число, определяющее начало или конец диапазона в запросе пользователя (например, 200 и 500 в запросе «$200-$500»).
Characteristic (Характеристика): Ключевое понятие патента. Определяется как целая часть логарифма числа по фиксированному основанию (обычно 10). Определяет порядок величины (магнитуду) числа. Например, для 727.1 характеристика равна 2 (log10(727.1) ≈ 2.86).
Digits (Цифры): Отдельные цифры числа (например, 7, 2, 7, 1 для 727.1).
End Flag (Флаг окончания): Специальный маркер (например, суффикс _end) в Numerical Index Term, указывающий, что данная цифра является последней значащей цифрой в числе.
Expression Tree (Дерево выражений) / Boolean Expression: Структура данных, представляющая сложный булев запрос (с операторами AND и OR), который генерируется Query Encoder для поиска чисел в заданном диапазоне.
Fieldname (Имя поля/Тип числа): Часть Numerical Index Term, указывающая на тип числа. Например, numrange (общее число), потенциально daterange (дата) или pricerange (цена).
Numerical Index Term (Числовой индексный термин): Специализированный термин, сохраняемый в индексе. Кодирует информацию о числе: Fieldname, Characteristic, позицию цифры (digit position), значение цифры (digit value) и End Flag. Пример: numrange_digit_1_2.
Query Encoder (Кодировщик запросов): Компонент системы, который преобразует запрос пользователя с числовым диапазоном в Expression Tree.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает компьютерный метод обработки запроса по числовому диапазону.

Система получает запрос с числовым диапазоном, имеющим граничное число (Boundary Number).
Генерируется выражение (Expression) из Numerical Index Terms на основе этого граничного числа.
Ядро изобретения: Указано, что соответствующий числовой индексный термин включает информацию, указывающую на «целую часть логарифма» (integral portion of a logarithm) граничного числа. Это математическое определение Characteristic.
Выполняется поиск в индексе с использованием этого выражения для идентификации документов.
Возвращается результат.

Использование логарифмического представления (Characteristic) является центральным элементом патента, позволяющим эффективно кодировать магнитуду числа для диапазонного поиска.

Зависимые пункты (Claims 2, 3, 4, 5, 7): Детализируют структуру Numerical Index Terms:

Claim 2: Термин включает информацию о том, что указанная цифра является последней значащей цифрой (End Flag).
Claim 3, 4: Термин может включать информацию о знаке числа или типе числа (Fieldname).
Claim 5, 7: Выражение включает множество терминов, каждый из которых соответствует одной цифре и ее позиции в числе.

Где и как применяется

Изобретение затрагивает два ключевых этапа поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
Основное применение на этапе индексирования. Document Indexer выполняет специализированное извлечение признаков для чисел.

Распознавание и Анализ: Идентификация чисел, вычисление Characteristic и извлечение Digits. Числа могут проходить препроцессинг (нормализация, масштабирование).
Генерация терминов: Создание набора Numerical Index Terms для каждого числа.
Сохранение в индексе: Запись этих терминов в инвертированный индекс с указанием DocID и точной позиции числа в документе.

QUNDERSTANDING – Понимание Запросов / RANKING (L1 Retrieval) – Ранжирование (Отбор кандидатов)
Применение на этапе обработки запроса.

Генерация выражения: Query Encoder распознает синтаксис диапазона и преобразует его в сложное Expression Tree.
Отбор кандидатов (L1 Retrieval): Индексные серверы выполняют это булево выражение. Важнейшая техническая особенность: операторы AND в выражении требуют, чтобы все соответствующие Numerical Index Terms находились в одной и той же позиции документа. Это гарантирует, что найденные термины относятся к одному числу.

Входные данные (Индексирование): Документы, содержащие числа.
Выходные данные (Индексирование): Индекс, содержащий Numerical Index Terms, привязанные к позициям.
Входные данные (Запрос): Поисковый запрос с числовым диапазоном.
Выходные данные (Запрос): Expression Tree; Набор документов, удовлетворяющих выражению.

На что влияет

Конкретные типы контента и Ниши: Критически важно для E-commerce (цены, размеры, вес), недвижимости, авто, сайтов с техническими спецификациями, финансовых ресурсов и контента, связанного с датами.
Специфические запросы: Влияет на обработку запросов, содержащих операторы диапазона (например, «ноутбук $1000..$1500») и на работу числовых фильтров в поисковой выдаче.

Когда применяется

Индексирование: Применяется всегда, когда система индексации встречает и распознает число в документе.
Запрос: Активируется, когда поисковый запрос содержит явное указание числового диапазона или при использовании фильтров.

Пошаговый алгоритм

Процесс А: Индексирование чисел (INDEXING)

Идентификация чисел: Document Indexer идентифицирует числа в тексте и их позиции.
Препроцессинг (Опционально): Нормализация числа (например, обработка научной нотации, масштабирование).
Вычисление Характеристики: Для числа вычисляется Characteristic (целая часть логарифма). Обрабатываются отрицательные числа и отрицательные характеристики. Ноль обрабатывается отдельно (например, numrange_zero).
Извлечение Цифр: Определяются значащие цифры числа, их значения и позиции. Количество индексируемых цифр может быть ограничено.
Генерация Numerical Index Terms: Создается набор терминов:
- Термин для характеристики (например, numrange_characteristic_2).
- Термины для каждой цифры (например, numrange_digit_0_7).
- Для последней цифры добавляется End Flag (например, _end).
Сохранение в индексе: Все термины сохраняются в индексе с указанием ID документа и точной позиции числа.

Процесс Б: Обработка запроса с диапазоном (RANKING/Retrieval)

Получение запроса: Система получает запрос с диапазоном (границы X и Y).
Генерация Expression Tree (Query Encoder): Преобразование диапазона в булево дерево. Этот сложный рекурсивный процесс включает:
- Определение самого длинного общего префикса X и Y. Эти термины объединяются через AND (Группа 1).
- Определение первой различающейся цифры (позиция d). Генерация терминов для всех значений строго между цифрой X[d] и цифрой Y[d]. Они объединяются через OR (Группа 2).
- Генерация поддерева для значений, больших или равных X после позиции d (Группа 3).
- Генерация поддерева для значений, меньших или равных Y после позиции d (Группа 4).
Сборка и Упрощение дерева: Группы собираются в итоговое дерево (например, Группа 1 AND (Группа 2 OR Группа 3 OR Группа 4)). Дерево упрощается (удаление пустых узлов).
Выполнение поиска: Expression Tree используется для поиска в индексе. Система требует, чтобы все условия AND выполнялись в одной и той же позиции документа.

Какие данные и как использует

Данные на входе

Контентные факторы: Непосредственно числа, содержащиеся в тексте документа. Контекст вокруг числа может использоваться для определения его типа (Fieldname — цена, дата, общее число).
Технические факторы: Система использует точное позиционирование (Position) терминов в документе.

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования, а фокусируется на механизме индексации и отбора (Retrieval).

Characteristic: Вычисляется как целая часть логарифма числа (integral part of the logarithm). Это позволяет индексировать числа в логарифмическом масштабе.
Digit Position и Digit Value: Прямое извлечение цифр числа.
Методы вычислений: Используется булева логика (AND/OR) для сопоставления запроса с индексом. Ключевым алгоритмом является генерация сложного Expression Tree.

Выводы

Математическое индексирование чисел: Google не просто индексирует числа как текст. Он выполняет разбор чисел на компоненты (магнитуда, цифры, позиция, знак) и создает специализированные Numerical Index Terms.
Эффективность через логарифмы: Использование Characteristic (логарифмического представления) является центральным элементом изобретения. Это обеспечивает эффективность поиска по диапазонам любого масштаба без значительного раздувания индекса.
Критичность позиционного индекса: Требование, чтобы все компоненты числа находились в одной позиции документа (Positional Matching), гарантирует точность поиска и предотвращает ложные срабатывания.
Распознавание типов чисел (Fieldname): Система пытается определить контекст числа (цена, дата) во время индексации, что позволяет обеспечить более релевантный поиск по специализированным диапазонам.
Инфраструктурный механизм: Патент описывает механизм обеспечения функциональности поиска (Retrieval), а не алгоритм ранжирования (Ranking).

Практика

Best practices (это мы делаем)

Рекомендации направлены на обеспечение корректного распознавания и индексации числовых данных.

Обеспечение машиночитаемости чисел: Критически важные числовые данные (цены, размеры, даты, спецификации) должны быть представлены в виде текста, а не изображений. Они должны быть доступны для сканирования и рендеринга.
Использование стандартных форматов: Используйте общепринятые и однозначные форматы для чисел, дат и валют. Это повышает вероятность корректного распознавания числа и его типа (Fieldname) индексатором.
Применение микроразметки (Schema.org): Активно используйте структурированные данные для явного указания типа числовых данных (например, PriceSpecification, QuantitativeValue, datePublished). Это помогает системе точнее определить Fieldname и гарантирует корректную обработку данных механизмами, основанными на этом патенте.
Оптимизация под запросы с характеристиками (E-commerce): Гарантируйте наличие всех ключевых характеристик товаров в контенте. Это позволяет сайту быть видимым, когда пользователи используют диапазоны или фильтры для уточнения поиска (например, «ssd диск 1tb..2tb»).

Worst practices (это делать не надо)

Скрытие чисел в медиа или скриптах: Размещение цен или спецификаций внутри изображений, видео или через сложный JavaScript, который может быть не обработан индексатором. Это препятствует генерации Numerical Index Terms.
Неоднозначное или сложное форматирование: Использование нестандартных разделителей, написание чисел словами (например, «сто долларов» вместо «$100») или форматирование, которое может запутать парсер и помешать распознаванию числа.
Отсутствие контекста: Предоставление чисел без единиц измерения или валюты может затруднить определение типа числа (Fieldname).

Стратегическое значение

Патент подтверждает способность Google к глубокому и гранулярному пониманию данных на странице. Для многих вертикалей (особенно e-commerce) возможность ранжироваться по запросам с числовыми ограничениями является критически важной частью SEO-стратегии. Это подчеркивает необходимость технической оптимизации, направленной на максимальную машиночитаемость и структурированность контента.

Практические примеры

Сценарий: Оптимизация карточки товара для фильтров по цене

Задача: Обеспечить видимость ноутбука (цена $1250) по запросу с диапазоном цен $1000-$1500.

Действия:

Убедиться, что цена «$1250» присутствует на странице в виде текста.
Использовать разметку Schema.org/Product и указать цену в Offers.

Как это работает (по патенту):

Индексация: Google распознает 1250. Генерируются Numerical Index Terms (упрощенно): Characteristic_3, Digit_0_1, Digit_1_2, Digit_2_5, Digit_3_0_end.
Запрос: Пользователь ищет диапазон $1000-$1500.
Обработка: Query Encoder генерирует Expression Tree для этого диапазона.
Результат: Термины для 1250 удовлетворяют логике этого дерева. Страница товара eligible для ранжирования по этому запросу или отображения при применении фильтра.

Вопросы и ответы

Что такое «Characteristic» (Характеристика) числа в этом патенте и зачем она нужна?

Characteristic — это целая часть логарифма числа (обычно по основанию 10). Она определяет порядок величины числа. Например, для 727.1 это 2, а для 50 это 1. Использование характеристики позволяет Google эффективно кодировать и сравнивать числа любого масштаба (от очень маленьких до очень больших) без необходимости хранить огромное количество уникальных терминов в индексе.

Влияет ли этот патент на ранжирование (Ranking)?

Патент описывает механизм отбора (Retrieval), а не ранжирования (Ranking). Он определяет, какие документы соответствуют запросу с числовым диапазоном, но не описывает, как вычисляются оценки релевантности. Однако без срабатывания этого механизма документ не попадет в выдачу по таким запросам вообще, что критично для видимости.

Как Google определяет тип числа (Fieldname), например, что это цена, а не дата?

Патент упоминает использование Fieldname (например, pricerange, daterange), но не детализирует механизм определения типа. На практике Google использует анализ контекста вокруг числа (символы валют, единицы измерения) и, что особенно важно сегодня, структурированные данные (Schema.org), чтобы точно определить тип числового значения.

Как этот патент связан с микроразметкой Schema.org?

Они тесно связаны. Патент описывает необходимость распознавания типа числа (Fieldname) и механизм его индексации для поиска по диапазонам. Микроразметка сегодня является основным способом сообщить Google этот тип (например, что число является ценой). Использование Schema.org значительно повышает надежность работы механизма, описанного в патенте.

Что нужно делать SEO-специалисту, исходя из этого патента?

Основное действие — гарантировать, что все важные числовые данные на сайте представлены в виде машиночитаемого текста, имеют стандартное форматирование и размечены с помощью Schema.org. Это гарантирует, что Google сможет корректно распознать числа, сгенерировать Numerical Index Terms и включить страницу в выдачу по запросам с диапазонами.

Что произойдет, если я напишу число словами (например, «сто долларов»)?

Текст, написанный словами, не будет обработан механизмом, описанным в этом патенте, так как система ищет цифровые значения для генерации Numerical Index Terms. Это означает, что ваш контент, скорее всего, не будет найден, если пользователь применит фильтр по диапазону. Всегда используйте числовой формат (например, «$100»).

Почему при поиске диапазона система генерирует такое сложное булево выражение (Expression Tree)?

Это необходимо, чтобы преобразовать математическое сравнение (X < число < Y) в набор дискретных терминов, которые можно найти в стандартном инвертированном индексе. Система должна сгенерировать логическое выражение (AND/OR), которое покрывает все возможные комбинации цифр, формирующих числа в заданном диапазоне, обеспечивая высокую скорость поиска.

Что такое «End Flag» (Флаг окончания) и зачем он используется?

End Flag указывает, что это последняя значащая цифра числа. Это позволяет системе понять точность числа, указанного в документе, и корректно определить границы диапазона. Например, это помогает различать числа 721 и 7210 при обработке запроса.

Как система обрабатывает число Ноль?

Ноль обрабатывается как особый случай, поскольку он не имеет логарифма и, следовательно, не может быть закодирован с помощью Characteristic. Патент предлагает использовать специальный индексный термин, например, numrange_zero, для индексирования вхождений нуля.

Почему патент требует совпадения терминов в одной и той же позиции документа?

Это критически важно для точности. Система должна убедиться, что все компоненты (характеристика и цифры) принадлежат одному и тому же числу в тексте. Если бы позиционное совпадение не требовалось, документ мог бы быть ошибочно признан релевантным, если бы разные части числа встречались в разных местах документа.