Как Google эффективно индексирует и ранжирует повторяющиеся события в Персональном Поиске

Google использует метод эффективного индексирования повторяющихся календарных событий, сохраняя общую информацию один раз и разделяя уникальные детали для каждого случая. Для ранжирования используется двухэтапная оценка: быстрая аппроксимация интервала повторения для предварительной оценки релевантности и последующее точное вычисление времени следующего события.

Описание

Какую задачу решает

Патент решает проблемы эффективности и качества при индексировании и поиске повторяющихся событий (recurrent events) в персональных календарях. Традиционный подход, при котором каждый случай (instance) события индексируется отдельно, приводит к избыточности данных (Index Bloat), неэффективному использованию хранилища и увеличению вычислительной нагрузки. Кроме того, это создает риск «затопления» поисковой выдачи (SERP flooding) множеством результатов одного и того же повторяющегося события.

Что запатентовано

Запатентована система для эффективного индексирования и ранжирования повторяющихся календарных событий. Изобретение включает два ключевых механизма. Первый — это консолидация данных: повторяющееся событие индексируется как единый документ (Search Document), разделенный на общую информацию и уникальные данные для каждого случая. Второй — это двухэтапное ранжирование, использующее быструю аппроксимацию интервалов повторения для начальной оценки релевантности, что позволяет избежать сложных вычислений правил повторения на ранних стадиях поиска.

Как это работает

Система работает в двух основных режимах:

Индексирование: Система анализирует различные случаи (instances) повторяющегося события. Общие атрибуты (например, название) хранятся в основном разделе (Common Information), а уникальные атрибуты (например, точное время, исключения в месте проведения) хранятся в поддокументах (sub-documents).
Ранжирование: Используется двухэтапный подход. На первом этапе вычисляется приблизительный интервал повторения (на основе времени первого и последнего события и их общего числа) для быстрой оценки (Initial Score). Если событие является кандидатом, на втором этапе анализируется Search Document для определения точного времени следующего события и вычисления финальной оценки (Second Score).

Актуальность для SEO

Высокая (для Персонального Поиска и инфраструктуры). Эффективное индексирование и быстрый поиск по персональным данным (календарь, почта) остаются критически важными задачами для Google. Описанные методы оптимизации хранения и использования аппроксимации для ускорения ранжирования актуальны для масштабируемых систем.

Важность для SEO

Минимальное влияние (1/10). Патент описывает внутренние механизмы Google, связанные исключительно с индексированием и поиском по личным данным пользователя (Personal Search), в частности, по событиям электронного календаря. Он не содержит описания механизмов, влияющих на ранжирование общедоступных веб-документов в основном поиске Google.

Детальный разбор

Термины и определения

Common Information (Общая информация): Атрибуты события, которые идентичны для всех или большинства случаев (например, название, описание, стандартный список участников).
Event (Событие): Календарное событие, которое может происходить один раз или повторяться.
First Score / Initial Score (Первичная оценка): Предварительная оценка релевантности, рассчитанная с использованием аппроксимированного времени следующего экземпляра. Используется для быстрого отбора кандидатов.
Instance (Случай / Экземпляр): Единичный случай наступления события в определенное время.
Markup Document (Документ разметки): Промежуточное представление (например, HTML или XML) повторяющегося события, созданное для индексации. Содержит разделы для общей и уникальной информации.
Recurrent Event (Повторяющееся событие): Событие, имеющее несколько случаев (instances) наступления.
Search Document (Поисковый документ): Внутренняя структура данных, используемая поисковой системой для индексации и поиска. Создается на основе Markup Document.
Second Score (Вторичная оценка): Финальная оценка релевантности, рассчитанная с использованием точного (фактического) времени экземпляра, извлеченного из Search Document.
Sub-document (Поддокумент): Раздел внутри Search Document, содержащий уникальную информацию для конкретного случая (instance) события.
Time Interval Approximation (Аппроксимация временного интервала): Расчетное среднее время между экземплярами события. Используется для вычисления Initial Score.
Unique Information (Уникальная информация): Атрибуты, специфичные для конкретного случая события (например, точная дата и время, изменение места проведения).

Ключевые утверждения (Анализ Claims)

Claims (Формула изобретения) в данном патенте фокусируются в первую очередь на методе ранжирования и аппроксимации (Claims 1-9).

Claim 1 (Независимый пункт): Описывает метод аппроксимации для ранжирования повторяющегося события в ответ на запрос с временным ограничением.

Система получает запрос, включающий ключевое слово и временное ограничение (time restriction).
Идентифицируется повторяющееся событие, соответствующее ключевому слову.
Извлекаются данные: время начала первого случая (T_first), время начала последнего случая (T_last) и общее количество случаев (N).
Вычисляется приблизительный временной интервал повторения путем вычитания T_first из T_last и деления результата на N (или число, основанное на N).
Интервал используется для аппроксимации времени начала следующего случая события после текущего времени.
Вычисляется первая оценка (First Score) для события на основе аппроксимированного времени начала и временного ограничения запроса. Оценка обратно пропорциональна разнице между аппроксимированным временем и временным ограничением (чем ближе, тем выше оценка).

Claim 2 (Зависимый от 1): Детализирует процесс после начального ранжирования (двухэтапный скоринг).

На основе First Score определяется, является ли событие кандидатом на включение в результаты поиска.
Если ДА, из Search Document извлекается информация, включающая фактическое время начала следующего случая.
Вычисляется вторая оценка (Second Score) на основе фактического времени начала и временного ограничения запроса.

Механизм индексирования (На основе Description): Хотя Claims фокусируются на ранжировании, в описании патента (Description) подробно изложен механизм индексирования:

Получение атрибутов для разных случаев повторяющегося события.
Идентификация общей информации (Common Information) и уникальной информации (Unique Information).
Генерация единого документа (Markup Document/Search Document). Документ имеет первую секцию с общей информацией и вторую секцию, содержащую поддокументы (Sub-documents) для уникальной информации каждого случая.

Где и как применяется

Изобретение применяется исключительно в рамках инфраструктуры Персонального Поиска (Personal Search) для обработки данных календаря пользователя.

INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает данные из календаря пользователя. Вместо индексации каждого экземпляра отдельно, система генерирует структурированный Search Document, объединяя общие данные и разделяя уникальные. Здесь же рассчитываются и сохраняются данные для аппроксимации (T_first, T_last, N).

RANKING – Ранжирование (L1/L2 — Отбор кандидатов и Легковесное ранжирование)
При получении запроса система использует механизм быстрой аппроксимации (Time Interval Approximation). На основе этой аппроксимации вычисляется Initial Score. Это позволяет быстро отобрать потенциально релевантные события без необходимости анализа сложных правил повторения или загрузки полных данных.

RANKING – Ранжирование (L3 — Глубокое ранжирование) / RERANKING – Переранжирование
Если событие прошло этап отбора кандидатов, система обращается к полному Search Document, извлекает точное время и атрибуты релевантного экземпляра из соответствующего Sub-document и вычисляет финальный Second Score.

Входные данные:

Данные из календаря пользователя (атрибуты событий, правила повторения).
Поисковый запрос пользователя (ключевые слова, временные ограничения).

Выходные данные:

Структурированные Search Documents в индексе.
Отранжированные результаты поиска, показывающие наиболее релевантный случай повторяющегося события.

На что влияет

Конкретные типы контента: Влияет исключительно на события электронного календаря пользователя в рамках Персонального Поиска. Не влияет на публичные веб-страницы, статьи, товары и т.д.
Специфические запросы: Влияет на запросы пользователя к своим личным данным, особенно те, которые содержат временные ограничения (например, «мои встречи завтра»).

Когда применяется

При индексировании: Когда система обнаруживает или обновляет повторяющееся событие в календаре пользователя.
При ранжировании: Когда пользователь выполняет поиск по своему календарю, и система должна оценить релевантность повторяющихся событий, особенно если запрос содержит временные рамки.

Пошаговый алгоритм

Процесс А: Индексирование повторяющегося события

Получение данных о событии: Система получает данные обо всех случаях (instances) события, включая мастер-запись и исключения.
Идентификация и Классификация атрибутов: Атрибуты разных случаев сравниваются. Атрибуты разделяются на Общие (Common Information) и Уникальные (Unique Information).
Генерация Markup Document: Создается документ. Общая информация помещается в первую секцию. Уникальная информация для каждого случая помещается во вторую секцию, где каждый случай представлен как отдельный поддокумент.
Парсинг и создание Search Document: Markup Document парсится. Создается внутренняя структура Search Document с основным разделом и подразделами (subdocs). В подразделах сохраняются ключевые уникальные атрибуты (время начала/конца, URL).
Обновление индекса: Термины из документа добавляются в инвертированный индекс. Индекс ссылается на единый ID документа, но хранит информацию о местоположении токенов.

Процесс Б: Поиск и Ранжирование

Получение и парсинг запроса: Система получает запрос и выделяет ключевые слова и временные ограничения.
Начальный поиск: Ключевые слова ищутся в индексе. Идентифицируется Search Document повторяющегося события.
Начальное ранжирование (Аппроксимация):
1. Извлекаются данные: Время Первого (T_first), Время Последнего (T_last) и Общее Количество (N).
2. Вычисляется Приблизительный Интервал.
3. Оценивается время следующего случая.
4. Вычисляется Initial Score на основе близости оценки к временному ограничению запроса.
Проверка кандидатов: Система определяет, достаточно ли высок Initial Score для дальнейшей обработки.
Детальное ранжирование (Точный расчет): Если событие является кандидатом, загружается полный Search Document. Система анализирует фактические времена в поддокументах.
Вычисление финальной оценки: Вычисляется Second Score на основе фактического времени и релевантности ключевых слов.
Выбор результата и отображение: Выбирается наиболее релевантный случай (instance) события и отображается в результатах поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке структурированных данных календаря.

Контентные факторы (Атрибуты события): Название (Title), Описание (Description), Комментарии (Comments).
Структурные факторы: Список участников (Participants/Attendees), Местоположение (Location).
Временные факторы: Время начала (Start time), Время окончания (End time), Паттерн повторения (Recurrence pattern), Исключения из паттерна.
Технические факторы: URL для просмотра события.

Какие метрики используются и как они считаются

T_first, T_last, N: Время начала первого случая, время начала последнего случая и общее количество случаев.
Time Interval Approximation (Приблизительный интервал): Метрика для оценки частоты события. Формула: $(T_{last} — T_{first}) / N$ .
Initial Score (Первая оценка): Оценка релевантности, рассчитанная на основе Time Interval Approximation. Согласно Claim 1, она обратно пропорциональна разнице между предполагаемым временем следующего случая и временным ограничением запроса.
Second Score (Вторая оценка): Финальная оценка релевантности, рассчитанная на основе фактического времени случая, извлеченного из Search Document.

Выводы

Фокус на Персональном Поиске: Патент описывает инфраструктурные решения для поиска по личным данным пользователя (Календарь) и не имеет отношения к ранжированию публичных веб-сайтов (SEO).
Эффективность хранения данных: Google приоритизирует эффективность хранения. Для повторяющихся элементов используется метод разделения общих (Common Information) и уникальных (Unique Information) данных в едином Search Document, чтобы избежать дублирования информации в индексе и предотвратить засорение выдачи.
Двухэтапный скоринг с аппроксимацией: Для ранжирования используется интеллектуальный метод аппроксимации. Это позволяет системе быстро оценивать релевантность на этапе отбора кандидатов (L1 Ranking), не зная сложных правил повторения.
Точность на финальном этапе: Для финального ранжирования система использует точные данные, хранящиеся в Sub-documents, гарантируя точность результатов, показанных пользователю.
Отсутствие практических выводов для SEO: Патент является чисто техническим и инфраструктурным для конкретного продукта (Personal Search) и не дает практических рекомендаций для SEO-специалистов, работающих с публичным веб-поиском.

Практика

ВАЖНО: Патент описывает внутренние процессы Google для Персонального Поиска без прямых рекомендаций для SEO публичных веб-сайтов.

Best practices (это мы делаем)

Практических выводов для SEO нет.

Worst practices (это делать не надо)

Практических выводов для SEO нет.

Стратегическое значение

Для SEO-стратегии патент не имеет значения. Однако он представляет интерес с точки зрения понимания инженерных подходов Google к индексированию структурированных, повторяющихся данных. Он демонстрирует решения для оптимизации хранения данных (разделение общего и уникального) и скорости ранжирования (использование аппроксимации для первичного скоринга) в масштабируемых системах.

Практические примеры

Практических примеров для SEO нет. Ниже приведен пример работы механизма в контексте Персонального Поиска.

Сценарий: Поиск предстоящего собрания в Персональном Поиске

Ситуация: У пользователя есть повторяющееся событие «Собрание по проекту Х», которое происходит каждую среду в 14:00. В индексе это хранится как один Search Document.
Запрос пользователя: «Собрание по проекту Х на этой неделе».
Первичный скоринг (Аппроксимация): Система быстро оценивает, что средний интервал повторения – 7 дней (используя формулу T_last, T_first, N). Она аппроксимирует, что следующее событие вероятно скоро, и вычисляет высокий Initial Score.
Финальный скоринг (Точные данные): Событие становится кандидатом. Система извлекает Search Document и анализирует Sub-documents. Она находит точное время следующего экземпляра (например, среда, 14:00).
Результат: Пользователю показывается один результат – ближайший экземпляр собрания с точным временем. Выдача не засоряется всеми прошлыми и будущими экземплярами этого события.

Вопросы и ответы

Влияет ли этот патент на то, как Google индексирует страницы с расписанием мероприятий на моем сайте (Schema.org/Event)?

Нет, этот патент не влияет на SEO публичных сайтов. Он описывает исключительно методы индексирования и поиска личных событий в электронном календаре пользователя (Personal Search). Механизмы ранжирования вашего сайта и обработки Schema.org в основном поиске Google этим патентом не затрагиваются.

Что такое «Search Document» и «Sub-document» в контексте этого патента?

Search Document — это внутренняя структура данных Google для хранения информации о повторяющемся событии в индексе. Он состоит из основной части с общими данными (название, описание) и Sub-documents. Каждый Sub-document хранит уникальные детали конкретного экземпляра события (например, точную дату и время). Это позволяет хранить информацию эффективно, без дублирования.

Зачем Google аппроксимирует (приблизительно рассчитывает) интервал повторения событий?

Это делается для повышения скорости и эффективности ранжирования. Правила повторения событий могут быть очень сложными. Вместо того чтобы анализировать эти правила при каждом запросе, система рассчитывает средний интервал. Это позволяет быстро оценить релевантность события на первом этапе ранжирования (L1 Retrieval), не загружая полные данные.

Как рассчитывается аппроксимация интервала?

Патент предлагает конкретную формулу: берется время начала последнего известного экземпляра события, из него вычитается время начала первого экземпляра, и результат делится на общее количество экземпляров. Это дает среднее время между событиями.

Что такое двухэтапный скоринг (First Score и Second Score)?

Это стандартный подход в поисковых системах для оптимизации производительности. First Score (Initial Score) — это быстрая, приблизительная оценка, основанная на аппроксимации времени, используемая для отбора кандидатов. Second Score (Final Score) вычисляется только для лучших кандидатов, использует точное время из Search Document и является более точной финальной оценкой.

Почему система разделяет общие и уникальные данные при индексации?

Это делается для оптимизации хранения данных и предотвращения засорения выдачи. Если событие повторяется 100 раз, нет смысла хранить его название и описание 100 раз. Общие данные хранятся один раз, а уникальные данные (даты, время) хранятся отдельно для каждого экземпляра в Sub-documents.

Могу ли я использовать идеи из этого патента для улучшения структуры своего сайта?

Хотя патент не относится к SEO, идея разделения общего и уникального контента для повторяющихся элементов является хорошей практикой в архитектуре сайтов. Однако механизмы Google для обработки таких ситуаций в публичном поиске (например, каноникализация, обработка фасеточной навигации) регулируются другими алгоритмами, не описанными в этом патенте.

Если я ищу повторяющееся событие, почему я вижу только один результат, а не все экземпляры?

Это одна из целей изобретения – предотвратить «засорение» выдачи (SERP flooding). Система специально разработана так, чтобы идентифицировать наиболее релевантный экземпляр (обычно ближайший по времени или наиболее соответствующий временным рамкам запроса) и показать только его, обеспечивая более чистый и полезный результат поиска.

Как система обрабатывает изменения в повторяющихся событиях (например, отмену одной встречи)?

Система поддерживает обновление данных. Если один экземпляр изменен или отменен, это изменение отражается в соответствующем Sub-document как уникальная информация. При финальном ранжировании (Second Score) система учтет этот статус. Патент предполагает периодическое пересоздание Search Document для поддержания актуальности индекса.

Каково стратегическое значение этого патента для понимания работы Google?

Стратегическое значение заключается в демонстрации того, как Google подходит к инженерным задачам оптимизации. Патент показывает важность эффективной структуры индекса для экономии ресурсов и использования многоуровневого ранжирования с аппроксимацией для обеспечения скорости ответа системы.