Как Google извлекает даты и локации из контента для отображения результатов на карте и временной шкале

Google извлекает даты и географические локации непосредственно из контента веб-страниц. Это позволяет системе визуализировать результаты поиска на интерактивной временной шкале и на карте, даже если запрос не содержал явных указаний на время или место. Пользователи могут использовать эти визуализации для навигации и уточнения запросов, а сниппеты могут фокусироваться вокруг извлеченных фактов.

Описание

Какую задачу решает

Патент решает проблему ограниченности традиционного представления результатов поиска в виде линейного списка ссылок. Он предлагает альтернативные методы визуализации и навигации по результатам, основанные на извлечении и организации темпоральных (даты) и пространственных (географические локации) данных, содержащихся в документах. Это улучшает возможности исследования информации для пользователей, особенно для запросов с историческим или географическим контекстом.

Что запатентовано

Запатентована система для автоматического извлечения дат и географических локаций из контента документов и последующего представления результатов поиска на одно- (временная шкала) или двухмерном (карта) графе. Система позволяет пользователям интерактивно взаимодействовать с этими визуализациями (Timeline View, Map View) для навигации и фильтрации результатов, в том числе в ответ на запросы, не содержащие географической информации.

Как это работает

Система работает в несколько этапов:

Предварительная обработка (Индексирование): Во время сканирования система извлекает даты и географические локации (geopoints) из контента и метаданных документов и сохраняет их в индексе вместе с позициями в тексте (Character Offsets).
Обработка запроса: Система находит релевантные документы, которые содержат извлеченные даты или локации.
Форматирование визуализации: Presentation Engine определяет оптимальный масштаб. Для временной шкалы создается гистограмма (Histogram) частоты дат; для карты расставляются маркеры. Сниппеты могут фокусироваться вокруг извлеченных фактов.
Отображение и взаимодействие: Результаты отображаются в виде интерактивной карты и/или временной шкалы. Взаимодействие с элементами (например, клик по маркеру) может инициировать уточнение запроса (Query Refinement).

Актуальность для SEO

Высокая. Хотя этот патент является продолжением заявки от 2006 года, базовые принципы остаются крайне актуальными. Извлечение структурированных данных (дат, локаций) из неструктурированного текста (Information Extraction) и их использование для визуализации является фундаментом для многих современных функций поиска, таких как Панели Знаний (Knowledge Graph), локальный поиск и блоки событий.

Важность для SEO

Влияние на SEO значительно (6.5/10). Патент не описывает алгоритмы ранжирования, но подчеркивает критическую важность процесса Information Extraction. Для контента, богатого датами или локациями, этот механизм позволяет отображать результаты в специализированных визуальных форматах (карты, временные шкалы), которые могут привлекать больше внимания пользователя. Это также напрямую влияет на формирование сниппетов, которые могут фокусироваться на извлеченных фактах.

Детальный разбор

Термины и определения

Character Offsets (Смещения символов): Точные позиции в тексте документа, где были найдены даты или локации. Сохраняются в индексе и используются для генерации сниппетов, окружающих извлеченные данные, а не совпадения с запросом.
Geopoint (Геоточка) / Geographic Location: Географическая локация, извлеченная из документа и преобразованная в формат, пригодный для отображения на карте (например, широта и долгота).
Histogram (Гистограмма): Визуальное представление распределения частоты дат в результатах поиска. Используется на временной шкале для демонстрации кластеров результатов в определенные периоды времени.
Information Extraction (Извлечение информации): Процесс автоматического извлечения структурированных данных (дат, локаций) из неструктурированного контента или метаданных.
Presentation Engine (Механизм представления): Компонент поисковой системы, отвечающий за форматирование результатов поиска, определение масштаба графа и генерацию пользовательского интерфейса (карты или временной шкалы).
Query Refinement (Уточнение запроса): Процесс, при котором пользовательское взаимодействие с результатом (например, клик по маркеру на карте) используется для добавления терминов к исходному запросу и выполнения нового, более точного поиска.
Timeline View / Map View (Временная шкала / Карта): Одномерное и двухмерное представление результатов поиска, организованных по времени или пространству соответственно.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему отображения результатов поиска, включающую как карту, так и временную шкалу.

Система хранит индекс, где записи включают географические локации, извлеченные из соответствующих документов.
Система получает поисковый запрос, который содержит ключевое слово, но НЕ содержит географической информации.
Генерируется список записей индекса, которые (i) релевантны запросу и (ii) содержат географическую локацию.
Предоставляется страница результатов, включающая подмножество этого списка.
На этой же странице результатов генерируются:
- (i) Карта, использующая извлеченные географические локации. Карта включает маркеры позиций, связанные с документами.
- (ii) Временная шкала, использующая даты, извлеченные из тех же самых документов, что показаны на карте.

Ядро изобретения заключается в комбинации извлечения пространственных и темпоральных данных и одновременном отображении карты и временной шкалы для результатов негеографического запроса.

Claim 2 и 3 (Зависимые): Уточняют источник извлечения данных. Географическая локация может быть извлечена из контента документа (Claim 2) или из метаданных документа (Claim 3).

Claim 4 и 5 (Зависимые): Описывают обработку документов с несколькими географическими локациями.

Claim 4: Система может отображать на карте каждую из нескольких локаций, найденных в одном документе.
Claim 5: Система может вычислять оценку ранжирования (ranking score) для каждой локации в документе и отображать только выбранное подмножество наиболее релевантных локаций.

Где и как применяется

Изобретение затрагивает этапы индексирования и финального представления результатов.

INDEXING – Индексирование и извлечение признаков
Это критически важный этап (Pre-processing). Модуль Information Extraction анализирует контент, метаданные (и, согласно описанию патента, анкоры входящих ссылок) для идентификации и извлечения дат и geopoints. Извлеченные данные, а также их Character Offsets в документе, сохраняются в индексе.

RANKING – Ранжирование
Search Engine выполняет стандартный поиск. Ranking Score используется для определения релевантности документов. Также может рассчитываться ranking score для отдельных фактов внутри документа (Claim 5).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Уровень Представления)
На этом этапе работает Presentation Engine. Он анализирует набор результатов на наличие темпоральных или пространственных данных.

Определение масштаба: Система определяет оптимальный временной диапазон или географическую область. (В патенте упоминается возможность давать меньший вес недавним датам при выборе масштаба).
Форматирование визуализации: Для временной шкалы генерируется Histogram. Для карты генерируются маркеры.
Генерация сниппетов: Сниппеты могут быть сгенерированы с использованием Character Offsets, чтобы выделить текст вокруг извлеченной даты или локации, а не вокруг совпадения с ключевыми словами запроса.
Формирование SERP: Генерируется финальный интерфейс (карта, временная шкала, список).

Входные данные:

(Офлайн): Контент, метаданные, анкоры документов.
(Онлайн): Запрос пользователя; набор ранжированных результатов; извлеченные даты, локации и Character Offsets из индекса.

Выходные данные:

Отформатированная страница результатов поиска (SERP), включающая интерактивные визуализации и адаптированные сниппеты.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние на контент, богатый данными: исторические статьи, биографии, страницы событий, туристические гиды, новостные архивы, локальный бизнес (Local SEO).
Специфические запросы: Влияет на широкие информационные запросы, которые не содержат явных указаний на время или место, но имеют сильные темпоральные или пространственные измерения (например, [JFK], [civil war]).

Когда применяется

Условия применения: Когда в топовых результатах поиска содержится достаточное количество документов с извлекаемыми датами и/или географическими локациями.
Триггеры активации: Отображение может быть активировано по умолчанию или по выбору пользователя. Claim 1 фокусируется на сценарии, когда визуализация генерируется в ответ на запрос без географической информации.

Пошаговый алгоритм

Фаза А: Офлайн (Индексирование и Предварительная обработка)

Сканирование данных: Сбор контента документов.
Извлечение данных (Information Extraction): Анализ контента, метаданных и анкоров на наличие дат и локаций.
Нормализация и геокодирование: Даты нормализуются, а локации преобразуются в geopoints (широта/долгота).
Сохранение в индексе: Извлеченные данные и их Character Offsets сохраняются в индексе вместе с записью документа.

Фаза Б: Онлайн (Обработка запроса и Визуализация)

Получение запроса: Система получает запрос от пользователя.
Поиск результатов: Определение релевантных документов и извлечение ассоциированных данных.
Определение масштаба: Presentation Engine анализирует распределение данных и выбирает оптимальный масштаб (временной диапазон или географическую область).
Форматирование графа:
- Для временной шкалы: Генерируется Histogram. Результаты могут упорядочиваться хронологически.
- Для карты: Генерируются маркеры в соответствующих geopoints. Результаты упорядочиваются по рангу.
Генерация сниппетов: Сниппеты формируются на основе Character Offsets вокруг извлеченных данных.
Отображение SERP: Отформатированные результаты (включая карту и/или временную шкалу) отправляются пользователю.

Фаза В: Взаимодействие (Уточнение запроса)

Получение выбора результата: Пользователь взаимодействует с визуализацией (например, кликает на маркер на карте).
Определение терминов для уточнения: Система определяет термины, связанные с выбранным результатом (например, название локации).
Выполнение уточненного запроса (Query Refinement): Новые термины добавляются к исходному запросу, и выполняется новый поиск (например, асинхронно через AJAX).
Отображение уточненных результатов: Результаты нового поиска отображаются пользователю (например, во всплывающем окне на карте).

Какие данные и как использует

Данные на входе

Контентные факторы: Основной источник данных. Текстовый контент страниц анализируется для извлечения дат и названий географических локаций. Критически важны Character Offsets этого текста для генерации сниппетов.
Технические факторы (Метаданные): Метаданные документа могут использоваться как источник для извлечения локаций (Claim 3). Это может включать микроразметку.
Ссылочные факторы: В описании патента упоминается, что даты или локации могут быть извлечены из HTML-анкоров, указывающих на документ.

Какие метрики используются и как они считаются

Анализ распределения (Distribution Analysis): Подсчет частоты дат в результатах поиска в пределах определенных временных интервалов. Используется для генерации Histogram на временной шкале.
Геокодирование (Geocoding): Процесс преобразования текстовых описаний локаций в географические координаты (geopoints).
Ranking Scores (Оценки ранжирования): Используются для определения того, какие результаты отображать в визуализации (например, Топ-N). Также могут использоваться для выбора наиболее релевантного факта (даты или локации), если в документе их несколько (Claim 5).
Определение масштаба (Scale Determination): Алгоритмы для выбора оптимального временного диапазона или географической области на основе плотности и распределения данных.

Выводы

Критическая роль извлечения структурированных данных (Information Extraction): Патент подтверждает, что Google активно извлекает факты (даты, локации) непосредственно из неструктурированного текста, метаданных и анкоров на этапе индексирования.
Альтернативные визуализации SERP (Карта + Шкала): Система предоставляет возможность навигации по результатам на основе времени и пространства. Claim 1 защищает одновременное отображение карты и временной шкалы для результатов негеографического запроса.
Динамическая генерация сниппетов на основе фактов: Система использует Character Offsets для генерации сниппетов, фокусирующихся на извлеченных датах или локациях. Это означает, что сниппет в таком представлении может отличаться от стандартного сниппета, основанного на совпадении с запросом.
Обработка множественных данных на странице: Один документ может быть представлен несколько раз в визуализации, если он содержит несколько релевантных фактов. Система может отобразить их все или выбрать наиболее релевантные на основе ranking score.
Интерактивность и уточнение запроса: Визуализации являются интерактивными. Взаимодействие с картой (клик по маркеру) может служить механизмом для автоматического уточнения запроса (Query Refinement).

Практика

Best practices (это мы делаем)

Обеспечение четкости и извлекаемости фактов: Убедитесь, что ключевые даты и географические локации написаны в основном контенте четко и недвусмысленно. Используйте полные форматы дат и уточняйте локации (например, «Gettysburg, Pennsylvania», а не просто «Gettysburg»). Это облегчает Information Extraction.
Оптимизация контекста вокруг данных (Snippet Optimization): Поскольку система может использовать текст вокруг извлеченной даты или локации для сниппета (используя Character Offsets), необходимо предоставлять четкий и информативный контекст рядом с этими данными.
Использование текстового формата и микроразметки: Отдавайте предпочтение HTML-тексту, а не изображениям. Подкрепляйте текстовые данные соответствующей разметкой Schema.org (Event, Place), что соответствует извлечению из «метаданных» (Claim 3) и повышает точность интерпретации.
Комплексное освещение темы: При создании контента о сущностях или событиях старайтесь полно освещать ключевые даты и локации. Патент подтверждает, что один документ может быть источником множества точек данных.

Worst practices (это делать не надо)

Скрытие данных в медиа: Размещение ключевых дат и локаций только в изображениях, видео или труднодоступных для краулера элементах препятствует их извлечению.
Неоднозначные или относительные данные: Упоминание дат в формате («в прошлом месяце») или локаций без достаточного контекста (страны, региона) снижает возможность их использования системой визуализации.

Стратегическое значение

Этот патент подтверждает стратегию Google по переходу от сопоставления ключевых слов к пониманию сущностей и структурированных данных («Things, not Strings»). SEO-стратегии должны быть направлены на облегчение этого извлечения. Визуализации, такие как временные шкалы и карты (включая локальный поиск), существенно влияют на представление результатов за пределами стандартных синих ссылок и могут улучшать взаимодействие пользователей с контентом (CTR).

Практические примеры

Сценарий 1: Оптимизация страницы исторического события

Задача: Оптимизировать страницу о Битве при Геттисберге.
Действие: В тексте четко указать диапазон дат и точное местоположение: «Битва при Геттисберге произошла с 1 по 3 июля 1863 года в городе Геттисберг, штат Пенсильвания, и его окрестностях.»
Ожидаемый результат: Google легко извлекает дату и локацию. При запросе [гражданская война] (негеографический запрос, как в Claim 1) эта страница становится кандидатом для отображения как на временной шкале (в секции 1863 года), так и на карте (с маркером в Геттисберге). Сниппет будет фокусироваться на этом предложении.

Сценарий 2: Создание биографической страницы

Задача: Создать страницу биографии (например, JFK).
Действие: Структурировать страницу хронологически. Для ключевых событий (рождение, ключевые достижения, смерть) явно указывать полные даты и соответствующие локации в тексте.
Ожидаемый результат: Система извлекает множество дат и локаций с одной страницы. Это позволяет сформировать детализированную временную шкалу и карту для запросов о данной личности, улучшая видимость контента через эти визуализации.

Вопросы и ответы

Откуда система берет даты и локации для визуализации?

Согласно патенту (Claims 2 и 3), система извлекает эти данные преимущественно из основного контента документа, а также может использовать метаданные. В описании также упоминается возможность извлечения из анкорных текстов ссылок, ведущих на документ. Это подчеркивает важность наличия этих данных в читаемом тексте страницы.

Как формируются сниппеты для результатов в Timeline или Map View?

Патент описывает сохранение Character Offsets — точных позиций в тексте, где были найдены даты или локации. Система использует эти смещения для генерации сниппетов, показывая текст, окружающий извлеченные данные. Это означает, что сниппет может фокусироваться на дате/месте, а не на совпадении с ключевыми словами запроса.

Может ли одна страница появляться несколько раз в результатах?

Да. Патент указывает, что в отличие от обычных веб-результатов, визуализации Timeline и Map могут отображать несколько дат или локаций из одного исходного документа. Если статья содержит 10 ключевых дат, она потенциально может быть представлена 10 раз на временной шкале.

Что происходит, если на странице указано несколько локаций?

Патент предлагает варианты (Claims 4 и 5). Система может либо отобразить все найденные локации на карте, либо рассчитать для них оценку релевантности (ranking score) и отобразить только наиболее важные.

Влияет ли этот патент на ранжирование?

Патент в первую очередь описывает механизмы извлечения данных и представления результатов (Presentation Layer), а не алгоритмы ранжирования. Однако наличие легко извлекаемых дат и локаций позволяет контенту отображаться в этих специализированных визуальных блоках (например, карты, блоки событий), что может значительно повысить его видимость и CTR в выдаче.

Как работает уточнение запроса (Query Refinement) через карту?

Патент описывает механизм, при котором клик пользователя по маркеру на карте инициирует новый поиск. Система автоматически определяет термины, связанные с этим маркером (например, название локации или события), добавляет их к исходному запросу и показывает уточненные результаты, часто во всплывающем окне.

Применяется ли этот механизм, если пользователь ввел географический запрос?

Claim 1 специфицирует, что описанный механизм применяется при получении запроса, который «не включает никакой географической информации». Это система для выявления и визуализации географии там, где пользователь ее явно не запрашивал (например, запрос [civil war]).

Могут ли карта и временная шкала отображаться одновременно?

Да. Claim 1 явно описывает генерацию как карты (i), так и временной шкалы (ii) на одной и той же странице результатов, используя пространственные и темпоральные данные, извлеченные из одного и того же набора документов.

Как этот патент связан с Knowledge Graph?

Этот патент описывает базовую технологию Information Extraction, которая лежит в основе Knowledge Graph. Процесс извлечения структурированных фактов (дат, локаций) из неструктурированного текста является фундаментальным шагом для понимания сущностей и их атрибутов, которые затем используются в Knowledge Graph.

Насколько важно использовать микроразметку (Schema.org) для дат и локаций в контексте этого патента?

Патент подчеркивает способность Google извлекать данные из неструктурированного текста (Claim 2) и метаданных (Claim 3). Микроразметка относится к метаданным и значительно помогает поисковым системам точнее интерпретировать данные. Лучшая стратегия для SEO — это комбинация четкого текстового представления данных и соответствующей микроразметки.