Google анализирует контент (новости, блоги, социальные сети) для выявления упоминаний событий, привязанных к конкретному времени. Система извлекает ключевые фразы (N-граммы) и определяет точное время события. Если пользователь вводит запрос, связанный с событием, и делает это близко к времени события, Google динамически изменяет выдачу, приоритизируя контент, релевантный именно этому событию.
Описание
Какую задачу решает
Патент решает задачу автоматического распознавания реальных или виртуальных событий на основе анализа большого массива разнородного контента (новости, социальные сети, блоги). Цель – идентифицировать термины (N-grams), которые описывают событие, и определить точное время его наступления (Event Time). Это позволяет поисковой системе адаптировать результаты выдачи, учитывая временной контекст запроса и его близость к идентифицированному событию.
Что запатентовано
Запатентована система для генерации кластеров N-грамм, связанных с событиями, и механизм использования этих кластеров для модификации поисковой выдачи. Система обрабатывает контент, содержащий временные ссылки, определяет точное время события, извлекает связанные фразы и формирует кластеры часто встречающихся фраз, относящихся к одному и тому же времени. При получении запроса система проверяет его совпадение с кластером и близость времени запроса к времени события, чтобы динамически изменить набор результатов поиска.
Как это работает
Система работает в несколько этапов:
- Сбор и фильтрация: Собираются элементы контента. Отбираются только те, которые содержат временные ссылки (Time Reference), например, «завтра в 14:00» или «в следующее воскресенье».
- Определение времени события: Система анализирует Time Reference в контексте времени публикации контента (Timestamp), чтобы определить абсолютное время события (Event Time). Например, если статья опубликована 25 мая и упоминает «завтра», Event Time будет 26 мая.
- Извлечение N-грамм: Из текста извлекаются ключевые фразы (N-grams), которые ассоциируются с этим Event Time.
- Кластеризация: N-граммы агрегируются. Фразы, которые часто встречаются вместе и связаны с одним и тем же Event Time, объединяются в кластеры (N-gram Clusters). Каждый кластер представляет собой описание события.
- Применение в поиске: Когда поступает запрос, система проверяет, соответствует ли он какому-либо кластеру. Если да, она сравнивает время запроса (Input Time) с Event Time кластера. Если они близки, выдача модифицируется для приоритезации контента, связанного с событием.
Актуальность для SEO
Высокая. Понимание событий и адаптация выдачи в реальном времени (Real-Time Search, QDF) остаются критически важными для Google. Этот патент описывает фундаментальный механизм для понимания темпоральной динамики контента и запросов, что особенно важно для новостного контента, спортивных событий, запусков продуктов и трендов в социальных сетях.
Важность для SEO
Патент имеет высокое значение (8/10) для SEO, особенно в новостных и событийных нишах. Он описывает конкретный механизм, который позволяет Google динамически менять интент запроса в зависимости от времени. Это означает, что ранжирование по одному и тому же запросу может кардинально отличаться за день до события, во время события и после него. Понимание этого механизма критично для стратегий создания и оптимизации контента, привязанного ко времени.
Детальный разбор
Термины и определения
- Content Item (Элемент контента)
- Единица цифрового контента, распространяемая через компьютерные сервисы. Примеры включают новостные статьи, посты в социальных сетях, блоги и микро-блоги.
- Time Reference (Временная ссылка)
- Явное (explicit) или неявное (implicit) указание времени, дня или даты внутри элемента контента. Примеры: «2 PM EST on May 26, 2013», «Monday afternoon», «tomorrow».
- Timestamp (Временная метка)
- Метаданные, указывающие время публикации или распространения элемента контента.
- Event Time (Время события)
- Абсолютное время или временной диапазон, когда событие происходит. Определяется путем анализа Time Reference в контексте Timestamp.
- N-gram
- Последовательность из N элементов (токенов, слов, символов), извлеченная из текста элемента контента.
- Superset of N-grams (Надмножество N-грамм)
- Агрегированный набор всех N-грамм, извлеченных из всех обработанных элементов контента, где каждая N-грамма связана со своим Event Time.
- N-gram Cluster (Кластер N-грамм)
- Группа N-грамм, которые часто встречаются вместе в контенте и связаны с одним и тем же (или пересекающимся) Event Time. Кластер представляет собой описание события.
- Input Time (Время ввода)
- Время, когда пользователь отправляет запрос в поисковую систему.
- Clean Text (Очищенный текст)
- Текст элемента контента после удаления стоп-слов, пунктуации и, возможно, самих временных ссылок.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает полный цикл от обработки контента до модификации поисковой выдачи.
- Система получает набор элементов контента, каждый из которых содержит Time Reference.
- Для каждого элемента контента:
- Идентифицируются Timestamp (время публикации) и Time Reference (упоминание времени в тексте).
- На основе Timestamp и Time Reference определяется Event Time (абсолютное время события).
- Из текста идентифицируются N-grams.
- Каждая N-gram ассоциируется с Event Time и добавляется в Superset of N-grams.
- Генерируются N-gram Clusters на основе Superset. Каждый кластер содержит описание события и связанное с ним Event Time.
- Кластеры сохраняются в базе данных.
- Система получает поисковый запрос в определенное Input Time.
- Процесс модификации выдачи (Часть A):
- Определяется, что запрос соответствует первому кластеру И Input Time находится в пределах порогового периода от Event Time этого кластера.
- В ответ предоставляется Первый набор результатов, связанный с контентом, относящимся к первому кластеру (т.е. к событию).
- Процесс модификации выдачи (Часть B):
- Определяется, что запрос соответствует второму кластеру (или тому же самому, в другом варианте интерпретации) И Input Time НЕ находится в пределах порогового периода от Event Time этого кластера.
- В ответ предоставляется Второй набор результатов.
- Второй набор отличается от Первого набора.
Ядро изобретения заключается в способности системы автоматически определять события путем анализа темпоральных выражений в контенте и использовать эту информацию для динамического изменения результатов поиска в зависимости от того, когда пользователь ищет информацию относительно времени события.
Claim 4 (Зависимый от 1): Детализирует процесс генерации кластеров.
Генерация кластеров включает определение частотности (frequencies) для каждой N-граммы в Superset. Затем создается подмножество N-грамм на основе этих частот. Кластеры генерируются уже на основе этого отфильтрованного подмножества. Это означает, что только достаточно часто упоминаемые события формируют кластеры.
Claim 6 (Зависимый от 4): Уточняет механизм фильтрации по частоте.
N-грамма включается в подмножество только в том случае, если ее частота достигает или превышает пороговое значение (threshold frequency).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, выполняя основные вычисления на этапе индексации и применяя результаты на этапах понимания запроса и ранжирования/переранжирования.
CRAWLING & INDEXING (Сканирование и Индексирование)
Основная работа по анализу контента происходит здесь. Система (Cluster Engine) обрабатывает поступающий контент (новости, блоги, соцсети).
- Извлечение признаков (Feature Extraction): Система извлекает Timestamp публикации и анализирует текст для поиска Time References (NLP).
- Вычисление Event Time: Происходит нормализация временных ссылок в абсолютное время события.
- Генерация и Кластеризация N-грамм: Извлекаются фразы, анализируется их частотность и формируются N-gram Clusters.
- Результат: Cluster Database, содержащая описания событий и связанные с ними временные метки.
QUNDERSTANDING (Понимание Запросов)
При получении запроса система может использовать Cluster Database для интерпретации интента с учетом времени.
- Контекстуализация: Система определяет Input Time запроса и проверяет его соответствие существующим N-gram Clusters.
- Изменение интерпретации: Если запрос совпадает с кластером и время близко к событию, интент запроса может быть переопределен как событийный.
RANKING & RERANKING (Ранжирование и Переранжирование)
На этом этапе происходит модификация выдачи, описанная в Claim 1.
- Динамическая модификация: Если условия темпоральной близости выполнены, система предоставляет альтернативный набор результатов (First set of search results), который фокусируется на контенте, связанном с событием (например, прямая трансляция, свежие новости). Если условия не выполнены, предоставляется стандартный набор (Second set of search results), который может включать более общий или исторический контент.
Входные данные:
- Поток элементов контента (Content Items) из различных источников (News, Social, Blogs).
- Временные метки публикации (Timestamps) для этого контента.
- Поисковый запрос пользователя и время его ввода (Input Time).
Выходные данные:
- База данных кластеров (Cluster Database).
- Модифицированный набор результатов поиска, адаптированный под темпоральный контекст события.
На что влияет
- Специфические запросы: Наибольшее влияние на запросы, связанные с планируемыми или происходящими событиями (например, «[Название конференции]», «[Спортивный матч]», «[Выборы]»).
- Конкретные типы контента: Повышает значимость новостного контента, прямых трансляций, свежих постов в социальных сетях и блогах в момент наступления события.
- Конкретные ниши или тематики: Критически важно для ниш, где доминируют события: спорт, финансы (отчеты компаний), развлечения (премьеры фильмов, концерты), технологии (запуски продуктов).
Когда применяется
- Триггеры активации (Офлайн): Наличие Time Reference в элементе контента запускает процесс анализа. Формирование кластера происходит только тогда, когда частота упоминания N-грамм, связанных с определенным Event Time, превышает threshold frequency.
- Триггеры активации (Онлайн): Механизм модификации выдачи активируется при выполнении двух условий одновременно:
- Запрос соответствует N-граммам в кластере.
- Input Time запроса находится в пределах порогового временного периода (threshold time period) от Event Time кластера.
- Пороговые значения: Патент упоминает threshold frequency для формирования кластеров и threshold time period для определения близости времени запроса к событию. Конкретные значения не указаны и могут настраиваться.
Пошаговый алгоритм
Процесс А: Генерация кластеров (Офлайн / Потоковая обработка)
- Получение набора контента: Система получает набор из i элементов контента.
- Фильтрация и очистка контента: Элементы контента фильтруются (например, отбираются только те, что содержат Time Reference или не превышают пороговую длину). Текст очищается от стоп-слов и пунктуации.
- Итерация по элементам контента: Для каждого элемента (p) выполняется:
- Определение временной ссылки: Идентифицируется Time Reference в тексте.
- Определение времени события: Рассчитывается абсолютное Event Time на основе Time Reference и Timestamp публикации.
- Генерация N-грамм: Из очищенного текста генерируются N-граммы и ассоциируются с Event Time. Они добавляются в Superset.
- Определение частотности N-грамм: После обработки всех элементов система анализирует Superset и подсчитывает частоту встречаемости каждой пары (N-грамма; Event Time).
- Фильтрация N-грамм по частоте: N-граммы, чья частота ниже пороговой (threshold frequency), отбрасываются. Остается набор значимых N-грамм.
- Генерация кластеров: Значимые N-граммы группируются в кластеры. Группировка происходит на основе совместной встречаемости в исходных элементах контента и совпадения/пересечения их Event Time.
- Сохранение: Кластеры сохраняются в Cluster Database.
Процесс Б: Обработка запроса (Онлайн)
- Получение запроса: Система получает запрос и фиксирует время ввода (Input Time).
- Сравнение с кластерами: Запрос сравнивается с N-граммами в Cluster Database.
- Проверка темпоральной близости: Если найдено соответствие, система проверяет, находится ли Input Time в пределах порогового периода (threshold time period) от Event Time кластера.
- Принятие решения о ранжировании:
- Если близость подтверждена: Предоставляется Первый набор результатов, сфокусированный на событии.
- Если близость не подтверждена: Предоставляется Второй (стандартный) набор результатов.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст элементов контента является основным источником данных. Система анализирует текст для выявления Time References и извлечения N-grams.
- Временные факторы: Критически важные данные. Используются Timestamp (время публикации контента) и Time Reference (упоминания времени в тексте) для расчета Event Time. Также используется Input Time (время запроса пользователя).
- Технические факторы: Упоминается возможность фильтрации контента по количеству символов (длине текста).
- Источники данных: Патент явно указывает на использование News Content, Social Network Content и Blog Content.
Какие метрики используются и как они считаются
- Event Time Calculation: Вычисление абсолютного времени на основе относительных временных выражений. Например, {Timestamp: May 25} + {Time Reference: «tomorrow at 2PM»} = {Event Time: May 26, 2PM}.
- Frequency (Частотность N-грамм): Метрика, основанная на количестве появлений конкретной пары (N-грамма; Event Time) в Superset of N-grams.
- Threshold Frequency (Пороговая частота): Настраиваемый порог для определения значимости N-граммы. Используется для фильтрации шума.
- Threshold Time Period (Пороговый временной период): Настраиваемый диапазон времени до, во время или после Event Time. Используется для определения, является ли запрос темпорально близким к событию.
- Co-occurrence (Совместная встречаемость): Метрика, используемая на этапе кластеризации для группировки N-грамм, которые появляются вместе в одних и тех же элементах контента.
Выводы
- Автоматическое обнаружение событий: Google обладает механизмом для автоматического выявления событий (планируемых или происходящих) путем анализа темпоральных выражений в контенте и кластеризации связанных с ними ключевых фраз (N-грамм).
- Темпоральная значимость запросов: Патент доказывает, что интерпретация и ранжирование по запросу могут динамически меняться в зависимости от времени его ввода. Система сравнивает время запроса с временем идентифицированных событий.
- Динамическая модификация SERP: Если запрос связан с событием и введен близко к времени его наступления, Google предоставит другой набор результатов по сравнению со стандартным. Это может включать изменение порядка результатов или включение совершенно других документов (например, приоритет новостей или трансляций).
- Важность контекста публикации: Система использует время публикации контента (Timestamp) для определения абсолютного времени события (Event Time) из относительных ссылок (например, «завтра»). Это подчеркивает важность своевременной публикации и индексации контента.
- Фильтрация по частотности: Не каждое упоминание события приведет к реакции системы. Событие должно обсуждаться достаточно часто (превысить threshold frequency), чтобы сформировать значимый кластер.
- Источники данных: Система агрегирует данные из новостей, блогов и социальных сетей, что указывает на важность мониторинга трендов и обсуждений на этих платформах для понимания формирующихся событийных кластеров.
Практика
Best practices (это мы делаем)
- Событийный контент-план: Для планируемых событий (запуски продуктов, конференции, праздники) необходимо готовить контент заранее, но публиковать или обновлять его максимально близко к дате события, чтобы попасть в формирующиеся N-gram Clusters.
- Использование темпоральных выражений: При описании предстоящих событий следует четко указывать время и дату (как в абсолютном, так и в относительном формате, например, «Конференция X начнется завтра, 29 октября»). Это помогает системе корректно идентифицировать Time Reference и рассчитать Event Time.
- Оптимизация под событийный интент: В период, близкий к событию (определяемый как threshold time period), необходимо убедиться, что на сайте есть контент, отвечающий непосредственному интенту пользователя (например, «где смотреть», «результаты», «прямая трансляция», «новости с места событий»), так как именно этот контент будет приоритезирован в First set of search results.
- Мониторинг трендов и социальных сетей: Отслеживайте обсуждения в социальных сетях и новостях для выявления незапланированных событий и используемого языка (N-грамм). Быстрое создание качественного контента по этим темам позволит воспользоваться механизмом темпорального бустинга.
- Свежесть и обновление: Для контента, связанного с текущими событиями, критически важно поддерживать актуальность и регулярно обновлять его, указывая время обновления. Это увеличивает шансы на то, что контент будет ассоциирован с активным Event Time.
Worst practices (это делать не надо)
- «Вечнозеленый» подход к событийным запросам: Полагаться только на статический, общий контент по теме события (например, историческую справку) в надежде ранжироваться во время события. Система может заменить такой контент на более актуальный и специфичный для события.
- Манипуляция временными метками: Искусственное изменение даты публикации (Timestamp) без реального обновления контента с целью показаться более свежим. Система анализирует не только метки, но и сам контент на наличие Time References.
- Игнорирование языка трендов: Использование устаревших или слишком общих терминов для описания события, вместо тех N-грамм, которые фактически используются в новостях и социальных сетях для его обсуждения.
Стратегическое значение
Этот патент подтверждает стратегию Google по созданию динамичной и контекстуальной поисковой выдачи. Для SEO это означает, что релевантность не является статической; она темпоральна. Стратегии должны учитывать жизненный цикл запроса: до, во время и после события. Построение авторитетности в нише позволяет сайту быть надежным источником как для «вечнозеленого» контента (Second set of results), так и для событийного контента (First set of results), когда это необходимо.
Практические примеры
Сценарий: Оптимизация под запуск нового смартфона (например, iPhone)
- Действия (За неделю до события): Публикация статей с утечками, ожиданиями и прогнозами. Использование фраз типа «презентация iPhone на следующей неделе», «дата выхода iPhone [дата]». Google индексирует это и начинает формировать N-gram Cluster вокруг даты презентации.
- Действия (В день события, за час до начала): Обновление главной страницы или ключевой статьи с добавлением ссылок на прямую трансляцию и запуск текстового репортажа. Время публикации (Timestamp) и фразы типа «презентация начнется через час» укрепляют кластер.
- Обработка запроса пользователем: Пользователь вводит «iPhone» за 5 минут до начала презентации.
- Действия Google: Система определяет, что запрос «iPhone» соответствует кластеру И время запроса (Input Time) близко к времени события (Event Time).
- Результат: Google предоставляет First set of search results. В топе выдачи будут ссылки на прямую трансляцию, свежие новости и текстовые репортажи с сайтов, которые активно освещают событие, а не официальный магазин или обзоры старых моделей (которые были бы в Second set of results).
Вопросы и ответы
Что такое N-gram Cluster в контексте этого патента?
Это автоматически сгенерированное описание события, состоящее из ключевых фраз (N-грамм), которые часто встречаются вместе в контенте (новости, соцсети) и привязаны к определенному времени (Event Time). Например, кластер может выглядеть как {«Superstar», «retire», «press conference»; 5-26-2013}. Он служит для системы индикатором того, что в указанное время происходит обсуждаемое событие.
Как Google определяет точное время события, если в тексте указано просто «завтра»?
Система использует комбинацию двух факторов: временной ссылки (Time Reference) в тексте (например, «завтра») и временной метки публикации (Timestamp) самого контента. Если статья с упоминанием «завтра» была опубликована 25 мая, система рассчитывает, что абсолютное время события (Event Time) – это 26 мая. Этот механизм позволяет нормализовать относительные временные ссылки.
Как этот патент влияет на ранжирование «вечнозеленого» контента?
Он может временно понизить «вечнозеленый» контент по запросам, связанным с актуальным событием. Если система определяет, что запрос введен близко к времени события, она предпочтет предоставить событийный контент (First set of results), а не общий или исторический (Second set of results). После окончания события ранжирование может вернуться к стандартному состоянию.
Что такое «темпоральная близость» запроса к событию?
Темпоральная близость определяется тем, попадает ли время ввода запроса (Input Time) в заданный пороговый период (threshold time period) относительно времени события (Event Time). Этот период может включать время до, во время и сразу после события. Конкретная продолжительность этого периода в патенте не указана и является настраиваемым параметром системы.
Должен ли я использовать относительные временные ссылки (например, «завтра») в своем контенте?
Да, использование естественных временных ссылок (как относительных, так и абсолютных) может быть полезным, так как система обучена их распознавать и обрабатывать. Это помогает Google понять, что ваш контент связан с предстоящим событием. Однако для ясности и надежности рекомендуется также указывать и абсолютные даты, если это уместно.
Какие источники контента анализирует эта система?
Патент явно упоминает, что система обрабатывает разнообразный контент, включая новостной контент (News Content), контент социальных сетей (Social Network Content) и контент блогов (Blog Content). Это означает, что обсуждения и тренды на этих платформах напрямую влияют на формирование событийных кластеров.
Как понять, что событие достаточно важное для формирования кластера?
Система использует метрику частотности (Frequency). Чтобы сформировался кластер, N-граммы, связанные с определенным временем события, должны встречаться в агрегированном контенте достаточно часто, превышая пороговое значение (threshold frequency). Это помогает отфильтровать шум и сосредоточиться на значимых событиях.
Влияет ли этот механизм на локальный поиск?
Хотя патент напрямую не фокусируется на локализации, он упоминает возможность использования кластеров для предоставления рекомендаций пользователям о посещении мероприятий, учитывая их местоположение и интересы. Если локальное событие (например, концерт или открытие магазина) генерирует достаточно обсуждений, система может сформировать кластер и адаптировать выдачу для пользователей поблизости.
Как этот патент связан с QDF (Query Deserves Freshness)?
Этот патент описывает конкретный механизм, который может лежать в основе или дополнять QDF. QDF определяет запросы, требующие свежих результатов. Описанная система предоставляет метод для идентификации того, *когда* именно запрос требует свежести (когда Input Time близко к Event Time) и *какие* термины связаны с этим всплеском интереса (N-gram Cluster).
Что делать, если мой сайт не является новостным ресурсом?
Даже если сайт не новостной, он может извлечь выгоду из этого механизма. Например, интернет-магазин может оптимизировать страницы запускаемых продуктов под даты релиза, а корпоративный блог может освещать участие компании в конференциях. Если ваш контент своевременен и релевантен обсуждаемому событию, он может получить приоритет в выдаче в соответствующий период времени.