Патент Google описывает два ключевых механизма. Первый — автоматическое расширение набора запросов (триггеров), активирующих структурированные карточки, с помощью графового анализа и передачи весов между запросами и сущностями. Второй — процесс извлечения данных для заполнения этих карточек, при котором источники ранжируются по критериям свежести (recency) или близости события (temporal criteria), особенно при поиске в персональных данных (например, email).
Описание
Какую задачу решает
Патент решает две основные задачи:
- Ограниченный охват триггеров: Как автоматически расширить набор запросов (trigger-terms), которые должны активировать показ структурированной карточки (structured information card). Система должна уметь понимать новые формулировки пользователей (например, понять, что «билет на самолет» означает то же, что и «бронирование рейса»).
- Эффективность извлечения информации: Как выбрать наилучший источник данных для заполнения карточки из множества релевантных документов (особенно в персональных данных, таких как email) и быстро предоставить пользователю ключевую информацию (например, время вылета), не заставляя его просматривать отдельные документы.
Что запатентовано
Запатентована система для поиска и представления структурированной информации. Она включает два компонента. В спецификации описан Card Trigger-Term Identification Unit, который использует графовую структуру для автоматического обнаружения новых триггерных запросов путем передачи весов между запросами и сущностями. В формуле изобретения (Claims) описан процесс извлечения данных: система ранжирует потенциальные источники информации (например, email) по критериям актуальности (свежесть или близость события) и заполняет карточку данными из лучшего источника.
Как это работает
Механизм 1: Идентификация триггеров (Графовый алгоритм)
- Система строит граф из Query Nodes (известные триггеры с весами) и Entity Nodes (связанные сущности, например, слова или URL).
- Веса передаются от Query Nodes к Entity Nodes (прямое распространение).
- Анализируются кандидаты из логов запросов (Candidate Query Nodes).
- Веса передаются от Entity Nodes к связанным кандидатам (обратное распространение).
- Если агрегированный вес кандидата превышает порог, он становится новым триггером или используется для переписывания текущего запроса (Query Rewriting).
Механизм 2: Извлечение и показ (Claims 1-17)
- При получении запроса система проверяет наличие триггера.
- Если триггер найден, система ищет релевантные документы (например, email).
- Эти документы ранжируются по критериям свежести (recency criteria) или близости события (temporal criteria).
- Данные из документа с наивысшим рейтингом извлекаются для заполнения шаблона карточки, которая отображается в выдаче.
Актуальность для SEO
Высокая. Патент (продолжение заявки от 2016 г., выдан в 2022 г.) отражает современные подходы к Information Retrieval. Использование графов и сущностей для понимания запросов, а также извлечение структурированных данных для генерации SERP-функций являются центральными элементами современного поиска. Ранжирование по временным критериям также крайне актуально.
Важность для SEO
Патент имеет высокое значение для SEO (7.5/10). Хотя Claims сфокусированы на персональных данных (email), описанные механизмы дают ключевое понимание того, как Google автоматически расширяет семантику запросов для активации SERP-функций (Rich Snippets, Knowledge Panels) и как он ранжирует источники для них. Это подчеркивает стратегическую важность сущностно-ориентированного контента, использования структурированных данных (Schema.org) и четкости временных сигналов.
Детальный разбор
Термины и определения
- Card Trigger-Term Identification Unit (Модуль идентификации триггерных терминов карточки)
- Система (описанная в спецификации), которая использует графовый анализ для автоматического расширения набора триггеров карточки.
- Candidate Label Term (Кандидатный термин)
- Термин (обычно из логов запросов), который оценивается системой на предмет того, должен ли он стать новым триггером.
- Electronic Communications (Электронные коммуникации)
- Персональные документы пользователя (например, email), которые служат источником данных для заполнения карточек. Являются фокусом Claims 1-17.
- Entity Node (Узел сущности)
- Узел в графе, связывающий различные запросы. Может представлять отдельное слово, URL, документ или семантическую сущность.
- Forward/Backward Propagation (Прямое/Обратное распространение)
- Процесс передачи весов (Values) в графе. Прямое: от известных запросов к сущностям. Обратное: от сущностей к кандидатам.
- Grammar (Грамматика)
- Набор триггерных терминов (trigger-terms), связанных со структурированной карточкой.
- Query Node (Узел запроса)
- Узел в графе, представляющий существующий триггерный термин (Label Term).
- Structured Information Card (Карточка структурированной информации)
- Элемент интерфейса (аналог SERP-функции), отображающий данные в предопределенном шаблоне.
- Recency Criteria (Критерий свежести)
- Критерий ранжирования источников, предпочитающий самые последние документы.
- Temporal Criteria (Временной критерий)
- Критерий ранжирования источников, предпочитающий документы, связанные с ближайшим предстоящим событием (next upcoming event).
- Value (Значение, Вес)
- Числовая метрика, связанная с триггерным термином (например, частота использования или вес важности).
Ключевые утверждения (Анализ Claims)
Важное замечание: Спецификация патента подробно описывает сложный графовый механизм для идентификации новых триггеров (Card Trigger-Term Identification Unit). Однако финальные утверждения (Claims 1-17), определяющие юридический объем изобретения, фокусируются исключительно на процессе извлечения, ранжирования и отображения информации из персональных данных (Electronic Communications).
Claim 1, 9, 17 (Независимые пункты): Описывают метод поиска и отображения персонализированной структурированной информации.
- Система получает запрос от пользователя.
- Определяется, что structured information card релевантна запросу (т.е. триггер активирован).
- Идентифицируются поля, необходимые для заполнения этой карточки.
- Идентифицируется множество electronic communications (например, email), отправленных пользователю, которые релевантны запросу и содержат данные для полей.
- Это множество коммуникаций ранжируется на основе одного или нескольких критериев.
- Выбирается коммуникация с наивысшим рейтингом.
- Карточка заполняется информацией, извлеченной из этой выбранной коммуникации.
- Система предоставляет страницу результатов, включающую заполненную карточку и индикацию других релевантных коммуникаций.
Зависимые пункты (Claims 2-5, 10-13): Детализируют критерии ранжирования источников.
- Критерии: Используются recency criteria (свежесть) и temporal criteria (временные критерии).
- Применение Recency: Может выбираться самое последнее сообщение (Claims 3, 11).
- Применение Temporal: Может выбираться сообщение, связанное со следующим предстоящим событием (next upcoming event) (Claims 5, 13).
Ядром изобретения является применение специфических временных критериев для выбора наилучшего источника данных.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, разделяясь на офлайн-обработку (идентификация триггеров, описанная в спецификации) и онлайн-обработку (извлечение данных, описанное в Claims).
INDEXING – Индексирование и извлечение признаков
- Индексирование источников данных (например, email или веб-страниц). Извлечение структурированных данных (даты, сущности, атрибуты) и временных меток для последующего использования в карточках.
QUNDERSTANDING – Понимание Запросов
- Офлайн-анализ (Спецификация): Card Trigger-Term Identification Unit анализирует логи запросов, строит граф связей между запросами и сущностями и выполняет алгоритм распространения весов для идентификации новых триггеров.
- Онлайн-обработка: Сопоставление запроса с грамматикой. Также система может использовать граф для переписывания запроса (Query Rewriting) в реальном времени, если текущий запрос имеет высокий агрегированный вес, чтобы принудительно активировать карточку.
RANKING – Ранжирование
- Ранжирование источников (Claims): Когда триггер активирован, система ранжирует релевантные документы. Ключевая особенность — использование специфических критериев: свежесть (recency) или близость события (temporal criteria), а не только стандартной текстовой релевантности.
METASEARCH – Метапоиск и Смешивание
- Генерация карточки: Извлечение данных из топового документа и заполнение шаблона Structured Information Card.
- Смешивание: Отображение карточки (SERP-функции) вместе со стандартными результатами поиска.
На что влияет
- Типы контента: Контент, содержащий структурированные данные о событиях, продуктах, бронированиях, транзакциях.
- Специфические запросы: Запросы, связанные с поиском конкретной информации, где ожидается структурированный ответ (например, «когда концерт», «статус заказа», «мой рейс»).
- Контекст поиска: Claims фокусируются на персонализированном поиске (email). Однако механизмы понимания запросов и ранжирования источников влияют и на публичный веб-поиск в контексте активации и заполнения SERP-функций.
Когда применяется
- Триггеры активации (Онлайн): Когда пользователь вводит запрос, который соответствует грамматике карточки ИЛИ достигает порогового значения агрегированного веса в графовом алгоритме (согласно спецификации).
- Условия ранжирования (Онлайн): Когда существует несколько потенциальных источников данных для заполнения карточки, применяются критерии recency или temporal для выбора лучшего.
Пошаговый алгоритм
Процесс А: Идентификация новых триггеров (Основано на Спецификации)
- Инициализация графа: Создание Query Nodes (существующие триггеры) с их весами (Values).
- Идентификация сущностей: Определение связанных Entity Nodes (например, общих слов, URL).
- Прямое распространение (Forward Propagation): Передача весов от Query Nodes к связанным Entity Nodes.
- Получение кандидатов: Извлечение Candidate Label Terms из логов запросов.
- Связывание кандидатов: Определение Entity Nodes, связанных с кандидатом.
- Обратное распространение (Backward Propagation): Передача весов от Entity Nodes к Candidate Query Node.
- Агрегация: Суммирование всех весов, полученных кандидатом.
- Принятие решения: Сравнение агрегированного веса с порогом (predetermined threshold). Если превышен, кандидат используется как новый триггер (обновление грамматики или переписывание запроса).
Процесс Б: Извлечение и отображение карточки (Основано на Claims 1-17)
- Получение запроса и Активация: Получение запроса и определение, что он активирует Structured Information Card.
- Поиск документов: Идентификация релевантных документов-источников (например, email).
- Ранжирование документов: Сортировка документов на основе recency criteria (свежесть) или temporal criteria (близость события).
- Выбор и Извлечение: Выбор топового документа и извлечение данных для заполнения полей шаблона карточки.
- Отображение: Предоставление пользователю карточки вместе с другими результатами.
Какие данные и как использует
Данные на входе
- Поведенческие факторы (для Механизма 1): Логи запросов (Query Logs) для поиска кандидатов и определения весов (Values) существующих триггеров.
- Временные факторы (для Механизма 2): Дата публикации/получения документа (для recency). Даты и время событий, извлеченные из документа (для temporal criteria).
- Контентные и Структурные факторы: Содержимое документов (текст, микроразметка), из которого извлекаются данные для заполнения полей карточки.
- Сущностные данные: Entities, используемые как связующие узлы в графе.
Какие метрики используются и как они считаются
- Value (Вес триггера): Метрика важности или частоты использования триггера. Может масштабироваться.
- Aggregated Value (Агрегированный вес кандидата): Сумма (или взвешенная сумма/произведение) весов, переданных кандидату через граф.
- Predetermined Threshold (Порог): Значение для валидации нового триггера.
- Recency criteria (Критерий свежести): Метрика, основанная на времени создания/получения документа.
- Temporal criteria (Временной критерий): Метрика, основанная на дате события, извлеченного из документа; предпочтение отдается ближайшему предстоящему событию.
Выводы
- Автоматическое расширение понимания запросов через графы: Патент детализирует конкретный алгоритм (в спецификации) для автоматического изучения новых формулировок запросов, которые должны вызывать структурированный ответ. Это позволяет Google масштабировать понимание языка без ручного труда, используя сущности как связующее звено между запросами.
- Переписывание запросов (Query Rewriting) на лету: Система может использовать результаты графового анализа в реальном времени для переписывания запроса пользователя, добавляя известный триггер, если уверенность в связи высока. Это гарантирует показ карточки даже для новых формулировок.
- Специфические сигналы ранжирования для источников карточек: Claims патента юридически защищают использование recency criteria (свежесть) и temporal criteria (близость события) для выбора наилучшего источника данных при заполнении карточки. Это отличается от стандартного ранжирования по релевантности.
- Критичность структурированных данных: Весь процесс зависит от способности системы надежно извлекать данные для заполнения полей шаблона. Это подтверждает стратегическую важность предоставления информации в структурированном виде (например, через Schema.org).
- Контекст персональных данных: Хотя Claims сфокусированы на персональных данных (email), описанные технологии (идентификация триггеров и временное ранжирование) фундаментальны и применимы к публичному веб-поиску и генерации SERP-функций.
Практика
Best practices (это мы делаем)
- Внедрение и полнота микроразметки (Schema.org): Критически важно для обеспечения того, чтобы ваш контент мог быть использован в качестве источника для Structured Information Cards (Rich Snippets, Knowledge Panels). Убедитесь, что все атрибуты заполнены корректно, особенно для событий, продуктов и бронирований.
- Оптимизация временных сигналов (Temporal Signals): Поскольку temporal criteria (ближайшее событие) и recency criteria (свежесть) являются запатентованными критериями ранжирования источников для карточек, необходимо обеспечить точность дат. Для событий используйте startDate в Schema.org (включая время и часовой пояс). Для новостного контента следите за актуальностью datePublished и dateModified.
- Оптимизация под сущности и семантический охват: Механизм идентификации триггеров работает через общие Entity Nodes. Создавайте контент, который всесторонне покрывает тему и связанные сущности, используя естественные языковые вариации. Это увеличивает количество связей в графе и вероятность показа по широкому спектру запросов, активирующих SERP-функции.
- Оптимизация транзакционных Email (если применимо): Если вы отправляете подтверждения бронирований или билеты, обязательно используйте Schema.org для Email (например, FlightReservation, EventReservation), чтобы гарантировать корректное отображение информации в персональном поиске пользователя.
Worst practices (это делать не надо)
- Фокус только на узком наборе точных ключевых слов: Патент показывает, что Google активно и автоматически расширяет понимание запросов. Стратегия, игнорирующая семантически связанные термины и синонимы, ограничивает потенциальный охват.
- Игнорирование структурированных данных: Предоставление информации только в виде неструктурированного текста затрудняет ее извлечение для заполнения карточек, снижая видимость в расширенных результатах.
- Неоднозначные или устаревшие даты: Публикация контента с неверными временными метками или отсутствие дат для событийного контента приведет к неправильной оценке по temporal criteria, снижая шанс стать источником для карточки.
Стратегическое значение
Патент подтверждает стратегию Google на переход от сопоставления ключевых слов к глубокому пониманию интента через анализ сущностей и их связей (графовый алгоритм), а также к представлению прямых ответов. Он показывает, как Google выбирает источники для этих ответов, придавая большое значение временным сигналам. Для долгосрочного SEO это означает, что приоритет должен отдаваться построению тематического авторитета, семантическому покрытию и предоставлению точных, своевременных и хорошо структурированных данных.
Практические примеры
Сценарий 1: Оптимизация страницы мероприятия (Temporal Criteria)
- Задача: Сайт продает билеты на концерты. Необходимо повысить видимость в Rich Results.
- Применение патента: Google использует temporal criteria для выбора ближайшего события.
- Действие: Внедрить разметку Event. Критически важно точно заполнить startDate в формате ISO 8601 с часовым поясом и поддерживать актуальность eventStatus.
- Результат: При запросе пользователя о концертах Google с большей вероятностью выберет этот сайт как источник для карточки события, так как временные сигналы точны и указывают на предстоящее событие.
Сценарий 2: Расширение семантики для рецепта (Trigger Identification)
- Задача: Привлечь трафик на страницу рецепта Шарлотки по разным запросам.
- Применение патента: Google использует графовый анализ для связи запросов «как приготовить шарлотку» и «рецепт яблочного пирога» через общие сущности («шарлотка», «пирог», «яблоко»).
- Действие: Оптимизировать контент, включив естественные вариации и связанные термины. Убедиться, что страница четко связана с сущностью «Шарлотка» (например, через разметку Recipe и заголовки).
- Результат: Система автоматически расширяет триггеры для показа Rich Snippet рецепта, включая новые формулировки, что увеличивает охват страницы.
Вопросы и ответы
Патент в основном говорит о поиске в Email. Применим ли он к веб-поиску?
Да. Хотя Формула изобретения (Claims 1-17) юридически сфокусирована на ранжировании «электронных коммуникаций» (email), описанные технологии являются фундаментальными. Механизм идентификации триггеров (графовый алгоритм) универсален для понимания запросов. Критерии ранжирования (temporal и recency) также активно используются в веб-поиске для новостей, событий и другого контента, чувствительного ко времени.
Что такое «Temporal Criteria» и как это влияет на SEO?
Temporal Criteria — это критерий ранжирования, при котором система предпочитает источник, описывающий ближайшее предстоящее событие (next upcoming event). Для SEO это означает, что для событийного контента (вебинары, концерты, запуски продуктов) критически важно иметь точные и актуальные даты начала события в микроразметке (например, startDate в Schema.org/Event).
Чем «Recency Criteria» отличается от «Temporal Criteria»?
Recency Criteria фокусируется на дате публикации или обновления документа (предпочитает самое свежее). Temporal Criteria фокусируется на дате события, описанного в документе (предпочитает ближайшее будущее событие). Google выбирает критерий в зависимости от типа информации и интента.
Как работает графовый алгоритм для поиска новых триггерных запросов?
Он связывает известные запросы-триггеры с сущностями (Entity Nodes) и передает им свой вес (Value, например, частоту использования). Этот процесс называется прямым распространением. Затем он находит новые запросы-кандидаты, связанные с теми же сущностями, и передает вес обратно им (обратное распространение). Если суммарный вес кандидата высок, он становится новым триггером.
Что такое «Entity Node» в этом графе?
Entity Node — это связующее звено между разными формулировками запросов. В патенте указано, что это может быть отдельное слово (например, слово «Flight»), конкретный URL или документ, который релевантен нескольким запросам. Они позволяют системе понять семантическую связь между разными запросами.
Что означает упоминание «Query Rewriting» (Переписывание запроса)?
Это означает, что система может действовать в реальном времени. Если введенный пользователем запрос не является точным триггером, но графовый анализ показывает высокую уверенность в его связи с карточкой, система может неявно переписать запрос, добавив известный триггер. Это позволяет активировать карточку, не дожидаясь обновления грамматики.
Как этот патент влияет на использование Schema.org?
Он подтверждает критическую важность Schema.org. Вся система основана на извлечении данных для заполнения полей шаблона (Template) карточки. Наличие точной и полной микроразметки значительно упрощает этот процесс и повышает шансы сайта быть выбранным в качестве источника для SERP-функций (Rich Results).
Как использовать знание об этом графовом алгоритме в SEO-стратегии?
Это подтверждает необходимость перехода к сущностно-ориентированному SEO. Стратегия должна фокусироваться на оптимизации контента под сущности и их атрибуты, а также на широком семантическом покрытии темы. Чем сильнее ваш контент связан с ключевыми сущностями в графе знаний, тем выше вероятность ранжирования по широкому спектру связанных запросов.
Какова разница между тем, что описано в Спецификации и в Формуле изобретения (Claims)?
Спецификация (Description) подробно описывает графовый механизм для идентификации новых триггерных терминов. Формула изобретения (Claims), которая определяет юридический объем патента, фокусируется на процессе ранжирования источников данных по временным критериям (recency и temporal) и извлечении из них данных. Для глубокого понимания технологии важны обе части.
Что такое «Grammar» в контексте патента?
Grammar — это набор ключевых фраз (trigger-terms), которые система распознает как команду для активации определенной Structured Information Card. Например, грамматика карточки авиабилета может включать «Flight Reservation» и «Flight Ticket». Патент описывает способ автоматического расширения этой грамматики.