Патент описывает, как Google активирует обогащенные результаты (например, расширенные данные о книгах или товарах). Система проверяет, является ли верхний результат поиска значительно более релевантным, чем другие (доминирование по оценке), и подтверждает доступность дополнительной информации (например, цен или связанных сайтов) в других индексах (таких как Web или Products). Система также использует данные из разных индексов для исправления и дополнения конечного результата.
Описание
Какую задачу решает
Патент решает задачу предоставления пользователю консолидированной информации о конкретной сущности (например, книге, товаре), когда эта информация разбросана по различным источникам данных (корпусам). Вместо простого списка ссылок система стремится предоставить Rich Result — структурированный блок, агрегирующий ключевые данные (описание, цены, связанные сайты) из разных индексов, улучшая тем самым поисковый опыт для запросов, сфокусированных на конкретной сущности.
Что запатентовано
Запатентована система для выборочной активации (триггеринга) и генерации обогащенных результатов (Rich Results). Ключевой особенностью является мультикорпусный подход и строгие условия активации. Система активирует Rich Result только тогда, когда результат, занимающий первую позицию в основном корпусе, значительно превосходит по релевантности остальные результаты (условие доминирования), и когда в дополнительных корпусах доступна необходимая сопроводительная информация.
Как это работает
Механизм работает следующим образом:
- Поиск в основном корпусе: Система выполняет поиск по запросу в первичном корпусе (например, Books Corpus).
- Проверка доминирования: Анализируются Ranking Scores результатов. Система проверяет, превышает ли оценка первого результата оценку последующих результатов на определенный порог (например, в 10 раз).
- Проверка доступности данных: Система проверяет наличие необходимой дополнительной информации (например, цен, приемлемых сниппетов, информационных страниц) во вторичных корпусах (Web Corpus, Products Corpus).
- Активация (Triggering): Если все условия выполнены, инициируется создание Rich Result.
- Агрегация и Коррекция: Данные из всех корпусов агрегируются. Система также использует механизм коррекции данных, сравнивая варианты информации (например, капитализацию заголовка) в разных корпусах и выбирая наиболее популярный вариант (most popular variant).
- Отображение: Пользователю предоставляется обогащенный результат.
Актуальность для SEO
Высокая. Обогащенные результаты, понимание сущностей и агрегация информации из различных вертикалей (Web, Shopping, Books) являются центральными элементами современного поиска. Описанные механизмы кросс-корпусной валидации данных и строгой логики активации на основе уверенности в интенте пользователя остаются крайне актуальными.
Важность для SEO
Патент имеет значительное влияние на SEO (8/10), особенно для сайтов, фокусирующихся на сущностях (e-commerce, медиа, издательства). Он раскрывает механику, стоящую за отображением расширенных сниппетов и SERP features. Патент подчеркивает необходимость не только занять первую позицию, но и добиться явного доминирования по релевантности для активации Rich Result. Кроме того, он демонстрирует важность консистентности данных о сущности в интернете для процессов агрегации и коррекции.
Детальный разбор
Термины и определения
- Clustering Engine (Механизм кластеризации)
- Компонент системы, который группирует ресурсы (например, различные записи о книге) на основе пересекающихся метаданных (название, автор, ISBN). Создает наилучшее консолидированное представление метаданных для сущности.
- Confidence Value (Значение уверенности)
- Метрика, используемая Web Association Engine. Отражает вероятность того, что данный веб-ресурс действительно ссылается на конкретную сущность (например, книгу).
- Corpus (Корпус)
- Коллекция или репозиторий контента (индекс). В патенте упоминаются Books Corpus (ресурсы о книгах), Web Corpus (веб-страницы) и Products Corpus (данные о товарах и ценах). Также используются термины First Corpus (первичный) и Second Corpus (вторичный).
- Metadata Record (Запись метаданных)
- Структурированная информация о ресурсе (например, автор, название, год публикации).
- Rich Result (Обогащенный результат)
- Форматированное представление контента в ответ на запрос, которое содержит агрегированную информацию из нескольких источников (корпусов). Пример: расширенный сниппет книги с описанием, ценами и ссылками на рецензии.
- Rich Result Engine (Механизм обогащенных результатов)
- Компонент, который определяет условия активации Rich Result и выполняет коррекцию данных путем сравнения информации из разных корпусов.
- Score Threshold (Порог оценки) / Threshold Multiple
- Критерий для активации Rich Result. Оценка первого результата должна превышать оценки последующих результатов на определенную величину (например, быть кратной им, используя Threshold Multiple).
- Topicality Value (Значение тематичности)
- Метрика, используемая Web Association Engine. Отражает степень, в которой веб-ресурс посвящен конкретной сущности (например, подробный обзор книги имеет высокую тематичность, а простое упоминание в списке — низкую).
- Web Association Engine (Механизм веб-ассоциаций)
- Компонент, который идентифицирует ресурсы в Web Corpus, которые упоминают или связаны с сущностью из основного корпуса, используя Confidence и Topicality Values.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод генерации обогащенных результатов с использованием нескольких корпусов и логики активации.
- Система получает запрос на поиск в первом корпусе (first corpus).
- Получаются результаты поиска, включая результат, ранжированный первым (first-ranked result).
- Определяется, удовлетворяет ли оценка (score) первого результата пороговому значению (threshold). Важно: порог определяется на основе оценок остальных результатов поиска (т.е. это относительный порог доминирования).
- Если порог достигнут:
- Выполняется поиск во втором корпусе (second corpus), используя данные, связанные с первым результатом.
- Цель этого поиска — найти ресурсы во втором корпусе, которые ссылаются на первый результат.
- Генерируется Rich Result, который объединяет данные из первого результата (из первого корпуса) и данные из найденных ресурсов (из второго корпуса).
- Rich Result предоставляется в ответ на запрос, дополняя первый результат.
Claim 2 и 3 (Зависимые): Уточняют механизм определения порога из пункта 1.
Оценка первого результата удовлетворяет порогу, если она как минимум в пороговое кратное число раз (threshold multiple) превышает оценку второго (Claim 2), третьего или четвертого результата в выдаче (Claim 3). Это формализует требование значительного доминирования первого результата над остальными для активации Rich Result.
Claim 9 и 10 (Зависимые): Детализируют процесс генерации Rich Result, добавляя механизм коррекции данных.
Генерация Rich Result включает исправление (correcting) данных из первого корпуса с использованием данных из второго корпуса (Claim 9). Это исправление происходит путем сравнения данных из первого корпуса с одним или несколькими вариантами этих же данных из второго корпуса и выбора наиболее популярного варианта (most popular variant) для включения в Rich Result (Claim 10).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя предварительные расчеты для связи данных между корпусами и влияя на финальное представление результатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе работают вспомогательные системы для подготовки данных (офлайн):
- Clustering Engine: Кластеризует ресурсы внутри основного корпуса (например, Books Corpus) на основе метаданных для идентификации сущностей.
- Web Association Engine: Анализирует Web Corpus для идентификации веб-страниц, ссылающихся на эти сущности, используя метрики Confidence Value и Topicality Value. Эта информация сохраняется в виде аннотаций.
RANKING – Ранжирование
На этом этапе генерируются стандартные результаты поиска для основного корпуса и вычисляются их Ranking Scores. Эти оценки критически важны для последующей логики активации.
METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Здесь работает Rich Result Engine. Это этап, на котором принимается решение о показе Rich Result и происходит его формирование.
- Оценка доминирования: Система анализирует Ranking Scores из этапа RANKING и проверяет выполнение Score Threshold (доминирование первого результата).
- Проверка доступности данных: Система проверяет наличие необходимой информации в дополнительных корпусах (наличие цен, приемлемого сниппета, информационных страниц).
- Агрегация и Коррекция: Если активация подтверждена, система собирает данные из разных корпусов и выполняет коррекцию (например, выбирает most popular variant написания названия).
- Формирование выдачи: Rich Result встраивается в поисковую выдачу.
Входные данные:
- Запрос пользователя.
- Результаты поиска из основного корпуса с их Ranking Scores.
- Кластеризованные метаданные сущностей (Metadata Records).
- Данные из дополнительных корпусов (Web Corpus с аннотациями, Products Corpus).
Выходные данные:
- Поисковая выдача, которая может включать Rich Result для доминирующего результата.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на запросы, сфокусированные на конкретных сущностях (Entity-centric queries) — названия книг, фильмов, продуктов, где система может четко идентифицировать объект поиска.
- Конкретные типы контента: Влияет на представление результатов для товаров, книг, медиа-контента, где доступна структурированная информация в различных вертикальных индексах.
- Конкретные ниши: E-commerce, книгоиздание, медиа — везде, где агрегация данных (описание, цена, отзывы, связанные сайты) приносит пользу пользователю.
Когда применяется
Алгоритм применяется при выполнении строгого набора условий (триггеров активации), как описано в патенте (в частности, на схеме процесса триггеринга):
- Условие 1: Доминирование (Score Threshold). Когда оценка релевантности первого результата значительно (в кратное число раз) превышает оценки последующих результатов. Это указывает на высокую уверенность системы в том, что пользователь ищет именно эту сущность.
- Условие 2: Качество сниппета. Когда для сущности доступен приемлемый (acceptable) сниппет (описание или отрывок). Система может отклонить сниппеты низкого качества (например, пользовательский контент с ошибками).
- Условие 3: Доступность коммерческих данных. Когда в Products Corpus доступна информация о ценах (Prices available).
- Условие 4: Доступность информационных страниц. Когда в Web Corpus найдены связанные информационные страницы (Information pages available), например, обзоры или сайт издателя.
Rich Result активируется, только если ВСЕ эти условия выполнены последовательно.
Пошаговый алгоритм
Процесс А: Офлайн-подготовка данных
- Кластеризация ресурсов: Clustering Engine анализирует основной корпус (например, Books Corpus), группирует записи на основе пересекающихся метаданных (ISBN, Title, Author) и формирует консолидированные Metadata Records для каждой сущности.
- Ассоциация веб-ресурсов: Web Association Engine анализирует Web Corpus. Для каждого веб-ресурса вычисляются Confidence Value (относится ли страница к сущности) и Topicality Value (насколько подробно страница описывает сущность). Ресурсы, превышающие пороги, аннотируются как связанные с сущностью.
Процесс Б: Обработка запроса в реальном времени (Триггеринг и Генерация)
- Получение запроса и ранжирование: Система получает запрос и вычисляет Ranking Scores для результатов из основного корпуса.
- Проверка условия 1 (Доминирование): Система проверяет, превышает ли оценка первого результата Score Threshold относительно второго (третьего, четвертого) результата.
- Если НЕТ: Вернуть стандартные результаты.
- Проверка условия 2 (Сниппет): Система проверяет наличие приемлемого сниппета.
- Если НЕТ: Вернуть стандартные результаты.
- Проверка условия 3 (Цены): Система проверяет доступность цен в Products Corpus (например, путем поиска по идентификатору, такому как ISBN).
- Если НЕТ: Вернуть стандартные результаты.
- Проверка условия 4 (Информационные страницы): Система проверяет наличие связанных веб-ресурсов (на основе офлайн-аннотаций или поиска в Web Corpus).
- Если НЕТ: Вернуть стандартные результаты.
- Генерация Rich Result: Все условия выполнены. Система агрегирует данные из всех корпусов.
- Коррекция данных: Rich Result Engine сравнивает варианты данных (например, написание имени автора или капитализацию заголовка) из разных корпусов и выбирает most popular variant.
- Вывод результата: Система предоставляет пользователю Rich Result вместе со стандартными результатами.
Какие данные и как использует
Данные на входе
Система использует данные из нескольких источников (корпусов):
- Основной корпус (e.g., Books Corpus):
- Структурные факторы: Metadata Records (Title, Author, Publication Year, ISBN, Page Count).
- Контентные факторы: Текст публикации (для генерации сниппетов или превью).
- Дополнительный корпус 1 (e.g., Web Corpus):
- Контентные факторы: Текст веб-страниц (для анализа Confidence и Topicality, а также для коррекции данных).
- Структурные факторы: Ссылки на связанные сайты (рецензии, сайты издателей, энциклопедии).
- Дополнительный корпус 2 (e.g., Products Corpus):
- Коммерческие факторы: Цены, наличие товара, ссылки на продавцов.
- Системные данные: Ranking Scores результатов из основного корпуса.
Какие метрики используются и как они считаются
- Ranking Score: Стандартная оценка релевантности результата запросу.
- Score Threshold (Порог доминирования): Относительная метрика. Рассчитывается как кратное (threshold multiple) от оценки результата N+1. Например, Score(1) > 10 * Score(2).
- Confidence Value: Вероятностная оценка того, что веб-ресурс ссылается на данную сущность.
- Topicality Value: Оценка того, насколько подробно веб-ресурс посвящен данной сущности.
- Popularity of Variant (Популярность варианта): Метрика для коррекции данных. Определяется частотой встречаемости определенного варианта написания в разных корпусах (преимущественно в Web Corpus).
Выводы
- Доминирование как ключевой триггер: Для активации Rich Result недостаточно быть на первом месте. Необходимо, чтобы система была максимально уверена в релевантности результата, что выражается в значительном отрыве Ranking Score первого результата от последующих (Score Threshold).
- Зависимость от мультикорпусной инфраструктуры: Rich Results являются продуктом синтеза данных из специализированных индексов (Books, Web, Products). Отсутствие данных в одном из необходимых корпусов (например, отсутствие цен в Products Corpus) может заблокировать показ обогащенного результата.
- Автоматическая коррекция данных сущностей (Веб-консенсус): Патент описывает конкретный механизм, как Google исправляет метаданные сущностей. Система полагается на «мудрость толпы», выбирая наиболее часто встречающийся вариант (most popular variant) в Web Corpus.
- Строгие проверки качества и доступности: Система имеет несколько предохранителей для активации Rich Result, помимо релевантности: наличие качественного сниппета, доступность цен и наличие связанных информационных ресурсов. Это гарантирует полезность обогащенного результата.
- Идентификация связей через ассоциации: Использование Web Association Engine с метриками Confidence и Topicality позволяет системе определять авторитетные и релевантные источники информации о сущности в интернете для включения их в Rich Result.
Практика
Best practices (это мы делаем)
- Оптимизация под явный интент для достижения доминирования: Необходимо добиться максимальной релевантности страницы конкретной сущности (товару, книге), чтобы достичь необходимого Score Threshold. Это требует четкого фокуса страницы и устранения двусмысленности, чтобы система считала ваш результат значительно лучше других.
- Обеспечение консистентности данных (Data Consistency): Критически важно обеспечить единое и точное представление информации о сущности (название, артикул, автор, ISBN, характеристики) на вашем сайте, в Schema.org, на сайтах ритейлеров, в агрегаторах и обзорных площадках. Это поможет Clustering Engine правильно идентифицировать сущность, а Rich Result Engine — выбрать ваши данные как канонические (most popular variant).
- Стимулирование появления информационных страниц в вебе: Для выполнения условия Information pages available необходимо, чтобы в Web Corpus существовали авторитетные страницы о вашей сущности (обзоры, пресс-релизы, энциклопедические статьи). Работа с PR и контент-маркетингом напрямую влияет на этот фактор.
- Обеспечение доступности коммерческих данных: Для товаров и книг необходимо убедиться, что данные о ценах и наличии корректно передаются в Products Corpus (например, через Google Merchant Center). Выполнение условия Prices available зависит от этого.
- Работа над качеством сниппетов: Убедитесь, что система может извлечь качественное и информативное описание (acceptable snippet). Используйте четкие мета-описания и структурированный контент на странице.
Worst practices (это делать не надо)
- Неконсистентные данные: Использование разных вариантов названий, артикулов или характеристик для одной и той же сущности на разных площадках. Это затрудняет работу Clustering Engine и может привести к тому, что система выберет неверные данные при коррекции.
- Размытие интента на странице сущности: Попытка оптимизировать страницу товара под слишком широкий спектр запросов может снизить ее релевантность основному запросу (названию товара) и помешать достижению Score Threshold (доминирования).
- Игнорирование вертикальных индексов: Фокусировка только на Web Corpus без передачи данных в специализированные индексы (например, Products Corpus) сделает невозможным выполнение всех условий для активации Rich Result.
Стратегическое значение
Патент подтверждает стратегическую важность управления данными о сущностях (Entity Management) и консистентности этих данных во всей экосистеме интернета. Для SEO это означает, что работа не ограничивается собственным сайтом. Влияние на представление информации на сторонних авторитетных ресурсах (ритейлеры, СМИ, энциклопедии) становится критически важным для формирования Rich Results. Также патент объясняет, почему иногда, даже занимая первую позицию, сайт может не получать обогащенный сниппет — возможно, доминирование недостаточно сильное или не хватает данных в дополнительных корпусах.
Практические примеры
Сценарий: Запуск нового продукта (Смартфона) и активация Rich Result
- Задача: Обеспечить показ Rich Result по запросу [Название Модели Смартфона].
- Действия для достижения доминирования (Score Threshold): Создать максимально полную официальную страницу продукта. Обеспечить, чтобы эта страница была наиболее авторитетным и релевантным ответом на этот запрос, превосходящим обзоры и страницы ритейлеров.
- Действия для обеспечения данных в Products Corpus: Заранее загрузить фиды в Google Merchant Center у всех официальных ритейлеров с корректными ценами, наличием и единым идентификатором (GTIN). Это удовлетворит условие Prices available.
- Действия для обеспечения данных в Web Corpus: Провести PR-кампанию, предоставить образцы авторитетным обзорным площадкам. Убедиться, что они используют корректное название и характеристики. Это удовлетворит условие Information pages available и поможет Web Association Engine связать эти обзоры с продуктом (высокие Confidence и Topicality).
- Действия для коррекции данных: Мониторить выдачу и сторонние сайты на предмет корректности написания названия модели. Система выберет most popular variant, поэтому важно распространить правильный вариант максимально широко.
- Результат: При выполнении всех условий по запросу [Название Модели Смартфона] пользователь увидит Rich Result, агрегирующий описание, характеристики, цены от разных ритейлеров и ссылки на топовые обзоры.
Вопросы и ответы
Почему мой сайт не получает Rich Result, хотя он находится на первом месте по запросу?
Патент предлагает несколько причин. Во-первых, возможно, отрыв вашего результата от второго места недостаточен для выполнения Score Threshold (условие доминирования). Система не уверена на 100%, что ваш результат — единственно верный ответ. Во-вторых, возможно, не выполнено одно из обязательных условий доступности данных: нет приемлемого сниппета, информация о ценах отсутствует в Products Corpus, или система не нашла связанных информационных страниц в Web Corpus.
Что такое «доминирование» (Score Threshold) и как его достичь?
Доминирование означает, что Ranking Score первого результата должен в кратное число раз (threshold multiple) превышать оценку последующих результатов (в патенте приводится пример 10x). Чтобы достичь этого, ваша страница должна быть исключительно релевантной и авторитетной для данного запроса, явно соответствуя интенту пользователя и устраняя любую двусмысленность. Это требует глубокой проработки контента и укрепления авторитетности ресурса по теме.
Как работает механизм коррекции данных, описанный в патенте?
Rich Result Engine сравнивает варианты одних и тех же данных (например, написание названия товара или имени автора), полученные из разных корпусов (например, Books Corpus и Web Corpus). Система выбирает наиболее популярный вариант (most popular variant) — тот, который встречается чаще всего в вебе. Это подчеркивает важность распространения консистентной информации о ваших продуктах или контенте в интернете.
Что такое Web Association Engine и как он влияет на SEO?
Это механизм, который ищет связи между сущностями (например, товарами) и веб-страницами. Он использует метрики Confidence (уверенность, что страница о сущности) и Topicality (насколько подробно страница ее описывает). Если ваш сайт предоставляет подробную и авторитетную информацию о сущности (например, качественный обзор), он может быть идентифицирован этим механизмом и включен в Rich Result как связанный информационный ресурс.
Насколько важна консистентность данных для Rich Results согласно этому патенту?
Критически важна. Во-первых, Clustering Engine использует пересечение метаданных (название, ISBN, GTIN) для идентификации сущности. Во-вторых, механизм коррекции полагается на частоту встречаемости вариантов данных для выбора канонического значения (most popular variant). Неконсистентные данные могут привести к неправильной идентификации сущности или к выбору некорректных данных для отображения в Rich Result.
Что подразумевается под «приемлемым сниппетом» (acceptable snippet)?
Патент не дает точного определения, но приводит примеры. Приемлемый сниппет может быть кратким изложением от издателя. Неприемлемый — например, пользовательский контент с грамматическими ошибками или неформальной лексикой. Для SEO это означает необходимость предоставлять четкие, качественные и информативные описания, которые система сочтет достойными для включения в Rich Result.
Влияет ли наличие товара и цен на показ Rich Result?
Да, напрямую. Для сущностей типа книг или товаров наличие информации о ценах в Products Corpus является одним из обязательных условий (триггеров) для активации Rich Result, описанных в патенте. Если система не найдет цены, обогащенный результат показан не будет, даже если выполнены другие условия.
Применяется ли этот патент только к поиску по книгам?
Хотя большинство примеров в патенте сосредоточены на Books Corpus, описанные механизмы и Claims сформулированы более широко, упоминая «первый корпус» и «второй корпус». Эта архитектура применима к любым сущностям, для которых существуют специализированные индексы и дополнительная информация в вебе, например, к товарам, фильмам, музыке или локальному бизнесу.
Какие процессы выполняются офлайн, а какие — в реальном времени?
Офлайн выполняются ресурсоемкие процессы подготовки данных: кластеризация ресурсов в основном корпусе (Clustering Engine) и идентификация связанных веб-ресурсов (Web Association Engine). В реальном времени происходит ранжирование, проверка всех условий активации (доминирование, наличие цен, сниппетов, инфо-страниц), а также финальная агрегация и коррекция данных.
Что важнее для включения в Rich Result: мой собственный сайт или сторонние ресурсы?
Важны оба аспекта. Ваш сайт (или ваша запись в основном корпусе) должен достичь доминирования по релевантности для активации триггера. Однако сторонние ресурсы в Web Corpus и Products Corpus необходимы для выполнения условий доступности дополнительной информации (цены, обзоры) и для коррекции данных. Это требует комплексной стратегии управления присутствием сущности в интернете.