Как Google разделяет результаты поиска товаров на основе источника и надежности данных (фиды vs. извлечение)

Google разделяет результаты поиска товаров на группы в зависимости от источника данных. Информация, полученная напрямую от продавцов через фиды (Vendor Feeds), считается более достоверной. Информация, автоматически извлеченная (Extracted) с веб-страниц, считается менее надежной. Эти группы визуально разделяются на странице выдачи (например, в Google Shopping), чтобы указать пользователю на разницу в надежности данных.

Описание

Какую задачу решает

Патент решает проблему представления результатов поиска товаров, когда данные о товарах (цена, наличие, версия) поступают из источников с разной степенью надежности. Пользователям сложно сравнивать товары, если в выдаче смешана точная информация, предоставленная напрямую продавцами, и потенциально устаревшая или неточная информация, автоматически извлеченная с веб-страниц. Изобретение позволяет четко разграничить эти типы данных для пользователя.

Что запатентовано

Запатентована система вывода результатов поиска (в частности, для товаров), которая классифицирует результаты на основе метода получения информации о товаре. Система определяет, были ли данные получены через прямой канал от продавца (Vendor Feed) или путем автоматического извлечения (Extraction) из документов. Результаты выводятся с визуальным индикатором (Cue), который разграничивает эти группы, основываясь на связанной с ними степени уверенности (Degree of Certainty) в точности данных.

Как это работает

Система работает в контексте поисковой системы по товарам (упоминается Froogle™):

Сбор данных: Информация о товарах собирается двумя основными способами: напрямую от продавцов (Vendor Feeds) и путем автоматического извлечения данных со страниц сайтов (Extraction).
Оценка надежности: Каждому источнику присваивается Degree of Certainty. Фиды считаются более надежными, чем извлеченные данные.
Обработка запроса: При получении запроса система находит релевантные товары из обоих типов источников.
Формирование выдачи: Система группирует результаты по источнику/степени уверенности и выводит их, используя визуальные индикаторы (Cue) для разделения групп. Например, результаты из фидов могут быть показаны в одном блоке, а извлеченные результаты — в другом, с пометкой о возможной неточности информации.

Актуальность для SEO

Высокая (для E-commerce SEO). Патент описывает функционал Froogle, который является прямым предшественником Google Shopping. Фундаментальный принцип, заложенный в патенте — приоритизация и отдельное представление данных, полученных напрямую от мерчантов (через Merchant Center), по сравнению с данными, полученными при сканировании сайтов, — остается центральным в архитектуре Google Покупок и товарных вертикалей Google.

Важность для SEO

Патент имеет значительное влияние на SEO для E-commerce. Он устанавливает четкую иерархию источников данных для товарного поиска Google. Для максимальной видимости и доверия в Google Shopping предоставление точных данных через Vendor Feeds (Google Merchant Center) является критически важным. Полагаться только на сканирование и автоматическое извлечение данных неэффективно, так как эти данные по умолчанию классифицируются как менее надежные (lower degree of certainty).

Детальный разбор

Термины и определения

Cue (Визуальный индикатор/Сигнал): Элемент интерфейса, используемый для разграничения групп результатов поиска. Это может быть разделительная линия, заголовок, иконка, разное форматирование (шрифт, цвет) или размещение в разных частях страницы.
Degree of Certainty (Степень уверенности/Достоверности): Метрика, оценивающая вероятность точности и актуальности информации о товаре (атрибутов). Эта степень напрямую зависит от метода получения данных.
Extraction (Извлечение данных): Метод получения информации о товарах путем автоматического анализа (парсинга) веб-страниц (Shopping Documents). Упоминаются шаблонное извлечение (template-based) и извлечение на основе запроса. Данные, полученные этим методом, имеют более низкую Degree of Certainty.
Froogle™: Поисковая система по товарам от Google, упомянутая в патенте. Предшественник Google Shopping.
Item (Товар/Предмет): Продукты, товары, услуги или любые другие объекты, предлагаемые для продажи.
Item Identifier (Идентификатор товара): Информация, идентифицирующая товар в результатах поиска. Может включать название товара, номер, ссылку (URL) на страницу товара.
Shopping Document (Товарный документ): Веб-страница или другой документ, который предлагает товары для продажи.
Vendor Feed (Фид продавца): Метод получения информации о товарах напрямую от продавца, часто в виде потока данных (data stream). Данные, полученные этим методом, имеют высокую Degree of Certainty.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на способе вывода результатов, основанном на источнике данных и связанной с ним надежности.

Claim 1 (Независимый пункт): Описывает основной процесс вывода результатов поиска товаров.

Система получает поисковый запрос.
Идентифицируются множественные идентификаторы товаров (Item Identifiers), релевантные запросу, где каждый идентификатор связан с товаром, предлагаемым для продажи.
Выделяется Первая группа идентификаторов, полученная через Vendor Feed (информация напрямую от продавца).
Выделяется Вторая группа идентификаторов, полученная путем извлечения (Extraction) из товарных документов (Shopping Documents), которые НЕ были получены через Vendor Feed.
Определяется Degree of Certainty (степень уверенности в корректности ассоциации идентификатора с товаром). Эта уверенность основана на точности полученной информации, которая, в свою очередь, зависит от того, были ли данные получены через Vendor Feed.
Генерируется вывод, в котором хотя бы один идентификатор из Первой группы визуально отличается от идентификатора из Второй группы.

Claim 12 (Независимый пункт): Альтернативное описание процесса, фокусирующееся на степени уверенности, а не на конкретных методах (хотя методы определяют уверенность).

Система получает запрос и идентифицирует релевантные товары.
Выделяется Первая группа и определяется Первая степень уверенности (First Degree of Certainty) для нее, основанная на Первом методе получения данных.
Выделяется Вторая группа и определяется Вторая степень уверенности (Second Degree of Certainty) для нее, основанная на Втором методе (который включает извлечение данных из документов, не полученных через фид).
Генерируется вывод, отображающий представления Первой и Второй степени уверенности. Эти представления включают визуальное различие между элементами Первой и Второй групп.

Зависимые пункты (Claims 2, 3, 14): Уточняют, что Extraction может быть шаблонным (Claim 2) или основанным на запросе (Claim 3). Claim 14 уточняет, что Второй метод в Claim 12 — это извлечение из документов, не являющихся фидом.

Где и как применяется

Изобретение применяется исключительно в контексте поиска по товарам (E-commerce), например, в системе Froogle (Google Shopping).

CRAWLING / INDEXING – Сканирование, Сбор данных и Индексирование
На этом этапе происходит сбор данных разными методами. Система получает и индексирует Vendor Feeds. Параллельно система сканирует сеть, идентифицирует Shopping Documents и применяет методы Extraction для извлечения атрибутов товаров. При индексации сохраняется информация о методе получения данных.

RANKING – Ранжирование
Система отбирает релевантные Item Identifiers из товарного индекса в ответ на запрос.

METASEARCH / RERANKING – Метапоиск, Смешивание и Переранжирование
Основной этап применения патента. После того как релевантные товары найдены, система организует финальный вывод (SERP).

Классификация: Результаты классифицируются по источнику данных (Фид vs. Извлечение).
Оценка уверенности: Применяется Degree of Certainty, связанная с источником.
Формирование SERP: Система генерирует страницу выдачи, применяя Cue для визуального разделения групп. В патенте показано разделение на два списка или две сетки.

Входные данные:

Поисковый запрос пользователя.
Индекс товаров, содержащий Item Identifiers и их атрибуты (цена, изображение и т.д.).
Метаданные о способе получения каждого Item Identifier (Vendor Feed или Extraction).

Выходные данные:

Страница результатов поиска (SERP), на которой товары визуально сгруппированы и разделены на основе источника данных и степени уверенности.

На что влияет

Конкретные типы контента: Влияет исключительно на страницы товаров (Shopping Documents) и представление товаров в поиске.
Специфические запросы: Влияет на коммерческие запросы, где пользователи ищут товары для покупки.
Конкретные ниши или тематики: E-commerce и ритейл. Не влияет на информационный поиск, новости или локальный поиск (если он не связан с покупкой товаров).

Когда применяется

Условия применения: Алгоритм применяется, когда поисковая система по товарам обрабатывает запрос и имеет в индексе релевантные результаты, полученные разными методами (например, и через фиды, и через извлечение), которые имеют разные показатели Degree of Certainty.

Пошаговый алгоритм

Процесс обработки запроса и вывода результатов:

Получение запроса: Система получает поисковый запрос на товар от пользователя.
Идентификация товаров: Поисковая система идентифицирует множество Item Identifiers, релевантных запросу.
Определение источника и уверенности: Для каждого идентификатора определяется метод его получения и соответствующая Degree of Certainty.
Группировка результатов:
- Формируется Группа 1: Товары, полученные через Vendor Feed (высокая уверенность).
- Формируется Группа 2: Товары, полученные через Extraction (более низкая уверенность).
Ранжирование и сортировка: Товары ранжируются и сортируются (например, по релевантности или цене) внутри своих групп.
Формирование вывода (Output Generation): Система генерирует страницу выдачи.
Применение визуальных индикаторов (Cue): Группа 1 и Группа 2 выводятся таким образом, чтобы они были визуально различимы. Например, в виде двух отдельных списков, разделенных текстом, указывающим на разницу в надежности данных (как показано в примере Froogle в патенте).

Какие данные и как использует

Данные на входе

Патент фокусируется на источнике данных как на главном факторе для организации вывода.

Данные от продавцов (Vendor Data): Vendor Feeds. Потоки данных, получаемые напрямую от продавцов, содержащие идентификаторы товаров и их атрибуты (цена, изображение, описание).
Контентные и Мультимедиа факторы: Атрибуты товаров (цена, изображение, описание, версия), которые были автоматически извлечены из Shopping Documents.
Технические факторы: URL-адреса Shopping Documents, из которых были извлечены данные или на которые ведут ссылки из фидов.

Какие метрики используются и как они считаются

Degree of Certainty (Степень уверенности): Ключевая метрика для разделения результатов. Она рассчитывается на основе метода получения данных. В патенте прямо указано, что информация, полученная напрямую от продавца (Vendor Feed), обычно имеет более высокую степень уверенности, чем информация, извлеченная из документов (Extraction).
Методы извлечения (Extraction Methods): Система может использовать различные методы извлечения, такие как template-based extraction (шаблонное извлечение) или извлечение на основе поискового запроса. Степень уверенности также может варьироваться между разными методами извлечения.

Выводы

Иерархия источников данных в E-commerce: Google явно различает источники данных о товарах на основе их надежности. Это фундаментальный принцип для товарного поиска.
Приоритет прямых данных (Vendor Feeds): Данные, предоставленные напрямую продавцами через фиды (Google Merchant Center), считаются наиболее достоверным источником информации о товарах (high degree of certainty).
Вторичность извлеченных данных (Extraction): Данные, полученные путем сканирования и автоматического извлечения с веб-страниц, классифицируются как менее надежные (lower degree of certainty).
Визуальное разграничение по надежности: Система не просто использует надежность как фактор ранжирования, но и активно управляет представлением результатов, визуально разделяя надежные и менее надежные данные, чтобы информировать пользователя.
Стратегический фокус на фиды: Для успешного продвижения в товарном поиске Google (Google Shopping) критически важно предоставлять данные напрямую, а не полагаться на способность Google корректно извлечь их со страниц сайта.

Практика

Best practices (это мы делаем)

Приоритет Google Merchant Center (GMC): Для всех e-commerce проектов необходимо настроить и поддерживать Vendor Feeds через GMC. Это основной способ передачи данных о товарах, который Google классифицирует как высоконадежный (high degree of certainty).
Обеспечение качества и актуальности фидов: Фиды должны быть полными, точными (особенно цены и наличие) и часто обновляться. Поскольку эти данные считаются достоверными, они должны точно соответствовать информации на сайте.
Использование структурированных данных (Schema.org/Product): Внедрение микроразметки помогает Google в процессе Extraction. Хотя извлеченные данные считаются менее надежными, чем фиды, качественная разметка повышает вероятность корректного извлечения и может использоваться для валидации данных фида или для показа в бесплатных листингах (Free Listings), если фид отсутствует.
Мониторинг источников данных в Google: Анализировать, как Google представляет ваши товары — через фиды (например, в рекламе Google Shopping) или через извлеченные данные (например, в органических сниппетах с товарами или бесплатных листингах).

Worst practices (это делать не надо)

Игнорирование Google Merchant Center: Полагаться исключительно на органическую оптимизацию страниц и сканирование (Extraction) для видимости в Google Shopping. Это приведет к тому, что ваши данные будут считаться менее надежными и, вероятно, получат меньший охват.
Предоставление некачественных или устаревших фидов: Загрузка фидов с ошибками, неактуальными ценами или статусами наличия. Так как эти данные имеют высокий Degree of Certainty, ошибки в них могут привести к плохому пользовательскому опыту и пессимизации (например, блокировке в GMC).
Рассинхронизация данных: Наличие противоречий между информацией в Vendor Feed и информацией на целевой странице товара.

Стратегическое значение

Этот патент раскрывает фундаментальную архитектуру и философию Google в отношении поиска товаров. Он подтверждает, что Google относится к данным о товарах иначе, чем к общему веб-контенту. В e-commerce приоритет отдается прямым, структурированным и проверяемым данным от мерчантов. Долгосрочная стратегия в e-commerce SEO должна быть сосредоточена на оптимизации фидов (Feed Optimization) как на основном инструменте управления видимостью в товарных вертикалях Google.

Практические примеры

Сценарий: Оптимизация данных для интернет-магазина электроники

Цель: Обеспечить максимальную видимость и доверие к листингам в Google Shopping.
Действие (Основанное на патенте): Вместо того чтобы просто оптимизировать мета-теги и контент на страницах товаров, команда фокусируется на создании комплексного Vendor Feed для Google Merchant Center.
Реализация: Настраивается ежедневное автоматическое обновление фида из CMS/ERP системы. В фид включаются все обязательные атрибуты (GTIN, цена, наличие, ссылка на изображение).
Результат: Google получает данные через Vendor Feed и классифицирует их как высоконадежные (high degree of certainty). Это обеспечивает право на показ в приоритетных блоках Google Shopping (реклама и бесплатные листинги) и повышает доверие пользователей к точности цен и наличия.

Вопросы и ответы

Что такое Froogle, упомянутый в патенте?

Froogle — это ранняя версия поисковой системы Google по товарам, запущенная в 2002 году. Она является прямым предшественником современного Google Shopping (Google Покупки). Механизмы, описанные в этом патенте, легли в основу того, как Google Shopping обрабатывает и отображает данные о товарах сегодня.

Что такое «Vendor Feed» и почему он так важен согласно патенту?

Vendor Feed — это поток данных, который продавец напрямую передает поисковой системе (например, через Google Merchant Center). Патент подчеркивает, что данные из фидов имеют наивысшую степень уверенности (Degree of Certainty) в их точности по сравнению с данными, автоматически извлеченными с сайта. Поэтому для e-commerce критически важно использовать фиды.

Что такое «Extraction» и почему Google меньше доверяет этим данным?

Extraction — это автоматическое извлечение информации о товарах (цены, изображения) со страниц сайта роботами Google. Патент объясняет, что эти данные считаются менее надежными, так как они могут быть устаревшими (если сайт недавно обновился, а робот еще не пересканировал его) или неверно интерпретированными (если структура страницы сложна для парсинга).

Как Google визуально разделяет результаты из разных источников?

Патент описывает использование визуальных индикаторов (Cue). Это может быть разделение результатов на два отдельных списка или сетки, использование разного форматирования или добавление текстовых пояснений. В примере из патента (Froogle) используется текстовый разделитель, который прямо указывает: «Результаты ниже были автоматически извлечены с веб-страниц. Информация о цене и категории ненадежна».

Означает ли этот патент, что SEO оптимизация страниц товаров бесполезна?

Нет, но он меняет приоритеты для e-commerce. Для видимости в Google Shopping приоритет №1 — это оптимизация фидов (Vendor Feed). SEO оптимизация страниц (контент, микроразметка) помогает Google лучше понять товар и улучшает процесс Extraction, что важно для органического поиска и бесплатных листингов, но фид является первоисточником.

Как микроразметка (Schema.org/Product) связана с этим патентом?

Микроразметка помогает улучшить качество Extraction. Она позволяет Google более точно извлекать атрибуты товара со страницы. Однако, согласно логике патента, даже идеально размеченные данные, полученные через Extraction, все равно будут считаться менее надежными, чем данные, полученные через Vendor Feed.

Применяется ли этот механизм в обычном веб-поиске Google?

Нет, этот патент специфичен для поиска по товарам (Shopping Search Engine), где точность атрибутов (цена, наличие) критически важна. Он описывает методы для систем типа Google Shopping, а не для основного индекса веб-страниц.

Может ли степень уверенности (Degree of Certainty) зависеть от качества фида?

Да. Хотя в патенте фиды в целом считаются более надежными, чем извлеченные данные, зависимые пункты (Claim 8) упоминают, что Degree of Certainty может также основываться на «мере надежности» (reliability measure) информации, полученной из Vendor Feed. Это означает, что фиды от проверенных продавцов могут иметь больший вес, чем фиды с частыми ошибками.

Что делать, если у меня нет возможности создать Vendor Feed?

В этом случае необходимо максимально облегчить Google процесс Extraction. Это достигается за счет чистой структуры HTML, корректного использования семантических тегов и обязательного внедрения полной микроразметки Schema.org/Product. Вы должны понимать, что ваши данные будут классифицированы как менее надежные.

Как изменилось применение этого патента с момента Froogle до современного Google Shopping?

Принцип остался прежним, но визуальное представление изменилось. Сегодня Google Shopping четко разделяет Рекламные объявления (Ads) и Бесплатные листинги (Free Listings). Оба эти формата в первую очередь полагаются на данные из Vendor Feeds (Merchant Center). Извлеченные данные используются для валидации фидов и могут использоваться для обогащения сниппетов в органической выдаче.