Как Google объединяет данные о странице, если она находится в разных индексах под разными URL (например, Web и Shopping)

Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, SKU) из параметров URL. Если идентификаторы совпадают и контент верифицирован, URL связываются, позволяя Google обогащать результаты в одном индексе данными из другого (например, показ цены в веб-выдаче).

Описание

Какую задачу решает

Патент решает проблему фрагментации данных, возникающую, когда один и тот же документ доступен по разным URL и индексируется в разных поисковых индексах Google. Например, First Search Index (Веб-индекс) может содержать чистый URL, полученный краулером, а Second Search Index (например, индекс товаров Google Shopping) может содержать URL с параметрами отслеживания, полученный через фид. Эта фрагментация мешает консолидации сигналов ранжирования и не позволяет обмениваться данными между индексами.

Что запатентовано

Запатентована система автоматического сопоставления (mapping) эквивалентных URL, хранящихся в разных индексах. Суть изобретения заключается в методе извлечения параметров из URL, фильтрации неуникальных параметров и идентификации уникальных ключей (например, SKU продукта). Если уникальные идентификаторы URL из разных индексов совпадают и контент верифицирован, система связывает эти URL и позволяет обмениваться данными.

Как это работает

Система анализирует URL в разных индексах:

Извлечение: Из URL извлекаются параметры (Identifiers).
Фильтрация (Ключевой этап): Система удаляет параметры, которые связаны с несколькими разными URL внутри одного и того же индекса. Это позволяет отсеять общие параметры (например, ID сессии или категории) и оставить только уникальные идентификаторы.
Сопоставление (Mapping): Если URL из Индекса А и URL из Индекса Б имеют общий домен и совпадающий уникальный идентификатор, они сопоставляются.
Верификация: Сопоставление проверяется путем сравнения контента, заголовков или метаданных документов.
Обмен данными: После подтверждения индексы могут обмениваться данными (например, цена из Индекса Б передается в Индекс А).

Актуальность для SEO

Высокая. В условиях роста специализированных индексов (Shopping, News, Video) и необходимости предоставления обогащенных результатов (Rich Results), консолидация данных об одном и том же контенте критически важна. Этот механизм позволяет Google эффективно объединять сигналы и данные из разных источников.

Важность для SEO

Влияние на SEO умеренно-высокое (6.5/10). Патент носит инфраструктурный характер, но имеет значительное влияние на E-commerce и сайты, использующие фиды. Он описывает механизм, позволяющий Google обогащать результаты веб-поиска данными (например, ценой, наличием), которые присутствуют только в специализированных индексах. Это подчеркивает важность наличия последовательных и уникальных идентификаторов в структуре URL для правильной консолидации сигналов и отображения Rich Results.

Детальный разбор

Термины и определения

Address (Адрес): Идентификатор, указывающий сетевое расположение документа (URL или URI). Включает схему, домен и параметры.
Identifier (Идентификатор): Параметр или часть пути, извлеченная из Address. Может включать SKU, ID продукта, ID сессии, параметры отслеживания и т.д.
First Search Index (Первый поисковый индекс): Индекс, наполняемый преимущественно краулером (например, основной Веб-индекс).
Second Search Index (Второй поисковый индекс): Индекс, наполняемый преимущественно на основе данных, отправленных пользователями/владельцами сайтов (submissions), например, индекс товаров Google Shopping (через фиды Merchant Center) или Google News.
Mapping (Сопоставление): Связь, устанавливаемая системой между двумя или более Addresses из разных индексов, указывающая на то, что они ведут на один и тот же документ.
Key (Ключ): Уникальный идентификатор, который прошел процесс фильтрации и используется для окончательного сопоставления URL между индексами.
Rule (Правило): Автоматически сгенерированное правило для конкретного домена и структуры (формы) URL, которое определяет, какой параметр является уникальным идентификатором. Используется для оптимизации процесса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс сопоставления URL.

Система идентифицирует первый адрес (URL1) в первом индексе (Index 1) и второй адрес (URL2) во втором индексе (Index 2). Оба связаны с одним документом.
Определяются наборы идентификаторов для URL1 и URL2.
Создается сопоставление (Mapping) между URL1 и URL2, если первый идентификатор равен второму идентификатору.
Система верифицирует корректность сопоставления на основе сравнения первой информации о документе (из Index 1) и второй информации (из Index 2).
Сопоставление передается на серверы индексов.

Claim 3 (Зависимый от 1): Детализирует критически важный процесс фильтрации идентификаторов.

Идентификатор исключается из набора, если он также связан с третьим адресом, хранящимся в том же самом (первом) поисковом индексе. Это гарантирует, что идентификатор, используемый для сопоставления, является уникальным в пределах данного индекса, отсеивая общие параметры (например, категории или сессии).

Claim 7 (Зависимый от 1): Уточняет процесс верификации.

Верификация подтверждается, если части информации совпадают. Указанные части включают: заголовок (Title) документа, язык документа или контент документа.

Claim 8 (Зависимый от 1): Описывает механизм обмена данными (обогащение).

Система извлекает данные из записи для второго адреса (Index 2) и передает эти данные вместе с сопоставлением в первый индекс (Index 1).

Claim 10 (Независимый пункт): Описывает реализацию с фокусом на Домен, Ключ и верификацию контента.

Определяется домен и идентификатор в URL1.
Определяется ключ (Key), связанный с идентификатором.
Создается сопоставление URL1 к URL2, который связан с тем же доменом и тем же ключом.
Определяется, что контент, связанный с URL1, совпадает с контентом, связанным с URL2.
Сопоставление верифицируется на основе совпадения контента.

Где и как применяется

Изобретение применяется на этапе постобработки индексов для консолидации данных и влияет на финальное отображение результатов.

INDEXING – Индексирование и извлечение признаков (Постобработка)
Основная работа алгоритма происходит здесь (или в виде отдельного офлайн-процесса). Processing Server анализирует существующие индексы (First и Second Search Index):

Извлекает и фильтрует Identifiers из URL.
Находит совпадения уникальных идентификаторов (Keys).
Верифицирует совпадения путем сравнения контента/метаданных.
Генерирует базу данных Mapping и обеспечивает обмен данными.
Обучается домен-специфичным правилам (Rules) для оптимизации.

METASEARCH – Метапоиск и Смешивание
На этапе формирования выдачи система использует созданный Mapping для обогащения результатов. Когда результат извлекается из одного индекса, система проверяет наличие сопоставления и может подтянуть дополнительные данные (например, цену, наличие) из связанного индекса для отображения в сниппете (Rich Results).

Входные данные:

URL из первого индекса и связанные данные (контент, метаданные).
URL из второго индекса и связанные данные (например, данные из фидов, структурированные атрибуты).

Выходные данные:

База данных Mapping, связывающая эквивалентные URL.
Передача данных между индексами (например, передача цены из индекса товаров в веб-индекс).

На что влияет

Конкретные ниши (E-commerce): Наибольшее влияние на интернет-магазины, где один и тот же товар часто имеет чистый URL (найденный краулером) и URL с параметрами (отправленный через Google Merchant Center).
Конкретные типы контента (Товары, Новости): Влияет на контент, который индексируется как в основном поиске, так и в специализированных вертикалях (например, Google News).
Техническое SEO (Структура URL): Влияет на то, как Google интерпретирует параметры URL и идентифицирует уникальный контент.

Когда применяется

Условия применения: Алгоритм применяется при обработке индексов, которые содержат URL с различной структурой, но потенциально ведущие на один и тот же контент.
Триггеры активации: Наличие извлекаемых идентификаторов (параметров или частей пути) в структуре URL.
Частота применения: Процесс требует значительных ресурсов и, вероятно, выполняется периодически в офлайн-режиме (batch processing) для обновления базы сопоставлений, а не в реальном времени при запросе.

Пошаговый алгоритм

Процесс сопоставления адресов из разных индексов (Индекс А и Индекс Б):

Определение наборов идентификаторов: Система извлекает адреса из Индекса А и Индекса Б. Для каждого адреса определяются идентификаторы путем анализа параметров URL (например, все, что находится между символами ‘/’, ‘?’, ‘=’, ‘#’).
Фильтрация неуникальных идентификаторов (Ключевой этап): Система анализирует идентификаторы внутри каждого индекса. Если идентификатор связан с несколькими разными адресами в одном индексе (например, параметр «category=shoes» или session ID), он исключается из набора. Цель — оставить только уникальные идентификаторы (например, SKU).
Сопоставление идентификаторов с адресами: Оставшиеся уникальные идентификаторы становятся ключами (Keys) и связываются с соответствующими адресами.
Сопоставление адресов разных индексов: Система ищет совпадения Keys между Индексом А и Индексом Б. Если адрес из Индекса А и адрес из Индекса Б имеют общий домен и связаны с одним и тем же Key, создается предварительное сопоставление (mapping).
Верификация сопоставления: Система проверяет корректность. Для этого извлекается информация о документах (контент, метаданные, Title, длина документа) по обоим адресам. Если информация совпадает, mapping подтверждается.
Передача сопоставления и данных: Подтвержденные сопоставления передаются на серверы индексов. Вместе с этим происходит обмен данными (например, цена из Индекса Б передается в Индекс А).

Оптимизация (Генерация Правил):

После обработки множества адресов с одного домена система может определить, что только определенный параметр (например, ‘sku’) является надежным уникальным идентификатором. Система создает Правило (Rule) для этого домена. При последующей обработке адресов с этого домена система сразу применяет правило для быстрого извлечения Key, минуя этапы 2-3.

Какие данные и как использует

Данные на входе

Технические факторы (Критично): Структура URL, доменное имя, параметры URL (CGI scripts, query strings, fragment identifiers). Эти данные являются основой для извлечения Identifiers и Keys.
Контентные факторы (Для верификации): Содержимое документа (Content), Заголовок (Title), метаданные (например, длина документа, язык). Используются для подтверждения, что разные URL ведут на одну и ту же страницу.
Данные из специализированных индексов: Структурированные данные, отправленные пользователями (например, через фиды), такие как цена, бренд, наличие товара. Используются для обогащения других индексов после создания сопоставления.

Какие метрики используются и как они считаются

Уникальность идентификатора (Identifier Uniqueness): Определяется путем подсчета количества адресов, с которыми связан идентификатор в пределах одного индекса. Если количество > 1 (или превышает определенный низкий порог), идентификатор считается неуникальным и фильтруется.
Совпадение ключей (Key Matching): Прямое сравнение уникальных идентификаторов (Keys), извлеченных из URL разных индексов.
Метрики верификации (Verification Metrics): Сравнение контента и метаданных. Патент упоминает совпадение заголовков (Title matching), совпадение длины документа или совпадение контента.
Правила домена (Domain Rules): Предварительно вычисленные шаблоны, основанные на анализе структуры URL конкретного домена, которые определяют, какой параметр является надежным Key.

Выводы

Консолидация данных между индексами: Патент описывает инфраструктурный механизм, позволяющий Google решать проблему дублирования контента, существующего под разными URL в разных индексах (Web, Shopping, News). Это форма межиндексной каноникализации.
Идентификация через уникальные параметры: Ключевым механизмом является способность системы автоматически определять, какие части URL являются уникальными идентификаторами (например, SKU), а какие — шумом (ID сессии, UTM-метки). Это достигается путем фильтрации параметров, которые встречаются у нескольких страниц в одном индексе.
Цель – Обогащение данных (Rich Results): Основная цель сопоставления — обмен данными между индексами. Это позволяет Google показывать в основном веб-поиске структурированные данные (например, цену и наличие), которые были получены только через специализированные каналы (например, фид Google Merchant Center).
Важность верификации контента: Система не полагается исключительно на совпадение идентификаторов в URL. Обязательным этапом является верификация путем сравнения контента, заголовков (Title) или метаданных, что защищает от ложных срабатываний.
Оптимизация через правила домена: Система способна обучаться и создавать правила для конкретных доменов, определяя надежные идентификаторы для данной структуры URL, что ускоряет обработку.

Практика

Best practices (это мы делаем)

Использование уникальных идентификаторов в URL (Критично для E-commerce): Убедитесь, что все страницы товаров содержат уникальный идентификатор (например, SKU, MPN или внутренний ID продукта) в виде параметра запроса или части пути URL. Это значительно облегчает Google процесс извлечения Keys и сопоставления страницы между веб-индексом и индексом товаров.
Консистентность идентификаторов в фидах и на сайте: Уникальный идентификатор, используемый в URL на сайте, должен соответствовать идентификаторам, передаваемым в фидах (например, Google Merchant Center). Это обеспечивает корректный mapping и передачу данных о цене/наличии.
Обеспечение идентичности контента на эквивалентных URL: Убедитесь, что контент, и особенно Заголовки (Title), на разных версиях URL (например, чистый URL и URL, указанный в фиде) идентичны. Это необходимо для успешного прохождения этапа верификации сопоставления.
Использование чистой и логичной структуры URL: Хотя система умеет разбирать сложные URL, предпочтение следует отдавать структурам, где уникальный идентификатор легко извлекается и стабилен во времени. Это помогает системе быстрее сформировать Rules для вашего домена.

Worst practices (это делать не надо)

Отсутствие уникальных идентификаторов в URL: Использование только нечисловых, неуникальных параметров (например, только название категории и название товара) усложняет для Google процесс идентификации и сопоставления страниц.
Использование нестабильных идентификаторов: Частое изменение уникальных идентификаторов продуктов в URL и фидах приведет к потере консолидированных сигналов и временным проблемам с отображением Rich Results.
Различия в Title или контенте на эквивалентных страницах: Если Title или основной контент страницы отличается в зависимости от параметров URL (например, в зависимости от источника трафика), система не пройдет этап верификации и не сможет связать URL.
Блокировка доступа к контенту для верификации: Если одна из версий URL (например, та, что указана в фиде) недоступна для сканирования или отдает неполный контент, верификация не будет пройдена.

Стратегическое значение

Этот патент подтверждает, что Google оперирует множеством независимых индексов и активно решает задачу консолидации данных между ними. Для SEO-специалистов это имеет два ключевых стратегических значения. Во-первых, он объясняет механизм, лежащий в основе многих Rich Results: данные для сниппета в веб-поиске часто берутся из специализированных индексов. Во-вторых, он подчеркивает важность технического SEO в части структуры URL и консистентности данных: наличие надежных уникальных идентификаторов напрямую влияет на способность Google консолидировать сигналы и корректно отображать обогащенные результаты.

Практические примеры

Сценарий: Обогащение результатов поиска для интернет-магазина

Сбор данных (Индекс А — Веб): Googlebot сканирует сайт и находит URL товара: https://www.site.com/products/tovar-1234. В веб-индексе нет точных данных о цене.
Сбор данных (Индекс Б — Товары): Владелец сайта загружает фид в Google Merchant Center с URL: https://www.site.com/products/get.php?sku=1234&utm_source=gmc. В индексе товаров есть цена (99$) и наличие (В наличии).
Извлечение и Фильтрация: Система извлекает идентификаторы. Она определяет, что utm_source=gmc используется на многих страницах и фильтрует его. В обоих случаях остается уникальный идентификатор (Key) 1234.
Сопоставление (Mapping): Система связывает оба URL, так как они имеют общий домен и общий Key 1234.
Верификация: Система сравнивает Title и контент по обоим URL. Они совпадают. Сопоставление подтверждено.
Передача данных: Данные о цене (99$) и наличии (В наличии) передаются из Индекса Б в Индекс А и ассоциируются с URL https://www.site.com/products/tovar-1234.
Результат в поиске: При поиске по соответствующему запросу, органический результат для https://www.site.com/products/tovar-1234 отображается с Rich Snippet, включающим цену и наличие.

Вопросы и ответы

Является ли этот патент описанием алгоритма каноникализации (rel=canonical)?

Нет. Каноникализация обычно решает проблему дублирования в пределах одного индекса (веб-индекса) и основывается на явных указаниях вебмастера или эвристиках. Этот патент описывает механизм сопоставления между разными, независимыми индексами (например, Веб и Товары), который основан на автоматическом извлечении уникальных идентификаторов из URL и последующей верификации контента. Это можно назвать межиндексной каноникализацией.

Как Google определяет, какой параметр в URL является уникальным идентификатором (SKU), а какой — нет (UTM-метка)?

Система использует процесс фильтрации. Она анализирует все параметры URL в пределах одного индекса. Если параметр встречается у нескольких разных страниц (например, utm_source=google или category=shoes), он помечается как неуникальный и игнорируется. Параметры, которые остаются связанными только с одной страницей (например, sku=12345), считаются уникальными идентификаторами (Keys) и используются для сопоставления.

Как система верифицирует, что два URL действительно ведут на одну страницу?

После того как система нашла совпадение по уникальным идентификаторам, она выполняет этап верификации. Патент упоминает сравнение информации о документах, хранящейся в индексах. Верификация включает сравнение заголовков (Title), длины документа, языка или основного контента страницы. Если они совпадают, сопоставление подтверждается.

Как этот патент влияет на отображение Rich Results (обогащенных сниппетов)?

Он напрямую влияет на Rich Results. Этот механизм позволяет Google брать данные из специализированного индекса (например, цену и наличие из Google Shopping) и отображать их в сниппете органического результата в основном веб-поиске. Если сопоставление не будет установлено, веб-результат может не получить обогащенный сниппет, даже если данные присутствуют в фиде.

Нужно ли мне добавлять уникальные идентификаторы (SKU) в URL, если у меня их сейчас нет?

Для сайтов E-commerce это настоятельно рекомендуется. Наличие четкого, стабильного уникального идентификатора в структуре URL значительно повышает надежность работы систем Google по консолидации данных и отображению Rich Results. Это помогает гарантировать, что сигналы ранжирования и данные о товаре будут корректно объединены.

Что такое «Правила» (Rules) в контексте этого патента и как они создаются?

Правила — это механизм оптимизации. Если система обработала множество URL с одного домена и определила, что параметр sku всегда является уникальным идентификатором для определенной структуры URL, она создает правило для этого домена. В дальнейшем, встречая новый URL с такой же структурой, система сразу извлекает значение параметра sku, минуя сложный процесс фильтрации. Правила создаются автоматически.

Может ли этот механизм объединять сигналы ранжирования (например, ссылки или поведенческие факторы)?

Да, это одно из следствий работы системы. Установив, что URL А (на который ведут внешние ссылки) и URL Б (который содержит структурированные данные о товаре) являются одной и той же страницей, Google может консолидировать все сигналы. В патенте упоминается, что сопоставление позволяет определить, когда разные пользователи получают доступ к одному и тому же документу, используя разные адреса.

Что делать, если Google неверно сопоставил мои URL?

Необходимо проанализировать структуру URL и используемые идентификаторы. Убедитесь, что идентификаторы, которые вы считаете уникальными, действительно уникальны в пределах вашего сайта. Также проверьте, нет ли на сайте страниц с разными идентификаторами, но идентичным контентом и Title, что может сбивать с толку этап верификации.

Влияет ли этот патент только на E-commerce?

Хотя основное применение связано с товарами, механизм универсален. Он может применяться для сопоставления статей между веб-индексом и индексом Новостей (Google News), видео между веб-индексом и индексом Видео, или любых других сущностей, имеющих разные URL в разных индексах.

Что важнее для сопоставления: совпадение домена или совпадение идентификатора?

Оба условия важны. Система, описанная в Claim 10, требует совпадения как домена, так и уникального идентификатора (Key) для создания предварительного сопоставления. Это гарантирует, что сопоставляются документы в рамках одного сайта, идентифицируемые одним и тем же ключом.