
Google использует механизм для решения проблемы «холодного старта» в специализированных или новых поисковых вертикалях. Система идентифицирует один и тот же объект (например, товар или книгу по уникальному идентификатору) в разных корпусах. Затем она заимствует данные о релевантности (клики, время просмотра) из высокопосещаемого общего веб-поиска для корректировки ранжирования в вертикальном поиске, пока не накопит достаточно собственных данных.
Патент решает проблему недостатка данных о поведении пользователей (relevance data) для новых документов или в специализированных поисковых системах (вертикалях) с низким трафиком. Эта проблема, известная как «холодный старт», не позволяет системе точно оценить релевантность документов, что может приводить к низкому ранжированию качественного контента из-за отсутствия статистически значимых поведенческих сигналов.
Запатентована система, которая улучшает ранжирование в первом корпусе документов (например, Google Shopping) путем заимствования relevance data, собранных во втором корпусе (например, основном веб-поиске). Это достигается путем идентификации документов в разных корпусах (corpora), которые относятся к одному и тому же физическому объекту (physical object), например, товару или книге с уникальным идентификатором. Данные о популярности объекта переносятся из одного корпуса в другой для корректировки рейтинга.
Ключевой механизм — это межкорпусный обмен и динамическое взвешивание данных:
ISBN для книг или product identification number для товаров).relevance data (клики, время просмотра) Документа Б в ответ на схожий запрос в Корпусе 2.weighting) его исходного рейтинга, его собственных данных (если есть) и заимствованных данных Документа Б.Высокая. С ростом числа вертикалей поиска (Shopping, News, Video, Books) и необходимостью быстрого ранжирования нового контента, использование данных из основного веб-поиска (General Content Search Engine) для улучшения качества в специализированных вертикалях (Specific Content Search Engine) остается критически важной задачей. Механизм подчеркивает важность унификации сущностей и использования поведенческих сигналов, что соответствует современным тенденциям поиска.
Патент имеет высокое значение для SEO, особенно для E-commerce, издательского дела и продвижения в вертикальных поисках. Он демонстрирует, как популярность и поведенческие сигналы страницы об объекте в основном веб-поиске могут напрямую влиять на ранжирование этого же объекта в Google Shopping или Google Books. Это подчеркивает критическую важность использования стандартизированных уникальных идентификаторов (GTIN, ISBN) для связи различных представлений контента.
ISBN) или товар (с product identification number).popularity) документа среди пользователей в ответ на запрос. Включают поведенческие сигналы: количество кликов (selections), соотношение показов к кликам (CTR) и совокупное время просмотра документа (aggregate amount of time или dwell time).Claim 1 (Независимый пункт): Описывает основной метод совместного использования данных о релевантности с механизмом динамического взвешивания.
second relevance data). Эти данные показывают популярность второго результата (Документ 2) в ответ на второй запрос (Query 2, идентичный или похожий на Query 1). Идентификация основана на том, что Документ 1 и Документ 2 описывают один и тот же physical object.second relevance data.first relevance data) – собственной популярности Документа 1.weighting) first и second relevance data.favors) first relevance data по мере увеличения количества выборов (кликов) Документа 1.Ядро изобретения — это не просто заимствование данных, а специфический механизм взвешивания, который гарантирует, что заимствованные данные используются как временная мера для решения проблемы «холодного старта», и их влияние снижается по мере накопления собственных данных.
Claim 3 и 4 (Зависимые от 1): Уточняют примеры объектов и идентификаторов: книга (ISBN) или товар (product identification number).
Claim 8 (Зависимый от 1): Уточняет сценарий применения: SE 1 — это specific content search engine, а SE 2 (откуда берутся данные) — это general content search engine.
Claim 9 (Зависимый от 1): Уточняет, что relevance data могут быть основаны на совокупном времени просмотра документа (aggregate amount of time).
Изобретение предполагает взаимодействие между двумя различными поисковыми системами и затрагивает несколько этапов в архитектуре поиска.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна обработать документы в обоих корпусах для идентификации физических объектов. Это включает извлечение уникальных идентификаторов (ISBN, Product ID). Также система должна определить основное содержание (primary content) документа, чтобы убедиться, что документ действительно посвящен этому объекту (например, проверяя наличие единственного ISBN или используя анализ цитирования, описанный в патенте).
RANKING – Ранжирование / RERANKING – Переранжирование
Основное применение патента. Происходит в специализированной (или новой) поисковой системе.
Ranking Engine генерирует исходный рейтинг результатов.Rank Modifier Engine анализирует результаты. Если для результата недостаточно собственных поведенческих данных (first relevance data), активируется механизм заимствования.second relevance data для похожего запроса.Rank Modifier Engine применяет взвешивание и корректирует финальный рейтинг.Входные данные:
First relevance data (поведенческие данные из Корпуса 1).Second relevance data (поведенческие данные из Корпуса 2).Выходные данные:
Specific content search engine), где трафик ниже, чем в основном поиске.Алгоритм применяется при выполнении следующих условий:
first relevance data для документа. Патент описывает пороговые значения (low threshold, high threshold) количества взаимодействий (кликов/просмотров). Если активность ниже low threshold, система полагается на заимствованные данные.second relevance data для связанного документа по похожему запросу.Процесс обработки запроса в первой (специализированной) поисковой системе:
first relevance data (популярность Документа 1) и second relevance data (популярность Документа 2 для схожего запроса).first relevance data.first relevance data мал (ниже порога): Вес смещается в пользу second relevance data.first relevance data велик (выше порога): Вес смещается в пользу first relevance data (заимствование минимально).Патент фокусируется на использовании поведенческих данных и данных для идентификации объектов.
ISBN (International Standard Book Number).Product identification number (например, GTIN).first и second relevance data) и привязаны к конкретным запросам. Включают: user selections).time on the document, dwell time). Упоминается, что более длительное время указывает на большую релевантность.view to click ratio).primary content), если уникальный идентификатор не очевиден (например, через расчет Citation Score).first и second relevance data на основе порогов объема данных. Формула не приводится, но описан принцип: предпочтение отдается собственным данным по мере их накопления.ISBN, GTIN/Product ID) является ключом к связыванию данных.weighting спроектирован так, чтобы снижать влияние заимствованных данных по мере накопления собственных (first relevance data). Долгосрочное ранжирование зависит от поведения пользователей именно в целевой вертикали.aggregate amount of time) как важного сигнала релевантности.relevance data.Патент подчеркивает стратегию Google по унификации данных и синергии между своими сервисами. Для SEO это означает, что оптимизация должна быть комплексной. Нельзя рассматривать поисковые вертикали изолированно. Поведенческие сигналы и популярность контента в основном веб-поиске являются фундаментом для ранжирования в специализированных сервисах. Это подтверждает важность работы над качеством пользовательского опыта (UX) и вовлеченностью как над ключевыми факторами ранжирования во всей экосистеме Google.
Сценарий: Запуск нового товара в Google Shopping
first relevance data отсутствуют).product identification number) в фиде для Google Shopping.second relevance data высоки).first relevance data и заимствует положительные second relevance data из веб-поиска.Что такое "Relevance Data" в контексте этого патента?
Relevance Data — это информация, основанная на поведении пользователей, указывающая на популярность и релевантность документа в ответ на запрос. Патент явно упоминает количество кликов (selections), соотношение показов к кликам (view to click ratio) и, что особенно важно, совокупное время просмотра документа пользователями (aggregate amount of time или Dwell Time).
Означает ли этот патент, что если мой товар популярен в веб-поиске, он автоматически будет хорошо ранжироваться в Google Shopping?
Не автоматически, но это дает значительное преимущество, особенно на старте. Для этого Google должен связать вашу веб-страницу и товар в Shopping как один и тот же объект (используя GTIN), и у вас должно быть недостаточно собственной истории кликов в Shopping. В этом случае система может заимствовать данные о популярности из веб-поиска для корректировки ранжирования.
Как долго Google будет использовать заимствованные данные для ранжирования?
Патент четко указывает, что это временная мера. Описан механизм взвешивания (weighting), который отдает предпочтение собственным данным о релевантности корпуса (first relevance data) по мере их накопления. Как только в вертикальном поиске накопится достаточно взаимодействий, влияние заимствованных данных будет минимизировано.
Как Google связывает документы в разных корпусах?
Основной метод — использование уникальных идентификаторов физических объектов (Physical Objects). Для книг это ISBN, для товаров — product identification number (например, GTIN). Если идентификаторы присутствуют в обоих документах, система может установить надежную связь.
Что делать, если у моего контента нет стандартного идентификатора?
Патент описывает альтернативный метод для идентификации основного содержания документа — использование Citation Score (упоминается в описании, но не в Claims). Система анализирует метаданные (например, название и автора) и проверяет, насколько они релевантны содержанию документа. Если оценка высока и фокус документа очевиден, система может идентифицировать объект даже без уникального ID.
Применяется ли этот механизм для обычного веб-поиска?
Патент в основном описывает сценарий, где данные заимствуются из General content search engine (общий поиск) для улучшения Specific content search engine (вертикальный поиск), поскольку в общем поиске обычно больше трафика. Однако технически механизм может работать в любом направлении между любыми двумя корпусами.
Что произойдет, если документ в корпусе-источнике имеет плохие поведенческие сигналы?
Система перенесет эти данные. Если документ в веб-поиске имеет низкий CTR или короткое время просмотра, это может негативно сказаться на ранжировании связанного документа в вертикальном поиске, пока тот не докажет свою релевантность собственными данными.
Что важнее: собственные данные о релевантности или заимствованные?
В долгосрочной перспективе собственные данные (first relevance data) всегда важнее. Система спроектирована так, чтобы отдавать им приоритет. Заимствованные данные (second relevance data) используются для компенсации недостатка собственных данных на начальных этапах (решение проблемы «холодного старта»).
Какова роль структурированных данных (Schema.org) в этом процессе?
Хотя патент напрямую не упоминает Schema.org, он подчеркивает критическую важность уникальных идентификаторов. В современном SEO использование Schema.org для указания GTIN, ISBN является лучшей практикой, которая помогает Google точно идентифицировать сущности, что необходимо для работы подобных механизмов связывания данных.
Каков главный вывод для SEO-стратегии из этого патента?
Главный вывод — необходимость комплексного подхода и важность унификации данных. SEO-специалисты должны обеспечить максимальную связанность всех представлений своего контента или товаров в экосистеме Google с помощью уникальных идентификаторов. Успех в одной системе Google (особенно в основном поиске) может положительно влиять на ранжирование в другой.

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP

Поведенческие сигналы
Ссылки
SERP

EEAT и качество
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент
SERP

Поведенческие сигналы
Семантика и интент

Структура сайта
SERP
Ссылки

Поведенческие сигналы
SERP
Семантика и интент

EEAT и качество
Антиспам
SERP

Поведенческие сигналы
Персонализация
EEAT и качество

Семантика и интент
Поведенческие сигналы
Персонализация

Поведенческие сигналы
Мультимедиа
Семантика и интент

Ссылки
Семантика и интент
SERP

Мультимедиа
EEAT и качество
Семантика и интент

Поведенческие сигналы
Ссылки
SERP
