Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google переносит поведенческие сигналы из основного поиска в вертикальные (Товары, Книги) для ранжирования нового контента

    SHARING SEARCH ENGINE RELEVANCE DATA (Совместное использование данных о релевантности поисковых систем)
    • US8898152B1
    • Google LLC
    • 2014-11-25
    • 2008-12-10
    2008 Google Shopping Патенты Google Персонализация Поведенческие сигналы

    Google решает проблему «холодного старта» для новых документов или специализированных поисковых вертикалей (например, Google Покупки, Книги). Если у системы недостаточно поведенческих данных (клики, время просмотра) для оценки контента в вертикальном поиске, она может «заимствовать» эти данные из основного веб-поиска. Это происходит путем идентификации эквивалентного контента (например, того же товара) с помощью уникальных идентификаторов (GTIN, ISBN) и использования его поведенческих метрик для корректировки ранжирования.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему нехватки поведенческих данных (Relevance Data) для точного ранжирования документов. Эта проблема особенно актуальна для:

    • Новых документов: Контент, недавно добавленный в индекс, не имеет истории взаимодействий (проблема «холодного старта»).
    • Специализированных (вертикальных) поисковых систем: Системы с низким трафиком (например, Google Books или узкоспециализированный поиск) могут не накапливать статистически значимые данные (data sparsity).

    В результате релевантный контент может ранжироваться низко просто из-за отсутствия данных о его популярности.

    Что запатентовано

    Запатентована система для «заимствования» данных о релевантности (Relevance Data) из одного корпуса документов (например, основного веб-индекса) для улучшения ранжирования в другом корпусе (например, индексе Google Товаров или Книг). Механизм основан на идентификации эквивалентного контента в разных корпусах с помощью уникальных идентификаторов (например, ISBN или GTIN). Если контент популярен в одном корпусе, эти поведенческие сигналы (клики, время просмотра) используются для корректировки его ранжирования в другом корпусе.

    Как это работает

    Система работает следующим образом:

    1. Идентификация эквивалентности: Система определяет, что Документ А в Корпусе 1 (например, карточка товара в Google Shopping) и Документ Б в Корпусе 2 (например, страница товара на сайте в веб-индексе) описывают один и тот же объект, используя уникальный идентификатор (Identification Number).
    2. Поиск в Корпусе 1: Пользователь вводит запрос в вертикальный поисковик. Генерируется начальное ранжирование.
    3. Заимствование данных: Для Документа А система проверяет наличие Relevance Data у его эквивалента (Документа Б) по аналогичному запросу в Корпусе 2.
    4. Корректировка ранжирования: Начальный ранг Документа А модифицируется с учетом поведенческих данных Документа Б.
    5. Взвешивание (Weighting/Weaning): Система комбинирует заимствованные и собственные (нативные) данные. По мере накопления нативных данных о Документе А, влияние заимствованных данных снижается.

    Актуальность для SEO

    Высокая. Механизмы переноса сигналов между различными индексами (Веб, Товары, Книги, Новости) критически важны для обеспечения качества вертикальных поисковых систем Google. Использование уникальных идентификаторов (GTIN, ISBN) и структурированных данных для идентификации сущностей (объектов) является стандартом в современном поиске, и этот патент описывает, как поведенческие данные могут использоваться совместно на основе этих идентификаторов.

    Важность для SEO

    Влияние на SEO оценивается как значительное (75/100), особенно для E-commerce и издателей. Патент показывает, что популярность и поведенческие метрики страницы в основном веб-поиске могут напрямую влиять на ранжирование связанного объекта в вертикальных поисках Google (Shopping, Books). Это подчеркивает важность комплексного подхода и критическую необходимость корректного использования уникальных идентификаторов.

    Детальный разбор

    Термины и определения

    Citation Score (Оценка цитирования)
    Метрика, используемая для определения основного содержания (Primary Content) документа, если он не имеет явного идентификатора или ссылается на несколько объектов. Рассчитывается путем оценки релевантности метаданных объекта (например, названия и автора книги) по отношению к содержанию документа.
    Corpus of Documents (Корпус документов)
    Коллекция документов, индексируемая поисковой системой. Патент различает First Corpus (например, специализированный индекс) и Second Corpus (например, общий веб-индекс).
    General Content Search Engine (Поисковая система по общему контенту)
    Поисковая система, индексирующая контент всех категорий (например, основной поиск Google).
    Identification Number / Unique Identifier (Идентификационный номер / Уникальный идентификатор)
    Уникальный идентификатор, связанный с физическим или электронным объектом. Примеры: ISBN для книг или продуктовый номер (например, GTIN) для товаров. Используется для установления эквивалентности контента между разными корпусами.
    Object / Physical Object (Объект / Физический объект)
    Сущность, описываемая в документе, которая имеет уникальный идентификатор (например, книга, товар, видео).
    Primary Content (Основное содержание)
    Главная тема или объект документа. Система использует методы (например, поиск ISBN или Citation Score) для определения, посвящен ли документ преимущественно одному конкретному объекту.
    Rank Modifier Engine (Модуль модификации ранжирования)
    Компонент системы, который корректирует начальные оценки ранжирования (IR scores), используя Relevance Data, в том числе заимствованные из другого корпуса.
    Relevance Data (Данные о релевантности)
    Информация, указывающая на релевантность документа конкретному запросу с точки зрения пользователей. Включает поведенческие сигналы: совокупное время просмотра документа (dwell time), количество кликов (selections), соотношение показов к кликам (CTR).
    Result Selection Logs (Журналы выбора результатов)
    Хранилище, в котором записываются взаимодействия пользователей с результатами поиска (Relevance Data).
    Specific Content Search Engine (Поисковая система по специфическому контенту)
    Вертикальная поисковая система, индексирующая контент определенной категории (например, Google Books, Google Shopping).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод использования поведенческих данных из разных источников для ранжирования.

    1. Система идентифицирует конкретный результат поиска (соответствующий Документу А / веб-странице), полученный в ответ на первый запрос (Запрос 1).
    2. Система идентифицирует второй документ (Документ Б), который связан с Документом А, поскольку оба содержат контент, идентифицирующий один и тот же объект.
    3. Система идентифицирует second relevance data. Эти данные показывают популярность Документа Б среди второй популяции пользователей в ответ на второй запрос (Запрос 2), который идентичен или похож на Запрос 1.
    4. Система определяет итоговую оценку (score) для Документа А, основываясь на (i) first relevance data (популярность Документа А для Запроса 1) И (ii) second relevance data (популярность Документа Б для Запроса 2).

    Ядро изобретения — это использование поведенческих сигналов из одного контекста для ранжирования в другом контексте, при условии, что документы связаны общим объектом.

    Claim 2 (Зависимый от 1): Детализирует механизм взвешивания (weighting) данных.

    Определение оценки включает взвешивание first relevance data (нативных) и second relevance data (заимствованных). Вес смещается в пользу нативных данных по мере того, как количество выборов (кликов) первого результата увеличивается по отношению к количеству выборов второго результата. Это механизм постепенного отказа от заимствованных данных (weaning) по мере решения проблемы «холодного старта».

    Claim 3 и 4 (Зависимые от 1): Уточняют механизм установления связи между документами.

    Связь между Документом А и Документом Б устанавливается, если оба документа идентифицируют объект с помощью одного и того же уникального идентификатора (unique identifier). Конкретный пример (Claim 4): объект — это книга, а идентификатор — ISBN.

    Claim 9 (Зависимый от 1): Уточняет контекст применения в разных поисковых системах.

    Первый результат получен из первой поисковой системы, ищущей в первом корпусе. Второй результат получен из второй (отличной от первой) поисковой системы, ищущей во втором (отличном от первого) корпусе. Это подтверждает применение механизма для взаимодействия между, например, вертикальным и общим поиском.

    Где и как применяется

    Изобретение применяется на стыке процессов индексирования и ранжирования, связывая данные из разных поисковых вертикалей.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система выполняет критически важные предварительные вычисления:

    • Извлечение идентификаторов: Система сканирует документы в обоих корпусах для поиска уникальных идентификаторов (ISBN, GTIN).
    • Определение основного содержания (Primary Content): Система анализирует документы, чтобы определить, посвящены ли они преимущественно одному объекту. Это может включать расчет Citation Score, если идентификаторов нет или их несколько.
    • Установление соответствия: Создается маппинг между документами в разных корпусах, которые описывают один и тот же объект.

    RANKING – Ранжирование / RERANKING – Переранжирование
    Основное применение патента происходит во время ранжирования (обычно в специализированной поисковой системе).

    • Генерация начальных оценок: Scoring Engine генерирует начальные IR scores.
    • Получение поведенческих данных: Rank Modifier Engine получает нативные поведенческие данные (из собственных логов) и заимствованные поведенческие данные (из логов другой системы, например, General Content Search Engine) для эквивалентных документов по схожим запросам.
    • Взвешивание и корректировка: Ranking Engine использует сигналы от Rank Modifier Engine для корректировки IR scores, применяя механизм взвешивания, который учитывает объем доступных нативных данных.

    Входные данные:

    • Запрос пользователя.
    • Начальные IR scores документов.
    • Маппинг эквивалентных документов между корпусами.
    • Result Selection Logs (поведенческие данные) из первой и второй систем.

    Выходные данные:

    • Скорректированный список результатов поиска с модифицированными оценками ранжирования.

    На что влияет

    • Конкретные типы контента и ниши: Наибольшее влияние оказывается на контент, который имеет четкие уникальные идентификаторы. Это критически важно для E-commerce (товары с GTIN) и издательского дела (книги с ISBN).
    • Вертикальные поисковые системы: Влияет на ранжирование в Google Shopping, Google Books и потенциально других вертикалях (Images, Video, News), где можно установить эквивалентность сущностей.
    • Новый контент: Позволяет новым товарам или книгам быстрее занять релевантные позиции в вертикальном поиске, если информация о них уже популярна в основном веб-индексе.

    Когда применяется

    Алгоритм применяется при выполнении следующих условий:

    • Наличие эквивалента: Для документа в первом корпусе существует эквивалентный документ во втором корпусе, идентифицированный по общему объекту.
    • Нехватка нативных данных (Пороговые значения): Механизм особенно активен, когда объем собственных поведенческих данных недостаточен. Патент описывает пороги активности (low threshold и high threshold):
      • Ниже low threshold: система может полагаться преимущественно на заимствованные данные.
      • Выше high threshold: система может полагаться только на собственные данные.
      • Между порогами: данные комбинируются (взвешиваются).
    • Наличие заимствованных данных: Эквивалентный документ во втором корпусе имеет достаточный объем поведенческих данных по схожему запросу.

    Пошаговый алгоритм

    Процесс А: Определение эквивалентности (Офлайн / Во время индексации)

    1. Сканирование Корпусов: Поиск документов, содержащих уникальные идентификаторы (например, ISBN, GTIN).
    2. Определение основного содержания (Primary Content):
      • Если найден один идентификатор: Документ помечается как посвященный этому объекту.
      • Если найдено несколько идентификаторов или ни одного: Используется расчет Citation Score для каждого объекта, чтобы определить основной объект документа.
    3. Создание маппинга: Установление связи между Документом А (в Корпусе 1) и Документом Б (в Корпусе 2) на основе общего идентификатора или определенного Primary Content.

    Процесс Б: Обработка запроса и ранжирование (В реальном времени)

    1. Получение запроса: Запрос поступает в поисковую систему (Корпус 1).
    2. Генерация начальных результатов: Система получает список релевантных документов и их начальные IR scores.
    3. Итерация по результатам: Для каждого результата (Документ А):
      1. Идентификация контента: Определение объекта и его идентификатора в Документе А.
      2. Поиск эквивалента: Поиск Документа Б в Корпусе 2 с тем же идентификатором (используя маппинг из Процесса А).
      3. Получение данных о релевантности:
        • Получение нативных данных (First Relevance Data) для Документа А.
        • Получение заимствованных данных (Second Relevance Data) для Документа Б по аналогичному запросу.
      4. Расчет нового ранга:
        1. Определение весов для нативных и заимствованных данных. Вес зависит от объема нативных данных (чем их больше, тем меньше влияние заимствованных).
        2. Комбинирование данных о релевантности.
        3. Модификация начального IR score Документа А на основе комбинированных данных.
    4. Финальное ранжирование: Сортировка документов на основе новых скорректированных оценок и предоставление результатов пользователю.

    Какие данные и как использует

    Данные на входе

    Патент фокусируется на двух основных типах данных для работы описанного механизма:

    • Поведенческие факторы (Relevance Data): Это ключевые данные, которые заимствуются. К ним относятся:
      • Количество кликов (selections) на результат поиска.
      • Совокупное время, проведенное пользователями на документе после клика (amount of time that the second document is selected/viewed, dwell time).
      • Соотношение показов к кликам (view to click ratio, CTR).
      • Данные хранятся в Result Selection Logs и включают детали сессии: запрос (Q), документ (D), время (T), язык (L), страна (C), IP, cookie, позиция клика, показанные сниппеты и негативную информацию (показ без клика).
    • Структурные/Технические факторы (Идентификаторы): Данные, используемые для установления эквивалентности контента:
      • Уникальные идентификаторы: ISBN, продуктовые номера (GTIN).
    • Контентные факторы (Метаданные объекта): Используются для расчета Citation Score при отсутствии явных идентификаторов (например, название объекта, автор/бренд).

    Какие метрики используются и как они считаются

    • Citation Score (Оценка цитирования): Используется для определения Primary Content. Может рассчитываться путем подачи метаданных объекта в качестве запроса к поисковой системе и оценки релевантности анализируемого документа этому запросу. Документ считается посвященным объекту, если Citation Score превышает порог (Citation Threshold).
    • Weighting (Взвешивание): Механизм для комбинирования нативных и заимствованных данных. Логика взвешивания основана на порогах активности (Low/High Thresholds):
      • Если нативных данных очень мало (ниже нижнего порога): Используются преимущественно заимствованные данные.
      • Если нативных данных много (выше верхнего порога): Используются только нативные данные.
      • В промежутке: Данные комбинируются, вес нативных данных растет по мере увеличения их объема.

    Выводы

    1. Решение проблемы «холодного старта» для поведенческих факторов: Основная ценность патента — описание механизма, позволяющего преодолеть нехватку поведенческих данных для нового контента или в вертикалях с низким трафиком путем заимствования этих данных из более крупного корпуса (например, веб-поиска).
    2. Критичность уникальных идентификаторов для кросс-корпусного ранжирования: Механизм зависит от способности системы точно идентифицировать один и тот же объект (товар, книгу) в разных контекстах. Это достигается за счет использования стандартизированных идентификаторов (ISBN, GTIN).
    3. Переносимость поведенческих сигналов (Cross-Vertical Influence): Google рассматривает популярность (клики, dwell time) как переносимый сигнал. Если объект популярен при поиске в вебе, система предполагает, что он должен быть популярен и при поиске в специализированной вертикали по аналогичному запросу.
    4. Идентификация «Основного содержания» веб-страниц: Система имеет механизмы (Citation Score) для определения того, является ли веб-страница преимущественно посвященной конкретному объекту, что необходимо для точного сопоставления и переноса релевантных сигналов.
    5. Механизм постепенного отказа (Weaning): Заимствование данных — это вспомогательное решение. Патент предусматривает механизм взвешивания, который постепенно снижает зависимость от заимствованных сигналов по мере накопления собственных (нативных) поведенческих данных.

    Практика

    Best practices (это мы делаем)

    • Абсолютная точность уникальных идентификаторов (E-commerce, Издатели): Критически важно обеспечить наличие и корректность уникальных идентификаторов (GTIN, MPN, ISBN) в микроразметке (Schema.org Product/Book) и фидах данных (Merchant Center). Это является основой для сопоставления контента между веб-индексом и вертикальным поиском (Shopping, Books).
    • Оптимизация поведенческих факторов в веб-поиске: Поскольку поведенческие данные из основного веб-поиска могут быть перенесены, стратегии по улучшению CTR сниппетов и вовлеченности пользователей (увеличение dwell time) на веб-страницах продукта могут напрямую улучшить ранжирование этого же продукта в Google Shopping.
    • Оптимизация страниц под идентификацию Primary Content: Структурируйте страницы так, чтобы система однозначно определяла их основное содержание. Убедитесь, что страница фокусируется на одном основном объекте. Это помогает системам корректно идентифицировать объект, даже если используются механизмы типа Citation Score.
    • Консистентность данных об объекте: Убедитесь, что метаданные (название, автор, бренд) консистентны во всех источниках (сайт, фиды данных). Это облегчает процесс связывания и идентификации сущности.

    Worst practices (это делать не надо)

    • Игнорирование или неправильное использование идентификаторов: Отсутствие GTIN/ISBN или использование некорректных идентификаторов блокирует работу описанного механизма, лишая контент возможности использовать заимствованные Relevance Data.
    • Изолированная оптимизация только под вертикальный поиск: Сосредоточение усилий только на оптимизации фидов для Google Shopping без учета качества, SEO-оптимизации и пользовательского опыта страниц товаров на сайте. Отсутствие положительных сигналов в веб-поиске лишит вас преимуществ от этого механизма.
    • Создание неоднозначных страниц: Создание страниц, где смешано много разных товаров без явного фокуса, затрудняет определение Primary Content и может помешать переносу сигналов для конкретных товаров.
    • Манипуляции с поведенческими факторами: Накрутка кликов или времени просмотра. Патент упоминает, что используются техники для идентификации и устранения попыток искусственно завысить релевантность.

    Стратегическое значение

    Патент подтверждает стратегию Google по созданию единой экосистемы, где данные из одного сервиса (Web Search) обогащают другой (Vertical Search), основываясь на идентификации сущностей (Entity-Based Search). Для SEO это означает, что оптимизация должна быть холистической: нельзя рассматривать основной поиск и вертикальные поиски как изолированные каналы. Стратегия должна фокусироваться на максимальной структуризации данных (идентификаторы, микроразметка), чтобы Google мог легко идентифицировать и сопоставлять ваши объекты во всех своих индексах.

    Практические примеры

    Сценарий: Запуск нового товара в E-commerce и бустинг в Google Shopping

    1. Подготовка: Магазин запускает новый смартфон. Для него получен уникальный GTIN. На сайте создается страница товара с полной микроразметкой, включающей этот GTIN. Данные также загружаются в Merchant Center.
    2. Индексация и Связывание: Google индексирует страницу товара (Корпус 2 — Веб-поиск) и товар в Merchant Center (Корпус 1 — Google Shopping). Система устанавливает связь между ними по GTIN.
    3. Активность в Веб-поиске: Страница товара на сайте оптимизирована и начинает получать трафик из веб-поиска. Пользователи демонстрируют хорошее вовлечение (высокий CTR, длительное время просмотра) — это положительные Second Relevance Data.
    4. Ранжирование в Google Shopping (Холодный старт): Изначально у товара нет истории кликов в Google Shopping (First Relevance Data отсутствуют).
    5. Перенос сигналов: Система Google Shopping видит нехватку нативных данных, но обнаруживает сильные поведенческие сигналы у эквивалентного документа в веб-поиске. Rank Modifier Engine заимствует эти данные.
    6. Результат: Ранжирование товара в Google Shopping повышается за счет заимствованных данных. По мере накопления собственных кликов в Shopping, влияние заимствованных данных будет снижаться (Weaning).

    Вопросы и ответы

    Применяется ли этот механизм ко всему контенту?

    Нет. Механизм, описанный в патенте, фокусируется на контенте, который можно однозначно идентифицировать как объект (Entity). В тексте прямо упоминаются «физические объекты» с «уникальными идентификаторами», такие как книги (ISBN) и товары (продуктовые номера, например, GTIN). Для абстрактного информационного контента без таких идентификаторов этот механизм переноса сигналов затруднен.

    Какие именно поведенческие данные (Relevance Data) заимствуются?

    Патент упоминает несколько видов Relevance Data. Ключевые из них — это совокупное время просмотра документа пользователями (dwell time), количество выборов результата (клики), а также соотношение показов к кликам (CTR). Эти данные собираются независимо для каждой поисковой системы и привязаны к парам запрос-документ.

    Как система определяет, что две страницы в разных корпусах эквивалентны?

    Эквивалентность устанавливается преимущественно через совпадение уникальных идентификаторов (ISBN, GTIN), извлеченных из обеих страниц. Также система должна убедиться, что этот объект является основным содержанием (Primary Content) страницы, для чего могут использоваться дополнительные методы, такие как расчет Citation Score.

    Что такое Citation Score и как он используется?

    Citation Score используется, когда на странице нет явного идентификатора или она ссылается на несколько объектов, чтобы определить, какой из них является основным. Система оценивает, насколько содержание страницы релевантно метаданным объекта (название, автор/бренд). Объект с наивысшим Citation Score, превышающим определенный порог, признается основным содержанием страницы.

    Будут ли заимствованные данные всегда влиять на ранжирование?

    Нет. Патент описывает механизм взвешивания (weaning). Заимствованные данные оказывают максимальное влияние, когда собственных (нативных) данных мало (проблема «холодного старта»). По мере того как контент набирает собственные клики и просмотры в вертикальном поиске, влияние заимствованных данных пропорционально снижается, и система полагается на нативные сигналы.

    Какое значение это имеет для E-commerce SEO?

    Значение критическое. Во-первых, это подчеркивает абсолютную необходимость корректных GTIN в разметке и фидах. Во-вторых, это означает, что работа над улучшением поведенческих факторов на странице товара в основном веб-поиске может напрямую улучшить видимость этого товара в Google Shopping, особенно на старте продаж.

    Может ли этот механизм навредить, если страница в основном поиске имеет плохие поведенческие факторы?

    Теоретически, да. Если страница товара на сайте имеет очень высокий показатель отказов или короткое время просмотра в основном поиске, эти негативные Relevance Data могут быть заимствованы и понизить рейтинг связанного документа в вертикальном поиске. Логика обмена данными работает в обе стороны.

    Как обеспечить, чтобы система правильно определила Primary Content моей страницы?

    Необходимо структурировать страницу так, чтобы фокус на основном объекте был очевиден. Используйте четкие метаданные (Title, H1), размещайте уникальный идентификатор (GTIN/ISBN) и обеспечьте, чтобы большая часть контента страницы была посвящена именно этому объекту. Это поможет системе корректно идентифицировать основное содержание.

    Собирает ли Google данные о том, что пользователь НЕ кликнул на результат?

    Да. Патент указывает, что в Result Selection Logs может записываться и негативная информация, такая как факт того, что результат был показан пользователю, но не был выбран. Также записываются IR scores всех результатов, показанных до клика, что важно для анализа поведения пользователя в контексте всей выдачи.

    Что происходит, если в веб-индексе есть несколько страниц об одном и том же объекте?

    Патент рассматривает этот сценарий. Система может агрегировать данные о релевантности со всех эквивалентных документов в общем корпусе, усреднять их, либо выбирать данные с наиболее благоприятными значениями. Также возможно использование данных только той страницы, которая была идентифицирована как наиболее авторитетная или каноническая для данного объекта.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.