Как Google группирует варианты товаров (цвет, размер) от разных продавцов, анализируя заголовки и структуру данных

IDENTIFYING PRODUCT VARIANTS (Идентификация вариантов продукта)

US8700494B2
Google LLC
2011-09-06
2014-04-15

Google использует этот механизм для автоматической идентификации и группировки вариантов одного продукта (например, разных цветов или размеров), предлагаемых разными продавцами. Система анализирует заголовки товаров в фидах, выявляет закономерности и создает глобальный каталог вариантов. Для разрешения конфликтов в названиях система выбирает терминологию того продавца, который наиболее полно и последовательно описал все варианты.

Какую проблему решает

Патент решает проблему дезорганизации данных в электронных каталогах (например, Google Shopping), когда один и тот же продукт и его варианты (цвет, размер, объем памяти) предлагаются множеством продавцов с использованием разных структур данных и названий (например, "Красный" vs "Red" vs "Rd"). Это затрудняет сравнение предложений и создает высокую когнитивную нагрузку на пользователя. Система стремится автоматически определить, какие товары являются вариантами друг друга, и нормализовать их представление.

Что запатентовано

Запатентована система для автоматической идентификации вариантов продукта (Product Variants) в большом каталоге, получающем данные от множества продавцов. Изобретение описывает двухэтапный процесс: сначала варианты идентифицируются на уровне отдельного продавца путем анализа заголовков товаров (Product Titles), а затем эти данные агрегируются для построения глобального представления вариантов и разрешения конфликтов в наименованиях и структуре.

Как это работает

Механизм работает следующим образом:

Анализ на уровне продавца: Система анализирует заголовки товаров одного продавца. Она извлекает значения атрибутов (например, "Синий") и заменяет их типами атрибутов (например, "Цвет"), создавая Variant Key (например, "Плеер - Цвет"). Если несколько товаров имеют одинаковый Variant Key, но уникальные значения атрибутов, они группируются в Merchant Cluster.
Глобальный анализ (Уровень каталога): Все предложения от всех продавцов группируются в Product Catalog Entries (одна запись на уникальный вариант товара).
Построение графа и группировка: Каждая Product Catalog Entry аннотируется идентификаторами Merchant Cluster, к которым принадлежат её предложения. Строится граф, связывающий Product Catalog Entries, которые имеют общие Merchant Cluster IDs.
Нормализация и разрешение конфликтов: Внутри каждой группы связанных вариантов (Graph Component) система определяет, какой Merchant Cluster охватывает наибольшее количество Product Catalog Entries. Этот доминирующий кластер используется как канонический источник для определения структуры вариантов и их названий.

Актуальность для SEO

Высокая. Организация и структурирование товарных данных является фундаментальной задачей для Google Shopping, Rich Results и общего поиска по товарам. По мере роста электронной коммерции точность идентификации и группировки вариантов остается критически важной для обеспечения качественного пользовательского опыта и эффективного сравнения предложений.

Важность для SEO

Патент имеет критическое значение для SEO в E-commerce (85/100). Он описывает базовый механизм, с помощью которого Google структурирует товарные предложения в Google Shopping и товарных блоках поиска. Если система не сможет корректно идентифицировать и сгруппировать варианты товаров сайта, это приведет к фрагментированному представлению ассортимента, ухудшению видимости и снижению качества пользовательского опыта при взаимодействии с SERP.

Термины и определения

Graph Component / Connected Component (Компонент графа / Связный компонент): Подграф, в котором Product Catalog Entries (вершины) связаны, потому что они имеют общие Merchant Cluster IDs (ребра). Представляет собой группу глобально идентифицированных вариантов продукта.
Merchant Cluster / Merchant Variant Product Group (Кластер продавца / Группа вариантов продукта продавца): Группа товарных предложений (Product Offers) от одного конкретного продавца, которые система идентифицировала как варианты одного и того же базового продукта.
Merchant Cluster Identifier (Идентификатор кластера продавца): Уникальный идентификатор, присваиваемый Merchant Cluster.
Product Catalog Entry (Запись каталога продуктов): Запись, созданная системой, представляющая один уникальный вариант продукта. Она агрегирует предложения от нескольких продавцов для этого конкретного варианта.
Product Offer (Товарное предложение): Данные, предоставленные продавцом для конкретного продукта, который он продает (включает заголовок, цену, идентификаторы).
Variant Attribute Type (Тип атрибута варианта): Категория атрибута (например, "Цвет", "Размер", "Память").
Variant Attribute Value (Значение атрибута варианта): Конкретное значение атрибута (например, "Синий", "XL", "8GB").
Variant Key (Ключ варианта): Нормализованный заголовок продукта, в котором значения атрибутов заменены их типами (например, "Бренд Модель [Цвет]"). Используется для выявления потенциальных вариантов в фиде продавца.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс идентификации и представления вариантов продукта.

Система получает товарные предложения (Product Offers) от множества продавцов, содержащие заголовки и значения атрибутов вариантов.
Для каждого продавца система идентифицирует наборы предложений, которые, вероятно, являются вариантами (на основе заголовков), и присваивает каждому набору Merchant Cluster Identifier.
Система группирует предложения в Product Catalog Entries, где каждая запись соответствует конкретному варианту продукта.
Система ассоциирует Merchant Cluster Identifier из предложения с Product Catalog Entry, к которой оно принадлежит.
Система группирует Product Catalog Entries, которые имеют пересекающиеся (общие) Merchant Cluster Identifiers.
Ключевой механизм нормализации: Для каждой такой группы система определяет, какой Merchant Cluster Identifier ассоциирован с наибольшим количеством Product Catalog Entries.
Система классифицирует записи, связанные с этим доминирующим идентификатором, как официальный набор вариантов одного продукта.
Система определяет значения атрибутов для этого набора и обеспечивает их представление (Claim 4 уточняет, что используются значения из доминирующего кластера).

Ядро изобретения (пункты 6 и 7) — это механизм разрешения конфликтов. Если Продавец А считает, что у товара есть варианты Красный и Синий, а Продавец Б считает, что есть варианты Алый и Лазурный, система смотрит, чей кластер (А или Б) охватывает большее количество уникальных продуктов (Product Catalog Entries). Кластер с наибольшим охватом "побеждает" и определяет канонические варианты и их названия.

Claim 3 (Зависимый от 1): Детализирует, как происходит идентификация вариантов на уровне продавца (Шаг 2 в Claim 1).

Идентификация предложений продавца, у которых заголовки имеют совпадающие названия продуктов и совпадающие *типы* атрибутов вариантов (т.е. одинаковый Variant Key).
Проверка, имеют ли эти предложения *различные* *значения* атрибутов.
Если да, классификация их как вероятных вариантов.

Это подтверждает, что система полагается на выявление шаблонов в заголовках, где изменяются только определенные атрибуты.

Где и как применяется

Изобретение в основном применяется на этапе индексирования и обработки данных, критически важных для E-commerce поиска (например, Google Shopping).

CRAWLING – Сканирование и Сбор данных
Система получает данные о товарах (Product Offers). Это происходит преимущественно через загрузку продуктовых фидов (например, Google Merchant Center).

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Происходит обработка сырых товарных данных для создания структурированного каталога.

Нормализация и NLP: Анализ заголовков (Product Titles), извлечение атрибутов, генерация Variant Keys.
Кластеризация (Уровень продавца): Идентификация Merchant Clusters и присвоение им ID.
Генерация каталога: Агрегация Product Offers в Product Catalog Entries (дедупликация и группировка на основе идентификаторов GTIN/MPN и других данных).
Идентификация вариантов (Глобальный уровень): Построение графа связей, идентификация Connected Components, определение канонических групп вариантов и нормализация значений атрибутов.

RANKING / METASEARCH
Патент не описывает процесс ранжирования, но структурированные данные о вариантах, полученные на выходе этого процесса, напрямую влияют на то, как продукты отображаются в ответ на запрос (например, объединение вариантов в один сниппет с возможностью выбора цвета).

Входные данные:

Product Offers (Заголовки, Идентификаторы, Описания).
Словари значений и шаблонов атрибутов (используются для извлечения данных из заголовков).

Выходные данные:

Product Catalog Entries, аннотированные канонической информацией о вариантах (к какой группе они принадлежат и каково их нормализованное значение атрибута).

На что влияет

Конкретные типы контента: Влияет исключительно на товарные предложения (E-commerce).
Специфические запросы: Влияет на коммерческие запросы, где пользователи ищут продукты с определенными характеристиками (например, "синие кроссовки Nike Air Max").
Форматы контента: Влияет на представление данных в Google Shopping, товарных каруселях и Rich Results, позволяя группировать варианты в единый интерфейс.
Конкретные ниши или тематики: Наибольшее влияние в нишах с широким ассортиментом вариантов: одежда, обувь, электроника.

Когда применяется

Алгоритм применяется в процессе обработки и индексации товарных фидов или при обновлении продуктового каталога. Он активируется, когда система обнаруживает множественные предложения от одного или нескольких продавцов, которые потенциально относятся к вариантам одного и того же продукта.

Пошаговый алгоритм

Алгоритм состоит из двух основных фаз: группировка на уровне продавца и глобальная группировка.

Фаза А: Группировка вариантов на уровне продавца

Извлечение атрибутов: Для каждого товарного предложения продавца анализируется заголовок. Используются словари или сопоставление с шаблонами (например, регулярные выражения для размеров, рекурсивные определения типа "светлый [Цвет]") для извлечения Variant Attribute Values (например, "Красный").
Генерация Variant Key: Извлеченные значения заменяются соответствующим Variant Attribute Type (например, "Цвет"). Полученный нормализованный заголовок становится Variant Key (например, "Музыкальный Плеер - Цвет").
Идентификация вариантов: Группируются все предложения, имеющие одинаковый Variant Key.
Проверка уникальности: Анализируются извлеченные значения атрибутов внутри группы. Если каждое предложение имеет уникальный набор значений атрибутов (например, одно Красное, другое Синее, дубликатов нет), процесс продолжается.
Присвоение кластера: Если значения уникальны, эти предложения классифицируются как варианты. Этой группе (Merchant Cluster) присваивается уникальный Merchant Cluster Identifier.

Фаза Б: Глобальная группировка вариантов и нормализация

Генерация каталога: Все товарные предложения (от всех продавцов) агрегируются в Product Catalog Entries. Каждая запись представляет один уникальный вариант продукта (используя GTIN, MPN и т.д. для идентификации).
Аннотирование: Для каждой Product Catalog Entry определяются все Merchant Cluster Identifiers, связанные с предложениями, которые она содержит. Создаются пары (Merchant Cluster ID, Catalog Entry ID).
Построение графа (Связывание): Создается связь (ребро графа) между любыми двумя Product Catalog Entries, которые имеют хотя бы один общий Merchant Cluster Identifier.
Анализ связных компонентов: Запускается алгоритм для идентификации Graph Components (групп записей, связанных прямо или косвенно). Каждый компонент представляет собой набор связанных вариантов продукта.
Выбор доминирующего кластера (Нормализация/Разрешение конфликтов): Для каждого Graph Component подсчитывается, сколько Product Catalog Entries связано с каждым присутствующим в компоненте Merchant Cluster Identifier.
Определение канонического варианта: Выбирается Merchant Cluster Identifier, связанный с наибольшим количеством записей. Это "доминирующий кластер".
Нормализация значений атрибутов: Значения атрибутов, извлеченные из доминирующего кластера, используются как канонические значения для представления вариантов в пользовательском интерфейсе. (Например, если доминирующий кластер использует "Синий", используется это значение, а не "Blu" из меньшего кластера).

Какие данные и как использует

Данные на входе

Контентные факторы: Product Title (Заголовок товара) является основным источником данных, используемым для идентификации вариантов в этом патенте.
Технические факторы (Идентификаторы): Упоминаются Product Identifiers (GTIN, UPC, MPN, ISBN, EAN, JAN, Бренд/Модель). Они используются на этапе генерации каталога для группировки предложений в Product Catalog Entries.

Какие метрики используются и как они считаются

Сопоставление с шаблонами / Регулярные выражения (Pattern Matching/Regex): Используется для извлечения значений атрибутов из заголовков (например, поиск соответствия шаблону "D'xD"" для размеров).
Поиск по словарю (Dictionary Lookups): Сравнение терминов в заголовках с известными значениями атрибутов.
Проверка уникальности (Uniqueness Check): Определение уникальности значений атрибутов внутри группы с одинаковым Variant Key.
Анализ графа (Connected Components): Алгоритм теории графов, используемый для глобальной группировки связанных вариантов.
Подсчет частоты (Dominant Cluster): Ключевая метрика нормализации. Кластер, связанный с наибольшим количеством Product Catalog Entries, определяет каноническую структуру и наименования.

Критичность заголовков товаров (Titles): Патент подчеркивает, что Product Titles играют ключевую роль в идентификации вариантов, даже при наличии структурированных данных. Система активно анализирует текст заголовков для понимания структуры ассортимента.
Внутренняя консистентность данных продавца: Процесс начинается на уровне отдельного продавца. Google полагается на последовательность и консистентность в данных (особенно в шаблонах заголовков) внутри фида продавца для формирования Merchant Clusters. Неконсистентные данные затрудняют этот процесс.
Глобальная идентификация как задача теории графов: Для объединения данных от разных продавцов Google строит граф, связывая продукты на основе того, как их группируют сами продавцы. Это позволяет системе находить связи между вариантами, даже если продавцы используют разную терминологию.
Нормализация по принципу большинства (Dominant Cluster): Разрешение конфликтов в названиях и структуре вариантов основано на "правиле большинства" или полноте данных. Продавец (или группа продавцов), который предоставляет наиболее полный и последовательно структурированный набор вариантов, часто определяет каноническое представление для всего каталога Google.
Важность корректных идентификаторов: Хотя анализ заголовков используется для определения *связей* между вариантами, корректные уникальные идентификаторы (GTIN, MPN) для *каждого* варианта необходимы для точного формирования Product Catalog Entries, которые являются основой для глобальной группировки.

Best practices (это мы делаем)

Рекомендации сфокусированы на оптимизации товарных фидов (например, Google Merchant Center) и структуры данных на сайте E-commerce.

Оптимизация Product Titles для ясности вариантов: Убедитесь, что заголовки товаров четко включают ключевые атрибуты вариантов (Цвет, Размер, Объем). Используйте последовательные и консистентные шаблоны (например, Бренд + Линейка + Продукт + Атрибут варианта). Это помогает системе генерировать корректные Variant Keys.
Обеспечение абсолютной внутренней консистентности: Варианты одного и того же продукта должны использовать абсолютно одинаковую базовую структуру заголовка, различаясь только значениями атрибутов. Например, "Рубашка Поло Хлопок - Синий" и "Рубашка Поло Хлопок - Красный", а не "Синяя Рубашка Поло" и "Красная рубашка из хлопка".
Использование четких и недвусмысленных значений атрибутов: Избегайте непонятных сокращений или внутреннего жаргона (например, используйте "Зеленый", а не "Зел" или код цвета). Это увеличивает вероятность того, что ваша терминология будет принята как каноническая (если ваш кластер станет доминирующим).
Предоставление полного охвата вариантов: Предложение полного ассортимента вариантов, четко и последовательно описанных, увеличивает размер вашего Merchant Cluster. Это повышает вероятность его выбора в качестве доминирующего/канонического источника данных.
Точность уникальных идентификаторов (GTIN/MPN): Убедитесь, что для *каждого отдельного варианта* (SKU) указан корректный и уникальный идентификатор. Это критически важно для того, чтобы система могла правильно сгруппировать предложения в Product Catalog Entries.

Worst practices (это делать не надо)

Неконсистентные структуры заголовков: Использование разных форматов заголовков для разных вариантов одного и того же продукта. Это мешает системе идентифицировать их как Merchant Cluster.
Пропуск информации о вариантах в заголовках: Полагаться исключительно на структурированные данные (атрибуты в фиде или schema.org) для дифференциации вариантов, не указывая их в Product Title. Патент показывает, что заголовки активно анализируются.
Использование двусмысленных атрибутов или сокращений: Использование терминологии, которая может быть непонятна системе или конфликтовать с общепринятыми названиями.
Некорректные идентификаторы: Использование GTIN базового продукта для всех его вариантов. Это приводит к некорректному формированию Product Catalog Entries и разрушает группировку вариантов.

Стратегическое значение

Патент подтверждает, что качество, консистентность и полнота данных в электронной коммерции являются прямыми факторами успеха. Он демонстрирует, как Google пытается нормализовать хаотичные данные продавцов, находя консенсус. Продавцы с высококачественными, последовательными и полными данными получают преимущество, поскольку они фактически "обучают" систему тому, как должны быть структурированы и представлены их продукты в экосистеме Google. Это напрямую влияет на пользовательский опыт и видимость в товарных вертикалях поиска.

Практические примеры

Сценарий: Оптимизация фида для группировки вариантов футболок

Ситуация ДО оптимизации (Плохо):
Продавец предоставляет фид с неконсистентными заголовками.

Offer 1: Title: "Крутая футболка ACME, Красная, L", GTIN: 111
Offer 2: Title: "ACME Футболка Синяя Размер М", GTIN: 222
Offer 3: Title: "Зеленая футболка ACME (S)", GTIN: 333

Результат: Система не может надежно сгенерировать Variant Key из-за разных структур. Товары отображаются в поиске как отдельные продукты, не связанные друг с другом.

Ситуация ПОСЛЕ оптимизации (Хорошо):
Продавец стандартизирует заголовки по шаблону: Продукт + Бренд + Цвет + Размер.

Offer 1: Title: "Футболка Classic Хлопок ACME - Красный - L", GTIN: 111
Offer 2: Title: "Футболка Classic Хлопок ACME - Синий - M", GTIN: 222
Offer 3: Title: "Футболка Classic Хлопок ACME - Зеленый - S", GTIN: 333

Процесс системы:

Извлечение: Система извлекает значения (Красный, L; Синий, M; Зеленый, S).
Генерация Variant Key: Система генерирует ключ: "Футболка Classic Хлопок ACME - [Цвет] - [Размер]".
Группировка: Все три предложения имеют одинаковый ключ и уникальные значения. Они группируются в Merchant Cluster.
Результат: Товары корректно идентифицируются как варианты. В Google Shopping и Поиске они отображаются как один продукт с возможностью выбора цвета и размера.

Являются ли заголовки (Titles) товаров действительно важными, если я уже предоставляю все атрибуты вариантов через структурированные данные (Schema.org или атрибуты фида)?

Да, заголовки критически важны в контексте этого патента. Он демонстрирует, что Google активно использует анализ Product Titles как основной механизм для идентификации и группировки вариантов на уровне продавца (формирование Merchant Cluster). Хотя структурированные данные также важны, консистентность и информативность заголовков необходимы для обеспечения корректной работы описанного алгоритма.

Как Google решает, какие названия цветов использовать, если я называю цвет "Лазурный", а мой конкурент "Синий"?

Google использует механизм "доминирующего кластера". Система определяет, какой Merchant Cluster (набор вариантов от одного продавца или группы продавцов с одинаковой структурой) охватывает наибольшее количество уникальных вариантов продукта (Product Catalog Entries). Терминология этого доминирующего кластера принимается как каноническая. Если большинство продавцов используют "Синий", Google, вероятно, выберет его.

Что такое Variant Key и почему он важен для SEO?

Variant Key — это нормализованная версия заголовка вашего продукта, где конкретные значения атрибутов заменены их типами (например, "Рубашка - [Цвет]"). Это внутренний механизм Google для идентификации товаров, которые отличаются только вариантами. Для SEO это означает, что структура ваших заголовков должна быть максимально последовательной для всех вариантов, чтобы система могла легко сгенерировать этот ключ и сгруппировать товары.

Что произойдет, если я использую один и тот же GTIN для всех вариантов продукта?

Это серьезная ошибка. На этапе глобальной группировки (Фаза Б) система использует идентификаторы (такие как GTIN) для создания Product Catalog Entries, каждая из которых должна представлять уникальный вариант. Если все варианты имеют один GTIN, система может ошибочно объединить их в одну запись каталога, что приведет к путанице в данных, некорректному отображению и проблемам с отслеживанием.

Как я могу повысить вероятность того, что Google будет использовать именно мою структуру и названия вариантов как канонические?

Чтобы стать "доминирующим кластером", необходимо обеспечить три вещи: 1) Полноту ассортимента (предлагать как можно больше вариантов продукта); 2) Абсолютную консистентность в структуре данных и заголовков для всех этих вариантов; 3) Использование четкой, общепринятой терминологии для названий атрибутов. Чем больше и чище ваш Merchant Cluster, тем выше его авторитет для системы.

Влияет ли этот патент на обычный веб-поиск или только на Google Shopping?

Он в первую очередь влияет на Google Shopping и любые функции поиска, которые отображают структурированные данные о товарах, такие как Rich Results, товарные карусели и панели знаний о продуктах. Корректная группировка вариантов улучшает представление вашего ассортимента в этих блоках, что косвенно влияет на общий трафик и конверсии из органического поиска.

Что такое Merchant Cluster?

Merchant Cluster — это группа товаров от одного продавца, которые система идентифицировала как варианты одного базового продукта. Например, если вы продаете одну модель футболки в трех цветах и последовательно их называете, эти три товара сформируют Merchant Cluster. Эти кластеры затем используются для глобальной группировки вариантов между разными продавцами.

Как система извлекает атрибуты из заголовков?

Патент упоминает использование словарей и сопоставление с шаблонами. Это может включать поиск известных названий цветов, использование регулярных выражений для идентификации размеров или объемов (например, "8GB", "12x24"), и даже рекурсивные определения (например, распознавание "Светло-зеленый", если известны "Светлый" и "Зеленый").

Что произойдет, если мои данные о вариантах противоречат данным производителя?

Система ищет консенсус на основе всех полученных данных. Если данные производителя предоставлены (напрямую или через других продавцов) и они формируют более крупный и последовательный Merchant Cluster, чем ваш, то данные производителя, вероятно, будут выбраны как канонические. Рекомендуется придерживаться терминологии и структуры данных производителя.

Насколько быстро система реагирует на изменения в моем товарном фиде?

Описанный процесс происходит на этапе индексирования и обработки данных каталога. Изменения будут отражены после того, как Google обработает обновленный фид и проведет повторную кластеризацию и анализ графа. Это не происходит в реальном времени и зависит от частоты обновления данных в Google Merchant Center и скорости индексации продуктового каталога.

Как Google кластеризует и фильтрует похожие товары одного продавца в Google Shopping для повышения разнообразия выдачи

Google использует систему для обнаружения и фильтрации почти дублирующихся товаров в системах онлайн-покупок (например, Google Shopping). Система вычисляет «расстояние» между товарами одного и того же продавца на основе их атрибутов (название, модель, описание, изображение). Похожие товары объединяются в кластеры, и при формировании выдачи система ограничивает количество товаров из одного кластера, чтобы повысить разнообразие продуктов на странице результатов.

US9342849B2
2016-05-17

Google Shopping
SERP
Индексация

Как Google использует GTIN, MPN и машинное обучение для определения синонимов брендов в каталоге товаров

Google использует механизм машинного обучения для решения проблемы несогласованности данных в фидах мерчантов. Система анализирует пары товарных предложений с одинаковыми идентификаторами (GTIN, MPN), но разными названиями брендов. Путем расчета метрик схожести (цены, заголовка) и статистического анализа система определяет, являются ли разные названия (например, «HP» и «Hewlett-Packard») синонимами одного и того же бренда для корректной группировки товаров.

US8655737B1
2014-02-18

Google Shopping
Семантика и интент

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2015-10-27

Индексация
Краулинг
Семантика и интент

Как Google автоматизирует создание структуры категорий и оптимизирует мерчандайзинг на сайтах E-commerce

Система для автоматической организации интернет-магазинов. Она анализирует товарный фид, используя NLP для создания релевантных категорий. Затем система сортирует товары внутри категорий, применяя алгоритмы оптимизации (Decision Trees), основанные на данных о продажах (конверсии, отказы) и внешних поисковых трендах, для максимизации эффективности сайта мерчанта.

US20170116658A1
2017-04-27

Семантика и интент
Структура сайта
Поведенческие сигналы

Как Google разбирает изображения на части для визуального поиска товаров (e.g., Google Lens)

Система Google для визуального поиска товаров, которая анализирует изображения, извлекая глобальные и локальные признаки (цвет, форма, текстура). Патент описывает, как это позволяет пользователям искать похожие товары, выделяя конкретные части объекта (например, узор на сумке или форму каблука), используя технологию, лежащую в основе Google Lens.

US9008435B2
2015-04-14

Мультимедиа
Индексация
Google Shopping

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

US9098511B1
2015-08-04

Поведенческие сигналы
Мультимедиа
SERP

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

US7664734B2
2010-02-16

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента

Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.

US8595619B1
2013-11-26

Поведенческие сигналы
SERP

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP