Как Google использует GTIN, MPN и машинное обучение для определения синонимов брендов в каталоге товаров

BRAND NAME SYNONYMY (Синонимия названий брендов)

US8655737B1
Google LLC
2011-01-31
2014-02-18

Google использует механизм машинного обучения для решения проблемы несогласованности данных в фидах мерчантов. Система анализирует пары товарных предложений с одинаковыми идентификаторами (GTIN, MPN), но разными названиями брендов. Путем расчета метрик схожести (цены, заголовка) и статистического анализа система определяет, являются ли разные названия (например, «HP» и «Hewlett-Packard») синонимами одного и того же бренда для корректной группировки товаров.

Какую проблему решает

Патент решает проблему неоднозначности и несогласованности в данных о товарных предложениях, получаемых от разных продавцов. Мерчанты часто используют разные названия для одного и того же бренда (например, «LEXAR» и «LEXAR MEDIA», или сложные случаи как «BAND-AID» и «JOHNSON & JOHNSON»). Кроме того, использование идентификаторов продуктов (GTIN, MPN) также непоследовательно. Это затрудняет агрегацию и сравнение товаров в электронных каталогах (например, Google Shopping). Изобретение улучшает качество каталога, позволяя системе автоматически определять синонимичные названия брендов (Brand Name Synonymy).

Что запатентовано

Запатентована система и метод для автоматического выявления синонимии названий брендов в каталоге продуктов. Система анализирует пары товарных предложений (Product Offer Pairs), которые имеют схожие идентификаторы продуктов (Product Identifiers), но разные названия брендов. Путем вычисления различных параметров сходства и применения модели машинного обучения (machine learned classifier model, например, логистической регрессии), система определяет вероятность того, что два разных названия бренда относятся к одному и тому же объекту.

Как это работает

Система работает путем анализа агрегированных данных из каталога продуктов:

Группировка по идентификаторам: Сначала система находит товарные предложения с одинаковыми или похожими идентификаторами (например, MPN или GTIN) и формирует из них пары (Product Offer Pairs).
Группировка по брендам: Эти пары группируются на основе названий брендов в них. Например, все пары, где один товар имеет бренд «A», а другой — бренд «B», попадают в группу пары брендов {A, B} (Brand Pair Group).
Вычисление параметров: Для каждой пары товаров вычисляются метрики сходства (Product Parameters, например, сходство заголовков, цен). Для каждой группы пары брендов вычисляются агрегированные метрики (Brand Parameters, например, строковое сходство названий, степень пересечения GTIN/MPN).
Классификация: Все вычисленные параметры подаются на вход обученной статистической модели, которая классифицирует пару брендов как синонимичную (приемлемую/related) или нет.
Применение: Информация о синонимии брендов используется для более точной идентификации и кластеризации товарных предложений, относящихся к одному и тому же продукту.

Актуальность для SEO

Высокая. Реконсиляция сущностей (Entity Reconciliation) и нормализация данных являются фундаментальными задачами для Google, особенно в контексте Google Shopping и построения графа знаний о товарах (Product Knowledge Graph). Способность точно идентифицировать бренды и товары, несмотря на «шумные» данные от мерчантов, критически важна для качества поиска товаров.

Важность для SEO

Патент имеет высокое значение для E-commerce SEO (8/10). Он раскрывает механизм, как Google использует уникальные идентификаторы (GTIN, MPN) в качестве основного анкоря для понимания структуры каталога и идентификации брендов. Это подчеркивает критическую важность предоставления точных и полных структурированных данных о товарах. Если идентификаторы отсутствуют или неверны, система не сможет корректно связать предложения и определить бренд, что приведет к потере видимости в товарной выдаче.

Термины и определения

Brand Name Pair (Пара названий брендов): Два названия бренда, извлеченные из пары товарных предложений, которые имеют схожий идентификатор продукта.
Brand Pair Group (Группа пары брендов): Набор всех пар товарных предложений (Product Offer Pairs), которые имеют одну и ту же пару названий брендов.
Brand Parameters (Параметры бренда): Метрики, вычисляемые на уровне Brand Pair Group. Включают сходство названий брендов (Brand Name Similarity) и метрики перекрытия (Overlap Parameters).
GTIN (Global Trade Item Number): Глобальный номер товарной продукции (включая ISBN, UPC, EAN). Используется как Product Identifier.
Identifier Complexity (Сложность идентификатора): Метрика, оценивающая длину или сложность идентификатора продукта (MPN или GTIN), по которому были связаны два товарных предложения. Более длинные совпадения считаются более надежными.
Machine Learned Classifier Model (Обученная модель классификатора): Статистическая модель (например, логистическая регрессия, SVM), обученная на размеченных данных для классификации пар брендов как синонимичных или нет.
MPN (Manufacturer Part Number): Артикул производителя. Используется как Product Identifier.
Overlap Parameters (Параметры перекрытия): Метрики (Brand Overlap, GTIN Overlap, MPN Overlap), оценивающие степень совпадения данных между двумя брендами в каталоге. Рассчитываются с использованием геометрического среднего для нормализации.
Product Identifier (Идентификатор продукта): Атрибут для идентификации продукта (например, GTIN, MPN, SKU).
Product Offer Pair (Пара товарных предложений): Два товарных предложения, связанные вместе на основании схожести их идентификаторов продуктов.
Product Parameters (Параметры продукта): Метрики, вычисляемые на уровне отдельной Product Offer Pair. Включают сходство заголовков (Title Similarity), сходство GTIN, сходство цен (Price Similarity) и сложность идентификатора.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации связанных названий брендов.

Система получает множество товарных предложений (каждое с Брендом и Идентификатором).
Идентифицируются предложения с похожими (similar) идентификаторами продукта.
На основе этого создаются пары товарных предложений (Product Offer Pairs).
Извлекаются названия брендов из пар предложений для создания пар названий брендов (Brand Name Pairs).
Пары предложений группируются по их паре названий брендов (Brand Pair Groups).
Для каждой пары предложений вычисляется по крайней мере один параметр продукта (Product Parameter), основанный на атрибутах предложений в паре.
Для каждой группы пары брендов вычисляется по крайней мере один параметр бренда (Brand Parameter).
Применяется обученная модель классификатора (machine learned classifier model) к вычисленным параметрам.
На основе вывода модели определяется, связаны ли два названия бренда (являются ли они синонимами).

Claims 2-5 (Зависимые): Уточняют, что может входить в Product Parameters.

Claim 2: Сходство заголовков (Title Similarity).
Claim 3: Сходство GTIN.
Claim 4: Сходство цен (Price Similarity).
Claim 5: Сложность идентификатора (Identifier Complexity).

Claims 6-9 (Зависимые): Уточняют, что может входить в Brand Parameters.

Claim 6: Сходство между двумя названиями брендов (Brand Name Similarity).
Claim 7 (Brand Overlap): Общее количество пар предложений в группе, деленное на геометрическое среднее (geometric mean) общего количества предложений для каждого из двух брендов в каталоге.
Claim 8 (GTIN Overlap): Количество уникальных GTIN в группе, деленное на геометрическое среднее количества уникальных GTIN для каждого из двух брендов в каталоге.
Claim 9 (MPN Overlap): Аналогичный расчет для MPN.

Claim 10 (Зависимый): Указывает, что параметры модели классификатора могут быть определены с использованием логистической регрессии (logistic regression).

Где и как применяется

Изобретение применяется в системах управления каталогами продуктов (например, Google Shopping) для нормализации и структурирования данных.

CRAWLING – Сканирование и Сбор данных
Система собирает товарные предложения от множества продавцов через фиды данных (Merchant Feeds), сканирование веб-сайтов или API. Это «сырье» для анализа.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Полученные данные обрабатываются и структурируются. Процесс идентификации синонимии брендов является частью этапа извлечения признаков и реконсиляции сущностей (Entity Reconciliation).

Нормализация данных: Приведение данных от разных продавцов к единому формату.
Идентификация сущностей: Определение того, что разные строки текста относятся к одному и тому же бренду с помощью описанного механизма.
Кластеризация продуктов: Группировка предложений, относящихся к одному каноническому продукту, используя результаты анализа синонимии.

RANKING / METASEARCH – Ранжирование и Метапоиск
Результаты работы алгоритма напрямую влияют на отображение продуктов в Google Shopping и Product Knowledge Panels. Корректная группировка предложений позволяет пользователю увидеть полный набор вариантов покупки для искомого продукта.

Входные данные:

Каталог товарных предложений (Product Catalog).
Атрибуты предложений: Название бренда, Идентификатор продукта (GTIN, MPN), Заголовок, Цена.

Выходные данные:

Классификация пар брендов (синонимичные/несинонимичные).
Обогащенный каталог продуктов с нормализованными данными о брендах и сгруппированными товарными предложениями.

На что влияет

Конкретные типы контента: В первую очередь влияет на товарные предложения (E-commerce), Google Shopping, Product Knowledge Panels.
Специфические запросы: Коммерческие и продуктовые запросы.
Конкретные ниши или тематики: Особенно сильно влияет на ниши со сложной структурой брендов, суббрендов, ребрендинга или OEM-продуктов (например, электроника, автозапчасти, фармацевтика).

Когда применяется

При каких условиях работает алгоритм: Алгоритм работает при наличии достаточного объема данных в каталоге продуктов для выявления статистически значимых пересечений по идентификаторам продуктов.
Триггеры активации: Наличие предложений с совпадающими идентификаторами, но разными названиями брендов.
Временные рамки и частота применения: Процесс, вероятно, выполняется периодически в пакетном (офлайн) режиме для обновления данных о синонимии по мере обновления каталога.

Пошаговый алгоритм

Процесс А: Идентификация синонимов брендов

Создание пар предложений: Группировка товарных предложений в пары (Product Offer Pairs) на основе совпадения или схожести идентификаторов продуктов (например, MPN или GTIN).
Создание групп пар брендов: Идентификация уникальных пар брендов (Brand Name Pairs) и создание соответствующих групп (Brand Pair Groups). Назначение пар предложений в эти группы.
Вычисление параметров продукта (Product Parameters): Для каждой пары товарных предложений вычисляются метрики:
- Сходство заголовков (Title Similarity): например, косинусное сходство токенов в заголовках.
- Сходство GTIN: например, отношение длины самого длинного общего префикса к длине самого длинного GTIN.
- Сходство цен (Price Similarity): например, отношение меньшей цены к большей.
- Сложность идентификатора (Identifier Complexity): например, длина совпадающего идентификатора.
Агрегация параметров продукта: Для каждой группы пары брендов вычисляется агрегированный параметр на основе параметров продукта всех пар в этой группе (например, среднее арифметическое).
Вычисление параметров бренда (Brand Parameters): Для каждой пары брендов вычисляются метрики:
- Сходство названий брендов (Brand Name Similarity): например, на основе расстояния редактирования или косинусного сходства токенов.
- Перекрытие брендов (Brand Overlap): Общее количество пар в группе, нормализованное (через геометрическое среднее) на общее количество предложений для каждого бренда в каталоге.
- Перекрытие GTIN (GTIN Overlap): Количество уникальных GTIN в группе, нормализованное на количество уникальных GTIN для каждого бренда.
- Перекрытие MPN (MPN Overlap): Аналогичный расчет для MPN.
Классификация: Все вычисленные параметры подаются на вход обученной статистической модели (например, логистической регрессии).
Применение порога уверенности: Использование порога уверенности (confidence threshold) для разделения классификаций на приемлемые (синонимичные) и неприемлемые пары брендов.

Процесс Б: Использование синонимов для кластеризации продуктов

Оценка пар предложений: Использование классификации пар брендов и других атрибутов для идентификации пар предложений, относящихся к одному и тому же продукту.
Классификация релевантности: Присвоение классификации парам товарных предложений (связаны или не связаны).
Сохранение и использование: Сохранение классификации в каталоге продуктов для последующего использования.

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные из товарных предложений в каталоге (Merchant Feeds).

Контентные факторы:
- Заголовки (Titles): Используются для вычисления Title Similarity. Текст токенизируется, может нормализоваться.
- Названия брендов (Brand Names): Являются объектом анализа синонимии и используются для вычисления Brand Name Similarity.
Технические/Структурные факторы (Идентификаторы):
- GTIN (UPC, EAN, ISBN): Ключевые данные для создания пар предложений и вычисления GTIN Similarity и GTIN Overlap.
- MPN (Артикулы производителя): Используются для создания пар предложений и вычисления Identifier Complexity и MPN Overlap.
- SKU: Могут использоваться как идентификаторы.
Коммерческие факторы:
- Цены (Prices): Используются для вычисления Price Similarity.

Какие метрики используются и как они считаются

Патент детально описывает вычисление метрик для модели машинного обучения.

Методы анализа текста (NLP):
- Косинусное сходство (Cosine Similarity): Используется для Title Similarity и Brand Name Similarity (на основе токенов).
- Расстояние редактирования (Edit Distance): Используется для Brand Name Similarity (на основе строк).
Статистические методы и расчеты:
- Title Similarity: Косинусное сходство токенов заголовков (после возможного удаления идентификаторов из текста).
- GTIN Similarity: Отношение длины самого длинного общего префикса GTIN к длине самого длинного GTIN (возможно, игнорируя ведущие нули).
- Price Similarity: Отношение меньшей цены к большей.
- Identifier Complexity: Длина совпадающего идентификатора (с возможной нормализацией повторяющихся символов, например, нулей).
- Overlap Parameters (Brand, GTIN, MPN): Рассчитываются как отношение количества пересечений к геометрическому среднему (geometric mean) общего количества элементов для каждого бренда. Это обеспечивает нормализацию, учитывающую размер бренда.
Алгоритмы машинного обучения:
- Логистическая регрессия (Logistic Regression): Явно упоминается как метод для обучения модели классификатора. Также упоминаются альтернативы: SVM, деревья решений, нейронные сети.
Пороговые значения: Используется порог уверенности (confidence threshold) для финальной классификации на основе вывода модели ML.

Уникальные идентификаторы (GTIN/MPN) — анкорь для реконсиляции: Патент демонстрирует, что Google полагается на GTIN и MPN как на основной сигнал для связи товарных предложений. Именно совпадение этих идентификаторов запускает процесс анализа синонимии брендов.
Синонимия вычисляется статистически, а не только лингвистически: Система использует косвенные сигналы (совпадение идентификаторов, сходство цен и заголовков), чтобы определить связь между брендами, даже если строковое сходство низкое (например, суббренд и материнская компания).
Использование ML для взвешивания факторов: Модель машинного обучения (например, логистическая регрессия) используется для определения весов различных параметров (Title Similarity, Price Similarity, Overlap Parameters) и принятия финального решения о синонимии.
Важность нормализации данных: При расчете Overlap Parameters используется геометрическое среднее. Это критично для нормализации, чтобы избежать перекоса в сторону крупных брендов с большим количеством предложений.
Качество данных мерчанта критично: Механизм зависит от наличия и точности данных в фидах. Ошибки в GTIN/MPN не позволят системе корректно идентифицировать пары предложений и, следовательно, точно определить бренд и сгруппировать товар.

Best practices (это мы делаем)

Обеспечение 100% точности и полноты GTIN и MPN: Это критически важно. Необходимо внедрить процессы валидации идентификаторов в товарных фидах (Google Merchant Center) и в микроразметке Schema.org/Product. Эти идентификаторы являются основными ключами для анализа брендов.
Четкие и информативные заголовки (Titles): Создавайте описательные заголовки, содержащие ключевые токены продукта. Поскольку Title Similarity (рассчитывается через косинусное сходство) является признаком в модели классификатора, это помогает системе подтвердить связь между предложениями.
Консистентность данных: Старайтесь использовать каноническое название бренда в атрибуте brand. Данные в фидах должны совпадать с данными в микроразметке на сайте.
Мониторинг Merchant Center и Product Knowledge Panels: Регулярно проверяйте отчеты об ошибках идентификаторов в Merchant Center и отслеживайте, как Google группирует ваши товары в выдаче. Некорректная группировка указывает на проблемы с данными.
Использование Schema.org для связывания сущностей: Если продукт продается под суббрендом, можно явно указать связь с материнской компанией в разметке (например, через parentOrganization), чтобы помочь системе идентифицировать связь.

Worst practices (это делать не надо)

Игнорирование или подделка GTIN/MPN: Пропуск идентификаторов или использование некорректных данных (например, внутренних SKU вместо GTIN) лишает систему возможности связать ваши предложения с другими и корректно проанализировать бренд.
Использование названия магазина вместо бренда производителя: Указание названия вашего магазина в поле brand, если вы не производитель. Это создает шум в данных и затрудняет идентификацию реального бренда.
Манипуляции с заголовками (Keyword Stuffing): Перенасыщение заголовков может снизить Title Similarity с другими предложениями того же продукта, ухудшая сигналы для классификатора.
Значительное отклонение цен: Поскольку Price Similarity является фактором, аномальные цены могут снизить уверенность системы в том, что предложения относятся к одному и тому же продукту.

Стратегическое значение

Этот патент подчеркивает стратегическую важность качества данных (Data Quality) и управления данными о продуктах (PIM) в E-commerce SEO. Google активно строит структурированный Product Knowledge Graph, и точность данных напрямую влияет на то, как система понимает ассортимент ритейлера. Техническая оптимизация товарных фидов и микроразметки является необходимым условием для обеспечения максимальной видимости в Google Shopping и товарных блоках выдачи.

Практические примеры

Сценарий: Обеспечение корректной идентификации суббренда

Задача: Интернет-магазин продает ноутбуки линейки «Omen», которая является суббрендом «HP». Необходимо убедиться, что Google корректно связывает эти сущности, даже если другие продавцы указывают бренд по-разному.

Действия:

Проверка идентификаторов: Убедиться, что для каждого ноутбука Omen указан корректный GTIN (UPC/EAN) и MPN, предоставленные HP. Это самый важный шаг.
Заполнение атрибута Brand: В товарном фиде и микроразметке указать Brand консистентно (например, «HP Omen» или «HP»).
Оптимизация заголовков: Включить в заголовок ключевые характеристики: «HP Omen 15 Gaming Laptop RTX 3060».

Ожидаемый результат (Работа системы Google):

Google находит совпадения по GTIN/MPN с фидами других ритейлеров, которые могут указывать бренд как «HP» или «Omen». Система создает Brand Pair Groups. Рассчитываются высокие значения Title Similarity, Price Similarity и Overlap Parameters. Модель классификатора определяет, что эти пары являются синонимами в контексте этих товаров. Товар корректно группируется в выдаче.

Насколько критично наличие GTIN и MPN в контексте этого патента?

Критически важно. GTIN и MPN являются основными анкорями (Product Identifiers), которые система использует для создания пар товарных предложений. Если идентификаторы отсутствуют или неверны, система не сможет надежно связать предложения от разных мерчантов, что делает невозможным анализ синонимии брендов и корректную группировку товаров в каталоге.

Как Google понимает, что «Band-Aid» и «Johnson & Johnson» — это один и тот же бренд, если названия совершенно разные?

Система не полагается на сходство названий. Она находит множество пар товаров, где один продавец указал «Band-Aid», а другой «Johnson & Johnson», но при этом у товаров одинаковый GTIN или MPN. Если таких пар много, заголовки похожи (высокая Title Similarity), а цены близки (высокая Price Similarity), система фиксирует сильное пересечение (GTIN Overlap). На основе этих данных модель машинного обучения классифицирует названия как синонимы.

Как рассчитывается схожесть заголовков (Title Similarity) и как это использовать?

В патенте упоминается косинусное сходство (cosine similarity) токенов в заголовках. Это означает, что система оценивает, насколько пересекаются слова (токены) в двух заголовках. Для SEO это подчеркивает важность включения ключевых, описательных терминов и атрибутов товара в заголовок, чтобы он был похож на то, как этот же товар называют другие авторитетные ритейлеры.

Что такое «Сложность идентификатора» (Identifier Complexity) и почему она важна?

Это метрика, оценивающая длину и сложность совпадающего идентификатора (например, MPN). Логика в том, что совпадение коротких или простых идентификаторов (например, «123») может быть случайным, тогда как совпадение длинного и сложного идентификатора (например, «XJ9-00345-B2») является гораздо более сильным сигналом того, что предложения относятся к одному и тому же товару.

Влияет ли цена товара на идентификацию бренда?

Да, косвенно. Price Similarity (схожесть цен) является одним из признаков, подаваемых в модель машинного обучения. Если два предложения имеют одинаковый MPN, но сильно различающиеся цены, это может снизить уверенность системы в том, что это один и тот же товар, что, в свою очередь, повлияет на анализ синонимии брендов, связанных с этими предложениями.

Какой метод машинного обучения использует Google согласно патенту?

Патент явно упоминает Логистическую регрессию (Logistic Regression) как один из методов для обучения модели классификатора. Также упоминаются другие варианты, такие как деревья решений, SVM (метод опорных векторов) и нейронные сети. Система использует контролируемое обучение на основе размеченных тренировочных данных.

Что такое параметры перекрытия (Overlap Parameters) и зачем используется геометрическое среднее?

Параметры перекрытия измеряют, насколько часто два бренда встречаются вместе в парах с одинаковыми идентификаторами. Геометрическое среднее используется для нормализации этой метрики, чтобы учесть размер (популярность) брендов. Это предотвращает ситуацию, когда связь с очень крупным брендом автоматически получает высокий балл только из-за большого количества его предложений в каталоге.

Означает ли этот патент, что можно не беспокоиться о консистентности названия бренда в фидах?

Нет. Хотя система разработана для решения проблемы несогласованности, предоставление чистых и консистентных данных всегда предпочтительнее. Использование канонического названия бренда снижает вероятность ошибок классификации и уменьшает зависимость от статистических моделей для идентификации вашего бренда. Чистые данные повышают общую надежность обработки вашего фида.

Какова роль этого патента в контексте Product Knowledge Graph?

Этот патент описывает ключевой механизм реконсиляции сущностей (Entity Reconciliation) на уровне брендов и товаров. Для построения точного Графа Знаний о товарах необходимо уметь связывать разрозненные и шумные данные от мерчантов с каноническими сущностями. Описанный алгоритм обеспечивает эту связь.

Что делать, если мои товары неправильно группируются в Google Shopping?

Необходимо провести аудит качества данных в ваших товарных фидах и микроразметке. В первую очередь, проверить корректность и полноту GTIN и MPN. Также следует проверить консистентность названий брендов и убедиться, что заголовки товаров достаточно информативны. Исправление ошибок в идентификаторах является наиболее эффективным способом решения проблем с группировкой.

Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

US20120254158A1
2012-10-04

Google Shopping
SERP
Семантика и интент

Как Google группирует варианты товаров (цвет, размер) от разных продавцов, анализируя заголовки и структуру данных

Google использует этот механизм для автоматической идентификации и группировки вариантов одного продукта (например, разных цветов или размеров), предлагаемых разными продавцами. Система анализирует заголовки товаров в фидах, выявляет закономерности и создает глобальный каталог вариантов. Для разрешения конфликтов в названиях система выбирает терминологию того продавца, который наиболее полно и последовательно описал все варианты.

US8700494B2
2014-04-15

Google Shopping
Индексация

Как Google автоматизирует создание структуры категорий и оптимизирует мерчандайзинг на сайтах E-commerce

Система для автоматической организации интернет-магазинов. Она анализирует товарный фид, используя NLP для создания релевантных категорий. Затем система сортирует товары внутри категорий, применяя алгоритмы оптимизации (Decision Trees), основанные на данных о продажах (конверсии, отказы) и внешних поисковых трендах, для максимизации эффективности сайта мерчанта.

US20170116658A1
2017-04-27

Семантика и интент
Структура сайта
Поведенческие сигналы

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2015-10-27

Индексация
Краулинг
Семантика и интент

Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов

Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.

US8266115B1
2012-09-11

Индексация

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL

Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.

US20140280133A1
2014-09-18

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки

Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).

US20180357238A1
2018-12-13

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы