Как Google кластеризует и фильтрует похожие товары одного продавца в Google Shopping для повышения разнообразия выдачи

NEAR-DUPLICATE FILTERING IN SEARCH ENGINE RESULT PAGE OF AN ONLINE SHOPPING SYSTEM (Фильтрация почти дубликатов на странице результатов поиска системы онлайн-шоппинга)

US9342849B2
Google LLC
2013-09-19
2016-05-17

Google использует систему для обнаружения и фильтрации почти дублирующихся товаров в системах онлайн-покупок (например, Google Shopping). Система вычисляет «расстояние» между товарами одного и того же продавца на основе их атрибутов (название, модель, описание, изображение). Похожие товары объединяются в кластеры, и при формировании выдачи система ограничивает количество товаров из одного кластера, чтобы повысить разнообразие продуктов на странице результатов.

Какую проблему решает

Патент решает проблему снижения разнообразия (diversity) в результатах поиска системы онлайн-шоппинга (например, Google Shopping), когда выдача перенасыщена почти идентичными товарами (near-duplicate entries). Особый фокус сделан на дубликатах от одного и того же продавца (intra-company near duplicates), так как их доминирование в SERP мешает пользователю увидеть предложения других продавцов или другие продукты этого же мерчанта.

Что запатентовано

Запатентован метод и система для сокращения количества почти дубликатов от одного продавца в результатах поиска по товарам. Суть изобретения заключается в вычислении метрики «расстояния» (distance) между всеми парами товаров продавца на основе их атрибутов и последующей кластеризации похожих товаров. При ответе на запрос система применяет фильтры на основе идентификатора кластера (cluster identifier) или рассчитанного расстояния, чтобы ограничить показ дубликатов.

Как это работает

Механизм работает в два основных этапа:

Офлайн (Индексация): Система группирует товары по продавцам. Для каждой пары товаров одного продавца вычисляется нормализованное расстояние (distance) как взвешенная сумма редакционных расстояний (edit distance) их атрибутов (название, модель, описание, изображение). Строится граф схожести. Товары, расстояние между которыми меньше порога (например, 0.05, что означает 95% схожести), объединяются в кластеры. Каждый товар аннотируется идентификатором кластера (cluster_id).
Онлайн (Фильтрация/Переранжирование): При формировании поисковой выдачи система использует данные о кластерах для фильтрации. Например, применяется краудинг (crowding) — ограничение количества отображаемых товаров из одного кластера (часто до одного).

Актуальность для SEO

Высокая для E-commerce и Google Shopping. Управление вариантами товаров, дедупликация фидов и обеспечение разнообразия выдачи остаются критически важными задачами для агрегаторов товаров. Описанные методы кластеризации на основе атрибутов активно используются для улучшения качества поиска по товарам.

Важность для SEO

Патент имеет высокое значение для SEO-специалистов, работающих с Google Shopping и крупными E-commerce площадками. Он напрямую влияет на видимость товаров: если продавец загружает множество вариаций продукта без существенных различий в ключевых атрибутах, этот механизм может привести к тому, что только одна вариация будет показана в основной выдаче. Это требует стратегического подхода к управлению ассортиментом и оптимизации продуктовых фидов.

Термины и определения

Attributes (Атрибуты): Характеристики товара. Явно упоминаются: name (название), model (модель), description (описание), thumbnail key (ключ-отпечаток миниатюры) и category (категория).
Cluster Identifier (cluster_id): Уникальный идентификатор, присваиваемый группе почти дублирующихся товаров. Может определяться по атрибуту товара с наивысшим Q-score в кластере.
Distance (D(P, Q)) (Расстояние): Метрика, измеряющая степень различия между двумя товарами (P и Q). Рассчитывается как взвешенная сумма редакционных расстояний атрибутов. Нормализуется в диапазоне [0, 1].
Edit Distance (ED) (Редакционное расстояние): Метрика схожести строк. В патенте упоминаются расстояния Хэмминга (Hamming), Левенштейна (Levenshtein), Дамерау-Левенштейна и Джаро-Винклера.
Entry (Запись): Представление продукта в базе данных системы онлайн-покупок.
MapReduce: Фреймворк параллельной обработки данных, упоминаемый для офлайн-вычисления расстояний и кластеризации.
Min_score (Минимальное расстояние): Наименьшее расстояние между данным товаром и любым другим товаром в том же кластере. Используется для фильтрации выдачи по порогу схожести.
NDCL / NDTH: Параметры поискового запроса (search restrict). NDCL используется для фильтрации по cluster_id. NDTH используется для фильтрации по min_score.
ProductNeardupInfo: Набор данных, которым аннотируется товар после кластеризации. Включает cluster_id, min_score и num_products (количество товаров в кластере).
Q-score (Оценка важности): Статическая, не зависящая от запроса оценка важности (importance score) товара. Используется для выбора идентификатора кластера.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод сокращения почти дубликатов от одного и того же продавца (same merchant) в результатах поиска.

Для каждой пары записей в наборе записей от одного и того же продавца.
Вычисление расстояния (distance) между записями в векторном пространстве количественных атрибутов.
Определение кластеров записей как функции вычисленного расстояния.
Получение запроса и возврат упорядоченного списка результатов, отфильтрованного для сокращения числа почти дубликатов от одного продавца.
Фильтрация включает как минимум одно из:
- Ограничение количества записей из данного кластера пороговым значением.
- После включения первой записи из кластера, исключение других записей, находящихся в пределах порогового расстояния от первой записи.

Ядром изобретения является процесс кластеризации товаров на основе метрики схожести и последующее использование этой кластеризации для принудительного повышения разнообразия выдачи путем ограничения показа похожих товаров от одного источника.

Claim 2 (Зависимый от 1): Уточняет метод расчета расстояния.

Расстояние определяется как взвешенная сумма (weighted sum) редакционного расстояния (edit distance) между количественными атрибутами пары записей.

Claim 4 (Зависимый от 1): Уточняет метод определения кластеров.

Кластеры определяются как группы записей, связанных с другой записью расстоянием, меньшим предопределенного порогового расстояния.

Claim 6 (Зависимый от 1): Описывает функциональность пользовательского интерфейса.

Для результата в списке возвращается ссылка (например, «Похожие товары»), при выборе которой система возвращает список товаров из того же кластера.

Где и как применяется

Изобретение применяется в контексте Online Shopping System (например, Google Shopping) и затрагивает этапы индексирования и переранжирования.

INDEXING – Индексирование и извлечение признаков
Основная часть алгоритма выполняется на этом этапе в офлайн-режиме с использованием параллельной обработки (MapReduce).

Система группирует товары по продавцам (same merchant).
Вычисляет попарные расстояния (Distance) между товарами одного продавца.
Выполняет кластеризацию и присваивает Cluster Identifier.
Извлекает и индексирует признаки: cluster_id, min_score, num_products.
Слияние категорий (Category Merging): Патент упоминает важный механизм: объединение (union) категорий всех продуктов в кластере и присвоение этого объединенного набора категорий каждому продукту в кластере для предотвращения потери поискового покрытия.

RERANKING – Переранжирование
На этом этапе применяется логика фильтрации для повышения разнообразия (Diversity).

Применяется разрежение (crowding) по cluster_id, чтобы ограничить максимальное количество товаров на кластер.
Применяется фильтрация товаров, чье min_score ниже определенного порога (параметр NDTH).

Входные данные:

Набор записей о товарах (Entries) с атрибутами (Название, Модель, Описание, Изображение, Категория).
Идентификаторы продавцов.
Оценки важности товаров (Q-score).

Выходные данные:

Офлайн: Проиндексированные товары с полями ProductNeardupInfo и объединенными категориями.
Онлайн: Отфильтрованный список результатов поиска с повышенным разнообразием.

На что влияет

Конкретные типы контента: Влияет исключительно на структурированные данные о товарах в системах онлайн-покупок (Google Shopping). Не влияет на стандартный веб-поиск.
Конкретные ниши или тематики: Влияет на все E-commerce ниши, особенно на те, где распространены вариации товаров (одежда, электроника, автозапчасти).

Когда применяется

Триггеры активации (Офлайн): Активируется для продавцов, у которых есть более одного товара. Пересчет запускается, если данные о товарах продавца изменились с момента последнего расчета (проверка по fingerprint).
Триггеры активации (Онлайн): Логика фильтрации активируется при формировании SERP, если в результатах присутствуют товары, принадлежащие к одному кластеру.
Пороговые значения: Ключевой порог — расстояние для определения кластера (T). В примере указан T=0.05 (т.е. товары схожи на 95%). Также используется порог для фильтрации в SERP (например, не более N товаров из одного кластера или порог NDTH).

Пошаговый алгоритм

Процесс А: Офлайн-обработка (Индексирование и Кластеризация)

Сбор и группировка данных: Товары группируются по идентификатору продавца и сортируются по Q-score.
Вычисление попарных расстояний: Для каждой пары товаров (P, Q) одного продавца вычисляется расстояние D(P, Q). Это взвешенная сумма редакционных расстояний их атрибутов.
Формула: $D(P, Q) = \sum (K_{attr} * ED(P_{attr}, Q_{attr}))$
Построение и фильтрация графа: Формируется граф, где товары — узлы, а расстояния — веса ребер. Ребра с весом, превышающим пороговое значение T (например, 0.05), удаляются.
Кластеризация: В оставшемся графе определяются связанные компоненты (кластеры). Может использоваться алгоритм Union-Find.
Присвоение идентификаторов и метрик: Каждому кластеру присваивается cluster_id (на основе товара с наивысшим Q-score). Для каждого товара вычисляются min_score и num_products.
Объединение атрибутов (Category Merging): Категории всех товаров в кластере объединяются, и этот объединенный набор присваивается каждому товару в кластере.
Индексирование: Обновленные данные о товарах (ProductNeardupInfo) сохраняются в индексе.

Процесс Б: Онлайн-обработка (Поиск и Фильтрация)

Получение запроса и ранжирование: Система генерирует исходный упорядоченный список релевантных товаров.
Применение фильтров кластеризации (Reranking/Diversity): Система применяет логику разрежения (crowding) на основе cluster_id и min_score.
- Вариант 1 (Crowding): Ограничивается количество товаров из одного кластера (например, только 1 товар на кластер).
- Вариант 2 (NDTH): Фильтрация по min_score (исключить товары, слишком похожие на другие).
Формирование SERP: В выдаче для отфильтрованных результатов может отображаться ссылка "Посмотреть похожие товары", которая использует параметр NDCL для показа всех товаров этого кластера.

Какие данные и как использует

Данные на входе

Система использует структурированные данные о товарах для вычисления расстояний и кластеризации:

Контентные факторы (Атрибуты товара):
- Name (Название товара).
- Model (Модель товара).
- Description (Описание товара).
- Category (Категория товара).
Мультимедиа факторы:
- Thumbnail key (Ключ или отпечаток миниатюры изображения товара).
Системные данные:
- Company identifier (Идентификатор продавца).
- Q-score (Статическая оценка важности продукта).

Какие метрики используются и как они считаются

Нормализованное редакционное расстояние (ED): Метрика схожести атрибутов. В описании приводится пример нормализованного расстояния Левенштейна:
$ED(A, B) = \text{Levenshtein\_Distance}(A, B) / \max(\text{length}(A), \text{length}(B))$
Значение в диапазоне [0, 1].
Взвешенное расстояние (D(P, Q)): Агрегированная метрика схожести товара. Рассчитывается как сумма ED атрибутов, умноженных на их весовые коэффициенты (K). Сумма весов равна 1. Значение D(P, Q) в диапазоне [0, 1].
Порог кластеризации (T): Максимальное расстояние, при котором товары считаются почти дубликатами. Упоминается примерное значение 0.05 (т.е. 95% схожести).
Min_score: Минимальное расстояние D(P, Q) для товара P до любого другого товара Q в том же кластере.

Фокус на внутри-вендорной дедупликации: Алгоритм специально разработан для идентификации и фильтрации похожих товаров, предлагаемых одним и тем же продавцом (same merchant). Цель — повысить разнообразие как продуктов, так и продавцов в выдаче, а не скрывать идентичные товары от разных поставщиков.
Схожесть основана на атрибутах: Система определяет дубликаты путем расчета взвешенной суммы редакционных расстояний ключевых атрибутов (название, модель, описание, миниатюра). Это подчеркивает критичность качества и уникальности структурированных данных в фиде.
Кластеризация и выбор представителя: Похожие товары объединяются в кластеры. Система стремится показать ограниченное число представителей от каждого кластера. Товар с наивысшим Q-score (статической важностью) имеет приоритет при выборе представителя в выдаче.
Офлайн-обработка для скорости: Вычисление расстояний и кластеризация выполняются заранее (во время индексирования) с использованием параллельных вычислений (MapReduce), что позволяет быстро применять фильтры в реальном времени.
Сохранение охвата через слияние категорий (Category Merging): Важный механизм оптимизации: чтобы не потерять релевантность, если варианты товара находятся в разных категориях, система объединяет (union) все категории кластера и применяет их ко всем товарам кластера. Это консолидирует сигналы релевантности.

Best practices (это мы делаем)

Рекомендации применимы для оптимизации товарных фидов для Google Shopping и аналогичных систем.

Обеспечение значимой дифференциации: Если необходимо, чтобы варианты товара отображались в поиске независимо, они должны иметь существенные различия в Title, Description и Image. Различия должны превысить порог кластеризации (предположительно >5% различий).
Оптимизация представителя кластера: Так как система использует Q-score для определения лидера кластера, необходимо сосредоточить усилия на оптимизации и продвижении основного (наиболее важного или популярного) варианта товара. Этот вариант, скорее всего, станет представителем кластера в выдаче.
Точная и полная категоризация: Поскольку система может использовать слияние категорий (Category Merging) внутри кластера, важно убедиться, что каждый вариант товара имеет максимально точную категорию. Это гарантирует, что представитель кластера унаследует все релевантные категории.
Использование уникальных идентификаторов и изображений: Убедитесь, что каждый SKU имеет уникальный идентификатор (например, GTIN, MPN/Model) и уникальное основное изображение (thumbnail key). Это увеличивает общее расстояние между записями.

Worst practices (это делать не надо)

Создание множества SKU с минимальными отличиями: Загрузка одного и того же товара несколько раз с минимальными изменениями в названии или описании (например, для таргетинга на разные ключевые слова) неэффективна. Эти записи будут кластеризованы, и показана будет только одна.
Использование идентичных описаний и изображений: Если варианты товара (например, разные цвета) используют полностью идентичные описания и очень похожие изображения, вероятность их кластеризации максимальна. Схожесть изображений (thumbnail key) является фактором расчета расстояния.
Игнорирование атрибута Model/MPN: Атрибут модели имеет вес в расчете расстояния. Его отсутствие или неточное заполнение может увеличить вероятность нежелательной кластеризации.

Стратегическое значение

Патент подчеркивает стремление Google обеспечить разнообразие в коммерческой выдаче и бороться с захламлением SERP похожими предложениями. Для E-commerce SEO это означает, что стратегия должна быть направлена не на максимизацию количества записей в индексе, а на качество, уникальность и четкую дифференциацию каждого предложения. Успех зависит от способности представить ассортимент таким образом, чтобы минимизировать нежелательную кластеризацию.

Практические примеры

Сценарий 1: Оптимизация фида для магазина одежды (Рубашки разных цветов)

Ситуация: Продавец продает модель «Basic Tee» в 5 цветах. Названия отличаются только цветом («Basic Tee Red», «Basic Tee Blue»), описания идентичны.
Проблема: Расстояние Левенштейна очень низкое. Google кластеризует все 5 рубашек. В выдаче показывается только одна.
Решение (Дифференциация): Увеличить расстояние. Изменить названия, добавив особенности: «Basic Tee - Ярко-красная, Приталенный крой», «Basic Tee - Океанский синий, Свободный крой». Добавить уникальные элементы в описание (например, советы по стилю для цвета). Использовать разные основные фото.
Ожидаемый результат: Метрика расстояния увеличивается, товары с меньшей вероятностью будут кластеризованы, увеличивая видимость ассортимента.

Сценарий 2: Использование слияния категорий (Гибридный ноутбук)

Ситуация: Продавец продает гибридный ноутбук/планшет. Он релевантен категориям «Ноутбуки» и «Планшеты».
Действие: Продавец отправляет две почти идентичные записи (одна в категории «Ноутбуки», другая в «Планшеты»).
Механизм патента: Google идентифицирует их как дубликаты от одного продавца и кластеризует. Затем он выполняет Category Merging.
Результат: Репрезентативный товар (с наивысшим Q-score) теперь принадлежит к обеим категориям. Он будет показываться при поиске в любой из них, но займет только одну позицию в SERP, сохраняя разнообразие.

Применяется ли этот патент к обычному органическому поиску (веб-страницам)?

Нет. Патент явно сфокусирован на Online Shopping System (системах онлайн-покупок), таких как Google Shopping. Механизмы основаны на сравнении структурированных атрибутов товаров (Model, Description, Name) и применяются для дедупликации предложений от одного продавца.

Будет ли Google скрывать мой товар, если его продает кто-то еще?

Нет, согласно этому патенту. Механизм фокусируется исключительно на сокращении почти дубликатов, предоставляемых одним и тем же продавцом (intra-company). Цель состоит в том, чтобы повысить разнообразие продавцов, а не скрыть идентичные товары от разных поставщиков, что полезно для сравнения цен.

Как система определяет, насколько похожи два товара?

Система вычисляет «расстояние» (Distance) между парами товаров одного продавца. Это расстояние является взвешенной суммой схожести их атрибутов (название, модель, описание, изображение), рассчитанной с помощью редакционного расстояния (например, Левенштейна). Если общее расстояние ниже порога (например, менее 5% различий), товары считаются похожими.

Если у меня много вариантов товара (цвета, размеры), они все будут скрыты?

Если варианты оформлены как отдельные записи (SKU) и их атрибуты очень похожи, они будут объединены в кластер. Система ограничит количество отображаемых результатов из этого кластера в основной выдаче (часто до одного). Остальные варианты могут быть доступны по ссылке "Похожие товары".

Как система выбирает, какой товар показать из кластера дубликатов?

Патент упоминает использование Q-score — статической оценки важности товара. Товар с наивысшим Q-score в кластере имеет приоритет и, вероятно, будет тем товаром, который отображается в SERP, когда применяется фильтрация (crowding).

Как я могу избежать кластеризации моих товаров?

Необходимо увеличить «расстояние» между ними, чтобы оно превысило порог кластеризации (например, 0.05). Для этого нужно обеспечить существенные различия в названиях, создать уникальные описания, использовать разные основные изображения и точно указывать разные модели. Шаблонных изменений недостаточно.

Что такое механизм "Слияния категорий" (Category Merging), упомянутый в патенте?

Это защитный механизм для сохранения поискового покрытия. Если система объединяет товары A и B в кластер, она берет все категории, присвоенные A и B, объединяет их и присваивает этот полный набор категорий каждому из товаров. Это гарантирует, что даже если в выдаче будет показан только товар A, он будет релевантен запросам, нацеленным на категории товара B.

Какие атрибуты наиболее важны при расчете схожести?

Патент упоминает Название (Name), Модель (Model), Описание (Description) и Ключ миниатюры (Thumbnail key). Конкретные весовые коэффициенты не указаны, но все они участвуют в расчете итогового расстояния. Уникализация всех этих полей важна.

Как часто происходит пересчет кластеров?

Процесс выполняется офлайн (например, ежедневно) с использованием MapReduce. Патент описывает оптимизацию: система проверяет, изменились ли данные о товарах продавца (используя fingerprint). Пересчет запускается только в случае обнаружения изменений, что экономит ресурсы.

Использует ли система машинное обучение для определения дубликатов в этом патенте?

Патент не описывает использование сложных моделей машинного обучения для этой задачи. Он полагается на детерминированные алгоритмы, основанные на расчете редакционных расстояний (string metrics) и стандартных алгоритмах кластеризации графов (например, Union-Find).

Как Google группирует варианты товаров (цвет, размер) от разных продавцов, анализируя заголовки и структуру данных

Google использует этот механизм для автоматической идентификации и группировки вариантов одного продукта (например, разных цветов или размеров), предлагаемых разными продавцами. Система анализирует заголовки товаров в фидах, выявляет закономерности и создает глобальный каталог вариантов. Для разрешения конфликтов в названиях система выбирает терминологию того продавца, который наиболее полно и последовательно описал все варианты.

US8700494B2
2014-04-15

Google Shopping
Индексация

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2015-10-27

Индексация
Краулинг
Семантика и интент

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google объединяет дубликаты изображений в кластеры и индексирует их как единое целое для улучшения визуального поиска

Google оптимизирует визуальный поиск, группируя почти идентичные изображения (измененный размер, обрезка) в единый кластер. Система индексирует не отдельные картинки, а совокупность всех визуальных признаков ("визуальных слов") из всех вариантов в кластере. Это повышает эффективность индекса и гарантирует согласованность результатов при поиске по изображению.

US8923626B1
2014-12-30

Индексация
Мультимедиа

Как Google кластеризует контент на основе общих интересов аудитории, используя анализ ближайших соседей

Google использует механизм для кластеризации контента (например, рекламы или рекомендаций), основанный на профилях интересов пользователей, которые с ним взаимодействуют. Система создает векторы интересов аудитории для каждого элемента контента, затем формирует Списки Ближайших Соседей (Nearest Neighbor Lists). Контент объединяется в кластеры, если их списки соседей схожи. Это позволяет группировать контент по аудитории, а не только по тематике, улучшая таргетинг.

US8745074B1
2014-06-03

Персонализация
Поведенческие сигналы

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов

Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.

US20190278836A1
2019-09-12

Семантика и интент
Персонализация
EEAT и качество

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска

Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.

US8959083B1
2015-02-17

Персонализация
Поведенческие сигналы
SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество