Как Google автоматизирует создание структуры категорий и оптимизирует мерчандайзинг на сайтах E-commerce

OBJECTIVE FUNCTION BASED ENGINE TO CREATE SMART PRODUCT GROUPINGS (Механизм на основе целевой функции для создания умных группировок продуктов)

US20170116658A1 (Патентная заявка)
Google LLC
2015-10-22
2017-04-27

Система для автоматической организации интернет-магазинов. Она анализирует товарный фид, используя NLP для создания релевантных категорий. Затем система сортирует товары внутри категорий, применяя алгоритмы оптимизации (Decision Trees), основанные на данных о продажах (конверсии, отказы) и внешних поисковых трендах, для максимизации эффективности сайта мерчанта.

Какую проблему решает

Патент решает проблему трудоемкого и неэффективного ручного управления структурой каталога и мерчандайзингом на веб-сайтах или в приложениях электронной коммерции. Он автоматизирует процесс создания страниц категорий и определения порядка сортировки товаров, заменяя ручной труд динамической оптимизацией на основе актуальных данных о продажах и спросе.

Что запатентовано

Запатентована система автоматической категоризации продуктов (Product Categorization System). Она использует продуктовый фид мерчанта (merchant product feed), внутренние данные о продажах (sales data) и внешние данные о поиске (search data). Система применяет методы семантического анализа (например, Cosine Similarity) для группировки товаров и алгоритмы оптимизации (например, Decision Trees, Objective Functions) для ранжирования товаров внутри категорий с целью повышения эффективности сайта.

Как это работает

Система функционирует в двух основных направлениях:

Автоматическая категоризация: Система анализирует названия и описания из фида. Используя эталонный набор уже категоризированных товаров, она вычисляет семантическое сходство (Similarity Value) для новых товаров. Если сходство превышает порог, товару присваиваются теги категории.
Оптимизация сортировки (Мерчандайзинг): Внутри категорий система ранжирует товары, используя алгоритмы (например, Decision Tree). Эти алгоритмы учитывают Sales Data (конверсии, отказы, добавления в корзину) и Search Data (объем поиска, тренды) для определения оптимального порядка отображения.

Результат передается мерчанту в виде готовых данных для отображения страниц категорий.

Актуальность для SEO

Средняя/Высокая (для E-commerce). Технологии автоматизации мерчандайзинга и data-driven оптимизации критически важны для современных платформ электронной коммерции. Хотя патент описывает инфраструктурный инструмент для мерчантов, а не алгоритм Google Поиска, описанные методы (семантический анализ для категоризации, использование поведенческих данных и трендов для ранжирования) актуальны для понимания подходов к оптимизации E-commerce ресурсов.

Важность для SEO

Влияние на SEO (4/10) преимущественно косвенное. Патент НЕ описывает алгоритмы ранжирования Google Поиска. Он описывает инструмент для оптимизации внутренней структуры и мерчандайзинга сайта продавца. Однако, хорошо структурированный сайт с логичной таксономией и оптимизированным пользовательским опытом (за счет показа наиболее эффективных товаров) может улучшить краулинг, внутреннюю перелинковку и поведенческие сигналы, что положительно сказывается на SEO.

Термины и определения

Bought-together data (Данные о совместных покупках): Данные о продажах, указывающие, какие товары часто покупаются вместе. Используются для корректировки расположения товаров на странице категории.
Cosine Similarity (Косинусное сходство): Математическая метрика для измерения сходства между двумя векторами. В патенте используется для определения семантической близости товаров на основе их названий и описаний.
Decision Tree (Дерево решений): Алгоритм машинного обучения. Используется для организации (ранжирования) товаров внутри категории путем интеграции различных Sales Data и Search Data.
Merchant System (Система мерчанта): Инфраструктура продавца (веб-сайт, приложение, серверы).
Objective Function (Целевая функция): Функция, которую система стремится оптимизировать при организации товаров. Например, максимизация конверсий при определенных ограничениях (например, разнообразие брендов).
Product Categorization System (Система категоризации продуктов): Описанная в патенте система для автоматической генерации и оптимизации страниц категорий.
Product Feed Data (Данные продуктового фида): Данные от мерчанта, включающие Title (Название), Description (Описание), Price (Цена) и Breadcrumb data (Навигационные цепочки).
Sales Data (Данные о продажах/Поведенческие данные): Внутренние метрики сайта мерчанта: Conversion Rate, Bounce Rate, Add-to-cart Rate, Average Time Spent, Stock Data (данные о запасах), Newness Indicator (индикатор новизны) и др.
Search Data (Данные поиска): Внешние данные от поисковой системы (Search System): Search Volume (Объем поиска) и Trending Indicator (Индикатор тренда) для связанных ключевых слов.
Similarity Value (Значение сходства): Числовая оценка сходства двух товаров на основе их Product Feed Data. Используется для присвоения тегов.
Threshold Similarity Value (Пороговое значение сходства): Минимальное значение Similarity Value, необходимое для того, чтобы некатегоризированный товар унаследовал теги от категоризированного.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматической генерации страниц категорий.

Система получает Product Feed Data и Sales Data от мерчанта.
Определяется Первый набор товаров с уже присвоенными тегами.
Определяется Второй набор товаров без тегов.
Система сравнивает данные фида Второго набора с Первым, вычисляя Similarity Value.
Если Similarity Value превышает Threshold, товару из Второго набора присваиваются теги соответствующего товара из Первого набора.
Товары группируются в категории на основе общих тегов.
Товары внутри каждой группы организуются (ранжируются) на основе Sales Data.
Генерируются данные страниц (Page Data) и передаются мерчанту.

Claim 5 и 6 (Зависимые): Детализируют метод вычисления Similarity Value (Шаг 4 в Claim 1).

Система использует Cosine Similarity для расчета сходства. Отдельно вычисляется сходство Названий и сходство Описаний. Итоговое Similarity Value рассчитывается как weighted average (взвешенное среднее) этих двух значений. При этом веса для Названия и Описания могут различаться (Claim 6).

Формула может быть представлена как: $Sim(P1, P2) = W_T \cdot CosSim(Title_{P1}, Title_{P2}) + W_D \cdot CosSim(Desc_{P1}, Desc_{P2})$

Claim 8 (Зависимый): Добавляет использование внешних данных.

Система получает Search Data от поисковой системы. Организация (ранжирование) товаров внутри категорий основывается также на этих данных (в дополнение к Sales Data).

Claim 18 (Зависимый): Уточняет метод организации товаров.

Организация товаров внутри категории осуществляется путем анализа Sales Data с использованием Decision Tree.

Где и как применяется

Важное уточнение: Этот патент НЕ описывает стандартную архитектуру Google Поиска (CRAWLING, INDEXING, RANKING и т.д.). Он описывает отдельную систему (Product Categorization System), предназначенную для использования мерчантами с целью оптимизации их собственных платформ электронной коммерции.

Область применения: Инфраструктура Платформы Продавца (Merchant System's Infrastructure).

Взаимодействие компонентов:

Product Categorization System получает данные от Merchant System (Фиды, Продажи) и от Search System (Тренды, Спрос).
Она обрабатывает данные и отправляет структурированные инструкции (Page Data) обратно в Merchant System для отображения на сайте или в приложении.

На что влияет

Типы контента и ниши: Влияет исключительно на страницы категорий и листинги товаров (product listings) в интернет-магазинах и E-commerce приложениях.
Влияние на сайт: Определяет внутреннюю структуру (таксономию) и внутреннее ранжирование (мерчандайзинг) сайта мерчанта, который использует эту систему.

Когда применяется

Триггеры активации: Первоначальная генерация структуры сайта или получение обновленных данных.
Частота применения (Динамическое обновление): Система работает динамически. Она повторно активируется при получении обновленного фида, свежих данных о продажах или новых данных о поисковых трендах (Claims 12, 13, 14).
Пороговые значения: Используется Threshold Similarity Value для определения, достаточно ли похожи товары для присвоения одинаковых тегов.

Пошаговый алгоритм

Фаза 1: Сбор данных

Получение Product Feed Data (Названия, Описания, Хлебные крошки) от мерчанта.
Получение Sales Data (Конверсии, Отказы, Запасы и т.д.) от мерчанта.
Определение ключевых слов из фида и запрос Search Data (Объем поиска, Тренды) у поисковой системы.

Фаза 2: Категоризация

Идентификация наборов: Разделение товаров на Первый набор (с известными тегами) и Второй набор (без тегов). Теги Первого набора могут быть получены из breadcrumb data или других источников.
Расчет сходства: Для каждого товара из Второго набора вычисляется Similarity Value по отношению к товарам из Первого набора. Используется взвешенное Cosine Similarity названий и описаний.
Присвоение тегов: Если Similarity Value превышает порог, товару из Второго набора присваиваются теги схожего товара из Первого набора.
Группировка: Все товары группируются в Категории на основе общих тегов.
Построение иерархии: Интеграция созданных категорий в иерархию сайта.

Фаза 3: Внутреннее ранжирование (Мерчандайзинг)

Анализ метрик: Анализ Sales Data и Search Data для каждого товара в категории.
Применение алгоритма оптимизации: Использование Decision Tree или Objective Function для определения оптимального порядка сортировки. Система может рассчитывать взвешенную оценку (Weighted Score) на основе важности различных метрик (согласно стратегии мерчанта).
Корректировка размещения: Применение правил (например, понижение товаров Out-of-Stock, размещение совместно покупаемых товаров (Bought-together data) рядом).
Организация листинга: Финальная сортировка товаров.

Фаза 4: Генерация и Обновление

Генерация Page Data: Создание данных (например, HTML или инструкций), описывающих страницы категорий.
Передача данных: Отправка данных в Merchant System.
Мониторинг: Ожидание обновленных данных и повторение процесса при их получении.

Какие данные и как использует

Данные на входе

Система использует три основных источника данных:

1. Product Feed Data (от Merchant System):

Контентные факторы: Title data (Название товара), Description data (Описание товара). Критически важны для категоризации (расчета сходства).
Структурные факторы: Breadcrumb data (Навигационные цепочки). Используются для определения существующих тегов и иерархии.
Коммерческие факторы: Price data (Цена).

2. Sales Data (от Merchant System): Используются для внутреннего ранжирования (сортировки).

Поведенческие факторы: Conversion Rate, Bounce Rate, Add-to-cart Rate, Average Time Spent.
Транзакционные данные: Bought-together data.
Данные о наличии и новизне: Current Stock Data (In-Stock, Out-of-Stock, Limited Supply), Product Newness Indicator.
Коммерческие данные: Discount percentage.

3. Search Data (от Search System): Используются для внутреннего ранжирования.

Данные о спросе и трендах: Search Volume (текущий или исторический), Trending Indicator (индикатор роста популярности запроса).

Какие метрики используются и как они считаются

Методы анализа текста (NLP) и Метрики сходства:
- Cosine Similarity: Конкретная метрика для измерения сходства между текстами (названиями и описаниями).
- Similarity Value: Взвешенное среднее (Weighted Average) косинусных сходств названия и описания.
Пороговые значения:
- Threshold Similarity Value / Threshold probability: Порог, используемый для принятия решения о присвоении тега. В описании патента упоминается пример 99.5% вероятности, что указывает на высокие требования к точности.
Алгоритмы машинного обучения и Оптимизации:
- Decision Tree: Используется для интеграции различных Sales Data и Search Data при ранжировании товаров.
- Objective Functions: Используются для оптимизации ранжирования под сложные бизнес-цели (например, максимизация конверсий при заданных ограничениях).

Фокус на автоматизации E-commerce, а не на Google Search: Патент описывает инфраструктурный инструмент для оптимизации сайта мерчанта, а не алгоритмы ранжирования публичного поиска Google. Выводы для SEO носят косвенный характер.
Категоризация на основе семантического сходства контента: Для группировки товаров используется анализ контента (Названия и Описания) с применением стандартных NLP-метрик (Cosine Similarity). Это подчеркивает критическую важность качества данных в продуктовом фиде.
Обучение на известных данных: Система использует подход, при котором некатегоризированные товары сравниваются с эталонным набором уже размеченных товаров (semi-supervised learning) для присвоения тегов на основе высоких порогов сходства.
Мерчандайзинг, управляемый данными (Data-Driven): Внутреннее ранжирование товаров полностью зависит от метрик эффективности (Sales Data) и внешнего спроса (Search Data). Поведенческие сигналы и тренды являются ключевыми для определения видимости товара на сайте.
Гибкая оптимизация через целевые функции: Система использует сложные модели (Decision Trees, Objective Functions) для достижения бизнес-целей, а не просто ранжирует по одной метрике.

ВАЖНО: Патент не дает прямых рекомендаций по продвижению в Google Search. Однако он предоставляет важные инсайты по оптимизации структуры и юзабилити e-commerce сайтов, что косвенно влияет на SEO.

Best practices (это мы делаем)

Оптимизация качества данных в Product Feed: Поскольку автоматическая категоризация основана на семантическом анализе (Cosine Similarity) Title и Description, необходимо предоставлять чистые, информативные и консистентные данные. Качество фида напрямую влияет на качество генерируемой структуры сайта.
Стратегическое форматирование описаний: Патент упоминает, что выделенный текст (например, жирным шрифтом) в описаниях может использоваться для генерации тегов. Используйте форматирование для выделения ключевых атрибутов товара.
Внедрение динамической внутренней сортировки (Мерчандайзинг): Патент подтверждает эффективность сортировки товаров на основе данных о продажах и спросе. Для E-commerce проектов следует приоритизировать сортировку по умолчанию на основе Conversion Rate, Add-to-Cart Rate и поисковых трендов, а не по алфавиту или цене.
Использование структурированных навигационных цепочек (Breadcrumbs): Система использует Breadcrumb data для понимания существующей иерархии и генерации тегов. Наличие корректных хлебных крошек помогает автоматизированным системам (и поисковым роботам) лучше понимать структуру сайта.

Worst practices (это делать не надо)

Предоставление скудных или непоследовательных данных в фиде: Разные шаблоны названий для похожих товаров или отсутствие ключевых характеристик в описаниях приведут к низким показателям Similarity Value и ошибкам автоматической категоризации.
Использование статической сортировки товаров: Ручное управление порядком товаров или использование стандартной сортировки (по дате добавления) менее эффективно, чем автоматическая оптимизация на основе Sales Data и Search Data.
Игнорирование поведенческих метрик (CRO): Продвижение товаров с высоким Bounce Rate или низким Conversion Rate ухудшает общий пользовательский опыт; автоматизированные системы, подобные описанной, будут деприоритизировать такие товары.

Стратегическое значение

Патент демонстрирует подход Google к оптимизации E-commerce ресурсов, основанный на данных и машинном обучении. Он подтверждает стратегическую важность перехода от ручного управления к автоматизированным системам, которые динамически адаптируют структуру и контент сайта под поведение пользователей и рыночный спрос. Для SEO это подчеркивает важность качества исходных данных (фидов) и логичной структуры сайта как фундамента для успеха в E-commerce.

Практические примеры

Сценарий 1: Оптимизация фида для улучшения автоматической категоризации

Проблема: Новый товар "Кроссовки Nike Air Синие" попадает в общую категорию "Обувь", а не в "Мужские кроссовки для бега".
Анализ (на основе патента): Система рассчитывает Cosine Similarity. Текущее название слишком общее и имеет низкое сходство с эталонными товарами в нужной категории.
Действие: Обновление названия в фиде на более описательное: "Мужские беговые кроссовки Nike Air Zoom Pegasus, Синий".
Ожидаемый результат: При следующем обновлении система обнаружит более высокое сходство с товарами в категории "Мужские кроссовки для бега" (благодаря терминам "Мужские", "беговые", "кроссовки") и автоматически переместит товар в правильную категорию, улучшая структуру сайта.

Сценарий 2: Настройка внутренней сортировки на основе данных

Задача: Улучшить продажи в категории "Смартфоны".
Действие: Настроить движок сайта (используя логику Decision Tree, описанную в патенте) так, чтобы сортировка по умолчанию приоритизировала товары.
Логика: Сначала показывать товары "В наличии". Затем сортировать по комбинации Conversion Rate (вес 60%) и Trending Indicator из Google Trends (вес 40%).
Ожидаемый результат: Наиболее конверсионные и трендовые товары автоматически поднимаются на первые позиции листинга, что улучшает UX и увеличивает общую выручку категории.

Описывает ли этот патент, как Google ранжирует сайты или товары в органическом поиске?

Нет. Патент описывает технологию для автоматической организации и ранжирования товаров внутри веб-сайта или приложения продавца. Это инструмент для внутренней оптимизации E-commerce площадки (структура и мерчандайзинг), а не алгоритм внешнего поиска Google.

Как система определяет, к какой категории принадлежит товар?

Система использует метод семантического сходства (конкретно упоминается Cosine Similarity). Она сравнивает Названия и Описания некатегоризированных товаров с эталонным набором уже категоризированных товаров. Если сходство превышает установленный порог (Threshold Similarity Value), новому товару присваиваются соответствующие теги категории.

Что важнее для категоризации: Название товара или его Описание?

Используются оба элемента. Патент (Claim 6) указывает, что используется взвешенное среднее (Weighted Average) сходства названий и описаний. При этом веса для названия и описания могут отличаться, что позволяет гибко настраивать систему в зависимости от качества данных в фиде.

Какие факторы используются для ранжирования (сортировки) товаров внутри категории?

Ранжирование основано на двух типах данных. Sales Data (внутренние данные мерчанта): конверсии, отказы, время на странице, добавления в корзину, наличие на складе, новизна. Search Data (внешние данные): объем поискового спроса и тренды по связанным ключевым словам.

Как именно система решает, какой фактор важнее при сортировке?

Патент упоминает использование Decision Tree (Дерева решений) и Objective Functions (Целевых функций). Это позволяет системе учитывать комбинацию факторов и применять сложную логику или бизнес-правила, заданные мерчантом (например, максимизация общей конверсии или распродажа остатков).

Как этот патент влияет на SEO моего интернет-магазина?

Влияние косвенное. Технология создает логичную, семантически обоснованную структуру категорий, что улучшает краулинг и внутреннюю перелинковку. Оптимизация порядка товаров (показ самых конверсионных в начале) улучшает пользовательский опыт и поведенческие сигналы на сайте, что может положительно сказаться на органическом ранжировании.

Что мне нужно улучшить в моем продуктовом фиде, исходя из этого патента?

Необходимо сосредоточиться на качестве и консистентности Названий (Title) и Описаний (Description). Они должны быть информативными и семантически точными. Чем лучше система поймет ваш товар по описанию, тем точнее она его категоризирует.

Использует ли система данные из Google Поиска для оптимизации моего сайта?

Да, патент явно указывает на получение Search Data от поисковой системы. Это включает данные об объеме поиска (Search Volume) и трендах (Trending Indicator). Эти данные используются для приоритизации товаров, пользующихся внешним спросом, во внутреннем ранжировании сайта.

Что такое "Objective Function" в контексте ранжирования товаров?

Это математическое выражение цели, которую нужно достичь при сортировке. Например, целью может быть "максимизировать общую выручку категории" или "продвигать старые запасы, не снижая общий коэффициент конверсии более чем на 10%". Система упорядочивает товары так, чтобы значение этой функции было оптимальным.

Упоминается ли в патенте Breadcrumb data и как они используются?

Да, Breadcrumb data (данные о навигационной цепочке) упоминаются как часть продуктового фида. Они могут использоваться как один из источников для генерации тегов и помогают системе понять существующую иерархию сайта для интеграции новых категорий.

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2015-10-27

Индексация
Краулинг
Семантика и интент

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам

Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.

US7788274B1
2010-08-31

Персонализация
Поведенческие сигналы
Local SEO

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google переносит поведенческие сигналы через ссылки для повышения в ранжировании первоисточников контента

Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.

US8959093B1
2015-02-17

Поведенческие сигналы
Ссылки
SERP

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей

Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.

US9396263B1
2016-07-19

Семантика и интент
EEAT и качество

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы