Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

MINING FOR PRODUCT CLASSIFICATION STRUCTURES FOR INTERNET-BASED PRODUCT SEARCHING (Извлечение структур классификации продуктов для поиска товаров в интернете)

US9171088B2
Google LLC
2011-04-06
2015-10-27

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

Какую проблему решает

Патент решает проблему противоречивой и нестандартизированной классификации товаров разными продавцами в интернете. Когда разные магазины используют разные описания и категории для одних и тех же товаров, поисковым системам сложно агрегировать эту информацию, что приводит к ошибкам (например, путанице между атрибутом и брендом) и ухудшению качества поиска товаров. Изобретение направлено на автоматическое обнаружение, валидацию и стандартизацию структур классификации продуктов.

Что запатентовано

Запатентована система для автоматического майнинга (извлечения) и валидации Структурных параметров (Structural Parameters) продуктов (например, бренд, атрибут, тип, линейка продуктов) из различных источников. Ключевым элементом является многоступенчатый процесс валидации, который проверяет классификации с помощью анализа Контекстуального сходства (Contextual Similarity), анализа распределения кликов (Click Distribution) и целевого краулинга специфических фраз.

Как это работает

Система работает в двух основных режимах: Индексирование (Майнинг) и Обработка запросов.

Майнинг (Офлайн): Web crawlers собирают контент с сайтов продавцов, производителей, блогов и т.д. Система анализирует этот контент и логи запросов для идентификации потенциальных Структурных параметров. Валидация происходит путем проверки согласованности между источниками, анализа структуры URL, анализа кликов пользователей и целевого поиска подтверждающих фраз (например, «[Термин] это [Параметр]»). Если структура подтверждена, она сохраняется в Product Database.
Обработка запросов (Онлайн): Поисковый запрос пользователя разбивается на компоненты. Система сопоставляет их с базой данных и извлекает связанные Структурные параметры. Затем генерируется страница результатов, где продукты и/или связанные поисковые подсказки (фасеты) группируются по этим проверенным параметрам.

Актуальность для SEO

Высокая. Структурирование данных о товарах и точное понимание атрибутов являются критически важными для Google Shopping, Product Knowledge Graph и основного поиска в сегменте E-commerce. Описанные методы автоматического извлечения и валидации атрибутов с использованием машинного обучения и поведенческих сигналов остаются фундаментом современных систем поиска товаров.

Важность для SEO

Патент имеет высокое значение для E-commerce SEO (85/100). Он раскрывает конкретные механизмы, которые Google использует для понимания структуры продукта (бренд, атрибуты, линейки) независимо от разметки конкретного продавца. Это подчеркивает важность консистентности информации о продукте как на сайте, так и во внешних источниках (обзоры, блоги), которые Google использует для валидации классификации, а также важность поведенческих сигналов (кликов).

Термины и определения

Components (Компоненты): Слова или фразы, полученные путем разбиения (granulizing) текстового контента или поисковых запросов.
Structural Parameters (Структурные параметры): Информация о классификации продукта. Примеры: тип продукта, бренд, производитель, атрибут продукта (например, цвет, материал), продавец (ритейлер), линейка продуктов (product line), скидка.
Contextual Similarity (Контекстуальное сходство): Мера близости между двумя классифицированными группами семантически или несемантически схожих компонентов в векторном пространстве. Используется для определения того, подходит ли компонент под определенный Structural Parameter. Измеряется методами вроде Евклидова расстояния или косинусного угла.
Click Distribution (Распределение кликов): Анализ того, как часто пользователи кликают на результаты по запросам, содержащим определенные комбинации компонентов (например, Бренд-Атрибут-Категория). Используется для валидации атрибутов и линеек продуктов на основе смещения (skewness) кликов.
Component Tags (Теги компонентов): Механизм маппинга, связывающий ключевые слова в базе данных с их Structural Parameters, а также с другой информацией о продукте (URL, изображения, описания).
Key Words (Ключевые слова): Валидированные Components, хранящиеся в Product Database.
Targeted Web-Crawling (Целевой веб-краулинг): Специализированный краулинг, направленный на поиск конкретной информации для валидации. Например, поиск фраз, содержащих паттерн «is a» или «is an».
Smart Learning Software (ПО для умного обучения): Автоматическое ПО, используемое для обнаружения новых Structural Parameters, если компонент не соответствует существующим, но постоянно появляется в определенном контексте.

Ключевые утверждения (Анализ Claims)

Claim 20 (Независимый пункт): Описывает процесс майнинга (индексирования) классификационных структур из текстового контента.

Система получает текстовый контент.
Идентифицируется совпадение между частью контента и существующим ключевым словом, у которого есть ассоциированный Structural Parameter.
Система проверяет Contextual Similarity между совпадением и структурным параметром. Ключевой механизм: Эта проверка включает парсинг веб-контента с использованием контекстуальной фразы (contextual phrase), которая содержит этот структурный параметр.
Если проверка пройдена, система классифицирует полученный текстовый контент этим структурным параметром.
Контент и его параметр сохраняются в Product Database.

Ядро изобретения в процессе индексации — это активная валидация. Система не просто принимает классификацию от источника, а проверяет ее, анализируя, как этот термин используется в вебе в связке со структурным параметром. Например, чтобы проверить, является ли «Nikon» производителем, система ищет в вебе фразы, содержащие и «Nikon», и контекст «производителя».

Claim 1 (Независимый пункт): Описывает процесс обработки поискового запроса.

Система поддерживает Product Database.
Получается поисковый запрос.
Идентифицируется совпадение между частью запроса и ключевым словом в базе.
Structural Parameter ключевого слова ассоциируется с частью запроса.
Система проверяет Contextual Similarity между частью запроса и структурным параметром (используя тот же механизм парсинга веб-контента с предопределенной контекстуальной фразой).
Если сходство подтверждено, извлекаются данные о продуктах (названия, URL).
Отображается результат поиска, организованный по идентифицированным Structural Parameters.

Claim 5 (Независимый пункт): Аналогичен Claim 1, но фокусируется на генерации поисковых подсказок/связанных запросов.

Процесс идентичен Claim 1, включая проверку Contextual Similarity. Результатом является генерация страницы результатов, содержащей поисковые подсказки (search suggestions), сгруппированные по этим Structural Parameters. (Это описывает блок «Related searches», сгруппированный по Брендам, Типам и т.д.).

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, связанных с вертикалью поиска товаров (Product Search/Google Shopping).

CRAWLING – Сканирование и Сбор данных
Система использует как общий, так и целевой (targeted) краулинг. Общий краулинг собирает данные о продуктах. Целевой краулинг используется для валидации: система специально ищет контекстуальные фразы (например, «[X] это [Y]»), чтобы подтвердить классификацию.

INDEXING – Индексирование и извлечение признаков
Основной этап майнинга структур. Здесь происходит:

Анализ собранного контента, структуры URL и логов запросов.
Идентификация потенциальных Structural Parameters.
Валидация параметров с использованием Contextual Similarity, анализа кликов (Click Distribution) и целевого краулинга.
Построение Product Database.

QUNDERSTANDING – Понимание Запросов
Запрос разбивается на компоненты, которые сопоставляются с Product Database для понимания его структуры (например, Бренд + Атрибут + Тип продукта).

RANKING / METASEARCH (В рамках вертикали товаров)
Система использует извлеченные структурированные данные для формирования выдачи. Результаты (списки товаров) и поисковые подсказки (фасеты/связанные запросы) организуются и группируются на основе идентифицированных Structural Parameters.

На что влияет

Конкретные типы контента: В первую очередь влияет на E-commerce контент: страницы товаров (PDP), листинги (PLP), обзоры продуктов, блоги о товарах.
Специфические запросы: Коммерческие и информационные запросы, связанные с товарами, особенно те, которые содержат атрибуты (например, «флисовая куртка north face», «ботинки со стальным носком»).
Конкретные ниши или тематики: Все ниши E-commerce.

Когда применяется

Алгоритмы майнинга работают постоянно в офлайн-режиме для обновления Product Database. Алгоритмы обработки запросов применяются в реальном времени при получении продуктового запроса.

Триггеры активации (Валидация):

Обнаружение нового текстового контента краулером.
Получение поискового запроса, компоненты которого не имеют подтвержденной классификации (активирует целевой краулинг).
Изменение распределения кликов по существующим запросам.

Пошаговый алгоритм

Процесс А: Майнинг и Индексирование структур (Офлайн/Периодический)

Сбор данных: Запуск веб-краулеров (общих или целевых) или получение данных из логов/фидов.
Идентификация и Гранулизация: Обнаружение нового контента и его разбиение на компоненты.
Сопоставление с существующими структурами: Попытка валидировать новые компоненты на соответствие существующим Structural Parameters.
Проверка контекстуального сходства и Валидация: Определение, соответствует ли новый контент контексту параметров. Это включает:
- Анализ структуры URL (например, /category/attribute.html).
- Анализ распределения кликов (проверка критериев для Атрибутов и Линеек продуктов).
- Целевой краулинг для поиска подтверждающих контекстуальных фраз (например, «is a»).
- Консенсус между различными источниками.
Обновление базы данных (Если соответствует): Если контент соответствует существующей структуре, Product Database обновляется.
Генерация новой структуры (Если не соответствует): Если контент не соответствует, но демонстрирует устойчивые связи (Smart Learning), инициируется создание нового Structural Parameter.
Валидация новой структуры: Проверка нового параметра (как в шаге 4).
Обновление базы данных (Новая структура): Если структура валидирована, она добавляется в Product Database.

Процесс Б: Обработка поискового запроса (Реальное время)

Получение и Гранулизация запроса: Система получает запрос и разбивает его на компоненты.
Валидация компонентов: Компоненты сопоставляются с Key Words в Product Database.
Проверка контекстуального сходства: Определяется, соответствуют ли компоненты запроса контексту ключевых слов.
Извлечение параметров (Если соответствует): Извлекаются Structural Parameters и данные о продуктах (URL, изображения).
Генерация SERP: Создается страница результатов. Продукты и/или поисковые подсказки организуются в соответствии с извлеченными Structural Parameters.
Инициация майнинга (Если не соответствует): Если компоненты запроса не соответствуют базе, они могут быть переданы в Процесс А для целевого краулинга и анализа. Может быть выдан альтернативный результат или ошибка.

Какие данные и как использует

Данные на входе

Контентные факторы: Текстовый контент веб-страниц (описания, обзоры, блоги, новости). Система ищет специфические фразы (например, «is a», «is an») для валидации.
Технические факторы: URL-структура (используется для извлечения классификации из иерархии папок). Мета-теги.
Поведенческие факторы: Логи поисковых запросов (product logs), данные о кликах (web clicks), распределение кликов (click distribution), впечатления (impressions).
Структурные факторы: Сайтмапы, продуктовые фиды (product search feeds).

Какие метрики используются и как они считаются

Contextual Similarity (Контекстуальное сходство): Измеряется как расстояние или угол между компонентами в многомерном векторном пространстве. Упоминаются методы: Euclidean distance, vector modeling, cosine angle distance. Также упоминаются методы подгонки (fitting methods) вроде Least Square Fitting (LSF) для определения значимости связи.
Валидация Атрибута (Attribute Validation): Метрика основана на двух условиях:
1. Количество брендов, связанных с парой Атрибут-Категория (должно быть много).
2. Распределение кликов для запросов Бренд-Атрибут-Категория не должно быть перекошено (not skewed) в сторону одного бренда.
Валидация Линейки Продуктов (Product Line Validation): Метрика основана на условии:
1. Распределение кликов для запросов Фраза-Линейка-Категория должно быть сильно перекошено (skewed) в сторону одного слова/фразы (которое является Брендом).
Валидация на основе трафика: Измерение интернет-трафика (впечатлений и кликов). Высокий уровень кликов подтверждает валидность классификации.
Консенсус (Consensus): Если определенный процент продавцов/источников классифицирует продукт схожим образом, классификация считается валидной.

Автоматизация структурирования E-commerce данных: Google активно строит независимый, структурированный индекс товаров, автоматически извлекая и валидируя Structural Parameters (бренды, атрибуты, линейки) из неструктурированного контента и поведения пользователей.
Валидация через контекст и поведение критична: Система не доверяет одному источнику. Валидация основана на Contextual Similarity, которая проверяется несколькими методами: консенсус источников, целевой краулинг и анализ поведения пользователей.
Целевой краулинг для подтверждения классификации: Система активно ищет в интернете подтверждающие фразы (например, паттерн «is a»), чтобы валидировать связь между термином и его классификацией.
Конкретные правила на основе кликов (Click Distribution): Патент предлагает четкие правила для различения общих атрибутов и специфичных линеек продуктов, основанные на анализе того, как распределяются клики пользователей между брендами.
Использование URL как источника структуры: Структура URL (иерархия категорий) явно используется как источник информации для классификации продуктов.
Самообучение (Smart Learning): Система способна идентифицировать и валидировать новые типы классификации или атрибуты, если они постоянно встречаются в определенном контексте.

Best practices (это мы делаем)

Использование явного языка для классификации (Поддержка целевого краулинга): Активно используйте в контенте (PDP, блоги, обзоры) фразы, которые явно определяют отношения между терминами. Ориентируйтесь на паттерн «is a»/«является». Пример: «[Бренд X] является производителем...», «[Название линейки] — это новая линейка продуктов от [Бренд X]». Это дает системе явные сигналы для валидации.
Обеспечение консистентности информации (On-Site и Off-Site): Убедитесь, что информация о продукте (атрибуты, бренды, линейки) последовательна на вашем сайте и соответствует данным на авторитетных внешних ресурсах (обзоры, блоги, сайты производителей). Google использует консенсус для валидации.
Логичная и описательная структура URL: Используйте четкую иерархию в URL, отражающую классификацию продукта (например, /category/subcategory/attribute.html). Патент подтверждает, что Google извлекает информацию о классификации из структуры URL.
Четкое разграничение атрибутов и линеек продуктов: Понимайте разницу в валидации. Для линеек продуктов убедитесь, что они четко ассоциируются с вашим брендом в контенте и внешних упоминаниях, чтобы соответствовать критерию смещения кликов (skewed click distribution).
Оптимизация под поведенческие сигналы: Создавайте релевантный контент и привлекательные сниппеты. Высокие показатели кликов (CTR) по вашим результатам помогают валидировать правильность классификации ваших товаров в Product Database Google.

Worst practices (это делать не надо)

Непоследовательная или нестандартная классификация: Использование уникальных систем категоризации или названий атрибутов, которые не используются другими участниками рынка. Это затруднит валидацию через консенсус и Contextual Similarity.
Игнорирование структуры URL: Использование неинформативных URL (например, /product?id=123) лишает Google важного источника данных для понимания структуры продукта.
Манипулирование атрибутами: Попытки представить общие атрибуты как уникальные линейки продуктов или наоборот. Анализ Click Distribution по всему интернету может выявить такие несоответствия, что приведет к неудачной валидации.
Использование терминов без контекста: Размещение ключевых слов (атрибутов, брендов) без достаточного контекстного окружения усложняет расчет Contextual Similarity и валидацию.

Стратегическое значение

Патент подтверждает стратегию Google по созданию стандартизированного индекса товаров. Для E-commerce проектов это означает, что контроль над интерпретацией их товаров смещается от данных продавца к общему консенсусу в интернете и поведению пользователей. Долгосрочная стратегия должна включать построение сильного бренда и обеспечение широкого, последовательного и авторитетного освещения продуктов во всей экосистеме (PR, обзоры, контент-маркетинг), а не только оптимизацию собственного сайта.

Практические примеры

Сценарий 1: Валидация новой линейки продуктов (использование Click Distribution и Контента)

Компания «BrandA» запускает новую линейку курток «AquaBlock».

Действие (Контент/PR): Создать лендинг и разослать пресс-релизы, акцентируя внимание на связи: «AquaBlock — это новая линейка водонепроницаемых курток от BrandA». Цель – добиться появления в авторитетных источниках фраз, подтверждающих эту связь (для целевого краулинга).
Действие (Маркетинг): Сфокусировать маркетинговые усилия на связке «AquaBlock» и «BrandA».
Механизм Google (Патент):
- Система анализирует Click Distribution. Если пользователи, ищущие «AquaBlock куртки», преимущественно кликают на результаты, связанные с «BrandA» (перекос распределения).
- Система проводит целевой краулинг и находит подтверждающие фразы.
Результат: «AquaBlock» валидируется как Structural Parameter: Product Line для бренда «BrandA», улучшая релевантность выдачи по запросам линейки.

Сценарий 2: Валидация нового Атрибута

Появился новый материал «DynaWeave» для ботинок.

Действие (Контент): На странице продукта и в обзорах использовать контекстные фразы: «Ботинки изготовлены из материала DynaWeave»; «DynaWeave является новым типом ткани...» (паттерн «is a»).
Механизм Google (Патент): Система проведет целевой краулинг и найдет эти упоминания. Если другие производители также начнут использовать этот материал, и клики будут распределены между ними (без перекоса), Google валидирует его как Structural Parameter: Attribute.
Результат: В выдаче может появиться фильтр или подсказка по материалу «DynaWeave».

Что такое «Структурные параметры» (Structural Parameters) в контексте этого патента?

Это система классификации, которую Google автоматически присваивает терминам, связанным с продуктами. Примеры включают бренд, производителя, тип продукта, атрибут (например, цвет, материал), продавца, линейку продуктов. Они используются для понимания запросов и организации результатов поиска, например, для создания фильтров или группировки связанных запросов.

Как Google определяет, является ли термин атрибутом (например, «флисовый») или линейкой продуктов (например, «Momentum»)?

Патент описывает правила валидации на основе распределения кликов (Click Distribution). Атрибут считается действительным, если он ассоциируется со многими брендами и клики НЕ перекошены в сторону одного бренда. Линейка продуктов считается действительной, если она почти исключительно ассоциируется с одним конкретным брендом (клики сильно перекошены в сторону этого бренда).

Что такое метод валидации с помощью «контекстуальной фразы» или паттерна «is a»?

Это метод целевого краулинга (targeted web-crawling). Если система не уверена в классификации термина, она активно ищет в интернете фразы вида «[Термин] это [Классификация]». Например, для валидации «Nikon» система может искать фразы типа «Nikon это производитель». Наличие таких фраз в авторитетных источниках подтверждает классификацию.

Как SEO-специалист может использовать знание о валидации через «контекстные фразы»?

Необходимо активно использовать такие конструкции в контенте (описания продуктов, блог, PR-материалы). Если вы хотите, чтобы Google четко понимал вашу классификацию, заявите о ней прямо. Например: «[Название модели] является [Тип продукта] от бренда [Бренд]». Это дает системе явные сигналы для валидации, которые она ищет во время целевого краулинга.

Насколько важна структура URL моего сайта согласно этому патенту?

Она очень важна. Патент прямо указывает, что система извлекает информацию о классификации из структуры URL. Например, URL вида «/apparel/jackets/fleece.html» сообщает системе о категории «apparel», типе «jacket» и атрибуте «fleece». Логичная иерархия URL помогает Google правильно определить Structural Parameters.

Что произойдет, если разные продавцы классифицируют мой товар по-разному?

Система Google собирает данные из множества источников (включая сайты производителей, блоги, обзоры) и использует процессы валидации (консенсус, Contextual Similarity, анализ кликов), чтобы определить наиболее достоверную и стандартизированную классификацию, игнорируя противоречивые данные от отдельных продавцов.

Может ли система изучать совершенно новые атрибуты или категории товаров?

Да. В патенте описано «ПО для умного обучения» (Smart Learning Software). Если новый термин постоянно появляется в определенном контексте (например, новый материал постоянно упоминается рядом с категорией «куртки») и не соответствует существующим структурам, система может научиться распознавать его как новый Structural Parameter после успешной валидации.

Что такое «Contextual Similarity» и как она измеряется?

Это мера того, насколько хорошо термин вписывается в контекст определенной классификации. Технически она измеряется как близость между компонентами в многомерном векторном пространстве, используя методы машинного обучения вроде Евклидова расстояния или косинусного угла. Она учитывает как семантические, так и несемантические связи между словами.

Как этот патент влияет на Off-Site SEO для E-commerce?

Он значительно повышает важность Off-Site сигналов. Поскольку Google использует внешний веб-контент (блоги, обзоры, новости) для валидации брендов, атрибутов и линеек продуктов (например, через целевой краулинг фраз «is a»), крайне важно обеспечить последовательное и правильное описание ваших товаров на сторонних авторитетных ресурсах.

Где в выдаче можно увидеть результат работы этой системы?

Наиболее очевидные примеры — это фильтры в Google Shopping, а также блок «Related Searches» (Связанные запросы) в основной выдаче. В патенте показан пример, где связанные запросы сгруппированы по категориям: «Brands», «Stores», «Types», «Products». Эта группировка является прямым применением извлеченных Structural Parameters.

Как Google автоматизирует создание структуры категорий и оптимизирует мерчандайзинг на сайтах E-commerce

Система для автоматической организации интернет-магазинов. Она анализирует товарный фид, используя NLP для создания релевантных категорий. Затем система сортирует товары внутри категорий, применяя алгоритмы оптимизации (Decision Trees), основанные на данных о продажах (конверсии, отказы) и внешних поисковых трендах, для максимизации эффективности сайта мерчанта.

US20170116658A1
2017-04-27

Семантика и интент
Структура сайта
Поведенческие сигналы

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз

Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.

US7962461B2
2011-06-14

Краулинг

Как Google динамически обогащает сниппеты, ранжируя отзывы, атрибуты и упоминания для обоснования результатов поиска

Google использует фреймворк для обогащения результатов поиска вспомогательной информацией (аннотациями), такой как редакционные упоминания, списки Топ-X, атрибуты товаров и контекстные отзывы. Система использует машинное обучение для оценки и ранжирования этих разнородных данных, чтобы динамически выбрать наиболее полезный дополнительный сниппет. Это позволяет обосновать позицию результата и повысить доверие пользователя.

US12164527B2
2024-12-10

SERP

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта

Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.

US9348846B2
2016-05-24

Структура сайта
SERP
Ссылки

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам

Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).

US9135317B2
2015-09-15

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками

Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.

US8375025B1
2013-02-12

Мультиязычность
Поведенческие сигналы
Персонализация