Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует отзывы и поисковые запросы для извлечения атрибутов и категоризации продуктов и брендов

    ANALYZING USER REVIEWS TO DETERMINE ENTITY ATTRIBUTES (Анализ пользовательских отзывов для определения атрибутов сущностей)
    • US10061767B1
    • Google LLC
    • 2018-08-28
    • 2015-05-11
    2015 EEAT и качество Google Shopping Патенты Google Семантика и интент

    Google анализирует логи поисковых запросов, чтобы выявить популярные категории, используемые пользователями («Категории наблюдаемого интереса»). Затем система анализирует текст сторонних пользовательских отзывов для извлечения описательных атрибутов о продуктах, компаниях и поставщиках. Продукты индексируются на основе этих извлеченных атрибутов и категорий, что позволяет лучше понимать репутацию бренда и то, как пользователи ищут и воспринимают продукт.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неполноты данных о сущностях (таких как продукты, их создатели и поставщики). Информация, предоставляемая самими сущностями, часто не отражает того, как пользователи реально описывают, сравнивают и категоризируют их в интернете. Изобретение направлено на извлечение этой информации из неструктурированного текста пользовательских отзывов и логов поисковых запросов для обогащения индекса и улучшения поиска по этим сущностям.

    Что запатентовано

    Запатентована система для анализа корпуса пользовательских отзывов с целью ассоциации описательных сегментов текста с конкретными сущностями. Ключевым элементом является механизм идентификации Categories of Observed User Interest (Категорий наблюдаемого интереса) на основе анализа логов поисковых запросов. Система классифицирует части отзывов, определяя, о какой сущности идет речь (продукт, создатель или поставщик), извлекает описания и сравнения с помощью NLP и индексирует сущности на основе этих данных и выявленных категорий.

    Как это работает

    Система работает в несколько этапов:

    • Определение категорий: Анализируются логи поисковых запросов для выявления часто встречающихся фраз, которые становятся Categories of Observed User Interest.
    • Классификация текста: Пользовательские отзывы анализируются с помощью классификаторов машинного обучения (Machine Learning Classifiers), чтобы определить, какая часть текста относится к продукту, какая к создателю, а какая к поставщику.
    • Извлечение данных: Используя методы обработки естественного языка (NLP), система извлекает Descriptive Segments of Text (описательные сегменты) и Comparison Segments of Text (сегменты сравнения).
    • Ассоциация и Индексация: Извлеченные сегменты и категории ассоциируются с соответствующими сущностями в базе данных (например, в Knowledge System или Knowledge Graph).
    • Оценка связи: Система рассчитывает Strength of Association (силу связи) между атрибутом и сущностью, учитывая частоту упоминаний, близость к ссылкам на сущность и обратную связь пользователей.

    Актуальность для SEO

    Высокая. Понимание сущностей и их атрибутов является фундаментом современного поиска (Knowledge Graph, E-E-A-T). Использование пользовательского контента (UGC), такого как отзывы, для оценки репутации и характеристик продуктов и брендов критически важно. Механизм связывания поведения пользователей в поиске (как они ищут) с контентом в интернете (как они описывают) остается центральной задачей Information Retrieval.

    Важность для SEO

    Патент имеет высокое значение для SEO (8.5/10). Он описывает конкретные механизмы, с помощью которых Google использует сторонние отзывы для понимания, категоризации и индексации продуктов и брендов. Это напрямую влияет на стратегии управления репутацией (ORM/SERM) и подтверждает важность E-E-A-T сигналов, получаемых из внешних источников. Отзывы становятся не просто косвенным сигналом, а прямым источником данных для индекса.

    Детальный разбор

    Термины и определения

    Categories of Observed User Interest (Категории наблюдаемого интереса пользователей)
    Категории, определяемые на основе анализа активности пользователей, например, корпуса поисковых запросов. Если достаточное количество пользователей ищут определенную фразу (например, «MMORPG» или «soulslike»), она становится категорией наблюдаемого интереса.
    Categories of Predicted Interest (Категории прогнозируемого интереса)
    Логические категории, которые система прогнозирует как интересные пользователям. Часто основаны на предопределенной таксономии, предложенной создателями или владельцами площадок (например, категории в меню маркетплейса).
    Classifier Engine (Механизм классификации)
    Компонент системы, использующий Machine Learning Classifiers, для определения того, к какой сущности (продукт, создатель, поставщик) относится данный отзыв или его часть.
    Comparison Segments of Text (Сегменты текста сравнения)
    Фрагменты текста, извлеченные из отзывов, которые сравнивают одну сущность с другой (например, «Продукт X лучше, чем Продукт Y»).
    Descriptive Segments of Text (Описательные сегменты текста)
    Фрагменты текста, извлеченные из отзывов, которые описывают сущность. Включают названия сущностей/категорий, существительные и прилагательные.
    Entity (Сущность)
    Любой человек, организация, место или вещь. В контексте патента в основном упоминаются продукты (products), создатели продуктов (product creators) и поставщики продуктов (product vendors).
    Graph Engine (Графовый движок)
    Компонент, который строит и поддерживает индекс сущностей и их атрибутов, часто представляя их в виде графа (узлы=сущности, ребра=отношения). Связан с Knowledge Graph.
    NLP (Natural Language Processing)
    Методы обработки естественного языка, используемые для извлечения сегментов. Включают разрешение кореференции (co-reference resolution), грамматический разбор и переписывание текста (textual rewrites).
    Strength of Association (Сила ассоциации)
    Количественная мера (score), присваиваемая связи между описательным сегментом текста и сущностью. Зависит от частоты упоминания, обратной связи пользователей и близости текста к ссылкам на сущность.
    User Review (Пользовательский отзыв)
    Текст, написанный пользователем для выражения мнения о сущности. Источники включают блоги, социальные сети, статьи, разделы отзывов на сайтах.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод извлечения категорий из поисковых запросов и их использование для индексации продуктов.

    1. Система идентифицирует одну или несколько Categories of Observed User Interest на основе корпуса поисковых запросов (corpus of user search engine queries).
    2. В пользовательских отзывах, связанных с продуктом, система обнаруживает сегменты текста, относящиеся к этим идентифицированным категориям.
    3. На основе этого обнаружения система индексирует продукт по этим Categories of Observed User Interest в поисковой базе данных.
    4. Эта база данных используется для предоставления результатов поиска.

    Ядро изобретения — это связь между тем, как пользователи ищут (логи запросов), и тем, как они описывают (отзывы), для улучшения индексации сущностей.

    Claim 4 и 6 (Зависимые): Детализируют механизм классификации текста отзывов.

    Система классифицирует части отзывов как относящиеся к продукту ИЛИ к создателю продукта. В Claim 6 уточняется, что для этого используются отдельные классификаторы машинного обучения: первый для продукта, второй для создателя. Это критически важно для точного разделения атрибутов и оценок E-E-A-T между брендом и его продукцией.

    Claim 7 (Зависимый): Описывает обработку сравнений.

    1. Система извлекает Comparison Segments of Text, которые сравнивают продукт/создателя с другими сущностями.
    2. Система индексирует продукт/создателя на основе этих сегментов сравнения.

    Это позволяет системе понимать конкурентное окружение сущности на основе мнений пользователей.

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, связывая анализ поведения пользователей с обработкой контента.

    CRAWLING – Сканирование и Сбор данных
    Система собирает User Reviews из различных источников: блоги, социальные сети, статьи, сайты отзывов, маркетплейсы.

    QUNDERSTANDING – Понимание Запросов
    На этом этапе (в офлайн-режиме) анализируется корпус поисковых запросов. Цель — выявить шаблоны и часто встречающиеся фразы, чтобы определить Categories of Observed User Interest. Это позволяет системе понять, какой язык и какие категории используют пользователи для поиска.

    INDEXING – Индексирование и извлечение признаков
    Основная работа, описанная в патенте, происходит здесь. Система обрабатывает собранные отзывы:

    1. Классификация: Classifier Engine анализирует текст и классифицирует его части, определяя релевантные сущности (продукт, создатель, поставщик), используя ML-классификаторы.
    2. Извлечение признаков: Descriptive Text Extraction Engine применяет NLP для извлечения атрибутов (Descriptive Segments) и сравнений (Comparison Segments).
    3. Ассоциация: Descriptive Text Association Engine связывает извлеченные данные с сущностями в Graph Engine (Knowledge Graph) и рассчитывает Strength of Association.
    4. Индексация: Индекс обновляется, добавляя новые атрибуты и категории к сущностям.

    RANKING – Ранжирование
    Обновленный индекс используется поисковой системой. Когда пользователь вводит запрос, соответствующий Category of Observed User Interest или извлеченному атрибуту, система может лучше ранжировать релевантные продукты или бренды.

    Входные данные:

    • Корпус пользовательских отзывов (User Reviews).
    • Корпус поисковых запросов (Search Engine Queries Logs).
    • Существующий индекс сущностей.
    • Данные об обратной связи пользователей (о полезности отзывов).

    Выходные данные:

    • Обогащенный индекс сущностей с новыми атрибутами и категориями.
    • Рассчитанные оценки Strength of Association для каждой связи атрибут-сущность.

    На что влияет

    • Конкретные типы контента и сущностей: Наибольшее влияние оказывается на сущности, о которых часто пишут отзывы: продукты (E-commerce, ПО, игры), компании-создатели и поставщики (Local Search, маркетплейсы).
    • E-E-A-T и репутация: Механизм напрямую влияет на понимание системой репутации создателей и поставщиков, извлекая мнения о них из сторонних источников, что является ключевой частью оценки E-E-A-T.
    • Специфические запросы: Влияет на ранжирование по запросам, содержащим сравнения (например, «продукт X vs продукт Y») и по запросам, использующим пользовательскую категоризацию (например, «лучшие MMORPG»), которая была идентифицирована как Category of Observed Interest.

    Когда применяется

    • Условия работы: Алгоритм применяется при обработке новых или обновленных пользовательских отзывов на этапе индексирования.
    • Триггеры активации (для категорий): Определение новой Category of Observed Interest активируется, когда частота (frequency) или количество (count) определенной фразы в логах поисковых запросов превышает установленный порог.
    • Временные рамки: Анализ логов запросов и индексация отзывов происходят периодически или непрерывно. Strength of Association может динамически обновляться при получении новой обратной связи (Feedback).

    Пошаговый алгоритм

    Процесс можно разделить на два основных потока: определение категорий и обработка отзывов.

    Поток А: Определение категорий (Офлайн / Периодически)

    1. Сбор данных: Агрегация корпуса поисковых запросов пользователей.
    2. Анализ частотности: Идентификация часто встречающихся терминов и фраз в запросах.
    3. Определение категорий: Если фраза превышает пороговое значение частоты или количества, она определяется как Category of Observed User Interest.
    4. Обновление индекса категорий: Сохранение новых категорий.

    Поток Б: Обработка отзывов и индексация сущностей (Индексирование)

    1. Сбор отзывов: Сканирование и получение пользовательских отзывов.
    2. Классификация текста: Classifier Engine использует ML-классификаторы для определения, к какой сущности (продукт, создатель, поставщик) относится каждая часть текста.
    3. Извлечение сегментов: Descriptive Text Extraction Engine обрабатывает классифицированные части текста с помощью NLP (включая textual rewrites и co-reference resolution).
      1. Извлекаются Descriptive Segments (атрибуты).
      2. Извлекаются Comparison Segments (сравнения).
    4. Ассоциация: Извлеченные сегменты и релевантные категории связываются с соответствующими сущностями.
    5. Расчет силы связи: Определяется Strength of Association. Учитываются: частота упоминания, близость текста к ссылкам на сущность, обратная связь пользователей.
    6. Индексация: Graph Engine обновляет индекс сущностей на основе новых ассоциаций и их оценок.
    7. Обратная связь и корректировка: Система использует обратную связь (например, последующие отзывы, оценка полезности) для корректировки Strength of Association. Если продукт начинает получать негативные отзывы от широкой аудитории, сила положительных ассоциаций может снижаться.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст пользовательских отзывов из различных источников (блоги, сайты, соцсети). Из текста извлекаются существительные, прилагательные, названия сущностей и категорий.
    • Технические/Ссылочные факторы: Ссылки на интерфейсы сущностей (например, веб-сайты продуктов), упомянутые в отзывах. Близость описательного текста к этим ссылкам используется при расчете силы ассоциации.
    • Поведенческие/Пользовательские факторы:
      1. Логи поисковых запросов: Массив данных о том, что пользователи ищут. Используется для определения Categories of Observed User Interest.
      2. Обратная связь (Feedback): Данные о том, считают ли пользователи отзывы полезными или нет, а также последующие отзывы на продукты. Используется для корректировки оценок ассоциаций.

    Какие метрики используются и как они считаются

    • Frequency/Count (Частота/Количество): Метрики для анализа логов поисковых запросов. Используются для определения, достигла ли фраза порога популярности, чтобы стать Category of Observed User Interest.
    • Strength of Association (Сила ассоциации): Оценка, характеризующая связь между извлеченным сегментом текста и сущностью. Патент упоминает факторы для ее расчета:
      1. Частота: Как часто сегмент встречается в корпусе отзывов об этой сущности.
      2. Обратная связь: Положительная или отрицательная обратная связь от пользователей.
      3. Близость (Proximity): Насколько близко в тексте отзыва расположен описательный сегмент к ссылке на интерфейс сущности.
    • Методы анализа текста (NLP): Упоминаются конкретные техники для извлечения сегментов:
      • Co-reference resolution (разрешение кореференции).
      • Grammars (грамматический разбор).
      • Textual rewrites (переписывание текста, например, преобразование сложных предложений в простые утверждения об атрибутах).
    • Алгоритмы машинного обучения: Используются Machine Learning Classifiers для классификации фрагментов отзывов по отношению к разным сущностям.

    Выводы

    1. Google активно использует сторонние отзывы для понимания сущностей. Система не полагается только на контент официального сайта. Отзывы являются критически важным источником для извлечения атрибутов, мнений и сравнений о продуктах и брендах.
    2. Разделение контекста сущностей (E-E-A-T). Система использует отдельные ML-классификаторы, чтобы точно определить, относится ли отзыв к продукту, его создателю или поставщику. Это позволяет Google формировать независимые оценки репутации (E-E-A-T) для компании и ее продукта.
    3. Категоризация основана на поведении пользователей. Ключевым механизмом является определение Categories of Observed User Interest из логов поисковых запросов. Это означает, что Google индексирует продукты не только по предопределенной таксономии, но и по тем категориям и терминам, которые реально используют люди в поиске.
    4. Извлечение сравнений. Система целенаправленно ищет и индексирует сравнения между сущностями (Comparison Segments). Это используется для понимания конкурентной среды и может влиять на ранжирование по сравнительным запросам.
    5. Динамическая оценка репутации. Ассоциации между атрибутами и сущностями не статичны. Они имеют оценку (Strength of Association), которая корректируется на основе обратной связи и новых отзывов. Репутация может меняться со временем.
    6. Использование NLP для глубокого понимания текста. Система применяет сложные методы NLP (разрешение кореференции, переписывание текста) для точного извлечения смысла из неструктурированных отзывов.

    Практика

    Best practices (это мы делаем)

    • Мониторинг и стимулирование сторонних отзывов: Необходимо активно работать с репутацией на внешних площадках (блоги, сайты отзывов, маркетплейсы), так как Google использует их как источник данных об атрибутах вашего продукта и бренда. Стимулируйте детальные отзывы.
    • Анализ языка целевой аудитории (Observed Interest): Изучайте, как пользователи ищут продукты в вашей нише. Понимание формирующихся Categories of Observed User Interest позволит адаптировать контент и позиционирование так, чтобы они соответствовали языку пользователей.
    • Усиление E-E-A-T бренда: Поскольку система разделяет отзывы о продукте и создателе, критически важно выстраивать сильные сигналы E-E-A-T для компании в целом. Положительные атрибуты, ассоциированные с брендом, могут наследоваться продуктами (как указано в патенте).
    • Работа со сравнительным контентом: Понимая, что Google извлекает Comparison Segments, полезно отслеживать, с кем сравнивают ваш продукт в отзывах. Это можно использовать в контент-стратегии (например, создавать честные сравнения, подчеркивающие ваши преимущества).
    • Четкое позиционирование сущностей: Убедитесь, что ваш продукт, бренд и сервис четко разделены в коммуникациях. Это поможет классификаторам корректно интерпретировать отзывы и приписывать атрибуты нужным сущностям.

    Worst practices (это делать не надо)

    • Игнорирование негатива на сторонних ресурсах: Негативные отзывы напрямую влияют на атрибуты, которые Google ассоциирует с вашим брендом или продуктом. Отсутствие реакции усугубляет проблему.
    • Манипуляции и накрутка отзывов (Astroturfing): Механизм обратной связи (Feedback) и динамический расчет Strength of Association направлены на борьбу с этим. Если накрученные отзывы привлекут реальных пользователей, которые затем оставят негативные отзывы, система скорректирует оценки вниз.
    • Использование сложного жаргона вместо пользовательского языка: Если ваш продукт описывается терминами, которые пользователи не используют в поиске и отзывах, системе будет сложнее ассоциировать его с релевантными Categories of Observed User Interest.

    Стратегическое значение

    Патент подтверждает стратегическую важность Off-Site SEO и управления репутацией (ORM). Он демонстрирует, что понимание сущности (E-E-A-T) в значительной степени формируется за счет анализа внешнего пользовательского контента. Также он подчеркивает переход от статической таксономии к динамической категоризации, основанной на реальном поведении пользователей в поиске. Долгосрочная стратегия должна включать построение сильного бренда, который положительно резонирует в пользовательских обсуждениях и отзывах.

    Практические примеры

    Сценарий 1: Категоризация на основе пользовательского сленга

    1. Наблюдение: Пользователи начинают массово искать игры, используя новый термин, например, «soulslike games».
    2. Определение категории: Анализируя логи запросов, Google фиксирует превышение порога частотности и определяет «soulslike games» как Category of Observed User Interest.
    3. Анализ отзывов: Система сканирует отзывы на игру «Elden Ring». В отзывах часто встречаются фразы вроде «This is the best soulslike game I’ve played».
    4. Извлечение и Ассоциация: Система извлекает этот сегмент и ассоциирует категорию «soulslike game» с сущностью «Elden Ring».
    5. Результат: Когда пользователи ищут «soulslike games», «Elden Ring» имеет высокие шансы на ранжирование, даже если разработчик не использовал этот термин в официальном описании.

    Сценарий 2: Разделение репутации продукта и компании

    1. Отзыв: Пользователь пишет: «Камера XYZ отличная, оптика супер, но я покупал ее в магазине Online Camera World, у которого ужасное обслуживание клиентов».
    2. Классификация: Система использует два классификатора. Первый классифицирует «Камера XYZ отличная, оптика супер» как относящееся к продукту «Камера XYZ». Второй классифицирует «Online Camera World, у которого ужасное обслуживание клиентов» как относящееся к поставщику «Online Camera World».
    3. Извлечение атрибутов: Извлекаются атрибуты «отличная», «супер оптика» для камеры и «ужасное обслуживание клиентов» для магазина.
    4. Результат: Репутация продукта улучшается, а репутация поставщика ухудшается, при этом негативный опыт с поставщиком не пессимизирует продукт.

    Вопросы и ответы

    Как этот патент влияет на оценку E-E-A-T?

    Патент напрямую связан с оценкой E-E-A-T. Он описывает механизм, с помощью которого Google извлекает мнения о создателях и поставщиках из сторонних отзывов. Система использует отдельные классификаторы для разделения отзывов о продукте и о компании. Это позволяет формировать точную оценку репутации бренда на основе внешних сигналов, что является ключевым компонентом E-E-A-T.

    В чем разница между Categories of Observed Interest и Categories of Predicted Interest?

    Categories of Predicted Interest — это прогнозируемые категории, основанные на предопределенной таксономии сайта или предложенные разработчиками (например, «Аркады» в магазине приложений). Categories of Observed Interest — это категории, извлеченные из реального поведения пользователей, в частности из логов поисковых запросов (например, если многие ищут «MMORPG»). Google отдает приоритет пользовательскому языку.

    Как Google определяет, относится ли отзыв к продукту или к компании?

    Система использует специализированные классификаторы машинного обучения (Machine Learning Classifiers). В патенте указано, что применяются отдельные классификаторы: один тренируется распознавать текст о продукте, другой — о создателе, третий — о поставщике. Это позволяет анализировать контекст даже внутри одного предложения и корректно атрибутировать мнения.

    Что такое Strength of Association и почему это важно?

    Strength of Association — это оценка (score), которая показывает, насколько сильно определенный атрибут связан с сущностью. Она рассчитывается на основе частоты упоминаний, близости к ссылкам на сущность и обратной связи пользователей. Это важно, потому что это определяет вес атрибута и позволяет системе динамически корректировать репутацию сущности при поступлении новых данных или изменении мнений пользователей.

    Как система обрабатывает сравнения продуктов в отзывах?

    Система целенаправленно ищет Comparison Segments of Text (например, «Продукт X быстрее Продукта Y»). Механизм извлечения использует NLP для идентификации этих сегментов. Затем сущности (Продукт X и Продукт Y) индексируются на основе этих сравнений. Это помогает Google понимать конкурентные преимущества и недостатки сущностей.

    Какие методы NLP использует Google для анализа отзывов согласно патенту?

    Упоминаются ключевые техники: разрешение кореференции (co-reference resolution — понимание, к чему относятся местоимения), грамматический разбор (grammars) и переписывание текста (textual rewrites). Переписывание позволяет преобразовать сложные или неполные предложения в прямые утверждения об атрибутах сущности для упрощения извлечения данных.

    Влияет ли этот патент на локальный поиск?

    Да. Хотя патент в основном обсуждает продукты и поставщиков (вендоров), описанные механизмы применимы к любым сущностям, включая локальный бизнес. Анализ отзывов о локальном бизнесе для извлечения атрибутов (например, «уютная атмосфера», «хороший кофе») и их ассоциация с сущностью компании полностью соответствует описанной технологии.

    Как Google борется с накруткой отзывов в контексте этого патента?

    Патент упоминает механизм обратной связи (Feedback) при расчете Strength of Association. Если изначально положительные отзывы (возможно, накрученные) приводят к тому, что продукт показывается шире, но затем реальные пользователи начинают оставлять негативные отзывы, система корректирует силу положительных ассоциаций в сторону уменьшения. Также учитывается полезность самих отзывов.

    Может ли система приписать моему товару атрибуты других товаров этого же бренда?

    Да. В патенте описан вариант, когда система может применять атрибуты к связанным сущностям. Если несколько продуктов одного создателя часто описываются одним и тем же атрибутом (например, «хороший геймплей»), система может «предположить», что этот атрибут применим и к другим продуктам того же создателя, даже если он не упомянут явно в их отзывах.

    Где хранятся эти извлеченные атрибуты?

    В патенте упоминается Knowledge System и Graph Engine, который поддерживает индекс сущностей и связанных атрибутов. На практике это означает, что извлеченные атрибуты и категории сохраняются в базе данных, подобной Knowledge Graph, обогащая профиль сущности.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.