Google анализирует логи поисковых запросов, чтобы выявить популярные категории, используемые пользователями («Категории наблюдаемого интереса»). Затем система анализирует текст сторонних пользовательских отзывов для извлечения описательных атрибутов о продуктах, компаниях и поставщиках. Продукты индексируются на основе этих извлеченных атрибутов и категорий, что позволяет лучше понимать репутацию бренда и то, как пользователи ищут и воспринимают продукт.
Описание
Какую задачу решает
Патент решает проблему неполноты данных о сущностях (таких как продукты, их создатели и поставщики). Информация, предоставляемая самими сущностями, часто не отражает того, как пользователи реально описывают, сравнивают и категоризируют их в интернете. Изобретение направлено на извлечение этой информации из неструктурированного текста пользовательских отзывов и логов поисковых запросов для обогащения индекса и улучшения поиска по этим сущностям.
Что запатентовано
Запатентована система для анализа корпуса пользовательских отзывов с целью ассоциации описательных сегментов текста с конкретными сущностями. Ключевым элементом является механизм идентификации Categories of Observed User Interest (Категорий наблюдаемого интереса) на основе анализа логов поисковых запросов. Система классифицирует части отзывов, определяя, о какой сущности идет речь (продукт, создатель или поставщик), извлекает описания и сравнения с помощью NLP и индексирует сущности на основе этих данных и выявленных категорий.
Как это работает
Система работает в несколько этапов:
- Определение категорий: Анализируются логи поисковых запросов для выявления часто встречающихся фраз, которые становятся Categories of Observed User Interest.
- Классификация текста: Пользовательские отзывы анализируются с помощью классификаторов машинного обучения (Machine Learning Classifiers), чтобы определить, какая часть текста относится к продукту, какая к создателю, а какая к поставщику.
- Извлечение данных: Используя методы обработки естественного языка (NLP), система извлекает Descriptive Segments of Text (описательные сегменты) и Comparison Segments of Text (сегменты сравнения).
- Ассоциация и Индексация: Извлеченные сегменты и категории ассоциируются с соответствующими сущностями в базе данных (например, в Knowledge System или Knowledge Graph).
- Оценка связи: Система рассчитывает Strength of Association (силу связи) между атрибутом и сущностью, учитывая частоту упоминаний, близость к ссылкам на сущность и обратную связь пользователей.
Актуальность для SEO
Высокая. Понимание сущностей и их атрибутов является фундаментом современного поиска (Knowledge Graph, E-E-A-T). Использование пользовательского контента (UGC), такого как отзывы, для оценки репутации и характеристик продуктов и брендов критически важно. Механизм связывания поведения пользователей в поиске (как они ищут) с контентом в интернете (как они описывают) остается центральной задачей Information Retrieval.
Важность для SEO
Патент имеет высокое значение для SEO (8.5/10). Он описывает конкретные механизмы, с помощью которых Google использует сторонние отзывы для понимания, категоризации и индексации продуктов и брендов. Это напрямую влияет на стратегии управления репутацией (ORM/SERM) и подтверждает важность E-E-A-T сигналов, получаемых из внешних источников. Отзывы становятся не просто косвенным сигналом, а прямым источником данных для индекса.
Детальный разбор
Термины и определения
- Categories of Observed User Interest (Категории наблюдаемого интереса пользователей)
- Категории, определяемые на основе анализа активности пользователей, например, корпуса поисковых запросов. Если достаточное количество пользователей ищут определенную фразу (например, «MMORPG» или «soulslike»), она становится категорией наблюдаемого интереса.
- Categories of Predicted Interest (Категории прогнозируемого интереса)
- Логические категории, которые система прогнозирует как интересные пользователям. Часто основаны на предопределенной таксономии, предложенной создателями или владельцами площадок (например, категории в меню маркетплейса).
- Classifier Engine (Механизм классификации)
- Компонент системы, использующий Machine Learning Classifiers, для определения того, к какой сущности (продукт, создатель, поставщик) относится данный отзыв или его часть.
- Comparison Segments of Text (Сегменты текста сравнения)
- Фрагменты текста, извлеченные из отзывов, которые сравнивают одну сущность с другой (например, «Продукт X лучше, чем Продукт Y»).
- Descriptive Segments of Text (Описательные сегменты текста)
- Фрагменты текста, извлеченные из отзывов, которые описывают сущность. Включают названия сущностей/категорий, существительные и прилагательные.
- Entity (Сущность)
- Любой человек, организация, место или вещь. В контексте патента в основном упоминаются продукты (products), создатели продуктов (product creators) и поставщики продуктов (product vendors).
- Graph Engine (Графовый движок)
- Компонент, который строит и поддерживает индекс сущностей и их атрибутов, часто представляя их в виде графа (узлы=сущности, ребра=отношения). Связан с Knowledge Graph.
- NLP (Natural Language Processing)
- Методы обработки естественного языка, используемые для извлечения сегментов. Включают разрешение кореференции (co-reference resolution), грамматический разбор и переписывание текста (textual rewrites).
- Strength of Association (Сила ассоциации)
- Количественная мера (score), присваиваемая связи между описательным сегментом текста и сущностью. Зависит от частоты упоминания, обратной связи пользователей и близости текста к ссылкам на сущность.
- User Review (Пользовательский отзыв)
- Текст, написанный пользователем для выражения мнения о сущности. Источники включают блоги, социальные сети, статьи, разделы отзывов на сайтах.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод извлечения категорий из поисковых запросов и их использование для индексации продуктов.
- Система идентифицирует одну или несколько Categories of Observed User Interest на основе корпуса поисковых запросов (corpus of user search engine queries).
- В пользовательских отзывах, связанных с продуктом, система обнаруживает сегменты текста, относящиеся к этим идентифицированным категориям.
- На основе этого обнаружения система индексирует продукт по этим Categories of Observed User Interest в поисковой базе данных.
- Эта база данных используется для предоставления результатов поиска.
Ядро изобретения — это связь между тем, как пользователи ищут (логи запросов), и тем, как они описывают (отзывы), для улучшения индексации сущностей.
Claim 4 и 6 (Зависимые): Детализируют механизм классификации текста отзывов.
Система классифицирует части отзывов как относящиеся к продукту ИЛИ к создателю продукта. В Claim 6 уточняется, что для этого используются отдельные классификаторы машинного обучения: первый для продукта, второй для создателя. Это критически важно для точного разделения атрибутов и оценок E-E-A-T между брендом и его продукцией.
Claim 7 (Зависимый): Описывает обработку сравнений.
- Система извлекает Comparison Segments of Text, которые сравнивают продукт/создателя с другими сущностями.
- Система индексирует продукт/создателя на основе этих сегментов сравнения.
Это позволяет системе понимать конкурентное окружение сущности на основе мнений пользователей.
Где и как применяется
Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, связывая анализ поведения пользователей с обработкой контента.
CRAWLING – Сканирование и Сбор данных
Система собирает User Reviews из различных источников: блоги, социальные сети, статьи, сайты отзывов, маркетплейсы.
QUNDERSTANDING – Понимание Запросов
На этом этапе (в офлайн-режиме) анализируется корпус поисковых запросов. Цель — выявить шаблоны и часто встречающиеся фразы, чтобы определить Categories of Observed User Interest. Это позволяет системе понять, какой язык и какие категории используют пользователи для поиска.
INDEXING – Индексирование и извлечение признаков
Основная работа, описанная в патенте, происходит здесь. Система обрабатывает собранные отзывы:
- Классификация: Classifier Engine анализирует текст и классифицирует его части, определяя релевантные сущности (продукт, создатель, поставщик), используя ML-классификаторы.
- Извлечение признаков: Descriptive Text Extraction Engine применяет NLP для извлечения атрибутов (Descriptive Segments) и сравнений (Comparison Segments).
- Ассоциация: Descriptive Text Association Engine связывает извлеченные данные с сущностями в Graph Engine (Knowledge Graph) и рассчитывает Strength of Association.
- Индексация: Индекс обновляется, добавляя новые атрибуты и категории к сущностям.
RANKING – Ранжирование
Обновленный индекс используется поисковой системой. Когда пользователь вводит запрос, соответствующий Category of Observed User Interest или извлеченному атрибуту, система может лучше ранжировать релевантные продукты или бренды.
Входные данные:
- Корпус пользовательских отзывов (User Reviews).
- Корпус поисковых запросов (Search Engine Queries Logs).
- Существующий индекс сущностей.
- Данные об обратной связи пользователей (о полезности отзывов).
Выходные данные:
- Обогащенный индекс сущностей с новыми атрибутами и категориями.
- Рассчитанные оценки Strength of Association для каждой связи атрибут-сущность.
На что влияет
- Конкретные типы контента и сущностей: Наибольшее влияние оказывается на сущности, о которых часто пишут отзывы: продукты (E-commerce, ПО, игры), компании-создатели и поставщики (Local Search, маркетплейсы).
- E-E-A-T и репутация: Механизм напрямую влияет на понимание системой репутации создателей и поставщиков, извлекая мнения о них из сторонних источников, что является ключевой частью оценки E-E-A-T.
- Специфические запросы: Влияет на ранжирование по запросам, содержащим сравнения (например, «продукт X vs продукт Y») и по запросам, использующим пользовательскую категоризацию (например, «лучшие MMORPG»), которая была идентифицирована как Category of Observed Interest.
Когда применяется
- Условия работы: Алгоритм применяется при обработке новых или обновленных пользовательских отзывов на этапе индексирования.
- Триггеры активации (для категорий): Определение новой Category of Observed Interest активируется, когда частота (frequency) или количество (count) определенной фразы в логах поисковых запросов превышает установленный порог.
- Временные рамки: Анализ логов запросов и индексация отзывов происходят периодически или непрерывно. Strength of Association может динамически обновляться при получении новой обратной связи (Feedback).
Пошаговый алгоритм
Процесс можно разделить на два основных потока: определение категорий и обработка отзывов.
Поток А: Определение категорий (Офлайн / Периодически)
- Сбор данных: Агрегация корпуса поисковых запросов пользователей.
- Анализ частотности: Идентификация часто встречающихся терминов и фраз в запросах.
- Определение категорий: Если фраза превышает пороговое значение частоты или количества, она определяется как Category of Observed User Interest.
- Обновление индекса категорий: Сохранение новых категорий.
Поток Б: Обработка отзывов и индексация сущностей (Индексирование)
- Сбор отзывов: Сканирование и получение пользовательских отзывов.
- Классификация текста: Classifier Engine использует ML-классификаторы для определения, к какой сущности (продукт, создатель, поставщик) относится каждая часть текста.
- Извлечение сегментов: Descriptive Text Extraction Engine обрабатывает классифицированные части текста с помощью NLP (включая textual rewrites и co-reference resolution).
- Извлекаются Descriptive Segments (атрибуты).
- Извлекаются Comparison Segments (сравнения).
- Ассоциация: Извлеченные сегменты и релевантные категории связываются с соответствующими сущностями.
- Расчет силы связи: Определяется Strength of Association. Учитываются: частота упоминания, близость текста к ссылкам на сущность, обратная связь пользователей.
- Индексация: Graph Engine обновляет индекс сущностей на основе новых ассоциаций и их оценок.
- Обратная связь и корректировка: Система использует обратную связь (например, последующие отзывы, оценка полезности) для корректировки Strength of Association. Если продукт начинает получать негативные отзывы от широкой аудитории, сила положительных ассоциаций может снижаться.
Какие данные и как использует
Данные на входе
- Контентные факторы: Текст пользовательских отзывов из различных источников (блоги, сайты, соцсети). Из текста извлекаются существительные, прилагательные, названия сущностей и категорий.
- Технические/Ссылочные факторы: Ссылки на интерфейсы сущностей (например, веб-сайты продуктов), упомянутые в отзывах. Близость описательного текста к этим ссылкам используется при расчете силы ассоциации.
- Поведенческие/Пользовательские факторы:
- Логи поисковых запросов: Массив данных о том, что пользователи ищут. Используется для определения Categories of Observed User Interest.
- Обратная связь (Feedback): Данные о том, считают ли пользователи отзывы полезными или нет, а также последующие отзывы на продукты. Используется для корректировки оценок ассоциаций.
Какие метрики используются и как они считаются
- Frequency/Count (Частота/Количество): Метрики для анализа логов поисковых запросов. Используются для определения, достигла ли фраза порога популярности, чтобы стать Category of Observed User Interest.
- Strength of Association (Сила ассоциации): Оценка, характеризующая связь между извлеченным сегментом текста и сущностью. Патент упоминает факторы для ее расчета:
- Частота: Как часто сегмент встречается в корпусе отзывов об этой сущности.
- Обратная связь: Положительная или отрицательная обратная связь от пользователей.
- Близость (Proximity): Насколько близко в тексте отзыва расположен описательный сегмент к ссылке на интерфейс сущности.
- Методы анализа текста (NLP): Упоминаются конкретные техники для извлечения сегментов:
- Co-reference resolution (разрешение кореференции).
- Grammars (грамматический разбор).
- Textual rewrites (переписывание текста, например, преобразование сложных предложений в простые утверждения об атрибутах).
- Алгоритмы машинного обучения: Используются Machine Learning Classifiers для классификации фрагментов отзывов по отношению к разным сущностям.
Выводы
- Google активно использует сторонние отзывы для понимания сущностей. Система не полагается только на контент официального сайта. Отзывы являются критически важным источником для извлечения атрибутов, мнений и сравнений о продуктах и брендах.
- Разделение контекста сущностей (E-E-A-T). Система использует отдельные ML-классификаторы, чтобы точно определить, относится ли отзыв к продукту, его создателю или поставщику. Это позволяет Google формировать независимые оценки репутации (E-E-A-T) для компании и ее продукта.
- Категоризация основана на поведении пользователей. Ключевым механизмом является определение Categories of Observed User Interest из логов поисковых запросов. Это означает, что Google индексирует продукты не только по предопределенной таксономии, но и по тем категориям и терминам, которые реально используют люди в поиске.
- Извлечение сравнений. Система целенаправленно ищет и индексирует сравнения между сущностями (Comparison Segments). Это используется для понимания конкурентной среды и может влиять на ранжирование по сравнительным запросам.
- Динамическая оценка репутации. Ассоциации между атрибутами и сущностями не статичны. Они имеют оценку (Strength of Association), которая корректируется на основе обратной связи и новых отзывов. Репутация может меняться со временем.
- Использование NLP для глубокого понимания текста. Система применяет сложные методы NLP (разрешение кореференции, переписывание текста) для точного извлечения смысла из неструктурированных отзывов.
Практика
Best practices (это мы делаем)
- Мониторинг и стимулирование сторонних отзывов: Необходимо активно работать с репутацией на внешних площадках (блоги, сайты отзывов, маркетплейсы), так как Google использует их как источник данных об атрибутах вашего продукта и бренда. Стимулируйте детальные отзывы.
- Анализ языка целевой аудитории (Observed Interest): Изучайте, как пользователи ищут продукты в вашей нише. Понимание формирующихся Categories of Observed User Interest позволит адаптировать контент и позиционирование так, чтобы они соответствовали языку пользователей.
- Усиление E-E-A-T бренда: Поскольку система разделяет отзывы о продукте и создателе, критически важно выстраивать сильные сигналы E-E-A-T для компании в целом. Положительные атрибуты, ассоциированные с брендом, могут наследоваться продуктами (как указано в патенте).
- Работа со сравнительным контентом: Понимая, что Google извлекает Comparison Segments, полезно отслеживать, с кем сравнивают ваш продукт в отзывах. Это можно использовать в контент-стратегии (например, создавать честные сравнения, подчеркивающие ваши преимущества).
- Четкое позиционирование сущностей: Убедитесь, что ваш продукт, бренд и сервис четко разделены в коммуникациях. Это поможет классификаторам корректно интерпретировать отзывы и приписывать атрибуты нужным сущностям.
Worst practices (это делать не надо)
- Игнорирование негатива на сторонних ресурсах: Негативные отзывы напрямую влияют на атрибуты, которые Google ассоциирует с вашим брендом или продуктом. Отсутствие реакции усугубляет проблему.
- Манипуляции и накрутка отзывов (Astroturfing): Механизм обратной связи (Feedback) и динамический расчет Strength of Association направлены на борьбу с этим. Если накрученные отзывы привлекут реальных пользователей, которые затем оставят негативные отзывы, система скорректирует оценки вниз.
- Использование сложного жаргона вместо пользовательского языка: Если ваш продукт описывается терминами, которые пользователи не используют в поиске и отзывах, системе будет сложнее ассоциировать его с релевантными Categories of Observed User Interest.
Стратегическое значение
Патент подтверждает стратегическую важность Off-Site SEO и управления репутацией (ORM). Он демонстрирует, что понимание сущности (E-E-A-T) в значительной степени формируется за счет анализа внешнего пользовательского контента. Также он подчеркивает переход от статической таксономии к динамической категоризации, основанной на реальном поведении пользователей в поиске. Долгосрочная стратегия должна включать построение сильного бренда, который положительно резонирует в пользовательских обсуждениях и отзывах.
Практические примеры
Сценарий 1: Категоризация на основе пользовательского сленга
- Наблюдение: Пользователи начинают массово искать игры, используя новый термин, например, «soulslike games».
- Определение категории: Анализируя логи запросов, Google фиксирует превышение порога частотности и определяет «soulslike games» как Category of Observed User Interest.
- Анализ отзывов: Система сканирует отзывы на игру «Elden Ring». В отзывах часто встречаются фразы вроде «This is the best soulslike game I’ve played».
- Извлечение и Ассоциация: Система извлекает этот сегмент и ассоциирует категорию «soulslike game» с сущностью «Elden Ring».
- Результат: Когда пользователи ищут «soulslike games», «Elden Ring» имеет высокие шансы на ранжирование, даже если разработчик не использовал этот термин в официальном описании.
Сценарий 2: Разделение репутации продукта и компании
- Отзыв: Пользователь пишет: «Камера XYZ отличная, оптика супер, но я покупал ее в магазине Online Camera World, у которого ужасное обслуживание клиентов».
- Классификация: Система использует два классификатора. Первый классифицирует «Камера XYZ отличная, оптика супер» как относящееся к продукту «Камера XYZ». Второй классифицирует «Online Camera World, у которого ужасное обслуживание клиентов» как относящееся к поставщику «Online Camera World».
- Извлечение атрибутов: Извлекаются атрибуты «отличная», «супер оптика» для камеры и «ужасное обслуживание клиентов» для магазина.
- Результат: Репутация продукта улучшается, а репутация поставщика ухудшается, при этом негативный опыт с поставщиком не пессимизирует продукт.
Вопросы и ответы
Как этот патент влияет на оценку E-E-A-T?
Патент напрямую связан с оценкой E-E-A-T. Он описывает механизм, с помощью которого Google извлекает мнения о создателях и поставщиках из сторонних отзывов. Система использует отдельные классификаторы для разделения отзывов о продукте и о компании. Это позволяет формировать точную оценку репутации бренда на основе внешних сигналов, что является ключевым компонентом E-E-A-T.
В чем разница между Categories of Observed Interest и Categories of Predicted Interest?
Categories of Predicted Interest — это прогнозируемые категории, основанные на предопределенной таксономии сайта или предложенные разработчиками (например, «Аркады» в магазине приложений). Categories of Observed Interest — это категории, извлеченные из реального поведения пользователей, в частности из логов поисковых запросов (например, если многие ищут «MMORPG»). Google отдает приоритет пользовательскому языку.
Как Google определяет, относится ли отзыв к продукту или к компании?
Система использует специализированные классификаторы машинного обучения (Machine Learning Classifiers). В патенте указано, что применяются отдельные классификаторы: один тренируется распознавать текст о продукте, другой — о создателе, третий — о поставщике. Это позволяет анализировать контекст даже внутри одного предложения и корректно атрибутировать мнения.
Что такое Strength of Association и почему это важно?
Strength of Association — это оценка (score), которая показывает, насколько сильно определенный атрибут связан с сущностью. Она рассчитывается на основе частоты упоминаний, близости к ссылкам на сущность и обратной связи пользователей. Это важно, потому что это определяет вес атрибута и позволяет системе динамически корректировать репутацию сущности при поступлении новых данных или изменении мнений пользователей.
Как система обрабатывает сравнения продуктов в отзывах?
Система целенаправленно ищет Comparison Segments of Text (например, «Продукт X быстрее Продукта Y»). Механизм извлечения использует NLP для идентификации этих сегментов. Затем сущности (Продукт X и Продукт Y) индексируются на основе этих сравнений. Это помогает Google понимать конкурентные преимущества и недостатки сущностей.
Какие методы NLP использует Google для анализа отзывов согласно патенту?
Упоминаются ключевые техники: разрешение кореференции (co-reference resolution — понимание, к чему относятся местоимения), грамматический разбор (grammars) и переписывание текста (textual rewrites). Переписывание позволяет преобразовать сложные или неполные предложения в прямые утверждения об атрибутах сущности для упрощения извлечения данных.
Влияет ли этот патент на локальный поиск?
Да. Хотя патент в основном обсуждает продукты и поставщиков (вендоров), описанные механизмы применимы к любым сущностям, включая локальный бизнес. Анализ отзывов о локальном бизнесе для извлечения атрибутов (например, «уютная атмосфера», «хороший кофе») и их ассоциация с сущностью компании полностью соответствует описанной технологии.
Как Google борется с накруткой отзывов в контексте этого патента?
Патент упоминает механизм обратной связи (Feedback) при расчете Strength of Association. Если изначально положительные отзывы (возможно, накрученные) приводят к тому, что продукт показывается шире, но затем реальные пользователи начинают оставлять негативные отзывы, система корректирует силу положительных ассоциаций в сторону уменьшения. Также учитывается полезность самих отзывов.
Может ли система приписать моему товару атрибуты других товаров этого же бренда?
Да. В патенте описан вариант, когда система может применять атрибуты к связанным сущностям. Если несколько продуктов одного создателя часто описываются одним и тем же атрибутом (например, «хороший геймплей»), система может «предположить», что этот атрибут применим и к другим продуктам того же создателя, даже если он не упомянут явно в их отзывах.
Где хранятся эти извлеченные атрибуты?
В патенте упоминается Knowledge System и Graph Engine, который поддерживает индекс сущностей и связанных атрибутов. На практике это означает, что извлеченные атрибуты и категории сохраняются в базе данных, подобной Knowledge Graph, обогащая профиль сущности.