
Google использует запатентованную систему для генерации информативных сниппетов для сущностей, о которых оставляют отзывы (например, рестораны, товары). Система извлекает фразы, выражающие мнение (sentiment phrases), из множества отзывов, оценивает их тональность с учетом специфики домена и выбирает наиболее частотные и разнообразные фразы для формирования сниппета, суммирующего общественное мнение об этой сущности.
Патент решает проблему генерации качественных и информативных сниппетов для «сущностей, подлежащих отзыву» (Reviewable Entities), таких как рестораны, отели или потребительские товары. Стандартные сниппеты, основанные на ключевых словах или частотности слов, неэффективно суммируют общественное мнение. Цель изобретения — создать сниппет, который представляет собой краткое изложение мнений (сентиментов), выраженных в большом количестве отзывов, при этом обеспечивая разнообразие и читаемость информации.
Запатентована система и метод генерации сниппетов для сущностей путем извлечения и анализа «фраз тональности» (Sentiment Phrases) из текстовых отзывов. Система идентифицирует короткие фразы, выражающие мнение (например, «отличная пицца», «ужасное обслуживание»), используя методы NLP и domain-specific sentiment lexicon. Затем она оценивает частоту и тональность этих фраз и использует алгоритм для выбора недублирующегося набора фраз, который формирует итоговый сниппет.
Система работает в несколько этапов:
Part-of-Speech tagging), и из них извлекаются Sentiment Phrases, часто с помощью регулярных выражений (например, Прилагательное+Существительное).Sentiment Score (полярность и магнитуда), используя классификатор, обученный специально для домена сущности (например, домен «рестораны»).Phrase Frequency — как часто фраза встречается в отзывах.redundancy metric (например, Jaccard overlap) для минимизации дублирования. Выбранные фразы объединяются в сниппет.Высокая. Анализ тональности и автоматическое обобщение отзывов критически важны для локального поиска, e-commerce и агрегаторов. Google активно использует подобные методы для генерации сниппетов в Google Maps, карточках товаров и результатах поиска, чтобы дать пользователям быстрое представление об атрибутах и качестве сущности. Методы, описанные в патенте, лежат в основе современных систем NLP для анализа мнений.
Патент имеет высокое значение для SEO (8.5/10), особенно в Local SEO и E-commerce. Хотя он описывает генерацию сниппетов (представление результата), а не ранжирование, он раскрывает, как именно Google анализирует и интерпретирует контент отзывов. Понимание механизмов извлечения Sentiment Phrases позволяет оптимизировать стратегию работы с отзывами (ORM), чтобы повлиять на то, какие атрибуты и какая тональность будут ассоциироваться с сущностью в результатах поиска. Это напрямую влияет на CTR и восприятие бренда.
Sentiment Phrases.Sentiment Phrases.Sentiment Phrase встречается в отзывах, связанных с сущностью. Используется при выборе фраз для сниппета.Claim 1 (Независимый пункт): Описывает основной метод генерации сниппета для сущности.
Sentiment Phrases из этих отзывов. Эта идентификация основана на domain-specific sentiment lexicon, который включает фразы, извлеченные из документов, специфичных для домена.frequency values) для идентифицированных фраз, где каждое значение представляет количество раз, когда фраза была идентифицирована в отзывах.Sentiment Phrases из идентифицированного множества на основе сгенерированных значений частоты.Claim 4 (Зависимый от 1): Уточняет структуру Sentiment Phrase.
Идентификация Sentiment Phrases включает идентификацию noun phrase, соответствующей свойству (атрибуту) сущности, и прилагательного (adjective), связанного с этой noun phrase.
Claim 5 (Зависимый от 4): Уточняет метод идентификации.
Идентификация noun phrase и прилагательного включает определение соответствия между регулярным выражением (regular expression) и текстовым отзывом.
Claim 8 (Зависимый от 1): Добавляет Sentiment Score в процесс выбора.
Выбор фраз для сниппета основывается не только на частоте (как указано в Claim 1), но также и на Sentiment Scores, сгенерированных для каждой фразы.
Claim 9 (Зависимый от 1): Добавляет механизм устранения дублирования.
Выбор фраз включает генерацию redundancy metric, основанной на количестве общих токенов между двумя фразами, и выбор фраз на основе этой метрики.
Claim 11 (Зависимый от 1): Описывает процесс создания лексикона.
Метод включает разработку domain-specific sentiment lexicon на основе domain-independent lexicon.
Изобретение затрагивает несколько этапов поисковой архитектуры, в основном фокусируясь на обработке данных о сущностях и формировании финального представления результатов.
CRAWLING – Сканирование и Сбор данных
Система собирает данные (Textual Reviews) из различных источников: структурированные сайты отзывов (TripAdvisor, Yelp) и неструктурированные источники (блоги, новостные группы, веб-страницы).
INDEXING – Индексирование и извлечение признаков
Основная часть работы происходит на этом этапе (или в аналогичном процессе обработки данных о сущностях):
POS tagging.Sentiment Phrases, используя NLP-техники и регулярные выражения.Sentiment Scores с использованием доменно-специфичных классификаторов. Это включает офлайн-процесс создания Domain-Specific Sentiment Lexicons.Phrase Frequencies для каждой сущности.METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На этапе формирования выдачи (SERP) система генерирует или извлекает сохраненный Entity Snippet.
Sentiment Phrases с учетом частоты, оценки и метрик избыточности.Входные данные:
Textual Reviews (структурированные и неструктурированные).Domain-independent sentiment lexicon (например, на основе WordNet).Выходные данные:
Domain-Specific Sentiment Lexicon с оценками n-грамм.Sentiment Phrases с Sentiment Scores и Phrase Frequencies для каждой сущности.Entity Snippets (итоговый текст сниппета).Reviewable Entity и имеет достаточное количество Textual Reviews для анализа.Патент описывает два ключевых процесса: (А) Генерация доменно-специфичного классификатора тональности и (Б) Генерация сниппета.
Процесс А: Создание доменно-специфичного классификатора (Офлайн)
Domain-Independent Sentiment Lexicon (например, вручную из WordNet с расширением через синонимы/антонимы).Domain-Specific Sentiment Lexicon.Sentiment Scores для каждой n-граммы.Процесс Б: Генерация сниппета (Индексация/Ранжирование)
Textual Reviews для сущности. Применение POS tagging к тексту.Sentiment Phrases на основе шаблонов (регулярных выражений), например: Adjective+Noun, Adverb+Adjective+Noun и т.д. Идентификация Noun Phrase для каждой фразы.Sentiment Score для каждой фразы.Phrase Frequency для каждой уникальной фразы. Может применяться функция затухания (decay function) для слишком частых фраз.Noun Phrase (и, возможно, одинаковой полярностью) группируются. Выбирается репрезентативная фраза (например, с наивысшей частотой).Sentiment Score).Redundancy Metric (например, Jaccard overlap).Entity Snippet и сохраняются.Textual Reviews. Система анализирует слова (n-граммы), их части речи (POS tags), и структуру фраз. Особое внимание уделяется прилагательным (Adjectives), наречиям (Adverbs) и существительным (Nouns).training corpus) при разработке классификатора тональности.Domain-Specific Sentiment Lexicon. При расчете могут учитываться факторы: базовая оценка n-граммы в лексиконе, часть речи, детекция отрицания (negation detection), локация в документе, стемминг.POS tagging, регулярные выражения) для извлечения конкретных атрибутов (Noun Phrases) и связанных с ними мнений (Adjectives/Adverbs). Это форма Aspect-Based Sentiment Analysis.Phrase Frequency является основным фактором при выборе того, что попадет в сниппет (Claim 1). Чтобы атрибут был выделен Google, о нем должно говорить значительное количество людей.Domain-Specific Sentiment Lexicons. Это означает, что одно и то же слово может иметь разную тональность в разных доменах (например, слово «дешевый» может быть позитивным для закусочной и негативным для люксового отеля). Google строит отдельные классификаторы для разных тематик.Redundancy Metric (Jaccard overlap) гарантирует, что сниппет будет содержать разные аспекты мнений, а не повторять одно и то же разными словами.Noun Phrases.Phrase Frequency и вероятность попадания в сниппет.Sentiment Phrases ассоциируются с вашим брендом. Если доминируют негативные фразы по ключевому атрибуту, необходимо работать над улучшением продукта/услуги и стимулировать новые позитивные отзывы по этому же атрибуту, чтобы изменить Phrase Frequency.Domain-Specific Lexicons, подчеркивает важность использования релевантного языка для точной классификации тональности вашего контента.Redundancy Metric отфильтрует дублирующую информацию, важно обеспечить разнообразие мнений.Phrase Frequency, система стремится к разнообразию (используя Redundancy Metric и Binning), и такие манипуляции легко обнаруживаются системами антиспама.Sentiment Phrases высока, они попадут в сниппет. Необходимо управлять репутацией и реагировать на проблемы.Sentiment Phrases.Патент подтверждает стратегическую важность управления репутацией (ORM/SERM) и анализа отзывов как неотъемлемой части SEO. Он показывает, что Google стремится понимать сущности на уровне их атрибутов и общественного мнения о них. Для SEO-стратегии это означает переход от оптимизации страниц к оптимизации сущностей и их восприятия в экосистеме поиска. Долгосрочный успех зависит от качества продукта/услуги, которое конвертируется в позитивные и частотные Sentiment Phrases в сети.
Сценарий: Оптимизация сниппета для локальной кофейни
Sentiment Phrase, например, «amazing croissants».Влияет ли этот патент на ранжирование напрямую?
Нет, патент описывает метод генерации сниппетов, то есть то, как результат будет представлен пользователю на странице выдачи (SERP). Однако он косвенно влияет на SEO. Информативные и позитивные сниппеты значительно повышают кликабельность (CTR) результата. Высокий CTR, в свою очередь, является позитивным поведенческим сигналом для алгоритмов ранжирования Google.
Что такое «Domain-Specific Sentiment Lexicon» и почему это важно?
Это словарь слов и фраз (n-грамм), которые выражают мнение в конкретной тематике (домене), например, в «ресторанах» или «электронике». Это важно, потому что значение слов может меняться в зависимости от контекста. Система Google обучается понимать эти нюансы для каждого домена отдельно, что делает анализ тональности гораздо более точным, чем при использовании общего словаря.
Как система определяет, какие фразы извлечь из отзыва?
Система использует обработку естественного языка (NLP), в частности, разметку частей речи (POS tagging). Затем она применяет набор шаблонов (регулярных выражений) для поиска определенных грамматических конструкций. Наиболее частые шаблоны, упомянутые в патенте, это «Прилагательное + Существительное» (например, «хороший сервис») и «Наречие + Прилагательное + Существительное» (например, «действительно хороший сервис»).
Что важнее для попадания в сниппет: частота фразы или ее тональность?
Согласно Claim 1, выбор фраз в первую очередь основан на значениях частоты (Phrase Frequency). Однако в зависимых пунктах (Claim 8) добавляется, что Sentiment Score также используется при выборе. На практике это означает, что система стремится выбрать наиболее часто упоминаемые мнения, но может также приоритизировать фразы с более сильной выраженной тональностью (очень позитивные или очень негативные).
Как система борется с дублированием информации в сниппете?
Система использует Redundancy Metric, например, Jaccard overlap. При выборе новой фразы для сниппета она сравнивает ее с уже выбранными фразами. Если у них слишком много общих слов (пересечение выше определенного порога, например, 0.5), новая фраза считается избыточной и отклоняется. Также может использоваться группировка (binning) по именной группе. Это гарантирует разнообразие атрибутов в сниппете.
Откуда Google берет отзывы для этого анализа?
Патент упоминает как структурированные, так и неструктурированные отзывы. Структурированные отзывы берутся с известных сайтов отзывов (таких как TripAdvisor, Yelp, Amazon), где есть четкий формат и рейтинги. Неструктурированные отзывы — это упоминания и мнения, найденные в блогах, на веб-страницах, в новостных группах и других текстовых документах в интернете.
Как SEO-специалист может повлиять на генерируемые сниппеты?
Ключевой способ влияния — это работа с отзывами (ORM). Необходимо стимулировать клиентов оставлять подробные отзывы, которые явно описывают атрибуты продукта или услуги, используя четкие фразы (Прилагательное+Существительное). Чем выше частота (Phrase Frequency) позитивных фраз о ключевых атрибутах, тем выше вероятность их появления в сниппете.
Может ли этот механизм использоваться для анализа контента на моем собственном сайте?
Да. Хотя патент фокусируется на отзывах пользователей, описанные методы анализа тональности и извлечения фраз могут применяться к любому тексту, включая описания продуктов или статьи на вашем сайте. Это подчеркивает важность использования четкого, описательного языка и релевантной терминологии для вашей ниши (домена) при создании контента.
Учитывает ли система, кто оставил отзыв (например, эксперт или новичок)?
Патент не детализирует учет авторитетности автора отзыва при генерации сниппета. Однако он упоминает, что при анализе неструктурированных отзывов может рассчитываться вероятность того, что отзыв содержит мнение (P(sentiment)), и это может быть функцией источника или автора отзыва. Тем не менее, основной акцент сделан на частоте фраз в общем массиве отзывов.
Что такое «жадный алгоритм» (greedy algorithm) в контексте выбора фраз?
Это алгоритм, который на каждом шаге делает локально оптимальный выбор. В данном контексте он итеративно выбирает следующую лучшую фразу (на основе частоты/оценки), которая еще не была выбрана и не является избыточной по отношению к уже выбранным. Этот подход позволяет быстро сформировать разнообразный и информативный сниппет.

Local SEO
Семантика и интент
EEAT и качество

Семантика и интент

SERP

SERP

Антиспам
Local SEO
EEAT и качество

Персонализация
Поведенческие сигналы
Local SEO

Персонализация
Индексация
Поведенческие сигналы

Ссылки
SERP
Индексация

Техническое SEO
Ссылки

EEAT и качество
Семантика и интент
SERP

Local SEO
Поведенческие сигналы

Персонализация
Поведенческие сигналы
SERP

Ссылки
SERP
Поведенческие сигналы

Персонализация
Семантика и интент
Поведенческие сигналы

SERP
Поведенческие сигналы
Персонализация
