
Google использует систему для автоматического поиска и анализа отзывов о сущностях (например, компаниях) на веб-страницах. Система идентифицирует информацию о компании (название, адрес), извлекает текст рядом с ней и применяет анализ тональности (Sentiment Analysis), чтобы определить, является ли этот текст отзывом и какова его эмоциональная окраска.
Патент решает задачу автоматического сбора, извлечения и валидации отзывов о сущностях (таких как бизнесы или достопримечательности) из неструктурированных документов (например, веб-страниц, блогов, форумов). Цель — улучшить полноту и качество базы данных отзывов, используемой в локальном поиске, путем фильтрации шума и текстов, которые не выражают мнения.
Запатентована система для автоматизированного извлечения и верификации отзывов. Процесс включает идентификацию сущности в документе, извлечение окружающего текста (кандидата в отзывы) и применение анализа тональности (Sentiment Analysis). Ключевым элементом является использование Sentiment Analysis для подтверждения того, что извлеченный текст действительно содержит мнение, путем измерения его эмоциональной окраски (sentiment magnitude).
Система работает в несколько этапов:
Classifier анализирует корпус документов и определяет те, которые потенциально содержат отзывы.Annotator находит в этих документах идентификаторы сущности (Entity Identifying Information), такие как название, адрес, телефон (NAP).Extractor извлекает текст, расположенный рядом с идентификаторами сущности, часто используя структуру документа (например, HTML-теги) для определения границ текста.Sentiment Analysis. Он вычисляет Sentiment Score на основе слов (n-грамм) и специализированного лексикона.Высокая. Отзывы являются критически важным компонентом локального поиска (Local SEO) и одним из сигналов E-E-A-T (репутация). Способность Google агрегировать, понимать и оценивать тональность отзывов из всего интернета (а не только из Google Maps) напрямую влияет на видимость и доверие к локальным бизнесам.
Патент имеет высокое значение для Local SEO и управления репутацией (ORM). Он демонстрирует механизмы, с помощью которых Google активно ищет, извлекает и анализирует отзывы на сторонних сайтах, блогах и каталогах. Это подчеркивает стратегическую важность наличия реальных, содержательных отзывов на разнообразных площадках и критическую необходимость поддержания консистентности NAP (Name, Address, Phone) для корректной идентификации бизнеса.
Entity Identifying Information в документе.review candidates) из аннотированных документов, часто на основе близости к информации о сущности и структуры документа (например, HTML-тегов).Анализ основан на Claim 28, так как Claims 1-27 в данном патенте отменены (canceled).
Claim 28 (Независимый пункт): Описывает метод получения отзыва о сущности.
text pattern) для сущности (например, адресу или телефону).sentiment lexicon (лексиконе тональности). Лексикон содержит множество n-грамм и связанных с ними оценок тональности.sentiment score для отзыва как сумму оценок идентифицированных n-грамм из лексикона.sentiment score в записи для сущности.Ядром изобретения является процесс, который связывает идентификацию сущности (через шаблоны) с извлечением окружающего текста и последующей валидацией этого текста с помощью анализа тональности на основе n-грамм. Система не просто ищет текст, похожий на отзыв, она проверяет, выражает ли этот текст мнение, суммируя оценки тональности слов (n-грамм), найденных в специализированном лексиконе.
Claim 30 (Зависимый от 28): Уточняет процесс определения sentiment score.
Расчет оценки включает повышение (increasing) оценок для тех n-грамм, которые расположены в начале или в конце отзыва. Это основано на предположении, что начало и конец отзыва часто содержат резюме мнения.
Claim 31 (Зависимый от 28): Уточняет, что метод также включает определение того, что величина (magnitude) sentiment score для отзыва превышает определенный порог.
Это критически важный шаг валидации. Если текст не содержит достаточно выраженного мнения (низкий Sentiment Magnitude), он не будет считаться отзывом, даже если он находится рядом с информацией о сущности.
Изобретение в основном применяется на этапе индексирования для извлечения и структурирования данных о репутации сущностей.
CRAWLING – Сканирование и Сбор данных
Сбор сырых данных (веб-страницы, блоги, форумы, KML-файлы, SMS), которые могут содержать отзывы о сущностях.
INDEXING – Индексирование и извлечение признаков (Основное применение)
На этом этапе происходит основная работа алгоритма (Feature Extraction):
Classifier на предмет наличия отзывов.Annotator идентифицирует сущности (бизнесы) с использованием NAP и других идентификаторов.Extractor извлекает потенциальные отзывы на основе структуры и близости к сущности.Sentiment Score.RANKING – Ранжирование / METASEARCH – Метапоиск
Данные, извлеченные на этапе индексирования (сами отзывы, их количество и агрегированные Sentiment Scores), используются как сигналы ранжирования в локальном поиске (Local Pack) и для отображения информации в Knowledge Panel или Google Maps.
Входные данные:
Sentiment Lexicon (база данных n-грамм с оценками тональности).Выходные данные:
Sentiment Scores.Entity Identifying Information (NAP) в документе, который предварительно классифицирован как потенциально содержащий отзывы.Sentiment Magnitude этого кандидата превышает заданный порог. Это позволяет отфильтровать тексты, не выражающие мнения (например, простое описание услуг).Процесс извлечения и анализа отзывов:
Classifier для идентификации тех, которые могут содержать отзывы.Annotator для поиска Entity Identifying Information (название, адрес, телефон, изображения). Применяются текстовые шаблоны и, возможно, OCR (оптическое распознавание символов) для текста на изображениях.Extractor для выделения текста, окружающего информацию о сущности. Извлечение базируется на структурных разделителях (например, HTML-тегах), при этом теги форматирования (например, <b>, <font>) внутри отзыва игнорируются. Система также может использовать микроразметку (hReview, hCard).Self-reviews. Это определяется, если отзыв найден на официальном (авторитетном) сайте компании или содержит лингвистические маркеры владельца (например, "мы предлагаем").Sentiment Lexicon.Sentiment Score для кандидата путем суммирования оценок n-грамм. Оценка может корректироваться с учетом отрицаний ("не хорошо") и позиции n-граммы (начало/конец отзыва считаются более важными).Sentiment Magnitude с пороговым значением. Если порог превышен, кандидат принимается как валидный отзыв.Sentiment Score и дополнительной информации (автор, дата, рейтинг в звездах, если найдены) с идентифицированной сущностью в базе данных.Self-reviews на официальных сайтах.Sentiment Lexicon.Sentiment Magnitude) могут быть отфильтрованы как не являющиеся отзывами.Entity Identification). Для этого используется комплексный анализ NAP (Name, Address, Phone), изображений, а также внешних сигналов (входящие ссылки, поведение пользователей).Extractor полагается на HTML-структуру для определения границ отзыва. Чистая, логичная верстка и использование микроразметки помогают системе корректно парсить контент.Self-reviews, анализируя источник контента (официальный сайт) и лингвистические маркеры.Annotator, позволяющий системе корректно идентифицировать бизнес и связать с ним отзывы из разных источников.Sentiment Magnitude будут с большей вероятностью извлечены, валидированы и учтены системой.Extractor.Self-reviews на официальном сайте или использование выражений от лица владельца ("мы предлагаем лучший сервис"). Такой контент с высокой вероятностью будет идентифицирован и отфильтрован.Патент подчеркивает важность концепции E-E-A-T и репутационных сигналов, собираемых из внешних, независимых источников. Для локального SEO это означает, что репутация в интернете (отзывы, упоминания на авторитетных ресурсах) является фундаментальным фактором доверия и видимости. Долгосрочная стратегия должна включать системный мониторинг и улучшение репутации на всех релевантных площадках, а также обеспечение технической базы для корректной идентификации бизнеса (консистентность NAP).
Сценарий: Улучшение идентификации сущности для Local SEO
Annotator не может однозначно связать обзоры в блогах с сущностью ресторана. Например, в блогах используется неформальное название или устаревший адрес.Annotator и процесс кластеризации смогут корректно идентифицировать сущность. Extractor извлечет отзывы, Sentiment Analysis подтвердит их положительную тональность, и данные будут связаны с профилем ресторана, улучшая его репутационные сигналы.Учитывает ли Google отзывы, размещенные на моем собственном сайте?
Да, но с оговорками. Система может извлекать отзывы с вашего сайта, если они корректно размечены или структурированы. Однако патент упоминает механизм фильтрации Self-reviews, который анализирует текст на официальных сайтах на предмет саморекламы (например, использование оборотов типа "мы предлагаем"). Рекомендуется использовать микроразметку Schema.org/Review для отзывов клиентов и избегать рекламных формулировок в этом блоке.
Что важнее для SEO в контексте этого патента: количество отзывов или их содержание?
Содержание критически важно для валидации отзыва. Патент описывает Sentiment Analysis, который измеряет Sentiment Magnitude. Если текст не содержит слов, выражающих мнение (даже если он длинный), его оценка тональности будет низкой, и он может быть отфильтрован как не являющийся отзывом. Лучше иметь меньше отзывов, но с четко выраженным мнением.
Как система определяет, к какой компании относится отзыв, если на странице упомянуто несколько?
Система полагается на близость текста отзыва к Entity Identifying Information (название, адрес, телефон). Extractor извлекает текст, который находится рядом с идентификаторами сущности, до того как встретит идентификаторы следующей сущности или структурный разделитель страницы. Логичная структура страницы здесь помогает.
Почему так важна консистентность NAP (Name, Address, Phone) для Local SEO?
Консистентность NAP критична для этапа идентификации и кластеризации сущностей. Если в разных источниках данные разнятся, система может не понять, что речь идет об одной и той же компании, или создать дубликаты. Это мешает Google сформировать полное представление о репутации бизнеса и агрегировать все релевантные отзывы в единый профиль.
Может ли система извлекать отзывы из изображений или видео?
Патент упоминает, что изображения и видео могут быть ассоциированы с отзывом. Также упоминается использование Optical Character Recognition (OCR) для извлечения текста из изображений с целью идентификации сущности. Напрямую извлекать отзывы из аудиодорожки видео патент не описывает, но текст, извлеченный из картинки (например, скриншот отзыва), теоретически может быть обработан системой.
Как работает анализ тональности (Sentiment Analysis), описанный в патенте?
Он основан на лексиконе (Sentiment Lexicon), где словам (n-граммам) заранее присвоены оценки тональности. Система находит эти слова в отзыве и суммирует их оценки для получения общего Sentiment Score. Также учитывается контекст (например, отрицания типа "не хорошо") и доменная специфика (значение слова может меняться в зависимости от тематики).
Влияет ли структура HTML-кода на извлечение отзывов?
Да, влияет значительно. Extractor использует HTML-теги как разделители для определения начала и конца отзыва. При этом теги форматирования (например, <b>, <font>) игнорируются внутри текста отзыва. Чистая и логичная верстка помогает корректному извлечению контента и его интерпретации.
Что такое "доменно-специфический анализ тональности" и как он влияет на SEO?
Это означает, что система понимает нюансы языка в разных нишах. Например, слово "дорогой" может быть негативным для бюджетного кафе, но позитивным или нейтральным для люксового ресторана. Это влияет на то, как Google интерпретирует репутацию бизнеса в его конкретной категории, делая оценку E-E-A-T более точной.
Использует ли система микроразметку для поиска отзывов?
Да. В патенте прямо упоминаются стандарты hReview (для отзывов) и hCard (для контактной информации) как способы предоставления структурированной информации. Это значительно облегчает работу Extractor и гарантирует точность извлечения данных. Использование современного аналога, Schema.org, настоятельно рекомендуется.
Имеет ли значение, где именно в тексте отзыва расположены эмоционально окрашенные слова?
Да. Согласно Claim 30, система может повышать вес (оценку) n-грамм, расположенных в начале или в конце отзыва. Это связано с тем, что в этих частях авторы часто резюмируют свое общее впечатление.

SERP
Семантика и интент

Краулинг

SERP

Семантика и интент

Google Shopping
SERP
Семантика и интент

Поведенческие сигналы
SERP
Мультимедиа

Ссылки
SERP
Техническое SEO

Поведенческие сигналы
SERP
Семантика и интент

Семантика и интент
SERP
Поведенческие сигналы

Персонализация
SERP
Семантика и интент

Семантика и интент
Персонализация
Поведенческие сигналы

Персонализация
Семантика и интент
SERP

Поведенческие сигналы
SERP

SERP
EEAT и качество
Поведенческие сигналы

EEAT и качество
Семантика и интент
SERP
