Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google алгоритмически выбирает, оценивает качество и кластеризует отзывы для показа в сводках

    SELECTING REPRESENTATIVE REVIEWS FOR DISPLAY (Выбор репрезентативных отзывов для отображения)
    • US20070078669A1
    • Google LLC
    • 2007-04-05
    • 2005-09-30
    2005 EEAT и качество Google Shopping Индексация Патенты Google

    Google использует систему для агрегации и выбора репрезентативной выборки отзывов о продуктах или компаниях. Система рассчитывает общий рейтинг и адаптирует выборку к нему (показывая смесь мнений при среднем рейтинге). Также применяются алгоритмы оценки качества текста (грамотность, длина, информативность через TF-IDF), кластеризация по темам и генерация сниппетов из наиболее ценных предложений.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему информационной перегрузки пользователей при изучении многочисленных отзывов о товарах, услугах или компаниях, разбросанных по разным сайтам. Система призвана заменить трудоемкий ручной анализ или неинформативную случайную выборку на автоматизированную сводку (Reviews Summary), которая является репрезентативной, качественной и охватывает ключевые аспекты обсуждения.

    Что запатентовано

    Запатентована система (Reviews Engine) и метод выбора репрезентативных отзывов для отображения. Ядром изобретения является механизм определения общего рейтинга (Overall Rating Score) субъекта и последующий выбор подмножества отзывов в зависимости от того, в какой диапазон (высокий, средний, низкий) попадает этот рейтинг. Если рейтинг средний, система намеренно выбирает как положительные, так и отрицательные отзывы. Дополнительно в патенте описаны методы оценки качества отзывов, их кластеризации и генерации сниппетов.

    Как это работает

    Система функционирует в несколько этапов:

    • Агрегация: Сбор отзывов и рейтингов из различных источников (Review Sources).
    • Расчет Общего Рейтинга: Вычисление Overall Rating Score, часто как взвешенного среднего от агрегированных рейтингов источников, где вес зависит от количества отзывов.
    • Репрезентативный Выбор: Определение диапазона рейтинга. Если рейтинг средний, выбираются и положительные, и отрицательные отзывы.
    • Оценка Качества (Опционально): Анализ текста отзыва на грамотность, длину и информативность (используя TF-IDF).
    • Кластеризация (Опционально): Группировка отзывов по темам для обеспечения разнообразия выборки.
    • Генерация Сниппетов (Опционально): Выбор наиболее информативных предложений из текста отзыва для отображения в сводке.

    Актуальность для SEO

    Высокая. Хотя конкретные методы NLP, описанные в патенте (например, TF-IDF, K-means), уступили место более продвинутым нейросетевым моделям, заложенные принципы остаются фундаментальными. Оценка качества пользовательского контента (UGC), обеспечение репрезентативности выборки, кластеризация по аспектам и алгоритмическая генерация сниппетов являются ядром работы современных систем Google (Maps, Shopping).

    Важность для SEO

    Патент имеет высокое значение для SEO (8.5/10), особенно в Local SEO и E-commerce. Он описывает конкретные механизмы, по которым Google интерпретирует и представляет репутацию бизнеса или качество продукта. Понимание критериев качества (грамотность, информативность, свежесть) и принципов отбора (репрезентативность тональности и тем) критически важно для стратегий управления онлайн-репутацией (ORM) и оптимизации карточек товаров/компаний.

    Детальный разбор

    Термины и определения

    Aggregated Rating / Collective Rating (Агрегированный / Коллективный рейтинг)
    Рейтинг субъекта, рассчитанный конкретным источником отзывов на основе всех отзывов, представленных на этом источнике.
    Clustering (Кластеризация)
    Процесс группировки отзывов на основе тематической схожести их содержания (используя TF-IDF векторы). Позволяет выявить основные обсуждаемые аспекты.
    IDF (Inverse Document Frequency)
    Обратная документная частота. Мера ценности (информативности) слова, основанная на его редкости в общем корпусе отзывов. Редкие слова имеют более высокий IDF.
    Overall Rating Score (Общий рейтинг)
    Сводная оценка субъекта, рассчитываемая Reviews Engine. Часто является взвешенным средним значением Aggregated Ratings от разных источников.
    Partition (Часть/Раздел)
    Единица деления текста отзыва, например, предложение. Используется при генерации сниппета.
    Quality Score (Оценка качества)
    Метрика для оценки качества текста отзыва или его части. Основана на факторах: длина, грамматика, ценность слов (IDF), возраст отзыва.
    Rating Range (Диапазон рейтинга)
    Классификация Overall Rating Score (например, Высокий, Средний, Низкий).
    Reviews Engine (Система обработки отзывов)
    Система, которая собирает, анализирует и выбирает отзывы для отображения.
    TF-IDF (Term Frequency-Inverse Document Frequency)
    Метрика для оценки важности слова в контексте отзыва. Используется для оценки качества и создания векторов для кластеризации (Word Value Vectors).

    Ключевые утверждения (Анализ Claims)

    Claims данного патента (US20070078669A1) сосредоточены на механизме репрезентативного выбора на основе рейтинга.

    Claim 1 (Независимый пункт): Описывает основной метод выбора отзывов.

    1. Идентификация набора отзывов из одного или нескольких источников.
    2. Определение общего рейтинга (Overall Rating Score) для этого набора.
    3. Идентификация одного из нескольких диапазонов рейтинга (Rating Ranges), соответствующего общему рейтингу.
    4. Выбор подмножества отзывов, основанный, по крайней мере, на идентифицированном диапазоне рейтинга.
    5. Генерация ответа, включающего контент из выбранного подмножества.

    Claims 2, 3, 4 (Зависимые): Уточняют логику выбора на шаге 4 из Claim 1.

    • Claim 2: Если диапазон высокий (high range), выбирать отзывы с высокими оценками.
    • Claim 3: Если диапазон низкий (low range), выбирать отзывы с низкими оценками.
    • Claim 4: Если диапазон средний (middle range), выбирать подмножество, включающее отзывы как с высокими, так и с низкими оценками.

    Claim 4 критически важен: он описывает механизм демонстрации полярности мнений при смешанной общей оценке.

    Claim 5 (Зависимый): Уточняет расчет Overall Rating Score.

    Общий рейтинг определяется на основе агрегированных рейтингов от источников и количества отзывов от каждого источника (используется как вес).

    Claim 7 (Зависимый от 6): Детализирует процесс генерации сниппета.

    Генерация сниппета включает разделение отзыва на части (partitions), выбор подмножества частей на основе предопределенных критериев и генерацию сниппета из них.

    Где и как применяется

    Изобретение охватывает жизненный цикл обработки отзывов в поисковой или агрегирующей системе (например, Google Maps, Google Shopping).

    CRAWLING – Сканирование и Сбор данных
    Компонент Reviews Collector собирает отзывы с внешних сайтов (Document Hosts) или принимает их напрямую.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит основная предварительная обработка:

    • Извлечение метаданных (рейтинг, дата, источник).
    • Расчет глобальных метрик, таких как таблицы IDF для разных типов субъектов.
    • Предварительный расчет Quality Score для отзывов (грамматика, длина).
    • Генерация Word Value Vectors (TF-IDF) и, возможно, предварительная кластеризация.

    RANKING / RERANKING (в рамках вертикали Отзывов)
    При запросе сводки отзывов активируется Reviews Engine:

    1. Расчет метрик: Вычисляется Overall Rating Score.
    2. Выборка (Selection): Применяется основная логика патента — выбор репрезентативного набора отзывов на основе Rating Range. Этот выбор может дополнительно фильтроваться по Quality Score и обеспечивать разнообразие с помощью данных кластеризации.
    3. Генерация сниппетов: Для выбранных отзывов определяются лучшие фрагменты текста.
    4. Формирование Ответа: Генерация финальной сводки (Reviews Summary).

    Входные данные:

    • Корпус отзывов о субъекте (текст, рейтинги, метаданные).
    • Aggregated Ratings и количество отзывов от источников.
    • Таблицы IDF.

    Выходные данные:

    • Reviews Summary, включающая Overall Rating Score и Reviews Sample (выбранные отзывы/сниппеты).

    На что влияет

    • Конкретные типы контента и ниши: Критическое влияние на пользовательский контент (UGC) в E-commerce (отзывы о товарах) и Local SEO (отзывы о компаниях и услугах).
    • Определенные форматы контента: Блоки с отзывами в Google Maps, Google Shopping, Панелях Знаний.

    Когда применяется

    • Условия применения: Алгоритм применяется при генерации сводки отзывов для отображения пользователю.
    • Триггеры активации: Наличие достаточного количества отзывов о субъекте для анализа и формирования репрезентативной выборки. Конкретная стратегия выборки (положительные/отрицательные/смешанные) триггерируется диапазоном Overall Rating Score.

    Пошаговый алгоритм

    Патент описывает несколько взаимосвязанных процессов (FIG. 3-6). Ниже представлен интегрированный алгоритм формирования сводки.

    Этап 1: Подготовка данных и Расчет Общего Рейтинга (FIG. 3)

    1. Идентификация корпуса: Определение всех отзывов о субъекте и их источников.
    2. Расчет Overall Rating Score (OR):
      1. Получение агрегированных рейтингов и количества отзывов от каждого источника.
      2. Вычисление взвешенного среднего. Веса основаны на количестве отзывов (в патенте предлагается использовать логарифм количества, log(n)).
    3. Определение диапазона: Классификация OR в один из диапазонов (например, Низкий, Средний, Высокий).

    Этап 2: Оценка Качества и Кластеризация (FIG. 4, FIG. 5) (Может выполняться заранее или на лету)

    1. Оценка качества (Quality Scoring): Для каждого отзыва рассчитывается Quality Score на основе: длины, грамматики, капитализации, ценности слов (TF-IDF) и возраста (бонус за свежесть).
    2. Кластеризация (Clustering):
      1. Генерация Word Value Vectors (TF-IDF).
      2. Группировка отзывов в тематические кластеры (например, K-means).
      3. Определение размеров кластеров.

    Этап 3: Выбор Репрезентативной Выборки (Selection)

    1. Применение фильтра по рейтингу: Выбор отзывов, соответствующих диапазону рейтинга (например, если Средний – берутся и позитивные, и негативные).
    2. Применение фильтра качества и разнообразия: Из отобранных отзывов приоритет отдается тем, у кого выше Quality Score. Отбор производится из разных кластеров пропорционально их размеру.

    Этап 4: Генерация Сниппетов и Ответа (FIG. 6)

    1. Генерация сниппетов: Для выбранных отзывов:
      1. Отзыв делится на предложения (Partitions).
      2. Оценивается качество каждого предложения (длина, TF-IDF, позиция).
      3. Выбирается комбинация последовательных предложений с наивысшей суммарной оценкой качества, укладывающаяся в лимит длины.
    2. Формирование ответа: Генерируется сводка (Review Summary).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст отзыва. Анализируется для оценки качества (грамматика, длина), расчета TF-IDF (кластеризация, информативность) и генерации сниппетов.
    • Временные факторы: Дата/возраст отзыва. Используется при расчете Quality Score (свежие отзывы получают бонус).
    • Метаданные отзыва: Индивидуальный рейтинг (оценка). Источник отзыва (сайт). Агрегированный рейтинг источника. Количество отзывов на источнике.
    • Системные данные: Таблицы IDF, рассчитанные для корпуса отзывов (возможно, специфичные для типа субъекта).

    Какие метрики используются и как они считаются

    1. Overall Rating Score (OR)

    • Описание: Взвешенное среднее агрегированных рейтингов источников.
    • Пример формулы из патента: OR = (Σ r_i * log(n_i)) / (Σ log(n_i)), где r_i — агрегированный рейтинг источника i, n_i — количество отзывов у источника i. Логарифмическое взвешивание сглаживает влияние объема.

    2. Quality Score (Q) для отзыва или предложения

    • Описание: Взвешенная сумма факторов качества текста. Q = Σ (q_j * weight_j).
    • Факторы (q_j):
      • Длина: Оценка близости к оптимальной длине.
      • Грамматика и Капитализация: Оценка корректности языка и использования регистра.
      • Ценность слов (Word Value): Рассчитывается на основе TF-IDF. Word Value = Σ (TF * log(IDF)).
      • Возраст: Бонус за свежесть.
      • Позиция: Для предложений может учитываться их позиция в отзыве.

    3. Кластеризация

    • Методы: TF-IDF векторизация отзывов. Алгоритм K-means.
    • Метрики схожести: Cosine Similarity (косинусное сходство) между векторами для определения близости отзывов.

    Выводы

    1. Приоритет репрезентативности и баланса: Google стремится показать объективную картину. Если общий рейтинг смешанный (Middle Range), система гарантированно покажет как положительные, так и отрицательные отзывы (Claim 4), а не только те, которых большинство.
    2. Качество текста UGC алгоритмически измеримо: Пользовательский контент оценивается по строгим критериям. Читаемость (грамматика, длина) и информативность (измеряемая через TF-IDF) являются ключевыми факторами (Quality Score) для выбора отзыва для показа.
    3. Информативность и Конкретика (TF-IDF): Отзывы, содержащие конкретные, редкие и значимые слова (высокий IDF), ценятся выше, чем отзывы из общих фраз.
    4. Тематическое разнообразие через кластеризацию: Система идентифицирует различные аспекты обсуждения (например, цена, качество, сервис) путем кластеризации отзывов. Для сводки выбираются представители разных кластеров, чтобы дать пользователю разностороннее представление.
    5. Алгоритмическое формирование сниппетов: В сниппет попадают не первые предложения, а наиболее информативные и качественные фрагменты отзыва, выбранные алгоритмом на основе оценки качества каждого предложения.
    6. Влияние объема данных источника: Общий рейтинг рассчитывается с учетом количества отзывов у источника (логарифмическое взвешивание), что подчеркивает важность присутствия на крупных площадках.

    Практика

    Best practices (это мы делаем)

    • Стимулирование содержательных и конкретных отзывов: Поощряйте клиентов писать отзывы средней длины с детальным описанием опыта. Это повышает Quality Score и TF-IDF значение отзыва (информативность), увеличивая вероятность его показа. Отзывы типа «Все ок» имеют низкое качество.
    • Фокус на тематическом разнообразии: Мотивируйте клиентов затрагивать разные аспекты продукта/услуги (сервис, доставка, качество). Это увеличит представленность в разных тематических кластерах и обеспечит более полное раскрытие преимуществ в сводке.
    • Стимулирование свежих отзывов: Патент явно указывает, что возраст отзыва влияет на его Quality Score, причем свежие отзывы получают преимущество. Необходима постоянная работа по генерации нового UGC.
    • Работа с ключевыми площадками: Сосредоточьте усилия на площадках, генерирующих значительный объем отзывов, так как они сильнее влияют на расчет Overall Rating Score.
    • Анализ тональности корпуса отзывов (ORM): Если общий рейтинг средний, наличие негативных отзывов в сводке гарантировано (Claim 4). Необходимо работать над улучшением продукта/сервиса для смещения общего рейтинга в высокий диапазон.

    Worst practices (это делать не надо)

    • Накрутка короткими, однотипными отзывами: Массовая генерация коротких отзывов неэффективна из-за низкого Quality Score. Однотипные отзывы сформируют один большой кластер, но система выберет из него лишь несколько представителей, игнорируя остальные.
    • Использование неграмотного текста или КАПСА: Отзывы с плохой грамматикой или написанные заглавными буквами будут пессимизированы при расчете Quality Score.
    • Игнорирование негатива при смешанном рейтинге: Попытки скрыть негатив бесполезны, если общий рейтинг средний. Система активно ищет и показывает высококачественные негативные отзывы для репрезентативности.

    Стратегическое значение

    Патент подтверждает, что Google применяет сложные NLP-технологии для оценки пользовательского контента (UGC), аналогично оценке основного контента сайтов. Стратегия управления репутацией (ORM) должна фокусироваться не только на количестве звезд, но и на качестве текста, его информативности и тематическом разнообразии. Google выступает как куратор мнений, фильтруя шум и выделяя наиболее полезный контент для пользователей.

    Практические примеры

    Сценарий 1: Ресторан со смешанной репутацией (Репрезентативность и Кластеризация)

    1. Ситуация: Ресторан имеет общий рейтинг 3.5 из 5 (Средний диапазон).
    2. Анализ Google: Система определяет диапазон как Средний. Кластеризация выявляет два основных кластера: «Вкусная еда» (положительные) и «Медленное обслуживание» (отрицательные).
    3. Действие Google (Claim 4): Система должна выбрать как положительные, так и отрицательные отзывы.
    4. Выборка: Google ищет отзывы с высоким Quality Score. Выбирается: 1) Подробный положительный отзыв о еде (из кластера 1). 2) Подробный отрицательный отзыв об обслуживании (из кластера 2).
    5. Результат: Пользователь видит сбалансированную картину, отражающую реальные проблемы и преимущества.

    Сценарий 2: Генерация сниппета для обзора смартфона (Качество сниппета)

    1. Отзыв: Состоит из 10 предложений.
    2. Анализ Google: Система оценивает каждое предложение (FIG. 6). Предложения в начале содержат общие фразы (низкий Quality Score). Предложения 4 и 5 содержат конкретные термины о камере и батарее (высокий IDF) и имеют высокий Quality Score.
    3. Выбор сниппета: Система проверяет комбинации. Комбинация (Предложение 4 + Предложение 5) имеет наивысший суммарный Quality Score и укладывается в лимит длины.
    4. Результат: Сниппет отображает самую информативную часть отзыва о камере и батарее, а не вступление.

    Вопросы и ответы

    Как система определяет, является ли отзыв «качественным» (Quality Score)?

    Система рассчитывает Quality Score на основе нескольких факторов (FIG. 4). Учитывается длина отзыва (не слишком короткий и не слишком длинный), грамотность, использование нормальной капитализации, а также информативность слов (используя IDF). Отзывы, содержащие более редкие и конкретные термины, считаются более качественными. Также свежие отзывы получают бонус.

    Почему Google показывает негативные отзывы о моем бизнесе, даже если положительных больше?

    Если ваш общий рейтинг (Overall Rating Score) попадает в средний диапазон (Middle Range), система специально запрограммирована выбирать как положительные, так и отрицательные отзывы (Claim 4). Это делается для обеспечения репрезентативности и демонстрации полярности мнений. Чтобы минимизировать показ негатива, необходимо работать над продуктом для смещения общего рейтинга в высокий диапазон.

    Влияет ли количество отзывов на разных площадках на общий рейтинг?

    Да, напрямую. При расчете Overall Rating Score агрегированные рейтинги от разных источников взвешиваются. Вес источника зависит от количества отзывов на нем (в патенте предлагается логарифмическое взвешивание). Площадки с большим количеством отзывов сильнее влияют на итоговый общий рейтинг.

    Как Google решает, какие темы из отзывов показать в сводке?

    Система использует кластеризацию (FIG. 5), например, алгоритм K-means на основе TF-IDF векторов. Это позволяет сгруппировать похожие отзывы в тематические кластеры (например, «цена», «доставка», «качество»). Затем система выбирает отзывы из разных кластеров пропорционально их размеру, обеспечивая освещение наиболее популярных тем.

    Эффективна ли накрутка большого количества однотипных положительных отзывов?

    Согласно патенту, это неэффективно. Во-первых, такие отзывы часто имеют низкий Quality Score. Во-вторых, они сформируют один большой кластер. Система выберет лишь несколько представителей из этого кластера, а остальные будут проигнорированы при формировании сводки. Важнее разнообразие и качество.

    Как Google выбирает текст для сниппета отзыва?

    Сниппет выбирается алгоритмически (FIG. 6). Система делит отзыв на предложения, оценивает качество (информативность, длину, позицию) каждого предложения и выбирает комбинацию последовательных предложений с наивысшей суммарной оценкой качества, которая укладывается в лимит длины.

    Что такое IDF и почему это важно для отзывов?

    IDF (Inverse Document Frequency) измеряет информативность слова. Слова с высоким IDF (более редкие и специфичные) считаются более ценными. Если в отзыве много таких слов, его Quality Score повышается. Это значит, что подробные отзывы с конкретными деталями ценятся выше, чем отзывы из общих фраз.

    Может ли система отфильтровать отзывы с ненормативной лексикой?

    Да. Патент упоминает возможность использования дополнительных критериев при выборе отзывов, включая фильтрацию нежелательного контента (objectionable content), такого как ненормативная лексика или откровенный контент. Такие отзывы исключаются из рассмотрения.

    Применяются ли эти механизмы к отзывам в Google Maps (Local)?

    Хотя патент не упоминает конкретные продукты, описанная архитектура (Reviews Engine) и цели (агрегация и выбор репрезентативных отзывов о поставщиках услуг/товаров) идеально соответствуют задачам, которые решаются при отображении отзывов в локальном поиске и на Картах. Эти принципы лежат в основе работы этих сервисов.

    Использует ли Google сейчас нейронные сети для анализа отзывов вместо TF-IDF?

    Патент описывает классические методы NLP (TF-IDF, K-means). Современные системы Google безусловно используют продвинутые нейросетевые модели (BERT/MUM) для понимания текста. Однако фундаментальные принципы оценки качества, информативности и обеспечения репрезентативности, заложенные в этом патенте, остаются актуальными, хотя их реализация стала более совершенной.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.