SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google анализирует мнения и общественное восприятие тем в интернете путем кластеризации контента и измерения тональности

CLUSTERING INTERNET RESOURCES (Кластеризация интернет-ресурсов)
  • US8423551B1
  • Google LLC
  • 2010-11-05
  • 2013-04-16
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.

Описание

Какую проблему решает

Патент решает задачу агрегации, структурирования и анализа большого объема неструктурированных мнений, разбросанных по интернету (в блогах, отзывах, статьях). Цель — предоставить инструмент для оценки общественного восприятия (public perception) определенной темы (продукта, услуги, политического кандидата и т.д.) путем автоматического выявления ключевых аспектов обсуждения и связанной с ними тональности.

Что запатентовано

Запатентована система анализа данных (Data Analysis System), которая кластеризует интернет-ресурсы, релевантные заданным ключевым словам. Система идентифицирует подтемы (Topics) внутри этого набора ресурсов, определяет относительную важность (relative importance) каждой подтемы и вычисляет данные о мнениях (opinion data) или оценку тональности (Sentiment Score). Результатом работы является сводный аналитический отчет.

Как это работает

Система работает следующим образом:

  • Сбор данных: По заданным ключевым словам идентифицируется набор релевантных интернет-ресурсов.
  • Кластеризация: Ресурсы группируются. Для этого могут применяться алгоритмы вроде TF-IDF для выявления признаков темы (Topic Features), а затем алгоритмы кластеризации (например, упоминается distributed exchange algorithm).
  • Идентификация тем: Каждый кластер анализируется для определения обсуждаемой темы (например, «чистота номера» для отеля) и присвоения метки (Label).
  • Оценка важности: Для каждой темы рассчитывается важность на основе частоты упоминаний (Frequency), среднего количества просмотров страниц (Average Page Views) и ранга релевантности (Relevance Rank).
  • Анализ тональности: Для каждой темы вычисляется Sentiment Score путем анализа языка (позитивные/негативные слова) или извлечения явных оценок (рейтинги, звезды).
  • Отчет: Генерируется сводный отчет, показывающий ключевые темы, их важность и тональность.

Актуальность для SEO

Средняя. Базовая концепция автоматизированного анализа мнений остается крайне актуальной для задач мониторинга репутации и аналитики. Однако методы, описанные в патенте (подача 2010 г.), такие как TF-IDF и словарный анализ тональности, значительно устарели. Современные системы Google, вероятно, используют продвинутые нейросетевые модели (Трансформеры, BERT, MUM) для более точного тематического моделирования и понимания нюансов тональности.

Важность для SEO

Влияние на SEO-стратегии ранжирования низкое (3/10). Этот патент не описывает алгоритм ранжирования веб-поиска. Он описывает аналитическую систему для создания отчетов об общественном мнении (ORM/SERM инструмент). Однако он дает ценное понимание того, как Google технически подходит к кластеризации контента, определению тем и, что особенно важно, извлечению и количественной оценке тональности (Sentiment Analysis) из текста и рейтингов.

Детальный разбор

Термины и определения

Cluster Analysis Engine (Механизм анализа кластеров)
Компонент системы, который анализирует сформированные кластеры для определения тем (присвоения меток), расчета метрик важности и вычисления оценок тональности.
Clustering Engine (Механизм кластеризации)
Компонент системы, который идентифицирует релевантные ресурсы по ключевым словам и группирует их в кластеры на основе общих признаков.
Content Items / Resources (Элементы контента / Ресурсы)
Исходные данные для анализа: веб-страницы, блоги, отзывы, новостные статьи, а также поисковые запросы (search queries).
Frequency (Частота)
Метрика, показывающая количество ресурсов, связанных с определенной темой или кластером.
Relevance Rank / Relevance Score (Ранг / Оценка релевантности)
Метрика для определения относительной важности (relative importance) темы или ресурса. Может основываться на Page Views, частоте ключевых слов, контексте (например, в заголовке), а также глобальной важности (ссылки, голоса пользователей).
Sentiment Score (Оценка тональности)
Числовая метрика, отражающая мнение. Рассчитывается либо как разница между количеством позитивных и негативных слов, либо путем анализа явных индикаторов (рейтинги, оценки — satisfaction metric).
TF-IDF (Term Frequency-Inverse Document Frequency)
Алгоритм, явно упомянутый в патенте, который может применяться для выявления Topic Features перед кластеризацией и для определения меток кластеров.
Topic Features (Признаки темы)
Характеристики ресурсов, используемые для кластеризации. Включают контент (слова, фразы), контекстуальные признаки (URL) и метаданные (теги).

Ключевые утверждения (Анализ Claims)

Патент содержит три независимых пункта (1, 10, 13). Они описывают одну и ту же систему, но отличаются тем, как именно определяется оценка тональности (Sentiment Score).

Claim 1 (Независимый пункт): Описывает основной метод работы системы анализа мнений.

  1. Система получает пользовательский запрос с ключевыми словами.
  2. Идентифицируется множество элементов контента (content items).
  3. Элементы контента кластеризуются, и для каждого кластера идентифицируется тема (topic).
  4. Для каждой идентифицированной темы вычисляются метрики:
    • Частота (Frequency).
    • Ранг релевантности (Relevance Rank).
    • Количество просмотров страниц (Page Views).
    • Оценка тональности (Sentiment Score) — метод расчета в этом пункте не уточняется.
  5. Подготавливается и отображается отчет, включающий эти метрики.

Claim 10 (Независимый пункт): Описывает систему, аналогичную Claim 1, но явно указывает метод расчета Sentiment Score на основе рейтингов.

Sentiment Score определяется путем анализа рейтинга (rating), связанного с каждым элементом контента, где рейтинг является метрикой удовлетворенности (satisfaction metric).

Система способна извлекать и интерпретировать явные оценки (например, звезды, баллы) для расчета общей тональности по теме.

Claim 13 (Независимый пункт): Описывает систему (на носителе), аналогичную Claim 1, но указывает альтернативный метод расчета Sentiment Score на основе анализа текста.

Sentiment Score определяется путем вычисления разницы между количеством слов с позитивной тональностью (positive-sentiment words) и слов с негативной тональностью (negative-sentiment words).

Система использует лингвистический анализ текста, опираясь на словари тональности, для вычисления настроения автора.

Зависимые пункты (Claims 7-9): Детализируют интерпретацию лингвистического анализа.

Система определяет общее впечатление (overall impression) как позитивное, негативное или нейтральное. Нейтральное впечатление фиксируется, если разница между позитивными и негативными словами находится в пределах предопределенного порога (predetermined threshold).

Где и как применяется

Этот патент описывает отдельную аналитическую систему (Data Analysis System), а не компонент основного конвейера ранжирования поиска. Это инструмент для аналитики и мониторинга репутации, работающий поверх собранных данных.

CRAWLING и INDEXING
Система полагается на предварительно собранные данные. Упоминается использование веб-краулера (web crawler) для доступа к ресурсам. Система может использовать базу данных сохраненных ресурсов (Stored Resources), которая может включать веб-страницы и логи поисковых запросов.

Аналитический слой (Вне основного конвейера поиска)
Основное применение патента — это обработка запроса на анализ мнений.

  1. Получение запроса (QUNDERSTANDING): Пользователь вводит ключевые слова (например, название продукта).
  2. Извлечение и Кластеризация (INDEXING/Feature Extraction): Clustering Engine извлекает релевантные ресурсы и группирует их. Это включает извлечение признаков, например, с помощью TF-IDF.
  3. Анализ и Агрегация: Cluster Analysis Engine определяет темы, рассчитывает метрики (важность, тональность) и агрегирует данные. Рассчитываемый Relevance Rank используется для определения важности темы в отчете, а не для ранжирования в SERP.
  4. Генерация отчета: Система формирует и отображает финальный отчет.

Входные данные:

  • Ключевые слова или поисковый запрос от пользователя.
  • Набор интернет-ресурсов (веб-страницы, блоги, отзывы).
  • Данные о просмотрах страниц (Page Views) для ресурсов.
  • Данные для расчета Relevance Rank (ссылочные данные, статистика использования ключевых слов, голоса пользователей).
  • Словари позитивных и негативных слов, правила грамматики/синтаксиса (например, учет отрицаний) для анализа тональности.

Выходные данные:

  • Аналитический отчет, содержащий список тем, связанных с ключевыми словами, с метриками частоты, среднего ранга, средних просмотров и средней оценки тональности.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на контент, содержащий мнения: отзывы о продуктах/услугах (user-review, online reviews), блоги (blogs), редакционные статьи (editorials), новостные материалы (news item).
  • Специфические запросы: Влияет на анализ запросов, связанных с мониторингом репутации бренда, анализом рынка или оценкой общественного мнения (продукты, компании, события, политики).

Когда применяется

  • Условия применения: Алгоритм применяется, когда пользователь аналитической системы инициирует запрос на анализ общественного мнения по определенной теме. Это не процесс, который выполняется при каждом стандартном поисковом запросе в Google Search. Это специализированный аналитический процесс по требованию.

Пошаговый алгоритм

Процесс анализа мнений и генерации отчета

Фаза 1: Сбор и подготовка данных

  1. Получение ввода: Система получает одно или несколько ключевых слов от пользователя.
  2. Идентификация релевантных ресурсов: Идентифицируется набор ресурсов, которые содержат ключевые слова.
  3. Извлечение признаков: Применение алгоритмов текстового анализа (например, TF-IDF) для идентификации признаков темы (Topic Features) в каждом ресурсе (слова, фразы, URL, метаданные).

Фаза 2: Кластеризация и идентификация тем

  1. Кластеризация ресурсов: Clustering Engine группирует ресурсы на основе выявленных признаков (например, используя distributed exchange algorithm). Количество кластеров может быть задано пользователем.
  2. Идентификация тем (Labeling): Cluster Analysis Engine анализирует каждый кластер для определения связанной с ним темы и присваивает метку. Например, с помощью TF-IDF для выявления наиболее значимых терминов в кластере.

Фаза 3: Расчет метрик

  1. Расчет частоты: Для каждой темы определяется частота (Frequency) — количество ресурсов в соответствующих кластерах.
  2. Расчет просмотров: Вычисляется среднее количество просмотров (Average Page Views) для каждой темы.
  3. Расчет важности: Вычисляется средний ранг релевантности (Average Relevance Rank) для каждой темы на основе Relevance Score отдельных ресурсов.
  4. Расчет тональности: Вычисляется средняя оценка тональности (Average Sentiment Score) для каждой темы. Это делается двумя способами:
    • Лингвистический анализ: Подсчет позитивных и негативных слов и вычисление разницы. Определение общего впечатления (позитивное/негативное/нейтральное) на основе порогов.
    • Анализ индикаторов: Извлечение и нормализация явных рейтингов (satisfaction metric).

Фаза 4: Отчетность

  1. Подготовка отчета: Система генерирует сводный отчет, включающий все темы и связанные с ними метрики.
  2. Отображение отчета: Отчет предоставляется пользователю.

Какие данные и как использует

Данные на входе

Патент упоминает использование следующих типов данных:

  • Контентные факторы: Текст ресурсов используется для кластеризации (через TF-IDF) и для анализа тональности (поиск позитивных/негативных слов). Контекст использования ключевых слов (например, в заголовке) может влиять на Relevance Score.
  • Структурные факторы: Явные индикаторы мнений, такие как рейтинги (звезды), оценки (буквенные или числовые), используются для расчета Sentiment Score. Метаданные (теги) используются как Topic Features.
  • Поведенческие факторы: Количество просмотров страниц (Page Views) используется для расчета средней метрики по теме и как фактор для Relevance Score. Голоса пользователей (user/reader votes, например, like/share) также упоминаются как фактор для Relevance Score.
  • Ссылочные факторы: Упоминается, что Relevance Score может быть мерой глобальной важности (measure of global importance), основанной на количестве ссылающихся ресурсов (referenced by or linked to).
  • Технические факторы: Контекстуальные признаки ресурса (например, URL) упоминаются как возможные Topic Features для кластеризации.

Какие метрики используются и как они считаются

  • Frequency (Частота): Подсчет количества ресурсов в кластере/теме.
  • Average Page Views (Среднее количество просмотров): Среднее арифметическое просмотров страниц всех ресурсов в кластере/теме.
  • Relevance Score/Rank (Оценка/Ранг релевантности): Агрегированная оценка важности. Конкретная формула не приводится, но указаны факторы: просмотры, частота/контекст ключевых слов, ссылки, голоса пользователей.
  • Sentiment Score (Оценка тональности): Рассчитывается двумя основными методами:
    1. Лингвистический метод: Разница: (Количество позитивных слов) - (Количество негативных слов). Учитываются грамматические правила (например, учет отрицаний типа "not good").
    2. Метод извлечения рейтингов: Нормализация рейтингов (например, перевод 3/5 звезд в 60 баллов) и усреднение.
  • Overall Impression (Общее впечатление): Классификация тональности (Позитивная, Негативная, Нейтральная). Определяется путем сравнения абсолютного значения Sentiment Score (рассчитанного как разница слов) с предопределенным порогом. Если абсолютное значение меньше порога — тональность нейтральная.
  • Методы анализа текста: TF-IDF явно указан как метод для извлечения признаков и определения тем кластеров.

Выводы

  1. Патент описывает аналитический инструмент, а не алгоритм ранжирования: Основной вывод — этот патент не связан с ранжированием сайтов в органическом поиске. Он описывает систему для мониторинга и анализа общественного мнения (ORM/SERM).
  2. Google активно измеряет тональность (Sentiment): Патент подтверждает, что Google обладает технологиями для количественной оценки мнений. Это делается как через лингвистический анализ (подсчет слов с учетом контекста и отрицаний), так и через извлечение структурированных данных (рейтинги, оценки).
  3. Кластеризация контента для выявления тем: Система использует методы кластеризации (упоминается TF-IDF) для автоматического определения ключевых подтем обсуждения вокруг заданного объекта. Это дает представление о методах тематического моделирования Google того времени.
  4. Важность мнений взвешивается (Weighted Opinions): Не все мнения считаются равными. Система рассчитывает относительную важность (relative importance) тем и ресурсов, используя метрики Relevance Rank (который может включать ссылочную авторитетность и голоса пользователей) и Page Views. Мнения с более авторитетных или популярных страниц имеют больший вес в анализе.
  5. Устаревшие технологии: Методы, описанные в патенте (TF-IDF, словарный анализ тональности), являются базовыми по меркам 2025 года, что важно учитывать при интерпретации текущих возможностей Google, которые значительно превосходят описанные.

Практика

Хотя патент не дает прямых рекомендаций по ранжированию, он подчеркивает важность управления репутацией (SERM) и структурирования данных об отзывах.

Best practices (это мы делаем)

  • Использование микроразметки для отзывов (Review markup): Поскольку система явно умеет извлекать и нормализовывать рейтинги (satisfaction metrics) для расчета Sentiment Score (Claim 10), критически важно предоставлять эти данные в структурированном виде (например, aggregateRating в Schema.org). Это гарантирует, что Google корректно интерпретирует оценки вашего продукта или услуги.
  • Стимулирование авторитетных и популярных отзывов: Патент указывает, что Relevance Rank и Page Views ресурса влияют на вес мнения в анализе. Мнение на авторитетном, хорошо ранжируемом и посещаемом ресурсе важнее, чем мнение на неизвестном сайте. Работайте над получением обзоров и упоминаний на качественных площадках.
  • Управление репутацией (ORM/SERM): Понимайте, что Google обладает инструментами для автоматического мониторинга и агрегации мнений о бренде. Важно отслеживать тональность упоминаний на сторонних площадках (блогах, отзовиках) и своевременно реагировать на негатив.
  • Анализ тем в нише (Контент-стратегия): Используйте принципы кластеризации контента для анализа своей ниши. Понимание того, какие подтемы наиболее важны (имеют наибольшую частоту и важность) для вашей аудитории, помогает формировать эффективную контент-стратегию.

Worst practices (это делать не надо)

  • Игнорирование негативных упоминаний на авторитетных сайтах: Негативный отзыв на сайте с высоким Relevance Rank окажет значительное влияние на общий Sentiment Score в аналитической системе Google.
  • Манипуляции с тональностью текста: Попытки обмануть систему путем неестественного насыщения текста "позитивными словами" могут быть неэффективны, так как патент упоминает использование грамматических правил (например, учет отрицаний типа "not good"), а современные системы анализируют контекст гораздо глубже.
  • Фокус на количестве упоминаний вместо качества площадок: Генерация большого количества низкокачественных упоминаний на неавторитетных сайтах не окажет существенного влияния на анализ, так как система взвешивает мнения по важности (Relevance Score) источника.

Стратегическое значение

Стратегическое значение патента заключается в подтверждении того, что Google систематически анализирует и количественно оценивает мнения и тональность в масштабах всего интернета. Это подчеркивает важность репутации и восприятия бренда (как части E-E-A-T) не только для пользователей, но и для алгоритмов Google. Управление онлайн-репутацией (SERM) является неотъемлемой частью комплексной SEO-стратегии.

Практические примеры

Сценарий: Анализ восприятия нового смартфона (Пример использования системы)

  1. Запрос: Маркетолог вводит название модели смартфона в аналитическую систему.
  2. Кластеризация: Система собирает тысячи отзывов и статей и кластеризует их.
  3. Выявленные темы: Система определяет темы (Labels): «Время работы батареи», «Качество камеры», «Производительность в играх», «Цена».
  4. Анализ Метрик:
    • Тема «Качество камеры» имеет высокий Frequency и позитивный Sentiment Score (+120), основанный на анализе слов «четкий», «яркий» и средних оценках 4.8/5 (извлеченных из рейтингов).
    • Тема «Время работы батареи» имеет высокий Frequency, но негативный Sentiment Score (-50).
    • Система отмечает, что отзыв на авторитетном ресурсе (например, TechCrunch) имеет высокий Relevance Rank и Page Views, поэтому его негативная оценка батареи имеет большой вес в общем анализе.
  5. Отчет: Маркетолог получает отчет, показывающий, что, несмотря на общее положительное восприятие камеры, проблема с батареей, освещенная авторитетными изданиями, является критической точкой для пользователей.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует сайты в поиске?

Нет, этот патент не описывает алгоритмы ранжирования органической выдачи. Он описывает отдельную аналитическую систему (Data Analysis System), предназначенную для сбора интернет-ресурсов, их кластеризации по темам и анализа общественного мнения (тональности) для создания сводных отчетов. Это инструмент для исследования рынка или мониторинга репутации.

Что такое Sentiment Score и как Google его рассчитывает согласно патенту?

Sentiment Score — это числовая оценка тональности контента. Патент описывает два метода расчета. Первый (Claim 13) — лингвистический анализ: подсчет разницы между количеством позитивных и негативных слов в тексте с учетом грамматических правил (например, отрицаний). Второй (Claim 10) — извлечение явных индикаторов: анализ и нормализация рейтингов, оценок или звезд (satisfaction metric), оставленных авторами контента.

Все ли мнения в интернете имеют одинаковый вес для этой системы?

Нет, система взвешивает мнения. Она рассчитывает относительную важность (relative importance) для каждой темы, используя метрики Relevance Rank и количество просмотров страниц (Page Views) источников. Мнения на более авторитетных (высокий Relevance Rank) и популярных (много Page Views) сайтах имеют больший вес в итоговом отчете.

Что такое Relevance Rank, упомянутый в патенте?

Патент не дает точной формулы, но указывает, что это мера важности ресурса. Она может основываться на комбинации факторов, включая количество просмотров страниц, контекст использования ключевых слов (например, в заголовке), а также глобальную важность (global importance), такую как количество входящих ссылок (referenced by or linked to) или количество голосов пользователей (лайков/шеров).

Как система автоматически определяет темы обсуждения?

Система использует процесс кластеризации. Сначала она может применять алгоритмы вроде TF-IDF для выявления ключевых признаков (Topic Features) в каждом документе. Затем документы с похожими признаками группируются в кластеры. Анализируя содержание кластера (опять же, например, с помощью TF-IDF), система определяет наиболее значимые термины и присваивает кластеру метку (тему).

Какое значение этот патент имеет для SEO-специалиста?

Ключевое значение — это улучшение стратегий управления репутацией (ORM/SERM). Необходимо активно использовать микроразметку Schema.org для рейтингов, так как система умеет их извлекать. Также важно стимулировать появление отзывов на авторитетных и посещаемых площадках, так как вес таких мнений выше в анализе.

Что означает, если система определяет тональность как «нейтральную»?

Согласно патенту (Claims 7-9), система рассчитывает разницу между позитивными и негативными словами. Если абсолютное значение этой разницы меньше определенного порога (predetermined threshold), тональность классифицируется как нейтральная. Это означает, что в тексте нет явно выраженного мнения или количество позитивных и негативных утверждений примерно одинаково.

Использует ли Google современные NLP-модели (например, BERT) для этого анализа?

Патент был подан в 2010 году и упоминает более старые методы, такие как TF-IDF и словарный анализ тональности. Хотя этот конкретный патент не описывает использование современных трансформерных моделей (как BERT или MUM), весьма вероятно, что текущие системы Google используют гораздо более продвинутые NLP-технологии для кластеризации и анализа тональности.

Используются ли просмотры страниц (Page Views) для ранжирования?

В контексте этого патента Page Views используются для определения относительной важности темы в аналитическом отчете и как фактор для Relevance Score ресурса. Патент не подтверждает и не опровергает использование просмотров страниц в основном алгоритме ранжирования веб-поиска.

Может ли эта система анализировать мнения не только о продуктах?

Да. В патенте упоминается, что система может анализировать мнения по широкому кругу тем, включая продукты, услуги, рестораны, политические взгляды, политических кандидатов, события, моду, телешоу, фильмы и любые другие темы, по которым может быть сформировано мнение.

Похожие патенты

Как Google использует анализ тональности (Sentiment Analysis) для создания сниппетов из отзывов
Google использует запатентованную систему для генерации информативных сниппетов для сущностей, о которых оставляют отзывы (например, рестораны, товары). Система извлекает фразы, выражающие мнение (sentiment phrases), из множества отзывов, оценивает их тональность с учетом специфики домена и выбирает наиболее частотные и разнообразные фразы для формирования сниппета, суммирующего общественное мнение об этой сущности.
  • US8010539B2
  • 2011-08-30
  • SERP

  • Семантика и интент

Как Google агрегирует новости, блоги и форумы в «Кластеры историй» и ранжирует комментарии на основе аккредитации и экспертности авторов
Патент Google, описывающий систему агрегации новостного контента из разных жанров (СМИ, блоги, форумы) в единые «Кластеры историй». Система ранжирует эти кластеры, учитывая жанр источника, и применяет сложный алгоритм для ранжирования комментариев, отдавая приоритет «аккредитованным» экспертам и лицам, непосредственно упомянутым в новостях.
  • US9760629B1
  • 2017-09-12
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз
Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.
  • US7962461B2
  • 2011-06-14
  • Краулинг

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Популярные патенты

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)
Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.
  • US8386495B1
  • 2013-02-26
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует CTR и E-E-A-T сигналы для определения контекста ссылок и оценки качества внешних упоминаний
Google использует двухэтапный механизм для анализа внешних комментариев (например, блог-постов). Сначала система определяет истинный объект обсуждения, если в комментарии несколько ссылок, анализируя CTR, длину URL и тематику. Затем она оценивает качество комментария, используя рейтинг автора, авторитетность источника, свежесть и обратную связь пользователей, чтобы отобрать наиболее релевантный контент.
  • US8656266B2
  • 2014-02-18
  • Ссылки

  • EEAT и качество

  • Свежесть контента

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания
Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.
  • US8326861B1
  • 2012-12-04
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента
Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.
  • US9213745B1
  • 2015-12-15
  • Семантика и интент

  • EEAT и качество

  • SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

seohardcore