Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз

METHOD AND SYSTEM FOR FINDING AND AGGREGATING REVIEWS FOR A PRODUCT (Метод и система для поиска и агрегирования отзывов о продукте)

US7962461B2
Google LLC
2004-12-14
2011-06-14

Краулинг

Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.

Какую проблему решает

Патент решает проблему неэффективности поиска и анализа отзывов о продуктах в интернете. Пользователям сложно получить целостное представление (holistic view) обо всех отзывах, так как они разбросаны по разным сайтам (веб-страницы, форумы), а стандартный поиск возвращает много нерелевантных результатов. Существовавшие агрегаторы часто полагались на ручной сбор данных и предоставляли ограниченные инструменты для навигации и поиска внутри собранных отзывов.

Что запатентовано

Запатентована система для автоматического поиска, извлечения и агрегации отзывов о продуктах. Система собирает информацию из различных источников, автоматически извлекает отзывы и определяет, к какому конкретному продукту они относятся (Кластеризация). Для каждого продукта генерируется агрегированная информация, включающая средний рейтинг и frequently appearing phrases (часто встречающиеся фразы). Также запатентован пользовательский интерфейс, который позволяет выполнять поиск внутри корпуса отзывов, собранных для конкретного продукта.

Как это работает

Система работает в несколько этапов:

Селективное сканирование (Selective Crawling): Краулер целенаправленно обходит сайты с отзывами, следуя только по тем ссылкам, которые с высокой вероятностью ведут на страницы с отзывами (используя анализ URL и анкорного текста).
Извлечение (Extraction): Система извлекает содержимое отзыва (текст, автор, дата, рейтинг) и идентификаторы продукта (название, модель) со скачанных страниц.
Кластеризация (Clustering): Система группирует отзывы, относящиеся к одному и тому же продукту, даже если названия различаются. Для этого используется анализ бренда, номера модели и категории продукта.
Агрегация: Для каждого кластера (продукта) вычисляется сводная информация: средний рейтинг, распределение оценок и frequently appearing phrases.
Представление и Поиск: Пользователю предоставляется сводная страница по продукту с возможностью поиска по тексту отзывов только этого продукта, а также сортировки и фильтрации.

Актуальность для SEO

Высокая. Хотя методы извлечения данных и NLP значительно продвинулись с момента подачи патента (2004 год), описанные в нем принципы являются фундаментальными для систем агрегации отзывов, включая Google Shopping, Local Search (Maps) и Rich Snippets в основном поиске. Автоматическое связывание отзывов с конкретными товарами (кластеризация) и извлечение ключевых аспектов (frequently appearing phrases) остаются критически важными задачами.

Важность для SEO

Патент имеет высокое значение для SEO (8/10), особенно в e-commerce и на сайтах-отзовиках. Он раскрывает инфраструктуру, с помощью которой Google собирает и интерпретирует отзывы для формирования расширенных результатов поиска (Rich Snippets) и страниц товаров в вертикалях. Понимание процессов извлечения и кластеризации критически важно для оптимизации структуры страниц и разметки, чтобы гарантировать корректное распознавание отзывов и их привязку к нужным продуктам.

Термины и определения

Aggregated Review (Агрегированный отзыв): Сводная информация о продукте, сгенерированная на основе множества индивидуальных отзывов. Включает средний рейтинг, общее количество отзывов, распределение рейтингов и frequently appearing phrases.
Clustering (Кластеризация): Процесс идентификации отзывов об одном продукте, даже если они получены из разных источников и используют разные названия. Отзывы об одном продукте формируют Cluster.
ClusterID: Уникальный идентификатор кластера (т.е., идентификатор продукта в базе отзывов).
Frequently Appearing Phrases (Часто встречающиеся фразы): Фразы (униграммы, биграммы, триграммы), которые часто встречаются в отзывах о конкретном продукте. Рассчитываются на основе взвешенного количества вхождений (weighted occurrences) и длины фразы. Отображаются пользователю как предлагаемые поисковые запросы (server-suggested search terms).
Link Parser (Парсер ссылок): Компонент, который определяет, какие ссылки на скачанной странице следует добавить в очередь на сканирование. Используется для селективного сканирования, анализируя URL и анкорный текст.
Product (Продукт): Любой товар, услуга или их комбинация (потребительские товары, фильмы, книги, рестораны, отели и т.д.).
QualityScore (Оценка качества отзыва): Метрика качества индивидуального отзыва, определяемая на основе его длины и энтропии слов (word entropy), которая измеряет разнообразие используемых терминов.
Review Extraction Module (Модуль извлечения отзывов): Система для извлечения структурированных данных (текст, рейтинг, автор, идентификаторы продукта) из скачанных страниц. Включает Review parser.
Selective Crawling (Селективное сканирование): Метод сканирования, при котором краулер следует только по выбранным ссылкам на странице (которые потенциально ведут к страницам с отзывами), а не по всем ссылкам.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод сбора и агрегации отзывов.

Система собирает информацию, содержащую отзывы о множестве продуктов (отзыв определяется как критическая, субъективная оценка человека в электронной форме).
Автоматически извлекает отзывы из собранной информации.
Идентифицирует конкретный продукт, связанный с извлеченным отзывом.
Генерирует агрегированную информацию для каждого продукта.
Сохраняет извлеченные отзывы и агрегированную информацию.
Получает запрос от клиента на агрегированный отзыв и отправляет его в ответ.

Критически важная деталь: Агрегированный отзыв включает список предлагаемых сервером поисковых терминов (server-suggested search terms), которые автоматически выбираются из отзывов о продукте в соответствии с их взвешенными вхождениями (weighted occurrences).

Claim 18 (Независимый пункт): Аналогичен Claim 1, но фокусируется на автоматической генерации frequently appearing phrases как части агрегированной информации.

Зависимые пункты (Claims 2, 5-8): Детализируют процесс сбора информации.

Сбор может включать selective crawling (Claim 2). Источниками могут быть веб-страницы сайтов с отзывами, сайтов о продуктах или сообщения на форумах (Claims 5-8).

Зависимые пункты (Claims 9-13): Детализируют процесс идентификации продукта (кластеризации).

Идентификация может происходить путем связывания уникального номера (например, номера модели или ISBN) в отзыве с продуктом (Claims 9-11). Или путем связывания комбинации бренда и номера модели (Claim 12), или комбинации бренда, номера модели и категории продукта (Claim 13) в отзыве с продуктом.

Где и как применяется

Изобретение описывает полноценную систему для работы с отзывами, затрагивающую несколько этапов поисковой архитектуры.

CRAWLING – Сканирование и Сбор данных
Основное применение. Система использует Crawling Module для сбора данных. Ключевая особенность — Selective Crawling. Link parser анализирует скачанные страницы и определяет, какие ссылки могут вести к отзывам (на основе паттернов в URL или анкорном тексте), и только эти ссылки добавляются в URL queue. Это повышает эффективность сбора релевантных данных.

INDEXING – Индексирование и извлечение признаков
Критически важный этап обработки.

Извлечение (Extraction): Review Extraction Module обрабатывает скачанные страницы, извлекая структурированные данные: текст отзыва, рейтинг, автора, а также идентификаторы продукта (бренд, модель).
Кластеризация (Clustering): Review Aggregating Module определяет, к какому продукту относится отзыв. Используются извлеченные идентификаторы (Бренд, Модель, Категория) или глобальные идентификаторы (ISBN). Отзывы об одном продукте группируются и получают ClusterID.
Агрегация: Вычисляется сводная информация для кластера (Aggregated Review): средний рейтинг, распределение оценок.
Извлечение признаков (Feature Extraction): Вычисляются frequently appearing phrases для кластера и QualityScore для индивидуальных отзывов.
Индексирование: Reviews Indexer создает Reviews Index, который позволяет искать отзывы по терминам, ClusterID или автору.

RANKING / RERANKING – Ранжирование / Переранжирование
Применяется при поиске внутри отзывов. Когда пользователь ищет отзывы (либо все, либо в рамках одного продукта), Review Search Module использует Reviews Index для поиска. Результаты могут быть отсортированы (Reviews sorter) по релевантности запросу, дате или качеству отзыва (QualityScore).

Входные данные (Backend):

Стартовые URL для сканирования (Seed URLs).
Веб-страницы и посты на форумах, загруженные краулером.
Списки известных брендов и категорий продуктов (для помощи в кластеризации).

Выходные данные (Backend -> Frontend):

Reviews Database (индивидуальные и агрегированные отзывы).
Reviews Index.
Product-to-Review Map (связь продуктов с ClusterID).

На что влияет

Конкретные типы контента и ниши: В первую очередь влияет на E-commerce, локальный бизнес (рестораны, отели) и медиа (книги, фильмы). Источниками данных являются сайты-отзовики, интернет-магазины и форумы.
Форматы выдачи: Влияет на отображение отзывов и рейтингов в Google Shopping, Google Maps (Local Search) и Rich Snippets в органическом поиске.

Когда применяется

Сканирование и Индексирование (Backend): Происходит постоянно в фоновом режиме для обновления базы отзывов.
Обработка запроса (Frontend): Активируется в реальном времени, когда пользователь запрашивает информацию о продукте или когда выполняет поиск внутри отзывов на странице агрегированных отзывов.

Пошаговый алгоритм

Процесс А: Сбор и обработка данных (Backend)

Инициализация сканирования: Модуль сканирования получает стартовые URL.
Селективное сканирование:
1. Краулер загружает страницу.
2. Парсер ссылок (Link Parser) анализирует ссылки на странице.
3. Если URL или анкорный текст ссылки соответствует предопределенным паттернам, указывающим на отзывы, ссылка добавляется в очередь сканирования.
Извлечение отзывов: Модуль извлечения обрабатывает загруженные страницы. Парсер отзывов извлекает текст, автора, дату, рейтинг, а также идентификаторы продукта.
Идентификация продукта и Кластеризация:
1. Система пытается идентифицировать продукт по глобальному идентификатору (например, ISBN).
2. Если идентификатор отсутствует, система извлекает/определяет бренд, модель и категорию из названия, текста или URL отзыва.
3. Отзывы кластеризуются: два отзыва относятся к одному продукту (Cluster), если у них совпадает бренд и есть пересечение по номерам моделей и категориям.
4. Каждому отзыву присваивается ClusterID.
Расчет метрик качества: Для каждого отзыва рассчитывается QualityScore на основе длины и энтропии слов.
Агрегация данных: Для каждого кластера (продукта):
1. Вычисляется средний рейтинг (возможно, с взвешиванием по источнику).
2. Определяется распределение рейтингов.
3. Вычисляются frequently appearing phrases (см. Процесс Б).
Индексирование: Данные сохраняются в базе данных и индексируются.

Процесс Б: Вычисление Frequently Appearing Phrases (Backend)

Извлечение фраз: Из всех отзывов о продукте извлекаются фразы (до триграмм), не пересекающие границы предложений.
Фильтрация: Игнорируются стоп-слова и слова из названия продукта.
Взвешивание: Подсчитывается количество взвешенных вхождений. Вхождения в заголовке или сводке отзыва получают больший вес.
Скоринг: Каждой фразе присваивается оценка по формуле: Длина фразы * Квадратный корень из суммы взвешенных вхождений.
Выбор: Выбирается предопределенное количество фраз (например, Топ-10) с наивысшими оценками, которые не перекрывают друг друга.

Процесс В: Обработка запроса пользователя (Frontend)

Получение запроса: Фронтенд-сервер получает запрос на агрегированный отзыв или поиск внутри отзывов.
Поиск информации: Система использует Product-to-Review Map для поиска ClusterID и обращается к индексу отзывов. При поиске внутри отзывов поиск ограничивается нужным ClusterID.
Сортировка и форматирование: Модуль представления сортирует отзывы (по релевантности, дате, качеству) и форматирует результаты.
Отправка ответа: Сформированная страница отправляется пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст отзыва (Content), заголовок отзыва (Title), резюме отзыва (Summary). Заголовки и резюме имеют больший вес при расчете частотных фраз. Название продукта используется для кластеризации.
Технические факторы: URL страницы с отзывом используется для идентификации источника (Publisher) и может использоваться для определения бренда. URL и анкорный текст ссылок используются для принятия решений при селективном сканировании.
Временные факторы: Дата отзыва (Date) используется для сортировки.
Структурные факторы (Идентификаторы продукта): Бренд (Brand name), Номер модели (Model number), Категория продукта (Product category), ISBN. Извлекаются из контента или структуры страницы и критически важны для кластеризации.
Пользовательские факторы (Данные об авторах): Автор отзыва (Author) и тип отзыва (Review Type: editorial или user) извлекаются и используются для классификации.
Рейтинги: Оценка продукта рецензентом (Rating) извлекается и нормализуется.

Какие метрики используются и как они считаются

Average Rating (Средний рейтинг): Среднее значение нормализованных рейтингов. Может быть взвешенным. Формула для взвешенного среднего: $\text{Average Rating} = \frac{\sum a_i \cdot \text{rating}_i}{\sum a_i}$ , где $a_i$ — вес отзыва i. Веса могут зависеть от источника или предпочтений пользователя.
QualityScore (Оценка качества отзыва): Метрика для ранжирования отзывов, основанная на длине отзыва (Review-Length) и энтропии слов (Review-per-word-entropy). В одном из вариантов сортировки по релевантности (качеству) используется формула: $\text{Review-per-word-entropy} \times \sqrt{\text{Review-Length}}$ .
Score for Frequently Appearing Phrases (Оценка для часто встречающихся фраз): Метрика для выбора ключевых фраз о продукте. Вхождения в заголовке или резюме отзыва получают больший вес. Формула расчета оценки: $\text{Length of the phrase} \times \sqrt{\text{Sum of weighted occurrences}}$ . Выбирается Топ-N непересекающихся фраз с наивысшей оценкой.

Селективное сканирование для специализированных задач: Google использует не только общий краулинг, но и специализированные методы (Selective Crawling) для сбора конкретных типов данных (отзывов). Система целенаправленно ищет отзывы, анализируя паттерны URL и анкорный текст, оптимизируя ресурсы.
Автоматическая кластеризация отзывов критична: Ключевой элемент системы — способность автоматически связывать отзывы из разных источников с одним и тем же продуктом (Clustering). Это основа для создания агрегированных рейтингов и Rich Snippets.
Методы кластеризации при отсутствии глобальных идентификаторов: Если глобальные идентификаторы (ISBN, GTIN) отсутствуют, система полагается на извлечение и сопоставление триады: Бренд + Номер модели + Категория. Точность этой информации в контенте критически важна для SEO.
Извлечение ключевых тем из отзывов (Frequent Phrases): Патент описывает конкретный механизм для определения того, что чаще всего обсуждается в отзывах о продукте. Система вычисляет frequently appearing phrases, используя взвешенную формулу, отдавая предпочтение вхождениям в заголовках.
Оценка качества индивидуальных отзывов (QualityScore): Система оценивает качество отзывов на основе объективных метрик: длины и энтропии слов (разнообразия лексики). Это указывает на стремление системы отдавать предпочтение подробным и информативным отзывам.

Best practices (это мы делаем)

Обеспечение чистоты и доступности идентификаторов продукта: Критически важно для корректной кластеризации. Убедитесь, что Бренд, Номер модели (MPN) и Категория продукта четко указаны на странице товара и в микроразметке (Product). Всегда используйте глобальные идентификаторы (GTIN, ISBN), если они доступны.
Структурирование страниц для облегчения извлечения отзывов: Используйте семантическую верстку и микроразметку (Review, AggregateRating) для явного указания текста отзыва, рейтинга, автора и даты. Это помогает Review Extraction Module корректно извлечь данные и снижает вероятность ошибок парсинга.
Стимулирование качественных и развернутых отзывов: Так как QualityScore учитывает длину и разнообразие лексики (энтропию), следует поощрять пользователей оставлять подробные, информативные отзывы. Отзывы с большей длиной и высокой энтропией считаются более качественными.
Использование информативных заголовков для отзывов: Если на вашем сайте пользователи могут давать заголовок своему отзыву, это следует использовать. Вхождения ключевых фраз в заголовках имеют больший вес при расчете frequently appearing phrases.
Оптимизация под "частотные фразы": Анализируйте, какие характеристики и фразы часто встречаются в отзывах о ваших товарах. Убедитесь, что эти аспекты освещены в вашем основном контенте, так как Google может использовать их для понимания ключевых характеристик продукта (Product Aspects).

Worst practices (это делать не надо)

Скрытие отзывов или идентификаторов продукта с помощью скриптов: Если контент сложно извлечь во время сканирования и рендеринга, система не сможет его обработать. Это препятствует работе Crawling Module и Review Extraction Module.
Неоднозначные названия продуктов и отсутствие номеров моделей: Использование запутанных названий без четкого указания бренда и модели затрудняет кластеризацию. Система может не связать отзыв с продуктом или создать дубликат продукта в своей базе.
Генерация фейковых или шаблонных отзывов: Отзывы с низкой энтропией слов (одинаковые слова, шаблонные фразы) получат низкий QualityScore и будут иметь меньший вес или игнорироваться.
Непоследовательное наименование продуктов: Использование разных названий или номеров моделей для одного и того же продукта на разных страницах или в разных фидах нарушает процесс кластеризации.

Стратегическое значение

Этот патент подтверждает стратегическую важность отзывов как источника данных о продуктах для Google. Система, описанная в патенте, лежит в основе функционала Google Shopping, Local Search и Rich Snippets в органическом поиске. Для SEO-стратегии это означает, что работа с отзывами является критически важным элементом для обеспечения видимости продукта в поиске. Корректная техническая имплементация данных о продуктах и отзывах на сайте напрямую влияет на то, как Google сможет их собрать, агрегировать и использовать.

Практические примеры

Сценарий 1: Оптимизация кластеризации для интернет-магазина

Проблема: Магазин продает сканер "Canon CanoScan LiDE 30 Color Scanner". Отзывы о нем не появляются в Rich Snippets или агрегируются некорректно.
Анализ по патенту: Система кластеризации требует точного совпадения бренда и пересечения по модели и категории. Возможно, информация на сайте неоднозначна.
Действия:
1. Проверить, что на странице товара и в микроразметке Product четко указаны: Brand="Canon", Model/MPN="LiDE 30" (и альтернативный код "7890A002", упомянутый в патенте).
2. Убедиться, что категория ("Scanner") явно указана в хлебных крошках и разметке.
3. Проверить, что в заголовке страницы (Title) и H1 присутствует консистентное наименование, включающее ключевые идентификаторы.
Ожидаемый результат: Review Aggregating Module сможет корректно извлечь идентификаторы и связать отзывы на сайте с глобальным кластером этого продукта в базе Google.

Сценарий 2: Улучшение качества отображаемых отзывов

Проблема: При отображении отзывов о товаре в системах Google в первую очередь показываются короткие, малоинформативные отзывы.
Анализ по патенту: Система использует QualityScore (длина * энтропия) для сортировки отзывов по релевантности/качеству.
Действия:
1. Внедрить систему мотивации для покупателей оставлять развернутые отзывы (например, бонусы за отзывы с описанием опыта использования и упоминанием конкретных характеристик).
2. Добавить возможность для пользователей указывать информативный заголовок отзыва.
Ожидаемый результат: Новые отзывы получат более высокий QualityScore, что повысит вероятность их отображения в приоритетном порядке в агрегированных результатах.

Что такое "селективное сканирование" (Selective Crawling) в контексте этого патента и чем оно отличается от обычного?

Селективное сканирование — это целенаправленный обход сайтов для поиска конкретного типа контента, в данном случае — отзывов. В отличие от обычного краулинга, который старается обойти максимальное количество страниц, селективный краулер использует Link Parser для анализа URL и анкорного текста ссылок. В очередь на сканирование добавляются только те ссылки, которые соответствуют предопределенным паттернам и с высокой вероятностью ведут на страницы с отзывами.

Как система определяет, что отзывы с разных сайтов относятся к одному и тому же товару?

Этот процесс называется кластеризацией (Clustering). Сначала система пытается использовать глобальные идентификаторы, такие как ISBN (GTIN). Если их нет, она извлекает из отзыва или страницы три ключевых элемента: Бренд, Номер модели и Категорию. Отзывы считаются относящимися к одному продукту, если у них точно совпадает бренд и есть пересечение по номерам моделей и категориям. Поэтому критически важно указывать эту информацию точно и консистентно.

Что такое "часто встречающиеся фразы" (Frequently Appearing Phrases) и как они рассчитываются?

Это ключевые темы или характеристики продукта, извлеченные из текста отзывов. Система анализирует фразы (до триграмм), исключая стоп-слова. Оценка фразы рассчитывается по формуле: Длина фразы, умноженная на квадратный корень из суммы взвешенных вхождений. При этом вхождениям в заголовке или резюме отзыва придается больший вес. Топ-N таких фраз показываются пользователю как поисковые подсказки.

Как Google оценивает качество индивидуального отзыва согласно патенту?

Патент описывает метрику QualityScore для оценки качества отзыва. Она базируется на двух параметрах: длине отзыва и энтропии слов (word entropy). Энтропия слов измеряет разнообразие лексики в отзыве. Чем длиннее отзыв и чем разнообразнее используемые в нем слова, тем выше его качество. Шаблонные или слишком короткие отзывы получают низкую оценку.

Влияет ли структура моего сайта на то, как Google соберет отзывы?

Да, напрямую. Патент описывает работу Review Extraction Module, который извлекает структурированные данные (рейтинг, текст, автор) со страниц. Чистая и логичная структура страницы, а также использование микроразметки (Schema.org/Review), значительно облегчают системе задачу корректного извлечения и интерпретации ваших отзывов.

Что делать, если у товара нет номера модели или глобального идентификатора?

Патент указывает, что если информацию о бренде или модели невозможно определить, такие отзывы помещаются в собственный отдельный кластер и не объединяются с другими отзывами. Для SEO это означает, что такие отзывы, скорее всего, не будут учитываться в общем рейтинге продукта в поиске. Необходимо стремиться к максимальной идентификации продукта.

Учитывает ли система разницу между отзывами пользователей и экспертов?

Да, патент предусматривает поле Review Type, которое указывает, является ли отзыв редакционным (editorial) или пользовательским (user). При сортировке отзывов по релевантности (качеству) в одном из вариантов реализации редакционные отзывы перечисляются перед пользовательскими, что указывает на их потенциально больший вес или приоритет.

Может ли система извлекать отзывы из форумов?

Да, в патенте явно указано, что информация, содержащая отзывы о продуктах, может включать сообщения на форумах (forum postings). Это означает, что система агрегации не ограничена только структурированными сайтами магазинов или отзовиков, но может анализировать и менее структурированный пользовательский контент (UGC).

Как система обрабатывает разные шкалы рейтингов (например, 1-5 звезд и 1-10 баллов)?

Система извлекает исходный рейтинг (Rating) и затем нормализует его к единой шкале (например, 0-5). Это позволяет сравнивать отзывы из разных источников и рассчитывать корректный средний рейтинг (Average Rating) для продукта. Для SEO важно убедиться, что ваша шкала рейтинга корректно размечена (например, указаны bestRating и worstRating в Schema.org).

Насколько важны заголовки отзывов на моем сайте?

Они имеют повышенное значение. При расчете frequently appearing phrases (ключевых тем о продукте) вхождениям фраз в заголовке (Title) или резюме (Summary) отзыва придается больший вес, чем вхождениям в основном тексте. Информативные заголовки отзывов помогают Google лучше понять ключевые аспекты продукта.

Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

US20120254158A1
2012-10-04

Google Shopping
SERP
Семантика и интент

Как Google автоматически извлекает и анализирует отзывы о компаниях из интернета

Google использует систему для автоматического поиска и анализа отзывов о сущностях (например, компаниях) на веб-страницах. Система идентифицирует информацию о компании (название, адрес), извлекает текст рядом с ней и применяет анализ тональности (Sentiment Analysis), чтобы определить, является ли этот текст отзывом и какова его эмоциональная окраска.

US20150112981A1
2015-04-23

Local SEO
Семантика и интент
EEAT и качество

Как Google использует отзывы для сравнения, фильтрации и ранжирования сущностей в поиске

Патент Google описывает систему, которая позволяет пользователям искать внутри отзывов (UGR) сразу по нескольким сущностям (например, отелям или товарам) и сравнивать их в едином интерфейсе. Система индексирует отзывы как отдельные документы и использует их содержание для обнаружения сущностей, фильтрации результатов основного поиска и в качестве сигналов ранжирования веб-страниц.

US11568004B2
2023-01-31

Индексация
SERP
Семантика и интент

Как Google динамически обогащает сниппеты, ранжируя отзывы, атрибуты и упоминания для обоснования результатов поиска

Google использует фреймворк для обогащения результатов поиска вспомогательной информацией (аннотациями), такой как редакционные упоминания, списки Топ-X, атрибуты товаров и контекстные отзывы. Система использует машинное обучение для оценки и ранжирования этих разнородных данных, чтобы динамически выбрать наиболее полезный дополнительный сниппет. Это позволяет обосновать позицию результата и повысить доверие пользователя.

US12164527B2
2024-12-10

SERP

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу

Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.

US20150310100A1
2015-10-29

Персонализация
Индексация
Поведенческие сигналы

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов

Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.

US20170068720A1
2017-03-09

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google планировал использовать цифровые подписи для расчета репутации авторов (Agent Rank) независимо от сайта публикации

Патент Google, описывающий концепцию "Agent Rank". Система предлагает авторам (агентам) использовать цифровые подписи для подтверждения авторства контента. Это позволяет рассчитывать репутационный рейтинг агента, используя алгоритмы, подобные PageRank, на основе того, кто ссылается на их подписанный контент. Этот рейтинг затем используется для влияния на ранжирование, независимо от того, где контент опубликован.

US7565358B2
2009-07-21

EEAT и качество
Ссылки

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей

Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.

US8498974B1
2013-07-30

Поведенческие сигналы
Мультиязычность
Персонализация

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам