SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ тональности (Sentiment Analysis) для создания сниппетов из отзывов

PHRASE BASED SNIPPET GENERATION (Генерация сниппетов на основе фраз)
  • US8010539B2
  • Google LLC
  • 2008-01-25
  • 2011-08-30
  • SERP
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует запатентованную систему для генерации информативных сниппетов для сущностей, о которых оставляют отзывы (например, рестораны, товары). Система извлекает фразы, выражающие мнение (sentiment phrases), из множества отзывов, оценивает их тональность с учетом специфики домена и выбирает наиболее частотные и разнообразные фразы для формирования сниппета, суммирующего общественное мнение об этой сущности.

Описание

Какую проблему решает

Патент решает проблему генерации качественных и информативных сниппетов для «сущностей, подлежащих отзыву» (Reviewable Entities), таких как рестораны, отели или потребительские товары. Стандартные сниппеты, основанные на ключевых словах или частотности слов, неэффективно суммируют общественное мнение. Цель изобретения — создать сниппет, который представляет собой краткое изложение мнений (сентиментов), выраженных в большом количестве отзывов, при этом обеспечивая разнообразие и читаемость информации.

Что запатентовано

Запатентована система и метод генерации сниппетов для сущностей путем извлечения и анализа «фраз тональности» (Sentiment Phrases) из текстовых отзывов. Система идентифицирует короткие фразы, выражающие мнение (например, «отличная пицца», «ужасное обслуживание»), используя методы NLP и domain-specific sentiment lexicon. Затем она оценивает частоту и тональность этих фраз и использует алгоритм для выбора недублирующегося набора фраз, который формирует итоговый сниппет.

Как это работает

Система работает в несколько этапов:

  • Сбор данных: Собираются структурированные и неструктурированные отзывы о сущности.
  • Извлечение фраз: Тексты отзывов обрабатываются (например, с помощью Part-of-Speech tagging), и из них извлекаются Sentiment Phrases, часто с помощью регулярных выражений (например, Прилагательное+Существительное).
  • Анализ тональности: Для каждой фразы генерируется Sentiment Score (полярность и магнитуда), используя классификатор, обученный специально для домена сущности (например, домен «рестораны»).
  • Оценка частоты: Подсчитывается Phrase Frequency — как часто фраза встречается в отзывах.
  • Выбор фраз и генерация сниппета: Используется алгоритм (например, жадный алгоритм), который выбирает фразы на основе их частоты и/или оценки тональности, одновременно применяя redundancy metric (например, Jaccard overlap) для минимизации дублирования. Выбранные фразы объединяются в сниппет.

Актуальность для SEO

Высокая. Анализ тональности и автоматическое обобщение отзывов критически важны для локального поиска, e-commerce и агрегаторов. Google активно использует подобные методы для генерации сниппетов в Google Maps, карточках товаров и результатах поиска, чтобы дать пользователям быстрое представление об атрибутах и качестве сущности. Методы, описанные в патенте, лежат в основе современных систем NLP для анализа мнений.

Важность для SEO

Патент имеет высокое значение для SEO (8.5/10), особенно в Local SEO и E-commerce. Хотя он описывает генерацию сниппетов (представление результата), а не ранжирование, он раскрывает, как именно Google анализирует и интерпретирует контент отзывов. Понимание механизмов извлечения Sentiment Phrases позволяет оптимизировать стратегию работы с отзывами (ORM), чтобы повлиять на то, какие атрибуты и какая тональность будут ассоциироваться с сущностью в результатах поиска. Это напрямую влияет на CTR и восприятие бренда.

Детальный разбор

Термины и определения

Domain (Домен)
Определенная сфера деятельности или тематика (например, рестораны, электроника, фильмы). Используется для адаптации анализа тональности к специфике языка в этой сфере.
Domain-Independent Sentiment Lexicon (Доменно-независимый лексикон тональности)
Набор n-грамм (слов/фраз), которые выражают тональность в общем, неспецифическом контексте. Используется как отправная точка для создания доменно-специфичного лексикона.
Domain-Specific Sentiment Lexicon (Доменно-специфичный лексикон тональности)
Набор n-грамм, которые выражают тональность в конкретном домене. Содержит оценки тональности для каждой n-граммы, полученные в результате обучения модели.
Entity Snippet (Сниппет сущности)
Итоговый сниппет, сгенерированный для сущности, состоящий из набора выбранных Sentiment Phrases.
Noun Phrase (Именная группа)
Слово или группа слов, функционирующая как существительное во фразе (например, «пицца» или «действительно отличная пицца»). Является объектом (атрибутом сущности), к которому относится мнение.
Part-of-Speech (POS) Tagging (Разметка частей речи)
Процесс маркировки слов в тексте в соответствии с их частью речи (существительное, глагол, прилагательное и т.д.). Используется для идентификации структуры Sentiment Phrases.
Phrase Frequency (Частота фразы)
Метрика, показывающая, сколько раз Sentiment Phrase встречается в отзывах, связанных с сущностью. Используется при выборе фраз для сниппета.
Redundancy Metric (Метрика избыточности)
Метрика для оценки схожести между двумя фразами (например, Jaccard overlap). Используется для обеспечения разнообразия фраз в сниппете и исключения дублей.
Reviewable Entity (Сущность, подлежащая отзыву)
Любой человек, место или вещь, о которых может быть выражено мнение (рестораны, отели, товары и т.д.).
Sentiment Phrase (Фраза тональности)
Короткая, легко читаемая фраза, извлеченная из отзыва, которая содержит мнение о сущности (например, «отличная обстановка», «чистые номера»).
Sentiment Score (Оценка тональности)
Числовое значение, представляющее полярность (положительная/отрицательная) и магнитуду (силу) мнения, выраженного во фразе (например, шкала от -5 до +5).
Textual Review (Текстовый отзыв)
Тело текста, идентифицированное как отзыв о сущности. Может быть частью структурированного (с рейтингом) или неструктурированного (блоги, статьи) отзыва.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации сниппета для сущности.

  1. Выбор множества текстовых отзывов, связанных с сущностью.
  2. Идентификация множества Sentiment Phrases из этих отзывов. Эта идентификация основана на domain-specific sentiment lexicon, который включает фразы, извлеченные из документов, специфичных для домена.
  3. Определение значений частоты (frequency values) для идентифицированных фраз, где каждое значение представляет количество раз, когда фраза была идентифицирована в отзывах.
  4. Выбор одной или нескольких Sentiment Phrases из идентифицированного множества на основе сгенерированных значений частоты.
  5. Генерация сниппета, включающего выбранные фразы.
  6. Сохранение сниппета.

Claim 4 (Зависимый от 1): Уточняет структуру Sentiment Phrase.

Идентификация Sentiment Phrases включает идентификацию noun phrase, соответствующей свойству (атрибуту) сущности, и прилагательного (adjective), связанного с этой noun phrase.

Claim 5 (Зависимый от 4): Уточняет метод идентификации.

Идентификация noun phrase и прилагательного включает определение соответствия между регулярным выражением (regular expression) и текстовым отзывом.

Claim 8 (Зависимый от 1): Добавляет Sentiment Score в процесс выбора.

Выбор фраз для сниппета основывается не только на частоте (как указано в Claim 1), но также и на Sentiment Scores, сгенерированных для каждой фразы.

Claim 9 (Зависимый от 1): Добавляет механизм устранения дублирования.

Выбор фраз включает генерацию redundancy metric, основанной на количестве общих токенов между двумя фразами, и выбор фраз на основе этой метрики.

Claim 11 (Зависимый от 1): Описывает процесс создания лексикона.

Метод включает разработку domain-specific sentiment lexicon на основе domain-independent lexicon.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, в основном фокусируясь на обработке данных о сущностях и формировании финального представления результатов.

CRAWLING – Сканирование и Сбор данных
Система собирает данные (Textual Reviews) из различных источников: структурированные сайты отзывов (TripAdvisor, Yelp) и неструктурированные источники (блоги, новостные группы, веб-страницы).

INDEXING – Индексирование и извлечение признаков
Основная часть работы происходит на этом этапе (или в аналогичном процессе обработки данных о сущностях):

  1. NLP обработка: Текстовые отзывы токенизируются и подвергаются POS tagging.
  2. Извлечение признаков (Feature Extraction): Система извлекает Sentiment Phrases, используя NLP-техники и регулярные выражения.
  3. Анализ тональности: Вычисляются Sentiment Scores с использованием доменно-специфичных классификаторов. Это включает офлайн-процесс создания Domain-Specific Sentiment Lexicons.
  4. Агрегация данных: Подсчитываются Phrase Frequencies для каждой сущности.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На этапе формирования выдачи (SERP) система генерирует или извлекает сохраненный Entity Snippet.

  1. Генерация сниппета: Происходит выбор лучших Sentiment Phrases с учетом частоты, оценки и метрик избыточности.
  2. Отображение: Сниппет отображается вместе с результатом поиска, связанным с сущностью (например, в локальной выдаче или карточке товара).

Входные данные:

  • Textual Reviews (структурированные и неструктурированные).
  • Domain-independent sentiment lexicon (например, на основе WordNet).
  • Корпусы доменно-специфичных документов для обучения.

Выходные данные:

  • Domain-Specific Sentiment Lexicon с оценками n-грамм.
  • База данных Sentiment Phrases с Sentiment Scores и Phrase Frequencies для каждой сущности.
  • Entity Snippets (итоговый текст сниппета).

На что влияет

  • Конкретные типы контента: В первую очередь влияет на представление сущностей, имеющих отзывы: локальный бизнес (рестораны, отели), потребительские товары (электроника, книги), медиа (фильмы).
  • Специфические запросы: Влияет на запросы, где интент пользователя связан с поиском мнений или оценок (например, «отзывы о ресторане X», «лучший отель в Y»), а также на брендовые или продуктовые запросы, для которых доступны отзывы.
  • Конкретные ниши или тематики: Наибольшее влияние в высококонкурентных нишах E-commerce и Local SEO.

Когда применяется

  • Условия применения: Алгоритм применяется, когда система идентифицирует сущность как Reviewable Entity и имеет достаточное количество Textual Reviews для анализа.
  • Триггеры активации: Активируется при обработке отзывов (индексация) и при формировании сниппета для результата поиска, связанного с этой сущностью.

Пошаговый алгоритм

Патент описывает два ключевых процесса: (А) Генерация доменно-специфичного классификатора тональности и (Б) Генерация сниппета.

Процесс А: Создание доменно-специфичного классификатора (Офлайн)

  1. Создание базового лексикона: Формируется Domain-Independent Sentiment Lexicon (например, вручную из WordNet с расширением через синонимы/антонимы).
  2. Предварительная оценка документов: Документы из доменно-специфичного корпуса оцениваются с помощью базового лексикона.
  3. Изоляция высокосентиментальных документов: Документы с очень высокими (позитивными) и очень низкими (негативными) оценками изолируются.
  4. Извлечение и фильтрация N-грамм: Из этих документов извлекаются n-граммы. Удаляются стоп-слова и слишком частые фразы. Оставшиеся n-граммы формируют основу Domain-Specific Sentiment Lexicon.
  5. Подготовка обучающего корпуса: Формируется обучающий корпус из документов с известными оценками (например, отзывы с сайтов типа Amazon или автоматически размеченные документы из шага 3).
  6. Обучение модели и оценка N-грамм: Строится модель (например, Maximum Entropy), использующая n-граммы из доменно-специфичного лексикона как признаки. Модель обучается на корпусе для определения точных Sentiment Scores для каждой n-граммы.
  7. Сохранение классификатора: Лексикон с обновленными оценками сохраняется как доменно-специфичный классификатор.

Процесс Б: Генерация сниппета (Индексация/Ранжирование)

  1. Обработка отзывов: Получение Textual Reviews для сущности. Применение POS tagging к тексту.
  2. Идентификация фраз: Извлечение Sentiment Phrases на основе шаблонов (регулярных выражений), например: Adjective+Noun, Adverb+Adjective+Noun и т.д. Идентификация Noun Phrase для каждой фразы.
  3. Генерация оценок тональности: Применение доменно-специфичного классификатора (из Процесса А) для генерации Sentiment Score для каждой фразы.
  4. Подсчет частоты: Энумерация Phrase Frequency для каждой уникальной фразы. Может применяться функция затухания (decay function) для слишком частых фраз.
  5. Хранение данных: Сохранение фраз, оценок и частот в базе данных.
  6. Выбор фраз (Selection):
    1. (Опционально) Группировка (Binning): Фразы с одинаковой Noun Phrase (и, возможно, одинаковой полярностью) группируются. Выбирается репрезентативная фраза (например, с наивысшей частотой).
    2. Выбор кандидата: Выбирается необработанная фраза (или репрезентативная фраза группы) с наивысшим скорингом (на основе частоты и/или Sentiment Score).
    3. Проверка избыточности: Кандидат сравнивается с уже выбранными фразами с помощью Redundancy Metric (например, Jaccard overlap).
    4. Принятие решения: Если избыточность ниже порога (например, 0.5), фраза добавляется в набор для сниппета.
    5. Итерация: Процесс повторяется до достижения критерия остановки (например, максимальной длины сниппета или количества фраз).
  7. Формирование и сохранение сниппета: Выбранные фразы объединяются в итоговый текст Entity Snippet и сохраняются.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Основной источник данных — текст Textual Reviews. Система анализирует слова (n-граммы), их части речи (POS tags), и структуру фраз. Особое внимание уделяется прилагательным (Adjectives), наречиям (Adverbs) и существительным (Nouns).
  • Структурные факторы: Используется структура предложений для извлечения фраз с помощью регулярных выражений. Также учитывается локация фразы в документе (начало/конец документа могут иметь больший вес при оценке тональности).
  • Пользовательские данные (Косвенно): Рейтинги, оставленные пользователями в структурированных отзывах (например, 4 из 5 звезд), используются для создания обучающего корпуса (training corpus) при разработке классификатора тональности.

Какие метрики используются и как они считаются

  • Sentiment Score (Оценка тональности): Определяет полярность и магнитуду. Рассчитывается с помощью обученной модели (например, Maximum Entropy) на основе признаков (n-грамм) в Domain-Specific Sentiment Lexicon. При расчете могут учитываться факторы: базовая оценка n-граммы в лексиконе, часть речи, детекция отрицания (negation detection), локация в документе, стемминг.
  • Phrase Frequency (Частота фразы): Количество упоминаний фразы в отзывах. В одном из вариантов используется функция затухания: (Frequency)∗(1+log(# of Reviews the Phrase occurs in))(Frequency) * (1 + log(\text{# of Reviews the Phrase occurs in}))(Frequency)∗(1+log(# of Reviews the Phrase occurs in)).
  • Redundancy Metric (Jaccard overlap): Измеряет схожесть фраз. Формула: (Количество общих токенов между двумя фразами) / (Количество уникальных токенов в обеих фразах). Используется порог (например, 0.5) для исключения слишком похожих фраз.
  • Inverse Document Frequency (IDF) (Опционально): Упоминается как возможная метрика для выбора фраз с большей информационной ценностью (менее распространенные в глобальном индексе).

Выводы

  1. Google глубоко анализирует структуру мнений: Патент демонстрирует, что Google не просто ищет ключевые слова в отзывах, а использует сложный NLP-процесс (POS tagging, регулярные выражения) для извлечения конкретных атрибутов (Noun Phrases) и связанных с ними мнений (Adjectives/Adverbs). Это форма Aspect-Based Sentiment Analysis.
  2. Частота мнений критична: Phrase Frequency является основным фактором при выборе того, что попадет в сниппет (Claim 1). Чтобы атрибут был выделен Google, о нем должно говорить значительное количество людей.
  3. Тональность зависит от контекста домена: Система использует Domain-Specific Sentiment Lexicons. Это означает, что одно и то же слово может иметь разную тональность в разных доменах (например, слово «дешевый» может быть позитивным для закусочной и негативным для люксового отеля). Google строит отдельные классификаторы для разных тематик.
  4. Структура фраз имеет значение: Система ищет определенные лингвистические шаблоны (например, Прилагательное+Существительное). Отзывы, написанные с использованием таких четких конструкций, с большей вероятностью будут обработаны и учтены.
  5. Разнообразие в приоритете: Использование Redundancy Metric (Jaccard overlap) гарантирует, что сниппет будет содержать разные аспекты мнений, а не повторять одно и то же разными словами.
  6. Автоматизация и масштабируемость: Процесс создания лексиконов и генерации сниппетов максимально автоматизирован, включая возможность автоматического создания обучающих корпусов на основе существующих доменно-независимых лексиконов.

Практика

Best practices (это мы делаем)

  • Фокус на атрибутах сущности (Entity Attributes): Определите ключевые атрибуты вашего продукта или услуги (например, для ресторана: «еда», «обслуживание», «атмосфера», «цена»). Убедитесь, что эти атрибуты явно упоминаются как в контенте вашего сайта, так и в отзывах клиентов. Это помогает Google идентифицировать релевантные Noun Phrases.
  • Стимулирование естественных и структурированных отзывов: Поощряйте клиентов оставлять подробные отзывы, которые используют четкие конструкции «Прилагательное + Существительное» (например, «вкусный кофе», «быстрая доставка»). Чем больше таких фраз в отзывах, тем выше их Phrase Frequency и вероятность попадания в сниппет.
  • Мониторинг тональности по атрибутам: Анализируйте отзывы, чтобы понять, какие Sentiment Phrases ассоциируются с вашим брендом. Если доминируют негативные фразы по ключевому атрибуту, необходимо работать над улучшением продукта/услуги и стимулировать новые позитивные отзывы по этому же атрибуту, чтобы изменить Phrase Frequency.
  • Использование языка, специфичного для домена: При создании контента используйте терминологию и обороты, характерные для вашей ниши. Понимание того, как Google строит Domain-Specific Lexicons, подчеркивает важность использования релевантного языка для точной классификации тональности вашего контента.
  • Разнообразие в контенте и отзывах: Работайте над тем, чтобы отзывы охватывали разные аспекты вашего бизнеса. Так как Redundancy Metric отфильтрует дублирующую информацию, важно обеспечить разнообразие мнений.

Worst practices (это делать не надо)

  • Накрутка отзывов с одинаковым текстом: Использование шаблонных, повторяющихся отзывов неэффективно. Хотя это может временно повысить Phrase Frequency, система стремится к разнообразию (используя Redundancy Metric и Binning), и такие манипуляции легко обнаруживаются системами антиспама.
  • Игнорирование негативных отзывов: Негативные отзывы напрямую влияют на генерируемые сниппеты. Если частота негативных Sentiment Phrases высока, они попадут в сниппет. Необходимо управлять репутацией и реагировать на проблемы.
  • Фокус только на рейтинге (звездах), а не на тексте: Высокий средний рейтинг не гарантирует хорошего сниппета, если текстовые отзывы скудны или плохо структурированы. Система анализирует именно текст для извлечения Sentiment Phrases.
  • Использование сложного или двусмысленного языка: В контенте и (насколько это возможно) в отзывах следует избегать сарказма, иронии или сложных конструкций, которые могут быть неправильно интерпретированы классификатором тональности или не соответствовать шаблонам извлечения фраз.

Стратегическое значение

Патент подтверждает стратегическую важность управления репутацией (ORM/SERM) и анализа отзывов как неотъемлемой части SEO. Он показывает, что Google стремится понимать сущности на уровне их атрибутов и общественного мнения о них. Для SEO-стратегии это означает переход от оптимизации страниц к оптимизации сущностей и их восприятия в экосистеме поиска. Долгосрочный успех зависит от качества продукта/услуги, которое конвертируется в позитивные и частотные Sentiment Phrases в сети.

Практические примеры

Сценарий: Оптимизация сниппета для локальной кофейни

  1. Анализ текущих отзывов: SEO-специалист анализирует отзывы о кофейне и видит частые упоминания «burnt espresso» (негатив) и «friendly staff» (позитив), но мало упоминаний о выпечке.
  2. Действия по улучшению продукта: Информация о «burnt espresso» передается владельцу для корректировки процесса приготовления кофе.
  3. Действия по стимулированию отзывов: Запускается акция, поощряющая клиентов оставлять отзывы с упоминанием новой выпечки (например, «пробовали новый круассан?»).
  4. Ожидаемый результат:
    1. Частота упоминаний «burnt espresso» снижается, появляются фразы «improved espresso» или «great latte».
    2. Появляется новая частотная Sentiment Phrase, например, «amazing croissants».
    3. Система генерации сниппетов выбирает наиболее частотные и разнообразные фразы. Новый сниппет в локальной выдаче будет: «friendly staff, amazing croissants, great latte».

Вопросы и ответы

Влияет ли этот патент на ранжирование напрямую?

Нет, патент описывает метод генерации сниппетов, то есть то, как результат будет представлен пользователю на странице выдачи (SERP). Однако он косвенно влияет на SEO. Информативные и позитивные сниппеты значительно повышают кликабельность (CTR) результата. Высокий CTR, в свою очередь, является позитивным поведенческим сигналом для алгоритмов ранжирования Google.

Что такое «Domain-Specific Sentiment Lexicon» и почему это важно?

Это словарь слов и фраз (n-грамм), которые выражают мнение в конкретной тематике (домене), например, в «ресторанах» или «электронике». Это важно, потому что значение слов может меняться в зависимости от контекста. Система Google обучается понимать эти нюансы для каждого домена отдельно, что делает анализ тональности гораздо более точным, чем при использовании общего словаря.

Как система определяет, какие фразы извлечь из отзыва?

Система использует обработку естественного языка (NLP), в частности, разметку частей речи (POS tagging). Затем она применяет набор шаблонов (регулярных выражений) для поиска определенных грамматических конструкций. Наиболее частые шаблоны, упомянутые в патенте, это «Прилагательное + Существительное» (например, «хороший сервис») и «Наречие + Прилагательное + Существительное» (например, «действительно хороший сервис»).

Что важнее для попадания в сниппет: частота фразы или ее тональность?

Согласно Claim 1, выбор фраз в первую очередь основан на значениях частоты (Phrase Frequency). Однако в зависимых пунктах (Claim 8) добавляется, что Sentiment Score также используется при выборе. На практике это означает, что система стремится выбрать наиболее часто упоминаемые мнения, но может также приоритизировать фразы с более сильной выраженной тональностью (очень позитивные или очень негативные).

Как система борется с дублированием информации в сниппете?

Система использует Redundancy Metric, например, Jaccard overlap. При выборе новой фразы для сниппета она сравнивает ее с уже выбранными фразами. Если у них слишком много общих слов (пересечение выше определенного порога, например, 0.5), новая фраза считается избыточной и отклоняется. Также может использоваться группировка (binning) по именной группе. Это гарантирует разнообразие атрибутов в сниппете.

Откуда Google берет отзывы для этого анализа?

Патент упоминает как структурированные, так и неструктурированные отзывы. Структурированные отзывы берутся с известных сайтов отзывов (таких как TripAdvisor, Yelp, Amazon), где есть четкий формат и рейтинги. Неструктурированные отзывы — это упоминания и мнения, найденные в блогах, на веб-страницах, в новостных группах и других текстовых документах в интернете.

Как SEO-специалист может повлиять на генерируемые сниппеты?

Ключевой способ влияния — это работа с отзывами (ORM). Необходимо стимулировать клиентов оставлять подробные отзывы, которые явно описывают атрибуты продукта или услуги, используя четкие фразы (Прилагательное+Существительное). Чем выше частота (Phrase Frequency) позитивных фраз о ключевых атрибутах, тем выше вероятность их появления в сниппете.

Может ли этот механизм использоваться для анализа контента на моем собственном сайте?

Да. Хотя патент фокусируется на отзывах пользователей, описанные методы анализа тональности и извлечения фраз могут применяться к любому тексту, включая описания продуктов или статьи на вашем сайте. Это подчеркивает важность использования четкого, описательного языка и релевантной терминологии для вашей ниши (домена) при создании контента.

Учитывает ли система, кто оставил отзыв (например, эксперт или новичок)?

Патент не детализирует учет авторитетности автора отзыва при генерации сниппета. Однако он упоминает, что при анализе неструктурированных отзывов может рассчитываться вероятность того, что отзыв содержит мнение (P(sentiment)), и это может быть функцией источника или автора отзыва. Тем не менее, основной акцент сделан на частоте фраз в общем массиве отзывов.

Что такое «жадный алгоритм» (greedy algorithm) в контексте выбора фраз?

Это алгоритм, который на каждом шаге делает локально оптимальный выбор. В данном контексте он итеративно выбирает следующую лучшую фразу (на основе частоты/оценки), которая еще не была выбрана и не является избыточной по отношению к уже выбранным. Этот подход позволяет быстро сформировать разнообразный и информативный сниппет.

Похожие патенты

Как Google автоматически извлекает и анализирует отзывы о компаниях из интернета
Google использует систему для автоматического поиска и анализа отзывов о сущностях (например, компаниях) на веб-страницах. Система идентифицирует информацию о компании (название, адрес), извлекает текст рядом с ней и применяет анализ тональности (Sentiment Analysis), чтобы определить, является ли этот текст отзывом и какова его эмоциональная окраска.
  • US20150112981A1
  • 2015-04-23
  • Local SEO

  • Семантика и интент

  • EEAT и качество

Как Google анализирует мнения и общественное восприятие тем в интернете путем кластеризации контента и измерения тональности
Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.
  • US8423551B1
  • 2013-04-16
  • Семантика и интент

Как Google алгоритмически выбирает наиболее информативные фрагменты из отзывов для создания сниппетов
Google анализирует текст отзыва, разбивая его на предложения. Каждое предложение оценивается по длине, позиции в тексте и информационной ценности слов (используя IDF). Система выбирает последовательность предложений с наивысшей совокупной оценкой качества, чтобы сформировать максимально полезный и информативный сниппет.
  • US8010480B2
  • 2011-08-30
  • SERP

Как Google динамически обогащает сниппеты, ранжируя отзывы, атрибуты и упоминания для обоснования результатов поиска
Google использует фреймворк для обогащения результатов поиска вспомогательной информацией (аннотациями), такой как редакционные упоминания, списки Топ-X, атрибуты товаров и контекстные отзывы. Система использует машинное обучение для оценки и ранжирования этих разнородных данных, чтобы динамически выбрать наиболее полезный дополнительный сниппет. Это позволяет обосновать позицию результата и повысить доверие пользователя.
  • US12164527B2
  • 2024-12-10
  • SERP

Как Google использует отзывы пользователей для обнаружения спама и фейковых компаний в локальном поиске (Google Maps)
Google анализирует текст отзывов о компаниях для выявления спама в бизнес-листингах. Система ищет стоп-слова (например, "фейк", "не существует"), выявляет нерелевантные термины для категории бизнеса и сравнивает отзывы с базой известного спама. При превышении порога подозрительных сигналов листинг помечается как спам.
  • US8621623B1
  • 2013-12-31
  • Антиспам

  • Local SEO

  • EEAT и качество

Популярные патенты

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска
Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.
  • US8874594B2
  • 2014-10-28
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу
Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.
  • US20150310100A1
  • 2015-10-29
  • Персонализация

  • Индексация

  • Поведенческие сигналы

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)
Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.
  • US9128993B2
  • 2015-09-08
  • Ссылки

  • SERP

  • Индексация

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.
  • US8996514B1
  • 2015-03-31
  • Техническое SEO

  • Ссылки

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей
Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.
  • US9244972B1
  • 2016-01-26
  • EEAT и качество

  • Семантика и интент

  • SERP

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче
Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.
  • US9424360B2
  • 2016-08-23
  • Local SEO

  • Поведенческие сигналы

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи
Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).
  • US9298777B2
  • 2016-03-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
  • US9569432B1
  • 2017-02-14
  • SERP

  • Поведенческие сигналы

  • Персонализация

seohardcore