Как Google автоматически извлекает и анализирует отзывы о компаниях из интернета

ENTITY REVIEW EXTRACTION (Извлечение отзывов о сущностях)

US20150112981A1
Google LLC
2009-12-14
2015-04-23

Google использует систему для автоматического поиска и анализа отзывов о сущностях (например, компаниях) на веб-страницах. Система идентифицирует информацию о компании (название, адрес), извлекает текст рядом с ней и применяет анализ тональности (Sentiment Analysis), чтобы определить, является ли этот текст отзывом и какова его эмоциональная окраска.

Какую проблему решает

Патент решает задачу автоматического сбора, извлечения и валидации отзывов о сущностях (таких как бизнесы или достопримечательности) из неструктурированных документов (например, веб-страниц, блогов, форумов). Цель — улучшить полноту и качество базы данных отзывов, используемой в локальном поиске, путем фильтрации шума и текстов, которые не выражают мнения.

Что запатентовано

Запатентована система для автоматизированного извлечения и верификации отзывов. Процесс включает идентификацию сущности в документе, извлечение окружающего текста (кандидата в отзывы) и применение анализа тональности (Sentiment Analysis). Ключевым элементом является использование Sentiment Analysis для подтверждения того, что извлеченный текст действительно содержит мнение, путем измерения его эмоциональной окраски (sentiment magnitude).

Как это работает

Система работает в несколько этапов:

Классификация: Classifier анализирует корпус документов и определяет те, которые потенциально содержат отзывы.
Аннотирование: Annotator находит в этих документах идентификаторы сущности (Entity Identifying Information), такие как название, адрес, телефон (NAP).
Извлечение: Extractor извлекает текст, расположенный рядом с идентификаторами сущности, часто используя структуру документа (например, HTML-теги) для определения границ текста.
Анализ тональности: Извлеченные кандидаты обрабатываются модулем Sentiment Analysis. Он вычисляет Sentiment Score на основе слов (n-грамм) и специализированного лексикона.
Валидация и Ассоциация: Если оценка тональности превышает заданный порог, текст признается отзывом и связывается с идентифицированной сущностью.

Актуальность для SEO

Высокая. Отзывы являются критически важным компонентом локального поиска (Local SEO) и одним из сигналов E-E-A-T (репутация). Способность Google агрегировать, понимать и оценивать тональность отзывов из всего интернета (а не только из Google Maps) напрямую влияет на видимость и доверие к локальным бизнесам.

Важность для SEO

Патент имеет высокое значение для Local SEO и управления репутацией (ORM). Он демонстрирует механизмы, с помощью которых Google активно ищет, извлекает и анализирует отзывы на сторонних сайтах, блогах и каталогах. Это подчеркивает стратегическую важность наличия реальных, содержательных отзывов на разнообразных площадках и критическую необходимость поддержания консистентности NAP (Name, Address, Phone) для корректной идентификации бизнеса.

Термины и определения

Annotator (Аннотатор): Процесс, который находит и размечает Entity Identifying Information в документе.
Classifier (Классификатор): Процесс, определяющий, содержит ли документ потенциальные отзывы. Может использовать методы машинного обучения (например, SVM, decision tree) или текстовый анализ.
Entity (Сущность): Объект реального мира, например, бизнес или достопримечательность.
Entity Identifying Information (Идентифицирующая информация о сущности): Данные, позволяющие распознать сущность: название, адрес, телефонный номер (NAP), фотография.
Entity Review (Отзыв о сущности): Мнение о сущности.
Extractor (Экстрактор): Процесс, который извлекает кандидатов в отзывы (review candidates) из аннотированных документов, часто на основе близости к информации о сущности и структуры документа (например, HTML-тегов).
N-gram (N-грамма): Последовательность из n элементов (слов) в тексте.
Review Candidate (Кандидат в отзывы): Фрагмент текста, извлеченный Экстрактором, который потенциально является отзывом.
Self-review (Самоотзыв): Текст, написанный владельцем бизнеса о своем бизнесе (самореклама), который система старается исключить из анализа.
Sentiment Analysis (Анализ тональности): Процесс анализа текста для определения выраженного в нем мнения и его эмоциональной окраски.
Sentiment Lexicon (Лексикон тональности): База данных n-грамм с заранее присвоенными оценками тональности.
Sentiment Magnitude / Sentiment Score (Величина/Оценка тональности): Числовая метрика, отражающая силу и полярность (позитивная/негативная/нейтральная/смешанная) мнения в тексте.

Ключевые утверждения (Анализ Claims)

Анализ основан на Claim 28, так как Claims 1-27 в данном патенте отменены (canceled).

Claim 28 (Независимый пункт): Описывает метод получения отзыва о сущности.

Система получает документ.
Идентифицирует текст в документе, который соответствует текстовому шаблону (text pattern) для сущности (например, адресу или телефону).
Извлекает отзыв о сущности путем извлечения текста, который окружает идентифицированный текст (из шага 2).
Идентифицирует одну или несколько n-грамм в извлеченном отзыве, которые присутствуют в sentiment lexicon (лексиконе тональности). Лексикон содержит множество n-грамм и связанных с ними оценок тональности.
Определяет sentiment score для отзыва как сумму оценок идентифицированных n-грамм из лексикона.
Сохраняет отзыв и его sentiment score в записи для сущности.

Ядром изобретения является процесс, который связывает идентификацию сущности (через шаблоны) с извлечением окружающего текста и последующей валидацией этого текста с помощью анализа тональности на основе n-грамм. Система не просто ищет текст, похожий на отзыв, она проверяет, выражает ли этот текст мнение, суммируя оценки тональности слов (n-грамм), найденных в специализированном лексиконе.

Claim 30 (Зависимый от 28): Уточняет процесс определения sentiment score.

Расчет оценки включает повышение (increasing) оценок для тех n-грамм, которые расположены в начале или в конце отзыва. Это основано на предположении, что начало и конец отзыва часто содержат резюме мнения.

Claim 31 (Зависимый от 28): Уточняет, что метод также включает определение того, что величина (magnitude) sentiment score для отзыва превышает определенный порог.

Это критически важный шаг валидации. Если текст не содержит достаточно выраженного мнения (низкий Sentiment Magnitude), он не будет считаться отзывом, даже если он находится рядом с информацией о сущности.

Где и как применяется

Изобретение в основном применяется на этапе индексирования для извлечения и структурирования данных о репутации сущностей.

CRAWLING – Сканирование и Сбор данных
Сбор сырых данных (веб-страницы, блоги, форумы, KML-файлы, SMS), которые могут содержать отзывы о сущностях.

INDEXING – Индексирование и извлечение признаков (Основное применение)
На этом этапе происходит основная работа алгоритма (Feature Extraction):

Классификация: Документы анализируются Classifier на предмет наличия отзывов.
Аннотирование (Entity Recognition): Annotator идентифицирует сущности (бизнесы) с использованием NAP и других идентификаторов.
Извлечение (Extraction): Extractor извлекает потенциальные отзывы на основе структуры и близости к сущности.
Анализ тональности (Sentiment Analysis): Валидация текста и присвоение Sentiment Score.
Ассоциация: Связывание отзыва с сущностью в базе данных (например, Knowledge Graph или локальный индекс).

RANKING – Ранжирование / METASEARCH – Метапоиск
Данные, извлеченные на этапе индексирования (сами отзывы, их количество и агрегированные Sentiment Scores), используются как сигналы ранжирования в локальном поиске (Local Pack) и для отображения информации в Knowledge Panel или Google Maps.

Входные данные:

Корпус документов (веб-страницы и т.д.).
Sentiment Lexicon (база данных n-грамм с оценками тональности).

Выходные данные:

Структурированная база данных отзывов, связанных с конкретными сущностями, с присвоенными Sentiment Scores.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, содержащий мнения: блоги, форумы, сайты-отзовики, каталоги, новостные статьи с обзорами.
Специфические запросы: Влияет на локальные запросы (например, "ресторан рядом со мной") и запросы, связанные с репутацией ("отзывы о компании X").
Конкретные ниши или тематики: Критически важно для локального бизнеса (рестораны, услуги, ритейл, медицина) и туризма (отели, достопримечательности).

Когда применяется

Триггеры активации: Обнаружение Entity Identifying Information (NAP) в документе, который предварительно классифицирован как потенциально содержащий отзывы.
Условия применения: Алгоритм применяется, если удается извлечь кандидата в отзыв и если Sentiment Magnitude этого кандидата превышает заданный порог. Это позволяет отфильтровать тексты, не выражающие мнения (например, простое описание услуг).

Пошаговый алгоритм

Процесс извлечения и анализа отзывов:

Классификация документов: Получение корпуса документов и использование Classifier для идентификации тех, которые могут содержать отзывы.
Аннотирование сущностей: Использование Annotator для поиска Entity Identifying Information (название, адрес, телефон, изображения). Применяются текстовые шаблоны и, возможно, OCR (оптическое распознавание символов) для текста на изображениях.
Каноникализация и Кластеризация: Приведение информации о сущности к стандартному виду (например, "St." -> "Street") и группировка разных упоминаний одной и той же сущности для корректной ассоциации.
Извлечение кандидатов в отзывы: Использование Extractor для выделения текста, окружающего информацию о сущности. Извлечение базируется на структурных разделителях (например, HTML-тегах), при этом теги форматирования (например, <b>, <font>) внутри отзыва игнорируются. Система также может использовать микроразметку (hReview, hCard).
Фильтрация (Опционально): Исключение Self-reviews. Это определяется, если отзыв найден на официальном (авторитетном) сайте компании или содержит лингвистические маркеры владельца (например, "мы предлагаем").
Анализ тональности (Sentiment Analysis): Обработка кандидатов в отзывы:
1. Идентификация n-грамм в тексте, которые присутствуют в Sentiment Lexicon.
2. Получение оценки тональности для каждой n-граммы из лексикона, учитывая часть речи и доменную специфику.
3. Расчет общего Sentiment Score для кандидата путем суммирования оценок n-грамм. Оценка может корректироваться с учетом отрицаний ("не хорошо") и позиции n-граммы (начало/конец отзыва считаются более важными).
Валидация отзыва: Сравнение Sentiment Magnitude с пороговым значением. Если порог превышен, кандидат принимается как валидный отзыв.
Ассоциация и сохранение: Связывание валидированного отзыва, его Sentiment Score и дополнительной информации (автор, дата, рейтинг в звездах, если найдены) с идентифицированной сущностью в базе данных.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа. Заголовки (используются для идентификации названия отзыва).
Структурные факторы: HTML-теги (используются как разделители для извлечения отзывов). Микроразметка (упоминаются форматы hReview и hCard как источники структурированных данных).
Мультимедиа факторы: Изображения и видео. Могут использоваться для идентификации сущности (через OCR или распознавание объектов) и могут быть ассоциированы с отзывом.
Технические факторы: URL/Домен документа. Используется для атрибуции отзыва и для идентификации Self-reviews на официальных сайтах.
Ссылочные факторы (Упомянуто в описании): Анкорный текст и околоссылочный текст входящих ссылок могут использоваться для идентификации сущности, к которой относится документ.
Поведенческие факторы (Упомянуто в описании): Данные о кликах из поисковой системы (Click information) могут использоваться для связи запроса о сущности с документом, подтверждая, что документ относится к этой сущности.

Какие метрики используются и как они считаются

Sentiment Score (Оценка тональности): Вычисляется как сумма оценок n-грамм, найденных в тексте отзыва и присутствующих в Sentiment Lexicon.
Формула (концептуально):

Отзывы со сторонних ресурсов критически важны: Патент подтверждает, что Google активно собирает, анализирует и структурирует отзывы не только из своих сервисов (Google Maps), но и из всего интернета (блоги, форумы, каталоги, отраслевые сайты).
Валидация через Sentiment Analysis: Система не просто извлекает текст рядом с упоминанием компании. Она использует сложный анализ тональности, чтобы убедиться, что текст действительно выражает мнение. Тексты без явной эмоциональной окраски (низкий Sentiment Magnitude) могут быть отфильтрованы как не являющиеся отзывами.
Идентификация сущности – ключевой этап: Корректное извлечение отзывов напрямую зависит от способности системы точно идентифицировать сущность (Entity Identification). Для этого используется комплексный анализ NAP (Name, Address, Phone), изображений, а также внешних сигналов (входящие ссылки, поведение пользователей).
Структура страницы имеет значение для извлечения: Extractor полагается на HTML-структуру для определения границ отзыва. Чистая, логичная верстка и использование микроразметки помогают системе корректно парсить контент.
Фильтрация саморекламы: Система предпринимает конкретные шаги для идентификации и исключения Self-reviews, анализируя источник контента (официальный сайт) и лингвистические маркеры.

Best practices (это мы делаем)

Обеспечение консистентности NAP (Name, Address, Phone): Это критически важно. Необходимо обеспечить абсолютно одинаковое написание названия, адреса и телефона на сайте компании и на всех сторонних площадках (каталоги, отзовики, социальные сети). Это фундамент для работы Annotator, позволяющий системе корректно идентифицировать бизнес и связать с ним отзывы из разных источников.
Стимулирование содержательных и эмоциональных отзывов: Поощряйте клиентов оставлять развернутые отзывы, которые содержат слова, выражающие мнение. Отзывы с высоким Sentiment Magnitude будут с большей вероятностью извлечены, валидированы и учтены системой.
Активное управление репутацией на сторонних площадках (ORM): Необходимо управлять присутствием компании на релевантных отраслевых и локальных сайтах, где пользователи оставляют отзывы, так как Google агрегирует эти данные для формирования профиля компании.
Использование микроразметки: Внедряйте разметку Schema.org (Review, AggregateRating, LocalBusiness) на своем сайте. Патент прямо упоминает использование структурированных данных (hReview, hCard), что подтверждает важность помощи поисковой системе в интерпретации контента.
Чистая структура контента: При публикации обзоров или отзывов используйте чистую HTML-верстку, где текст отзыва четко отделен от навигации и других элементов страницы, чтобы облегчить работу Extractor.

Worst practices (это делать не надо)

Разнобой в контактных данных: Наличие разных версий адресов, телефонов или названий компании в разных источниках. Это затрудняет идентификацию сущности и приводит к потере релевантных отзывов и фрагментации репутационного профиля.
Публикация саморекламы под видом отзывов: Размещение Self-reviews на официальном сайте или использование выражений от лица владельца ("мы предлагаем лучший сервис"). Такой контент с высокой вероятностью будет идентифицирован и отфильтрован.
Игнорирование сторонних площадок: Фокусировка исключительно на сборе отзывов в Google Maps. Патент доказывает, что Google сканирует весь веб для сбора мнений, и репутация формируется комплексно.

Стратегическое значение

Патент подчеркивает важность концепции E-E-A-T и репутационных сигналов, собираемых из внешних, независимых источников. Для локального SEO это означает, что репутация в интернете (отзывы, упоминания на авторитетных ресурсах) является фундаментальным фактором доверия и видимости. Долгосрочная стратегия должна включать системный мониторинг и улучшение репутации на всех релевантных площадках, а также обеспечение технической базы для корректной идентификации бизнеса (консистентность NAP).

Практические примеры

Сценарий: Улучшение идентификации сущности для Local SEO

Ситуация: У ресторана есть положительные обзоры в нескольких авторитетных кулинарных блогах, но эти данные не агрегируются Google и не влияют на локальную видимость.
Анализ по патенту: Вероятно, Annotator не может однозначно связать обзоры в блогах с сущностью ресторана. Например, в блогах используется неформальное название или устаревший адрес.
Действия SEO-специалиста:
1. Провести аудит всех упоминаний ресторана в интернете (Brand Monitoring).
2. Выявить разночтения в NAP (Name, Address, Phone).
3. Связаться с авторами блогов и владельцами каталогов, предоставив им актуальные, консистентные данные и попросив обновить информацию.
Ожидаемый результат: Annotator и процесс кластеризации смогут корректно идентифицировать сущность. Extractor извлечет отзывы, Sentiment Analysis подтвердит их положительную тональность, и данные будут связаны с профилем ресторана, улучшая его репутационные сигналы.

Учитывает ли Google отзывы, размещенные на моем собственном сайте?

Да, но с оговорками. Система может извлекать отзывы с вашего сайта, если они корректно размечены или структурированы. Однако патент упоминает механизм фильтрации Self-reviews, который анализирует текст на официальных сайтах на предмет саморекламы (например, использование оборотов типа "мы предлагаем"). Рекомендуется использовать микроразметку Schema.org/Review для отзывов клиентов и избегать рекламных формулировок в этом блоке.

Что важнее для SEO в контексте этого патента: количество отзывов или их содержание?

Содержание критически важно для валидации отзыва. Патент описывает Sentiment Analysis, который измеряет Sentiment Magnitude. Если текст не содержит слов, выражающих мнение (даже если он длинный), его оценка тональности будет низкой, и он может быть отфильтрован как не являющийся отзывом. Лучше иметь меньше отзывов, но с четко выраженным мнением.

Как система определяет, к какой компании относится отзыв, если на странице упомянуто несколько?

Система полагается на близость текста отзыва к Entity Identifying Information (название, адрес, телефон). Extractor извлекает текст, который находится рядом с идентификаторами сущности, до того как встретит идентификаторы следующей сущности или структурный разделитель страницы. Логичная структура страницы здесь помогает.

Почему так важна консистентность NAP (Name, Address, Phone) для Local SEO?

Консистентность NAP критична для этапа идентификации и кластеризации сущностей. Если в разных источниках данные разнятся, система может не понять, что речь идет об одной и той же компании, или создать дубликаты. Это мешает Google сформировать полное представление о репутации бизнеса и агрегировать все релевантные отзывы в единый профиль.

Может ли система извлекать отзывы из изображений или видео?

Патент упоминает, что изображения и видео могут быть ассоциированы с отзывом. Также упоминается использование Optical Character Recognition (OCR) для извлечения текста из изображений с целью идентификации сущности. Напрямую извлекать отзывы из аудиодорожки видео патент не описывает, но текст, извлеченный из картинки (например, скриншот отзыва), теоретически может быть обработан системой.

Как работает анализ тональности (Sentiment Analysis), описанный в патенте?

Он основан на лексиконе (Sentiment Lexicon), где словам (n-граммам) заранее присвоены оценки тональности. Система находит эти слова в отзыве и суммирует их оценки для получения общего Sentiment Score. Также учитывается контекст (например, отрицания типа "не хорошо") и доменная специфика (значение слова может меняться в зависимости от тематики).

Влияет ли структура HTML-кода на извлечение отзывов?

Да, влияет значительно. Extractor использует HTML-теги как разделители для определения начала и конца отзыва. При этом теги форматирования (например, <b>, <font>) игнорируются внутри текста отзыва. Чистая и логичная верстка помогает корректному извлечению контента и его интерпретации.

Что такое "доменно-специфический анализ тональности" и как он влияет на SEO?

Это означает, что система понимает нюансы языка в разных нишах. Например, слово "дорогой" может быть негативным для бюджетного кафе, но позитивным или нейтральным для люксового ресторана. Это влияет на то, как Google интерпретирует репутацию бизнеса в его конкретной категории, делая оценку E-E-A-T более точной.

Использует ли система микроразметку для поиска отзывов?

Да. В патенте прямо упоминаются стандарты hReview (для отзывов) и hCard (для контактной информации) как способы предоставления структурированной информации. Это значительно облегчает работу Extractor и гарантирует точность извлечения данных. Использование современного аналога, Schema.org, настоятельно рекомендуется.

Имеет ли значение, где именно в тексте отзыва расположены эмоционально окрашенные слова?

Да. Согласно Claim 30, система может повышать вес (оценку) n-грамм, расположенных в начале или в конце отзыва. Это связано с тем, что в этих частях авторы часто резюмируют свое общее впечатление.

Как Google использует анализ тональности (Sentiment Analysis) для создания сниппетов из отзывов

Google использует запатентованную систему для генерации информативных сниппетов для сущностей, о которых оставляют отзывы (например, рестораны, товары). Система извлекает фразы, выражающие мнение (sentiment phrases), из множества отзывов, оценивает их тональность с учетом специфики домена и выбирает наиболее частотные и разнообразные фразы для формирования сниппета, суммирующего общественное мнение об этой сущности.

US8010539B2
2011-08-30

SERP
Семантика и интент

Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз

Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.

US7962461B2
2011-06-14

Краулинг

Как Google алгоритмически выбирает наиболее информативные фрагменты из отзывов для создания сниппетов

Google анализирует текст отзыва, разбивая его на предложения. Каждое предложение оценивается по длине, позиции в тексте и информационной ценности слов (используя IDF). Система выбирает последовательность предложений с наивысшей совокупной оценкой качества, чтобы сформировать максимально полезный и информативный сниппет.

US8010480B2
2011-08-30

SERP

Как Google анализирует мнения и общественное восприятие тем в интернете путем кластеризации контента и измерения тональности

Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.

US8423551B1
2013-04-16

Семантика и интент

Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

US20120254158A1
2012-10-04

Google Shopping
SERP
Семантика и интент

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя

Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.

US9235626B2
2016-01-12

Персонализация
SERP
Семантика и интент

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей

Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.

US9244972B1
2016-01-26

EEAT и качество
Семантика и интент
SERP