Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

SURFACING UNIQUE FACTS FOR ENTITIES (Выявление уникальных фактов о сущностях)

US11568274B2
Google LLC
2017-07-12
2023-01-31

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

Какую проблему решает

Патент решает проблему ограниченности структурированных баз знаний (Knowledge Base), которые обычно хранят типовые факты (например, дата рождения, население). Цель изобретения — автоматически находить, извлекать и отображать в поиске неструктурированные, уникальные или «интересные» факты о сущностях, которые не смоделированы в базе знаний.

Что запатентовано

Запатентована система для автоматического обнаружения, извлечения, кластеризации, ранжирования и отображения уникальных фактов (Unique Facts) о сущностях из репозитория документов. Система использует специальные «триггеры» для поиска источников контента, применяет NLP-методы для группировки схожих фактов и использует комплексные метрики для выбора наилучшей формулировки и оценки достоверности факта.

Как это работает

Система работает в несколько этапов (преимущественно офлайн):

Обнаружение источников: Идентификация документов, которые вероятно содержат интересные факты. Это делается путем поиска документов, на которые ссылаются (через ссылки или поисковые запросы) с использованием Unique Fact Triggers (например, «fun facts», «did you know»).
Извлечение: Извлечение предложений из центральной части этих документов и идентификация упоминаемых сущностей (создание Entity-Sentence Pairs).
Фильтрация: Удаление «плохих» предложений (требующих контекста), типовых структурированных фактов и проверка Topicality Threshold (сущность должна быть достаточно важна для документа/предложения).
Кластеризация: Группировка предложений, выражающих один и тот же факт, на основе Salient Terms (ключевых слов).
Ранжирование и выбор: Расчет Sentence Score и Cluster Score на основе качества источника (упоминается PageRank), топикальности, «коэффициента интересности» (Fun-Quotient) и уникальности терминов (IDF Score). Выбирается лучшее предложение (Representative Sentence) из каждого кластера.
Отображение (Онлайн): Показ этих фактов в ответ на запрос о сущности, особенно если запрос содержит триггер.

Актуальность для SEO

Высокая. Google активно развивает способы прямого ответа на вопросы и обогащения поисковой выдачи с помощью извлеченной информации (Featured Snippets, Knowledge Panels, блоки «Знаете ли вы?»). Этот патент описывает конкретный механизм для поиска и валидации именно «интересных» и нетривиальных фактов, что является актуальным направлением развития поиска.

Важность для SEO

Влияние на SEO значительно (7.5/10). Патент раскрывает механизм, с помощью которого Google оценивает и извлекает уникальную информацию для отображения в SERP-функциях. Он дает SEO-специалистам понимание того, как оптимизировать контент для извлечения: фокусироваться на уникальности (высокий IDF), ясности формулировок (избегание Bad Sentences) и сигнализировании об «интересности» контента через внешние ссылки и пользовательские запросы.

Термины и определения

Bad Sentence (Плохое предложение): Предложение, которое грамматически некорректно или требует внешнего контекста для понимания (например, содержит неразрешенные местоимения или неоднозначные существительные). Такие предложения не могут быть выбраны для показа, но могут поддерживать факт.
Cluster Score (Оценка кластера): Метрика для ранжирования кластеров фактов. Рассчитывается как комбинация (например, сумма) Sentence Scores предложений в основном и поддерживающем кластерах, исключая дублированный контент.
Entity-Sentence Pair (Пара Сущность-Предложение): Базовая единица данных в системе. Предложение, извлеченное из документа, связанное с сущностью, которая в нем упоминается.
Fun-Quotient (Коэффициент интересности): Метрика для оценки источника. Рассчитывается как доля входящих ссылок и поисковых запросов, ведущих на документ, которые содержат Unique Fact Triggers.
IDF Score (Оценка IDF): Inverse Document Frequency. Используется для оценки уникальности предложения. IDF Score предложения определяется как наивысший IDF среди всех терминов в этом предложении. Предпочтение отдается редким терминам.
Knowledge Base (База знаний): Хранилище структурированных фактов о сущностях (например, Google Knowledge Graph).
Main Cluster (Основной кластер): Группа предложений с эквивалентными наборами Salient Terms. Представляет собой конкретный уникальный факт.
Representative Sentence (Репрезентативное предложение): Предложение из Main Cluster с наивысшим Sentence Score, которое не классифицировано как Bad Sentence. Это лучшая формулировка факта для показа пользователю.
Salient Terms (Значимые термины): Термины в предложении, исключая стоп-слова и упоминание самой сущности. Используются для кластеризации. Термины считаются эквивалентными, если они совпадают после лемматизации, являются синонимами или оба являются числами.
Sentence Score (Оценка предложения): Метрика для ранжирования отдельных предложений. Учитывает топикальность, качество источника, длину предложения, Fun-Quotient и IDF Score.
Supporting Cluster (Поддерживающий кластер): Группа предложений, чей набор Salient Terms является подмножеством набора Salient Terms основного кластера. Поддерживает факт, но не является его лучшим выражением.
Topicality Score (Оценка топикальности): Мера того, насколько сущность важна для предложения (Semantic Importance Score) или для документа в целом (Document Topicality Score).
Topicality Threshold (Порог топикальности): Минимальное значение Topicality Score, необходимое для включения Entity-Sentence Pair в обработку. Порог может варьироваться в зависимости от типа или широты категории сущности.
Unique Fact (Уникальный факт): Интересный или необычный факт о сущности, который обычно не хранится как структурированный атрибут в Knowledge Base.
Unique Fact Triggers (Триггеры уникальных фактов): Фразы, указывающие на наличие уникальных фактов. Включают Whitelist Triggers (например, «fun facts», «did you know») и Blacklist Triggers (например, «myths», «lies», «fake»). Используются для идентификации источников.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт, Система): Описывает основную архитектуру и процесс системы.

Система выбирает документы из репозитория, связанные с как минимум одним Unique Fact Trigger (включая whitelisted trigger phrase).
Генерируются Entity-Sentence Pairs путем извлечения предложений и идентификации сущностей.
Генерируется как минимум один Main Unique Fact Cluster путем кластеризации пар на основе Salient Terms.
Определяется Representative Sentence для каждого кластера.
Определяется Topicality Score для репрезентативного предложения относительно исходных документов.
Определяется Topicality Threshold, основанный на широте категории (breadth of a category) сущности.
Если Topicality Score соответствует порогу, репрезентативное предложение предоставляется в ответ на запрос, идентифицирующий сущность.

Ядро изобретения — это комплексный пайплайн отбора контента с многоуровневой фильтрацией, где финальное решение о показе факта зависит от переменного порога топикальности, зависящего от категории сущности.

Claim 9 (Независимый пункт, Метод): Описывает метод, зеркалирующий Claim 1, но с акцентом на процесс кластеризации.

Выбор документов и генерация Entity-Sentence Pairs.
Кластеризация пар с использованием Salient Terms, результатом которой являются Main Clusters и как минимум один Supporting Cluster.
Определение Representative Sentence.
Определение Topicality Scores и Topicality Threshold (на основе широты категории сущности).
Предоставление предложения, если порог достигнут.

Здесь подчеркивается важность структуры кластеров (основные и поддерживающие) для валидации фактов.

Claim 16 и 20 (Независимые пункты, Методы показа): Описывают логику предоставления фактов в ответ на запрос.

Система определяет, что запрос относится к сущности и (в Claim 16) содержит Unique Fact Trigger (whitelisted phrase).
Система проверяет наличие Unique Fact List для сущности. (Важно: включение фактов в этот список зависит от прохождения проверки Topicality Score против Topicality Threshold, основанного на широте категории сущности).
Система предоставляет список (Claim 16) или случайно выбирает как минимум один факт из списка (Claim 20) в ответ на запрос.

Где и как применяется

Изобретение в основном применяется на этапе индексирования для предварительной обработки данных и на финальных этапах для формирования выдачи.

INDEXING – Индексирование и извлечение признаков
Это основной этап работы системы. Процессы, описанные в патенте (обнаружение источников, извлечение, фильтрация, кластеризация, ранжирование), выполняются офлайн (в пакетном режиме) для наполнения Unique Fact Repository. Также на этом этапе оценивается качество источников (например, с использованием PageRank).

QUNDERSTANDING – Понимание Запросов
На этом этапе система анализирует запрос пользователя, чтобы идентифицировать упоминаемую сущность и наличие Unique Fact Trigger (например, пользователь ищет «интересные факты о кошках»).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На финальных этапах формирования SERP система извлекает предварительно рассчитанные Unique Facts из репозитория и внедряет их в выдачу. Это может быть обогащение Knowledge Panel или формирование отдельного блока (например, карусель фактов или блок «Знаете ли вы?»).

Входные данные:

Репозиторий документов (Document Repository).
База знаний (Knowledge Base) для идентификации сущностей.
Списки триггеров (Whitelist/Blacklist Triggers).
Исторические поисковые записи (Search Records) для идентификации связи запросов и документов.
Оценки качества документов (например, PageRank).

Выходные данные:

Репозиторий уникальных фактов (Unique Fact Repository), содержащий списки ранжированных Representative Sentences для различных сущностей.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные запросы, направленные на поиск сущностей, и особенно на запросы, явно запрашивающие интересную информацию (содержащие триггеры).
Типы контента и форматы: Влияет на отображение SERP-функций. Способствует извлечению контента, сформулированного в виде четких, самодостаточных предложений.

Когда применяется

Офлайн-обработка: Выполняется периодически (например, ежедневно, еженедельно) для обновления репозитория уникальных фактов.
Онлайн-обработка (Serving): Активируется, когда запрос пользователя идентифицирует сущность, для которой в репозитории существуют Unique Facts.
Условия активации показа: Логика показа зависит от наличия триггера в запросе. Если триггер есть, может быть показан список фактов. Если триггера нет, может быть показан один факт (случайный или самый релевантный).

Пошаговый алгоритм

Процесс А: Извлечение фактов (Офлайн)

Фильтрация источников: Исключение низкокачественных документов из репозитория (на основе PageRank, классификации как спам/порно/блоги/форумы, синдицированного или плагиатного контента).
Идентификация источников уникальных фактов: Выбор документов, связанных с Whitelist Triggers и не связанных с Blacklist Triggers. Связь определяется, если триггер присутствует в тексте входящей ссылки на документ или в поисковом запросе, по которому этот документ был показан.
Извлечение предложений: Извлечение текста только из центральной (основной) части документа, исключая меню, комментарии, рекламу.
Идентификация сущностей: Распознавание упоминаний сущностей из Knowledge Base в каждом предложении (включая местоимения).
Фильтрация по топикальности: Расчет Topicality Score (Document Topicality и Semantic Importance). Исключение сущностей, не достигающих Topicality Threshold. Порог может быть выше для общих категорий (например, «животное») и ниже для конкретных сущностей (например, «коала»).
Сохранение: Сохранение Entity-Sentence Pairs вместе с идентификатором источника и оценками топикальности.

Процесс Б: Обработка и Ранжирование (Офлайн)

Идентификация «плохих» предложений: Маркировка Bad Sentences — предложений, требующих контекста (неразрешенные местоимения, неоднозначные существительные, фразы типа «позже» в начале). Опционально: удаление префиксов типа «Однако».
Удаление структурированных фактов: Исключение предложений, соответствующих шаблонам структурированных данных (например, «X родился в...»).
Определение значимых терминов: Для каждого предложения создается набор Salient Terms (лемматизированные термины, исключая стоп-слова и сущность).
Кластеризация: Генерация Main Clusters (предложения с эквивалентными наборами Salient Terms) и Supporting Clusters (набор терминов является подмножеством основного кластера).
Расчет оценок предложений: Вычисление Sentence Score для каждого предложения на основе комбинации факторов: топикальность, ранг источника (PageRank), длина (демоушен за слишком короткие/длинные), Fun-Quotient источника, IDF Score предложения.
Выбор репрезентативных предложений: Для каждого Main Cluster выбирается предложение с наивысшим Sentence Score, которое не помечено как «плохое».
Расчет оценок кластеров: Идентификация дублированного контента внутри кластера. Вычисление Cluster Score путем комбинирования Sentence Scores из основного и поддерживающего кластеров, исключая дубликаты.
Финальная дедупликация и сохранение: Отбор репрезентативных предложений (начиная с кластера с наивысшей оценкой) и проверка на пересечение по «отличительным терминам» (термины с высоким IDF) с уже отобранными предложениями. Сохранение итогового Unique Fact List для сущности.

Процесс В: Отображение фактов (Онлайн)

Анализ запроса: Определение, что запрос идентифицирует сущность.
Проверка наличия фактов: Проверка, существует ли Unique Fact List для этой сущности.
Рандомизация (Опционально): Изменение порядка списка фактов.
Проверка триггера в запросе: Определение, содержит ли запрос Unique Fact Trigger.
- Если ДА: Показ списка фактов (например, в виде скроллируемого списка/карусели).
- Если НЕТ: Показ как минимум одного уникального факта из списка (например, в Knowledge Panel).

Какие данные и как использует

Данные на входе

Ссылочные факторы: Критически важны. Используется независимый от запроса ранг документа (явно упоминается PageRank) для оценки качества источника. Также анализируется текст входящих ссылок (анкоры или околоссылочный текст) для идентификации Unique Fact Triggers и расчета Fun-Quotient.
Контентные факторы: Текст из «центральной части» (core portion) документа. Анализируется структура предложений, наличие стоп-слов, местоимений и конкретных терминов (для расчета IDF).
Поведенческие факторы: Исторические записи поиска (Search Records). Используются для определения того, какие запросы приводили к показу документа, что помогает идентифицировать связь документа с триггерами и рассчитать Fun-Quotient.

Какие метрики используются и как они считаются

Система использует комплексный подход к оценке.

Метрики Источника:

Ранг источника: Независимая оценка качества документа (например, PageRank).
Fun-Quotient: Доля внешних сигналов (ссылок + запросов), содержащих триггеры. Формула: (Число ссылок с триггерами + Число запросов с триггерами) / (Общее число ссылок + Общее число запросов).

Метрики Топикальности:

Document Topicality Score: Насколько сущность важна для документа в целом.
Semantic Importance Score: Насколько сущность важна для конкретного предложения.
Topicality Threshold: Переменный порог, зависящий от широты категории сущности (breadth of a category).

Метрики Предложения (Sentence Score):
Рассчитывается как комбинация (произведение или взвешенная сумма) нескольких факторов:

Confidence Factor: Может рассчитываться как Topicality Score * Ранг источника.
Length Factor (Демоушен): Понижение оценки за слишком короткие или слишком длинные предложения (оптимум около 140 символов или 20 слов).
Fun-Quotient (Промоушен): Повышение оценки на основе Fun-Quotient источника.
IDF Score (Промоушен/Демоушен): Оценка уникальности на основе самого редкого термина в предложении.
Interestingness Factor (Опционально): Ручная оценка интересности предложения асессором.

Метрики Кластера (Cluster Score):

Комбинация (например, сумма) Sentence Scores всех недублированных предложений в основном и поддерживающем кластерах.

Google активно ищет неструктурированные «интересные» факты: Система не полагается только на Knowledge Graph. Она целенаправленно ищет уникальную информацию в вебе для обогащения выдачи.
Внешние сигналы определяют источники: То, как другие сайты ссылаются на документ (анкоры) и как пользователи его ищут (запросы), является ключевым механизмом обнаружения. Наличие Unique Fact Triggers в этих сигналах критично для идентификации источника и расчета Fun-Quotient.
Уникальность контента вознаграждается: Использование IDF Score при ранжировании предложений означает, что факты, содержащие более редкие и специфические термины, получат преимущество перед тривиальными фактами.
Качество источника и топикальность критичны: Sentence Score напрямую зависит от ранга источника (PageRank) и топикальности (Topicality Score). При этом порог топикальности адаптивен: для общих тем он выше, чем для узких.
Требования к чистоте и контексту высоки: Система агрессивно отфильтровывает Bad Sentences. Факт должен быть изложен в одном предложении, не требующем дополнительного контекста (все местоимения и существительные должны быть разрешены внутри предложения или относиться к основной сущности).
Многоуровневая валидация через кластеризацию: Использование Main и Supporting Clusters позволяет системе подтверждать достоверность факта наличием нескольких источников, выражающих его разными словами, и выбирать наилучшую формулировку.

Best practices (это мы делаем)

Создание контента с уникальными фактами: Фокусируйтесь на предоставлении нетривиальной, интересной информации о сущностях, которая выходит за рамки стандартных структурированных данных (дат, размеров и т.д.).
Использование редких и специфичных терминов: Включайте в описание фактов термины с высоким IDF. Это повышает уникальность предложения в глазах системы и помогает при ранжировании и дедупликации.
Оптимизация формулировок для извлечения: Каждый факт должен быть изложен в виде четкого, грамматически правильного и самодостаточного предложения. Избегайте местоимений, которые ссылаются на предыдущий текст. Убедитесь, что предложение понятно вне контекста страницы.
Стимулирование внешних сигналов с триггерами: Работайте над тем, чтобы на ваши страницы ссылались с использованием Whitelist Triggers (например, «интересные факты о X», «а вы знали, что X...») в анкорах или околоссылочном тексте. Это повышает Fun-Quotient.
Поддержание высокого качества сайта: Поскольку ранг источника (PageRank) используется при расчете Sentence Score, общий авторитет и качество сайта критически важны для того, чтобы ваши факты были выбраны системой.
Фокус на топикальности: Убедитесь, что сущность, о которой вы пишете факт, является центральной темой документа или, по крайней мере, конкретного предложения, чтобы преодолеть Topicality Threshold.

Worst practices (это делать не надо)

Использование сложных предложений, требующих контекста: Использование неразрешенных местоимений или неоднозначных существительных приведет к классификации предложения как Bad Sentence.
Публикация только общеизвестных фактов: Предложения, которые соответствуют шаблонам структурированных данных или содержат только общеупотребительные термины (низкий IDF), будут отфильтрованы или получат низкий рейтинг.
Синдикация и дублирование контента: Система фильтрует синдицированные/плагиатные документы на начальном этапе и исключает дублированный контент при расчете Cluster Score.
Игнорирование качества источника: Публикация интересных фактов на низкокачественных сайтах неэффективна, так как ранг источника является множителем при ранжировании фактов.

Стратегическое значение

Патент подтверждает стратегию Google по извлечению ответов из контента для формирования SERP-функций. Для SEO это означает, что создание контента должно учитывать не только релевантность ключевым словам, но и способность контента быть легко извлеченным и интерпретированным системами NLP. Победа в борьбе за такие блоки, как «Знаете ли вы?» или обогащенные Knowledge Panels, требует сочетания сильного ссылочного профиля (для качества источника и Fun-Quotient), уникальности контента (IDF) и идеальной технической подачи (четкие предложения, высокая топикальность).

Практические примеры

Сценарий: Оптимизация статьи о Коалах для блока «Интересные факты»

Анализ контента: Вместо факта «Коалы живут в Австралии» (структурированный факт, низкий IDF), добавьте факт: «У коал есть два противопоставленных больших пальца (two opposable thumbs)». (Высокий IDF для «opposable thumbs»).
Оптимизация формулировки:
- Плохо (Bad Sentence): «Они также имеют два противопоставленных больших пальца». (Местоимение «Они» требует контекста).
- Хорошо (Representative Sentence): «Коалы имеют два противопоставленных больших пальца». (Четко, самодостаточно).
Работа с внешними сигналами: При проведении аутрич-кампании попросите партнеров использовать анкоры типа «Удивительные факты о коалах» или включить ссылку в предложение «А вы знали, что у коал есть особенность строения лап? [ссылка]». Это повысит Fun-Quotient.
Ожидаемый результат: Предложение «Коалы имеют два противопоставленных больших пальца» извлекается системой и отображается в выдаче по запросу [Koala] или [Koala fun facts] в специальном блоке.

Как система определяет, что факт является «уникальным» или «интересным»?

Система использует несколько сигналов. Во-первых, она ищет источники, на которые ссылаются с использованием Whitelist Triggers (например, «fun facts»), что повышает Fun-Quotient. Во-вторых, она отфильтровывает факты, которые уже есть в Knowledge Base (структурированные данные). В-третьих, при ранжировании предпочтение отдается предложениям с высоким IDF Score, то есть содержащим редкие термины.

Что такое «плохое предложение» (Bad Sentence) и как его избежать?

Bad Sentence — это предложение, требующее внешнего контекста. Чаще всего это происходит из-за неразрешенных местоимений (например, «Он пошел туда», если неясно, кто «он» и где «туда») или неоднозначных существительных (например, «В фильме снимался известный актер», если название фильма не указано в этом же предложении). Чтобы избежать этого, формулируйте факты в виде полностью самодостаточных предложений.

Насколько важен авторитет сайта для этого алгоритма?

Критически важен. Патент явно упоминает использование независимого ранга документа (например, PageRank) как фактора при расчете Sentence Score. Кроме того, низкокачественные документы отфильтровываются еще на этапе отбора источников. Высокий авторитет сайта значительно повышает шансы на выбор вашего факта.

Что такое Salient Terms и как они используются?

Salient Terms — это значимые термины в предложении (исключая стоп-слова и название самой сущности), приведенные к базовой форме (лемматизированные). Они используются для кластеризации: если два предложения имеют эквивалентный набор Salient Terms (с учетом синонимов и чисел), они считаются выражающими один и тот же факт.

Как работает переменный порог топикальности (Topicality Threshold)?

Патент указывает, что порог зависит от широты категории сущности (breadth of a category). Для общих сущностей (например, «Книга» или «Животное») порог выше — они должны быть центральной темой документа или предложения. Для конкретных сущностей (например, «Моби Дик» или «Коала») порог может быть ниже. Это гарантирует, что извлекаемые факты действительно релевантны сущности.

Как можно повлиять на Fun-Quotient документа?

Fun-Quotient рассчитывается на основе доли входящих ссылок и поисковых запросов, которые содержат Whitelist Triggers. Для повышения этого показателя необходимо стимулировать появление ссылок с анкорами или околоссылочным текстом, содержащим фразы типа «интересные факты», «любопытные детали», «а вы знали» и т.п.

Использует ли система только текст страницы для поиска фактов?

Для извлечения фактов система анализирует только «центральную часть» (core portion) документа, игнорируя меню, футеры, комментарии и рекламу. Однако для идентификации самого документа как источника фактов используются внешние сигналы — входящие ссылки и поисковые запросы.

Что произойдет, если несколько сайтов опубликуют один и тот же уникальный факт?

Система кластеризует эти факты в один Main Cluster. Затем она выберет одно Representative Sentence — лучшую формулировку факта из предложения с наивысшим Sentence Score. Преимущество получит сайт с более высоким рангом источника, лучшей топикальностью и более высоким Fun-Quotient.

Как система борется с ложными фактами или мифами?

Для борьбы с недостоверной информацией система использует Blacklist Triggers (например, «мифы», «ложь», «фейк»). Если документ связан с такими триггерами через входящие ссылки или запросы, он исключается из рассмотрения в качестве источника уникальных фактов. Также используется оценка качества источника (PageRank).

В каком формате лучше всего представлять факты на странице?

Лучше всего представлять факты в виде списка или отдельных абзацев, где каждый факт сформулирован в одном четком, самодостаточном предложении оптимальной длины (упоминается ориентир в 140 символов или 20 слов) и содержит специфические (высокочастотные по IDF) термины.

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

US7568148B1
2009-07-28

Свежесть контента
EEAT и качество

Как Google использует редкость сущностей (IDF) для персонализации и повышения интересности контента

Google использует механизм для персонализации выдачи (например, в Новостях или Рекомендациях), который повышает в ранжировании документы, содержащие сущности, интересующие пользователя, если эти сущности редко встречаются в недавнем корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF). Система продвигает уникальные комбинации тем (группы сущностей), которые могут быть особенно интересны пользователю.

US9679018B1
2017-06-13

Персонализация
Семантика и интент
SERP

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google анализирует мнения и общественное восприятие тем в интернете путем кластеризации контента и измерения тональности

Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.

US8423551B1
2013-04-16

Семантика и интент

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2015-12-29

Поведенческие сигналы
Индексация
Техническое SEO

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко

Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы