Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

USING AN ENTITY DATABASE TO ANSWER ENTITY-TRIGGERING QUESTIONS (Использование базы данных сущностей для ответа на вопросы, триггерящие сущности)

US9081814B1
Google LLC
2013-03-12
2015-07-14

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

Какую проблему решает

Патент решает задачу предоставления прямых и точных ответов на вопросы пользователей, касающиеся конкретных фактов о сущностях (людях, местах, организациях, объектах). Цель — улучшить пользовательский опыт, предоставляя информацию об атрибутах сущности напрямую в ответ на запрос (например, адрес в ответ на вопрос "Где находится...?" или дату рождения в ответ на "Когда родился...?"), вместо того чтобы заставлять пользователя искать эту информацию в списке веб-страниц.

Что запатентовано

Запатентована система и метод для ответа на Entity-Triggering Questions (вопросы, триггерящие сущности). Система определяет, что запрос направлен на получение значения определенного атрибута сущности, хранящегося в Entity Information Repository (базе данных сущностей). Она использует результаты стандартного поиска для идентификации наиболее релевантных сущностей, извлекает запрошенный атрибут для выбранной сущности и формирует прямой ответ.

Как это работает

Система работает следующим образом:

Идентификация запроса: Система получает вопрос и определяет, что он является Entity-Triggering, то есть ищет атрибут сущности (например, содержит слова "где", "когда", "кто").
Получение результатов поиска: Выполняется стандартный поиск по запросу.
Идентификация кандидатов: Система анализирует документы в топе выдачи и определяет, какие сущности ассоциированы с этими документами (используя предварительно рассчитанные связи между документами и сущностями).
Скоринг и выбор сущности: Кандидаты оцениваются на основе их релевантности запросу и частоты/качества упоминаний в результатах поиска. Выбирается наиболее релевантная сущность.
Извлечение атрибута и ответ: Система определяет, какой атрибут запрашивается (например, "адрес"), и получает его значение из базы данных сущностей. Ответ может быть сформирован на основе этого значения или путем выбора наилучшего сниппета из результатов поиска, содержащего это значение.

Актуальность для SEO

Критически высокая. Этот патент описывает фундаментальные механизмы, лежащие в основе работы Google Knowledge Graph и систем прямых ответов (Direct Answers, Featured Snippets). Понимание того, как Google связывает запросы с сущностями и их атрибутами, является центральным элементом современного SEO, особенно в эпоху семантического поиска и голосовых запросов.

Важность для SEO

Патент имеет критическое значение (90/100). Он напрямую описывает, как Google стремится стать "движком ответов", а не просто поисковым движком. Для SEO это означает, что оптимизация под сущности и обеспечение того, чтобы контент четко ассоциировался с релевантными сущностями и их атрибутами, становится первостепенной задачей. Это влияет на стратегии создания контента, использования структурированных данных и построения тематического авторитета для получения видимости в блоках прямых ответов.

Термины и определения

Entity (Сущность): Человек, бизнес, географическое местоположение, фильм, песня, книга или любой другой идентифицируемый объект или концепция.
Entity Identifier (Идентификатор сущности): Имя или метка, используемая для обозначения сущности (например, "Joe's Soup Kitchen").
Attribute (Атрибут): Характеристика сущности (например, "Адрес", "Дата рождения", "Категория бизнеса").
Attribute Value (Значение атрибута): Конкретное значение, связанное с атрибутом (например, для атрибута "Адрес" значением может быть "1234 Main St.").
Entity-Triggering Question (Вопрос, триггерящий сущность): Запрос, ответ на который включает идентификатор сущности или информацию об атрибуте сущности. Цель такого запроса — получить конкретный факт о сущности.
Entity Information Repository (База данных сущностей): Хранилище, содержащее информацию о сущностях, их атрибутах и значениях атрибутов. (На практике это соответствует Knowledge Graph).
Document-Entity Association System (Система ассоциации документов и сущностей): Система, которая анализирует документы (например, веб-страницы) и идентифицирует сущности, связанные с ними, сохраняя эти связи.
Document-Entity Association Repository (Репозиторий ассоциаций документов и сущностей): База данных, хранящая связи между идентификаторами документов (например, URL) и идентификаторами сущностей.
Entity Confidence Score (Оценка уверенности в сущности): Метрика, рассчитываемая для оценки релевантности конкретной сущности в ответ на запрос. Учитывает частоту упоминания сущности в результатах поиска, оценки релевантности этих результатов и другие факторы.
Snippet Confidence Score (Оценка уверенности в сниппете): Метрика для оценки того, насколько хорошо сниппет отвечает на вопрос, основанная на совпадении терминов сниппета с ожидаемым значением атрибута.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ответа на вопрос с использованием базы данных сущностей.

Система получает вопрос на вычислительном устройстве.
Определяется, что вопрос содержит термины, связанные с атрибутом, который определен для одной или нескольких сущностей в Entity Information Repository.
В ответ на это определение система выполняет следующие шаги:
1. Получает набор результатов поиска (search result set) в ответ на вопрос.
2. Идентифицирует одну или несколько сущностей-кандидатов (candidate entities), которые (i) есть в репозитории и (ii) связаны хотя бы с одним документом из результатов поиска.
3. Выбирает конкретную сущность (particular entity) из кандидатов, которая связана с терминами вопроса или сущностью, идентифицированной из вопроса.
4. Получает значение (value), которое хранится для атрибута этой конкретной сущности в репозитории.
5. Генерирует ответ на вопрос, основываясь как минимум на этом полученном значении.
6. Предоставляет ответ для вывода.

Claim 2 (Зависимый от 1): Уточняет механизм выбора сущности.

Выбор конкретной сущности включает генерацию оценки (score) для каждой сущности-кандидата и выбор на основе этой оценки.

Claim 3 (Зависимый от 1): Детализирует факторы для расчета оценки сущности.

Оценка сущности базируется на одном или нескольких факторах: количество результатов поиска, в которых идентифицирована сущность; пропорция результатов поиска, в которых она идентифицирована; появление идентификатора сущности в сниппетах; оценка релевантности (result score) результата поиска, в котором она идентифицирована; количество появлений идентификатора в конкретном результате; совпадение сущности с терминами вопроса; индикация спама в результате поиска.

Claim 6 (Зависимый от 1): Описывает альтернативный способ генерации ответа.

Генерация ответа включает анализ сниппетов из результатов поиска, которые содержат идентификаторы выбранной сущности, и выбор одного из этих сниппетов в качестве ответа на вопрос.

Claim 7 (Зависимый от 6): Уточняет механизм выбора сниппета.

Выбор сниппета включает генерацию Snippet Confidence Score для каждого сниппета на основе идентификации терминов в сниппете, которые связаны с идентифицированным атрибутом выбранной сущности, и выбор сниппета на основе этой оценки.

Где и как применяется

Изобретение охватывает несколько ключевых этапов поисковой архитектуры, работая как офлайн, так и онлайн.

INDEXING – Индексирование и извлечение признаков (Офлайн)
Document-Entity Association System работает на этом этапе. Она анализирует документы (веб-страницы) и идентифицирует упомянутые в них сущности, сравнивая текст документа с данными в Entity Information Repository (Knowledge Graph). Установленные связи сохраняются в Document-Entity Association Repository.

QUNDERSTANDING – Понимание Запросов (Онлайн)
Entity-Triggering Question Identification Engine анализирует входящий запрос, чтобы определить, является ли он фактоидным вопросом о сущности и какой именно атрибут запрашивается (например, "Где" -> Адрес).

RANKING – Ранжирование (Онлайн)
Система использует стандартный поисковый движок (Search engine server) для получения первичного набора релевантных документов (search result set).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Онлайн)
Это основной этап работы Entity-Triggering Question Answering System.

Анализ SERP: Система анализирует топ результатов, полученных на этапе RANKING.
Извлечение сущностей: Используя Document-Entity Association Repository, система определяет, какие сущности связаны с этими топовыми документами.
Скоринг сущностей: Candidate Entity Scoring Engine рассчитывает Entity Confidence Score для каждой сущности.
Генерация ответа: Answer Generation Engine выбирает лучшую сущность, извлекает запрошенный атрибут из Entity Information Repository ИЛИ рассчитывает Snippet Confidence Score и выбирает лучший сниппет.
Формирование выдачи: Прямой ответ (Direct Answer/Featured Snippet) вставляется в итоговую выдачу, часто на нулевую позицию.

Входные данные:

Запрос пользователя (Question).
Entity Information Repository (База сущностей и атрибутов).
Document-Entity Association Repository (Связи документов и сущностей).
Набор результатов поиска (Search Result Set), включая URL, сниппеты и оценки релевантности (Result Scores).

Выходные данные:

Прямой ответ (Answer), который может быть значением атрибута или выбранным сниппетом.
Сформированная страница результатов (Answer Document), включающая прямой ответ и стандартные результаты поиска.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные фактоидные запросы (кто, что, где, когда, сколько).
Конкретные типы контента: Влияет на контент, который содержит четкие факты о сущностях (справочники, энциклопедии, страницы о компаниях, биографии, карточки товаров).
Форматы контента: Повышает значимость контента, структурированного таким образом, чтобы факты было легко извлечь (списки определений, таблицы, четкие формулировки "Сущность - это...").
Конкретные ниши: Критично в любых нишах, где пользователи ищут факты: локальный бизнес (адреса, часы работы), медиа (даты выхода, актеры), история, наука и т.д.

Когда применяется

Триггеры активации: Когда система классифицирует запрос как Entity-Triggering Question. Это происходит, если запрос содержит термины, указывающие на поиск атрибута сущности (например, "who", "where", "how tall") или не содержит терминов, указывающих на необходимость развернутого ответа (например, "why", "how does").
Условия применения: Когда система может с достаточной степенью уверенности (высокий Entity Confidence Score) идентифицировать релевантную сущность и найти значение запрошенного атрибута в своей базе данных или в сниппетах топовых результатов.

Пошаговый алгоритм

Процесс А: Ассоциация документов и сущностей (Офлайн)

Идентификация документа: Система выбирает документ для анализа из корпуса документов.
Анализ контента: Document-entity association engine анализирует текст документа.
Идентификация сущностей: Система ищет в тексте термины, которые соответствуют идентификаторам сущностей (Entity Identifiers) или значениям атрибутов (Attribute Values) из Entity Information Repository. Соответствие может быть точным или неточным (с учетом порога схожести).
Сохранение ассоциации: Информация, связывающая идентификатор документа с идентификаторами найденных сущностей, сохраняется в Document-Entity Association Repository.

Процесс Б: Ответ на вопрос (Онлайн)

Получение вопроса: Система получает запрос от пользователя.
Классификация запроса: Entity-triggering question identification engine определяет, что запрос является Entity-Triggering и идентифицирует тип запрашиваемого атрибута (например, локация, дата).
Получение результатов поиска: Result identification engine отправляет запрос в поисковую систему и получает набор результатов (документы, сниппеты, оценки релевантности).
Идентификация сущностей-кандидатов: Candidate entity identification engine анализирует топовые результаты поиска. Для каждого документа извлекаются связанные с ним сущности из Document-Entity Association Repository. Также проверяется связь этих сущностей с терминами исходного запроса.
Скоринг сущностей: Candidate entity scoring engine рассчитывает Entity Confidence Score для каждого кандидата. Учитывается количество и качество результатов поиска, в которых найдена сущность, совпадение с запросом и т.д.
Выбор релевантной сущности: Выбирается сущность с наивысшим Entity Confidence Score.
Генерация ответа (Вариант 1 - Извлечение факта): Answer generation engine получает значение запрошенного атрибута для выбранной сущности из Entity Information Repository.
Генерация ответа (Вариант 2 - Выбор сниппета): Answer generation engine анализирует сниппеты результатов поиска. Рассчитывается Snippet Confidence Score на основе того, содержит ли сниппет ожидаемое значение атрибута. Выбирается лучший сниппет.
Вывод ответа: Система генерирует итоговую страницу (Answer Document), включающую сгенерированный ответ (часто в виде блока прямого ответа) и результаты поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных о сущностях и результатах поиска. Он не детализирует факторы ранжирования самих документов, но использует их результаты.

Контентные факторы: Текст документов и сниппеты используются для установления связи с сущностями (офлайн) и для выбора лучшего сниппета в качестве ответа (онлайн).
Структурные факторы (Косвенно): Entity Information Repository хранит структурированные данные о сущностях (Атрибут -> Значение).
Системные данные:
- Result Scores: Оценки релевантности документов, полученные от основной поисковой системы. Используются для взвешивания значимости сущностей, найденных в этих документах.
- Данные о сущностях: Идентификаторы, атрибуты и значения атрибутов из Entity Information Repository.
- Ассоциации: Предварительно рассчитанные связи между документами и сущностями.

Какие метрики используются и как они считаются

Entity Confidence Score: Оценка для выбора наиболее релевантной сущности. Рассчитывается на основе агрегации следующих факторов:
- Количество результатов поиска, с которыми ассоциирована сущность.
- Пропорция результатов поиска (в топе), с которыми ассоциирована сущность.
- Result Scores документов, с которыми ассоциирована сущность (сущности из более авторитетных документов получают больший вес).
- Наличие идентификатора сущности в сниппетах.
- Количество упоминаний идентификатора сущности в документе (с учетом защиты от спама, когда слишком частое повторение может игнорироваться).
- Степень совпадения идентификатора сущности с терминами запроса.
Snippet Confidence Score: Оценка для выбора лучшего сниппета в качестве ответа. Рассчитывается на основе:
- Совпадения (точного или близкого) текста сниппета с ожидаемым значением атрибута (Attribute Value).
- Result Score документа, из которого взят сниппет.
Similarity Threshold (Порог схожести): Используется для определения неточного соответствия между терминами в документе/запросе и идентификаторами/значениями атрибутов сущностей.

Фундамент для прямых ответов: Патент описывает базовый механизм, позволяющий Google отвечать на фактоидные вопросы напрямую, используя Knowledge Graph (Entity Information Repository) и анализ результатов поиска.
Важность ассоциации Контент-Сущность: Ключевым элементом системы является предварительно рассчитанная база данных (Document-Entity Association Repository), связывающая веб-страницы с сущностями. Это подчеркивает важность четкой идентификации сущностей в контенте для SEO.
SERP как источник валидации сущностей: Google не просто полагается на свою базу знаний. Он использует топовые результаты поиска для определения того, какая сущность наиболее релевантна запросу в текущем контексте. Сущность, которая чаще упоминается в авторитетных результатах, побеждает.
Два пути формирования ответа: Система может либо извлечь факт напрямую из своей базы данных, либо выбрать лучший сниппет с веб-страницы, содержащий этот факт. Это объясняет, почему Featured Snippets часто берутся из контента сторонних сайтов.
Скоринг сущностей и сниппетов: Внедрены специфические метрики (Entity Confidence Score и Snippet Confidence Score) для выбора наилучшего ответа, которые учитывают как релевантность, так и авторитетность источников.
Понимание интента на уровне атрибутов: Система не просто понимает, о какой сущности идет речь, но и определяет, какой именно атрибут интересует пользователя (например, отличает запрос адреса от запроса телефона).

Best practices (это мы делаем)

Оптимизация под сущности (Entity-Oriented SEO): Убедитесь, что ваш контент четко идентифицирует ключевые сущности, о которых идет речь. Используйте однозначные идентификаторы (названия, имена) и предоставляйте достаточно контекста, чтобы Document-Entity Association System могла корректно связать вашу страницу с сущностью в Knowledge Graph.
Использование структурированных данных (Schema.org): Внедряйте микроразметку для явного указания сущностей и их атрибутов (например, адрес, телефон, автор, дата публикации). Это напрямую помогает Google пополнять Entity Information Repository и устанавливать ассоциации.
Форматирование контента для сниппетов: Структурируйте контент так, чтобы он давал четкие и лаконичные ответы на потенциальные Entity-Triggering Questions. Используйте форматы (таблицы, списки, блоки определений), которые увеличивают вероятность выбора вашего сниппета системой на основе высокого Snippet Confidence Score.
Построение тематического авторитета (Topical Authority): Становитесь авторитетным источником информации о конкретных сущностях. Если ваш сайт часто появляется в топе выдачи по запросам, связанным с сущностью, это увеличивает Entity Confidence Score для этой сущности применительно к вашему сайту.
Ответы на фактоидные вопросы: Создавайте контент, который напрямую отвечает на вопросы типа Кто/Что/Где/Когда, касающиеся релевантных для вашей ниши сущностей.

Worst practices (это делать не надо)

Неоднозначное упоминание сущностей (Entity Ambiguity): Использование сокращений, аббревиатур или жаргона без достаточного контекста может помешать системе корректно идентифицировать сущность.
Спам ключевыми словами (Keyword Stuffing): Патент упоминает механизмы защиты от спама при подсчете упоминаний сущности. Попытки манипулировать Entity Confidence Score путем неестественного повторения названия сущности будут неэффективны или могут привести к игнорированию страницы.
Предоставление неточной или устаревшей информации: Если информация на вашем сайте противоречит данным в Entity Information Repository или другим авторитетным источникам, ваш сниппет вряд ли будет выбран в качестве ответа.
Игнорирование семантики в пользу ключевых слов: Фокус только на вхождении ключевых слов без учета связи контента с реальными сущностями и их атрибутами снижает потенциал сайта в контексте этого патента.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на семантический поиск и использование сущностей как основы для организации информации. Для долгосрочного SEO это означает переход от оптимизации страниц под ключевые слова к оптимизации сайтов как источников знаний о сущностях. Успех в SEO все больше зависит от способности сайта корректно интегрироваться в Knowledge Graph и предоставлять информацию в формате, удобном для систем прямых ответов.

Практические примеры

Сценарий: Оптимизация страницы локального бизнеса для прямого ответа об адресе.

Цель: Получить прямой ответ (Direct Answer) по запросу "Где находится [Название Компании]".
Действия:
- Четкая идентификация сущности: Убедиться, что название компании ("Joe's Soup Kitchen") четко указано на главной странице и странице контактов.
- Внедрение Schema.org: Использовать разметку LocalBusiness, явно указав атрибуты name и address (со всеми компонентами: улица, город, индекс). Это помогает заполнить Entity Information Repository.
- Форматирование контента: На странице контактов разместить адрес в чистом текстовом формате, легко доступном для парсинга. Использовать фразы, которые система ассоциирует с атрибутом адреса, например: "Наш адрес:", "Мы находимся по адресу:".
- Повышение авторитетности: Получение ссылок и упоминаний (цитирований NAP) с других авторитетных локальных сайтов для повышения Result Scores страниц сайта.
Ожидаемый результат: Система классифицирует запрос как Entity-Triggering. Сайт появляется в топе выдачи. Система ассоциирует сайт с сущностью "Joe's Soup Kitchen". Answer Generation Engine извлекает адрес из Knowledge Graph (куда он попал через Schema) или выбирает сниппет со страницы контактов, так как он имеет высокий Snippet Confidence Score благодаря четкому форматированию и совпадению с ожидаемым фактом.

Что такое Entity Information Repository, упомянутый в патенте?

На практике это соответствует Google Knowledge Graph. Это база данных, которая хранит структурированную информацию о сущностях (Entities), их типах, атрибутах (Attributes) и значениях этих атрибутов (Attribute Values). Система использует этот репозиторий как источник фактов для прямых ответов.

Как Google определяет, какие сущности связаны с моей веб-страницей?

Патент описывает офлайн-процесс, выполняемый Document-Entity Association System. Эта система анализирует текст вашей страницы и ищет совпадения с идентификаторами сущностей или значениями их атрибутов, хранящимися в Knowledge Graph. Если совпадения найдены, система сохраняет связь между вашим URL и ID сущности.

Как повысить Entity Confidence Score для сущности, связанной с моим сайтом?

Entity Confidence Score рассчитывается на основе анализа результатов поиска. Чтобы его повысить, необходимо, чтобы ваша страница (и другие авторитетные страницы, упоминающие эту сущность) ранжировалась высоко (имела высокий Result Score) и чтобы сущность часто упоминалась в топе выдачи по релевантным запросам. Это достигается через построение тематического авторитета и качественное SEO.

Система всегда берет ответ из Knowledge Graph или может взять его с моего сайта?

Патент описывает оба варианта. Система может извлечь значение атрибута напрямую из Entity Information Repository (Knowledge Graph). Альтернативно, она может проанализировать сниппеты топовых результатов поиска и выбрать лучший сниппет (с наивысшим Snippet Confidence Score) в качестве ответа, что соответствует механизму Featured Snippets.

Как оптимизировать контент, чтобы повысить Snippet Confidence Score?

Snippet Confidence Score основан на том, насколько хорошо текст сниппета соответствует ожидаемому значению атрибута. Для оптимизации необходимо давать четкие, лаконичные и фактически точные ответы на предполагаемые вопросы пользователей. Использование таблиц, списков и ясных формулировок помогает системе идентифицировать ваш контент как качественный ответ.

Какую роль играет микроразметка (Schema.org) в контексте этого патента?

Микроразметка играет критически важную роль, хотя явно не упоминается в патенте как единственный источник данных. Она является основным способом для вебмастеров явно указать сущности, их атрибуты и значения. Это напрямую помогает Google пополнять Entity Information Repository и облегчает работу Document-Entity Association System по связыванию вашего контента с сущностями.

Что такое Entity-Triggering Question и как Google их определяет?

Это запрос, целью которого является получение конкретного факта о сущности (например, "возраст Илона Маска"). Google определяет их путем анализа терминов запроса. Наличие слов вроде "кто", "где", "когда", "сколько" часто является триггером, в то время как слова "почему" или "как сделать" обычно указывают на необходимость развернутого ответа, а не факта о сущности.

Может ли этот механизм привести к снижению трафика на мой сайт?

Да, это один из рисков. Если система предоставляет прямой ответ (Direct Answer) на основе данных из Knowledge Graph, пользователь может не перейти на ваш сайт (Zero-Click Search). Однако, если ответ формируется в виде Featured Snippet, взятого с вашего сайта, это часто приводит к значительному увеличению видимости и CTR, позиционируя ваш сайт как главный авторитет по данному вопросу.

Влияет ли этот патент на локальный поиск?

Да, очень сильно. Локальные бизнесы являются типичными сущностями, а их адреса, телефоны и часы работы — типичными атрибутами. Этот патент описывает механизм, который используется для ответов на запросы типа "где находится [ресторан]" или "часы работы [магазин]", что критично для локального SEO.

Что делать, если Google показывает неверный прямой ответ о моей компании/сущности?

Необходимо проверить источник данных. Если это Featured Snippet с чужого сайта, нужно работать над тем, чтобы ваш сайт стал более авторитетным и предлагал более качественный ответ. Если это данные из Knowledge Graph, нужно использовать инструменты обратной связи в панели знаний, а также убедиться, что на вашем официальном сайте и в микроразметке указана корректная информация.

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google связывает запросы с сущностями для формирования выдачи, подсказок и определения доминирующего интента

Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.

US20160224621A1
2016-08-04

Семантика и интент
Knowledge Graph
SERP

Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

US8843466B1
2014-09-23

Семантика и интент
Knowledge Graph
Индексация

Как Google использует результаты веб-поиска для выбора правильного ответа на неоднозначные фактические запросы

Google использует этот механизм для разрешения неоднозначности в запросах (например, «возраст Вашингтона»). Система генерирует несколько потенциальных ответов из Knowledge Graph, а затем проверяет, какой из них лучше всего подтверждается топовыми результатами органического поиска. Оценка кандидата зависит от того, насколько часто и уверенно Сущность (Topic) и Ответ (Answer) упоминаются (аннотируются) на страницах в топе выдачи.

US9336269B1
2016-05-10

Семантика и интент
Knowledge Graph
SERP

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования

Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.

US8862572B2
2014-10-14

Поведенческие сигналы
Ссылки

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News

Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.

US8375073B1
2013-02-12

EEAT и качество
SERP
Ссылки

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей

Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.

US9396263B1
2016-07-19

Семантика и интент
EEAT и качество

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP