Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против …
Knowledge Graph
Патент Google, описывающий трехэтапный алгоритм для идентификации "выдающихся личностей" (экспертов) в темах, интересующих пользователя. Система анализирует контент, социальные взаимодействия между экспертами (кто на кого ссылается) и расширяет охват на связанные …
Google автоматически изучает альтернативные названия и синонимы для сущностей (например, узнает, что «Big Blue» это IBM), анализируя анкорный текст ссылок, ведущих на авторитетные источники фактов об этой сущности. Система фильтрует …
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными …
Google использует механизм иерархического скоринга для ранжирования сущностей (например, брендов или исполнителей) в вертикальных поисках (non-WWW corpus). Популярность родительской сущности рассчитывается на основе агрегированной популярности дочерних (например, товаров или треков). …
Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния …
Google отказывается от фиксированных идентификаторов сущностей. Вместо этого сущность (например, бизнес) определяется как «Кластер неизменяемых Наблюдений». Система собирает данные из разных источников и использует «Контекст» (например, NAP) для сопоставления новых …
Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. …
Google автоматически создает массивный обучающий набор данных для своих систем семантического анализа (NLP). Система анализирует миллионы веб-страниц, которые ссылаются на авторитетные источники (например, Wikipedia). Анкорный текст этих ссылок рассматривается как …
Google использует этот механизм для обогащения поисковой выдачи. Когда система определяет, что запрос направлен на конкретную сущность (например, автора), она анализирует текущую SERP на наличие авторитетных источников и релевантность связанному …
Google использует механизм краудсорсинга для повышения точности данных. Система отслеживает, как пользователи исправляют или подтверждают факты (значения атрибутов сущностей), представленные в поиске. Эти исправления, особенно подтвержденные внешними источниками, используются для …
Патент Google описывает систему генерации Панелей Знаний (Knowledge Panels). Система идентифицирует сущность в запросе, определяет ее тип и использует соответствующий шаблон. Этот шаблон наполняется контентом, агрегированным из множества разных источников. …
Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и …
Google использует систему для устранения неоднозначности имен людей. Анализируя исторические данные о том, какие запросы (как включающие имя, так и нет) приводили пользователей на одни и те же ресурсы, система …
Google анализирует результаты поиска на предмет наличия «авторитетных ресурсов» (например, официальных сайтов или страниц Википедии), чтобы определить главную сущность, которой посвящен запрос. Если сущность точно идентифицирована, система извлекает связанные сущности …
Google анализирует массивы поисковых запросов, используя лингвистические шаблоны (например, «население [Города]»), чтобы автоматически определить, какие атрибуты наиболее важны для разных категорий сущностей. Этот механизм позволяет масштабно наполнять Knowledge Graph фактами, …
Патент Google, описывающий механизм встраивания структурированных отзывов и рейтингов непосредственно в HTML/XML код документов с помощью специальных тегов (Identifier Tag и Rating Tag). Поисковые роботы извлекают эту информацию, агрегируют ее …
Google использует метод масштабирования понимания фактологических запросов. Система показывает пользователям факт (например, «Рост Барака Обамы 6'1"») и просит их предложить запросы, которые ведут к этому факту. Полученные запросы нормализуются, фильтруются …
Патент Google описывает, как система определяет лучший способ отображения результатов поиска (карта, таймлайн, галерея) на основе свойств сущностей в Knowledge Graph. Также раскрывается механизм ранжирования результатов по «модифицирующим концепциям» — …
Google использует систему для автоматического извлечения пар Вопрос-Ответ из веб-документов, форумов и логов чатов. Система создает два репозитория: один для точных совпадений вопросов, другой для ключевых слов. Это позволяет предоставлять …