Как Google автоматически находит недостающие или устаревшие факты для Knowledge Graph, генерируя поисковые запросы

QUESTION ANSWERING TO POPULATE KNOWLEDGE BASE (Ответы на вопросы для заполнения Базы Знаний)

US10108700B2
Google LLC
2013-03-15
2018-10-23

Google использует автоматизированную систему для поддержания актуальности и полноты Knowledge Graph. Когда система обнаруживает пробел (например, отсутствует свойство у сущности согласно схеме) или устаревшие данные (на основе анализа логов запросов), она генерирует точный, disambiguated поисковый запрос. Ответ, полученный от поисковой системы или QA-системы, используется для обновления Базы Знаний.

Какую проблему решает

Патент решает задачу поддержания полноты и актуальности масштабной Базы Знаний (Knowledge Graph) в автоматическом режиме. Ручное обновление миллиардов сущностей не масштабируется. Система автоматизирует процесс обнаружения пробелов (отсутствующих фактов) и устаревшей информации в Knowledge Graph и находит актуальные данные во внешних источниках (например, в вебе) для их обновления.

Что запатентовано

Запатентована система, которая использует механизм обработки запросов (Query Processing Engine), такой как поисковая система или система ответов на вопросы (Question Answering), для автоматического заполнения Knowledge Graph. Система идентифицирует недостающий или устаревший элемент данных для конкретной сущности, автоматически генерирует запрос для поиска этого элемента и использует полученный ответ для обновления Базы Знаний.

Как это работает

Система работает по двум основным сценариям:

Заполнение пробелов (Gap Filling): Система сравнивает существующие свойства сущности (например, «Эмпайр-стейт-билдинг») со схемой её типа (Schema) (например, «Небоскреб»). Если ожидаемое свойство отсутствует (например, «Архитектор»), система генерирует запрос.
Обновление данных (Data Refresh): Система анализирует логи запросов (Query Records). Если анализ указывает на то, что данные в KG устарели (например, из-за конфликта между логами и текущими данными в KG), система инициирует обновление.

В обоих случаях генерируется точный запрос (часто на естественном языке), включающий другие известные факты о сущности для устранения неоднозначности (disambiguation). Ответ, полученный от Query Processing Engine, используется для обновления KG.

Актуальность для SEO

Высокая. Автоматизация и масштабирование Knowledge Graph являются критически важными задачами для Google. Поскольку веб постоянно меняется, механизмы автоматического обновления фактов необходимы для поддержания качества поиска и работы всех сервисов, основанных на KG (Knowledge Panels, Featured Snippets).

Важность для SEO

Патент имеет высокое, хотя и косвенное, значение для SEO (7/10). Он не описывает алгоритмы ранжирования, но раскрывает механизм, с помощью которого Google собирает факты. Чтобы информация о сущности (компании, продукте, персоне) попала в Knowledge Graph или была своевременно обновлена, она должна быть представлена на веб-страницах в формате, который легко извлекается системами Question Answering. Это подчеркивает важность четкой структуры контента, достоверности и использования микроразметки.

Термины и определения

Disambiguation Query Terms (Термины для устранения неоднозначности): Дополнительные известные факты о сущности (свойства или значения свойств), которые добавляются в генерируемый запрос, чтобы сделать его более конкретным и избежать путаницы с другими сущностями с похожими названиями.
Entity Reference (Ссылка на сущность): Конкретный узел в Knowledge Graph, представляющий реальный объект, концепцию или персону (например, узел «Калифорния»).
Entity Type (Тип сущности): Категория, к которой принадлежит сущность (например, «Штат США»). Определяет ожидаемые свойства сущности.
Knowledge Graph (Граф знаний, База знаний): Структурированная база данных, хранящая информацию в виде узлов (сущностей) и ребер (отношений между ними). Также упоминается как Data Graph.
Missing Data Element (Отсутствующий элемент данных): Свойство сущности, которое ожидается согласно её типу (Schema), но для которого в Knowledge Graph в настоящее время не присвоено значение.
Query Processing Engine (Механизм обработки запросов): Система, которая принимает запрос (например, вопрос на естественном языке) и предоставляет ответ. Может быть поисковой системой или специализированной системой Question Answering (QA).
Query Record (Запись о запросе, Лог запросов): Данные, связанные с ранее выполненными поисками пользователями (например, логи запросов). Используются для выявления устаревшей или недостающей информации в KG.
Schema / Schema Table (Схема): Определение структуры данных для определенного Entity Type, включающее список ожидаемых свойств (например, схема для типа «Город» включает «Население»).

Ключевые утверждения (Анализ Claims)

Патент описывает два основных метода обновления Knowledge Graph: заполнение пробелов на основе схемы (Claims 1-12) и обновление устаревших данных на основе логов запросов (Claims 13-24).

Claim 1 (Независимый пункт): Описывает процесс заполнения пробелов (Gap Filling).

Система идентифицирует сущность (Entity Reference) в Knowledge Graph, соответствующую определенному типу (Entity Type).
Идентифицируется отсутствующий элемент данных (Missing Data Element) — свойство сущности, которому в данный момент не присвоено значение.
В ответ на обнаружение отсутствующего элемента система автоматически генерирует запрос, основанный на этом элементе и типе сущности.
Запрос предоставляется Query Processing Engine.
Получается информация в ответ на запрос.
Knowledge Graph обновляется на основе полученной информации.

Claim 2 (Зависимый): Уточняет механизм идентификации пробела.

Идентификация происходит путем сравнения существующих свойств сущности с таблицей схемы (Schema Table), связанной с типом этой сущности. Если схема включает свойство, для которого у сущности нет значения, это свойство помечается как отсутствующее.

Claims 4 и 5 (Зависимые): Детализируют процесс генерации запроса и использование устранения неоднозначности.

Генерация запроса включает выбор терминов для устранения неоднозначности (Disambiguation Query Terms) из Knowledge Graph. Этими терминами могут быть другие значения свойств (Claim 4) или названия свойств (Claim 5). Итоговый запрос включает как термины, связанные с отсутствующим элементом, так и эти термины для disambiguation.

Claim 13 (Независимый пункт): Описывает процесс обновления данных на основе логов запросов (Data Refresh).

Система идентифицирует элемент данных в Knowledge Graph, который необходимо обновить, основываясь на логах запросов (Query Record). Элемент определяется как устаревший (outdated) на основании конфликта (conflict) между логом запросов и значением свойства в KG.
В ответ на идентификацию устаревшего элемента система автоматически генерирует запрос.
Запрос предоставляется Query Processing Engine.
Получается информация в ответ на запрос.
Knowledge Graph обновляется на основе полученной информации.

Где и как применяется

Изобретение является частью инфраструктуры поддержания и наполнения Базы Знаний Google.

CRAWLING – Сканирование и Сбор данных
Query Processing Engine, используемый в этом патенте, полагается на данные, собранные во время сканирования веба (упоминается как Content), чтобы находить ответы на сгенерированные запросы.

INDEXING – Индексирование и извлечение признаков
Основное применение. Этот процесс отвечает за поддержание актуальности и полноты Knowledge Graph (упоминается как Data Structure). Система работает как процесс обслуживания индекса и обновления данных.

QUNDERSTANDING – Понимание Запросов
Система использует данные, генерируемые на этом этапе, а именно логи запросов (Query Records), как входной сигнал для выявления информации, которая может быть устаревшей или отсутствующей в KG.

Примечание: Сам патент не влияет на ранжирование напрямую, но его результат (обновленный Knowledge Graph) используется системами RANKING и METASEARCH для предоставления прямых ответов и формирования Knowledge Panels.

Входные данные:

Текущее состояние Knowledge Graph (Сущности, Типы, Свойства).
Схемы (Schemas) для различных типов сущностей.
Логи запросов (Query Records).
Контент веба (доступный через Query Processing Engine).

Выходные данные:

Обновленные или новые значения свойств (факты) для сущностей в Knowledge Graph.

На что влияет

Конкретные типы контента: Влияет на фактический контент (статьи, справочники, официальные сайты, базы данных), который содержит четкие утверждения о свойствах сущностей и ответы на вопросы.
Специфические запросы: Влияет на информационные запросы, где пользователи ищут конкретные факты (например, «население Калифорнии», «кто архитектор Эмпайр-стейт-билдинг»).
Конкретные ниши или тематики: Важно для любых сущностей (персоны, компании, места, продукты), где точность и актуальность фактов критичны, включая YMYL-тематики.

Когда применяется

Триггеры активации (Сценарий 1 - Gap Filling): Когда при обходе (crawling) или анализе Knowledge Graph обнаруживается сущность, у которой отсутствует свойство, предусмотренное её схемой (Schema).
Триггеры активации (Сценарий 2 - Data Refresh): Когда анализ логов запросов (Query Records) показывает конфликт с текущими данными в KG, указывая на устаревание информации, или когда пользователи часто ищут информацию, отсутствующую в KG.
Временные рамки и частота: Процесс может выполняться периодически с интервалами, определяемыми для конкретных типов данных (например, на основе анализа Query Records), или непрерывно в фоновом режиме для обслуживания KG.

Пошаговый алгоритм

Процесс А: Заполнение пробелов на основе схемы (Gap Filling)

Идентификация сущности и типа: Система выбирает сущность (Entity Reference) в Knowledge Graph и определяет её тип (Entity Type).
Идентификация пробела: Свойства сущности сравниваются со схемой (Schema Table) её типа. Идентифицируется отсутствующий элемент данных (Missing Data Element) — свойство, для которого нет значения.
Генерация запроса:
1. Система формирует базовый запрос на основе сущности и отсутствующего свойства.
2. Система выбирает другие известные факты о сущности в качестве терминов для устранения неоднозначности (Disambiguation Query Terms). Это могут быть значения свойств или сами свойства.
3. Система формирует итоговый уточненный запрос, часто в форме естественного языка (Natural Language Query). (Например: «Кто архитектор Эмпайр-стейт-билдинг в Нью-Йорке, открытого в 1931 году?»).
Обработка запроса: Запрос отправляется в Query Processing Engine.
Получение и выбор ответа: Система получает ответы. Если получено несколько ответов, может применяться мера уверенности (confidence measure) для выбора наилучшего. Мера может учитывать свежесть (recency) или популярность (popularity) ответа в зависимости от типа свойства.
Обновление KG: Knowledge Graph обновляется, заполняя пробел полученной информацией.

Процесс Б: Обновление на основе логов запросов (Data Refresh)

Анализ логов: Система анализирует Query Records для выявления паттернов, указывающих на проблемы в KG.
Идентификация элемента для обновления: Идентифицируется конкретный элемент данных, который определяется как устаревший (outdated) на основе конфликта между Query Record и текущим значением в KG.
Генерация запроса: Аналогично Процессу А, генерируется точный запрос с использованием Disambiguation Query Terms для поиска актуальной информации.
Обработка и получение ответа: Запрос обрабатывается Query Processing Engine, получается актуальный ответ.
Обновление KG: Значение в Knowledge Graph обновляется на основе полученной информации.

Какие данные и как использует

Данные на входе

Система использует преимущественно структурные и поведенческие данные для инициации процесса, и контентные данные для его завершения.

Структурные факторы:
1. Knowledge Graph Data: Существующие сущности, их типы, свойства и значения. Это основной источник данных для анализа и генерации запросов с целью устранения неоднозначности.
2. Schemas (Схемы): Определения типов сущностей и списки ожидаемых свойств. Используются для выявления отсутствующих элементов данных (Gap Filling).
Поведенческие факторы:
1. Query Records (Логи запросов): Агрегированные данные о ранее выполненных поисках. Используются для выявления устаревших данных (Data Refresh) путем обнаружения конфликтов с KG.
Контентные факторы:
1. Web Content: Текст, таблицы, разметка на веб-страницах. Эти данные анализируются Query Processing Engine для нахождения ответов на сгенерированные запросы.

Какие метрики используются и как они считаются

Патент не детализирует конкретные формулы, но описывает следующие методы и метрики:

Сравнение со схемой (Schema Compliance): Логическое сравнение наличия свойств у сущности с ожидаемым набором свойств в Schema Table её типа.
Анализ Query Records (Conflict Detection): Выявление конфликтов между данными в логах запросов и текущими значениями в KG.
Генерация Natural Language Query: Преобразование структурных данных KG в запросы на естественном языке.
Confidence Measure (Мера уверенности): В описании (не в Claims) упоминается использование мер уверенности для выбора наилучшего ответа. Эти меры могут настраиваться в зависимости от типа свойства (например, приоритет свежести (recency) для «Губернатора» и популярности (popularity) для «Столицы»).

Автоматизация обслуживания Knowledge Graph: Google активно использует автоматизированные методы (Question Answering и поиск) для наполнения и обновления своей Базы Знаний. Система не полагается исключительно на ручной ввод или фиксированные источники данных.
Два ключевых триггера для обновления: Обновления инициируются либо структурными пробелами (Сценарий А: отсутствие свойства, предусмотренного схемой), либо сигналами от пользователей (Сценарий Б: анализ логов запросов, указывающий на устаревание данных из-за конфликта с KG).
Критичность устранения неоднозначности (Disambiguation): Система придает большое значение точности запросов. Она активно использует уже известные факты о сущности (Disambiguation Query Terms) для создания высокоточных запросов, чтобы избежать получения данных о неправильной сущности.
Зависимость от внешнего контента: Knowledge Graph обновляется на основе информации, доступной в вебе. Чтобы попасть в KG, информация должна быть доступна для извлечения Query Processing Engine.
Оценка достоверности ответов: Система может использовать различные меры уверенности (Confidence Measures), такие как свежесть или популярность, для валидации ответов перед обновлением KG.

Best practices (это мы делаем)

Предоставляйте четкие и однозначные факты: Контент должен содержать прямые утверждения о свойствах ключевых сущностей (компании, продукта, персоны). Системы QA (Question Answering) лучше всего извлекают информацию из четко сформулированных предложений, списков определений (dl/dt/dd) и таблиц. Это повышает вероятность того, что ваш сайт будет использован как источник для ответа на сгенерированный запрос.
Используйте структурированные данные (Schema.org): Внедряйте микроразметку, максимально полно описывая сущности и их свойства. Это помогает Query Processing Engine идентифицировать и извлекать факты с большей уверенностью. Согласовывайте вашу разметку с типами и свойствами, которые ожидаются в схемах KG.
Обеспечивайте консистентность данных (Consistency): Убедитесь, что фактическая информация (например, NAP, характеристики продукта, биографические данные) одинакова на вашем сайте и на авторитетных внешних ресурсах. Консистентность повышает уверенность (Confidence Measure) системы при извлечении ответа.
Повышайте авторитетность источника (E-E-A-T): Google с большей вероятностью будет использовать ответы, полученные из источников, которые он считает авторитетными и надежными. Работа над E-E-A-T увеличивает шансы стать источником данных для KG.
Оптимизируйте под свежесть для изменчивых фактов: Для фактов, которые часто меняются (например, цены, руководители, статистика), четко указывайте дату обновления информации. Система может предпочесть более свежие данные (recency) при оценке ответов для определенных типов свойств.

Worst practices (это делать не надо)

Предоставление неоднозначной информации: Использование названий сущностей без контекста или свойств без четких значений. Патент подчеркивает важность Disambiguation Query Terms; если ваш контент сам по себе неоднозначен, он не будет надежным источником для извлечения фактов.
Скрытие фактов в неструктурированном тексте или медиа: Размещение ключевой информации исключительно внутри длинных абзацев без выделения, внутри изображений или видео снижает вероятность её извлечения системами QA.
Противоречивая информация: Размещение разных фактов на разных страницах сайта или наличие конфликтующей информации во внешних источниках снижает доверие к данным и может привести к игнорированию источника.

Стратегическое значение

Патент подтверждает стратегию Google по структурированию мировой информации и превращению поисковой системы в «движок знаний». Для SEO это означает, что работа с сущностями (Entity-Oriented SEO) и предоставление достоверных, легко извлекаемых фактов становятся критически важными. Стратегический приоритет должен отдаваться тому, чтобы стать надежным источником, из которого Google будет извлекать информацию для Knowledge Graph, так как это напрямую влияет на видимость в Knowledge Panels, прямых ответах и других SERP-функциях.

Практические примеры

Сценарий: Обновление информации о CEO компании

Ваша компания сменила генерального директора (CEO), но в Knowledge Panel Google отображается старая информация.

Как работает система Google (согласно патенту): Google может обнаружить это изменение через Сценарий Б (Data Refresh). Анализ Query Records показывает, что пользователи стали чаще искать «новый CEO [Ваша Компания]» или демонстрируют поведение, указывающее на конфликт с текущими данными KG. Это сигнализирует об устаревании данных.
Генерация запроса: Система генерирует запрос, например: «Кто является CEO [Ваша Компания], штаб-квартира в [Город] в [Текущий Год]?», используя известные факты для disambiguation.
Действия SEO-специалиста (для ускорения процесса):
1. Обновить официальный сайт: На странице «Руководство» четко указать нового CEO, используя микроразметку schema.org/Organization и соответствующие свойства (например, ceo, employee, member).
2. Опубликовать пресс-релиз: Убедиться, что текст содержит четкое утверждение: «[Имя Фамилия] назначен генеральным директором [Ваша Компания]».
3. Обновить внешние профили: Обновить информацию в авторитетных бизнес-справочниках и отраслевых каталогах.
Результат: Query Processing Engine находит консистентный и свежий ответ в нескольких авторитетных источниках (включая ваш сайт) и обновляет Knowledge Graph.

Как этот патент влияет на отображение моей компании в Knowledge Panel?

Патент описывает механизм, который Google использует для автоматического сбора и обновления фактов, отображаемых в Knowledge Panel. Если информация о вашей компании отсутствует или устарела, эта система будет пытаться найти актуальные данные в вебе. Чтобы обеспечить корректное отображение, вы должны предоставлять четкую, консистентную и легко извлекаемую информацию на своем сайте и в авторитетных источниках.

Что такое «Disambiguation Query Terms» и почему это важно?

Это дополнительные факты, которые Google добавляет в автоматически сгенерированный запрос, чтобы убедиться, что он ищет информацию о нужной сущности. Например, вместо запроса «Кто архитектор Эмпайр-стейт-билдинг?» система спросит «Кто архитектор Эмпайр-стейт-билдинг в Нью-Йорке, открытого в 1931 году?». Это помогает избежать путаницы с другими сущностями (книгами, фильмами) с таким же названием и гарантирует точность получаемых ответов.

Как система узнает, что информация устарела?

Патент описывает использование Query Records (логов запросов). Если система видит конфликт между тем, что отражено в логах запросов, и тем, что хранится в Knowledge Graph, это служит сигналом к обновлению. Поведение пользователей, указывающее на неудовлетворенность текущими данными KG (например, продолжение поиска после получения ответа), также может инициировать проверку.

Как система узнает, какая информация отсутствует?

Это определяется на основе схемы (Schema) для типа сущности. Если сущность имеет тип «Город», а схема для этого типа предусматривает свойство «Мэр», но в KG это свойство не заполнено для данного города, система идентифицирует это как пробел (Missing Data Element) и инициирует поиск информации для его заполнения.

Как я могу помочь этой системе найти информацию на моем сайте?

Предоставляйте факты в формате, удобном для извлечения системами Question Answering. Используйте четкие формулировки (например, «Население города X составляет Y человек»), структурируйте данные с помощью HTML-таблиц и списков определений (dl/dt/dd), а также внедряйте микроразметку Schema.org. Чем проще машине извлечь факт, тем выше вероятность его использования.

Использует ли Google только Википедию для заполнения Knowledge Graph?

Нет. Хотя Википедия является важным источником, этот патент показывает, что система генерирует запросы и отправляет их в Query Processing Engine (поисковую систему), который анализирует весь доступный веб-контент. Любой авторитетный и достоверный источник может быть использован для заполнения или обновления KG.

Что важнее для этой системы: авторитетность сайта или наличие микроразметки?

Важны оба аспекта. Микроразметка помогает идентифицировать и извлечь факт, делая процесс более эффективным. Однако, чтобы Google принял этот факт и обновил KG, он должен доверять источнику. Система оценивает достоверность ответа (используя Confidence Measures), что часто коррелирует с авторитетностью (E-E-A-T) сайта-источника.

Может ли эта система создать новую сущность в Knowledge Graph?

Патент фокусируется исключительно на обновлении существующих сущностей — заполнении отсутствующих свойств (Gap Filling) или обновлении устаревших значений (Data Refresh). Он не описывает механизм создания совершенно новых сущностей с нуля.

Что делать, если система заполнила Knowledge Graph неверной информацией?

Это означает, что Query Processing Engine нашел неверный ответ в источниках, которые он посчитал достоверными. Необходимо найти эти источники и исправить информацию в них, а также убедиться, что ваш официальный сайт предоставляет корректные данные в максимально четком и структурированном виде. Также следует использовать функцию обратной связи в Knowledge Panel.

Почему система генерирует запросы на естественном языке (Natural Language Queries)?

Многие современные Query Processing Engines оптимизированы для понимания и ответа на вопросы, сформулированные на естественном языке. Преобразование структурного пробела (например, Сущность: X, Свойство: Y, Значение: ?) в естественный вопрос (например, «Какое Y у X?») позволяет эффективно использовать возможности этих систем для поиска ответа в неструктурированном тексте веба.

Как Google использует Knowledge Graph для выбора формата отображения и ранжирования ответов на запросы с модификаторами (например, «лучший», «самый высокий»)

Google использует этот механизм для ответов на запросы, содержащие сущности и модификаторы (например, «самые высокие здания» или «лучшие фильмы»). Система анализирует запрос, извлекает данные из Knowledge Graph и автоматически определяет, как ранжировать результаты (например, по высоте или рейтингу) и в каком формате их представить (например, в виде списка, карты, временной шкалы или диаграммы) на основе свойств сущностей.

US9390174B2
2016-07-12

Knowledge Graph
Семантика и интент
SERP

Как Google оценивает отсутствующие факты для Knowledge Graph и объясняет, на чем основана эта оценка

Google использует статистические модели для заполнения пробелов в Knowledge Graph, когда информация о сущности отсутствует. Система вычисляет недостающий факт (например, дату рождения), анализируя связанные данные (например, возраст супруга). Чтобы повысить доверие к этой оценке, Google показывает пользователю объяснение, основанное на наиболее влиятельных фактах, использованных при расчете.

US9659056B1
2017-05-23

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует Knowledge Graph для автодополнения фактов и проверки точности информации при создании контента

Система анализирует вводимый текст в редакторах (например, Google Docs или Gmail), распознает сущности и их атрибуты, автоматически запрашивает факты у поисковой системы (Knowledge Graph) и предлагает их для вставки. Также она способна проверять уже введенные факты на точность и предлагать исправления в реальном времени.

US20150324339A1
2015-11-12

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи

Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

US20150012558A1
2015-01-08

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга

Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.

US11409812B1
2022-08-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя

Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.

US9235626B2
2016-01-12

Персонализация
SERP
Семантика и интент

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP