Как Google статистически определяет, ищет ли пользователь имя человека, и переранжирует выдачу

Google анализирует, как глаголы и объекты в запросе статистически связаны с именами людей в корпусе документов. Система вычисляет оценку уверенности, что ответ должен содержать имя человека. Если уверенность высока, результаты с именами повышаются в ранжировании; если низка (например, ожидается название организации) — понижаются.

Описание

Какую задачу решает

Патент решает проблему неоднозначности интента в запросах, которые могут требовать в ответе разные типы сущностей, особенно в вопросах типа «Кто». Система должна различать, когда ответом является имя человека (например, «Кто выиграл French Open?»), а когда — название организации или объекта (например, «Кто выиграл Super Bowl?»). Цель — повысить точность ответов (особенно для голосового поиска и Featured Snippets), предотвращая выдачу неверного типа сущности.

Что запатентовано

Запатентована система для вычисления Name-triggering confidence score — оценки уверенности в том, что запрос ищет имя человека. Эта система основана на статистическом анализе отношений Субъект-Глагол-Объект (Subject-Verb-Object), предварительно извлеченных из корпуса документов. Система определяет, как часто определенные комбинации Глагола и Объекта ассоциируются с Субъектом, являющимся именем человека.

Как это работает

Механизм работает в два этапа:

Офлайн (Индексирование): Система анализирует документы, извлекает отношения (Relations) S-V-O и определяет, является ли Субъект (S) именем человека. Статистика по ассоциациям V-O с именами людей агрегируется и сохраняется в Name-triggering information repository.
Онлайн (Обработка запроса и Переранжирование): При получении запроса система извлекает Глагол и Объект. Используя сохраненную статистику, она вычисляет Confidence Score. Если оценка высока, система повышает (boosts) в ранжировании результаты, содержащие имена людей. Если оценка низка, она их понижает (demotes).

Актуальность для SEO

Высокая. Точное определение ожидаемого типа сущности (Entity Type Prediction) является критически важной задачей для современных поисковых систем, особенно для Featured Snippets, голосового поиска и диалоговых ассистентов. Этот патент описывает конкретный статистический метод для улучшения качества ответов на фактографические вопросы.

Важность для SEO

Патент имеет значительное влияние на SEO (75/100). Он демонстрирует, что Google не просто ищет соответствие ключевых слов, но и оценивает ожидаемый тип ответа на уровне сущности. Если контент предоставляет не тот тип сущности, который система ожидает (например, компанию вместо человека), его ранжирование может быть искусственно понижено, даже при высокой текстуальной релевантности запросу.

Детальный разбор

Термины и определения

Affirmative Instance (Подтверждающий пример): Случай, когда комбинация Глагол+Объект (или связанный термин) встречается в отношении (Relation), где Субъект является именем человека.
Confidence Score / Name-triggering score (Оценка уверенности): Вычисленная вероятность того, что ответ на запрос должен содержать имя человека. Рассчитывается путем взвешивания трех компонентных оценок (S1, S2, S3).
Document Term (Термин документа): Термин (Объект), извлеченный непосредственно из документа в процессе анализа отношений. В контексте анализа запроса — это Объект запроса.
Name-triggering Query (Запрос, требующий имени): Запрос, результаты которого должны быть переранжированы для продвижения результатов, включающих имя собственное человека (согласно определению в Claim 1).
Negative Instance (Отрицательный пример): Случай, когда комбинация Глагол+Объект (или связанный термин) встречается в отношении, где Субъект НЕ является именем человека.
Relation (Отношение): Структура данных, извлеченная из предложения, состоящая из Субъекта (Subject), Глагола (Verb) и Объекта (Object). Например: «Rafael Nadal (S) won (V) the French Open (O)».
Related Term (Связанный термин): Термин, семантически связанный с Объектом (например, «теннис» связан с «French Open»). Используется для расширения статистического анализа.

Ключевые утверждения (Анализ Claims)

Анализ основан на формулировках (Claims) патента US9594806B1.

Claim 1 (Независимый пункт): Описывает основной метод обработки запроса и условия активации.

Система получает запрос.
Определяется, что запрос содержит два или более конкретных термина (например, Глагол и Объект).
Критическое условие: Определяется, что термины запроса НЕ содержат имени собственного (proper name).
На основе пунктов 2 и 3 система определяет, является ли запрос name-triggering query (определен как запрос, чьи результаты должны быть переоценены для продвижения результатов, включающих имя собственное индивидуума).
Система идентифицирует и предоставляет ответ на запрос, основываясь на этом определении.

Ядро изобретения — это классификация запросов, которые сами не содержат имен, но подразумевают имя в ответе, и использование этой классификации для влияния на финальный ответ.

Claim 2 (Зависимый от 1): Уточняет механизм определения.

Конкретные термины идентифицируются как Объект и Глагол.
Вычисляется name-triggering score на основе Объекта и Глагола.
Запрос определяется как name-triggering query, если оценка удовлетворяет пороговому значению.

Claim 3 (Зависимый от 2): Детализирует расчет name-triggering score путем комбинирования трех оценок (S1, S2, S3).

Первая оценка (S1): Основана на статистике (data items), связывающей Глагол с Объектом И Глагол со Связанными терминами (Related terms). (Комбинированный набор данных).
Вторая оценка (S2): Основана на статистике, связывающей Глагол с Объектом, и НЕ основана на данных о Связанных терминах (Только Объект).
Третья оценка (S3): Основана на статистике, связывающей Глагол со Связанными терминами, и НЕ основана на данных об Объекте (Только Связанные термины).

Claim 4 и 5 (Зависимые): Уточняют метод комбинирования.

Используется взвешенное среднее (weighted average). Claim 5 определяет конкретное соотношение весов: Вес Второй оценки (S2, Только Объект) больше веса Первой (S1), а вес Первой больше веса Третьей (S3, Только Связанные термины). (Вес S2 > Вес S1 > Вес S3). Это приоритизирует точность (S2) над охватом (S3).

Где и как применяется

Изобретение охватывает офлайн-процессы индексирования и онлайн-процессы обработки запросов и ранжирования.

INDEXING – Индексирование и извлечение признаков (Офлайн)

На этом этапе происходит подготовка данных. Система выполняет глубокий NLP-анализ корпуса документов: парсинг предложений, извлечение отношений (S-V-O), распознавание имен людей (NER) с использованием Name Repository и определение связанных терминов с использованием Related Terms Repository. Статистика (Affirmative/Negative Instances) агрегируется и сохраняется в Name-triggering information repository.

QUNDERSTANDING – Понимание Запросов (Онлайн)

На этом этапе анализируется входящий запрос. Система классифицирует его (определяет как потенциальный name-triggering query), извлекает Глагол и Объект. Затем она рассчитывает Name-triggering confidence score в реальном времени, используя статистику, собранную на этапе INDEXING.

RERANKING – Переранжирование (Онлайн)

На финальном этапе система использует вычисленный Confidence Score для корректировки базовых оценок ранжирования (Result Scores). Происходит повышение (boosting) или понижение (demotion) результатов в зависимости от того, содержат ли они имена людей и какова уверенность системы.

Входные данные:

Корпус документов (Офлайн).
Базы данных имен и связанных терминов (Офлайн).
Входящий запрос и начальный набор результатов поиска с их Result Scores (Онлайн).

Выходные данные:

Name-triggering information repository (Офлайн).
Скорректированный (переранжированный) набор результатов поиска (Онлайн).

На что влияет

Специфические запросы: Наибольшее влияние на информационные запросы, сформулированные как вопросы, особенно начинающиеся с «Кто» (Who), «Кого» (Whom), где существует неоднозначность типа ответа.
Типы контента: Влияет на ранжирование контента, предоставляющего фактографические ответы: биографии, новости, результаты событий, страницы авторов.
Форматы выдачи: Критически важно для выбора Featured Snippets и ответов голосовых ассистентов.

Когда применяется

Триггеры активации: Алгоритм активируется, когда запрос классифицируется как потенциальный name-triggering query. Согласно Claim 1, это происходит, если запрос содержит несколько терминов (Глагол, Объект) и НЕ содержит имени собственного.
Пороговые значения: Система использует два порога для Confidence Score:
- Threshold 1 (Высокий): Если оценка выше, активируется повышение (boosting) результатов с именами.
- Threshold 2 (Низкий): Если оценка ниже, активируется понижение (demotion) результатов с именами.
Исключения: Если Confidence Score находится между порогами (амбивалентный случай), корректировка ранжирования может не применяться (Forego modifying result scores).

Пошаговый алгоритм

Процесс А: Офлайн-генерация статистики (INDEXING)

Идентификация документа и Парсинг: Выбор документа и разделение его на предложения.
Извлечение отношений: Извлечение структур Субъект-Глагол-Объект (Relations).
Анализ Субъекта: Определение, является ли Субъект именем человека (используя Name Repository).
Анализ Объекта: Идентификация терминов, связанных с Объектом (используя Related Terms Repository).
Агрегация и Сохранение: Обновление счетчиков в Name-triggering information repository. Для комбинации Глагол+Объект и Глагол+СвязанныйТермин инкрементируется счетчик Affirmative instance (если субъект — имя) или Negative instance (если субъект — не имя).

Процесс Б: Онлайн-обработка запроса (QUNDERSTANDING & RERANKING)

Получение и Классификация запроса: Получение запроса и определение его как потенциального name-triggering query (проверка условий Claim 1).
Извлечение компонентов: Извлечение Глагола и Объекта из запроса.
Поиск статистики: Запрос к репозиторию для получения счетчиков Affirmative (A) и Negative (N) Instances.
Расчет субоценок (На основе Claim 3): Вычисление трех оценок. Пример формулы: A/(A+N).
- S1: На основе данных по Объекту И Связанным терминам.
- S2: На основе данных только по Объекту.
- S3: На основе данных только по Связанным терминам.
Расчет Confidence Score (На основе Claim 5): Вычисление итоговой оценки путем взвешенного усреднения (Вес S2 > Вес S1 > Вес S3).
Получение результатов поиска: Получение списка документов и их базовых Result Scores.
Переранжирование:
- Если Confidence Score > Threshold 1: Увеличить Result Scores документов, содержащих имена людей.
- Если Confidence Score < Threshold 2: Уменьшить Result Scores документов, содержащих имена людей.
Вывод результатов: Предоставление отсортированного списка на основе скорректированных оценок.

Какие данные и как использует

Данные на входе

Патент опирается на лингвистический анализ контента и данные о сущностях.

Контентные и Структурные факторы: Текст документов является основным источником данных. Система анализирует синтаксическую структуру предложений для извлечения отношений Субъект-Глагол-Объект.
Системные данные (Entity Data):
- Name Repository: База данных имен людей. Критически важна для классификации Субъектов.
- Related Terms Repository: База данных или система (например, Knowledge Graph) для определения семантической связи между терминами.

Какие метрики используются и как они считаются

Affirmative Instances (A) и Negative Instances (N): Счетчики вхождений комбинаций Глагол+Объект, где Субъект является (A) или не является (N) именем человека.
Субоценки (S1, S2, S3): Рассчитываются как нормализованное отношение подтверждающих примеров. В патенте приводится пример формулы: A/(A+N). Они рассчитываются для разных наборов данных (как описано в анализе Claim 3).
Весовые коэффициенты: Используются для взвешивания субоценок. Claim 5 определяет их соотношение: Вес S2 > Вес S1 > Вес S3.
Name-triggering confidence score: Итоговая метрика. Рассчитывается как взвешенное среднее субоценок. Пример формулы: (a*S1 + b*S2 + c*S3) / d.
Thresholds 1 и 2: Предопределенные пороговые значения для активации переранжирования.

Выводы

Предсказание типа ответа на основе статистики: Патент демонстрирует, как Google использует статистический анализ языковых паттернов (отношений S-V-O) в корпусе документов для определения ожидаемого типа сущности в ответе (человек или нет). Это не основано на жестких правилах, а на наблюдаемых данных.
Критичность извлечения отношений (Relation Extraction): Система фундаментально зависит от способности точно извлекать отношения Субъект-Глагол-Объект (S-V-O) из текста. Качество NLP-анализа напрямую влияет на точность классификации запросов.
Баланс точности и охвата через взвешивание: Система использует связанные термины (Related Terms) для расширения охвата (S3), но придает наибольший вес (согласно Claim 5) статистике по точному совпадению Объекта запроса (S2), что обеспечивает точность (Precision).
Переранжирование на основе типа сущности: Это конкретный механизм переранжирования (Reranking/Twiddler), который корректирует выдачу на финальном этапе. Соответствие типа сущности в документе ожидаемому типу в запросе становится важным фактором ранжирования для вопросительных запросов.
Офлайн-анализ для онлайн-решений: Эффективность системы в реальном времени обеспечивается масштабным предварительным анализом и агрегацией статистики на этапе индексирования.

Практика

Best practices (это мы делаем)

Обеспечение синтаксической ясности контента: Пишите контент с четкой структурой предложений, чтобы облегчить извлечение отношений Субъект-Глагол-Объект. Убедитесь, что действующее лицо (Субъект) и действие (Глагол) ясно связаны. Используйте активный залог (Например: «Джеймс Кэмерон снял Титаник»). Это помогает системе правильно атрибутировать действия сущностям.
Точное соответствие интенту и типу ответа: Анализируйте запросы типа «Кто» в вашей нише. Если ожидается имя человека, ваш контент должен четко предоставлять это имя как ответ. Если ожидается организация, фокус должен быть на ней. Соответствие типу сущности повышает шансы на высокое ранжирование после активации этого механизма.
Оптимизация под Featured Snippets: Поскольку механизм направлен на улучшение точности ответов на вопросы, структурируйте контент так, чтобы он мог служить прямым ответом. Это повышает вероятность попадания в Featured Snippets, так как система сможет корректно классифицировать тип информации.
Использование микроразметки для сущностей: Используйте Schema.org (Person, Organization), чтобы помочь Google однозначно идентифицировать тип сущностей на странице. Это может усилить сигналы, используемые на этапе RERANKING для определения, содержит ли результат имя человека.

Worst practices (это делать не надо)

Неоднозначные формулировки и пассивный залог: Избегайте конструкций, где субъект действия неясен (например, «Награда была вручена…» вместо «Академия вручила награду [Имя]»). Это затрудняет извлечение отношений (Relation Extraction) и может привести к неверной интерпретации контента.
Подмена типа сущности (Entity Switching): Попытки ранжировать страницу компании по запросу, который статистически требует имени человека (высокий Confidence Score). Система может активно понизить такой результат, так как он не соответствует ожидаемому типу ответа.
Игнорирование семантической структуры текста: Создание контента, из которого сложно понять контекст и связи между сущностями и действиями. Это ухудшает качество данных, которые Google собирает для своего статистического анализа и извлечения фактов.

Стратегическое значение

Патент подтверждает стратегическую важность NLP и извлечения фактов для понимания контента и интента пользователя. Для SEO это означает, что оптимизация смещается от ключевых слов к сущностям и отношениям между ними (Things not Strings). Долгосрочная стратегия должна фокусироваться на создании структурированного, фактического контента, который помогает поисковым системам легко извлекать факты и предоставлять точные ответы ожидаемого типа.

Практические примеры

Сценарий 1: Запрос, требующий имени человека (Высокий Confidence Score)

Запрос: «Кто режиссер фильма Аватар».
Анализ Google: Извлекаются Глагол (режиссер/directed) и Объект (Аватар). Статистика показывает, что эта комбинация почти всегда ассоциируется с человеком (Affirmative instances высоки). Confidence Score > Threshold 1.
Действие: Система активирует повышение результатов с именами людей (например, Джеймс Кэмерон).
Результат для SEO: Страница биографии Джеймса Кэмерона или страница фильма с явным указанием режиссера в формате S-V-O («Джеймс Кэмерон снял Аватар») получает буст в ранжировании.

Сценарий 2: Запрос, НЕ требующий имени человека (Низкий Confidence Score)

Запрос: «Кто выиграл Super Bowl в 1992 году».
Анализ Google: Извлекаются Глагол (выиграл/won) и Объект (Super Bowl в 1992). Статистика показывает, что эта комбинация чаще ассоциируется с командами, а не с отдельными людьми (Negative instances высоки). Confidence Score < Threshold 2.
Действие: Система активирует понижение результатов, фокусирующихся на именах людей.
Результат для SEO: Страница, фокусирующаяся на команде («The Washington Redskins выиграли Super Bowl»), получит приоритет над страницей, фокусирующейся на игроке (например, MVP Марк Рипьен), так как система ожидает название команды.

Вопросы и ответы

Что такое «Name-triggering query»?

Это запрос, на который система ожидает получить ответ, содержащий имя человека, например, «Кто изобрел радио?». Патент описывает статистический метод для определения таких запросов и последующего переранжирования выдачи, чтобы продвинуть страницы, содержащие имена людей, если это необходимо.

Как Google определяет, что ответ должен быть именем человека?

Google анализирует миллиарды документов офлайн и извлекает отношения Субъект-Глагол-Объект (SVO). Система считает, как часто определенная комбинация Глагола и Объекта встречается с Субъектом-человеком (Affirmative instance) по сравнению с Субъектом-не человеком (Negative instance). На основе этой статистики вычисляется Confidence Score для запроса.

Как рассчитывается Confidence Score?

Он рассчитывается как взвешенное среднее трех компонентных оценок (S1, S2, S3). S1 учитывает статистику по Объекту запроса И связанным терминам. S2 учитывает только Объект запроса. S3 учитывает только связанные термины. Согласно Claim 5 патента, наибольший вес имеет S2 (точное соответствие Объекта).

Что происходит, если Google уверен, что ответ должен быть именем (высокий Confidence Score)?

Если оценка превышает высокий порог (Threshold 1), система переранжирует результаты. Оценки (Result Scores) документов, содержащих имена людей и релевантных запросу, увеличиваются (boosting). Документы без имен могут быть понижены.

Что происходит, если Google уверен, что ответ НЕ должен быть именем (низкий Confidence Score)?

Если оценка ниже низкого порога (Threshold 2), система также переранжирует результаты, но в обратную сторону. Документы, содержащие имена людей, могут быть понижены (demotion), а приоритет отдается другим типам сущностей (например, организациям или командам).

Как этот патент влияет на создание контента и SEO?

Ключевое значение приобретает ясность и структура текста. Необходимо использовать четкие предложения в формате Субъект-Глагол-Объект. Это помогает алгоритмам NLP корректно извлекать отношения (Relation Extraction) и гарантирует, что ваш контент будет правильно интерпретирован при ответе на фактографические запросы.

Что такое «Related Terms» (Связанные термины) и зачем они нужны?

Это семантически близкие термины к объекту запроса (например, «чемпионат» для «Super Bowl»). Они используются для расширения анализа и обобщения данных, если по точному объекту недостаточно статистики. Это делает систему более гибкой и позволяет обрабатывать редкие запросы.

Влияет ли этот патент на Featured Snippets?

Да, напрямую. Featured Snippets предназначены для прямых ответов. Этот механизм помогает системе выбрать сниппет, который содержит сущность правильного типа (человек или нет). Соответствие ожидаемому типу ответа критично для попадания в Featured Snippet.

Применяется ли этот алгоритм ко всем запросам?

Нет. Он активируется преимущественно для запросов, классифицированных как потенциальные name-triggering queries. Обычно это вопросы, начинающиеся с «Кто», «Кого» и т.п., которые при этом (согласно Claim 1) не содержат имен собственных в самом тексте запроса.

На каком этапе поиска работает этот механизм?

Он задействует три этапа. Сбор статистики происходит на этапе Индексирования (INDEXING). Вычисление Confidence Score происходит на этапе Понимания Запроса (QUNDERSTANDING). А фактическая корректировка оценок происходит на финальном этапе Переранжирования (RERANKING).