Как Google извлекает факты из веб-страниц для прямых ответов и автоматического наполнения Knowledge Graph

DETERMINING ANSWERS TO INTERROGATIVE QUERIES USING WEB RESOURCES (Определение ответов на вопросительные запросы с использованием веб-ресурсов)

US20160132501A1
Google LLC
2015-05-11
2016-05-12

Google использует систему для ответов на вопросительные запросы. Система анализирует текстовые сниппеты из результатов поиска, применяет NLP-анализ (аннотирование) для извлечения кандидатов в ответы и выбирает лучший на основе консенсуса и качества источников. Этот механизм используется как для предоставления прямых ответов пользователям (Featured Snippets), так и для автоматического поиска недостающей информации и обновления базы знаний (Entity Database).

Какую проблему решает

Патент решает две ключевые задачи в работе поисковой системы:

Прямые ответы пользователям: Предоставление конкретного ответа на вопросительный запрос пользователя (Interrogative Query), например, "какая самая высокая точка в Луисвилле?". Это соответствует механизму Featured Snippets.
Автоматическое наполнение Базы Знаний: Автоматическое извлечение фактов из неструктурированного веб-контента для наполнения, верификации и обновления структурированной базы данных сущностей (Entity Database, например, Knowledge Graph). Это решает проблему масштабирования базы знаний без ручного труда.

Что запатентовано

Запатентована система (Answer System), которая использует существующую поисковую инфраструктуру для извлечения ответов на вопросы. Суть изобретения заключается в методологии анализа текстовых сниппетов (Snippets) из результатов поиска с помощью продвинутого NLP-анализа (Annotator) для идентификации кандидатов в ответы. Система выбирает финальный ответ на основе различных сигналов, включая частоту упоминания факта и качество источников.

Как это работает

Ключевой механизм работает следующим образом:

Инициация: Система получает вопросительный запрос от пользователя или автоматически генерирует его для поиска недостающего факта в Entity Database (например, если отсутствует объект в триплете (Субъект, Связь, ?)).
Получение данных: Запрос отправляется в поисковую систему, которая возвращает релевантные ресурсы и текстовые сниппеты из них.
Аннотирование (NLP): Компонент Annotator обрабатывает сниппеты, выполняя разметку частей речи, синтаксический анализ, распознавание сущностей и разрешение кореференции.
Извлечение кандидатов: Candidate Answers Engine извлекает потенциальные ответы, основываясь на аннотациях и типе вопроса (например, если вопрос содержит "где", ищутся локации).
Выбор ответа: Answer(s) Selection Engine оценивает кандидатов, используя скоринг, основанный на количестве подтверждающих сниппетов/ресурсов и качестве этих ресурсов.
Применение: Ответ либо отображается пользователю (например, в Featured Snippet), либо используется для обновления Entity Database.

Актуальность для SEO

Высокая. Патент описывает фундаментальные механизмы, лежащие в основе двух критически важных функций современного поиска Google: предоставление прямых ответов (Featured Snippets) и автоматизированное построение и обновление Knowledge Graph. Эти технологии активно развиваются и применяются.

Важность для SEO

Патент имеет критическое значение для SEO (9/10). Он детально описывает, как именно Google извлекает структурированные факты из неструктурированного текста. Понимание этого процесса необходимо для эффективной оптимизации контента под Featured Snippets и для обеспечения того, чтобы Google корректно распознавал сущности, их атрибуты и связи на сайте, что влияет на представление сайта в Knowledge Graph и общую авторитетность.

Термины и определения

Answer System (Система ответов): Основная система, описанная в патенте, которая определяет ответы на вопросительные запросы.
Interrogative Query (Вопросительный запрос): Запрос, сформулированный как вопрос, требующий конкретного ответа. Может быть введен пользователем или сгенерирован автоматически.
Entity Database (База данных сущностей): Структурированная база данных, определяющая сущности и связи между ними (например, Knowledge Graph).
(Subject, Relationship, Object) Triple (Триплет): Основная структура данных в Entity Database для хранения фактов (например, (Барт Симпсон, Сестры, Лиза Симпсон)).
Annotator (Аннотатор): Компонент, выполняющий NLP-анализ текста. Включает Part of speech tagger, Dependency parser, Entity tagger и Coreference resolver.
Snippets (Сниппеты): Текстовые фрагменты, извлеченные из веб-ресурсов, которые релевантны Interrogative Query.
Candidate Answers (Кандидаты в ответы): Потенциальные ответы, извлеченные из аннотированных сниппетов.
Relationship Entity (Связанная сущность): Сущность, которая является ответом на вопрос и выступает объектом в триплете.

Ключевые утверждения (Анализ Claims)

Основной фокус патента (в частности, Claim 1) направлен на автоматическое наполнение базы знаний, хотя в описании также рассматривается ответ на запросы пользователей.

Claim 1 (Независимый пункт): Описывает метод наполнения структурированной базы данных.

Определение, что у сущности отсутствует достаточная связь (sufficient association) для определенного отношения (relationship) в базе данных.
Генерация как минимум одного interrogative query на основе этой сущности и отношения.
Идентификация textual snippets из результатов поиска, релевантных запросу.
Определение одного или нескольких candidate answers на основе этих сниппетов.
Выбор как минимум одного ответа из кандидатов.
Определение связи для этого отношения в базе данных между исходной сущностью и relationship entity, ассоциированной с выбранным ответом.

Claim 3 (Зависимый): Описывает рекурсивный процесс обнаружения новых сущностей.

Если система определяет, что relationship entity (найденный ответ) ранее не была определена в базе данных, она генерирует дополнительные вопросительные запросы на основе этой новой сущности и других отношений. Затем она определяет связи для новой сущности на основе ответов на эти дополнительные запросы. Это позволяет автоматически расширять базу знаний, находя не только факты о существующих сущностях, но и открывая новые.

Claim 5 (Зависимый): Описывает процесс валидации новой сущности.

Если relationship entity не определена в базе, система генерирует дополнительные запросы для определения того, является ли она валидной сущностью (valid entity). Связь в базу данных добавляется только после подтверждения валидности.

Claim 7 (Зависимый): Описывает механизм разрешения неоднозначности (Disambiguation).

Если ответ неоднозначен, система идентифицирует известные отношения для потенциальных сущностей. Генерируется дополнительный запрос, включающий исходную сущность и потенциальную сущность из ответа. Система проверяет, подтверждают ли результаты поиска известное отношение этой потенциальной сущности. Это помогает убедиться, что извлеченная сущность является корректной в данном контексте.

Claim 12 (Зависимый): Детализирует метод извлечения кандидатов.

Кандидаты определяются на основе того, связаны ли они с грамматической характеристикой (grammatical characteristic), которая соответствует искомому отношению. Например, если ищется отношение "место рождения", система будет искать кандидатов с характеристикой "локация".

Claims 13, 14, 15 (Зависимые): Детализируют методы выбора (скоринга) ответа.

Выбор лучшего ответа может основываться на:

Количестве сниппетов, включающих ссылку на этот ответ (Claim 13).
Количестве уникальных ресурсов (сайтов), включающих сниппеты с этим ответом (Claim 14).
Показателях (measures), ассоциированных с ресурсами, которые содержат ответ (например, рейтинг или качество ресурса) (Claim 15).

Где и как применяется

Изобретение применяется на нескольких этапах поиска и в офлайн-процессах.

INDEXING – Индексирование и извлечение признаков
Компонент Annotator может использоваться на этапе индексирования для глубокого NLP-анализа контента (разметка частей речи, синтаксический анализ, распознавание сущностей). Также на этом этапе (или в связанных офлайн-процессах) происходит формирование и обновление Entity Database.

QUNDERSTANDING – Понимание Запросов
Система должна определить, является ли запрос пользователя вопросительным (Interrogative Query), чтобы активировать Answer System.

RANKING – Ранжирование
Стандартная поисковая система (Search System) используется для поиска релевантных веб-ресурсов и генерации Snippets, которые затем передаются в Answer System.

METASEARCH – Метапоиск и Смешивание
Если Answer System успешно находит ответ на запрос пользователя, этот ответ может быть интегрирован в выдачу, часто на выделенной позиции (например, Featured Snippet), как показано на примере FIG. 6.

Офлайн-процессы (Наполнение Базы Знаний)
Система активно работает офлайн (как описано в FIG. 2 и FIG. 4) для итеративного поиска пробелов в Entity Database, генерации запросов и наполнения базы новыми фактами, извлеченными из веба.

Входные данные:

Interrogative Query (пользовательский или сгенерированный).
Snippets из результатов поиска.
Данные из Entity Database (существующие триплеты, алиасы сущностей).

Выходные данные:

Ответ для презентации пользователю.
Новый триплет (Subject, Relationship, Object) для добавления в Entity Database.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные запросы, содержащие вопросительные слова ("кто", "что", "где", "когда", "как") или подразумевающие поиск фактов.
Конкретные типы контента: Влияет на любой контент, содержащий фактическую информацию, которая может быть представлена в виде триплетов: статьи, биографии, справочники, описания продуктов и локаций.

Когда применяется

Алгоритм применяется в двух основных сценариях:

В реальном времени: Когда пользователь вводит запрос, идентифицированный как Interrogative Query.
В офлайн-режиме: Когда система выполняет задачу по расширению или верификации Entity Database и обнаруживает сущность, у которой отсутствует связь (lacks sufficient association) для определенного отношения (например, не указано место рождения).

Пошаговый алгоритм

Описание процесса автоматического наполнения Базы Знаний (на основе FIG. 4):

Идентификация пробела: Система анализирует Entity Database и находит сущность, для которой отсутствует объект в триплете (например, (Барт Симпсон, Сестры, ?)).
Генерация запроса: Interrogative Query Engine генерирует один или несколько вопросительных запросов, используя алиасы сущности и термины, связанные с отношением (например, "кто сестры Барта Симпсона?").
Получение сниппетов: Запрос отправляется в поисковую систему, которая возвращает Snippets из топовых релевантных документов.
Аннотирование: Annotator обрабатывает сниппеты, выполняя NLP-анализ (например, идентифицирует "Лиза" и "Мэгги" как сущности типа "Персона" и определяет их синтаксическую связь со словом "сестры").
Извлечение кандидатов: Candidate Answers Engine извлекает потенциальные ответы. Отбор происходит на основе соответствия типа ответа типу отношения (например, для "сестры" ищутся "Персоны") и синтаксических связей в тексте сниппета.
Оценка и выбор ответа: Answer(s) Selection Engine рассчитывает оценку уверенности (score) для каждого кандидата. Оценка базируется на количестве подтверждающих сниппетов, количестве уникальных ресурсов и качестве этих ресурсов. Выбираются ответы, превысившие порог.
Валидация и разрешение сущности: Система проверяет, существуют ли найденные ответы в Entity Database. Если ответ двусмысленный или новый, могут быть сгенерированы дополнительные запросы для его уточнения (Claim 7) или валидации (Claims 3, 5).
Обновление Базы Данных: Система определяет новую связь в Entity Database (например, (Барт Симпсон, Сестры, {Лиза Симпсон, Мэгги Симпсон})).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст сниппетов (Snippets) из веб-ресурсов. Это основной источник для извлечения фактов.
Структурные данные (из Entity Database):
- Существующие сущности и их уникальные идентификаторы.
- Алиасы сущностей (используются для генерации запросов и поиска упоминаний в сниппетах).
- Существующие отношения (триплеты).
Системные данные (из Search System): Показатели качества или рейтинг ресурсов (measures associated with the search result resources), из которых получены сниппеты. Используются для оценки достоверности извлеченных фактов.

Какие метрики используются и как они считаются

Система использует два основных набора метрик: NLP-метрики для анализа текста и метрики достоверности для выбора ответа.

NLP-метрики (Annotator):

Part of Speech Tagging (Разметка частей речи): Определение грамматической роли термина (существительное, глагол и т.д.).
Dependency Parsing (Синтаксический анализ зависимостей): Определение синтаксических отношений между терминами (например, построение дерева разбора для понимания, кто субъект, а кто объект в предложении).
Entity Tagging (Распознавание именованных сущностей): Аннотирование упоминаний сущностей в тексте и их типизация (Персона, Локация, Организация и т.д.).
Coreference Resolution (Разрешение кореференции): Группировка упоминаний, относящихся к одной и той же сущности (например, "Барт Симпсон", "Барт" и "он").

Метрики выбора ответа (Answer Selection):

Snippet Count (Количество сниппетов): Частота, с которой кандидат упоминается в сниппетов (Claim 13).
Resource Count (Количество ресурсов): Количество уникальных веб-ресурсов (сайтов), подтверждающих ответ (Claim 14).
Resource Quality/Ranking (Качество/Рейтинг ресурсов): Использование показателей авторитетности или ранжирования источников, подтверждающих ответ (Claim 15).
Score (Оценка уверенности): Агрегированная метрика, рассчитываемая для каждого кандидата на основе вышеперечисленных факторов.

Автоматизация Knowledge Graph: Патент демонстрирует конкретный механизм, как Google автоматически извлекает факты из неструктурированного веба для построения и обновления своей структурированной базы знаний (Entity Database). Система не полагается только на ручную модерацию или структурированные данные (например, Schema.org).
Рекурсивное обнаружение сущностей: Система способна не только находить атрибуты известных сущностей, но и обнаруживать совершенно новые сущности и рекурсивно исследовать их связи для добавления в базу знаний (Claim 3).
NLP как основа извлечения фактов: Ключевую роль в понимании контента играет Annotator. Извлечение фактов основано на глубоком лингвистическом анализе (синтаксис, грамматика, распознавание сущностей), а не просто на поиске ключевых слов. Система ищет определенные языковые паттерны.
Важность консенсуса и качества источников: При выборе правильного ответа система полагается на консенсус (количество сниппетов и ресурсов, подтверждающих факт) и качество этих ресурсов (Claims 13-15). Это подчеркивает важность E-E-A-T и консистентности информации в вебе.
Единый механизм для FS и KG: Описанный механизм используется как для ответов на запросы пользователей в реальном времени (Featured Snippets), так и для офлайн-наполнения Knowledge Graph. Оптимизация под одно улучшает видимость в другом.

Best practices (это мы делаем)

Обеспечение ясности и простоты формулировок (Clarity): Пишите контент так, чтобы Annotator мог легко выполнить синтаксический разбор предложений и определить связи между сущностями. Используйте четкие, недвусмысленные утверждения при описании фактов (например, "[Сущность] является [Объектом]" или "[Сущность] родилась в [Локация]").
Использование паттернов "Вопрос-Ответ": Структурируйте контент так, чтобы он явно отвечал на потенциальные Interrogative Queries. Это увеличивает шансы на попадание в Featured Snippets, так как система ищет именно такие ответы.
Консистентность и точность фактов: Поскольку система ищет консенсус (Resource Count, Snippet Count) для выбора ответа, важно, чтобы предоставляемые вами факты были точными и соответствовали информации на других авторитетных ресурсах.
Развитие авторитетности ресурса (E-E-A-T): Качество ресурса (Resource Quality) используется как фактор при оценке достоверности извлеченного факта (Claim 15). Авторитетные сайты имеют больший вес в формировании ответов и Knowledge Graph.
Насыщение контента сущностями и связями: Помогайте системе обнаруживать новые связи и подтверждать существующие, подробно описывая сущности и их взаимоотношения с другими сущностями в тексте.

Worst practices (это делать не надо)

Сложные и двусмысленные формулировки: Использование слишком сложных предложений, метафор или иронии при описании фактов затрудняет работу Dependency Parser и Entity Tagger, снижая вероятность корректного извлечения информации.
Изоляция фактов от текста: Предоставление ключевых фактов только в виде изображений, видео или сложной инфографики без текстового сопровождения делает их недоступными для анализа Annotator.
Противоречие авторитетным источникам: Публикация фактов, которые противоречат общепринятому консенсусу в авторитетных источниках. Система, скорее всего, проигнорирует такие данные, так как они не будут подтверждены достаточным количеством качественных ресурсов.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на переход от поиска по ключевым словам к поиску, основанному на сущностях и фактах. Для SEO это означает, что оптимизация должна фокусироваться не только на релевантности запросу, но и на способности контента служить надежным источником структурированных знаний. Стратегия должна включать работу над тем, чтобы Google воспринимал сайт как источник достоверных фактов, что достигается через ясность контента и высокий уровень E-E-A-T.

Практические примеры

Сценарий: Оптимизация страницы для извлечения фактов (Featured Snippet и Knowledge Graph)

Задача: Обеспечить извлечение факта о месте рождения известной личности.

Анализ Интента: Определить вероятный запрос пользователя: "где родился [Имя]?" или потребность системы: ([Имя], Место Рождения, ?).
Плохая реализация (сложно для извлечения): "[Имя], чья карьера охватила десятилетия, начал свой жизненный путь в шумном мегаполисе [Город], куда его родители переехали за год до этого..." (Слишком много дополнительной информации, синтаксис усложнен).
Хорошая реализация (легко для извлечения): "[Имя] родился в [Город], [Страна]." (Четкое утверждение, прямой синтаксис: Субъект - Глагол - Объект).
Действие: Разместить хорошую реализацию в prominent месте (например, в первом абзаце или в блоке краткой информации).
Ожидаемый результат: Annotator легко идентифицирует [Город] как Локацию и определит его синтаксическую связь с [Имя] и глаголом "родился". При достаточном авторитете сайта этот факт будет использован в Featured Snippet и/или для обновления Knowledge Graph.

Как этот патент связан с Featured Snippets (Блоками с ответами)?

Патент напрямую описывает технологию, лежащую в основе Featured Snippets. Когда пользователь задает Interrogative Query, система Answer System использует описанный механизм: анализирует сниппеты топовых результатов, извлекает кандидатов с помощью Annotator и выбирает лучший ответ для показа пользователю. Это буквально инструкция по работе алгоритма выбора Featured Snippets.

Какие именно NLP-процессы Google использует для понимания текста согласно патенту?

Патент упоминает четыре ключевых процесса, выполняемых компонентом Annotator: 1) Part of speech tagging (разметка частей речи); 2) Dependency parsing (синтаксический анализ зависимостей для понимания связей между словами); 3) Entity tagging (распознавание и типизация сущностей); 4) Coreference resolution (разрешение кореференции, понимание, что местоимения и разные алиасы относятся к одной сущности).

Как оптимизировать текст для лучшего извлечения фактов этой системой?

Ключ к оптимизации — максимальная ясность и простота синтаксиса. Поскольку система использует Dependency parsing, необходимо писать четкие и недвусмысленные предложения, где легко определить субъект, предикат и объект. Используйте формат "[Сущность] является [Фактом]" или явно отвечайте на вопрос в тексте. Избегайте сложных оборотов и метафор при описании фактов.

Что важнее для подтверждения факта: упоминание на моем сайте или консенсус в вебе?

Консенсус в вебе критически важен. Патент явно указывает (Claims 13-15), что выбор ответа основывается на количестве сниппетов, количестве уникальных ресурсов и качестве этих ресурсов, подтверждающих факт. Один сайт, даже авторитетный, может быть проигнорирован, если он противоречит большинству других качественных источников.

Может ли Google создать панель Knowledge Graph для моей компании полностью автоматически, используя этот механизм?

Да. Патент описывает рекурсивный процесс (Claim 3), позволяющий системе обнаруживать новые сущности (relationship entity), которые ранее не были определены в базе данных. Если система находит упоминание вашей компании, она может автоматически сгенерировать запросы для поиска ее атрибутов (основатель, дата основания, локация и т.д.) и, найдя достаточно подтверждений, добавить ее в Entity Database.

Как система определяет, какой тип ответа искать (например, дату или локацию)?

Система определяет тип ответа на основе самого вопросительного запроса или типа отношения в базе знаний. Если запрос содержит "где" или отношение "Место Рождения", система инструктирует Candidate Answers Engine искать сущности с грамматической характеристикой "Локация" (Claim 12).

Влияет ли микроразметка Schema.org на работу этого алгоритма?

Патент не упоминает Schema.org. Описанный механизм фокусируется исключительно на извлечении фактов из неструктурированного текста с помощью NLP. Однако на практике Schema.org и этот механизм дополняют друг друга: разметка предоставляет структурированные данные, которые могут использоваться для верификации фактов, извлеченных с помощью NLP, и наоборот.

Что произойдет, если система найдет противоречивые ответы на один и тот же вопрос?

В этом случае активируется Answer(s) Selection Engine. Он оценит все кандидаты и выберет тот, который имеет наибольший Score. Скоринг учитывает количество подтверждений и качество источников. Ответ, поддержанный большим числом авторитетных сайтов, будет выбран как истинный.

Как система обрабатывает неизвестные или новые сущности, найденные в тексте?

Если система идентифицирует ответ, который не соответствует ни одной известной сущности, она может инициировать процесс валидации (Claim 5) и рекурсивного исследования (Claim 3). Генерируются дополнительные запросы для поиска связей этой новой сущности. Если найдено достаточно подтверждений ее существования и связей, она добавляется в Entity Database.

Что такое "Interrogative Query" в контексте патента?

Это любой запрос, сформулированный как вопрос. Важно понимать, что это может быть как запрос, введенный пользователем (например, "кто президент США?"), так и запрос, автоматически сгенерированный самой системой Google для заполнения пробелов в базе знаний (например, Google знает сущность "Джон Смит", но не знает его жену, и генерирует запрос "кто жена Джона Смита?").

Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц

Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.

US8682647B1
2014-03-25

SERP
Семантика и интент

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google извлекает, формирует и оценивает контент для Featured Snippets из структурированных и неструктурированных данных

Google использует систему для генерации Featured Snippets (ответных пассажей) в ответ на запросы-вопросы. Система анализирует топовые результаты, разделяя контент на структурированный (таблицы, списки) и неструктурированный (текст). Применяя разные наборы правил для каждого типа контента, система извлекает блоки текста (Passage Units) и формирует из них кандидатов для показа в блоке ответов, после чего оценивает их с помощью комплексного скоринга.

US10180964B1
2019-01-15

SERP
Семантика и интент

Как Google генерирует сниппеты для фактических ответов, требуя близости вопроса и ответа в тексте источника

Патент Google описывает систему ответа на фактические запросы (Fact Query Engine). Для подтверждения факта, извлеченного из Fact Repository (аналог Knowledge Graph), система генерирует сниппеты из исходных веб-документов. Ключевое требование: сниппет должен содержать как термины из запроса пользователя, так и термины ответа, причем система предпочитает фрагменты, где они расположены близко друг к другу (Proximity).

US7587387B2
2009-09-08

Семантика и интент
Knowledge Graph
SERP

Как Google извлекает факты напрямую из веб-страниц для формирования прямых ответов (Featured Snippets / Answer Boxes)

Google использует систему для динамического извлечения фактов из веб-индекса. Когда поступает фактический запрос, система определяет ожидаемый тип ответа (например, дата, число, имя), анализирует топовые результаты поиска и извлекает соответствующие фразы. Эти фразы нормализуются, оцениваются по частоте, контексту и авторитетности источника, и лучший вариант показывается в виде прямого ответа.

US8655866B1
2014-02-18

Индексация
Семантика и интент
SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank

Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.

US7565630B1
2009-07-21

Персонализация
SERP
Ссылки

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News

Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.

US8375073B1
2013-02-12

EEAT и качество
SERP
Ссылки

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество