Как Google использует машинное обучение для извлечения фактов из текста и перевода вопросов на естественном языке в пути Графа Знаний

QUERYING A DATA GRAPH USING NATURAL LANGUAGE QUERIES (Запрос к графу данных с использованием запросов на естественном языке)

US10810193B1
Google LLC
2013-03-13
2020-10-20

Анализ патента Google, описывающего два ключевых механизма: автоматическое расширение Графа Знаний путем анализа текста и ответы на вопросы на естественном языке. Система использует машинное обучение для определения надежных путей (связей) в графе. Эти пути используются как для вывода новых фактов из веб-документов, так и для интерпретации запросов пользователей и поиска прямых ответов.

Какую проблему решает

Патент описывает решения для двух фундаментальных проблем:

Масштабирование Графа Знаний: Автоматизация процесса добавления фактов (кортежей) в граф данных (Data Graph). Ручное наполнение графа медленно и сложно. Система автоматизирует извлечение знаний из больших текстовых корпусов (например, Интернета).
Ответы на Естественном Языке: Интерпретация запросов на естественном языке (Natural Language Queries) и их сопоставление со структурированными данными в графе. Система устраняет необходимость вручную создавать и поддерживать правила или таблицы синонимов для отношений в графе.

Что запатентовано

Запатентована система, использующая машинное обучение для понимания и использования графа данных. Суть изобретения заключается в обучении модуля машинного обучения (Machine Learning Module) генерировать взвешенные признаки (weighted features). Каждый признак представляет собой путь (path) или последовательность отношений в графе. Эти пути используются как для вывода новых фактов из текста для расширения графа, так и для нахождения ответов на запросы пользователей.

Как это работает

Система использует единый подход на основе машинного обучения в двух режимах:

Расширение графа: Система анализирует веб-документы, создавая Text Graph (синтаксический разбор), и связывает его с существующим Data Graph. ML-модуль обучается находить паттерны (пути) в этой объединенной структуре, которые указывают на новые отношения между сущностями. Факты с высокой достоверностью автоматически добавляются в граф.
Ответы на запросы: ML-модуль обучается сопоставлять конкретные вопросы (например, "кто жена X?") с путями в графе. Обучение происходит с использованием "шумных ответов" (noisy query answers) – например, из логов поиска или стандартных результатов. Когда поступает запрос, система идентифицирует исходную сущность (X) и использует обученные взвешенные пути, чтобы найти целевую сущность (ответ).

Актуальность для SEO

Критически высокая. Патент описывает фундаментальные механизмы, лежащие в основе семантического поиска Google: автоматическое наполнение Графа Знаний из текста и генерация прямых ответов (Featured Snippets, Knowledge Panels). Эти методы являются центральными для понимания сущностей и интентов в современном поиске.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10). Он детально описывает, как Google автоматизирует понимание фактов и отношений. Для SEO это означает, что критически важно предоставлять информацию таким образом, чтобы синтаксические парсеры могли точно извлекать отношения между сущностями. Ясность, точность и семантическое структурирование контента становятся определяющими для видимости в результатах, основанных на Графе Знаний.

Термины и определения

Data Graph (Граф данных): Направленный граф с размеченными ребрами (например, Knowledge Graph). Узлы представляют сущности (entities), а ребра – отношения (relationships).
Text Graph (Текстовый граф): Граф, генерируемый из документов путем синтаксического анализа (разбор зависимостей, выделение частей речи и т.д.). Отражает синтаксическую структуру предложений.
Syntactic-Semantic Parsing Engine (Движок синтактико-семантического парсинга): Компонент, который анализирует документы (Crawled Documents) и генерирует Text Graph.
Mention (Упоминание): Ребро, которое связывает Text Graph и Data Graph. Создается, когда именная группа в тексте сопоставляется с сущностью в графе данных (Entity Resolution).
Machine Learning Module (Модуль машинного обучения): Алгоритм (например, Path Ranking Algorithm), который обучается генерировать взвешенные признаки для предсказания отношений или ответов на запросы.
Feature / Path (Признак / Путь): Последовательность ребер (отношений) в графе данных или в объединенном графе (Data + Text).
Weighted Feature (Взвешенный признак): Признак с ассоциированным весом. В контексте ответов на запросы (Claims), вес представляет собой вероятность (probability) предсказания правильного ответа с использованием этого пути.
Tuple (Кортеж / Триплет): Базовая единица графа данных (<Сущность А, Отношение, Сущность Б>). Представляет собой факт.
Noisy Query Answers (Шумные ответы на запрос): Набор ответов, используемый для обучения ML-модуля в режиме ответов на вопросы. Может быть получен из стандартной поисковой системы по документам или из журналов поиска (search records).
Confidence Score (Оценка достоверности): Итоговая оценка для выведенного факта или ответа на запрос. Рассчитывается как комбинация (например, сумма) весов всех признаков (путей), которые привели к этому результату.

Ключевые утверждения (Анализ Claims)

Хотя описание патента охватывает как расширение графа (FIG 3, 4), так и запросы к нему (FIG 5, 6), основные Claims (Формула изобретения) фокусируются именно на механизме запросов к графу с использованием NLQ.

Claim 1 (Независимый пункт): Описывает метод запроса к графу данных в реальном времени.

Система получает доступ к обученному ML-модулю. Модуль содержит модель с взвешенными признаками (weighted features) для конкретного запроса.
Ключевое определение: Каждый признак – это путь в графе, а вес – это вероятность предсказания правильного ответа с использованием этого пути.
Система получает поисковый запрос пользователя.
Запрос сопоставляется с конкретным запросом (моделью).
Терм в запросе сопоставляется с первой сущностью (Исходная сущность) в Data Graph.
Идентифицируется вторая сущность (Ответ) с использованием первой сущности И взвешенных признаков (путей).
Информация о второй сущности предоставляется в ответ.

Claim 2-6 (Зависимые): Детализируют процесс обучения модели (упомянутый в Claim 1).

Обучение включает генерацию noisy query answers.
Из них генерируются положительные и отрицательные обучающие примеры.
Источниками шумных ответов могут быть результаты поиска по корпусу документов или логи прошлых запросов (search records).
Положительные примеры выбираются путем сопоставления сущностей (entity matching) и выбора наиболее часто встречающихся.

Claim 7-9 (Зависимые): Детализируют процесс оценки и выбора ответа.

Для второй сущности определяется confidence score на основе веса признаков.
Если несколько признаков (путей) ведут к одной и той же сущности, используется комбинация (например, сумма) их весов в качестве итоговой оценки достоверности.

Где и как применяется

Изобретение затрагивает практически все этапы поисковой архитектуры, так как описывает как процесс индексирования знаний, так и процесс ответа на запросы.

CRAWLING & INDEXING (Расширение Графа)
Это ключевые этапы для механизма Расширения Графа (описан в патенте, FIG 3, 4):

Crawled Documents служат источником данных.
Syntactic-Semantic Parsing Engine обрабатывает документы для создания Text Graph.
Происходит связывание Text Graph и Data Graph через Mention ссылки.
Training Engine и Machine Learning Module работают офлайн для обучения моделей отношений.
Knowledge Discovery Engine выводит новые факты и добавляет их в Data Graph (Индекс).

QUNDERSTANDING (Понимание Запросов)
Ключевой этап для механизма Ответов на Запросы (основной фокус Claims, FIG 5, 6):

Система получает запрос на естественном языке.
Запрос сопоставляется с предварительно обученной моделью запроса (Query Model).
Термы в запросе сопоставляются с сущностями в Data Graph (определение Исходной сущности).

RANKING / METASEARCH (Выполнение Запроса к Графу)
На этих этапах происходит генерация ответа из графа:

Система использует Исходную сущность и взвешенные признаки (пути) из Модели Запроса.
Происходит обход графа (Graph Traversal).
Идентифицируются Целевые сущности (ответы) и рассчитываются confidence scores путем агрегации весов путей.
Наиболее достоверный ответ используется для генерации результата (например, Featured Snippet).

На что влияет

Типы контента: Наибольшее влияние на контент, содержащий фактическую информацию, описания сущностей и четко сформулированные отношения (статьи, биографии, справочные материалы).
Специфические запросы: В первую очередь влияет на информационные запросы, ищущие прямые ответы (Кто/Что/Где/Когда), требующие понимания отношений.
Ниши и тематики: Влияет на все тематики, представленные в Графе Знаний, особенно YMYL, где важна точность фактов.

Когда применяется

Система применяется в двух сценариях:

Расширение Графа (Офлайн/Периодически): При обработке новых или обновленных документов для постоянного пополнения Графа Знаний новыми фактами.
Ответы на Запросы (Реальное время): Активируется, когда система идентифицирует запрос как поиск факта, который может быть отвечен с помощью Графа Знаний, и когда запрос сопоставляется с существующей обученной моделью и исходной сущностью.

Пошаговый алгоритм

Патент описывает два основных процесса, использующих схожие ML-механизмы.

Процесс А: Расширение Графа Знаний (Inference) (FIG. 3, 4)

Генерация Текстового Графа: Документы парсятся (синтаксический анализ) для создания Text Graph.
Связывание Графов: Именные группы в Text Graph сопоставляются с сущностями в Data Graph (Entity Resolution), создавая Mention ссылки.
Выбор Отношения и Генерация Примеров: Выбирается отношение для обучения (например, "Профессия"). Генерируются положительные и отрицательные примеры из графа. Используется стратифицированная выборка для избежания смещения.
Обучение ML-модуля: ML-модуль ищет пути в объединенном графе (с помощью случайных блужданий ограниченной длины), которые коррелируют с положительными примерами.
Генерация и Взвешивание Признаков: Идентифицируются надежные пути (признаки) и им присваиваются веса (например, с помощью логистической регрессии).
Сохранение Модели Отношения: Взвешенные признаки сохраняются.
Вывод Новых Фактов: Модель применяется к объединенному графу для поиска новых кортежей (фактов).
Валидация и Добавление: Рассчитывается confidence score (сумма весов признаков). Если порог превышен, факт автоматически добавляется в Data Graph.

Процесс Б: Ответы на Запросы на Естественном Языке (Querying) (FIG. 5, 6)

Этап 1: Обучение Модели Запроса (Офлайн, FIG. 6)

Получение Шаблона Запроса: Определяется шаблон запроса (например, "Кто женат на E?").
Генерация Шумных Ответов: Система получает noisy query answers из внешнего источника (поисковой системы или логов).
Генерация Обучающих Примеров: Проводится Entity Resolution в шумных ответах. Часто встречающиеся сущности в надежных ответах становятся положительными примерами.
Обучение ML-модуля: ML-модуль ищет пути в Data Graph, которые соединяют Исходные сущности (E) с Целевыми сущностями (положительными примерами).
Генерация и Сохранение Признаков: Идентифицируются и взвешиваются пути (признаки). Сохраняются как Модель Запроса.

Этап 2: Выполнение Запроса (Реальное время, FIG. 5)

Получение Запроса: Поступает запрос от пользователя.
Сопоставление: Запрос сопоставляется с Моделью Запроса, а термы – с Исходной сущностью в Data Graph.
Получение Признаков: ML-модуль возвращает взвешенные признаки (пути) для данной модели.
Обход Графа: Система следует по этим путям, начиная от Исходной сущности.
Идентификация и Оценка Ответов: Идентифицируются Целевые сущности. Их confidence score рассчитывается как сумма весов путей, которые к ним привели.
Предоставление Ответа: Выбирается сущность с наивысшей оценкой.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов (Crawled Documents). Синтаксическая структура предложений, именные группы (noun-phrases) критически важны для генерации Text Graph и извлечения фактов (Process A).
Структурные факторы (Граф): Существующая структура Data Graph (сущности и отношения). Используется как основа для обучения и вывода в обоих процессах.
Поведенческие факторы / Внешние данные: Журналы поиска (search records) или результаты работы стандартной поисковой системы используются как noisy query answers для обучения моделей запросов (Process B). Ранжирование/оценка документов в этих результатах используется для определения достоверности обучающих примеров.

Какие метрики используются и как они считаются

Weighted Feature (Вес признака): Вероятность того, что путь (признак) предскажет правильный ответ. Рассчитывается во время обучения. Патент упоминает использование регуляризованной логистической регрессии (L1/L2 regularized logistic regression) для изучения весов.
Confidence Score (Оценка достоверности): Метрика для оценки качества выведенного факта или ответа. Рассчитывается как комбинация (например, сумма) весов всех признаков (путей), которые привели к этому результату.
Stratified Sampling Formulas (Формулы стратифицированной выборки): Используются при обучении (Process A) для предотвращения смещения (bias) к популярным сущностям. Патент приводит формулу для выборки ребер r, указывающих на сущность t:

Автоматизированное расширение Графа Знаний из Текста: Патент детально описывает механизм (Process A), позволяющий Google автоматически извлекать факты из неструктурированного текста. Это достигается путем объединения синтаксического анализа текста (Text Graph) с существующими знаниями (Data Graph) и использованием ML для выявления надежных паттернов (путей).
ML для интерпретации Естественного Языка: Вместо ручного создания правил, Google использует машинное обучение (Process B) для сопоставления формулировок NLQ с конкретными путями в графе. Система учится понимать интент запроса на уровне структуры данных.
Обучение на основе Веб-консенсуса (Noisy Answers): Критически важным является использование noisy query answers (результатов веб-поиска или логов) для обучения. Это означает, что контент, ранжирующийся в интернете, и консенсус мнений напрямую влияют на то, как Google учится отвечать на вопросы и какие факты считает достоверными.
Важность Путей и Контекста (Кумулятивная Уверенность): Система не полагается на одно совпадение. Достоверность ответа (confidence score) увеличивается, если к нему ведут несколько разных надежных путей. Это механизм валидации фактов через разнообразие связей.
Приоритет Синтаксической Чистоты: Способность системы извлекать факты (Process A) напрямую зависит от качества работы Syntactic-Semantic Parsing Engine. Контент должен быть написан ясно, чтобы синтаксические зависимости и отношения между сущностями были понятны парсеру.

Best practices (это мы делаем)

Четкое определение отношений между сущностями (Синтаксис): При создании контента используйте ясные и недвусмысленные синтаксические конструкции для описания отношений между сущностями. Например: "[Персона А] является CEO компании [Компания Б]". Это облегчает создание точного Text Graph и повышает вероятность успешного извлечения фактов (Process A).
Построение Авторитетности и Консенсуса: Поскольку система использует noisy query answers (результаты поиска) для обучения (Process B), крайне важно, чтобы ваш сайт высоко ранжировался и предоставлял точную информацию. Становясь авторитетным источником, вы участвуете в формировании качественных обучающих данных для ML-моделей Google.
Использование согласованной терминологии и идентификаторов: Используйте общепринятую терминологию и, по возможности, ссылайтесь на известные идентификаторы сущностей. Это повышает вероятность того, что система сможет корректно связать ваш Text Graph с Data Graph через Mention ссылки (Entity Resolution).
Создание контента, отвечающего на прямые вопросы: Разрабатывайте контент, который четко отвечает на распространенные вопросы пользователей. Это увеличивает вероятность использования вашего контента как для прямого извлечения фактов, так и в качестве надежного источника для ответов на запросы.
Подтверждение фактов разными способами: Описывайте отношения с разных сторон. Например, укажите не только, что Персона А работает в Компании Б, но и что Компания Б является работодателем Персоны А. Это помогает создать множественные пути в графе, что увеличивает Confidence Score.

Worst practices (это делать не надо)

Использование сложных или неоднозначных синтаксических конструкций: Избегайте запутанных предложений, где отношения между сущностями неясны или могут быть интерпретированы двояко. Это затрудняет построение Text Graph и снижает эффективность извлечения фактов.
Изолированное упоминание сущностей: Не упоминайте важные сущности без контекста или описания их связи с другими сущностями. Система ищет пути и отношения, а не просто наличие имен или названий.
Предоставление информации, противоречащей авторитетному консенсусу: Если ваша информация противоречит общепринятым фактам, маловероятно, что она будет принята системой. ML-модуль, обученный на noisy query answers, будет отдавать предпочтение консенсусу, сформированному авторитетными источниками.

Стратегическое значение

Этот патент подтверждает стратегическую важность перехода к оптимизации под сущности и отношения (Entity-based SEO). Google активно автоматизирует понимание мира, извлекая знания из веба. Долгосрочная стратегия должна фокусироваться на создании контента, который помогает Google точно и эффективно наполнять свой Граф Знаний. Авторитетность ресурса определяется не только ссылками, но и его вкладом в базу знаний Google и способностью служить надежным источником для обучения систем ответов на вопросы.

Практические примеры

Сценарий 1: Оптимизация для извлечения фактов (Process A - Расширение Графа)

Цель: Убедиться, что Google извлечет профессию и место работы персоны из биографической статьи.
Реализация: В тексте используется четкая формулировка: "Илон Маск является основателем и CEO компании SpaceX. Он также занимает должность CEO в компании Tesla."
Механизм (по патенту): Syntactic-Semantic Parsing Engine создает точный Text Graph. Entity Resolution связывает упоминания с сущностями. Knowledge Discovery Engine использует обученные модели, которые распознают синтаксические паттерны (пути) в этом тексте как надежные признаки для отношений "Должность" и "Место работы".
Результат: Новые кортежи <Илон Маск, Должность, CEO> и <Илон Маск, Место работы, SpaceX/Tesla> добавляются в Data Graph с высоким confidence score.

Сценарий 2: Оптимизация для ответов на вопросы (Process B - Querying)

Запрос пользователя: "Кто жена Барака Обамы?"
Механизм (по патенту): Google сопоставляет запрос с моделью "Супруг". Исходная сущность – "Барак Обама". ML-модуль предоставляет обученные пути: Путь 1 (прямое отношение "супруг"), Путь 2 (через общих детей: {child, child⁻¹}), Путь 3 (через общее место жительства: {resides at, resides at⁻¹}).
Обход графа: Система следует по всем трем путям и достигает сущности "Мишель Обама".
Результат: Confidence score для "Мишель Обама" рассчитывается как сумма весов Пути 1 + Пути 2 + Пути 3. Благодаря высокой кумулятивной оценке, этот ответ выводится пользователю (например, в Knowledge Panel).

Что такое "Text Graph" и почему он важен для SEO?

Text Graph – это представление синтаксической структуры предложений в вашем контенте, создаваемое Google с помощью NLP-анализа. Он критически важен, потому что Google использует его для понимания того, как сущности связаны друг с другом в вашем тексте (Process A). Если ваш контент синтаксически запутан или неоднозначен, Text Graph будет неточным, и Google не сможет эффективно извлечь факты для Графа Знаний.

Что такое "Weighted Feature" или "Path" в контексте этого патента?

Это конкретный путь (последовательность отношений) в Графе Знаний. Например, путь от одного человека к другому через общего ребенка ({child, child⁻¹}). Вес (Weight) указывает на вероятность того, что этот путь дает правильный ответ на определенный запрос (например, "кто супруг X"). Для SEO важно понимать, что Google ищет множество подтверждающих сигналов (разных путей), чтобы убедиться в точности факта.

Патент описывает два процесса: расширение графа и ответы на вопросы. Какой из них важнее для SEO?

Оба процесса критически важны и взаимосвязаны. Расширение графа (Process A) определяет, какая информация о вашем бренде или теме попадет в базу знаний Google (Индексирование). Ответы на вопросы (Process B) определяют, как эта информация будет использоваться для ответа пользователям (Ранжирование/Метапоиск). Эффективная SEO-стратегия должна быть направлена на то, чтобы сначала обеспечить попадание точной информации в граф, а затем оптимизировать ее для использования в ответах.

Что такое "Noisy Query Answers" и как они влияют на мою стратегию контента?

Noisy Query Answers – это данные (обычно результаты веб-поиска или логи), которые Google использует для обучения системы ответов на вопросы (Process B). Это означает, что Google учится на том, что уже ранжируется в интернете. Для SEO это подчеркивает важность создания авторитетного контента, который высоко ранжируется и предоставляет точные ответы, чтобы участвовать в формировании качественных обучающих данных и влиять на консенсус.

Как рассчитывается достоверность ответа (Confidence Score)?

Достоверность рассчитывается путем комбинирования (часто суммирования) весов всех признаков (путей), которые привели к данному ответу. Если сущность А связана с сущностью Б тремя разными надежными путями, ее confidence score будет выше, чем если бы она была связана только одним путем. Это механизм кумулятивной уверенности, валидирующий факты через разнообразие связей.

Как я могу улучшить извлечение фактов из моего контента (Process A) согласно этому патенту?

Сфокусируйтесь на чистоте и ясности языка. Используйте прямые утверждения для описания отношений (например, "[Компания] основана [Персоной] в [Год]"). Убедитесь, что синтаксическая структура предложений недвусмысленна. Это облегчает работу Syntactic-Semantic Parsing Engine по созданию точного Text Graph и идентификации отношений между сущностями.

Влияет ли микроразметка (Schema.org) на процессы, описанные в патенте?

Патент фокусируется на извлечении информации из неструктурированного текста с помощью NLP и машинного обучения. Однако микроразметка предоставляет структурированные данные, которые могут напрямую пополнять Data Graph или использоваться для валидации фактов, извлеченных с помощью описанных методов. Использование Schema.org критически важно для подтверждения отношений между сущностями и повышения общей достоверности данных.

Что такое "Stratified Sampling" и зачем Google его использует при обучении?

Это метод выборки данных, используемый при Расширении Графа (Process A), чтобы предотвратить смещение (bias) в сторону очень популярных сущностей. Если бы система обучалась на всех упоминаниях, она бы уделяла слишком много внимания таким сущностям, как "США". Стратифицированная выборка гарантирует, что менее популярные (long-tail) сущности также будут адекватно представлены в обучающих данных, делая модель более точной для широкого круга фактов.

Как система связывает Text Graph и Data Graph?

Связывание происходит через Entity Resolution. Система идентифицирует именные группы в тексте (например, "Майлз Дэвис") и сопоставляет их с сущностями в Графе Знаний. Когда соответствие найдено, создается специальное ребро Mention (Упоминание). Это позволяет системе использовать синтаксический контекст из текста (Text Graph) для вывода новых фактов о сущности в Data Graph.

Ограничивает ли Google длину пути (Path Length) при поиске ответов или фактов?

Да, патент упоминает, что во время обучения (как в Process A, так и в Process B) длина пути (количество ребер) может быть ограничена (например, до 4 ребер). Это делается для повышения эффективности вычислений и фокусировки на более прямых, надежных связях. Это означает, что наиболее ценными для SEO являются прямые и короткие пути между сущностями.

Как Google использует Knowledge Graph для автодополнения фактов и проверки точности информации при создании контента

Система анализирует вводимый текст в редакторах (например, Google Docs или Gmail), распознает сущности и их атрибуты, автоматически запрашивает факты у поисковой системы (Knowledge Graph) и предлагает их для вставки. Также она способна проверять уже введенные факты на точность и предлагать исправления в реальном времени.

US20150324339A1
2015-11-12

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google разрешает лингвистическую неоднозначность в сложных запросах, анализируя связи между сущностями в Базе Знаний

Google использует механизм для точной интерпретации запросов на естественном языке при обращении к структурированным данным (например, Графу Знаний). Если слово в запросе неоднозначно, система анализирует возможные связи между сущностями (Пути Соединения) и использует контекст запроса (Подконтексты) для выбора единственно верной интерпретации и генерации точного ответа.

US10282444B2
2019-05-07

Семантика и интент
Knowledge Graph

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация

Как Google использует графы сущностей для точного семантического сопоставления запросов и контента

Google применяет семантический подход к выбору контента, строя «граф запроса» на основе сущностей в запросе и их связей в Knowledge Graph. Этот граф затем сопоставляется с «графами критериев выбора контента». Система также может автоматически генерировать эти критерии, анализируя целевой контент и выявляя статистически значимые семантические шаблоны.

US9501530B1
2016-11-22

Семантика и интент
Knowledge Graph

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google переносит поведенческие сигналы через ссылки для повышения в ранжировании первоисточников контента

Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.

US8959093B1
2015-02-17

Поведенческие сигналы
Ссылки
SERP

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP