Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

Описание

Какую задачу решает

Патент решает проблему вычислительной сложности и затратности ресурсов при обходе обширного Графа Знаний (Knowledge Graph). Полный обход графа для поиска семантически связанных концепций (фраз) часто невозможен в реальном времени из-за огромного количества узлов (сущностей) и связей (отношений). Изобретение направлено на оптимизацию этого процесса, чтобы сделать его применимым в интерактивных средах, например, для предложения критериев таргетинга контента.

Что запатентовано

Запатентована система для оптимизированного (выборочного) обхода Knowledge Graph. Суть изобретения заключается в использовании механизма фильтрации, который определяет, какие отношения (свойства) сущности следует исследовать, а какие игнорировать. Этот выбор делается на основе прогнозирования ценности этих отношений с помощью моделей машинного обучения (Selection Models), обученных на данных о поведении пользователей и контексте запроса.

Как это работает

Система работает следующим образом:

Входные данные: Получает фразу от поставщика цифрового контента (digital component provider), например, рекламодателя.
Идентификация сущности: Определяет соответствующую сущность в Knowledge Graph.
Идентификация свойств: Находит все связанные свойства (отношения) этой сущности.
Оптимизация (Фильтрация свойств): Ключевой этап. Property Selector использует ML-модели для выбора подмножества наиболее перспективных свойств. Выбор основан на частоте использования этих свойств в истории поисковых запросов и характеристиках поставщика контента.
Целевой обход графа: Система обходит граф, используя только выбранное подмножество свойств.
Идентификация и фильтрация фраз: Находятся дополнительные связанные фразы, которые затем оцениваются на основе их исторических показателей эффективности (phrase action scores).
Вывод: Дополнительные фразы предлагаются пользователю как критерии распространения (distribution criteria).

Актуальность для SEO

Высокая. Оптимизация использования Knowledge Graph является критически важной задачей для Google. Базовый принцип, описанный в патенте, — использование ML и данных о поведении пользователей для приоритизации обхода графа — остается фундаментально актуальным для всех систем семантического анализа.

Важность для SEO

Влияние на органическое SEO является косвенным (5/10). Патент явно сфокусирован на помощи «поставщикам цифрового контента» в определении «критериев распространения» — это терминология платформ дистрибуции (например, Google Ads), а не органического ранжирования. Однако патент имеет высокое стратегическое значение (9/10) для понимания того, как Google анализирует и приоритизирует отношения внутри Knowledge Graph. Он показывает, что не все связи в графе считаются одинаково важными; их ценность определяется контекстом и поведением пользователей.

Детальный разбор

Термины и определения

Digital Component Provider (Поставщик цифрового контента): Пользователь системы, который предоставляет контент (видео, аудио, изображения, текст, рекламу) и ищет критерии для его распространения.
Distribution Criteria (Критерии распространения): Фразы (ключевые слова) или темы, используемые для таргетинга показа цифрового контента.
Knowledge Graph (Граф знаний): База данных, структурированная в виде графа, где узлы представляют сущности (люди, места, вещи, концепции), а ребра представляют отношения между ними.
Knowledge Graph Traverser (Обходчик графа знаний): Компонент системы, отвечающий за доступ и навигацию по узлам и связям Knowledge Graph.
Phrase Action Scores (Оценки действий с фразой): Метрики эффективности фразы (также называемые Performance Characteristic), основанные на исторических данных о взаимодействии пользователей с контентом, связанным с этой фразой (например, частота взаимодействий, активность после взаимодействия).
Property Selector (Селектор свойств): Компонент, который выбирает подмножество свойств (отношений) сущности для дальнейшего исследования. Использует Selection Models.
Search Query History (История поисковых запросов): Журналы предыдущих поисковых запросов, используемые для определения популярности свойств сущностей.
Selection Models (Модели выбора): Модели машинного обучения (например, нейронные сети), используемые для прогнозирования того, какие свойства сущности приведут к обнаружению фраз с высокими Phrase Action Scores. Обучаются на исторических данных.

Ключевые утверждения (Анализ Claims)

Патент описывает внутренние процессы Google в контексте инструментов для распространения контента (вероятно, рекламы) без прямых рекомендаций для органического SEO.

Claim 1 (Независимый пункт, Система) и Claim 7 (Независимый пункт, Метод): Описывают систему и метод для оптимизированного обхода графа.

Система получает фразу от digital component provider.
Knowledge graph traverser идентифицирует сущность, соответствующую фразе в Knowledge Graph.
Property selector выполняет ключевую оптимизацию (Шаги a-d):
1. Идентифицирует свойства (связи) этой сущности.
2. Обращается к истории поисковых запросов (search query history).
3. Фильтр 1 (Популярность): Определяет, какие из этих свойств встречаются в поисковых запросах чаще других.
4. Фильтр 2 (Контекст): Выбирает подмножество из этих часто встречающихся свойств, основываясь на характеристиках digital component provider.
Knowledge graph traverser ищет дополнительные фразы, обходя граф только по выбранному подмножеству свойств.
Система обновляет интерфейс, представляя найденные фразы как distribution criteria.

Ядром изобретения является механизм селективного выбора свойств для обхода графа. Оптимизация достигается за счет двойной фильтрации свойств: сначала по популярности в поиске (частота в запросах), а затем по релевантности для конкретного пользователя (характеристики поставщика). Это гарантирует, что система исследует только те связи в графе, которые одновременно интересны широкой аудитории и соответствуют контексту задачи.

Claim 3 и 9 (Зависимые): Уточняют механизм выбора итоговых фраз (Фильтр 3).

Система идентифицирует из найденных дополнительных фраз те, которые имеют более высокие характеристики эффективности (performance characteristic). Это делается путем доступа к phrase action scores, их сравнения и выбора фраз с наивысшими оценками. Это гарантирует, что пользователю будут предложены наиболее ценные варианты.

Claim 4, 5, 10, 11 (Зависимые): Уточняют, что выбор подмножества свойств (Шаг 3d) осуществляется с помощью selection model, обученной с использованием машинного обучения. Обучающие данные включают предыдущие поисковые запросы, данные о выборе контента, связанные сущности и их свойства.

Где и как применяется

Патент описывает инфраструктурный механизм, который может применяться в различных продуктах Google, где требуется эффективный поиск связанных концепций в Knowledge Graph. Основной контекст патента — платформы дистрибуции контента (например, Google Ads).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит формирование и обновление Knowledge Graph. Также предварительно рассчитываются и сохраняются данные, необходимые для работы системы: Phrase Action Scores и данные для обучения ML-моделей.

QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Система использует данные из Search Query History для оценки важности свойств сущностей и для офлайн-обучения Selection Models.

Прикладной уровень (Интерфейс инструментов, например, Google Ads)
Основное применение патента происходит в реальном времени, когда пользователь взаимодействует с инструментом:

Взаимодействие: Пользователь вводит фразу.
Обработка: Система активирует Knowledge Graph Traverser и Property Selector.
Оптимизация: Property Selector использует предобученные ML-модели и данные о популярности для фильтрации путей обхода графа.
Ранжирование предложений: Найденные фразы ранжируются на основе Phrase Action Scores.
Результат: Система быстро предлагает семантически связанные и эффективные фразы.

Входные данные:

Исходная фраза.
Характеристики digital component provider (контекст).
Knowledge Graph.
Search query history.
Selection Models (ML-модели).
Данные о Phrase Action Scores.

Выходные данные:

Список ранжированных дополнительных фраз, предложенных как Distribution Criteria.

На что влияет

Специфические запросы и Контент: Влияет на процесс поиска связанных тем и ключевых слов для таргетинга любого контента, который может быть представлен сущностями в Knowledge Graph (продукты, медиа, услуги, персоны и т.д.).
Конкретные ниши: Влияние наиболее заметно в тематиках с большим количеством взаимосвязанных сущностей (например, развлечения, технологии, электронная коммерция), где требуется эффективная фильтрация связей. Механизм адаптируется к нише поставщика.

Когда применяется

Условия применения: Алгоритм применяется, когда пользователю (поставщику контента) необходимо найти дополнительные семантически связанные фразы для расширения охвата или уточнения таргетинга в интерактивном режиме.
Триггеры активации: Запрос пользователя на генерацию предложений на основе введенной фразы в интерфейсе платформы дистрибуции.

Пошаговый алгоритм

Процесс оптимизированного обхода графа:

Получение входных данных: Система получает исходную фразу и данные о digital component provider через пользовательский интерфейс.
Идентификация сущности: Knowledge Graph Traverser обращается к Knowledge Graph и определяет узел, соответствующий исходной фразе.
Идентификация свойств: Система идентифицирует все свойства (отношения), связанные с исходной сущностью.
Фильтрация свойств (Основной этап оптимизации): Property Selector выбирает подмножество свойств для дальнейшего исследования. Этот процесс включает:
1. Фильтр 1 (Популярность): Анализ Search Query History для определения частоты каждого свойства.
2. Фильтр 2 (Контекст и ML): Применение Selection Models, которые учитывают популярность свойств и характеристики поставщика контента, чтобы предсказать ценность каждого свойства.
3. Выбор наиболее перспективного подмножества свойств.
Целевой обход графа: Knowledge Graph Traverser обходит граф, используя только выбранное подмножество свойств, для идентификации дополнительных связанных фраз. Это значительно сокращает количество обращений к графу.
Фильтрация и ранжирование фраз (Фильтр 3): Система оценивает найденные дополнительные фразы.
1. Доступ к Phrase Action Scores для каждой фразы.
2. Сравнение оценок и выбор фраз с наивысшими показателями эффективности.
Представление результатов: Система обновляет интерфейс, предоставляя выбранные фразы пользователю в качестве Distribution Criteria.

Какие данные и как использует

Данные на входе

Система использует следующие данные:

Поведенческие факторы (Критические данные):
- Search Query History: История предыдущих поисковых запросов пользователей. Используется для определения частоты (популярности) свойств сущностей (Фильтр 1).
- Phrase Action Scores: Исторические данные об эффективности фраз (взаимодействия, конверсии). Используются для финального ранжирования предложений (Фильтр 3).
- Данные для обучения ML: Агрегированные исторические данные о запросах, выборе контента и свойствах сущностей.
Пользовательские факторы (Контекст):
- Characteristics of the digital component provider: Характеристики поставщика контента (например, тип индустрии, цели кампании). Используются для контекстуализации выбора свойств (Фильтр 2).
Структурные данные:
- Knowledge Graph: Данные о сущностях, их свойствах и отношениях между ними.

Какие метрики используются и как они считаются

Частота свойств (Property Frequency): Метрика популярности свойства, основанная на частоте его появления в Search Query History.
Phrase Action Score (Оценка действия с фразой): Метрика эффективности фразы. В патенте не детализируется расчет, но упоминаются частота взаимодействий и активность после взаимодействия.
Прогнозируемая ценность свойства (Predicted Property Value): Внутренняя метрика, рассчитываемая Selection Models (ML). Предсказывает вероятность того, что обход графа по данному свойству приведет к обнаружению фраз с высокими Phrase Action Scores в контексте данного поставщика контента.

Выводы

Контекст применения — Дистрибуция контента, не органический поиск: Патент четко описывает механизм для помощи digital component providers в поиске distribution criteria. Это система поддержки принятия решений для платформ типа Google Ads, а не алгоритм органического ранжирования.
Оптимизация обхода Knowledge Graph критична: Google признает, что полный обход Knowledge Graph слишком затратен. Для использования графа в реальном времени необходимы механизмы оптимизации и фильтрации (pruning).
Приоритизация отношений на основе ML и поведения пользователей: Ключевой вывод — не все отношения в Knowledge Graph равны. Google использует ML-модели, обученные на поведении пользователей (search query history, phrase action scores), чтобы определить, какие связи являются наиболее ценными.
Трехуровневая фильтрация для качества: Система применяет три уровня фильтрации: 1) Популярность свойства (Search History); 2) Контекстуальная релевантность свойства (ML + Provider Characteristics); 3) Эффективность итоговой фразы (Phrase Action Scores).
Важность контекста пользователя: Система учитывает характеристики пользователя (поставщика контента) при выборе того, какие части графа исследовать. Это подчеркивает важность контекстуализации при взаимодействии с Knowledge Graph.

Практика

Best practices (это мы делаем)

Хотя патент не относится напрямую к органическому ранжированию, он дает важные инсайты для стратегии оптимизации присутствия в Knowledge Graph (KGO) и построения Topical Authority.

Усиление связей, популярных у пользователей: Анализируйте поисковые запросы, чтобы понять, какие свойства и отношения вашей сущности (бренда, продукта, темы) наиболее интересны пользователям. Патент подтверждает, что Google приоритизирует обход связей, которые часто встречаются в запросах (Фильтр 1). Убедитесь, что эти связи четко отражены в вашем контенте.
Использование инструментов подсказок как источника инсайтов: Анализируйте предложения в инструментах типа Keyword Planner. Поскольку они, вероятно, используют описанную технологию, они покажут вам те семантические связи, которые Google считает приоритетными и эффективными (высокие Phrase Action Scores, Фильтр 3).
Оптимизация под контекст ниши: Понимайте, что релевантность контекстуальна (Фильтр 2). Создавайте контент, который четко устанавливает связи, релевантные именно для вашей индустрии, так как ML-модели Google адаптируют интерпретацию связей под контекст.

Worst practices (это делать не надо)

Создание искусственных или малоценных связей: Попытки манипулировать Knowledge Graph путем создания множества искусственных связей неэффективны. ML-модели фильтруют связи, которые не подтверждаются реальным поведением пользователей (search query history).
Фокус на невостребованных свойствах: Продвижение свойств или отношений сущности, которые не интересны пользователям и не ищутся (низкая популярность). Система оптимизации Google, скорее всего, проигнорирует эти связи при обходе графа (Фильтр 1).
Игнорирование семантических связей: Рассматривать SEO только как оптимизацию под ключевые слова, игнорируя сущности и их отношения. Этот патент еще раз подтверждает, что Google оперирует на уровне Knowledge Graph.

Стратегическое значение

Патент подчеркивает стратегический переход от статического представления Knowledge Graph к динамическому, контекстно-зависимому использованию. Ценность связей в графе не фиксирована, а рассчитывается на лету с помощью ML-моделей, основанных на поведении пользователей. Для долгосрочной SEO-стратегии это означает, что необходимо не просто попасть в Knowledge Graph, но и сформировать такие отношения с другими сущностями, которые система считает ценными и популярными среди пользователей.

Практические примеры

Сценарий: Оптимизация обхода графа для подсказки ключевых слов в Google Ads

Контекст: Рекламодатель (Digital Component Provider) — производитель видеоигр. Он вводит название своей игры «Sword Fighter» в инструмент подсказки ключевых слов.
Идентификация сущности: Система находит сущность «Sword Fighter» (Игра) в Knowledge Graph.
Идентификация свойств: У этой сущности много связей: «Жанр: Экшн», «Платформа: Game System», «Издатель: Gamer Game», «Дата выхода: 2010», «Рейтинг: M».
Оптимизация (Фильтрация свойств):
- Фильтр 1 (Популярность): Property Selector анализирует Search Query History и определяет, что пользователи часто ищут игры по жанру и платформе, но редко по дате выхода.
- Фильтр 2 (Контекст/ML): ML-модель, учитывая контекст (производитель игр), выбирает свойства «Жанр: Экшн» и «Платформа: Game System» как наиболее перспективные.
Целевой обход: Система ищет другие игры с теми же свойствами. Находятся игры «Space Explorer», «Jungle Fighter», «Water Shooter».
Фильтрация фраз (Фильтр 3): Система проверяет Phrase Action Scores и выбирает «Space Explorer» и «Jungle Fighter» как наиболее эффективные.
Результат: Рекламодателю предлагаются ключевые слова «Space Explorer» и «Jungle Fighter». Система сэкономила ресурсы, не исследуя связи через дату выхода или рейтинг.

Вопросы и ответы

Описывает ли этот патент алгоритм органического ранжирования Google?

Нет. Патент явно сфокусирован на оптимизации обхода Knowledge Graph для помощи «поставщикам цифрового контента» (рекламодателям, разработчикам приложений) в поиске «критериев распространения» (ключевых слов или тем для таргетинга). Это инфраструктурный патент, применяемый, скорее всего, в инструментах типа Google Ads Keyword Planner.

Какова основная цель этой оптимизации обхода графа?

Основная цель — снизить вычислительную нагрузку и затраты ресурсов при обходе огромного Knowledge Graph. Полный обход графа слишком медленный для использования в реальном времени. Оптимизация позволяет выборочно исследовать только наиболее перспективные части графа, обеспечивая быстрый и релевантный ответ.

Как система решает, какие отношения (свойства) сущности являются важными?

Система использует трехуровневый подход. Сначала проверяется популярность свойства в истории поисковых запросов (Фильтр 1). Затем учитывается контекст пользователя (характеристики поставщика контента) с помощью ML-моделей (Фильтр 2). Наконец, оценивается историческая эффективность найденных фраз (Фильтр 3).

Что такое «Phrase Action Score» и почему это важно?

Phrase Action Score — это метрика исторической эффективности фразы. Она может включать показатели взаимодействия (например, CTR) и активности после взаимодействия (например, конверсии). Система использует эту метрику для финальной фильтрации и ранжирования предложений, гарантируя, что будут выбраны не просто связанные, а наиболее эффективные фразы.

Какие выводы из этого патента можно применить в SEO-стратегии?

Главный вывод для SEO — не все связи в Knowledge Graph одинаково ценны. Google приоритизирует те отношения, которые подтверждаются реальным поведением пользователей (поисковыми запросами). SEO-специалистам следует фокусироваться на формировании и усилении тех связей своей сущности, которые наиболее востребованы целевой аудиторией.

Используются ли ML-модели для определения важности связей?

Да, патент явно указывает на использование Selection Models, обученных с помощью машинного обучения. Эти модели обучаются на данных о предыдущих поисковых запросах, выборе контента и свойствах сущностей, чтобы предсказывать ценность той или иной связи в графе для конкретного контекста.

Что означает «учет характеристик поставщика цифрового контента»?

Это означает, что система контекстуализирует обход графа. Например, если фразу вводит производитель видеоигр, система будет приоритизировать свойства, связанные с жанрами и платформами. Если ту же фразу вводит киностудия, система может приоритизировать свойства, связанные с актерами или режиссерами. Выбор пути обхода зависит от контекста пользователя.

Как SEO-специалисту повлиять на то, какие связи Google считает важными?

Напрямую повлиять на Selection Models нельзя. Однако можно повлиять на входные данные. Создавая контент и формируя спрос (поисковые запросы) вокруг определенных свойств вашей сущности, вы увеличиваете их частоту в Search Query History. Это, в свою очередь, повышает вероятность того, что эти свойства будут выбраны системой как приоритетные для обхода.

Фильтрует ли система релевантные, но низкочастотные фразы?

Да, это вероятно. Поскольку механизм оптимизирован и фокусируется на свойствах, часто встречающихся в Search Query History (Фильтр 1), и фразах с высокими Phrase Action Scores (Фильтр 3), он может отфильтровывать семантически связанные, но менее популярные или менее эффективные фразы.

Является ли этот патент доказательством того, что Google использует CTR в ранжировании?

Нет. Патент использует метрики эффективности (Phrase Action Scores, которые могут включать CTR) для ранжирования предложений ключевых слов в контексте платформ дистрибуции (например, Google Ads). Это не является доказательством использования поведенческих факторов в органическом ранжировании веб-поиска.