Как Google использует графы сущностей для семантического сопоставления запросов и автоматической генерации критериев таргетинга контента

Патент Google описывает систему выбора контента (например, рекламы), которая интерпретирует запросы и критерии таргетинга как семантические графы сущностей. Вместо ключевых слов система сопоставляет топологию и содержание этих графов. Также описан механизм автоматического предложения семантических критериев таргетинга на основе анализа целевого контента (например, лендинга) с использованием статистических метрик.

Описание

Какую задачу решает

Патент решает проблему ограничений традиционного выбора контента (например, рекламы), основанного на сопоставлении ключевых слов. Он предлагает переход к семантическому подходу, который учитывает свойства сущностей (Entity Properties) и их взаимосвязи для более точного таргетинга. Кроме того, патент решает задачу автоматизации создания сложных семантических критериев для поставщиков контента (рекламодателей) путем анализа их целевого контента.

Что запатентовано

Запатентована система выбора контента с использованием семантических графов. Она включает два основных механизма. Первый – сопоставление запроса с контентом путем генерации Query Graph и его сравнения с Content Selection Criteria Graph на основе топологии и содержания. Второй – автоматическая генерация семантических критериев таргетинга путем анализа Target Content (например, лендинга) с использованием шаблонов и статистических метрик (например, TF-IDF или Odds Ratio).

Как это работает

Система работает в двух основных режимах:

1. Выбор контента (Онлайн-сопоставление): Система получает запрос, идентифицирует сущности и их Confidence Score. Генерируется Query Graph, включающий эти сущности и их свойства из базы знаний (Графа Знаний). Затем этот граф сопоставляется с существующими Content Selection Criteria Graphs. При совпадении топологии и содержания графов соответствующий контент выбирается как кандидат.

2. Генерация критериев (Офлайн/По запросу): Система анализирует Target Content (например, лендинг или примеры запросов), идентифицирует сущности и свойства. Используя шаблоны (Templates) с именованными переменными (например, $Area), система находит семантические критерии. Они оцениваются с помощью статистических метрик для выявления наиболее значимых паттернов, которые затем предлагаются поставщику контента.

Актуальность для SEO

Высокая. Переход от ключевых слов к сущностям (Entities) и использование графовых структур (Knowledge Graph) для интерпретации запросов и контента является фундаментальным направлением развития информационного поиска и цифровой рекламы. Описанные механизмы крайне актуальны для современных систем.

Важность для SEO

Патент имеет высокое значение (75/100). Хотя он фокусируется на выборе контента (вероятно, Google Ads), описанные механизмы понимания запросов (Query Understanding) критически важны для органического SEO. Патент детально раскрывает, как Google интерпретирует запросы в виде графов сущностей (Query Graph) и как анализирует контент для выявления семантических паттернов. Это знание необходимо для разработки эффективных стратегий Entity-Oriented SEO.

Детальный разбор

Термины и определения

Confidence Score (Оценка уверенности): Метрика, указывающая на семантическую релевантность (semantic relevancy) идентифицированной сущности поисковому запросу. Используется для фильтрации интерпретаций и как порог для выбора контента.
Content Selection Criteria (Критерии выбора контента): Семантические правила таргетинга, основанные на свойствах сущностей.
Content Selection Criteria Graph/Structure (Граф/Структура критериев выбора контента): Графовая структура, представляющая Content Selection Criteria. Включает связанные узлы (сущности и свойства).
Data Structure (Структура данных / Граф Знаний): База данных (например, Knowledge Graph), хранящая информацию о сущностях и их отношениях. Используется для генерации графов.
Entity (Сущность): Конкретный человек, место или вещь с уникальным идентификатором (ID) в Data Structure.
Flat Data Structure (Плоская структура данных): Список фактов, извлеченных из Query Graph. Используется для быстрого поиска потенциальных кандидатов Content Selection Criteria Graphs, хотя может не сохранять все топологические связи.
Named Variable (Именованная переменная): Переменная в шаблоне (например, $Area, $Director), соответствующая определенному типу или свойству сущности. Используется при генерации критериев.
Property (Свойство/Отношение): Связь между двумя сущностями (например, «directed_by»). В графе представлено как предикат (связь).
Query Graph/Structure (Граф/Структура запроса): Структура данных, сгенерированная для входящего запроса. Включает идентифицированные сущности, их свойства и отношения.
Semantic Criteria (Семантические критерии): Конкретные критерии, сгенерированные путем заполнения Named Variables в шаблоне.
Statistical Metric (Статистическая метрика): Метрика (например, Odds Ratio или TF-IDF), используемая для оценки значимости и эффективности предлагаемых Semantic Criteria при их генерации.
Target Content (Целевой контент): Контент, предоставленный поставщиком (например, лендинг, онлайн-документ, примеры запросов), используемый для автоматической генерации Content Selection Criteria.
Template (Шаблон): Структура с определенной топологией и Named Variables, используемая для генерации Semantic Criteria.
Topology (Топология): Структура связей между узлами в графе. Сопоставление топологии является ключевым элементом процесса выбора контента.

Ключевые утверждения (Анализ Claims)

Анализ сфокусирован на Claim 1 патента US10216851B1, который описывает комплексный процесс.

Claim 1 (Независимый пункт): Описывает метод выбора контента, включающий генерацию критериев и сопоставление графовых структур.

Система получает от поставщика контента указание на онлайн-документ (например, лендинг).
Система генерирует Content Selection Criteria на основе этого документа.
Система генерирует Content Selection Criteria Structure (Граф Критериев), используя базовую Data Structure (Граф Знаний).
Критический момент: Эта структура включает критерии И сущности, которые связаны с критериями через Граф Знаний, но не фигурируют в самих сгенерированных критериях.
Система получает поисковый запрос пользователя.
Система генерирует Query Structure (Граф Запроса).
Критический момент: Эта структура включает запрос И сущности, которые связаны с запросом через Граф Знаний, но не фигурируют в самом запросе.
Система сопоставляет (matching) топологию (topology) и содержание Content Selection Criteria Structure с топологией и содержанием Query Structure.
Система выбирает контент как кандидат на основе этого совпадения.

Ядром изобретения является генерация и сравнение расширенных графовых структур. Эти графы включают не только то, что явно указано в запросе или критериях, но и связанные сущности из Графа Знаний. Сопоставление происходит на уровне структуры (топологии) и содержания этих расширенных графов. Это позволяет реализовать глубокий семантический таргетинг.

Claim 3 (Зависимый от 1): Уточняет, что структуры являются графами (graph), и сопоставление происходит по-узловому (node-by-node basis).

Claim 4 (Зависимый от 1): Описывает механизм оптимизации поиска.

Свойства запроса и связанных сущностей транслируются в flat data structure. Эта плоская структура используется для быстрой идентификации множества потенциально подходящих Content Selection Criteria, которые затем подвергаются детальному графовому сопоставлению (Claim 5).

Claim 6 (Зависимый от 1): Уточняет условия сопоставления.

Сопоставление включает проверку того, что Confidence Score (связанный с распознаванием сущностей в запросе) удовлетворяет определенному порогу. Это обеспечивает контроль качества интерпретации запроса.

Где и как применяется

Патент описывает механизмы, применяемые на нескольких этапах, преимущественно в системах выбора контента (например, рекламы).

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует Target Content (например, лендинги), предоставленный поставщиками, для автоматической генерации Content Selection Criteria (Процесс Б). Также здесь поддерживается основная Data Structure (Граф Знаний).

QUNDERSTANDING – Понимание Запросов
Ключевой этап. Система анализирует входящий запрос для идентификации сущностей, определения Confidence Score и генерации Query Graph (Query Structure). Это включает извлечение свойств и отношений сущностей из Графа Знаний.

RANKING / RETRIEVAL (Выбор Контента)
Этап выбора контента для показа. Система выполняет сопоставление Query Graph с индексированными Content Selection Criteria Graphs. Это включает этап быстрого поиска кандидатов (Retrieval) с использованием Flat Data Structure и последующее детальное сравнение топологии графов (Matching/Ranking).

Входные данные:

Поисковый запрос пользователя.
Target Content (онлайн-документы, примеры запросов).
Data Structure (Граф Знаний).
База данных Templates и Named Variables.
Логи исторических запросов (для расчета статистических метрик).

Выходные данные:

Кандидаты контента (например, реклама) для показа.
Предложенные Content Selection Criteria для поставщиков контента.

На что влияет

Системы выбора контента: Основное влияние на Google Ads и системы рекомендаций, позволяя реализовать точный семантический таргетинг.
Специфические запросы: Влияет на запросы, в которых можно четко идентифицировать сущности (продукты, локации, люди, медиа).
Конкретные ниши: Особенно актуально в коммерческих нишах (e-commerce, путешествия), где сущности хорошо структурированы и имеют коммерчески значимые свойства (commercially relevant properties).

Когда применяется

Выбор контента (Процесс А): Применяется при обработке запроса в реальном времени. Активируется, если идентифицированы сущности с Confidence Score выше порога.
Генерация критериев (Процесс Б): Применяется, когда поставщик контента предоставляет Target Content для анализа и генерации критериев таргетинга.

Пошаговый алгоритм

Патент описывает два основных процесса.

Процесс А: Выбор контента (Онлайн-сопоставление)

Получение запроса: Система получает поисковый запрос.
Идентификация сущностей: Идентифицируются сущности и их Confidence Scores.
Генерация Графа Запроса (Query Graph): Генерируется граф, включающий идентифицированные сущности и их свойства/отношения из Графа Знаний.
Трансляция в Flat Data Structure (Опционально): Query Graph преобразуется в плоский список фактов для ускорения поиска.
Поиск кандидатов (Retrieval): Система быстро находит потенциально совпадающие Content Selection Criteria Graphs.
Сопоставление графов (Matching): Выполняется детальное сравнение Query Graph с кандидатами. Проверяется совпадение топологии (структуры связей) и содержания узлов (поузловое сравнение).
Проверка порогов: Проверяется, удовлетворяют ли Confidence Scores установленным порогам.
Выбор контента: При успешном совпадении контент выбирается как кандидат.

Процесс Б: Генерация критериев выбора контента (Офлайн/По запросу)

Получение Target Content: Система получает целевой контент (например, лендинг или примеры запросов) от поставщика.
Идентификация сущностей и свойств: Анализируется Target Content для идентификации сущностей и их свойств.
Поиск шаблонов: Система ищет Templates, соответствующие свойствам сущностей. Шаблоны содержат Named Variables (например, $Area).
Генерация Semantic Criteria: Система заполняет Named Variables конкретными сущностями. Если переменных несколько, может использоваться декартово произведение (Cartesian product).
Расчет Statistical Metric: Для каждого критерия рассчитывается статистическая метрика (например, TF-IDF или Odds Ratio) для оценки его значимости. Учитывается частота в целевом контенте (TF) и редкость в общем корпусе запросов (IDF).
Выбор и предложение критериев: Критерии ранжируются по метрике, и лучшие предлагаются поставщику контента.

Какие данные и как использует

Данные на входе

Данные о сущностях (Entity Data): Критически важный компонент. Используется Data Structure (Граф Знаний), содержащая сущности, их ID, свойства и отношения.
Контентные факторы: Текст поискового запроса (Процесс А). Текст Target Content (лендинги, примеры запросов) (Процесс Б).
Системные данные: Confidence Scores. Предопределенные Templates и Named Variables.
Исторические данные: Логи исторических запросов используются для расчета Inverse Query Frequency (IDF) при генерации критериев.

Какие метрики используются и как они считаются

Confidence Score: Метрика семантической релевантности сущности запросу. Используется как порог.
Statistical Metric (TF-IDF / Odds Ratio): Используется при генерации критериев (Процесс Б) для измерения значимости семантического паттерна. Рассчитывается как произведение:
- Term Frequency (TF): Как часто критерий соответствует целевому контенту/запросам.
- Inverse Query Frequency (IDF): Насколько редок этот критерий среди всех исторических запросов. (IDF = log(Общее кол-во запросов / Кол-во запросов, содержащих критерий)).
Graph Matching (Сопоставление графов): Оценка, основанная на успехе сопоставления топологии и содержания между Query Graph и Content Selection Criteria Graph.

Выводы

Приоритет семантической структуры над ключевыми словами: Патент подтверждает, что Google интерпретирует запросы и контент как сложные графовые структуры (Query Graphs). Сопоставление основано на анализе сущностей и их взаимосвязей (графа), а не на простом совпадении слов.
Топология имеет решающее значение: Ключевым элементом является требование совпадения топологии (структуры связей) графов. Недостаточно упомянуть нужные сущности; они должны быть связаны так же, как это интерпретировано в запросе (поузловое сравнение).
Обогащение графов неявными связями: Система активно расширяет графы запроса и критериев, включая связанные сущности из Графа Знаний, даже если они не были упомянуты явно (Claim 1). Это позволяет учитывать глубокий контекст.
Автоматизация и анализ контента: Система включает сложный механизм для анализа Target Content (например, лендинга) и автоматического извлечения семантических критериев с помощью шаблонов и статистического анализа (TF-IDF). Это показывает, как Google оценивает семантическую уникальность и фокус контента.
Роль Confidence Scores: Точность распознавания сущностей критична. Confidence Scores используются для фильтрации неоднозначных интерпретаций и выступают порогом для активации семантического сопоставления.

Практика

Важное замечание: Хотя патент фокусируется на выборе контента (вероятно, Google Ads), описанные механизмы понимания запросов и анализа контента имеют прямое отношение к органическому SEO.

Best practices (это мы делаем)

Фокус на Entity-Oriented SEO: Необходимо оптимизировать контент так, чтобы Google мог четко идентифицировать ключевые сущности и их отношения (свойства). Патент подтверждает, что Google использует эти отношения для формирования Query Graphs.
Явное указание отношений (Subject-Predicate-Object): Структурируйте контент и используйте микроразметку (Schema.org) для явного указания на отношения между сущностями (например, Фильм X снят Режиссером Y). Это помогает Google строить точные графы, соответствующие топологии запросов пользователей.
Анализ семантической структуры лендингов (Аналогия с Процессом Б): Убедитесь, что ваши лендинги содержат четкие и статистически значимые семантические сигналы. Как показывает патент, Google анализирует документы для извлечения семантических паттернов (используя TF-IDF). Четкая структура и фокус на ключевых связях сущностей помогут системе правильно интерпретировать тематику и уникальность страницы.
Построение Topical Authority: Создавайте контент, который широко охватывает свойства и связи сущностей в вашей нише. Это укрепляет семантический граф вашего сайта и повышает вероятность соответствия различным Query Graphs пользователей.

Worst practices (это делать не надо)

Оптимизация только под ключевые слова: Стратегии, игнорирующие семантический контекст и сущности, неэффективны. Система ищет графовые соответствия, основанные на отношениях, а не просто вхождения текста.
Создание контента без четких связей: Контент, который упоминает множество сущностей без раскрытия их взаимосвязей, не создает сильной топологии, которую система ищет для сопоставления.
Неоднозначный контент: Контент, в котором основная сущность неясна, будет плохо обрабатываться этой системой, так как Confidence Scores при идентификации сущностей будут низкими.

Стратегическое значение

Патент подтверждает стратегический приоритет Google в развитии семантического поиска и использовании Графа Знаний. Для SEO это означает необходимость окончательного перехода от исследования ключевых слов к исследованию сущностей, их свойств и интентов. Долгосрочная стратегия должна фокусироваться на создании контента, который соответствует структурному пониманию информации Google (топологии графа).

Практические примеры

Сценарий 1: Оптимизация контента под граф запроса

Цель: Ранжироваться по запросу «отели рядом с Потсдамер Платц» (Пример из FIG. 3 патента).

Анализ Query Graph: Google распознает две сущности: «Hotel» и «Potsdamer Platz». Он также понимает отношения местоположения (например, «Potsdamer Platz» находится в «Berlin» через свойство containedby).
Действия SEO: Необходимо убедиться, что страница отеля четко идентифицируется как сущность типа «Hotel». В контенте и микроразметке (LocalBusiness, containedInPlace) необходимо явно указать близость к сущности «Potsdamer Platz» и принадлежность к «Berlin».
Результат: Страница соответствует как содержанию (сущностям), так и топологии (отношениям между ними) Query Graph, что повышает семантическую релевантность.

Сценарий 2: Выявление семантической значимости (Аналогия с Процессом Б)

Цель: Понять, как Google может оценивать тематическую авторитетность сайта обзоров фильмов.

Анализ контента: Система анализирует сайт (Target Content).
Идентификация свойств: Система определяет, что на сайте часто встречаются обзоры со свойствами: Жанр (Sci-Fi) и Режиссер (Ридли Скотт).
Расчет Statistical Metric (TF-IDF): Система видит, что признак «Фильмы Ридли Скотта» часто встречается на этом сайте (высокий TF) и является относительно специфичным в общем корпусе (высокий IDF).
Результат: Система определяет, что «Фильмы Ридли Скотта» — это значимый семантический паттерн для этого сайта. Это подчеркивает важность развития Topical Authority в конкретных семантических кластерах.

Вопросы и ответы

Что такое Граф Запроса (Query Graph) и чем он отличается от самого текста запроса?

Query Graph — это структурированное семантическое представление запроса. В отличие от простого текста, он включает идентифицированные сущности, их типы, свойства и отношения с другими сущностями, извлеченные из базы знаний. Например, для запроса «фильмы Тарантино» граф будет включать сущность «Квентин Тарантино» и связи типа «режиссер» с сущностями его фильмов, даже если они не упомянуты в запросе.

Что означает сопоставление топологии графов в контексте этого патента?

Сопоставление топологии означает проверку не только наличия определенных сущностей, но и структуры связей между ними. Чтобы контент считался релевантным запросу, структура (топология) его Content Selection Criteria Graph должна соответствовать структуре Query Graph (поузловое сравнение). Это гарантирует, что отношения между сущностями в запросе и контенте совпадают.

Что такое Confidence Score и как он влияет на SEO?

Confidence Score — это мера уверенности системы в том, что она правильно интерпретировала сущность в запросе или контенте. Если ваш контент неоднозначен и система не может уверенно идентифицировать ключевые сущности, она может проигнорировать их или выбрать неверную интерпретацию. Задача SEO — предоставить четкий контекст и использовать структурированные данные, чтобы максимизировать Confidence Score для целевых сущностей.

Патент в основном говорит о выборе контента (Ads). Как это применимо к органическому SEO?

Механизмы понимания запросов (Query Understanding) и анализа контента являются общими для всего поиска. То, как Google генерирует Query Graph для показа рекламы, очень похоже на то, как он интерпретирует запрос для органического ранжирования. Кроме того, механизм генерации критериев (Процесс Б) дает представление о том, как Google анализирует лендинги для определения их семантической релевантности и охвата.

Что такое Flat Data Structure и зачем она нужна Google?

Flat Data Structure — это упрощенный список фактов, извлеченных из Query Graph. Он нужен для повышения эффективности поиска (Retrieval). Сравнивать сложные топологии графов для миллиардов документов слишком ресурсоемко. Плоская структура позволяет быстро отобрать небольшой набор кандидатов, для которых затем выполняется более дорогостоящая операция полного сопоставления графов.

Что такое Шаблоны (Templates) и Именованные переменные (Named Variables)?

Это компоненты системы генерации семантических критериев. Template — это заготовка структуры, например, «Запрос упоминает фильм, снятый режиссером $Director». $Director — это Named Variable, которая может принимать значения конкретных сущностей (например, «Квентин Тарантино»). Они используются для автоматического выявления общих семантических паттернов в контенте.

Как статистические метрики (TF-IDF, Odds Ratio) используются в этом патенте?

Они используются в процессе генерации критериев для оценки значимости найденных семантических признаков. Система не просто ищет общие черты в целевом контенте, но и оценивает, насколько эти черты редки или распространены в общем корпусе запросов (используя IDF). Это позволяет выделить наиболее значимые и уникальные семантические характеристики контента.

Как этот патент связан с микроразметкой Schema.org?

Микроразметка является прямым способом сообщить поисковой системе о сущностях на странице и их свойствах. Эти данные напрямую используются для построения графов и проверки свойств сущностей. Внедрение Schema.org помогает системе точнее формировать графовое представление вашего контента, что критично для механизмов, описанных в патенте.

В Claim 1 говорится, что граф включает сущности, даже если они не упомянуты в запросе. Что это значит для SEO?

Это значит, что Google ранжирует контент не только по тому, что пользователь явно спросил, но и по связанным концепциям и свойствам сущностей из базы знаний. Например, запрос «Манхэттен» обогащается свойством «находится в Нью-Йорке». Для SEO это подчеркивает важность построения Topical Authority и полного охвата темы, включая связанные сущности и их атрибуты.

Как SEO-специалисту применить знания о топологии графов на практике?

Необходимо сосредоточиться на четком определении связей между сущностями на сайте. Это достигается через логичную структуру контента, качественную внутреннюю перелинковку и, главное, использование микроразметки (например, isPartOf, mentions, director), чтобы явно описать отношения в формате Субъект-Предикат-Объект.