Как Google использует Knowledge Graph для автоматической кластеризации результатов поиска по свойствам сущностей

Google использует Knowledge Graph для организации поисковой выдачи по широким запросам. Система определяет сущность в запросе (например, «Собаки»), находит в Knowledge Graph ее наиболее важное свойство (например, «Порода») и автоматически генерирует уточняющие подзапросы. Результаты поиска представляются в виде организованных кластеров, соответствующих этим подзапросам.

Описание

Какую задачу решает

Патент решает проблему неструктурированного представления результатов поиска, особенно для широких запросов о сущностях. Традиционное представление в виде единого списка (отсортированного по популярности или алфавиту) может быть неудобным для изучения темы. Изобретение направлено на автоматическую организацию выдачи в семантически значимые кластеры на основе содержания результатов.

Что запатентовано

Запатентована система для автоматической кластеризации и представления результатов поиска. Система использует Knowledge Graph для идентификации сущности в исходном запросе и определения ключевого «организующего свойства» (Organizing Property) этой сущности. На основе этого свойства генерируются вторичные запросы (Second Search Queries), а полученные результаты представляются пользователю в виде организованных кластеров (например, в виде строк или столбцов).

Как это работает

Механизм работает в двух режимах: офлайн и онлайн.

Офлайн (Подготовка): Система обходит Knowledge Graph, идентифицирует типы сущностей и их свойства. Эти свойства ранжируются на основе критериев (Organizing Criterion), таких как популярность или релевантность, чтобы определить наилучшие Organizing Properties. Результаты сохраняются (например, в Schema Table).
Онлайн (Обработка запроса): Система получает запрос и определяет сущность. Используя предварительно рассчитанные данные, выбирается наилучшее Organizing Property (например, «Порода» для «Собаки»). Затем генерируются Second Search Queries путем комбинирования запроса со значениями свойства («Собака Пудель», «Собака Корги»). Результаты этих запросов извлекаются и представляются в кластеризованном виде.

Актуальность для SEO

Высокая. Механизм, описанный в патенте, напрямую соответствует функциям, наблюдаемым в современной выдаче Google, таким как карусели изображений, сегментированные по подтемам, блоки уточнения запросов и различные SERP Features для сущностей. Структурирование выдачи на основе Knowledge Graph является ключевым направлением развития поиска.

Важность для SEO

Патент имеет высокое значение (75/100) для SEO-стратегии. Он не описывает сигналы ранжирования, но определяет структуру представления результатов (SERP Layout) для широких запросов о сущностях. Для SEO это означает, что оптимизация должна быть направлена не только на общие запросы, но и на уточненные Second Search Queries, которые Google генерирует автоматически. Понимание структуры Knowledge Graph и приоритетных свойств сущностей критически важно для обеспечения видимости в этих кластерах.

Детальный разбор

Термины и определения

Entity (Сущность): Вещь или концепция, которая является единичной, уникальной, четко определенной и различимой (например, человек, место, идея).
Entity Reference (Ссылка на сущность): Идентификатор (например, текст) или узел в Knowledge Graph, который ссылается на сущность.
Entity Type (Тип сущности): Категория или класс, к которому принадлежит сущность (например, «Person», «City», «Movie»).
Knowledge Graph (Граф знаний): Структура данных, организованная в виде графа с узлами (Nodes) и ребрами (Edges). Узлы представляют сущности, типы или значения (литералы), а ребра представляют отношения между ними.
Organizing Property (Организующее свойство): Свойство сущности, выбранное системой для кластеризации результатов поиска. Например, для сущности «Dog» организующим свойством может быть «Breed» (Порода).
Organizing Criterion (Критерий организации): Метрика, используемая в офлайн-процессе для ранжирования потенциальных Organizing Properties. Упоминаются релевантность (relevance data), популярность (popularity data) и совместная встречаемость (co-occurrence).
Schema Table (Таблица схемы): Структура данных, которая хранит организованный (ранжированный) список свойств для определенного типа сущности. Используется для быстрого определения Organizing Property.
Second Search Query (Вторичный поисковый запрос): Запрос, сгенерированный системой на основе исходного запроса и Organizing Property. Используется для получения результатов для конкретного кластера.

Ключевые утверждения (Анализ Claims)

Патент содержит два основных независимых блока утверждений: один описывает онлайн-процесс обработки запроса (Claim 1), а второй — офлайн-процесс подготовки данных (Claim 28).

Claim 1 (Независимый пункт): Описывает метод отображения результатов поиска в реальном времени.

Определение ссылки на сущность (entity reference) из первого поискового запроса.
Идентификация данных, связанных с этой сущностью. Эти данные включают организующее свойство (organizing property), получены из Knowledge Graph и связаны с одним или несколькими типами в нем.
Генерация второго поискового запроса (second search query) на основе organizing property.
Генерация результатов поиска на основе второго запроса.
Представление результатов поиска в расположении (arrangement), соответствующем организующему свойству.

Claim 3 (Зависимый от 1): Уточняет генерацию вторичного запроса.

Генерация second search query включает идентификацию связанной сущности (associated entity reference) на основе связей между organizing property и исходной entity reference в Knowledge Graph. Вторичный запрос генерируется на основе обеих сущностей (исходной и связанной).

Claim 28 (Независимый пункт): Описывает офлайн-метод подготовки данных для организации поиска.

Обход (Traversing) Knowledge Graph для идентификации типов сущностей (entity types) и свойств, связанных с каждым типом.
Для каждого типа сущности, организация связанных свойств на основе как минимум одного критерия организации (organizing criterion) в организованные свойства (organized properties).
Сохранение organized properties в структуре данных (например, Schema Table), которая может быть использована для организации результатов поиска.

Claim 31, 32 (Зависимые от 28): Уточняют критерии организации.

Organizing criterion может включать данные о релевантности (relevance data) (Claim 31) или совместной встречаемости (co-occurrence) (Claim 32).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя данные из Knowledge Graph для изменения генерации и финального представления SERP.

INDEXING / QUNDERSTANDING (Офлайн-процессы)
На этом этапе происходит построение Knowledge Graph и предварительная обработка данных. Система выполняет офлайн-процесс (Процесс Б): обход графа, идентификация свойств сущностей и их ранжирование с использованием Organizing Criterion для создания Schema Tables. Эти таблицы сохраняются для последующего использования.

QUNDERSTANDING – Понимание Запросов (Онлайн)
При получении запроса система распознает в нем entity reference и определяет его тип. Затем система обращается к соответствующей Schema Table, чтобы выбрать наилучшее organizing property.

RANKING / METASEARCH – Ранжирование / Метапоиск и Смешивание
Основное применение патента в реальном времени. Вместо (или в дополнение к) ранжирования результатов исходного запроса, система генерирует и выполняет несколько second search queries. Это форма метапоиска, где результаты нескольких внутренних поисков агрегируются.

RERANKING / Presentation Layer (Уровень представления)
Результаты, полученные от second search queries, не просто смешиваются, а представляются в кластеризованном виде (строки, столбцы, карусели), организованном по organizing property. Система определяет порядок кластеров и порядок результатов внутри кластера.

Входные данные:

Исходный поисковый запрос.
Knowledge Graph (сущности, типы, свойства, отношения).
Schema Tables (предварительно ранжированные свойства).
Индексы контента (веб, изображения, видео).

Выходные данные:

Структурированная страница результатов поиска (SERP), где результаты организованы в кластеры на основе семантических свойств.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на широкие (broad) запросы или запросы, явно указывающие на известную сущность или тип сущности (например, «Фильмы», «Небоскребы», «Собаки»).
Типы контента: Патент явно упоминает применение для различных типов контента, включая текстовые результаты, изображения и видео. Особенно сильно влияет на визуальный контент (Google Images).
Форматы контента: Влияет на представление результатов в виде кластеров, каруселей (горизонтальные строки) или колонок.

Когда применяется

Триггеры активации: Алгоритм активируется, когда в запросе идентифицирована entity reference.
Условия применения: Применяется, если для типа этой сущности существуют предварительно рассчитанные Organizing Properties (в Schema Table) и система может сгенерировать релевантные second search queries, возвращающие достаточно контента для формирования кластеров.

Пошаговый алгоритм

Процесс А: Онлайн-обработка запроса

Определение сущности: Получение первого поискового запроса и определение в нем entity reference. При неоднозначности используются контекстные данные (например, местоположение пользователя) для выбора сущности.
Идентификация организующего свойства: Идентификация данных, связанных с типом сущности (например, через Schema Table). Выбор наилучшего organizing property из этих данных.
Генерация вторичных запросов:
1. Получение списка значений (связанных сущностей) для выбранного organizing property из Knowledge Graph.
2. Генерация одного или нескольких second search queries на основе этих значений (часто путем комбинирования исходной сущности и значения свойства).
Генерация результатов: Выполнение second search queries для получения наборов результатов.
Представление результатов: Отображение полученных результатов в интерфейсе, сгруппированном по second search queries (кластерам). Кластеры могут быть упорядочены (например, по популярности, алфавиту или числовому значению).

Процесс Б: Офлайн-подготовка данных (Предварительные вычисления)

Обход Knowledge Graph: Система обходит Knowledge Graph для идентификации entity types и всех связанных с ними свойств.
Организация свойств: Для каждого entity type система организует (ранжирует) его свойства, используя один или несколько organizing criterion (например, релевантность, популярность, совместная встречаемость).
Сохранение данных: Организованные свойства сохраняются в структуре данных (Schema Table), которая связывается с соответствующим entity type для быстрого доступа во время обработки запроса.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурированных данных из Knowledge Graph для организации выдачи.

Структурные факторы (Knowledge Graph Data): Это основа изобретения. Используются Entity References, Entity Types, свойства и отношения (узлы и ребра графа).
Поведенческие/Статистические факторы: Данные о популярности (popularity data), релевантности (relevance data) и совместной встречаемости (co-occurrence) используются в офлайн-процессе как Organizing Criterion для ранжирования свойств. Также могут использоваться для упорядочивания кластеров.
Пользовательские факторы: Упоминается, что выбор сущности при неоднозначности запроса может зависеть от истории поиска пользователя, предпочтений и географического положения.

Какие метрики используются и как они считаются

Organizing Criterion (Критерий организации): Метрика для ранжирования свойств сущности в офлайн-режиме. Патент упоминает, что она может основываться на релевантности, популярности, совместной встречаемости или ручном вводе разработчиков системы. Конкретные формулы расчета не приводятся.
Метрики ранжирования кластеров: Система упорядочивает сгенерированные кластеры (second search queries). Порядок может быть основан на популярности/релевантности, алфавитном значении или числовом значении (например, хронология для сущности «Президент США»).
Метрики ранжирования внутри кластера: Результаты внутри каждого кластера также упорядочиваются, например, с использованием стандартных метрик релевантности и популярности (не описанных в этом патенте).

Выводы

Knowledge Graph как фреймворк для SERP: Патент демонстрирует, что Knowledge Graph используется не только для прямых ответов, но и как основа для организации всей страницы результатов. Структура графа напрямую влияет на макет выдачи (SERP Layout).
Автоматическая сегментация широких запросов: Google автоматически разбивает широкие запросы на более узкие подтемы (second search queries), основываясь на том, какое свойство сущности система считает наиболее важным (organizing property).
Приоритезация свойств (Schema Tables): Система предварительно определяет, как лучше всего структурировать информацию по теме. Офлайн-процесс ранжирует свойства для каждого типа сущности на основе статистических данных (популярность, релевантность) и сохраняет их в Schema Tables.
Динамическое представление контента: Представление результатов адаптируется к запросу. Результаты могут быть показаны в виде каруселей (горизонтальные строки) или колонок, сгруппированных по семантическим кластерам.
Критичность оптимизации под уточненные запросы: Поскольку результаты извлекаются на основе second search queries (например, «Dog Poodle»), а не только исходного запроса («Dog»), контент должен быть высокорелевантен именно этим уточненным запросам для попадания в соответствующий кластер.

Практика

Best practices (это мы делаем)

Оптимизация под сущности и их свойства (Entity-Based SEO): Необходимо четко определять ключевые сущности на сайте и связывать их с релевантными свойствами. Используйте структурированные данные (Schema.org) для явного указания этих связей. Это помогает Google понять структуру контента и повышает вероятность его использования в кластеризованных результатах.
Анализ Organizing Properties в нише: Изучайте выдачу по широким запросам, чтобы понять, какие свойства Google использует для кластеризации. Это покажет, какие Organizing Properties система считает приоритетными для ваших ключевых сущностей. Структура вашего сайта и контент должны отражать эти приоритеты.
Создание контента под автоматические уточнения (Second Search Queries): Создавайте контент, который отвечает на уточненные запросы, генерируемые Google. Если Google кластеризует «Кроссовки» по «Бренду», убедитесь, что у вас есть качественный контент, оптимизированный под «Кроссовки Nike», «Кроссовки Adidas» и т.д.
Оптимизация мультимедиа (Изображения и Видео): Поскольку механизм часто используется для кластеризации медиаконтента (например, в Google Images), убедитесь, что изображения и видео хорошо оптимизированы (Alt-тексты, заголовки, окружающий текст) и четко связаны с конкретными сущностями и их свойствами.

Worst practices (это делать не надо)

Игнорирование структурированных данных и Knowledge Graph: Отсутствие четкой разметки сущностей и их свойств затрудняет для Google понимание вашего контента в семантическом контексте, что снижает шансы на видимость в кластеризованных результатах и SERP Features.
Фокус только на широких запросах без учета свойств: Оптимизация страницы только под общий запрос (например, «Рецепты пасты») без учета того, как Google может его кластеризовать (например, по типу соуса или основному ингредиенту). Это может привести к потере видимости в специализированных кластерах.
Неполное или неточное описание атрибутов: В E-commerce отсутствие важных атрибутов товара (цвет, размер, бренд), которые Google может использовать как Organizing Property, приведет к тому, что товар не попадет в релевантные кластеры.

Стратегическое значение

Патент подтверждает стратегию Google по переходу от ранжирования списка ссылок к представлению структурированной информации, основанной на сущностях. Для SEO это означает необходимость глубокого понимания семантики и связей в Knowledge Graph. Стратегия должна фокусироваться на построении тематического авторитета и четкой организации контента вокруг сущностей и их ключевых свойств (Organizing Properties). Это также подчеркивает важность оптимизации под различные форматы представления контента в SERP.

Практические примеры

Сценарий: Оптимизация интернет-магазина электроники для запроса «Ноутбуки»

Анализ выдачи: SEO-специалист анализирует SERP по запросу «Ноутбуки». Он замечает, что Google кластеризует результаты (особенно изображения и товары) по «Бренду» (Lenovo, Apple, HP) и «Назначению» (Игровые, Для работы). Это идентифицированные Organizing Properties.
Анализ Knowledge Graph и Schema: Специалист проверяет, что эти свойства определены в Schema.org для типа Product (brand, category) и как они связаны в Knowledge Graph.
Структура сайта и контент: Сайт должен иметь четкую архитектуру, отражающую эти свойства. Создаются высококачественные страницы категорий, оптимизированные под Second Search Queries: «Ноутбуки Lenovo», «Игровые ноутбуки».
Внедрение микроразметки: На страницах товаров и категорий внедряется разметка Product, четко указывающая бренд и назначение (категорию) товара.
Ожидаемый результат: Сайт с большей вероятностью появится в соответствующих кластерах (например, каруселях товаров или изображений) в выдаче по запросу «Ноутбуки», обеспечивая видимость по автоматическим уточнениям.

Вопросы и ответы

Что такое «Organizing Property» и как Google его выбирает?

Organizing Property — это свойство сущности, которое система считает наиболее подходящим для структурирования результатов поиска (например, «Жанр» для «Фильма»). Google выбирает его с помощью офлайн-процесса, который анализирует все свойства сущности в Knowledge Graph и ранжирует их на основе Organizing Criterion (например, популярности или частоты совместного упоминания). Результат этого ранжирования сохраняется в Schema Table.

Что такое «Schema Table» в контексте этого патента?

Schema Table — это внутренняя структура данных Google, которая хранит предварительно ранжированный список свойств для определенного типа сущности (Entity Type). Она создается офлайн и используется в реальном времени для быстрого определения наилучшего Organizing Property при обработке запроса пользователя. Это не то же самое, что разметка Schema.org, хотя данные из разметки могут влиять на ее содержимое.

Могу ли я повлиять на то, какое свойство будет выбрано в качестве «Organizing Property» для моей ниши?

Напрямую повлиять сложно, так как выбор основан на глобальных данных (Knowledge Graph и статистика популярности/релевантности). Однако, создавая авторитетный контент, который подчеркивает важность определенных свойств, и активно используя эти свойства в структуре сайта и микроразметке, можно косвенно способствовать тому, чтобы Google распознал эти свойства как значимые для данной тематики.

Как этот патент влияет на стратегию по работе с широкими (broad) запросами?

Патент показывает, что Google стремится автоматически сегментировать широкие запросы. Стратегия должна включать анализ того, как именно Google кластеризует выдачу по вашим целевым широким запросам, и создание контента, оптимизированного под эти автоматические уточнения (Second Search Queries). Недостаточно быть релевантным общему запросу; нужно быть лучшим ответом в конкретном кластере.

Какова роль микроразметки (Schema.org) в контексте этого патента?

Микроразметка критически важна. Она является одним из основных источников данных для наполнения Knowledge Graph свойствами сущностей. Четкое указание свойств (например, brand, color, author) помогает Google понять ваш контент и корректно связать его с Organizing Properties, что повышает шансы на попадание в соответствующие кластеры в выдаче.

Применяется ли этот механизм только для изображений?

Нет. Хотя в патенте приведен наглядный пример с изображениями, механизм универсален. Он может применяться для кластеризации текстовых веб-результатов, видео, товаров и любого другого типа контента, который может быть связан с сущностями в Knowledge Graph. Особенно часто это наблюдается в Google Images и Google Shopping.

Как система обрабатывает неоднозначные запросы (например, «Ягуар» – машина или животное)?

Патент упоминает процесс разрешения неоднозначности (disambiguation) на этапе определения Entity Reference. Система выбирает наиболее вероятную сущность на основе популярности, контекста запроса, истории поиска пользователя или его местоположения. После выбора конкретной сущности применяется механизм кластеризации с использованием свойств, релевантных именно для нее.

Что произойдет, если для сущности нет подходящих организующих свойств?

Если система не может идентифицировать сущность в запросе или если для идентифицированной сущности нет подходящих Organizing Properties в Schema Table (например, сущность плохо описана в Knowledge Graph), механизм кластеризации не будет активирован. В этом случае Google вернется к стандартному представлению результатов поиска в виде единого ранжированного списка.

Как определяется порядок отображения кластеров на странице?

Патент указывает, что кластеры (результаты Second Search Queries) могут быть упорядочены с использованием различных метрик. Это может быть алфавитный порядок значений свойства, числовой порядок (например, хронология), или порядок, основанный на данных о релевантности и популярности конкретного кластера.

Нужно ли мне оптимизировать страницу под «Second Search Query», если она уже оптимизирована под исходный запрос?

Да, это критически важно. Результаты для кластера извлекаются именно на основе Second Search Query (например, «Собака Пудель»). Если ваша страница релевантна только общему запросу («Собака»), но не является сильным результатом для уточненного запроса, она вряд ли попадет в этот специализированный кластер. Контент должен соответствовать интенту уточненного запроса.