Как Google использует визуальные (графовые) запросы для поиска структурированного контента и графиков на веб-страницах

Патент Google описывает систему, позволяющую пользователям визуально конструировать сложные запросы в виде графов (узлы и связи). Система преобразует этот граф в математическое представление (матрицу) и сравнивает его с аналогичными метаданными, извлеченными из веб-контента (например, из таблиц и диаграмм). Это позволяет находить ресурсы, структура данных которых соответствует структуре запроса пользователя.

Описание

Какую задачу решает

Патент решает две основные проблемы:

Сложность выражения запросов: Пользователям трудно выразить сложные, структурированные взаимосвязи (например, маршруты, процессы, иерархии) с помощью стандартных текстовых запросов.
Недоступность контента для поиска: Поисковым системам сложно интерпретировать и индексировать underlying data models (базовые модели данных), лежащие в основе графического контента на веб-страницах (например, диаграммы, таблицы, инфографика), а также структурировать информацию из неструктурированного текста (например, истории трудоустройства).

Что запатентовано

Запатентована система для генерации и обработки Graph Search Queries (графовых поисковых запросов). Пользователи визуально конструируют запрос, используя графический интерфейс для размещения узлов (сущностей) и ребер (взаимосвязей) и присвоения им атрибутов. Система генерирует Graph Search Query Metadata (например, в виде матрицы смежности) и сравнивает их с Content Metadata Sets, которые представляют структуру данных контента на веб-страницах. Релевантность определяется путем расчета Similarity Scores с помощью функций расстояния (Distance Functions).

Как это работает

Механизм работает в несколько этапов:

Конструирование запроса: Пользователь использует визуальный интерфейс для создания графового запроса, выбирая элементы из палитры (которая может фильтроваться по категории темы).
Генерация метаданных запроса: Система нормализует элементы графа (например, присваивает ID аэропортам) и создает математическое представление запроса, например, Adjacency Matrix (матрицу смежности).
Генерация метаданных контента: Вебмастера («custodians») используют предоставленный инструмент для генерации Content Metadata Sets из своих базовых моделей данных (например, данных, питающих диаграмму) и встраивают эти метаданные в веб-страницу.
Сравнение и ранжирование: Поисковая система сравнивает матрицу запроса с матрицами контента, используя Distance Function для расчета степени различия. Ресурсы с наименьшим расстоянием (наибольшим сходством) ранжируются выше.

Актуальность для SEO

Низкая/Средняя. Описанный пользовательский интерфейс (создание запросов путем рисования графов) не получил широкого распространения в основном поиске Google. Однако базовая технология сравнения графов (Query Graph vs Content Graph) является фундаментальной для семантического поиска и работы с Knowledge Graph. Описанная идея предоставления инструментов вебмастерам для разметки графического контента сегодня реализуется через стандарты структурированных данных (например, Schema.org/Dataset).

Важность для SEO

Влияние на SEO оценивается как среднее. Патент не описывает алгоритмы основного ранжирования, а фокусируется на специализированном методе поиска структурированного и графического контента. Для SEO-специалистов он подчеркивает критическую важность предоставления поисковым системам доступа к базовым моделям данных, лежащим в основе сложного контента (таблиц, диаграмм). Если контент не имеет доступной структуры данных (например, скрыт в JavaScript или изображениях без разметки), он невидим для такого типа поиска.

Детальный разбор

Термины и определения

Adjacency Matrix (Матрица смежности): Математическое представление графа (запроса или контента). Квадратная матрица N x N, где N — количество узлов. Значения элементов матрицы представляют собой атрибуты ребер (связей) между соответствующими узлами. Используется для сравнения графов.
Attributes (Атрибуты): Значения, присваиваемые пользователем узлам (например, название аэропорта «Airport A») или ребрам (например, цена «$500.00»).
Content Item (Элемент контента): Контент на веб-странице, часто графический объект (например, таблица или диаграмма), основанный на базовой модели данных.
Content Metadata Set (Набор метаданных контента): Структурированное представление (например, Adjacency Matrix) элемента контента и его базовой модели данных. Генерируется вебмастером и встраивается в страницу для доступности поисковой системе.
Data Model (Модель данных): Базовая структура данных (например, в реляционной базе данных), на основе которой строится Content Item или Graph Search Query.
Distance Function (Функция расстояния): Математическая функция, используемая для количественного определения расстояния (различия) между двумя матрицами метаданных (запроса и контента).
Graph Search Elements (Элементы графового поиска): Компоненты, доступные пользователю для построения запроса: Graph Nodes (узлы, представляющие сущности или темы) и Graph Edges (ребра, представляющие связи между узлами).
Graph Search Query (Графовый поисковый запрос): Запрос, сконструированный пользователем визуально в виде графа с узлами, ребрами и атрибутами.
Graph Search Query Metadata (Метаданные графового поискового запроса): Математическое представление (например, Adjacency Matrix, сигнатура или фингерпринт) графового запроса, используемое для сравнения с контентом.
Similarity Score (Оценка сходства): Результат работы Distance Function. Меньшее расстояние означает большее сходство.

Ключевые утверждения (Анализ Claims)

Патент является продолжением (Continuation) более ранней заявки. Анализ сфокусирован на актуальных Claims (2-21, Claim 1 отменен).

Claim 2 (Независимый пункт): Описывает процесс на стороне клиентского устройства (браузера).

Отображение пользовательского интерфейса, включающего подмножество Graph Search Elements (узлы и соединители) и инструмент для генерации графового запроса.
Обнаружение расположения узлов и соединителей, созданного пользователем в интерфейсе, где соединители определяют взаимосвязи.
Генерация (на клиентском устройстве) Search Query Metadata на основе этого расположения.
Передача этих метаданных поисковой системе.
Отображение результатов поиска, выбранных поисковой системой на основе этих метаданных.

Claim 5 (Зависимый от 2): Детализирует, как поисковая система выбирает результаты (это ядро изобретения с точки зрения Information Retrieval).

Сравнение Graph Search Metadata с Content Metadata Sets (каждый набор представляет элемент контента на веб-ресурсе и его взаимосвязи).
Определение Similarity Scores между метаданными запроса и контента на основе сравнения.
Выбор веб-ресурсов для отображения в результатах поиска на основе этих Similarity Scores.

Claim 6 (Зависимый от 2): Описывает механизм фильтрации элементов.

Система получает данные о категории (category data), определяющие тематику запроса. Подмножество Graph Search Elements, отображаемое пользователю (в Claim 2), выбирается на основе этих данных о категории.

Claim 4 (Зависимый от 2): Упоминает возможность присвоения веса (weight) узлу или соединителю, который используется поисковой системой при выборе результатов.

Где и как применяется

Изобретение описывает специализированный режим поиска, затрагивающий несколько этапов.

INDEXING – Индексирование и извлечение признаков

На этом этапе поисковая система должна обнаружить и обработать Content Metadata Sets, которые вебмастера встроили в свои страницы. Эти наборы данных, представляющие структуру графического контента (например, диаграмм), сохраняются в индексе.

QUNDERSTANDING – Понимание Запросов

Основное применение патента. Когда пользователь использует интерфейс графового поиска:

Система предоставляет визуальный интерфейс и палитру элементов (возможно, отфильтрованную по теме).
Пользователь конструирует Graph Search Query.
Система (возможно, на стороне клиента, согласно Claim 2) генерирует Graph Search Query Metadata (например, Adjacency Matrix).

RANKING – Ранжирование (Этап Retrieval/L1)

На этапе отбора кандидатов система сравнивает Graph Search Query Metadata с проиндексированными Content Metadata Sets. Вычисляются Similarity Scores с использованием Distance Functions. Ресурсы отбираются на основе этих оценок.

Входные данные:

Визуальный запрос пользователя (узлы, ребра, атрибуты, веса).
Категория тематики запроса (опционально).
База данных соответствия идентификаторов и атрибутов (Identifier-Attribute Data Store) для нормализации.
Проиндексированные Content Metadata Sets.

Выходные данные:

Similarity Scores для веб-ресурсов, содержащих соответствующий контент.
Набор релевантных результатов поиска.

На что влияет

Типы контента: Наибольшее влияние оказывается на контент со сложной структурой и базовыми моделями данных: диаграммы, таблицы, инфографика, сравнения продуктов, маршруты, блок-схемы процессов. Также упоминается применение к неструктурированному тексту, такому как профили в социальных сетях (например, история трудоустройства).
Специфические запросы: Запросы, требующие указания структуры и взаимосвязей (например, «маршрут из А в Б через В стоимостью не более Х»).
Конкретные ниши: Travel (как в примере с аэропортами), финансы, наука, HR (поиск кандидатов по структурированному опыту работы).

Когда применяется

Триггеры активации: Алгоритм применяется только тогда, когда пользователь явно использует интерфейс для создания Graph Search Query. Он не применяется автоматически к стандартным текстовым запросам, хотя в патенте упоминается возможность использования графового запроса совместно с текстовым.

Пошаговый алгоритм

Этап 1: Взаимодействие с пользователем и создание запроса

Определение категории (опционально): Пользователь указывает тематическую категорию запроса (например, «Путешествия»).
Фильтрация элементов: Система фильтрует доступные Graph Search Elements на основе категории и отображает их в палитре.
Конструирование графа: Пользователь перетаскивает узлы и ребра в поле ввода.
Присвоение атрибутов и весов: Пользователь добавляет значения к узлам (например, «Airport B») и ребрам (например, «$500») и может указать их важность (веса).

Этап 2: Генерация метаданных запроса (Query Metadata Generation)

Нормализация узлов: Система сопоставляет атрибуты узлов с уникальными идентификаторами (ID) из базы данных (Identifier-Attribute Data Store). Например, «Airport B» становится ID 1, «Airport A» становится ID 2.
Создание модели данных: Генерируется промежуточная модель данных, фиксирующая связи. Например: (ID 1 -> ID 2, $500).
Генерация матрицы: Система создает Graph Search Query Metadata в виде Adjacency Matrix (N x N). Элемент матрицы в строке i, столбце j содержит значение ребра между узлом i и узлом j (например, 500), или 0, если связи нет.

Этап 3: Сравнение и ранжирование

Извлечение метаданных контента: Система извлекает из индекса Content Metadata Sets (также в виде матриц), соответствующие тематике.
Выбор функции расстояния: Система выбирает подходящую Distance Function (например, на основе категории запроса).
Расчет расстояния: Вычисляется расстояние между матрицей запроса и матрицами контента. Например, путем суммирования абсолютных разностей соответствующих элементов матриц.
Определение Similarity Scores: Расстояния используются как оценки сходства (меньшее расстояние = выше релевантность).
Выбор ресурсов: Веб-ресурсы выбираются и ранжируются на основе Similarity Scores (возможно, в сочетании с другими сигналами ранжирования).

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурных данных и атрибутов, введенных пользователем или извлеченных из контента.

Структурные факторы: Являются основными данными. Учитывается топология графа — какие узлы существуют и как они связаны между собой ребрами (наличие связи, направление связи).
Контентные факторы: Используются атрибуты (значения), присвоенные узлам (например, названия сущностей) и ребрам (например, количественные показатели связи).
Пользовательские факторы: Могут использоваться веса (weights), присвоенные пользователем узлам или ребрам для указания их относительной важности.

Какие метрики используются и как они считаются

Adjacency Matrix (Матрица смежности): Ключевая структура данных для представления графов. Описана выше.
Distance Function (Функция расстояния): Метрика для сравнения двух матриц. В патенте приводится конкретная формула (Equation 1): d(A,B) = Σ |a(i,j) — b(i,j)|. Это сумма абсолютных разностей всех соответствующих элементов матриц A (запрос) и B (контент).
Similarity Score (Оценка сходства): В данном патенте это значение, возвращаемое Distance Function. Чем меньше значение, тем выше сходство.
Нормализация данных: Перед сравнением атрибуты (например, названия аэропортов) преобразуются в стандартные идентификаторы (ID), чтобы обеспечить возможность сравнения различных графов, использующих одни и те же сущности.

Выводы

Поиск по структуре данных, а не по тексту: Патент описывает механизм поиска, который фокусируется на топологии и атрибутах базовой модели данных контента, а не на окружающем его тексте. Это позволяет находить релевантные диаграммы, таблицы и процессы.
Необходимость в явной разметке контента: Система полагается на наличие Content Metadata Sets на веб-страницах. Патент предполагает, что Google предоставит инструменты для вебмастеров («custodians»), чтобы генерировать эти метаданные из их базовых моделей данных и встраивать их в HTML. Без этого контент остается невидимым для данного типа поиска.
Нормализация сущностей критична: Для эффективного сравнения графов система должна нормализовать сущности (узлы), сопоставляя их атрибуты со стандартными идентификаторами. Это подчеркивает важность связывания контента с известными сущностями (аналогично Knowledge Graph).
Специализированный интерфейс запросов: Изобретение предполагает наличие специального визуального интерфейса для ввода запросов, что отличается от стандартного текстового поиска. Оно предназначено для сложных структурированных запросов.
Сравнение на основе матриц и функций расстояния: Конкретный технический метод сравнения основан на преобразовании графов в Adjacency Matrices и вычислении расстояния между ними, что является стандартным подходом в теории графов.

Практика

Best practices (это мы делаем)

Хотя описанный интерфейс графового поиска не является общедоступным, патент дает важные указания по оптимизации структурированного и графического контента.

Предоставление базовых моделей данных: Для любого важного контента, основанного на данных (диаграммы, таблицы, инфографика), необходимо предоставлять доступ к базовой модели данных. На практике это означает использование семантической HTML-разметки (например, тегов <table>) и микроразметки.
Использование структурированных данных для наборов данных: Если контент представляет собой набор данных, используйте разметку Schema.org (например, Dataset), чтобы описать его структуру, переменные и предоставить доступ к данным. Это современный эквивалент встраивания Content Metadata Sets, описанного в патенте.
Четкое определение сущностей и связей: При создании контента убедитесь, что сущности (узлы) и связи между ними (ребра) четко определены и легко извлекаемы. Используйте стандартные идентификаторы для сущностей (например, коды аэропортов, ISBN книг), что облегчает нормализацию, описанную в патенте.
Структурирование профильной информации: В контексте упоминания социальных профилей и историй трудоустройства, рекомендуется максимально структурировать эту информацию (например, используя разметку JobPosting или ProfilePage), а не полагаться на свободный текст.

Worst practices (это делать не надо)

Скрытие данных в изображениях и сложных скриптах: Размещение важных данных исключительно в виде изображений (например, PNG-таблиц) или сложных JavaScript-визуализаций без предоставления базовых данных делает этот контент неиндексируемым для систем, подобных описанной в патенте.
Использование нестандартных форматов данных: Представление данных в проприетарных или неструктурированных форматах, которые трудно парсить.
Игнорирование микроразметки для сложного контента: Отсутствие попыток описать структуру сложного контента с помощью доступных инструментов (Schema.org).

Стратегическое значение

Патент подтверждает долгосрочную стратегию Google по переходу от индексации текста к индексации структур данных и семантических связей. Хотя конкретная реализация пользовательского интерфейса не стала мейнстримом, лежащие в ее основе принципы (нормализация сущностей, сравнение графов, необходимость разметки данных) крайне важны. Это подчеркивает необходимость для SEO-специалистов мыслить категориями моделей данных и обеспечивать максимальную доступность и структурированность контента для машинного чтения.

Практические примеры

Сценарий: Оптимизация сравнительной таблицы тарифов авиакомпаний

Сайт публикует сложную диаграмму или таблицу, сравнивающую цены на перелеты по разным маршрутам у разных авиакомпаний.

Плохая реализация: Таблица вставлена как изображение (PNG) или сверстана с помощью сложных DIV-ов без семантической структуры. Поисковая система не видит базовую модель данных.
Оптимизация по патенту:
1. Структурирование данных: Использовать семантически верный HTML <table> для представления данных.
2. Предоставление Content Metadata: В идеале (если бы инструмент Google был доступен) использовать его для генерации Content Metadata Set (матрицы смежности) и встроить его в страницу.
3. Практическая альтернатива (сегодня): Использовать JSON-LD для разметки данных. Например, использовать тип Dataset или структурировать информацию о каждом рейсе с помощью Flight и Offer, явно указывая аэропорты (с IATA кодами) и цены. Это создает структурированную модель данных, которую Google может интерпретировать и сравнивать с запросами пользователей.
Ожидаемый результат: Повышение вероятности того, что данный контент будет найден по сложным структурированным запросам (даже если они вводятся не графически, а текстом, который Google внутренне преобразует в граф).

Вопросы и ответы

Является ли описанный интерфейс графового поиска общедоступным функционалом Google?

Нет. В патенте описан конкретный пользовательский интерфейс, позволяющий пользователям визуально конструировать запросы в виде графов. Этот интерфейс не реализован в основном поиске Google как общедоступный функционал. Патент описывает потенциальную возможность или экспериментальную функцию.

Какова основная ценность этого патента, если интерфейс не используется?

Основная ценность заключается в описании механизма сравнения структурированных данных. Патент детально описывает, как Google может представлять сложные структуры (графы) в виде математических моделей (матриц смежности) и сравнивать их с помощью функций расстояния. Эти методы лежат в основе семантического поиска и работы с Knowledge Graph, даже если исходный запрос был текстовым.

Что такое «Content Metadata Set» и как он связан с SEO сегодня?

Content Metadata Set — это структурированное представление базовой модели данных контента (например, данных внутри диаграммы). Патент предполагает, что вебмастера будут генерировать его специальным инструментом и встраивать в страницу. Сегодня прямым аналогом этого является использование микроразметки JSON-LD (Schema.org) для описания структуры контента, например, разметка Dataset для таблиц или данных.

Для каких типов контента этот патент наиболее актуален?

Он наиболее актуален для контента, обладающего сложной внутренней структурой и взаимосвязями: сравнительные таблицы, диаграммы процессов, маршруты, финансовые графики, научные данные, организационные структуры. Везде, где важны не только сами данные, но и связи между ними.

Что означает нормализация узлов в контексте этого патента?

Нормализация означает приведение различных названий одной и той же сущности к единому идентификатору. В примере патента названия аэропортов («Airport A», «Airport B») преобразуются в уникальные ID (1, 2, 3…). Это необходимо для того, чтобы система могла математически сравнивать графы, даже если они используют немного разные обозначения.

Как работает «Distance Function» (Функция расстояния)?

Distance Function сравнивает две матрицы смежности (одну от запроса, другую от контента) и вычисляет числовое значение, показывающее, насколько они отличаются. В примере патента используется сумма абсолютных разностей соответствующих элементов матриц. Чем меньше итоговое число, тем более похожими считаются графы.

Может ли эта система использоваться совместно со стандартным текстовым поиском?

Да, в патенте упоминается, что Similarity Scores, полученные в результате сравнения графов, могут использоваться в сочетании с другими метриками, например, с данными о релевантности текстового запроса и контента на веб-ресурсах. Это позволяет уточнить или дополнить результаты поиска.

Как система определяет, какие именно элементы (узлы и связи) предложить пользователю для построения графа?

Патент предлагает механизм фильтрации. Пользователь может указать общую тематическую категорию запроса (например, «Путешествия»). Система использует эту категорию для выбора и отображения только релевантных элементов в палитре (например, «Аэропорт», «Вокзал», «Цена»).

Что делать, если я использую сложные JavaScript-визуализации (например, D3.js) для отображения данных?

В этом случае критически важно предоставить базовую модель данных в доступном формате. Если данные загружаются динамически, убедитесь, что они доступны в виде структурированного HTML (например, скрытой таблицы) или, что предпочтительнее, размечены с помощью JSON-LD. Иначе поисковая система не сможет извлечь структуру данных из визуализации.

Упоминается ли в патенте возможность указывать важность отдельных элементов графа?

Да. Патент предусматривает возможность для пользователя назначать веса (weights) узлам или ребрам графового запроса. Эти веса учитываются при генерации метаданных запроса и последующем расчете релевантности, позволяя пользователю указать, какие части запроса являются более приоритетными.