Как Google автоматически определяет иерархические отношения между сущностями (например, «Торговый центр» и «Магазин внутри него»)

Google использует алгоритмы для анализа базы данных сущностей и выявления иерархических отношений (родитель-потомок). Система группирует потенциально связанные сущности по классификации, адресу, местоположению или названию. Затем она сравнивает их характеристики (например, совпадение названий, географическое вложение, популярность), чтобы определить, какая сущность является главной. Эти данные используются для структурирования выдачи, страниц организаций и локальных результатов.

Описание

Какую задачу решает

Патент решает проблему «плоского» представления результатов поиска (или других списков, например, при выборе локации для чекина), которое не отражает структурные или физические взаимосвязи между сущностями. Цель изобретения — автоматически идентифицировать иерархические отношения (hierarchical relationships) типа «родитель-потомок» (например, между торговым центром и магазинами внутри него) и использовать эту информацию для улучшения пользовательского опыта путем структурированного отображения этих связей.

Что запатентовано

Запатентована система для автоматического выявления (майнинга) иерархических отношений между сущностями в большой базе данных. Система использует различные сигналы — классификацию, адреса, географическое расположение (Geometry и Location), названия (Descriptors) и популярность (Impressions) — для определения того, является ли одна сущность частью другой. Выявленные отношения сохраняются в иерархическом индексе (Hierarchical Index).

Как это работает

Система работает в несколько этапов:

Группировка: Для оптимизации вычислений система группирует сущности, которые потенциально могут быть связаны (например, по общему нормализованному адресу, связанным классификациям или географической близости).
Идентификация Кандидатов: Внутри групп определяются кандидаты в родители (Candidate Parent Entity) и потомки (Candidate Child Entity Set) на основе их характеристик (например, наличие полигональной геометрии у родителя).
Сравнение и Оценка (Mining): Пары кандидатов сравниваются с использованием скоринговой модели (Scoring Criteria). Система оценивает, какая сущность вероятнее является родителем, основываясь на взвешенных критериях.
Индексация: Подтвержденные иерархические отношения записываются в Hierarchical Index, который затем используется для структурирования выдачи.

Актуальность для SEO

Высокая. Понимание сущностей и взаимосвязей между ними является ядром современного семантического поиска и Knowledge Graph. Автоматическое выявление физических и логических иерархий остается критически важным для локального поиска (Google Maps, Local Pack), структурирования информации о сложных организациях и улучшения представления SERP.

Важность для SEO

Патент имеет высокое значение (85/100), особенно для локального SEO и сайтов, представляющих сущности со сложной структурой (ТЦ, университеты, больницы, бизнес-центры). Он описывает конкретные механизмы, с помощью которых Google понимает физическую и логическую структуру бизнеса. Корректная идентификация этих связей напрямую влияет на формат отображения (например, вложенные списки в SERP) и видимость как родительских, так и дочерних сущностей.

Детальный разбор

Термины и определения

Candidate Parent Entity (Кандидат в родительские сущности): Сущность, идентифицированная как имеющая характеристики, указывающие на вероятность наличия у нее дочерних сущностей (например, классификация «Торговый центр»).
Candidate Child Entity Set (Набор кандидатов в дочерние сущности): Набор сущностей, которые имеют характеристики, указывающие на вероятность того, что они являются дочерними по отношению к конкретному кандидату в родители.
Classification Hierarchical Relationship (Иерархическое отношение классификаций): Предопределенное правило, указывающее, какие типы сущностей могут иметь иерархическую связь (например, «shopping_center» может быть родителем для «store»). Используется для группировки.
Descriptor (Дескриптор): Название или заголовок сущности (например, «Palo Alto Shopping Center»).
Entity (Сущность): Объект, имеющий отдельное существование (бизнес, место, организация, географический объект и т.д.).
Geometry (Геометрия): Набор точек или линий, определяющих географическую форму сущности. Родительские сущности часто имеют полигональную геометрию (площадь).
Hierarchical Index (Иерархический индекс): Структура данных, хранящая информацию об идентифицированных иерархических отношениях (родитель-потомок).
Impressions (Показы): Метрика популярности сущности (например, частота поисковых запросов по ней или частота ее появления в результатах поиска). Используется как сигнал для определения родительской сущности.
Normalized Address/Descriptor (Нормализованный адрес/дескриптор): Стандартизированная версия адреса или названия (например, нижний регистр, удаление пробелов/пунктуации), используемая для точного сравнения и группировки.
Scoring Criteria (Критерии оценки): Набор правил, используемых при сравнении двух сущностей для определения того, какая из них является родителем. Каждому критерию может быть присвоен вес.
Seed Keywords (Начальные ключевые слова): Исходный набор слов, связанных с определенной классификацией. Используются для автоматического расширения списка связанных ключевых слов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации иерархических отношений.

Идентификация candidate parent entity из набора сущностей на основе характеристик, указывающих на родительскую роль.
Идентификация candidate child entity set — сущностей, которые могут быть дочерними для этого родителя.
Сравнение характеристик родителя-кандидата с характеристиками потомков-кандидатов.
Определение существования иерархического отношения.
Обновление hierarchical index для отражения этого отношения.

Claims 3, 5, 7 (Зависимые от 1): Детализируют, как идентифицируются кандидаты (Шаг 1 и 2 из Claim 1). Кандидаты могут определяться на основе:

Предопределенных classification hierarchical relationship (Claim 3).
Наличия полигональной геометрии (polygon geometry) у родителя (Claim 5).
Ключевых слов в дескрипторах, связанных с родительской или дочерней классификациями (Claim 7).

Claims 10-13 (Зависимые от 1): Уточняют критерии для включения в candidate child entity set. Сущность может быть потомком, если:

Ее адрес включает дескриптор (название) родителя (Claim 10).
Ее местоположение находится в пределах порогового расстояния от родителя (Claim 11) или внутри географической области родителя (Claim 12).
Ее физический адрес совпадает или похож на адрес родителя (Claim 13).

Claim 14 (Зависимый от 1): Детализирует процесс сравнения (Шаг 3 из Claim 1) с использованием механизма оценки (scoring).

Кандидаты оцениваются по множеству scoring criteria.
Вычисляются суммарные оценки для обоих.
Если оценка родителя-кандидата выше оценки потомка-кандидата, он определяется как родитель.

Claim 15 (Зависимый от 14): Перечисляет конкретные примеры scoring criteria:

Идентификатор (название) одной сущности содержится в адресе другой.
Идентификатор одной сущности содержится в идентификаторе другой.
Одна сущность имеет большее количество impressions (популярнее), чем другая.
Идентификатор сущности содержит ключевые слова, связанные с родительской сущностью.

Где и как применяется

Изобретение в основном применяется на этапе индексирования для анализа и обогащения данных о сущностях, а также влияет на этапы ранжирования и отображения результатов.

INDEXING – Индексирование и извлечение признаков
Основная работа алгоритма происходит здесь. Система анализирует базу данных сущностей в офлайн или пакетном режиме. На этом этапе происходит извлечение и нормализация признаков (адреса, дескрипторы, классификации, геометрия), группировка сущностей и выявление (mining) иерархических отношений. Результаты сохраняются в Hierarchical Index.

RANKING / RERANKING – Ранжирование / Переранжирование
Данные из Hierarchical Index используются для модификации результатов поиска. Система может:

Добавлять связанные сущности: Если в результатах присутствует родитель, система может добавить дочерние сущности (и наоборот).
Переупорядочивать результаты: Система может продвигать родительские сущности выше их дочерних сущностей в списке результатов.

METASEARCH – Метапоиск и Смешивание
Иерархические данные используются для формирования структурированного отображения в SERP (например, вложенные списки), в информационных окнах на картах (Map Bubbles) и на страницах организаций (Place Pages).

Входные данные:

База данных сущностей с атрибутами: Descriptor, Classification, Geometry, Location, Address.
Данные о популярности сущностей (Impressions).
Предопределенные правила иерархии классификаций и списки ключевых слов.

Выходные данные:

Hierarchical Index, содержащий подтвержденные родительско-дочерние связи между сущностями.

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на локальный поиск (Local SEO) и сущности, имеющие физическую или логическую структуру вложенности: торговые и бизнес-центры, университеты, больницы, аэропорты.
Форматы контента: Влияет на представление результатов на Картах (Google Maps), в локальной выдаче (Local Pack) и на страницах организаций (Place Pages / Business Profiles).

Когда применяется

Офлайн/Индексирование: Процесс выявления иерархических отношений (Mining) применяется ко всей базе данных сущностей периодически или по мере обновления данных.

В реальном времени/Поиск: При обработке поискового запроса, запроса на отображение Place Page или генерации списка локаций для чекина, система обращается к Hierarchical Index, если идентифицирует в результатах сущности, имеющие иерархические связи.

Пошаговый алгоритм

Процесс А: Построение Иерархического Индекса (Mining)

Идентификация набора сущностей: Выборка данных из базы данных.
Группировка сущностей (Оптимизация): Объединение сущностей, которые потенциально могут иметь связи. Методы группировки:
- По иерархии классификаций (например, все ТЦ и все Магазины).
- По нормализованным адресам (сущности с одинаковым адресом).
- По географическим признакам (близость, вложенность геометрий).
Идентификация кандидатов (внутри групп): Определение Candidate Parent Entities (по классификации, геометрии) и соответствующих им Candidate Child Entity Sets.
Сравнение пар сущностей (Mining): Для каждой пары (Родитель-кандидат, Потомок-кандидат) выполняется сравнение характеристик.
Применение критериев оценки (Scoring): Оценка пары по взвешенным критериям (вхождение названия в адрес, вхождение названия в название, сравнение Impressions, наличие родительских ключевых слов).
Определение иерархии: Сущность с более высоким скором (и, возможно, превышающим порог) определяется как родитель.
Генерация/Обновление индекса: Запись подтвержденного иерархического отношения в Hierarchical Index.

Процесс Б: Использование Иерархического Индекса при Поиске

Получение запроса и идентификация результатов: Генерация стандартного набора результатов.
Проверка иерархии: Система проверяет по Hierarchical Index, являются ли какие-либо из результатов родительскими или дочерними сущностями.
Идентификация связанных сущностей: Если да, система извлекает соответствующие дочерние/родительские сущности из индекса.
Генерация иерархических результатов: Система объединяет исходные результаты со связанными сущностями, структурирует их или переупорядочивает.
Отображение: Результаты отображаются иерархически (например, с отступом).

Какие данные и как использует

Данные на входе

Система использует комплексные данные о сущностях для выявления иерархии:

Контентные факторы (Дескрипторы): Названия сущностей (Descriptors). Анализируется вхождение названия одной сущности в название другой, а также наличие специфических ключевых слов.
Структурные факторы (Классификация и Адрес):
- Classification: Тип сущности. Используются предопределенные правила иерархии классификаций.
- Address: Физический адрес. Анализируется совпадение адресов (после нормализации) и вхождение названия одной сущности в адрес другой.
Географические факторы:
- Location: Географические координаты (точка). Используется для оценки близости.
- Geometry: Географическая форма (полигон или точка). Используется для определения родителя (полигон) и проверки географического вложения.
Поведенческие факторы (Популярность):
- Impressions: Данные о количестве показов или поисковых запросов. Используются как критерий для определения главенства (родитель обычно популярнее потомка).

Какие метрики используются и как они считаются

Механизм Оценки (Scoring Mechanism): Система вычисляет оценки для двух сущностей на основе выполнения ряда Scoring Criteria. Критерии могут иметь разные веса (weighted value). Сущность с более высоким итоговым баллом определяется как родитель.
Scoring Criteria (Критерии оценки): Набор правил, таких как: содержание дескриптора A в адресе B; содержание дескриптора A в дескрипторе B; количество Impressions у A больше, чем у B; наличие «родительских» ключевых слов у A.
Нормализация: Критически важный процесс. Адреса и дескрипторы нормализуются (приводятся к стандартному формату) перед сравнением и группировкой для обеспечения точности сопоставления.
Геопространственный анализ: Расчет расстояний (Proximity) и проверка вхождения точки в полигон (Containment).
Анализ текста (String Matching): Проверка вхождения подстрок, включая префиксное и суффиксное совпадение для сравнения дескрипторов и адресов.

Выводы

Автоматизированное построение иерархии сущностей: Google активно использует алгоритмические методы для понимания физической и логической структуры мира (например, какие бизнесы находятся внутри каких зданий), не полагаясь исключительно на ручную разметку.
Многофакторная оценка иерархии: Определение отношений «Родитель-Потомок» основано на взвешенной скоринговой модели, учитывающей названия (Descriptors), адреса (Address), географию (Geometry) и популярность (Impressions) сущностей.
Критичность консистентности данных (NAP): Согласованность Названия, Адреса и Географических данных критически важна. Несоответствия могут помешать Google правильно сгруппировать сущности и идентифицировать иерархические связи.
Нормализация как основа сравнения: Система полагается на нормализованные версии адресов и названий. SEO-специалисты должны обеспечивать чистоту исходных данных, чтобы нормализация проходила корректно.
Влияние на представление и ранжирование: Идентифицированные связи используются для визуального структурирования выдачи (вложенные списки), изменения порядка ранжирования (продвижение родителей выше потомков) и инъекции связанных сущностей в SERP.

Практика

Best practices (это мы делаем)

Обеспечение абсолютной согласованности NAP: Критически важно поддерживать точные и согласованные Name (Descriptor), Address и Phone для всех сущностей в иерархии (например, ТЦ и все арендаторы) во всех источниках (сайт, Google Business Profile (GBP), каталоги). Это помогает корректной нормализации и группировке.
Точное указание адресов для дочерних сущностей: Для сущностей, находящихся внутри другой, адрес должен точно соответствовать адресу родителя, но включать уникальный локальный идентификатор (номер офиса, павильона). Также полезно, если название родителя фигурирует в адресе потомка (например, «ТЦ Аврора, ул. Ленина 1, павильон 25»). Это соответствует критерию скоринга из патента.
Использование четких и структурированных названий (Descriptors): Если уместно, включайте название родительской сущности в название дочерней (например, «Кафедра Физики МГУ»). Патент указывает на анализ вхождения названий как на сигнал связи.
Точная классификация сущностей: Выбирайте максимально точные категории в GBP. Правильная классификация («Торговый центр» vs «Магазин одежды») является ключевым фактором для работы механизма Classification Hierarchical Relationship.
Оптимизация географических данных: Убедитесь, что точка на карте для дочерней сущности (Location) находится строго внутри полигона (Geometry) родительской сущности. Это помогает Google подтвердить физическое вложение.

Worst practices (это делать не надо)

Несогласованное форматирование адресов: Использование разных форматов адреса для сущностей, находящихся в одном месте. Это мешает процессу нормализации и группировки.
Выбор некорректных категорий: Выбор родительской категории для дочерней сущности (например, указание категории «Университет» для «Кафедры») может привести к некорректному определению иерархии.
Игнорирование родительского контекста: Продвижение дочерней сущности в полном отрыве от родительской (например, не упоминать на сайте или в профиле ТЦ, в котором находится магазин).

Стратегическое значение

Патент подтверждает стратегическую важность Entity SEO и фокус Google на понимании реального мира. Для SEO-специалистов, работающих в Local SEO или со сложными организациями, критически важно управлять полным портфелем сущностей – как родительских, так и дочерних. Обеспечение консистентности данных и правильной классификации напрямую влияет на то, как Google интерпретирует иерархию, что, в свою очередь, влияет на видимость в локальном поиске, картах и навигацию пользователей.

Практические примеры

Сценарий: Оптимизация для сети клиник и работающих в них врачей

Задача: Обеспечить, чтобы Google правильно идентифицировал связь между клиникой (Родитель) и врачами (Потомки) для структурированного отображения в локальном поиске.
Действия:
1. Согласование адресов: Убедиться, что все врачи используют точный и полный адрес клиники в своих профилях (GBP, сайт, каталоги врачей).
2. Оптимизация дескрипторов: На сайте и в профилях рассмотреть использование формата «Врач Имя Фамилия – Клиника Название» или четко указывать клинику в описании, чтобы усилить связь, основанную на Descriptor.
3. Классификация: Для клиники установить категорию «Медицинский центр», для врачей – соответствующие специальности («Кардиолог»).
4. Популярность: Работать над повышением узнаваемости и частоты запросов (Impressions) для клиники, чтобы усилить ее статус родителя.
Ожидаемый результат: При поиске клиники в SERP или на Картах отображается структурированный результат, включающий список ключевых врачей. При поиске врача в его профиле четко указана связь с клиникой.

Вопросы и ответы

Как Google определяет, какая сущность является родителем, а какая — потомком?

Система использует механизм оценки (Scoring), сравнивая атрибуты двух сущностей. Баллы начисляются на основе нескольких критериев: вхождение названия одной сущности в адрес или название другой, географическое вложение (одна внутри границ другой), классификация (например, ТЦ vs Магазин) и сравнительная популярность (Impressions). Сущность, набравшая больше баллов, признается родителем.

Насколько важна точность и согласованность адресов (NAP consistency)?

Она критически важна. Патент описывает процесс нормализации адресов (Normalized Address) как ключевой шаг для группировки сущностей, расположенных в одном месте. Если из-за разного написания адреса не будут нормализованы к единому виду, система может не понять, что сущности физически связаны, и иерархия не будет установлена.

Что такое «Геометрия» (Geometry) сущности и как она используется?

Geometry определяет географические границы сущности, часто в виде полигона (например, контур здания ТЦ или территория университета). Сущности с полигональной геометрией чаще рассматриваются как кандидаты в родители. Система проверяет, попадают ли координаты (Location) дочерней сущности внутрь полигона родительской, что является сильным сигналом физического включения.

Влияет ли популярность (Impressions) на определение иерархии?

Да, это один из критериев в скоринговой модели. Предполагается, что родительская сущность (например, ТЦ) обычно более популярна и ищется чаще, чем отдельная дочерняя сущность (например, небольшой магазин внутри). При прочих равных, сущность с большим количеством Impressions имеет больше шансов быть идентифицированной как родитель.

Как этот патент влияет на отображение результатов в Google Maps и Local Pack?

Влияние прямое. Если система идентифицирует иерархию, она может отображать результаты структурированно. В Local Pack родительская сущность может отображаться с вложенными ссылками на ключевые дочерние сущности. На Картах при клике на маркер родителя может появиться информационное окно (bubble), содержащее список дочерних объектов.

Может ли этот патент влиять на ранжирование?

Да. Патент упоминает возможность переупорядочивания (reordering) списка результатов таким образом, чтобы родительские сущности отображались выше (более заметно), чем их дочерние сущности. Также система может добавлять (инъектировать) в выдачу дочерние или родительские сущности, если считает это релевантным.

Что такое «Classification Hierarchical Relationship» и как на это влиять?

Это предопределенные правила в системе Google, указывающие, какие типы сущностей могут быть связаны (например, «Университет» и «Факультет»). Мы не можем влиять на сами правила, но мы можем влиять на то, как они применяются к нашим сущностям, выбирая наиболее точные классификации (категории) в GBP и на сайте.

Как лучше всего называть отделы внутри компании, чтобы Google понял иерархию?

Патент указывает, что вхождение дескриптора родителя в дескриптор ребенка является сигналом иерархии. Рекомендуется использовать последовательные конвенции именования, такие как «Название Компании — Отдел» (например, «Городская Больница — Кардиологическое отделение»). Это напрямую поддерживает механизм идентификации связей, описанный в патенте.

Что делать, если Google неправильно определил иерархию (например, сделал магазин родителем ТЦ)?

Необходимо проанализировать сигналы, которые могли привести к ошибке, используя критерии из патента. Проверьте согласованность и нормализацию адресов. Сравните классификации и названия сущностей. Убедитесь, что популярность (Impressions) ТЦ выше. Исправьте данные на сайте, в GBP и внешних источниках, чтобы предоставить более четкие сигналы о том, кто является родителем.

Применяется ли этот механизм только к физическим объектам (Local SEO)?

Патент в основном использует примеры с физическими объектами и активно использует географические данные. Хотя теоретически концепция иерархии применима и к логическим сущностям (бренды и продукты), основное применение описанных методов сосредоточено на организации данных о местах (Local SEO/Maps).