
Google использует алгоритмы для анализа информации о контенте (например, книгах, фильмах, сериалах) из множества источников. Система создает записи, кластеризует их для выявления серий, определяет канонические названия серий и отдельных произведений, а затем упорядочивает их последовательность. Это позволяет структурировать разрозненные и противоречивые данные для улучшения поисковой выдачи и формирования Графа Знаний.
Патент решает проблему обработки и структурирования огромного объема разрозненной, противоречивой и неполной информации о сериализованном контенте (в патенте упоминаются книги, аудиозаписи, видеоигры, фильмы, ТВ-шоу), поступающей из множества источников (Book Information Servers, таких как издатели, библиотеки, продавцы). Цель — автоматическое согласование этих данных для точной идентификации серий, определения канонических названий, состава и порядка произведений в них, что улучшает представление результатов поиска.
Запатентована система для автоматического распознавания серий контента и согласования сущностей (Entity Reconciliation). Система использует многоступенчатый подход, включающий кластеризацию записей о контенте, выявление связей между кластерами и анализ частотности атрибутов (механизм консенсуса) для определения канонических имен и структуры серии. Ключевым аспектом является иерархическое согласование данных для идентификации конкретных изданий (Tomes) и абстрактных произведений (Abstract Books/Buckets).
Система функционирует через сложный процесс согласования данных:
Book Records) с канонизированными полями.Related Clusters) на основе других атрибутов (например, название). Анализируя частоту встречаемости различных вариантов названий в этих кластерах, система определяет преобладающее (predominant) каноническое название серии (консенсус).Tomes.Tomes, представляющие разные издания одного и того же абстрактного произведения, группируются в Buckets. Для этого может использоваться сравнение метаданных или фактического текстового содержания.Buckets) в серии, основываясь на номерах томов.Высокая. Патент описывает фундаментальные процессы согласования сущностей (Entity Reconciliation) и построения Графа Знаний (Knowledge Graph). Понимание того, как Google структурирует информацию о связанных сущностях из противоречивых источников, критически важно в эпоху семантического поиска. Эти механизмы остаются центральной задачей для любой поисковой системы.
Патент имеет высокое стратегическое значение (85/100). Он не описывает алгоритмы ранжирования, но детально раскрывает, как Google превращает неструктурированные данные в надежные сущности и связи для Графа Знаний. Понимание этих механизмов критично для Entity SEO. Предоставление четких, последовательных и полных метаданных (особенно через Schema.org) облегчает процесс распознавания и согласования ваших сущностей, что напрямую влияет на видимость в Knowledge Panels, каруселях и других структурированных элементах SERP.
Bucket.Tomes, которые представляют одно и то же Abstract Book.Book Records, объединенных на основе схожести значений в определенном подмножестве полей.Descriptors (в полях, отличных от тех, что использовались для первичной кластеризации). Предполагается, что они описывают одну и ту же серию.Book Records, относящихся к этому изданию.Claim 1 (Независимый пункт): Описывает основной метод идентификации книжной серии из разрозненных данных.
Book Records с полями атрибутов.Predominant Candidate (преобладающего кандидата).Ядро изобретения — это двухэтапный процесс кластеризации (сначала по одним полям, затем поиск сходства по другим) и использование механизма консенсуса (Predominant Candidate) для выбора канонического названия из множества вариантов, представленных в разных кластерах.
Claim 4 (Зависимый от 1): Детализирует процесс идентификации отдельных книг в серии.
Записи из связанных кластеров распределяются по Buckets, где каждый Bucket представляет собой отдельную книгу (Abstract Book) в серии. Распределение основано на значениях полей записей.
Claim 5 (Зависимый от 1): Детализирует организацию серии.
Определяется порядок книг в серии на основе значений полей записей (например, номера тома).
Claim 7 (Зависимый от 1): Детализирует механизм идентификации связанных кластеров.
Этот патент описывает инфраструктурные процессы, критически важные для построения и поддержания структурированных баз данных Google, таких как Граф Знаний (Knowledge Graph).
CRAWLING – Сканирование и Сбор данных
Система собирает Book Information (метаданные) из различных внешних источников (Book Information Servers). Это может происходить через веб-сканирование, API или прямые фиды данных.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Он описывает процесс согласования сущностей (Entity Reconciliation) и структурирования данных.
Book Records, а значения полей приводятся к стандартному формату.Descriptors (общие строки текста) для кластеров.Tomes) и абстрактных произведений (Buckets).Результат этапа INDEXING: Структурированные данные о сериях и их компонентах, сохраненные в репозитории (вероятно, Knowledge Graph).
METASEARCH – Метапоиск и Смешивание
Структурированные данные, полученные в результате работы этого алгоритма, используются Query Module для генерации обогащенных результатов поиска (SERP Features), таких как Knowledge Panels и карусели, которые отображают серию в организованном виде.
Входные данные:
Book Information из множества источников.Выходные данные:
Buckets).Predominant Descriptors) для серий и произведений.Knowledge Graph.Knowledge Graph.Процесс организации контента по сериям состоит из четырех основных фаз.
Фаза 1: Парсинг и создание записей (Parsing Module)
Book Information из различных источников.Фаза 2: Идентификация серий (Series Identification Module)
Book Records группируются в кластеры на основе подмножества полей (например, Язык, Издатель, Автор).Descriptors).Descriptors разных кластеров с использованием метрики строкового сходства (string similarity score, например, edit distance). Кластеры с высоким сходством объединяются в "Набор связанных кластеров".Predominant Candidate по всему набору связанных кластеров.Фаза 3: Идентификация изданий (Tome Identification Module)
Book Records группируются в Tomes (конкретные издания) на основе высокоспецифичных идентификаторов (например, ISBN или Название + Дата публикации).Tome для определения наилучших значений полей методом большинства голосов. Также идентифицируются синонимы.Фаза 4: Идентификация абстрактных произведений и организация (Book Identification Module)
Tomes распределяются по Buckets (Абстрактные произведения). Это может включать: Tomes внутри Bucket для определения канонических атрибутов абстрактного произведения.Buckets упорядочиваются внутри серии на основе дескрипторов номера тома. Обрабатываются конфликты номеров для выявления подсерий.Система использует преимущественно метаданные, полученные из внешних источников.
textual content) для сравнения различных изданий (Tomes) и подтверждения того, что они являются одним и тем же абстрактным произведением (Abstract Book).Book Information Server). Это используется для обработки региональных различий и разрешения конфликтов.Патент полагается на статистические методы, анализ частотности и метрики сходства.
Descriptors и для определения Predominant Candidate (метод большинства голосов). Это основной механизм для достижения консенсуса из противоречивых данных.Descriptors между различными кластерами с целью выявления связанных кластеров. Упоминается возможность использования метрик типа edit distance.Buckets.Knowledge Graph.Predominant Candidate), анализируя частоту встречаемости атрибутов. Каноническое название — это то, которое чаще всего используется в большинстве источников.Record), Издание (Tome) и Абстрактное произведение (Bucket). Это позволяет точно моделировать сложные взаимоотношения в реальном мире.Predominant Candidate) при формировании консенсуса.Tomes (конкретные издания).Schema.org для описания связей. Для серий контента (статьи, курсы, продукты) используйте свойства, такие как isPartOf, hasPart, Series, ProductGroup. Четко указывайте порядок (например, через position в ItemList).alternateName в Schema.org). Это поможет системе на этапах идентификации Tomes и Buckets.Tomes.Этот патент подтверждает стратегический фокус Google на понимании сущностей и связей между ними (Entity SEO). Для SEO это означает, что оптимизация должна смещаться от отдельных страниц к построению семантически связанных кластеров контента. Система вознаграждает структурированность и последовательность. Понимание механизмов согласования сущностей позволяет SEO-специалистам более эффективно "общаться" с Knowledge Graph, гарантируя, что их контент, продукты или бренд правильно интерпретируются и отображаются в поиске.
Сценарий: Оптимизация серии обучающих курсов на сайте (Entity SEO)
Course и CreativeWorkSeries. Связать каждый курс с серией через isPartOf.@id в разметке.ItemList с position) на главной странице серии для указания порядка.Что такое согласование сущностей (Entity Reconciliation) в контексте этого патента?
Это процесс анализа множества записей из разных источников, которые могут использовать разные названия или идентификаторы для описания одной и той же сущности реального мира (например, книги или серии), и объединения их в единое, согласованное представление. Патент описывает многоэтапный процесс для этого: от записей (Records) к изданиям (Tomes) и далее к абстрактным произведениям (Buckets).
Как Google определяет, какое название является каноническим, если разные источники используют разные названия для одной серии?
Система использует механизм консенсуса. Она кластеризует все доступные записи, идентифицирует связанные кластеры и анализирует частоту встречаемости каждого варианта названия среди этих кластеров. Название, которое встречается наиболее часто (Predominant Candidate), выбирается в качестве канонического. Это означает, что реальность для Google определяется большинством голосов источников.
Насколько важно предоставлять уникальные идентификаторы, такие как ISBN или GTIN?
Критически важно. Уникальные идентификаторы используются на этапе идентификации Tomes (конкретных изданий). Они являются высокоспецифичными сигналами, которые значительно упрощают и повышают точность группировки записей. При их отсутствии система вынуждена полагаться на менее надежные сигналы, такие как комбинация Названия и Даты публикации.
Что произойдет, если метаданные на моем сайте противоречат данным большинства других источников?
Ваши данные, скорее всего, будут иметь меньший вес при формировании консенсуса, так как система предпочтет Predominant Candidate. Если вы являетесь официальным источником (например, производителем или автором), важно обеспечить распространение ваших канонических данных в экосистеме (каталоги, дистрибьюторы), чтобы они стали преобладающими, или использовать инструменты Google для прямой передачи данных (например, Merchant Center).
Как этот патент связан с разметкой Schema.org?
Schema.org — это способ предоставить Google информацию в том структурированном формате, который система пытается создать с помощью этого патента. Предоставляя четкую и последовательную разметку Schema (особенно для серий, продуктов, курсов), вы напрямую помогаете процессу согласования сущностей, уменьшая необходимость для Google полагаться на кластеризацию и консенсус из зашумленных данных.
Может ли Google использовать фактический контент страницы для определения того, к какой серии она относится?
Да. Патент явно упоминает возможность использования сравнения текстового содержания (textual content) для подтверждения того, что два разных издания (Tomes) представляют одно и то же абстрактное произведение (Abstract Book), особенно когда метаданные сильно различаются. Это подчеркивает важность не только метаданных, но и самого контента для идентификации сущностей.
Как система обрабатывает региональные различия в названиях?
Система может определить, что несколько разных названий преобладают в разных географических регионах (анализируя источник данных). В этом случае она может сохранить оба названия как канонические для соответствующих регионов и показывать нужное название в зависимости от местоположения пользователя, выполняющего запрос.
Применим ли этот патент только к книгам и фильмам?
Нет. В патенте указано, что термин "книга" используется широко и охватывает различные опубликованные работы, включая видеоигры, аудиозаписи, журналы и т.д. Методология кластеризации и консенсуса универсальна и может применяться для организации любых сущностей, связанных в серии, например, серий статей, продуктовых линеек или обучающих курсов.
Что такое двухэтапная кластеризация и почему она важна?
Это процесс, при котором записи сначала группируются по одному набору атрибутов (например, Автор), а затем эти группы анализируются на предмет сходства по другому набору атрибутов (например, Название серии). Это позволяет системе эффективно сузить область поиска, а затем точно идентифицировать связи между элементами, даже если исходные метаданные были неполными или вариативными.
Как SEO-специалисту использовать эти знания для оптимизации сайта электронной коммерции?
Для e-commerce это означает необходимость четкого управления вариантами товаров и продуктовыми линейками. Используйте консистентные названия для линеек (серий), предоставляйте GTIN для каждого варианта (Tome) и используйте разметку ProductGroup (или аналогичные механизмы) для объединения вариантов в абстрактный товар (Bucket). Обеспечьте последовательность этих данных в фидах Merchant Center и на самом сайте.

SERP
Семантика и интент
EEAT и качество

Индексация

Knowledge Graph

Свежесть контента
EEAT и качество

Семантика и интент
Мультимедиа
Индексация

EEAT и качество
Ссылки

Поведенческие сигналы
SERP

Поведенческие сигналы
SERP
Мультимедиа

Индексация
Семантика и интент
Ссылки

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Структура сайта
Ссылки

EEAT и качество
Антиспам
SERP

Семантика и интент
Ссылки
Knowledge Graph

Поведенческие сигналы
Персонализация
Семантика и интент

EEAT и качество
Семантика и интент
