Как Google распознает, согласовывает и упорядочивает сериализованный контент (книги, фильмы) из разрозненных источников

ORGANIZING BOOKS BY SERIES (Организация книг по сериям)

US9244919B2
Google LLC
2013-02-19
2016-01-26

Google использует алгоритмы для анализа информации о контенте (например, книгах, фильмах, сериалах) из множества источников. Система создает записи, кластеризует их для выявления серий, определяет канонические названия серий и отдельных произведений, а затем упорядочивает их последовательность. Это позволяет структурировать разрозненные и противоречивые данные для улучшения поисковой выдачи и формирования Графа Знаний.

Какую проблему решает

Патент решает проблему обработки и структурирования огромного объема разрозненной, противоречивой и неполной информации о сериализованном контенте (в патенте упоминаются книги, аудиозаписи, видеоигры, фильмы, ТВ-шоу), поступающей из множества источников (Book Information Servers, таких как издатели, библиотеки, продавцы). Цель — автоматическое согласование этих данных для точной идентификации серий, определения канонических названий, состава и порядка произведений в них, что улучшает представление результатов поиска.

Что запатентовано

Запатентована система для автоматического распознавания серий контента и согласования сущностей (Entity Reconciliation). Система использует многоступенчатый подход, включающий кластеризацию записей о контенте, выявление связей между кластерами и анализ частотности атрибутов (механизм консенсуса) для определения канонических имен и структуры серии. Ключевым аспектом является иерархическое согласование данных для идентификации конкретных изданий (Tomes) и абстрактных произведений (Abstract Books/Buckets).

Как это работает

Система функционирует через сложный процесс согласования данных:

Сбор и Нормализация: Информация собирается из разных источников и парсится в стандартизированные записи (Book Records) с канонизированными полями.
Кластеризация: Записи кластеризуются на основе подмножества атрибутов (например, автор, издатель).
Идентификация Серии: Система ищет связанные кластеры (Related Clusters) на основе других атрибутов (например, название). Анализируя частоту встречаемости различных вариантов названий в этих кластерах, система определяет преобладающее (predominant) каноническое название серии (консенсус).
Идентификация Изданий (Tomes): Записи, относящиеся к конкретному изданию (например, по ISBN), группируются в Tomes.
Идентификация Произведений (Buckets): Tomes, представляющие разные издания одного и того же абстрактного произведения, группируются в Buckets. Для этого может использоваться сравнение метаданных или фактического текстового содержания.
Упорядочивание: Система определяет порядок произведений (Buckets) в серии, основываясь на номерах томов.

Актуальность для SEO

Высокая. Патент описывает фундаментальные процессы согласования сущностей (Entity Reconciliation) и построения Графа Знаний (Knowledge Graph). Понимание того, как Google структурирует информацию о связанных сущностях из противоречивых источников, критически важно в эпоху семантического поиска. Эти механизмы остаются центральной задачей для любой поисковой системы.

Важность для SEO

Патент имеет высокое стратегическое значение (85/100). Он не описывает алгоритмы ранжирования, но детально раскрывает, как Google превращает неструктурированные данные в надежные сущности и связи для Графа Знаний. Понимание этих механизмов критично для Entity SEO. Предоставление четких, последовательных и полных метаданных (особенно через Schema.org) облегчает процесс распознавания и согласования ваших сущностей, что напрямую влияет на видимость в Knowledge Panels, каруселях и других структурированных элементах SERP.

Термины и определения

Abstract Book (Абстрактное произведение): Сущность, представляющая само произведение (например, роман или фильм), независимо от его конкретного издания или формата. Представлено термином Bucket.
Book (Книга/Произведение): Используется в широком смысле для обозначения опубликованного произведения, включая традиционные книги, журналы, аудиозаписи, видеоигры, фильмы и ТВ-программы.
Book Information Server (Сервер информации о произведениях): Внешний источник данных о контенте (например, издательства, библиотеки, продавцы, базы данных фильмов).
Book Record (Запись о произведении): Стандартизированная запись, созданная системой на основе информации из одного внешнего источника. Содержит поля с атрибутами (автор, название, ISBN и т.д.).
Bucket (Бакет): Набор Tomes, которые представляют одно и то же Abstract Book.
Cluster (Кластер): Группа Book Records, объединенных на основе схожести значений в определенном подмножестве полей.
Descriptor (Дескриптор): Общий текст или строка текста, часто встречающаяся в определенном поле (например, в заголовках) множества записей внутри кластера.
Predominant Candidate (Преобладающий кандидат): Кандидат на название серии, который наиболее часто встречается среди всех связанных кластеров. Механизм консенсуса для выбора канонического названия.
Set of Related Clusters (Набор связанных кластеров): Группа кластеров, которые демонстрируют высокую степень сходства между своими Descriptors (в полях, отличных от тех, что использовались для первичной кластеризации). Предполагается, что они описывают одну и ту же серию.
Tome (Том / Конкретное издание): Сущность, представляющая конкретную публикацию или версию произведения (например, издание в твердом переплете с определенным ISBN). Группа Book Records, относящихся к этому изданию.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации книжной серии из разрозненных данных.

Система получает информацию о книгах и создает Book Records с полями атрибутов.
Записи кластеризуются на основе значений подмножества полей (Набор А, например, Автор, Язык).
Идентифицируется "набор связанных кластеров" путем определения сходства значений полей, отличных от Набора А (Набор Б, например, Название, Серия).
Для каждого кластера в наборе идентифицируется отдельный кандидат на название серии.
Выбирается официальное название серии путем сравнения кандидатов и определения Predominant Candidate (преобладающего кандидата).
Название серии сохраняется, и идентифицируется набор книг в этой серии.

Ядро изобретения — это двухэтапный процесс кластеризации (сначала по одним полям, затем поиск сходства по другим) и использование механизма консенсуса (Predominant Candidate) для выбора канонического названия из множества вариантов, представленных в разных кластерах.

Claim 4 (Зависимый от 1): Детализирует процесс идентификации отдельных книг в серии.

Записи из связанных кластеров распределяются по Buckets, где каждый Bucket представляет собой отдельную книгу (Abstract Book) в серии. Распределение основано на значениях полей записей.

Claim 5 (Зависимый от 1): Детализирует организацию серии.

Определяется порядок книг в серии на основе значений полей записей (например, номера тома).

Claim 7 (Зависимый от 1): Детализирует механизм идентификации связанных кластеров.

Анализ поля в записях первого кластера для идентификации первого общего значения (Дескриптора 1).
Анализ того же поля во втором кластере для идентификации второго общего значения (Дескриптора 2).
Сравнение Дескриптора 1 и Дескриптора 2 для определения уровня схожести.
Включение кластеров в набор связанных кластеров в ответ на достаточный уровень схожести.

Где и как применяется

Этот патент описывает инфраструктурные процессы, критически важные для построения и поддержания структурированных баз данных Google, таких как Граф Знаний (Knowledge Graph).

CRAWLING – Сканирование и Сбор данных
Система собирает Book Information (метаданные) из различных внешних источников (Book Information Servers). Это может происходить через веб-сканирование, API или прямые фиды данных.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Он описывает процесс согласования сущностей (Entity Reconciliation) и структурирования данных.

Парсинг и Каноникализация: Необработанные данные парсятся в Book Records, а значения полей приводятся к стандартному формату.
Извлечение Признаков (Feature Extraction): Вычисляются Descriptors (общие строки текста) для кластеров.
Кластеризация и Согласование: Происходит многоэтапный процесс кластеризации, идентификации серий, томов (Tomes) и абстрактных произведений (Buckets).

Результат этапа INDEXING: Структурированные данные о сериях и их компонентах, сохраненные в репозитории (вероятно, Knowledge Graph).

METASEARCH – Метапоиск и Смешивание
Структурированные данные, полученные в результате работы этого алгоритма, используются Query Module для генерации обогащенных результатов поиска (SERP Features), таких как Knowledge Panels и карусели, которые отображают серию в организованном виде.

Входные данные:

Необработанная Book Information из множества источников.
Атрибуты: Название, Автор, Издатель, Дата публикации, ISBN, Название серии, Номер тома.
Фактический текстовый контент произведений (если доступен).

Выходные данные:

Идентифицированные сущности Серий и Абстрактных Произведений (Buckets).
Канонические названия (Predominant Descriptors) для серий и произведений.
Связи между произведениями и сериями/подсериями.
Порядок произведений в серии.

На что влияет

Конкретные типы контента: Патент явно указывает, что термин "книга" используется широко и охватывает опубликованные работы, включая журналы, газеты, аудиозаписи, видеоигры, фильмы и телепрограммы. Методология влияет на любой контент, который может быть организован в серии.
Структурирование данных: Влияет на способность системы преобразовывать зашумленные и противоречивые метаданные в чистые, структурированные сущности для Knowledge Graph.
Региональные и языковые различия: Система специально разработана для обработки вариаций в названиях и метаданных в разных географических регионах, выбирая преобладающие названия или сохраняя региональные варианты.

Когда применяется

Триггеры активации: Алгоритм применяется при обработке новых или обновленных данных, полученных от поставщиков информации, или как часть периодического процесса обновления Knowledge Graph.
Условия работы: Работает в условиях высокой степени неопределенности и противоречивости входных данных от разных источников. Это преимущественно офлайн-процесс (или пакетная обработка).

Пошаговый алгоритм

Процесс организации контента по сериям состоит из четырех основных фаз.

Фаза 1: Парсинг и создание записей (Parsing Module)

Получение данных: Система получает Book Information из различных источников.
Создание Book Records: Для каждого экземпляра создается запись с набором стандартных полей.
Каноникализация: Значения полей (например, даты, капитализация текста) приводятся к стандартному формату для обеспечения сопоставимости.

Фаза 2: Идентификация серий (Series Identification Module)

Начальная кластеризация: Book Records группируются в кластеры на основе подмножества полей (например, Язык, Издатель, Автор).
Извлечение дескрипторов: Внутри каждого кластера анализируются другие поля (например, Название, Имя серии) для выявления часто встречающихся строк текста (Descriptors).
Идентификация связанных кластеров: Сравниваются Descriptors разных кластеров с использованием метрики строкового сходства (string similarity score, например, edit distance). Кластеры с высоким сходством объединяются в "Набор связанных кластеров".
Выбор канонического названия (Консенсус): В каждом кластере определяются кандидаты на название серии. Затем выбирается Predominant Candidate по всему набору связанных кластеров.
Идентификация подсерий: Анализируются менее частые, но повторяющиеся дескрипторы для выявления подсерий.

Фаза 3: Идентификация изданий (Tome Identification Module)

Группировка в Tomes: Book Records группируются в Tomes (конкретные издания) на основе высокоспецифичных идентификаторов (например, ISBN или Название + Дата публикации).
Выбор лучших дескрипторов для Tome: Анализируются записи внутри Tome для определения наилучших значений полей методом большинства голосов. Также идентифицируются синонимы.

Фаза 4: Идентификация абстрактных произведений и организация (Book Identification Module)

Создание и заполнение Buckets: Tomes распределяются по Buckets (Абстрактные произведения). Это может включать:
- Сравнение лучших дескрипторов (Название, Серия, Номер).
- Сравнение фактического текстового содержания произведений (если доступно) для подтверждения идентичности, несмотря на различия в метаданных.
Выбор лучших дескрипторов для Bucket: Анализируются Tomes внутри Bucket для определения канонических атрибутов абстрактного произведения.
Упорядочивание серии: Buckets упорядочиваются внутри серии на основе дескрипторов номера тома. Обрабатываются конфликты номеров для выявления подсерий.
Сохранение: Структурированная информация сохраняется в репозитории.

Какие данные и как использует

Данные на входе

Система использует преимущественно метаданные, полученные из внешних источников.

Контентные факторы (Метаданные): Название произведения (Book Title), Имя Автора/Участника, Название серии (Series Name), Название подсерии (Subseries Name), Номер тома (Book Number in Series), Издатель, Год публикации, ISBN, Язык, Страна публикации.
Контентные факторы (Текст): Патент подчеркивает важность использования всего или части текста произведения (textual content) для сравнения различных изданий (Tomes) и подтверждения того, что они являются одним и тем же абстрактным произведением (Abstract Book).
Системные данные: Источник информации (Book Information Server). Это используется для обработки региональных различий и разрешения конфликтов.

Какие метрики используются и как они считаются

Патент полагается на статистические методы, анализ частотности и метрики сходства.

Частота встречаемости (Frequency of Occurrence): Используется для идентификации Descriptors и для определения Predominant Candidate (метод большинства голосов). Это основной механизм для достижения консенсуса из противоречивых данных.
Метрики строкового сходства (String Similarity Score): Используются для сравнения Descriptors между различными кластерами с целью выявления связанных кластеров. Упоминается возможность использования метрик типа edit distance.
Метрики текстового сходства (Textual Similarity): Используются для сравнения фактического содержания книг при формировании Buckets.
Пороговые значения (Thresholds): Используются на разных этапах: для определения достаточной схожести строк и текста, для определения того, является ли значение преобладающим, для отсеивания шума.
Анализ источника данных: Система анализирует, поступают ли противоречивые данные из одного и того же источника. Противоречия из одного источника считаются более достоверными индикаторами реальных различий (например, наличия подсерии), чем противоречия между разными источниками.

Согласование сущностей (Entity Reconciliation) — ключевой процесс. Патент детально описывает, как Google решает фундаментальную задачу: преобразование зашумленных, непоследовательных входных данных от множества источников в чистые, структурированные и связанные сущности. Это основа Knowledge Graph.
Консенсус определяет реальность. Система не полагается на один источник как на истину. Вместо этого она использует механизм консенсуса (Predominant Candidate), анализируя частоту встречаемости атрибутов. Каноническое название — это то, которое чаще всего используется в большинстве источников.
Двухэтапная кластеризация для выявления связей. Ключевым механизмом является разделение процесса кластеризации: сначала грубая группировка по очевидным атрибутам (например, Автор), а затем идентификация связей путем анализа сходства в других атрибутах (например, Название).
Иерархическое распознавание сущностей. Система четко разделяет Экземпляр (Record), Издание (Tome) и Абстрактное произведение (Bucket). Это позволяет точно моделировать сложные взаимоотношения в реальном мире.
Использование контента для валидации метаданных. В случаях сильных расхождений в метаданных (например, разные названия в разных странах), система может использовать сравнение фактического текстового содержания для окончательного согласования сущностей.
Обработка сложности и вариативности. Алгоритм спроектирован для обработки сложных сценариев, таких как подсерии, региональные различия в названиях и конфликты в нумерации томов.

Best practices (это мы делаем)

Обеспечение максимальной консистентности данных. Последовательно используйте одни и те же идентификаторы, названия и связи для сущностей на своем сайте и во внешних источниках (каталоги, дистрибьюторы). Это помогает системе правильно кластеризовать ваш контент и делает ваши данные предпочтительным кандидатом (Predominant Candidate) при формировании консенсуса.
Использование стандартизированных идентификаторов. Всегда указывайте уникальные идентификаторы (ISBN для книг, GTIN для товаров), когда они доступны. Они являются надежным способом для системы сгруппировать записи в Tomes (конкретные издания).
Использование структурированных данных для серийного контента. Активно применяйте разметку Schema.org для описания связей. Для серий контента (статьи, курсы, продукты) используйте свойства, такие как isPartOf, hasPart, Series, ProductGroup. Четко указывайте порядок (например, через position в ItemList).
Управление синонимами и вариациями. Если у вашего контента есть известные синонимы или региональные названия, четко указывайте каноническое название и перечисляйте альтернативные названия (через alternateName в Schema.org). Это поможет системе на этапах идентификации Tomes и Buckets.
Четкая структура и нумерация на сайте. Организуйте сериализованный контент логично. Используйте последовательные шаблоны заголовков и навигацию, которые отражают структуру серии и порядок элементов.

Worst practices (это делать не надо)

Непоследовательные метаданные. Использование разных названий для одной и той же серии или пропуски в нумерации усложняют процесс кластеризации и согласования. Система может не распознать связь между элементами или создать дублирующиеся сущности.
Игнорирование уникальных идентификаторов. Неиспользование стандартных идентификаторов (ISBN, GTIN) вынуждает систему полагаться на менее надежные методы согласования (например, сравнение названий), что увеличивает риск ошибок на этапе идентификации Tomes.
Предоставление противоречивой информации из одного источника. Не допускайте ситуаций, когда разные разделы вашего сайта или разные фиды данных предоставляют противоречивую информацию об одной и той же сущности. Это затрудняет процесс согласования.

Стратегическое значение

Этот патент подтверждает стратегический фокус Google на понимании сущностей и связей между ними (Entity SEO). Для SEO это означает, что оптимизация должна смещаться от отдельных страниц к построению семантически связанных кластеров контента. Система вознаграждает структурированность и последовательность. Понимание механизмов согласования сущностей позволяет SEO-специалистам более эффективно "общаться" с Knowledge Graph, гарантируя, что их контент, продукты или бренд правильно интерпретируются и отображаются в поиске.

Практические примеры

Сценарий: Оптимизация серии обучающих курсов на сайте (Entity SEO)

Задача: Убедиться, что Google распознает 5 курсов как единую серию и понимает их порядок.
Действия (на основе патента):
- Консистентность (Кластеризация): Убедиться, что название серии одинаково на всех страницах курсов (например, "Основы Python 2025").
- Структурирование (Идентификация Серии): Использовать разметку Course и CreativeWorkSeries. Связать каждый курс с серией через isPartOf.
- Идентификаторы (Tomes/Buckets): Присвоить каждому курсу уникальный @id в разметке.
- Порядок (Организация): Четко указать номер курса в названии (например, "Часть 1: Введение") и использовать структурированный список (ItemList с position) на главной странице серии для указания порядка.
- Внешние сигналы: Убедиться, что при размещении курсов на внешних платформах (например, YouTube) используется та же структура и названия.
Ожидаемый результат: Google легче кластеризует эти страницы, распознает связь и определит каноническое название серии и порядок курсов. Это повышает вероятность отображения структурированного сниппета или карусели курсов в выдаче.

Что такое согласование сущностей (Entity Reconciliation) в контексте этого патента?

Это процесс анализа множества записей из разных источников, которые могут использовать разные названия или идентификаторы для описания одной и той же сущности реального мира (например, книги или серии), и объединения их в единое, согласованное представление. Патент описывает многоэтапный процесс для этого: от записей (Records) к изданиям (Tomes) и далее к абстрактным произведениям (Buckets).

Как Google определяет, какое название является каноническим, если разные источники используют разные названия для одной серии?

Система использует механизм консенсуса. Она кластеризует все доступные записи, идентифицирует связанные кластеры и анализирует частоту встречаемости каждого варианта названия среди этих кластеров. Название, которое встречается наиболее часто (Predominant Candidate), выбирается в качестве канонического. Это означает, что реальность для Google определяется большинством голосов источников.

Насколько важно предоставлять уникальные идентификаторы, такие как ISBN или GTIN?

Критически важно. Уникальные идентификаторы используются на этапе идентификации Tomes (конкретных изданий). Они являются высокоспецифичными сигналами, которые значительно упрощают и повышают точность группировки записей. При их отсутствии система вынуждена полагаться на менее надежные сигналы, такие как комбинация Названия и Даты публикации.

Что произойдет, если метаданные на моем сайте противоречат данным большинства других источников?

Ваши данные, скорее всего, будут иметь меньший вес при формировании консенсуса, так как система предпочтет Predominant Candidate. Если вы являетесь официальным источником (например, производителем или автором), важно обеспечить распространение ваших канонических данных в экосистеме (каталоги, дистрибьюторы), чтобы они стали преобладающими, или использовать инструменты Google для прямой передачи данных (например, Merchant Center).

Как этот патент связан с разметкой Schema.org?

Schema.org — это способ предоставить Google информацию в том структурированном формате, который система пытается создать с помощью этого патента. Предоставляя четкую и последовательную разметку Schema (особенно для серий, продуктов, курсов), вы напрямую помогаете процессу согласования сущностей, уменьшая необходимость для Google полагаться на кластеризацию и консенсус из зашумленных данных.

Может ли Google использовать фактический контент страницы для определения того, к какой серии она относится?

Да. Патент явно упоминает возможность использования сравнения текстового содержания (textual content) для подтверждения того, что два разных издания (Tomes) представляют одно и то же абстрактное произведение (Abstract Book), особенно когда метаданные сильно различаются. Это подчеркивает важность не только метаданных, но и самого контента для идентификации сущностей.

Как система обрабатывает региональные различия в названиях?

Система может определить, что несколько разных названий преобладают в разных географических регионах (анализируя источник данных). В этом случае она может сохранить оба названия как канонические для соответствующих регионов и показывать нужное название в зависимости от местоположения пользователя, выполняющего запрос.

Применим ли этот патент только к книгам и фильмам?

Нет. В патенте указано, что термин "книга" используется широко и охватывает различные опубликованные работы, включая видеоигры, аудиозаписи, журналы и т.д. Методология кластеризации и консенсуса универсальна и может применяться для организации любых сущностей, связанных в серии, например, серий статей, продуктовых линеек или обучающих курсов.

Что такое двухэтапная кластеризация и почему она важна?

Это процесс, при котором записи сначала группируются по одному набору атрибутов (например, Автор), а затем эти группы анализируются на предмет сходства по другому набору атрибутов (например, Название серии). Это позволяет системе эффективно сузить область поиска, а затем точно идентифицировать связи между элементами, даже если исходные метаданные были неполными или вариативными.

Как SEO-специалисту использовать эти знания для оптимизации сайта электронной коммерции?

Для e-commerce это означает необходимость четкого управления вариантами товаров и продуктовыми линейками. Используйте консистентные названия для линеек (серий), предоставляйте GTIN для каждого варианта (Tome) и используйте разметку ProductGroup (или аналогичные механизмы) для объединения вариантов в абстрактный товар (Bucket). Обеспечьте последовательность этих данных в фидах Merchant Center и на самом сайте.

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных

Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.

US8577897B2
2013-11-05

SERP
Семантика и интент
EEAT и качество

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

US8510312B1
2013-08-13

Индексация

Как Google распознает и объединяет дубликаты сущностей в Knowledge Graph, используя агрессивную нормализацию имен

Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.

US8700568B2
2014-04-15

Knowledge Graph

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

US7568148B1
2009-07-28

Свежесть контента
EEAT и качество

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

US9063984B1
2015-06-23

Семантика и интент
Мультимедиа
Индексация

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

US10303684B1
2019-05-28

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент