Как Google объединяет данные из разных источников в единый Граф Знаний с помощью двухфазной системы построения

TWO-PHASE CONSTRUCTION OF DATA GRAPHS FROM DISPARATE INPUTS (Двухфазное построение графов данных из разрозненных источников)

US9342622B2
Google LLC
2013-06-27
2016-05-17

Google использует двухфазную систему для создания Графа Знаний. Сначала данные из разных источников (например, Wikipedia, коммерческие базы данных) приводятся к единому формату идентификаторов (Reconciliation Phase). Затем эти нормализованные данные объединяются в единый граф, при этом устраняются дубликаты и разрешаются конфликты (Build Phase). Это позволяет создавать разные версии графа для разных нужд и эффективно управлять качеством данных.

Какую проблему решает

Патент решает фундаментальную проблему интеграции данных из множества разрозненных источников (disparate sources), таких как Freebase, базы данных музыки, ТВ-программы и т.д., в единый граф знаний (Combined Data Graph). Основные проблемы заключаются в том, что:

Разные источники используют разные идентификаторы (Identifier Space) для одной и той же сущности (например, "Том Круз" имеет ID1 в источнике А и ID2 в источнике Б).
Источники имеют разные уровни достоверности и качества данных, что приводит к конфликтам (например, разные даты рождения одной персоны).
Источники имеют различные ограничения на использование (лицензии, конфиденциальность), что усложняет создание публичного графа.

Что запатентовано

Запатентована двухфазная система построения графов данных. Первая фаза (Reconciliation Phase) нормализует данные из каждого источника, конвертируя локальные идентификаторы в глобальные с помощью централизованного хранилища (Master Evidence File). Вторая фаза (Build Phase) объединяет эти нормализованные графы (Reconciled Data Graphs), устраняет дубликаты, разрешает конфликты и позволяет создавать различные "Представления" (Knowledge Graph Views) графа на основе выбранного набора источников.

Как это работает

Система работает в два этапа:

Фаза 1: Reconciliation (Нормализация)

Система получает исходные графы (Source Data Graphs) и файлы соответствий (Source Evidence Files) от поставщиков данных.
Reconciliation Engine конвертирует локальные ID в глобальные, используя Master Evidence File. Если сущность новая, создается новый глобальный ID.
Процесс запускается только тогда, когда исходные данные изменяются.
Результат: набор нормализованных графов (Reconciled Data Graphs) в едином пространстве идентификаторов.

Фаза 2: Build (Построение)

Graph Building Engine выбирает набор нормализованных графов на основе определения представления (Graph View Definition).
Данные (триплеты) объединяются.
Дубликаты удаляются, но информация об источнике (provenance) сохраняется в метаданных оставшегося триплета.
Конфликтующие факты разрешаются (например, выбирается факт из более надежного источника или поддержанный большим числом источников).
Результат: Combined Data Graph (Представление Графа Знаний).

Актуальность для SEO

Высокая. Описанные механизмы являются фундаментальной инфраструктурой для построения и поддержания Графа Знаний Google. Процессы интеграции огромных объемов структурированных данных, согласования сущностей (reconciliation), разрешения конфликтов и отслеживания происхождения данных (provenance) остаются критически важными для качества поиска и работы семантических систем Google.

Важность для SEO

Влияние на SEO (6/10). Это преимущественно инфраструктурный патент, который не описывает алгоритмы ранжирования. Однако он детально раскрывает механизмы, которые Google использует для построения Графа Знаний. Понимание этого процесса критически важно для стратегий оптимизации сущностей (Entity Optimization), обеспечения согласованности данных о бренде в сети и понимания того, как Google выбирает "правильные" факты при наличии противоречивой информации.

Термины и определения

Combined Data Graph / Knowledge Graph View (Комбинированный граф данных / Представление Графа Знаний): Конечный продукт системы. Специфический набор данных, собранный из выбранных нормализованных источников, предназначенный для конкретного использования (например, публичный Граф Знаний).
Entity Provenance Graph (Граф происхождения сущностей): Специальный граф, который включается в комбинированные представления и содержит триплеты, указывающие на первоисточник данных для каждой сущности.
Graph Building Engine (Механизм построения графа): Компонент Фазы 2. Объединяет нормализованные графы, удаляет дубликаты и разрешает конфликты.
Graph View Definition (Определение представления графа): Конфигурационный файл, который указывает, какие именно Reconciled Data Graphs должны быть включены в конкретное Knowledge Graph View и какие ограничения на него накладываются.
Identifier Space (Пространство идентификаторов): Схема уникальной идентификации элементов. Патент различает локальные (специфичные для источника) и глобальные (уникальные в рамках всей системы) пространства.
Master Evidence File (Главный файл соответствий): Центральный репозиторий, поддерживаемый системой, который отображает все известные локальные идентификаторы из всех источников на глобальные идентификаторы. Хранит историю всех когда-либо присвоенных ID.
Reconciled Data Graph (Нормализованный граф данных): Результат Фазы 1. Исходный граф данных, переписанный с использованием глобальных идентификаторов вместо локальных.
Reconciliation Engine (Механизм нормализации/согласования): Компонент Фазы 1. Конвертирует Source Data Graphs в Reconciled Data Graphs.
Source Data Graph (Исходный граф данных): Входные данные от конкретного поставщика (например, Freebase), использующие локальное пространство идентификаторов.
Source Evidence File (Файл соответствий источника): Файл, предоставляемый источником, который отображает его локальные ID на другое пространство идентификаторов (в идеале, на глобальное).
Triple (Триплет): Базовая единица данных в графе, состоящая из двух узлов (сущностей) и ребра (отношения). Формат: Субъект-Предикат-Объект.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовую архитектуру и процесс системы.

Система хранит первый исходный граф (в пространстве ID 1) и нормализованную версию второго исходного графа (изначально в ID 2, теперь в ID 3/Глобальном).
Система хранит Master Evidence File, который отображает ID 1 и ID 2 на ID 3.
Система генерирует нормализованную версию первого графа путем замены его идентификаторов (ID 1) на глобальные (ID 3), используя Master Evidence File.
Система генерирует Combined Data Graph из нормализованных версий первого и второго графов.

Это ядро изобретения: независимая обработка источников (нормализация) с последующим объединением в глобальном пространстве идентификаторов.

Claim 2 (Зависимый от 1): Детализирует процесс удаления дубликатов во время объединения.

Определяется, что первый триплет дублирует второй триплет.
Метаданные (например, источник) из первого триплета перемещаются во второй триплет.
Первый триплет удаляется.

Это ключевой механизм слияния данных (Data Fusion) и отслеживания происхождения (Provenance Tracking). Факт сохраняется, но обогащается информацией о всех источниках, которые его подтверждают.

Claim 4 (Зависимый от 1): Описывает создание специфических представлений (Views).

Система определяет набор нормализованных графов, указанных в Graph View Definition.
Combined Data Graph генерируется только из этого выбранного набора.

Это позволяет создавать разные версии Графа Знаний для разных нужд (например, публичная версия и внутренняя версия с лицензионными данными).

Claim 7 (Зависимый от 1): Описывает обработку расхождений между данными источника и мастер-файлом.

Source Evidence File отображает сущность на Глобальный ID A.
Master Evidence File отображает ту же сущность на Глобальный ID B.
Система обновляет Master Evidence File так, чтобы сущность отображалась на ОБА идентификатора (A и B).

Это механизм управления историей согласования и обеспечения обратной совместимости. Система не теряет старые идентификаторы при слиянии сущностей.

Claim 11 (Независимый пункт): Описывает процесс с фокусом на слиянии и дедупликации триплетов (повторяет и уточняет логику Claim 1 и 2).

Генерация первого и второго нормализованных графов (наборы триплетов).
Генерация комбинированного графа путем: объединения наборов, идентификации совпадающих триплетов (Триплет 1 и Триплет 2), обновления атрибута источника Триплета 2, включив в него источник Триплета 1, и удаления Триплета 1.

Где и как применяется

Изобретение относится к этапу INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction).

Это инфраструктура, которая отвечает за построение Графа Знаний из структурированных источников данных. Она не участвует в обработке запросов в реальном времени, а работает в офлайн-режиме для подготовки базы данных.

Взаимодействие с другими компонентами:

Система создает базовую структуру данных (Граф Знаний), которая затем используется на этапах QUNDERSTANDING (для распознавания сущностей в запросе) и METASEARCH/RANKING (для формирования Панелей Знаний, обогащенных сниппетов и использования семантических связей).

Входные данные:

Source Data Graphs (данные от поставщиков).
Source Evidence Files (отображения ID от поставщиков).

Выходные данные:

Reconciled Data Graphs (нормализованные данные).
Обновленный Master Evidence File.
Knowledge Graph Views (финальные комбинированные графы).

На что влияет

Конкретные типы контента: Влияет на все типы структурированных данных о сущностях – людях, местах, организациях, продуктах, медиаконтенте и т.д.
Конкретные ниши или тематики: Влияет на все тематики, представленные в Графе Знаний. Особенно сильно проявляется в областях, где существует множество источников данных, покрывающих одну тему (например, кино, музыка, биографии, локальный бизнес), так как там требуется активное согласование и разрешение конфликтов.

Когда применяется

Алгоритм применяется в офлайн-режиме при обновлении данных Графа Знаний.

Триггеры активации Фазы 1 (Reconciliation): Запускается, когда обнаруживается обновление Source Data Graph или соответствующего ему Source Evidence File. Обрабатываются только измененные источники.
Временные рамки Фазы 2 (Build): Запускается периодически (например, ежедневно, еженедельно) или по требованию для регенерации Knowledge Graph Views из актуальных Reconciled Data Graphs.
Откат изменений: Система хранит предыдущие версии Reconciled Data Graphs. Если обновление вызывает нестабильность, система может откатиться к предыдущим версиям.

Пошаговый алгоритм

Фаза 1: Reconciliation (Нормализация и Согласование)

Проверка триггеров: Система обнаруживает изменения в исходном графе данных или файле соответствий источника.
Итерация по идентификаторам: Система перебирает каждый локальный идентификатор (Source ID) в исходном графе.
Определение Глобального ID:
1. Проверка Source Evidence File (SEF) на наличие прямого отображения на Глобальный ID.
2. Если прямого нет, проверка цепочек отображений (например, ID Источника A -> ID Источника B -> Глобальный ID).
3. Проверка Master Evidence File (MEF) на наличие существующего отображения для данного локального ID.
4. Разрешение конфликтов и обновление:
  - Если ID есть в MEF, но нет в SEF: Используется ID из MEF.
  - Если ID есть в обоих и совпадают: Используется этот ID.
  - Если ID есть в обоих и НЕ совпадают: Используется ID из SEF (как более актуальный), а MEF обновляется, чтобы включать ОБА ID для этой сущности (сохранение истории).
  - Если ID есть в SEF, но нет в MEF: Используется ID из SEF, MEF обновляется.
5. Создание нового ID (Minting): Если ID не найден нигде, генерируется новый уникальный Глобальный ID, и MEF обновляется.
Подстановка: Локальный ID заменяется на определенный Глобальный ID во всех триплетах графа.
Генерация триплетов замены ID: Создаются специальные триплеты для исторических ID (например, Старый_ID "заменен на" (replaced by) Новый_ID) для обеспечения обратной совместимости.
Вывод: Сохраняется Reconciled Data Graph.

Фаза 2: Build (Построение Представления)

Генерация графа происхождения сущностей: Создается Entity Provenance Graph, отслеживающий источник каждой сущности.
Выбор графов: Система выбирает Reconciled Data Graphs на основе Graph View Definition.
Объединение: Все триплеты из выбранных графов (включая граф происхождения) объединяются в один набор.
Удаление дубликатов: Идентифицируются идентичные триплеты. Они сливаются в один триплет, но его метаданные обновляются, чтобы перечислить все источники, где этот факт был найден.
Удаление конфликтов: Идентифицируются конфликтующие факты (например, две разные даты рождения для одного человека). Конфликт разрешается путем выбора одного факта. Критерии выбора, упомянутые в патенте: доверие/качество источника или факт, поддержанный наибольшим количеством источников.
Вывод: Генерируется финальное Knowledge Graph View.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре обработки данных, а не на факторах ранжирования.

Структурные факторы: Основной вход – это структурированные данные в формате графа (триплеты: субъект, предикат, объект).
Метаданные источника: Информация о происхождении (provenance) каждого триплета и ограничения на использование/лицензии, связанные с источником.
Идентификаторы: Локальные и глобальные идентификаторы сущностей и отношений.

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования, но описывает метрики и правила для слияния данных и разрешения конфликтов:

Доверие/Качество источника (Source Trust/Quality) (Неявно): При разрешении конфликтов система может предпочесть факты из более надежного или точного источника. Патент не уточняет, как именно определяется это доверие.
Частота утверждения (Frequency of Assertion): При разрешении конфликтов система может выбрать факт, который встречается в наибольшем количестве источников. Это возможно благодаря отслеживанию происхождения данных при удалении дубликатов.
Ограничения кардинальности (Cardinality Constraints): Правила, определяющие, сколько отношений может иметь сущность (например, только один рост, одна дата рождения). Используются для обнаружения конфликтов.

Двухфазное разделение процессов: Google отделяет нормализацию данных (Reconciliation) от построения финального графа (Build). Это обеспечивает эффективность (обрабатываются только измененные источники) и гибкость (можно создавать множество различных представлений графа).
Централизованное управление идентификаторами: Master Evidence File является главным авторитетом для глобальных ID. Он управляет слиянием сущностей и хранит полную историю всех присвоенных идентификаторов, что критически важно для стабильности системы.
Критичность происхождения данных (Provenance): Система тщательно отслеживает источник каждого факта (триплета). Когда дубликаты объединяются, информация об источниках также сливается. Это позволяет оценить достоверность факта.
Стратегия разрешения конфликтов: Конфликты (например, разные даты рождения) разрешаются на этапе построения графа. Патент явно указывает на использование количества источников, подтверждающих факт (консенсус), или достоверности (trustworthiness) источника (авторитет) в качестве критериев для выбора "правильного" факта.
Обратная совместимость и история: Система гарантирует, что старые глобальные ID продолжают работать даже после слияния сущностей и изменения основного ID, используя отношения типа "заменен на" (replaced by).

Best practices (это мы делаем)

Хотя патент описывает внутреннюю инфраструктуру Google, он имеет важные последствия для стратегий оптимизации сущностей (Entity Optimization) и работы с Графом Знаний.

Максимизация согласованности данных (Consistency): Google собирает и согласовывает данные из множества источников. Необходимо обеспечить максимальную согласованность данных о вашей сущности (Название, Адрес, Телефон, ключевые атрибуты) во всех внешних профилях (GBP, социальные сети, отраслевые каталоги, Wikipedia/Wikidata). Это облегчает процесс Reconciliation (Фаза 1) и снижает риск создания дубликатов сущностей.
Присутствие в надежных источниках (Trust): Поскольку разрешение конфликтов может основываться на достоверности источника (авторитет), приоритетом является создание и поддержание точной информации в источниках с высоким авторитетом (например, Wikipedia, крупные отраслевые базы данных, официальные реестры).
Наращивание подтверждений (Corroboration / Frequency of Assertion): Если Google сталкивается с конфликтующими фактами, он может выбрать тот, который подтверждается наибольшим количеством источников (консенсус). Убедитесь, что ключевые факты о вашем бренде/сущности широко подтверждаются на многих релевантных сайтах.
Использование постоянных идентификаторов (Schema.org): Используйте schema.org/sameAs, чтобы связать вашу сущность с ее идентификаторами в основных базах данных (например, Wikidata ID, официальные государственные ID). Это действует аналогично Source Evidence File, явно указывая Google, как ваша локальная информация соотносится с известными глобальными идентификаторами.

Worst practices (это делать не надо)

Несогласованные данные о бренде (NAP): Наличие разных адресов, названий или дат основания в интернете увеличивает нагрузку на Reconciliation Engine и создает риск того, что Google выберет неверную информацию во время разрешения конфликтов или разделит вашу сущность на несколько.
Игнорирование внешних данных: Полагаться только на оптимизацию своего сайта. Граф Знаний явно строится из disparate inputs; внешние сигналы и структурированные данные из сторонних источников являются критически важными входными данными.
Пренебрежение профилями на сторонних платформах: Игнорирование профилей на платформах вроде Wikidata, GBP или отраслевых баз данных означает, что у Google меньше надежных входных данных для согласования, что может ослабить присутствие сущности в Графе Знаний.

Стратегическое значение

Патент подтверждает фундаментальную важность внешних структурированных данных для понимания мира Google. SEO-стратегия должна включать оптимизацию сущностей, которая выходит далеко за рамки собственного сайта. Патент подчеркивает, что понимание сущности Google – это слияние (fusion) множества источников. Управление этим слиянием путем предоставления согласованных, подтвержденных и явно связанных данных является ключевой задачей SEO. Также патент объясняет, как Google разрешает разногласия: по консенсусу (частота упоминаний) или по авторитету (доверие к источнику).

Практические примеры

Сценарий: Разрешение конфликта даты основания компании.

Ситуация: Сайт компании и 5 низкокачественных каталогов утверждают, что она основана в 2010 году. Wikipedia, официальный государственный бизнес-реестр и 3 крупные новостные статьи утверждают, что она основана в 2008 году.
Процесс Google (Фаза 1): Google собирает все эти факты (триплеты) и сопоставляет различные упоминания компании с единым Глобальным ID.
Процесс Google (Фаза 2): Graph Building Engine объединяет данные и обнаруживает конфликт: отношение "дата основания" имеет два разных объекта (2010 и 2008).
Разрешение конфликта: Механизм применяет правила разрешения конфликтов.
- Вариант А (Trust/Авторитет): Он определяет Wikipedia и госреестр как более надежные источники, чем каталоги. Он выбирает 2008 год.
- Вариант Б (Frequency/Консенсус): Он подсчитывает утверждения. Если доверие к источникам считается равным, он может выбрать дату с большим числом утверждений.
Действия SEO: Выявить конфликт. Исправить информацию на сайте на 2008 год. Обновить каталоги, если возможно. Использовать schema.org/foundingDate с правильной датой (2008) и связать через sameAs с идентификатором в госреестре.

Как этот патент влияет на локальное SEO и управление данными в Google Business Profile (GBP)?

Он напрямую влияет на то, как Google формирует базу данных о локальном бизнесе. GBP является одним из Source Data Graphs. Google объединяет данные из GBP с данными из каталогов, сайтов с отзывами, официальных реестров и самого сайта компании. Если данные NAP (Name, Address, Phone) не согласованы, система должна разрешать конфликты (Фаза 2). Для обеспечения точности в локальной выдаче критически важно поддерживать согласованность данных во всей экосистеме, чтобы помочь Google правильно согласовать (Фаза 1) и верифицировать факты.

Что происходит, когда Google объединяет две разные сущности в одну (например, двух людей с одинаковыми именами)?

Патент описывает этот механизм через Master Evidence File. Если две сущности (с Глобальными ID A и B) признаются одной и той же, система выбирает один основной ID (например, A), а второй (B) помечается как исторический. В Master Evidence File оба ID будут указывать на эту сущность. Система также генерирует триплет "B заменен на A" (replaced by), гарантируя, что запросы к старому ID B будут корректно обрабатываться (обратная совместимость).

Как Google решает, какой факт выбрать, если два источника противоречат друг другу?

Это происходит в Фазе 2 (Build). Патент упоминает два основных критерия для разрешения конфликтов. Первый – это достоверность (trustworthiness) источника (авторитет): факты из более авторитетных источников могут иметь приоритет. Второй – это частота утверждения (Frequency of Assertion) (консенсус): факт, который подтверждается большим количеством источников, может быть выбран как истинный. Система отслеживает количество источников для каждого факта благодаря механизму слияния дубликатов.

Означает ли этот патент, что данные на моем собственном сайте менее важны, чем данные во внешних источниках?

Ваш сайт является одним из источников данных (Source Data Graph). Однако Граф Знаний стремится к объективности и строится на основе множества источников. Если информация на вашем сайте противоречит подавляющему большинству или наиболее авторитетным внешним источникам, система может проигнорировать ваши данные при разрешении конфликтов. Лучшая стратегия – обеспечить соответствие данных на вашем сайте (особенно через Schema.org) данным в авторитетных внешних источниках.

Как я могу помочь Google правильно идентифицировать мою сущность в Фазе 1 (Reconciliation)?

Вы можете предоставить эквивалент Source Evidence File с помощью микроразметки Schema.org. Используя свойство sameAs, вы можете явно указать идентификаторы вашей сущности в других надежных базах данных (например, Wikidata, официальные реестры). Это предоставляет системе четкие сигналы для отображения вашего локального представления на глобальный идентификатор, уменьшая неопределенность.

Что такое "Пространство идентификаторов" (Identifier Space) и почему оно важно?

Identifier Space – это система уникальных кодов, используемая базой данных. Например, в базе данных фильмов Том Круз может иметь ID "P500", а в базе данных музыки – ID "A789". Эти ID локальны. Чтобы объединить данные, Google конвертирует их в Глобальное пространство идентификаторов, где Том Круз имеет один уникальный ID (например, "M105"). Этот патент описывает, как именно происходит эта конвертация и управление этими ID.

Почему система построена в две фазы, а не объединяет все сразу?

Двухфазная архитектура обеспечивает эффективность и гибкость. Фаза 1 (Reconciliation) обрабатывает только те источники, которые были обновлены, экономя ресурсы. Фаза 2 (Build) позволяет создавать множество различных Knowledge Graph Views из уже нормализованных данных. Например, можно создать одну версию графа только из публичных данных, а другую – с добавлением конфиденциальных или лицензионных данных для внутреннего использования.

Что такое "Граф происхождения сущностей" (Entity Provenance Graph) и зачем он нужен?

Это специальный граф, который создается в Фазе 2 и включается в финальное представление. Он содержит метаданные, указывающие, из каких именно первоисточников была получена информация о каждой сущности. Это позволяет пользователям или приложениям понять происхождение данных (provenance), даже если сам исходный граф не включен в текущее представление, и используется для оценки достоверности фактов.

Может ли этот механизм привести к тому, что некачественные данные загрязнят Граф Знаний?

Да, это потенциальный риск при интеграции данных из непроверенных источников. Однако система имеет механизмы защиты в Фазе 2. При разрешении конфликтов система использует критерии доверия к источнику и частоту подтверждения фактов. Это позволяет отфильтровывать или понижать в приоритете данные из менее надежных источников при наличии противоречий с авторитетными данными.

Как быстро изменения во внешнем источнике (например, Wikipedia) попадут в Граф Знаний, согласно этому патенту?

Скорость зависит от расписания обеих фаз. Сначала Google должен обнаружить изменение в источнике и запустить Фазу 1 (Reconciliation) для этого источника. После создания обновленного Reconciled Data Graph, необходимо дождаться следующего запуска Фазы 2 (Build), чтобы эти данные были интегрированы в финальное Knowledge Graph View. Процесс не мгновенный и зависит от частоты сканирования источника и расписания обновления Графа Знаний.

Как Google трансформирует табличные данные (фиды, spreadsheets, HTML-таблицы) в структурированный Граф Знаний

Google использует системы для преобразования неструктурированных табличных данных (например, из spreadsheets, HTML-таблиц или продуктовых фидов) в структурированный граф знаний. Патент описывает механизмы импорта таблиц, автоматического создания сущностей и связей, а также процесс сверки (reconciliation) для связи данных с существующими сущностями во внешних графах (Knowledge Graph).

US9798829B1
2017-10-24

Knowledge Graph
Семантика и интент

Как Google распознает и объединяет дубликаты сущностей в Knowledge Graph, используя агрессивную нормализацию имен

Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.

US8700568B2
2014-04-15

Knowledge Graph

Как Google объединяет разрозненные данные о сущностях (Entity Resolution) с помощью хеширования и нечеткого сравнения

Google использует этот механизм для определения того, относятся ли разные записи данных к одной и той же сущности (Entity Resolution). Система находит потенциальные совпадения через общие идентификаторы (например, телефон или email), а затем применяет нечеткое сравнение строк (Fuzzy Matching) и анализ конфликтов, чтобы объединить записи. Это критически важно для Knowledge Graph и Local SEO.

US8832041B1
2014-09-09

Knowledge Graph
Local SEO

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы

Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.

US8055626B1
2011-11-08

Индексация
Краулинг
Техническое SEO

Как Google оценивает отсутствующие факты для Knowledge Graph и объясняет, на чем основана эта оценка

Google использует статистические модели для заполнения пробелов в Knowledge Graph, когда информация о сущности отсутствует. Система вычисляет недостающий факт (например, дату рождения), анализируя связанные данные (например, возраст супруга). Чтобы повысить доверие к этой оценке, Google показывает пользователю объяснение, основанное на наиболее влиятельных фактах, использованных при расчете.

US9659056B1
2017-05-23

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса

Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.

US9454621B2
2016-09-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google позволяет пользователям "углубиться" в контент установленного мобильного приложения прямо из веб-выдачи

Google использует этот механизм для интеграции контента из нативных приложений в веб-поиск. Если приложение установлено у пользователя и система определяет высокую релевантность его контента запросу, в выдачу добавляется специальный элемент (например, "Больше результатов из приложения X"). Клик по этому элементу запускает новый поиск, показывая множество deep links только из этого приложения, не покидая интерфейс поиска.

US10579687B2
2020-03-03

SERP
Семантика и интент
Ссылки

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов

Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.

US7925657B1
2011-04-12

Поведенческие сигналы

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)

Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).

US7584177B2
2009-09-01

Семантика и интент
SERP
Персонализация

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы