Как Google трансформирует табличные данные (фиды, spreadsheets, HTML-таблицы) в структурированный Граф Знаний

DATA GRAPH INTERFACE (Интерфейс графа данных)

US9798829B1
Google LLC
2013-10-22
2017-10-24

Google использует системы для преобразования неструктурированных табличных данных (например, из spreadsheets, HTML-таблиц или продуктовых фидов) в структурированный граф знаний. Патент описывает механизмы импорта таблиц, автоматического создания сущностей и связей, а также процесс сверки (reconciliation) для связи данных с существующими сущностями во внешних графах (Knowledge Graph).

Какую проблему решает

Патент решает проблему сложности преобразования данных из распространенных табличных форматов (электронные таблицы, базы данных, фиды, HTML-таблицы) в формат графа данных (Data Graph). Табличные данные часто не имеют явной семантической структуры, понятной машинам. Традиционно перевод этих данных в формат сущностей и связей требовал значительной технической экспертизы. Изобретение автоматизирует и упрощает этот процесс, делая его доступным для нетехнических пользователей.

Что запатентовано

Запатентована система и пользовательский интерфейс (UI) для импорта табличных данных и их преобразования в структурированный граф данных, называемый Knowledge Document. Ключевым элементом является механизм, позволяющий через привычный табличный интерфейс определять семантику данных: преобразовывать простые текстовые свойства в типизированные сущности и устанавливать связи между ними, включая связи с внешними графами (Public Graphs).

Как это работает

Система работает в несколько этапов:

Импорт и генерация: Табличные данные импортируются. Система автоматически генерирует начальный граф: строки становятся сущностями (Document Entities), а столбцы — их простыми свойствами (Property Entities – текстовыми или числовыми значениями).
Визуализация и взаимодействие: Граф представляется в табличном формате. Пользователь (или автоматизированная система) может изменить тип столбца со свойства на тип сущности.
Структурирование: Если указан новый тип сущности, система идентифицирует уникальные значения в столбце и создает для них новые сущности.
Сверка (Reconciliation): Если указан существующий (внутренний или внешний) тип сущности, система пытается сопоставить текстовые значения с известными сущностями этого типа.
Связывание: Система заменяет исходные текстовые свойства на семантические связи (ребра графа) между соответствующими сущностями.

Актуальность для SEO

Высокая. Преобразование полуструктурированных данных (таблиц, фидов, списков) в структурированные графы знаний является фундаментальной задачей для Google (переход "от строк к вещам"). Хотя конкретный UI может эволюционировать, а упоминание Freebase устарело, базовые принципы извлечения, структурирования и сверки данных (Reconciliation) остаются крайне актуальными для построения Knowledge Graph и обработки фидов (например, в Merchant Center).

Важность для SEO

Высокое стратегическое значение (6.5/10). Хотя патент не описывает алгоритмы ранжирования, он раскрывает инфраструктурные механизмы, которые Google использует для приема, структурирования и сверки данных. Понимание этих процессов критически важно для Entity SEO, оптимизации фидов данных (например, Merchant Center) и обеспечения того, чтобы контент сайта (особенно таблицы и списки) был корректно интерпретирован и включен в Knowledge Graph.

Термины и определения

Data Graph (Граф данных) / Knowledge Document (Документ знаний): Структура данных, хранящая информацию в виде узлов (сущностей) и ребер (отношений). Используется для представления семантической структуры данных.
Document Entity (Сущность документа): Узел в графе, представляющий реальный объект (человек, место, вещь). Имеет определенный тип сущности (Entity Type) и может быть связан с любым количеством других узлов.
Entity Type (Тип сущности): Классификация сущности, определяющая допустимые для нее отношения и свойства (например, "Продукт", "Бренд").
Fact Template (Шаблон факта): Шаблон на естественном языке, описывающий факт, представленный отношением (например, "[Продукт] произведен [Бренд]"). Генерируется на основе анализа заголовков.
Graph Building Engine (Движок построения графа): Компонент, отвечающий за создание и модификацию графа данных на основе ввода данных и определений.
Property Entity (Сущность свойства): Узел в графе, имеющий алфавитно-цифровой тип (текст, число, валюта). Представляет собой простой атрибут и связан только с одной Document Entity.
Public Data Graph / External Data Graph (Публичный / Внешний граф данных): Внешний граф знаний, например, Freebase (упомянутый в патенте) или современный Google Knowledge Graph.
Reconciliation (Сверка): Процесс сопоставления текстового значения свойства с существующей Document Entity (внутренней или внешней) для установления связи.
Subtype (Подтип): Тип сущности, связанный с более общим типом, идентифицирующий сущности на основе определенных критериев (часто определяемых через вычисления на естественном языке).
Tabular Data (Табличные данные): Данные в формате строк и столбцов (электронные таблицы, фиды данных, HTML-таблицы).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной механизм преобразования столбца свойств в НОВЫЙ тип сущности через табличный интерфейс.

Система хранит граф, где первые сущности (Тип 1) имеют алфавитно-цифровые свойства.
Данные отображаются в табличном формате (Сущности в Столбце 1, Свойства в Столбце 2).
Система получает указание (через выбор Столбца 2) определить для этого свойства новый тип сущности (Тип 2).
Система генерирует новые сущности (Тип 2) для каждого уникального значения в этом столбце.
Система создает маркированное отношение (labeled relationship) между исходными сущностями (Тип 1) и новыми сущностями (Тип 2). Метка основана на заголовке столбца.
Исходное алфавитно-цифровое свойство удаляется.

Это механизм структурирования: преобразование плоских атрибутов (например, текстовых названий цветов в фиде) в связанные узлы графа (сущности Цвета). Он трансформирует плоские данные (Продукт -> текст "Красный") в связанные данные (Сущность Продукт -> Сущность Цвет Красный).

Claim 6 (Зависимый от 1, описан в патенте): Описывает механизм связывания с СУЩЕСТВУЮЩИМ типом сущности (Сверка/Reconciliation).

Система получает указание, что свойство соответствует существующему типу сущности.
Система определяет, что значение свойства (текст) соответствует существующей сущности этого типа (Сверка).
Генерируется отношение между этими двумя сущностями.
Исходное свойство удаляется.

Это механизм сверки (Reconciliation). Он позволяет связывать данные внутри графа, сопоставляя текстовые строки с известными узлами.

Claim 21 (Независимый пункт): Описывает механизм связывания с ВНЕШНИМ графом данных (аналогично Claim 10).

Хранится первый (локальный) граф данных с сущностями, имеющими текстовые свойства.
Определяется, что свойство соответствует типу сущности из второго (внешнего) графа данных.
Значение свойства сопоставляется (matching/Reconciliation) с сущностью во внешнем графе.
Генерируется отношение в первом графе, связывающее локальную сущность с сущностью из внешнего графа.

Это ключевой механизм для интеграции локальных данных (например, продуктового фида) с глобальным Knowledge Graph (например, сверка бренда или категории продукта).

Где и как применяется

Изобретение затрагивает этапы приема и структурирования данных.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Описанные механизмы используются для обработки структурированных и полуструктурированных данных:

Прием данных (Data Ingestion): Обработка данных, предоставленных пользователями через фиды (например, Google Merchant Center, Manufacturer Center) или API.
Извлечение данных (Data Extraction): Преобразование полуструктурированных данных, найденных в вебе (например, HTML-таблиц и списков), в формат графа.
Построение и обогащение Knowledge Graph: Создание новых сущностей из извлеченных данных.
Сверка сущностей (Entity Reconciliation): Связывание извлеченных или импортированных данных с существующими сущностями в Knowledge Graph (внешний граф, как описано в патенте).

Взаимодействие с компонентами:

Взаимодействует с Graph Building Engine для выполнения трансформаций.
Использует данные из Tabular Data (вход) и управляет Knowledge Document (выход).
Взаимодействует с Public Graphs (Knowledge Graph) для сверки.

Входные данные: Tabular Data (Фиды, CSV, HTML-таблицы, Spreadsheets), существующие графы данных.

Выходные данные: Обогащенный граф данных (Knowledge Document) с типизированными сущностями, семантическими связями и ссылками на внешние графы.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, представленный в виде таблиц (HTML-таблицы с характеристиками, ценами, сравнениями) и данных, передаваемых через фиды (продукты, вакансии, события).
Структурирование данных: Влияет на глубину понимания Google информации, позволяя переходить от простых текстовых атрибутов к связанным сущностям.

Патент не содержит информации о влиянии на специфические запросы, форматы контента, ниши (YMYL), языковые или географические ограничения в контексте ранжирования.

Когда применяется

Триггеры активации:
- При импорте или индексации табличных данных (загрузка фида, сканирование HTML-таблицы).
- Когда система выполняет сверку (Reconciliation) текстовых строк с известными сущностями в Knowledge Graph.
- При необходимости преобразовать алфавитно-цифровые свойства в семантически значимые сущности для лучшего понимания данных.

Пошаговый алгоритм

Патент описывает несколько ключевых процессов трансформации данных.

Процесс А: Начальный импорт и генерация графа

Получение данных: Прием Tabular Data (например, фида).
Идентификация сущности: Определение основного типа сущности и столбца-идентификатора (например, SKU продукта).
Генерация базовых сущностей: Создание Document Entity для каждой строки.
Генерация свойств: Создание Property Entities (текстовые/числовые значения) для остальных ячеек и связывание их с базовой сущностью. Заголовки столбцов используются как названия связей.
Генерация метаданных: Автоматическая генерация Fact Templates на основе семантического анализа заголовков.

Процесс Б: Преобразование свойства в НОВЫЙ тип сущности (Claim 1)

Инициализация: Определение, что столбец свойств должен быть преобразован в новый тип сущности.
Анализ уникальных значений: Идентификация всех уникальных значений в этом столбце.
Генерация новых сущностей: Создание новой Document Entity для каждого уникального значения.
Перелинковка: Замена связи с текстовым свойством на связь с новой Document Entity.
Очистка: Удаление исходных Property Entities.

Процесс В: Сверка с СУЩЕСТВУЮЩИМ/ВНЕШНИМ типом сущности (Reconciliation, Claim 21)

Инициализация: Определение, что столбец свойств соответствует существующему типу сущности (например, во внешнем Knowledge Graph).
Сопоставление (Matching): Для каждого значения свойства система ищет соответствующую сущность в целевом графе.
Связывание: Если совпадение найдено, создается связь между локальной сущностью и найденной сущностью.
(Опционально) Создание новой сущности: Если совпадение не найдено, может быть создана новая сущность этого типа.
Очистка: Исходное текстовое свойство удаляется.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных факторах, используемых для построения графа.

Контентные факторы: Значения ячеек в табличных данных (алфавитно-цифровые значения свойств).
Структурные факторы: Организация данных в строки и столбцы. Заголовки столбцов критически важны для определения названий отношений и генерации Fact Templates. Имена таблиц/листов используются для начальных типов сущностей.
Внешние данные: Сущности и их типы из внешних графов (Public Graphs, Knowledge Graph), используемые в процессе сверки (Reconciliation).
Пользовательский ввод (NLP): Описания на естественном языке (natural language computation), используемые для определения вычислений и подтипов (если используется интерактивный UI).

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования. Он описывает детерминированные методы структурирования данных:

Сверка сущностей (Entity Reconciliation / Matching): Процесс поиска соответствия между текстовым значением свойства и идентификатором или именем существующей сущности (Процесс В). Это ключевой механизм для связывания данных.
Идентификация уникальных значений: Используется для определения набора новых сущностей при создании нового типа (Процесс Б).
Обработка естественного языка (NLP) / Семантический анализ: Упоминается для интерпретации вычислений и определений подтипов, заданных пользователем на естественном языке, а также для генерации Fact Templates из заголовков.

Фундаментальный механизм перехода от "Строк к Вещам": Патент детально описывает механику преобразования неструктурированных табличных данных в семантически богатый граф знаний. Это основа для понимания того, как Google обрабатывает фиды данных и извлекает информацию из HTML-таблиц.
Критическая важность Сверки (Reconciliation): Значительная часть патента посвящена механизмам сопоставления текстовых строк с существующими сущностями, как внутри документа, так и во внешних графах (Knowledge Graph). Это подчеркивает стратегическую важность консистентности данных и использования стандартных идентификаторов.
Автоматизация структурирования: Описанные алгоритмы (создание новых типов из уникальных значений, автоматическое связывание) показывают, как Google автоматизирует процесс построения графа из больших массивов полуструктурированных данных.
Использование существующей структуры как подсказки: Система использует структуру и лексику исходных данных (заголовки столбцов как названия отношений). Четкая и логичная структура исходных данных (фидов, таблиц) облегчает их корректную обработку.
Интеграция данных: Возможность связывания локальных данных с внешними графами позволяет системе обогащать понимание данных за счет контекста из публичных источников знаний.

Практическое применение в SEO

Понимание этого патента критически важно для стратегий, включающих работу со структурированными данными, Entity SEO и оптимизацию фидов данных.

Best practices (это мы делаем)

Оптимизация фидов данных (Merchant Center, и т.д.): Механизмы сверки (Процесс В) подчеркивают важность чистых и консистентных данных в фидах.
- Используйте стандартизированную терминологию для атрибутов (цвета, размеры, бренды), чтобы они могли быть точно сверены с известными сущностями в Knowledge Graph.
- Обеспечьте наличие и консистентность уникальных идентификаторов (GTIN, MPN, внутренние ID).
Использование семантических HTML-таблиц: Представляйте данные на сайте (характеристики, сравнения, цены) в виде корректных HTML-таблиц (<table>, <th>). Используйте четкие и однозначные заголовки столбцов, так как они используются для определения названий отношений (Relationships) и генерации Fact Templates.
Стратегическое использование микроразметки (Schema.org): Патент показывает, как Google стремится связать данные с графом. Используйте Schema.org для явного определения сущностей и их связей.
- Применяйте @id для четкой идентификации сущностей, облегчая процесс сверки.
- Используйте sameAs для связи ваших локальных сущностей с устоявшимися сущностями во внешних графах (например, Wikidata), что соответствует механизму Claim 21 (связывание с внешним графом).
Консистентность терминологии (Entity Consistency): Поддерживайте высокую консистентность при упоминании сущностей на всем сайте и во всех источниках данных. Это помогает движку сверки корректно идентифицировать, что разные упоминания относятся к одной и той же сущности.

Worst practices (это делать не надо)

Неконсистентные значения атрибутов в фидах: Использование разных значений для одного и того же атрибута (например, разные написания бренда или цвета: "Синий", "Син.", "Темно-синий"). Это усложняет сверку (Процесс В) и может привести к созданию дубликатов (Процесс Б) или неправильной ассоциации сущностей.
Отсутствие или дублирование идентификаторов: Предоставление фидов без уникальных идентификаторов затрудняет процесс построения графа и отслеживания сущностей.
Использование сложной верстки вместо семантических таблиц: Представление табличных данных с помощью <div> или изображений мешает системам корректно извлекать и структурировать информацию согласно описанным механизмам.
Неоднозначные заголовки таблиц: Использование нечетких заголовков может привести к неправильной интерпретации связей системой при генерации Fact Templates.

Стратегическое значение

Патент подтверждает стратегический переход Google от анализа ключевых слов к пониманию сущностей и их взаимосвязей ("strings to things"). Он детализирует инфраструктуру, используемую для приема и трансформации сырых данных в Knowledge Graph. Для SEO это означает, что успех все больше зависит от способности предоставить данные в форме, которая легко извлекается, интерпретируется и сверяется (Reconciliation) с глобальным графом знаний. Стратегия должна фокусироваться на точности и полноте представления сущностей.

Практические примеры

Сценарий: Оптимизация продуктового фида для корректной сверки брендов

Ситуация: В Google Merchant Center загружается продуктовый фид (Tabular Data) со столбцом Brand Name. В этом столбце встречаются значения "Nike", "Nikey" и "Найк".
Обработка Google (по патенту):
- Google импортирует фид (Процесс А). Продукты становятся Document Entities, а название бренда — текстовым свойством (Property Entity).
- Система запускает процесс сверки (Процесс В), пытаясь сопоставить эти текстовые значения с сущностями типа "Бренд" во внешнем Knowledge Graph.
- "Nike" и, возможно, "Найк" успешно сопоставляются с официальной сущностью Nike.
- "Nikey", скорее всего, не будет сопоставлен или будет ошибочно классифицирован как отдельный неизвестный бренд.
Действия SEO-специалиста: Проанализировать фид данных и провести нормализацию атрибутов. Заменить "Nikey" и "Найк" на стандартное написание "Nike".
Ожидаемый результат: Все продукты корректно ассоциируются с сущностью бренда Nike в системах Google. Это улучшает понимание ассортимента и повышает видимость продуктов в поиске по брендовым запросам.

Описывает ли этот патент алгоритмы ранжирования Google?

Нет. Патент не описывает, как Google ранжирует результаты поиска. Он описывает инфраструктуру и методы для приема табличных данных (фидов, spreadsheets, HTML-таблиц) и их преобразования в структурированный формат графа знаний. Это относится к этапу индексирования и структурирования данных.

Что такое Сверка (Reconciliation) и почему она важна для SEO?

Сверка (Reconciliation, описанная в Процессе В) — это процесс сопоставления текстовой строки (например, названия компании на вашем сайте или в фиде) с конкретной сущностью в Knowledge Graph. Это критически важно для Entity SEO. Если сверка проходит успешно, Google точно знает, о ком или о чем идет речь, что позволяет корректно агрегировать информацию о сущности из разных источников.

Как я могу помочь процессу сверки моих данных?

Используйте максимально чистые, консистентные и однозначные данные. В фидах используйте стандартные идентификаторы (GTIN) и общепринятые названия брендов/атрибутов. На сайте используйте микроразметку Schema.org с указанием @id и ссылками sameAs на внешние авторитетные источники (например, Wikidata).

Что означает преобразование свойства в новый тип сущности (Процесс Б)?

Это процесс структурирования. Например, если в фиде есть столбец "Цвет" с текстовыми значениями, система может идентифицировать все уникальные цвета ("Красный", "Синий"), создать для них отдельные сущности и связать продукты с этими сущностями Цвета, а не просто с текстом. Это делает данные более связанными и понятными для машины.

Актуален ли этот патент для Google Merchant Center и продуктовых фидов?

Да, очень актуален. Механизмы, описанные в патенте (импорт табличных данных, идентификация сущностей, сверка атрибутов), вероятно, лежат в основе того, как Merchant Center и другие системы Google обрабатывают фиды данных и преобразуют их в структурированные сущности продуктов.

Может ли Google использовать эту технологию для анализа HTML-таблиц на моем сайте?

Да, это весьма вероятно. Описанная технология идеально подходит для извлечения сущностей и связей из табличного контента на веб-страницах и его быстрого преобразования в структурированный граф для использования в Knowledge Graph или для формирования расширенных сниппетов (например, табличных featured snippets).

Патент упоминает Freebase. Значит ли это, что технология устарела?

Упоминание Freebase датирует конкретную реализацию, но базовые принципы сверки и подключения к внешним графам знаний остаются актуальными. Сегодня эти механизмы применяются для интеграции с текущим Google Knowledge Graph и Wikidata.

Что такое "Fact Template" и как он влияет на SEO?

Fact Template — это шаблон на естественном языке для описания связи (например, "[А] работает в [Б]"). Он генерируется автоматически на основе заголовков столбцов. Для SEO это означает, что использование четких и описательных заголовков в HTML-таблицах помогает Google правильно интерпретировать семантику ваших данных.

Что такое "Document Entity" и "Property Entity"?

Document Entity — это полноценная сущность (узел) в графе, представляющая объект реального мира (например, Продукт). Property Entity — это простое текстовое или числовое значение (атрибут), привязанное к сущности (например, цена Продукта). Патент описывает, как преобразовывать атрибуты в полноценные сущности.

Каков главный вывод для старшего SEO-стратега из этого патента?

Главный вывод — подтверждение того, что инфраструктура Google настроена на прием и автоматическое структурирование данных для построения Knowledge Graph. Стратегия должна быть сосредоточена на облегчении процессов сверки (Reconciliation) и извлечения данных через предоставление чистой, консистентной и хорошо структурированной информации в фидах и на сайте.

Как Google использует графовое сопоставление для поиска структурированных данных внутри диаграмм и таблиц

Google патентует систему для сопоставления сложных пользовательских запросов (представленных в виде графов) с базовыми моделями данных визуального контента (например, диаграмм или таблиц) на веб-страницах. Это требует от издателей предоставлять свои данные в доступном структурированном формате («Content Metadata Sets»), чтобы поисковая система могла понять и проиндексировать сложные взаимосвязи внутри контента.

US9411890B2
2016-08-09

Семантика и интент
Индексация
Техническое SEO

Как Google интегрирует веб-поиск и верификацию источников данных непосредственно в приложения для работы с таблицами

Патент описывает механизм пользовательского интерфейса (UI) для приложений, работающих со структурированными данными (например, Google Sheets). Система позволяет пользователю кликнуть на ячейку, чтобы открыть скрытый интерфейс, который показывает, откуда были извлечены данные (URL, сниппет), или предлагает запустить новый поиск для заполнения или обновления ячейки.

US8977645B2
2015-03-10

Как Google создает, управляет и использует Репозиторий Фактов (Fact Repository) для поиска по сущностям

Патент описывает архитектуру Google для создания и использования Репозитория Фактов. Система извлекает факты из интернета, связывает их с объектами (сущностями), очищает и нормализует данные. В ответ на запрос система находит релевантные факты и возвращает их в формате структурированного фида (например, XML/RSS). Это foundational-технология для поиска по сущностям и формирования Графа Знаний.

US7454398B2
2008-11-18

Knowledge Graph
Семантика и интент
Индексация

Как Google находит, объединяет и обогащает связанные таблицы, разбросанные по разным веб-страницам

Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу ("union table") для лучшего понимания структурированных данных в вебе.

US9720896B1
2017-08-01

Семантика и интент

Как Google объединяет разрозненные данные о сущностях (Entity Resolution) с помощью хеширования и нечеткого сравнения

Google использует этот механизм для определения того, относятся ли разные записи данных к одной и той же сущности (Entity Resolution). Система находит потенциальные совпадения через общие идентификаторы (например, телефон или email), а затем применяет нечеткое сравнение строк (Fuzzy Matching) и анализ конфликтов, чтобы объединить записи. Это критически важно для Knowledge Graph и Local SEO.

US8832041B1
2014-09-09

Knowledge Graph
Local SEO

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов

Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.

US9268820B2
2016-02-23

Knowledge Graph
SERP
Семантика и интент

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов

Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.

US8001118B2
2011-08-16

Поведенческие сигналы
SERP

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

US8583675B1
2013-11-12

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа