Как Google использует двухмерный индекс и пре-компьютерные пути для ультрабыстрого поиска в Knowledge Graph

INDEX AND QUERY SERVING FOR LOW LATENCY SEARCH OF LARGE GRAPHS (Индексирование и обслуживание запросов для поиска по большим графам с низкой задержкой)

US9576007B1
Google LLC
2013-12-10
2017-02-21

Google использует специализированную архитектуру индекса для Knowledge Graph, отличную от веб-индекса. Патент описывает двумерную структуру индекса, которая позволяет обрабатывать сложные запросы к графу (связи сущностей, диапазоны, геолокация) с очень низкой задержкой. Система интегрирует текстовый поиск с графом, предварительно вычисляет сложные пути и использует специальные структуры для оптимизации локального и диапазонного поиска.

Какую проблему решает

Патент решает проблему неэффективности традиционных поисковых индексов (оптимизированных для поиска ключевых слов в документах) при работе с огромными графовыми базами данных, такими как Knowledge Graph. Традиционный одномерный индекс не позволяет эффективно и с низкой задержкой (low latency) выполнять сложные операции, необходимые для графов: обход связей (graph traversal), соединение данных (joins), а также обработку запросов с числовыми диапазонами и условиями близости (proximity queries).

Что запатентовано

Запатентована система индексирования и обслуживания запросов, специально разработанная для больших графов. Ядром изобретения является двухмерная структура индекса (two dimensional index). В отличие от традиционного индекса (Ключевое слово → Список Документов), этот индекс имеет структуру: Posting List Value → [Intersection Identifiers (1-е измерение)] → [Result Identifiers (2-е измерение)]. Эта структура оптимизирована для хранения триплетов (Субъект-Предикат-Объект) и быстрого выполнения сложных графовых операций.

Как это работает

Система обрабатывает данные графа в виде триплетов. Ключевые механизмы работы:

Двумерное Индексирование: Каждый триплет индексируется с разных сторон (по Субъекту, Предикату и Объекту) в двумерной структуре для эффективного обхода связей.
Интеграция Текстового Поиска: Создаются искусственные триплеты (artificial triples), связывающие сущности с текстовыми токенами из их описаний, что позволяет находить сущности через обычный текстовый поиск.
Предварительное Вычисление Путей: Сложные, но частые пересечения (Chain Paths и Converge Paths) вычисляются заранее и сохраняются в индексе, если результат пересечения мал, а исходные данные велики.
Оптимизация Диапазонов и Близости: Используются Bucket Posting Lists для ускорения запросов по числам/датам и Proximity Posting Lists с иерархией местоположений для ускорения гео-запросов.
Стадийное Выполнение Запросов: Запросы выполняются в несколько стадий с использованием прямого (forward path) и обратного (reverse path) прохода для эффективной фильтрации (pruning).

Актуальность для SEO

Критически высокая. Описанная архитектура является фундаментальной для работы Knowledge Graph и всех связанных с ним функций в поиске Google (Knowledge Panels, Featured Snippets, entity-based search). Механизмы обработки сложных запросов, интеграции текста и графа, а также оптимизации гео-поиска являются основой современного семантического и локального поиска.

Важность для SEO

Влияние на SEO — значительное (85/100). Хотя патент описывает внутреннюю инфраструктуру и не содержит алгоритмов ранжирования, он имеет критическое значение для понимания того, как Google хранит, структурирует и извлекает информацию о сущностях. Понимание этой архитектуры необходимо для эффективной оптимизации под Knowledge Graph (Entity SEO), локальный поиск и семантическое SEO. Патент объясняет техническую основу, почему структурированные данные и четкое определение связей являются ключевыми.

Термины и определения

Artificial Triple (Искусственный триплет): Триплет, создаваемый системой индексирования, которого нет в исходном графе. Используется для интеграции текстового поиска (связывая сущность с текстовыми токенами — Text Search Aid) или для оптимизации запросов (например, Proximity Triples).
Bucket Posting Lists (Списки публикаций по бакетам): Специализированные списки для оптимизации числовых диапазонных запросов. Группируют сущности на основе диапазонов значений (или рангов) их атрибутов (например, по годам рождения или ценовым категориям).
Chain Path (Цепочечный путь): Предварительно вычисленный путь в графе, состоящий из двух или более последовательных ребер (например, Актер → Фильм → Режиссер). Индексируется для ускорения многошаговых запросов.
Converge Path (Сходящийся путь): Предварительно вычисленное пересечение двух или более предикатов, сходящихся на одной сущности (например, Актер И Певец). Индексируется для ускорения запросов с несколькими условиями.
Distance Predicate (Предикат расстояния): Специальный предикат, который связывает сущность со всеми её предками (ancestors) в иерархии местоположений (прямой список) или связывает предков с сущностями внутри них (обратный список). Используется для обработки запросов на близость.
Entity Map (Карта сущностей): Структура данных, генерируемая во время выполнения запроса (в прямом проходе). Хранит пары Intersection ID → Result ID, но индексируется по Result ID. Используется в обратном проходе для эффективного сопоставления отфильтрованных результатов с исходными идентификаторами.
Filterable Predicate (Фильтруемый предикат): Предикат, объекты которого имеют значения, которые можно упорядочить и отсортировать (например, дата рождения, рейтинг, цена). Используется для диапазонных запросов.
Intersection Identifier (Идентификатор пересечения): Первое измерение (First Dimension) в двумерном индексе. Значения в этом измерении отсортированы и используются для выполнения операций пересечения (intersections) между списками.
Location Hierarchy (Иерархия местоположений): Иерархическая структура, разделяющая пространство (географическое или временное) на базовые единицы (листья) и более крупные области (предки/ancestors). Используется для Proximity Queries.
Object Map (Карта объектов): Структура, которая сопоставляет значение объекта с его рангом (rank) в отсортированном списке всех значений для данного предиката.
Posting List Value (Значение списка публикаций): Ключ, по которому организован конкретный список в индексе (например, конкретная сущность или предикат).
Proximity Posting Lists (Списки публикаций по близости): Специализированные списки для оптимизации запросов близости. Связывают сущности с областями (ancestors) в Location Hierarchy, находящимися в пределах заданного радиуса.
Result Identifier (Идентификатор результата): Второе измерение (Second Dimension) в двумерном индексе. Значения, связанные с конкретным Intersection Identifier. Могут содержать контекст (context), например, ранг или точное местоположение.
Triple (Триплет/Кортеж): Базовая единица данных в графе: Субъект, Предикат, Объект (Subject, Predicate, Object).

Ключевые утверждения (Анализ Claims)

Патент содержит несколько ключевых групп независимых пунктов, защищающих разные аспекты системы.

Группа 1: Структура индекса и Пре-компьютинг (Claims 21-26)

Claim 21 (Независимый): Определяет базовую архитектуру индекса и оптимизацию.

Система использует графовую базу, поставляющую триплеты.
Создается индекс с двумерной структурой: Posting List Value → множество Intersection Identifiers → (для каждого) один или более Result Identifiers.
Система генерирует индексные записи для Субъекта, Объекта и Отношения (Предиката) каждого триплета.
Система предварительно вычисляет (pre-compute) записи, представляющие пересечение между двумя значениями списков публикаций, и сохраняет их в индексе.

Это фундаментальное утверждение, защищающее двумерный индекс и стратегию оптимизации через офлайн-вычисления (Chain/Converge Paths).

Claim 24 (Зависимый от 21): Определяет условие для пре-компьютинга.

Предварительное вычисление выполняется, когда количество триплетов для первого и второго значения списка велико (large), а результат их пересечения имеет значительно меньше (significantly fewer) членов. (Дорого вычислять, дешево хранить).

Группа 2: Индекс Близости (Claims 9-16)

Claim 9 (Независимый): Описывает механизм обработки Proximity Queries.

Индекс включает списки для диапазонов близости (proximity ranges) в пространстве (например, географическом), используя иерархию местоположений (location hierarchy).
Список связывает сущность с узлами (областями/ancestors) в иерархии, которые попадают в заданный диапазон близости от локации сущности.
Индекс также включает distance-predicate posting list, связывающий узлы иерархии с сущностями внутри них.

Это защищает механизм ускорения локального поиска за счет использования иерархических структур и предварительно рассчитанных областей.

Группа 3: Индекс Диапазонов (Claims 17-20)

Claim 17 (Независимый): Описывает механизм обработки числовых диапазонных запросов.

Индекс включает Bucket Posting Lists, представляющие диапазоны значений объектов.
Индекс включает Object-Rank Posting Lists, где объекты ассоциированы с рангом (rank).
Диапазоны бакетов основаны на этих рангах.

Это защищает механизм сегментации (bucketing) числовых данных для ускорения фильтрации по диапазонам.

Группа 4: Выполнение Запросов (Claims 1-8)

Claim 1 (Независимый): Описывает механизм выполнения многоэтапных запросов.

Система получает запрос из минимум двух этапов (stages).
Выполняется прямой путь (forward query path). На первом этапе применяется оператор expand, генерируются пары ID, и результаты передаются следующему этапу как входящие идентификаторы (incident identifiers).
Выполняется обратный путь (reverse query path) для генерации финальных результатов, отличных от результатов прямого пути.

Это защищает двухэтапный механизм выполнения запросов (вперед и назад) для эффективного обхода графа и применения ограничений.

Где и как применяется

Изобретение описывает фундаментальную архитектуру индекса и механизма запросов для Knowledge Graph.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Вся система индексирования работает здесь.

Построение Индекса: Обработка триплетов из графового хранилища и построение двумерного индекса (Index 155).
Генерация Вспомогательных Структур: Создание искусственных триплетов (для текста и близости), обратных триплетов.
Оптимизация (Офлайн): Расчет частот, присвоение ID (частые получают более короткие ID), вычисление и сохранение Chain Paths и Converge Paths.
Обработка Атрибутов: Генерация Bucket Posting Lists (для чисел/дат) и Proximity Posting Lists (для геолокации).
Обновления: Обработка изменений в графе и обновление индекса, включая отслеживание измененных сущностей (Updated Entities) для коррекции Pre-computed Paths.

RANKING (Этап Retrieval) / QUNDERSTANDING
На этих этапах система использует созданный индекс для быстрого извлечения данных и сопоставления запросов с сущностями.

Извлечение данных: Query Resolver использует индекс для выполнения графовых операций (обход, пересечение) с низкой задержкой.
Выполнение Запроса: Используется описанный механизм выполнения запросов (Forward/Reverse Path, Retrieval/Filling phase).
Сопоставление текста: Искусственные триплеты помогают на этапе Query Understanding связывать текст запроса с сущностями графа.

Входные данные (Индексирование):

Триплеты (S-P-O) из Knowledge Graph.
Числовые и временные атрибуты сущностей.
Географические координаты сущностей.
Текстовые описания сущностей.

Выходные данные (Индексирование):

Двумерный индекс (Index 155), включающий все типы списков публикаций.

Входные данные (Запрос):

Структурированный запрос к графу (после этапа QUNDERSTANDING).

Выходные данные (Запрос):

Набор сущностей и/или триплетов, удовлетворяющих запросу.

На что влияет

Типы контента и форматы: Влияет на данные, хранящиеся в графе знаний. Это основа для генерации Knowledge Panels, Featured Snippets, каруселей сущностей.
Специфические запросы:
- Сложные фактологические запросы (например, "фильмы режиссера X с актером Y") — ускоряются через Pre-computed Paths.
- Диапазонные запросы (например, "книги, изданные в 1980-х") — ускоряются через Bucket Lists.
- Локальные запросы (например, "рестораны рядом со мной") — ускоряются через Proximity Lists.
Ниши и тематики: Критическое влияние на локальный поиск (Local SEO) и тематики с большим количеством структурированных данных (E-commerce, Медиа, Биографии, YMYL).

Когда применяется

Во время индексирования: Постоянно, при построении и обновлении индекса Knowledge Graph (как в пакетном режиме, так и в реальном времени).
Во время обслуживания запросов: Каждый раз, когда поисковая система обращается к Knowledge Graph.
Триггеры оптимизаций:
- Пре-компьютинг активируется офлайн, если пересечение дорого вычислять, но дешево хранить (большие входы, маленький результат).
- Bucket/Proximity Lists активируются онлайн при наличии в запросе соответствующих условий (диапазон или близость).

Пошаговый алгоритм

Процесс А: Построение Индекса (Обобщение FIG. 5, 9, 11)

Сбор и Подготовка Данных: Получение триплетов из графа. Генерация искусственных триплетов (для текста и близости) и обратных триплетов.
Анализ и Присвоение ID: Расчет частотности сущностей и предикатов. Присвоение идентификаторов (частые получают более короткие ID).
Генерация Базового Индекса: Создание двумерных записей (Субъект, Предикат, Объект) для всех триплетов.
Генерация Диапазонных Индексов (Range):
- Идентификация фильтруемых предикатов.
- Сортировка объектов и присвоение рангов (Ranks). Создание Object Map и Object-Rank Entries.
- Разбиение рангов на интервалы и создание Bucket Entries разной гранулярности.
Генерация Индексов Близости (Proximity):
- Построение иерархии местоположений (Location Hierarchy).
- Генерация Proximity Entries (связь сущности с областями в заданном радиусе) и Distance Predicate Entries.
Предварительное Вычисление Путей: Идентификация кандидатов (дорого вычислять, дешево хранить). Генерация и сохранение Chain-Path Entries и Converge-Path Entries.

Процесс Б: Выполнение Запроса (Обобщение FIGS. 13A, 13B, 14)

Разбор Запроса: Преобразование запроса в план выполнения (стадии и операторы).
Прямой Путь (Forward Path) - Фаза Поиска (Retrieval):
- Стадии выполняются последовательно (или параллельно). Результат стадии (Incident Identifiers) передается следующей стадии.
- Применение операторов (Expand, Seek). При использовании Expand/Seek генерируется Entity Map.
- Результаты каждой стадии сохраняются (State). Цель — найти минимальный набор релевантных сущностей.
Обратный Путь (Reverse Path) - Фаза Заполнения (Filling):
- Результаты передаются в обратном направлении. Каждая стадия получает от последующей отфильтрованный (pruned) набор идентификаторов.
- Стадия фильтрует свои сохраненные результаты.
- Используется Entity Map для преобразования отфильтрованных Result IDs обратно в Intersection IDs.
- Генерируются итоговые кортежи (tuples) для ответа пользователю.
Обработка Обновлений (FIGS. 6, 7, 8): Если запрос использует Pre-computed Path, система проверяет измененные сущности (delta identifiers), пересчитывает путь только для них и объединяет с сохраненными данными.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре индексирования графовых данных.

Структурные факторы (Граф): Основные данные — это триплеты (Субъект, Предикат, Объект), определяющие структуру графа и связи между сущностями.
Контентные факторы (Текст): Текстовые названия и описания сущностей используются для создания искусственных триплетов (Text Search Aids), обеспечивая текстовый поиск по графу.
Географические факторы: Точные данные о местоположении сущностей используются для привязки к Location Hierarchy и генерации Proximity Posting Lists.
Временные и Числовые факторы: Значения атрибутов (даты, цены, рейтинги), которые можно упорядочить. Используются для определения Filterable Predicates и генерации Bucket Posting Lists и Object-Rank Entries.

Какие метрики используются и как они считаются

Частотность (Frequency): Подсчет частоты встречаемости сущностей и предикатов. Используется для назначения эффективных идентификаторов (ID) и для выбора кандидатов на пре-компьютинг.
Размер пересечения (Intersection Size): Метрика для определения целесообразности пре-компьютинга пути. Если результат пересечения значительно меньше исходных списков, путь вычисляется заранее.
Ранг (Rank): Порядковый номер значения объекта в отсортированном списке всех значений для данного предиката. Используется для создания Bucket Posting Lists.
Контекст (Context): Дополнительная информация, хранящаяся вместе с Result Identifier. Может содержать ранг (для диапазонных запросов), точное местоположение (для запросов близости) или оценочные сигналы (scoring signals).
Единицы Иерархии Местоположений (Location Hierarchy Units): Базовые единицы (basic units) и предки (ancestors) используются для определения покрытия территории или времени при обработке запросов близости.

Специализированный индекс для Knowledge Graph: Google использует архитектуру индекса (двумерный индекс), фундаментально отличающуюся от веб-индекса. Она создана для эффективного хранения триплетов и быстрого выполнения операций обхода графа и соединений (joins).
Агрессивная оптимизация производительности: Система построена для обеспечения очень низкой задержки. Это достигается за счет предварительного вычисления сложных путей (Chain Paths и Converge Paths) и специализированных структур для диапазонных (Bucket Lists) и локальных (Proximity Lists) запросов.
Интеграция текста и графа: Механизм искусственных триплетов (Artificial Triples) является ключом к тому, как Google связывает текстовые запросы с сущностями в графе. Система индексирует текстовые токены из описаний сущностей для обеспечения текстового поиска по графу.
Критичность структурированных атрибутов: Числовые, временные и географические данные обрабатываются специальным образом для обеспечения быстрой фильтрации. Это подчеркивает важность точности этих атрибутов в данных о сущностях.
Сложный механизм выполнения запросов: Использование прямого и обратного пути (Forward/Reverse Path) и фаз Retrieval/Filling позволяет эффективно обрабатывать сложные запросы с множеством ограничений, минимизируя объем обрабатываемых данных на каждом этапе.
Инфраструктура для семантического SEO: Патент демонстрирует техническую реализацию хранения фактов. Для SEO это означает, что попадание в этот индекс требует максимальной ясности, структурированности и связанности данных о сущностях.

Best practices (это мы делаем)

Четкое определение сущностей и связей (Structured Data): Используйте Schema.org для точного определения ключевых сущностей (Организация, Продукт, Автор, Место) и их взаимосвязей (worksFor, author, location, offers). Это напрямую соответствует формату триплетов, который индексируется в этой двумерной структуре.
Обеспечение точности локальных данных (для Proximity Lists): Для локального бизнеса критически важны точные и консистентные координаты (NAP). Это позволяет системе корректно определить местоположение в Location Hierarchy и эффективно использовать Proximity Posting Lists для быстрого локального поиска.
Указание фильтруемых атрибутов (для Bucket Lists): Четко размечайте числовые и временные данные (цены, даты публикаций, рейтинги). Это Filterable Predicates, которые индексируются в Bucket Posting Lists, ускоряя поиск с диапазонами и фильтрами.
Использование ясного и описательного языка (для Artificial Triples): Оптимизируйте текстовые описания сущностей. Google токенизирует этот текст и связывает токены с сущностью через искусственные триплеты (Text Search Aids). Используйте естественный язык и релевантные термины для максимизации точек входа в граф через текстовый поиск.
Построение связей для E-E-A-T (для Pre-computed Paths): Создавайте контент и разметку, которые формируют авторитетные связи между сущностями (например, эксперт -> организация -> награда). Это увеличивает вероятность того, что ваши сущности станут частью предварительно вычисленных путей (Chain/Converge Paths) и будут чаще извлекаться.

Worst practices (это делать не надо)

Неоднозначное определение сущностей: Использование противоречивой информации или разметки, которая не позволяет однозначно идентифицировать сущность. Это затрудняет формирование корректных триплетов и индексацию в описанной структуре.
Изоляция информации: Публикация фактов без привязки к контексту или другим сущностям. Изолированные сущности менее полезны, так как не участвуют в сложных пересечениях и обходах графа.
Игнорирование структурированных данных или ошибки в них: Ошибки в Schema.org снижают вероятность того, что информация будет корректно интерпретирована и сохранена в этом высокооптимизированном индексе.
Неточные или ложные гео-данные: Предоставление неверных координат может привести к некорректной работе Proximity Lists, что негативно скажется на видимости в локальном поиске.

Стратегическое значение

Патент подтверждает, что Knowledge Graph — это не просто база данных, а высокопроизводительная поисковая система со специализированной архитектурой. Стратегическое значение для SEO заключается в необходимости перехода от оптимизации страниц к оптимизации сущностей и их связей (Entity SEO). Долгосрочная стратегия должна быть направлена на то, чтобы стать авторитетным источником фактов о сущностях в вашей нише. Чем полнее, точнее и лучше связаны данные, тем эффективнее они будут обрабатываться этой системой.

Практические примеры

Сценарий 1: Оптимизация локального бизнеса (Proximity Query)

Задача: Улучшить ранжирование ресторана по запросам "ресторан рядом со мной".
Действия: Обеспечить точные координаты в Google Business Profile и разметке LocalBusiness на сайте.
Как работает (по патенту): Система индексирования определяет местоположение ресторана в Location Hierarchy и генерирует Proximity Entries, связывая ресторан с географическими областями (ancestors) для разных радиусов (например, 1 миля, 5 миль).
Результат: Когда пользователь делает запрос, система использует эти предварительно вычисленные списки для мгновенного поиска ресторанов в нужной области, вместо того чтобы вычислять расстояние до каждого ресторана в городе в реальном времени.

Сценарий 2: Оптимизация интернет-магазина (Range Query)

Задача: Обеспечить видимость товаров при использовании фильтров по цене (например, "ноутбуки от $500 до $1000").
Действия: Использовать точную разметку Product и Offer с указанием цены.
Как работает (по патенту): Предикат "цена" является Filterable Predicate. Система присваивает ценам ранги и создает Bucket Posting Lists (например, бакет $500-$1000). Товары попадают в соответствующие бакеты.
Результат: При запросе с диапазоном цен система быстро сужает поиск до нужных бакетов, что значительно ускоряет получение результатов.

Что такое двумерный индекс и чем он отличается от обычного веб-индекса?

Обычный веб-индекс одномерный: Ключевое слово → Список Документов. Двумерный индекс, описанный в патенте, имеет структуру: Значение Списка → [Идентификаторы Пересечения → [Идентификаторы Результатов]]. Эта структура специально разработана для эффективного хранения триплетов (связей в графе) и позволяет выполнять сложные операции соединения (joins) и обхода графа прямо в индексе, что критически важно для работы Knowledge Graph.

Как Google связывает обычный текстовый поиск с сущностями в Knowledge Graph, согласно этому патенту?

Система использует механизм искусственных триплетов (Artificial Triples) или Text Search Aids. При индексировании текстовые описания и названия сущностей токенизируются. Создаются новые триплеты вида: (Сущность, специальный_предикат, Текстовый Токен). Это позволяет находить сущности при поиске по связанным с ними текстовым терминам, интегрируя текст и граф.

Что такое Chain Path и Converge Path и зачем они нужны?

Это предварительно вычисленные (pre-computed) пути для оптимизации сложных запросов. Chain Path ускоряет многошаговые запросы (например, Актер → Фильм → Режиссер). Converge Path ускоряет запросы с несколькими условиями (например, Актер И Певец). Они позволяют избежать дорогостоящих вычислений во время запроса, если результат пересечения компактен для хранения.

Как этот патент влияет на локальное SEO (Local SEO)?

Патент напрямую описывает механизм Proximity Posting Lists, критически важный для локального поиска. Система использует иерархию местоположений (Location Hierarchy) и предварительно вычисляет, какие объекты находятся в заданном радиусе друг от друга. Это обеспечивает быструю работу запросов типа "рядом со мной". Точность геоданных в GBP и на сайте является ключевым фактором для попадания в эти списки.

Что такое Bucket Posting Lists и как они влияют на поиск?

Bucket Posting Lists оптимизируют запросы по числовым диапазонам (даты, цены, рейтинги). Система заранее группирует сущности по диапазонам значений их атрибутов (бакетам). Это позволяет очень быстро отвечать на запросы с фильтрами (например, "отели с рейтингом выше 4 звезд"), не сканируя весь индекс, а только релевантные бакеты.

Что означает выполнение запроса в прямом (Forward) и обратном (Reverse) проходе?

Это метод эффективной обработки многоэтапных запросов. Прямой проход используется для последовательного применения ограничений запроса и генерации кандидатов на каждой стадии. Обратный проход используется для финальной фильтрации (pruning) результатов на основе всех ограничений запроса и для сбора итоговых данных (Filling Phase). Это обеспечивает точность и полноту ответа.

Какое значение этот патент имеет для сайтов, использующих структурированные данные (Schema.org)?

Значение фундаментальное. Структурированные данные являются основным источником для формирования триплетов, которые затем попадают в этот двумерный индекс. Патент показывает, насколько важны не только сами сущности, но и точность их атрибутов (для Buckets/Proximity) и связи (предикаты) между ними.

Как система обрабатывает обновления данных в реальном времени для пре-вычисленных путей?

Вместо полного пересчета пути при каждом обновлении, система отслеживает изменения (delta identifiers) для затронутых сущностей. Во время запроса система объединяет старые данные из индекса с пересчитанными данными только для этих измененных сущностей. Это позволяет поддерживать актуальность данных без значительной потери производительности.

Что важнее для SEO в контексте этого патента: ключевые слова или сущности?

Сущности и их связи. Патент описывает инфраструктуру, полностью ориентированную на обработку графовых данных (сущностей). Хотя текстовый поиск интегрирован (через Artificial Triples), основа системы — это понимание фактов и отношений. SEO-стратегия должна фокусироваться на четком определении сущностей и связей (Entity SEO).

Описывает ли этот патент алгоритмы ранжирования сущностей?

Нет, патент не описывает алгоритмы ранжирования или факторы авторитетности (E-E-A-T). Он описывает исключительно инфраструктуру для максимально быстрого и эффективного хранения и извлечения (retrieval) данных из графа. Ранжирование происходит на последующих этапах, используя данные, извлеченные этой системой.

Как Google использует Knowledge Graph для ответа на запросы о пространственной и временной близости сущностей (например, «банки рядом с ресторанами»)

Google обрабатывает сложные «композиционные запросы», сравнивая атрибуты (местоположение или время) разных типов сущностей в Knowledge Graph. Система находит пары, удовлетворяющие критерию связи (например, расстоянию), и визуализирует результаты на картах или временных шкалах с возможностью динамической фильтрации.

US11003729B2
2021-05-11

Knowledge Graph
Семантика и интент
Local SEO

Как Google использует граф сущностей для генерации расширенных географических подсказок в реальном времени

Google использует механизм для генерации расширенных поисковых подсказок (Expanded Query Suggestions), особенно в географическом поиске. Система идентифицирует сущности, соответствующие введенному префиксу, а затем обходит граф связанных сущностей (Entity Graph), чтобы предложить релевантные подсказки, которые не начинаются с этого префикса. Это позволяет предлагать конкретные места или бизнесы (например, «MoMA New York» на запрос «new y»), основываясь на географических, категорийных и популярных связях между сущностями.

US8694512B1
2014-04-08

Knowledge Graph
Семантика и интент
Индексация

Как Google эффективно обновляет Граф Знаний в реальном времени при изменении фактов

Патент Google описывает инфраструктурный механизм для поддержания актуальности Графа Знаний. Когда в базу добавляется или удаляется факт (связь между сущностями), система мгновенно определяет, какие сохраненные запросы (коллекции) затронуты, и эффективно пересчитывает результаты, минимизируя нагрузку на базу данных.

US9626407B2
2017-04-18

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google использует Knowledge Graph для выбора формата отображения и ранжирования ответов на запросы с модификаторами (например, «лучший», «самый высокий»)

Google использует этот механизм для ответов на запросы, содержащие сущности и модификаторы (например, «самые высокие здания» или «лучшие фильмы»). Система анализирует запрос, извлекает данные из Knowledge Graph и автоматически определяет, как ранжировать результаты (например, по высоте или рейтингу) и в каком формате их представить (например, в виде списка, карты, временной шкалы или диаграммы) на основе свойств сущностей.

US9390174B2
2016-07-12

Knowledge Graph
Семантика и интент
SERP

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

US8825646B1
2014-09-02

Ссылки

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату

Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.

US9305102B2
2016-04-05

Персонализация
Поведенческие сигналы

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)

Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы
SERP
Антиспам

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует данные о поведении пользователей для генерации и ранжирования Sitelinks (Дополнительных ссылок сайта)

Патент описывает механизм генерации Sitelinks (дополнительных ссылок под основным результатом поиска). Google анализирует логи доступа пользователей (частоту кликов, время на странице) и другие факторы качества, чтобы определить наиболее важные внутренние страницы сайта. Эти страницы затем отображаются в виде ранжированного списка для ускорения навигации пользователя.

US7996391B2
2011-08-09

Ссылки
Поведенческие сигналы
SERP