
Патент описывает инфраструктурное решение Google для поиска ближайших соседей (наиболее похожих объектов) в огромных наборах данных, которые не помещаются на одном сервере. Система использует структуру "Parallel Hybrid Spill Tree" для распределения данных по нескольким машинам, что позволяет выполнять эффективный и быстрый поиск дубликатов или схожего контента в масштабах всего интернета.
Патент решает проблему масштабирования поиска ближайших соседей (Nearest-Neighbor Search) для огромных наборов данных (например, миллиардов изображений), которые не помещаются в память одного сервера. Традиционные методы построения эффективных деревьев поиска (таких как Hybrid Spill Trees) требуют произвольного доступа ко всему набору данных в памяти, что невозможно при работе с данными веб-масштаба. Это ограничивает способность системы эффективно выявлять дубликаты контента и кластеризовать похожие объекты.
Запатентован метод построения распределенной структуры данных — параллельного гибридного дерева перекрытия (Parallel Hybrid Spill Tree). Изобретение позволяет разбить огромный набор данных на управляемые части (партиции) и распределить их по множеству серверов. Это обеспечивает возможность параллельного построения индекса и параллельного выполнения поисковых запросов для нахождения похожих объектов.
Система строит двухуровневую древовидную структуру. Сначала создается случайная выборка из общего набора данных. На основе этой выборки строится компактное "Верхнее дерево" (Top Tree), которое определяет границы партиций для всего набора данных. Затем все объекты распределяются по соответствующим партициям. Наконец, для каждой партиции параллельно (на разных серверах) строится "Листовое поддерево" (Leaf Sub-Tree), структурированное как Hybrid Spill Tree. При поиске Top Tree маршрутизирует запрос к нужным Leaf Sub-Trees, которые выполняют поиск параллельно.
Высокая (для инфраструктуры). Проблема распределенного поиска по сходству сегодня актуальна как никогда (Google Lens, поиск по изображениям, обнаружение спама, системы рекомендаций). Хотя конкретные алгоритмы векторного поиска могли эволюционировать с момента подачи патента (например, в сторону HNSW), фундаментальные принципы масштабирования, партиционирования и распределения индекса, описанные здесь, остаются критически важными для инфраструктуры Google.
(3/10). Патент имеет низкое прямое влияние на стандартные SEO-стратегии. Это глубоко инфраструктурный патент, описывающий внутренние технические решения Google для масштабирования поиска по сходству. Он не содержит рекомендаций по оптимизации сайтов, но важен для понимания возможностей Google в области обнаружения дубликатов контента (визуального и текстового), кластеризации изображений и выявления спам-шаблонов в огромных масштабах.
Spill Tree, при которой система быстро спускается по дереву, принимая решения на каждом уровне без возврата (backtracking) к предыдущим узлам. Это ускоряет поиск, но делает его приближенным.Metric Tree (без перекрытия) и Spill Tree (с перекрытием). Система решает на каждом узле, использовать ли перекрытие.Hybrid Spill Tree), построенное для одной партиции данных. Хранится и обрабатывается независимо, часто на отдельном сервере.Feature Vector) к заданному объекту запроса.Spill Tree, определяющий размер области перекрытия между дочерними узлами. Объекты в этой области дублируются. Чем шире буфер, тем точнее поиск, но больше размер индекса.Top Tree и множества Leaf Sub-Trees, предназначенная для масштабирования NN Search.Metric Tree, в котором дочерние узлы могут совместно использовать объекты, находящиеся в буфере перекрытия. Поддерживает эффективный приближенный поиск.Metric Tree или Spill Tree), построенное на основе выборки данных. Используется для определения границ партиций и направления запросов к соответствующим Leaf Sub-Trees.Claim 1 (Независимый пункт): Описывает метод построения параллельного гибридного дерева перекрытия для набора данных, размер которого превышает доступную память одного устройства.
Top Tree) с использованием этого подмножества для партиционирования всего набора данных. Указано, что Top Tree структурировано как Hybrid Spill Tree, и каждый листовой узел определяет партицию.Top Tree для связывания каждого объекта из исходного набора с одной или несколькими партициями.Leaf Sub-Tree), также структурированного как Hybrid Spill Tree.Claim 2 (Зависимый): Уточняет, что каждое Leaf Sub-Tree строится и поддерживается на отдельном сервере для обеспечения параллельных операций.
Claim 5 (Зависимый, Вариант реализации): Описывает альтернативный вариант, где Top Tree структурируется как Metric Tree (дерево без перекрытий) для уменьшения дублирования данных между партициями.
Важно отметить вариативность: Top Tree может быть Hybrid Spill Tree (Claim 1) или Metric Tree (Claim 5). Если используется Metric Tree, это экономит место (нет дубликатов в Leaf Sub-Trees), но может потребовать поиска в нескольких поддеревьях во время запроса. Если используется Spill Tree, поиск может быть быстрее, но требуется больше места для хранения дубликатов.
Claim 6 (Зависимый): Описывает автоматическую настройку параметров. Окно перекрытия (Overlap Window) определяется на основе оценочного среднего расстояния между ближайшими соседями и размерности пространства объектов.
Claim 8 (Зависимый): Определяет контекст применения. Метод используется для определения сходства и/или дублирования между объектами, включая изображения, документы, продукты, 3D-модели, музыку, порнографию, спам (spam), книги и видео.
Это изобретение является инфраструктурным компонентом, обеспечивающим работу других систем Google. Оно не участвует напрямую в ранжировании веб-страниц, но критически важно для обработки и организации больших массивов данных.
INDEXING – Индексирование и извлечение признаков
Основное применение. Система используется на этапах обработки контента.
Feature Vectors.Parallel Hybrid Spill Tree строится для всего набора векторов. Это позволяет эффективно выполнять кластеризацию данных (Data Clustering) и выявлять близкие дубликаты (near-duplicates) в офлайн-режиме (batch mode). Это помогает экономить ресурсы и улучшать качество индексов (например, индекса изображений).METASEARCH / Специализированные поисковые сервисы
Структура может использоваться как онлайн-сервис (Nearest-Neighbor Service) для вертикалей, таких как Google Images или Google Shopping. Когда пользователь ищет "похожие изображения" или выполняет обратный поиск по картинке, запрос обрабатывается этой распределенной системой.
Входные данные (Построение):
Feature Vectors.Выходные данные (Построение):
Parallel Hybrid Spill Tree).Feature Vectors. В патенте явно упоминаются изображения, документы, товары, 3D-модели, музыка, порнографические материалы, спам, книги и видео.NN Search.Процесс А: Построение Parallel Hybrid Spill Tree
Top Tree (как Metric Tree или Spill Tree). Построение использует заданные пределы размера листовых узлов (L и U). Листья Top Tree определяют партиции данных.Top Tree для определения, в какую партицию (или партиции) он попадает. Объекты маркируются ключом (ID партиции).Leaf Sub-Tree (как Hybrid Spill Tree) для объектов своей партиции.Процесс Б: Выполнение запроса (Онлайн-поиск)
Top Tree (которое может быть реплицировано на несколько серверов для увеличения пропускной способности).Top Tree определяет, какие Leaf Sub-Trees могут содержать ближайших соседей. Если объект запроса близок к границе партиции, может быть выбрано несколько поддеревьев.Leaf Sub-Trees. Поиск выполняется параллельно на соответствующих серверах.Leaf Sub-Trees.Система оперирует исключительно векторами признаков. Тип исходных данных не важен, если их можно преобразовать в векторное представление.
Feature Vectors для изображений: нормализация цвета, масштабирование до 64x64, преобразование в домен вейвлетов Хаара (Haar wavelet domain), квантование коэффициентов, уменьшение размерности с помощью случайной проекции до 100 измерений, добавление среднего значения цвета и соотношения сторон (итого 104 измерения).Feature Vectors (например, Евклидово расстояние).Spill Trees.Автоматическая оценка параметров: Патент предлагает метод для автоматической оценки оптимальной ширины буфера перекрытия (τ).
Патент описывает чисто техническое, инфраструктурное решение и не дает прямых рекомендаций для SEO. Он описывает внутренние процессы Google, направленные на решение инженерной задачи масштабирования.
Parallel Hybrid Spill Tree), позволяющей Google обрабатывать миллиарды объектов (изображений, товаров, документов) на распределенной системе для поиска похожих элементов.Feature Vectors. Это является фундаментом для современных систем семантического поиска, использующих векторные представления (embeddings).near-duplicates) и кластеризации контента. Это напрямую влияет на то, как Google организует индексы специализированных вертикалей (Images, Shopping).Metric Trees для Top Tree экономит память за счет отсутствия дублирования, но требует больше вычислений при поиске. Использование Spill Trees и настройка Overlap Buffer Width позволяет увеличить точность за счет увеличения размера индекса.Overlap Buffer Width) на основе характеристик данных (плотность, размерность), что упрощает её применение к разным типам контента.Патент носит инфраструктурный характер и не дает прямых практических рекомендаций для стандартного веб-SEO. Однако он дает важное понимание возможностей Google по анализу схожести контента.
near-duplicates) изображений в масштабах всего интернета.NN Search для кластеризации и удаления дубликатов.Патент имеет важное стратегическое значение для понимания эволюции поиска. Он показывает, что Google заложил инфраструктурный фундамент для векторного поиска задолго до широкого распространения современных нейросетевых моделей. Принципы масштабирования NN Search, описанные здесь, критически важны для современных систем, которые полагаются на векторные представления (embeddings) для определения семантической близости. Это подтверждает долгосрочную стратегию Google по переходу от лексического поиска к семантическому.
Практических примеров для SEO по влиянию на этот алгоритм нет, так как патент описывает структуру индекса и метод его построения, а не факторы ранжирования. Приведем пример того, как эта технология работает внутри Google.
Пример работы: Обработка изображений в Google Images и выявление дубликатов
Feature Vector (например, 104-мерный вектор, как описано в патенте).Parallel Hybrid Spill Tree. Данные распределяются по сотням серверов (Leaf Sub-Trees).Влияет ли этот патент на ранжирование моего сайта в основном веб-поиске?
Напрямую нет. Этот патент описывает инфраструктуру для поиска похожих объектов (Nearest-Neighbor Search), а не алгоритм ранжирования веб-страниц. Он используется в основном для организации данных, удаления дубликатов и в специализированных вертикалях. Однако, если ваш сайт состоит преимущественно из дублированного контента (визуального или текстового), системы, использующие эту инфраструктуру, могут это обнаружить, что косвенно повлияет на общую оценку качества сайта.
Что такое "поиск ближайшего соседа" (Nearest-Neighbor Search) и зачем он нужен Google?
Это задача нахождения наиболее похожего объекта в базе данных к заданному объекту запроса. Схожесть определяется как расстояние между их числовыми представлениями (Feature Vectors). Google использует это для множества задач: поиск похожих изображений, рекомендации товаров, кластеризация похожих новостей, выявление спама и, что самое важное для SEO, обнаружение полного или частичного дублирования контента.
Помогает ли этот патент Google бороться с дублированным контентом?
Да, это одна из основных целей. Патент решает проблему масштабирования, позволяя Google применять алгоритмы обнаружения дубликатов к миллиардам объектов. Система позволяет эффективно находить и кластеризовать близкие дубликаты (near-duplicates), например, одно и то же изображение с разным разрешением или товары с одинаковыми характеристиками.
Применяется ли эта технология только к изображениям?
Нет. Технология универсальна. В патенте явно указано, что она применяется к изображениям, документам (текст), продуктам, видео, музыке и спаму. Любой объект, который можно представить в виде Feature Vector, может быть проиндексирован с помощью этой структуры. В современном поиске это также применяется к текстовому контенту через векторные представления (embeddings).
Что такое "Feature Vector" в контексте этого патента?
Feature Vector — это компактное числовое представление объекта. Например, изображение может быть преобразовано в вектор из 104 чисел, которые описывают его ключевые характеристики (форму, текстуру, цвет). Сравнивая эти векторы, система может быстро определить, насколько два объекта похожи друг на друга, не сравнивая исходные файлы.
Насколько актуален этот патент, учитывая развитие нейросетей и векторных баз данных?
Патент описывает фундаментальные принципы масштабирования древовидных структур поиска. Хотя конкретные алгоритмы поиска (Hybrid Spill Trees) могли быть заменены более новыми (например, HNSW), сама идея использования иерархической распределенной структуры (Top Tree для маршрутизации и Leaf Sub-Trees для хранения данных) остается актуальной в архитектуре современных распределенных векторных баз данных.
Что такое "Top Tree" и "Leaf Sub-Tree"?
Это два уровня распределенной системы. Top Tree (Верхнее дерево) — это компактная структура, построенная на выборке данных, которая служит маршрутизатором. Leaf Sub-Tree (Листовое поддерево) — это структура, хранящая фактические данные одной партиции и выполняющая поиск в этой части данных. Leaf Sub-Trees распределены по множеству серверов.
Что такое "Overlap Buffer" и почему он важен?
Overlap Buffer (Буфер перекрытия) — это механизм в Spill Trees, который позволяет соседним партициям пересекаться. Объекты, попадающие в эту зону, дублируются в обеих партициях. Это увеличивает размер индекса, но повышает точность поиска, так как уменьшает вероятность пропустить ближайшего соседа, который оказался за границей партиции.
Как система определяет оптимальный размер перекрытия (Overlap Buffer Width)?
Патент предлагает автоматический метод. Система анализирует характеристики данных, такие как плотность распределения объектов и размерность пространства признаков (Dimensionality). На основе этих данных вычисляется среднее расстояние до ближайшего соседа, которое затем используется для расчета оптимальной ширины буфера по формуле, чтобы сбалансировать точность и производительность.
Стоит ли мне беспокоиться о том, что мои изображения будут признаны дубликатами?
Если вы используете уникальные изображения (собственные фото, авторские иллюстрации), беспокоиться не стоит. Если же вы используете стоковые фотографии, изображения от производителей или копируете их с других сайтов, то да, Google с высокой вероятностью идентифицирует их как дубликаты. В этом случае важно убедиться, что остальной контент на странице предоставляет достаточную добавленную ценность.

Индексация


Мультимедиа
Семантика и интент

Индексация

Мультимедиа
Индексация

Персонализация
Поведенческие сигналы
SERP

EEAT и качество
Ссылки
SERP

Семантика и интент
Персонализация
Поведенческие сигналы

Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Ссылки
SERP

Персонализация
Поведенческие сигналы
SERP

Персонализация
Семантика и интент
Поведенческие сигналы

Индексация
Поведенческие сигналы
