Как Google масштабирует поиск похожих объектов (например, изображений или дубликатов) с помощью распределенных деревьев поиска

BUILDING PARALLEL HYBRID SPILL TREES TO FACILITATE PARALLEL NEAREST-NEIGHBOR MATCHING OPERATIONS (Построение параллельных гибридных деревьев перекрытия для обеспечения параллельных операций поиска ближайшего соседа)

US7539657B1
Google LLC
2006-02-01
2009-05-26

Индексация

Патент описывает инфраструктурное решение Google для поиска ближайших соседей (наиболее похожих объектов) в огромных наборах данных, которые не помещаются на одном сервере. Система использует структуру "Parallel Hybrid Spill Tree" для распределения данных по нескольким машинам, что позволяет выполнять эффективный и быстрый поиск дубликатов или схожего контента в масштабах всего интернета.

Какую проблему решает

Патент решает проблему масштабирования поиска ближайших соседей (Nearest-Neighbor Search) для огромных наборов данных (например, миллиардов изображений), которые не помещаются в память одного сервера. Традиционные методы построения эффективных деревьев поиска (таких как Hybrid Spill Trees) требуют произвольного доступа ко всему набору данных в памяти, что невозможно при работе с данными веб-масштаба. Это ограничивает способность системы эффективно выявлять дубликаты контента и кластеризовать похожие объекты.

Что запатентовано

Запатентован метод построения распределенной структуры данных — параллельного гибридного дерева перекрытия (Parallel Hybrid Spill Tree). Изобретение позволяет разбить огромный набор данных на управляемые части (партиции) и распределить их по множеству серверов. Это обеспечивает возможность параллельного построения индекса и параллельного выполнения поисковых запросов для нахождения похожих объектов.

Как это работает

Система строит двухуровневую древовидную структуру. Сначала создается случайная выборка из общего набора данных. На основе этой выборки строится компактное "Верхнее дерево" (Top Tree), которое определяет границы партиций для всего набора данных. Затем все объекты распределяются по соответствующим партициям. Наконец, для каждой партиции параллельно (на разных серверах) строится "Листовое поддерево" (Leaf Sub-Tree), структурированное как Hybrid Spill Tree. При поиске Top Tree маршрутизирует запрос к нужным Leaf Sub-Trees, которые выполняют поиск параллельно.

Актуальность для SEO

Высокая (для инфраструктуры). Проблема распределенного поиска по сходству сегодня актуальна как никогда (Google Lens, поиск по изображениям, обнаружение спама, системы рекомендаций). Хотя конкретные алгоритмы векторного поиска могли эволюционировать с момента подачи патента (например, в сторону HNSW), фундаментальные принципы масштабирования, партиционирования и распределения индекса, описанные здесь, остаются критически важными для инфраструктуры Google.

Важность для SEO

(3/10). Патент имеет низкое прямое влияние на стандартные SEO-стратегии. Это глубоко инфраструктурный патент, описывающий внутренние технические решения Google для масштабирования поиска по сходству. Он не содержит рекомендаций по оптимизации сайтов, но важен для понимания возможностей Google в области обнаружения дубликатов контента (визуального и текстового), кластеризации изображений и выявления спам-шаблонов в огромных масштабах.

Термины и определения

Defeatist Search (Поиск без возврата): Стратегия поиска в Spill Tree, при которой система быстро спускается по дереву, принимая решения на каждом уровне без возврата (backtracking) к предыдущим узлам. Это ускоряет поиск, но делает его приближенным.
Feature Vector (Вектор признаков): Многомерное числовое представление объекта (например, изображения или документа), описывающее его ключевые характеристики. Используется для вычисления расстояния (схожести) между объектами.
Hybrid Spill Tree (Гибридное дерево перекрытия): Структура данных, сочетающая элементы Metric Tree (без перекрытия) и Spill Tree (с перекрытием). Система решает на каждом узле, использовать ли перекрытие.
Leaf Sub-Tree (Листовое поддерево): Отдельное дерево поиска (Hybrid Spill Tree), построенное для одной партиции данных. Хранится и обрабатывается независимо, часто на отдельном сервере.
Metric Tree (Метрическое дерево): Дерево поиска, которое разделяет пространство данных произвольными гиперплоскостями. Партиции не пересекаются.
Nearest-Neighbor (NN) Search (Поиск ближайшего соседа): Задача нахождения объекта в наборе данных, который наиболее близок (имеет наименьшее расстояние по Feature Vector) к заданному объекту запроса.
Overlap Buffer Width (Ширина буфера перекрытия, $\tau$ ): Параметр в Spill Tree, определяющий размер области перекрытия между дочерними узлами. Объекты в этой области дублируются. Чем шире буфер, тем точнее поиск, но больше размер индекса.
Parallel Hybrid Spill Tree (Параллельное гибридное дерево перекрытия): Распределенная структура данных, состоящая из Top Tree и множества Leaf Sub-Trees, предназначенная для масштабирования NN Search.
Spill Tree (Дерево перекрытия): Вариант Metric Tree, в котором дочерние узлы могут совместно использовать объекты, находящиеся в буфере перекрытия. Поддерживает эффективный приближенный поиск.
Top Tree (Верхнее дерево): Дерево поиска (Metric Tree или Spill Tree), построенное на основе выборки данных. Используется для определения границ партиций и направления запросов к соответствующим Leaf Sub-Trees.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод построения параллельного гибридного дерева перекрытия для набора данных, размер которого превышает доступную память одного устройства.

Получение набора объектов.
Выбор подмножества объектов (выборки), которое помещается в память одного устройства.
Создание "Верхнего дерева" (Top Tree) с использованием этого подмножества для партиционирования всего набора данных. Указано, что Top Tree структурировано как Hybrid Spill Tree, и каждый листовой узел определяет партицию.
Использование Top Tree для связывания каждого объекта из исходного набора с одной или несколькими партициями.
Для каждой партиции построение ассоциированного "Листового поддерева" (Leaf Sub-Tree), также структурированного как Hybrid Spill Tree.
Распределение партиционированных подмножеств объектов по нескольким вычислительным устройствам.
Использование построенной структуры для выполнения операций поиска ближайшего соседа.

Claim 2 (Зависимый): Уточняет, что каждое Leaf Sub-Tree строится и поддерживается на отдельном сервере для обеспечения параллельных операций.

Claim 5 (Зависимый, Вариант реализации): Описывает альтернативный вариант, где Top Tree структурируется как Metric Tree (дерево без перекрытий) для уменьшения дублирования данных между партициями.

Важно отметить вариативность: Top Tree может быть Hybrid Spill Tree (Claim 1) или Metric Tree (Claim 5). Если используется Metric Tree, это экономит место (нет дубликатов в Leaf Sub-Trees), но может потребовать поиска в нескольких поддеревьях во время запроса. Если используется Spill Tree, поиск может быть быстрее, но требуется больше места для хранения дубликатов.

Claim 6 (Зависимый): Описывает автоматическую настройку параметров. Окно перекрытия (Overlap Window) определяется на основе оценочного среднего расстояния между ближайшими соседями и размерности пространства объектов.

Claim 8 (Зависимый): Определяет контекст применения. Метод используется для определения сходства и/или дублирования между объектами, включая изображения, документы, продукты, 3D-модели, музыку, порнографию, спам (spam), книги и видео.

Где и как применяется

Это изобретение является инфраструктурным компонентом, обеспечивающим работу других систем Google. Оно не участвует напрямую в ранжировании веб-страниц, но критически важно для обработки и организации больших массивов данных.

INDEXING – Индексирование и извлечение признаков
Основное применение. Система используется на этапах обработки контента.

Извлечение признаков: Объекты (например, изображения, документы) преобразуются в Feature Vectors.
Организация индекса и Детекция дубликатов: Parallel Hybrid Spill Tree строится для всего набора векторов. Это позволяет эффективно выполнять кластеризацию данных (Data Clustering) и выявлять близкие дубликаты (near-duplicates) в офлайн-режиме (batch mode). Это помогает экономить ресурсы и улучшать качество индексов (например, индекса изображений).

METASEARCH / Специализированные поисковые сервисы
Структура может использоваться как онлайн-сервис (Nearest-Neighbor Service) для вертикалей, таких как Google Images или Google Shopping. Когда пользователь ищет "похожие изображения" или выполняет обратный поиск по картинке, запрос обрабатывается этой распределенной системой.

Входные данные (Построение):

Огромный набор Feature Vectors.
Параметры конфигурации (размер выборки 1/M, пределы размера партиций L и U).

Выходные данные (Построение):

Распределенная структура данных (Parallel Hybrid Spill Tree).

На что влияет

Конкретные типы контента: Влияет на любой контент, который можно представить в виде Feature Vectors. В патенте явно упоминаются изображения, документы, товары, 3D-модели, музыка, порнографические материалы, спам, книги и видео.
Специфические запросы: Влияет на обработку запросов, направленных на поиск схожести или выявление дубликатов (например, поиск по картинке, поиск похожих товаров).

Когда применяется

Условия применения: Когда размер набора данных превышает возможности одного сервера для выполнения эффективного NN Search.
Триггеры активации: Необходимость выполнения масштабных задач, таких как удаление дубликатов из индекса, кластеризация контента или предоставление функции поиска похожих объектов пользователям.

Пошаговый алгоритм

Процесс А: Построение Parallel Hybrid Spill Tree

Сбор данных и Сэмплирование: Система получает полный набор объектов. Производится случайная выборка объектов (например, с вероятностью 1/M), достаточно малая, чтобы поместиться в память одного сервера.
Построение Верхнего Дерева (Top Tree): На основе выборки строится Top Tree (как Metric Tree или Spill Tree). Построение использует заданные пределы размера листовых узлов (L и U). Листья Top Tree определяют партиции данных.
Партиционирование данных: Каждый объект из полного набора данных пропускается через Top Tree для определения, в какую партицию (или партиции) он попадает. Объекты маркируются ключом (ID партиции).
Распределение данных: Объекты физически перемещаются на серверы, ответственные за соответствующие партиции.
Параллельное построение Листовых Поддеревьев (Leaf Sub-Trees): На каждом сервере независимо и параллельно строится Leaf Sub-Tree (как Hybrid Spill Tree) для объектов своей партиции.

Процесс Б: Выполнение запроса (Онлайн-поиск)

Получение запроса: Система получает объект для поиска ближайших соседей.
Обработка в Top Tree: Запрос направляется в Top Tree (которое может быть реплицировано на несколько серверов для увеличения пропускной способности).
Идентификация релевантных Leaf Sub-Trees: Top Tree определяет, какие Leaf Sub-Trees могут содержать ближайших соседей. Если объект запроса близок к границе партиции, может быть выбрано несколько поддеревьев.
Параллельный поиск в Leaf Sub-Trees: Запрос отправляется в выбранные Leaf Sub-Trees. Поиск выполняется параллельно на соответствующих серверах.
Агрегация результатов: Результаты поиска (кандидаты) собираются из всех опрошенных Leaf Sub-Trees.
Финальный выбор: Система выбирает наилучшее совпадение среди всех кандидатов.

Какие данные и как использует

Данные на входе

Система оперирует исключительно векторами признаков. Тип исходных данных не важен, если их можно преобразовать в векторное представление.

Контентные / Мультимедиа факторы (Feature Vectors): Основные данные для работы алгоритма. В патенте приводится пример генерации Feature Vectors для изображений: нормализация цвета, масштабирование до 64x64, преобразование в домен вейвлетов Хаара (Haar wavelet domain), квантование коэффициентов, уменьшение размерности с помощью случайной проекции до 100 измерений, добавление среднего значения цвета и соотношения сторон (итого 104 измерения).

Какие метрики используются и как они считаются

Distance Measure (Мера расстояния): Метрика для определения близости между двумя Feature Vectors (например, Евклидово расстояние).
Overlap Buffer Width ( $\tau$ ): Ширина буфера перекрытия. Критический параметр для Spill Trees.
Partition Bounds (U и L): Верхний и нижний пределы количества объектов в партиции.
Dimensionality (d): Эффективная размерность пространства признаков.
Average Nearest-Neighbor Distance ( $R_{S}$ Среднее расстояние до ближайшего соседа в наборе данных S.

Автоматическая оценка параметров: Патент предлагает метод для автоматической оценки оптимальной ширины буфера перекрытия ( $\tau$ ).

Оценивается среднее расстояние до ближайшего соседа ( $R_{S}$
Константа c и размерность d оцениваются с помощью линейной регрессии на основе анализа подмножеств данных разного размера.
Далее, учитывая ориентацию разделяющих гиперплоскостей, оценка для $\tau$ вычисляется как (Equation 3):
$2\tau = \frac{R_{S}}{\sqrt{d}}$

Патент описывает чисто техническое, инфраструктурное решение и не дает прямых рекомендаций для SEO. Он описывает внутренние процессы Google, направленные на решение инженерной задачи масштабирования.

Инфраструктура для масштабирования: Основная ценность патента — описание архитектуры (Parallel Hybrid Spill Tree), позволяющей Google обрабатывать миллиарды объектов (изображений, товаров, документов) на распределенной системе для поиска похожих элементов.
Фундамент для векторного поиска: Патент демонстрирует ранние усилия Google по созданию эффективной инфраструктуры для поиска на основе Feature Vectors. Это является фундаментом для современных систем семантического поиска, использующих векторные представления (embeddings).
Эффективная борьба с дубликатами: Система обеспечивает техническую возможность для масштабного выявления дубликатов (near-duplicates) и кластеризации контента. Это напрямую влияет на то, как Google организует индексы специализированных вертикалей (Images, Shopping).
Баланс Скорость/Точность/Память: Архитектура позволяет гибко настраивать баланс. Использование Metric Trees для Top Tree экономит память за счет отсутствия дублирования, но требует больше вычислений при поиске. Использование Spill Trees и настройка Overlap Buffer Width позволяет увеличить точность за счет увеличения размера индекса.
Автоматизация настройки: Система включает механизмы для автоматической оценки критических параметров (таких как Overlap Buffer Width) на основе характеристик данных (плотность, размерность), что упрощает её применение к разным типам контента.

Патент носит инфраструктурный характер и не дает прямых практических рекомендаций для стандартного веб-SEO. Однако он дает важное понимание возможностей Google по анализу схожести контента.

Best practices (это мы делаем)

Фокус на уникальности визуального контента: Необходимо создавать уникальные изображения и видео. Патент подтверждает, что Google обладает мощной и масштабируемой инфраструктурой для выявления не только полных, но и близких дубликатов (near-duplicates) изображений в масштабах всего интернета.
Уникальные изображения товаров для E-commerce: Для интернет-магазинов критически важно использовать собственные фотографии товаров, а не только стандартные изображения от производителя. Система, основанная на этом патенте, легко кластеризует идентичные изображения, что может привести к выбору другого источника в Google Shopping или Google Images.
Семантическая уникальность текста: Хотя патент описывает общие векторы, современные системы (наследники этих идей) используют векторные представления (embeddings) для текста. Это подчеркивает важность создания семантически уникального контента, а не поверхностного рерайта.

Worst practices (это делать не надо)

Использование стоковых или чужих изображений без изменений: Массовое использование неуникальных изображений неэффективно. Система легко идентифицирует их как дубликаты и может не показывать их в поиске по изображениям или понижать ценность страницы, состоящей преимущественно из неуникального контента.
Создание сайтов с автоматически сгенерированным или скопированным контентом: Попытки манипулировать поиском путем создания большого количества страниц с похожим контентом (будь то текст, изображения или товары) легко обнаруживаются системами, использующими масштабируемый NN Search для кластеризации и удаления дубликатов.

Стратегическое значение

Патент имеет важное стратегическое значение для понимания эволюции поиска. Он показывает, что Google заложил инфраструктурный фундамент для векторного поиска задолго до широкого распространения современных нейросетевых моделей. Принципы масштабирования NN Search, описанные здесь, критически важны для современных систем, которые полагаются на векторные представления (embeddings) для определения семантической близости. Это подтверждает долгосрочную стратегию Google по переходу от лексического поиска к семантическому.

Практические примеры

Практических примеров для SEO по влиянию на этот алгоритм нет, так как патент описывает структуру индекса и метод его построения, а не факторы ранжирования. Приведем пример того, как эта технология работает внутри Google.

Пример работы: Обработка изображений в Google Images и выявление дубликатов

Сбор данных: Google сканирует миллиарды изображений в интернете.
Извлечение признаков: Каждое изображение преобразуется в Feature Vector (например, 104-мерный вектор, как описано в патенте).
Построение индекса: Поскольку миллиарды векторов не помещаются на один сервер, Google использует Parallel Hybrid Spill Tree. Данные распределяются по сотням серверов (Leaf Sub-Trees).
Кластеризация (Офлайн): Система выполняет масштабный поиск ближайших соседей для каждого изображения. Изображения с очень близкими векторами группируются вместе как дубликаты или близкие варианты.
Результат: При поиске в Google Images система показывает только один (наиболее авторитетный) вариант из кластера дубликатов, отфильтровывая остальные.

Влияет ли этот патент на ранжирование моего сайта в основном веб-поиске?

Напрямую нет. Этот патент описывает инфраструктуру для поиска похожих объектов (Nearest-Neighbor Search), а не алгоритм ранжирования веб-страниц. Он используется в основном для организации данных, удаления дубликатов и в специализированных вертикалях. Однако, если ваш сайт состоит преимущественно из дублированного контента (визуального или текстового), системы, использующие эту инфраструктуру, могут это обнаружить, что косвенно повлияет на общую оценку качества сайта.

Что такое "поиск ближайшего соседа" (Nearest-Neighbor Search) и зачем он нужен Google?

Это задача нахождения наиболее похожего объекта в базе данных к заданному объекту запроса. Схожесть определяется как расстояние между их числовыми представлениями (Feature Vectors). Google использует это для множества задач: поиск похожих изображений, рекомендации товаров, кластеризация похожих новостей, выявление спама и, что самое важное для SEO, обнаружение полного или частичного дублирования контента.

Помогает ли этот патент Google бороться с дублированным контентом?

Да, это одна из основных целей. Патент решает проблему масштабирования, позволяя Google применять алгоритмы обнаружения дубликатов к миллиардам объектов. Система позволяет эффективно находить и кластеризовать близкие дубликаты (near-duplicates), например, одно и то же изображение с разным разрешением или товары с одинаковыми характеристиками.

Применяется ли эта технология только к изображениям?

Нет. Технология универсальна. В патенте явно указано, что она применяется к изображениям, документам (текст), продуктам, видео, музыке и спаму. Любой объект, который можно представить в виде Feature Vector, может быть проиндексирован с помощью этой структуры. В современном поиске это также применяется к текстовому контенту через векторные представления (embeddings).

Что такое "Feature Vector" в контексте этого патента?

Feature Vector — это компактное числовое представление объекта. Например, изображение может быть преобразовано в вектор из 104 чисел, которые описывают его ключевые характеристики (форму, текстуру, цвет). Сравнивая эти векторы, система может быстро определить, насколько два объекта похожи друг на друга, не сравнивая исходные файлы.

Насколько актуален этот патент, учитывая развитие нейросетей и векторных баз данных?

Патент описывает фундаментальные принципы масштабирования древовидных структур поиска. Хотя конкретные алгоритмы поиска (Hybrid Spill Trees) могли быть заменены более новыми (например, HNSW), сама идея использования иерархической распределенной структуры (Top Tree для маршрутизации и Leaf Sub-Trees для хранения данных) остается актуальной в архитектуре современных распределенных векторных баз данных.

Что такое "Top Tree" и "Leaf Sub-Tree"?

Это два уровня распределенной системы. Top Tree (Верхнее дерево) — это компактная структура, построенная на выборке данных, которая служит маршрутизатором. Leaf Sub-Tree (Листовое поддерево) — это структура, хранящая фактические данные одной партиции и выполняющая поиск в этой части данных. Leaf Sub-Trees распределены по множеству серверов.

Что такое "Overlap Buffer" и почему он важен?

Overlap Buffer (Буфер перекрытия) — это механизм в Spill Trees, который позволяет соседним партициям пересекаться. Объекты, попадающие в эту зону, дублируются в обеих партициях. Это увеличивает размер индекса, но повышает точность поиска, так как уменьшает вероятность пропустить ближайшего соседа, который оказался за границей партиции.

Как система определяет оптимальный размер перекрытия (Overlap Buffer Width)?

Патент предлагает автоматический метод. Система анализирует характеристики данных, такие как плотность распределения объектов и размерность пространства признаков (Dimensionality). На основе этих данных вычисляется среднее расстояние до ближайшего соседа, которое затем используется для расчета оптимальной ширины буфера по формуле, чтобы сбалансировать точность и производительность.

Стоит ли мне беспокоиться о том, что мои изображения будут признаны дубликатами?

Если вы используете уникальные изображения (собственные фото, авторские иллюстрации), беспокоиться не стоит. Если же вы используете стоковые фотографии, изображения от производителей или копируете их с других сайтов, то да, Google с высокой вероятностью идентифицирует их как дубликаты. В этом случае важно убедиться, что остальной контент на странице предоставляет достаточную добавленную ценность.

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз

Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.

US8856138B1
2014-10-07

Индексация

Как Google использует иерархию серверов и столбцовое хранение данных для обработки массивных наборов данных

Патент описывает инфраструктуру для хранения и обработки огромных объемов данных. Система разбивает таблицы данных на "фрагменты столбцов" (Column Chunks) и распределяет их по множеству серверов. Запросы обрабатываются динамически определяемой иерархией серверов, которые выполняют подзадачи параллельно и объединяют результаты.

US9576024B2
2017-02-21

Как Google комбинирует текстовый запрос и изображение-образец для уточнения поиска по картинкам

Google использует механизм для обработки гибридных запросов (текст + изображение). Система находит изображения, которые одновременно релевантны тексту и визуально похожи на образец. Для этого создаются компактные визуальные дескрипторы и используются "визуальные ключи" для быстрого поиска. Финальная выдача ранжируется по степени визуального сходства с образцом.

US9043316B1
2015-05-26

Мультимедиа
Семантика и интент

Как Google использует гибридную архитектуру индекса (Hybrid Sharding) для баланса скорости, эффективности и обновления поиска

Google использует гибридную архитектуру индекса (Hybrid-Sharded Index), комбинирующую шардирование по документам и по терминам. Это позволяет оптимизировать баланс между операциями ввода-вывода и сетевым трафиком. Патент также описывает сложный механизм обновления этого распределенного индекса, позволяющий поддерживать доступность и согласованность данных (атомарность) во время внесения изменений.

US9501506B1
2016-11-22

Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)

Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.

US8386495B1
2013-02-26

Поведенческие сигналы
Ссылки
SERP

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы