Bucket + Partition Design

В Уроке 01 мы видели, что данные в Paimon хранятся как LSM-деревья, а в Уроке 02 — что primary key определяет, как merge engine объединяет записи. Теперь вопрос: как Paimon распределяет записи по физическим файлам? Ответ — система из двух уровней: партиции (логическая сегментация по бизнес-атрибутам) и бакеты (физические единицы параллелизма внутри партиции).

Двухуровневая организация данных

Каждая таблица в Paimon делится на партиции (опционально) и бакеты (обязательно для primary key таблиц с фиксированным числом). Бакет — это отдельное LSM-дерево, которое обслуживается независимым writer thread’ом.

Партиция → Бакет → LSM-дерево: иерархия хранения

Таблица: orders

разделение по partition key

Partition: 2025-03-25

Partition: 2025-03-26

Partition: 2025-03-27

hash(order_id) % 4

Bucket-0 LSM Tree

Bucket-1 LSM Tree

Bucket-2 LSM Tree

Bucket-3 LSM Tree

Почему бакеты? Primary key таблица должна уметь найти существующую запись при upsert. В Delta Lake и Iceberg это делается через полный scan или вспомогательные индексы. В Hudi — через Bloom/Record Index. Paimon использует хеширование: запись с primary key K всегда попадает в бакет hash(K) % num_buckets. Merge engine внутри бакета (LSM-дерево) обеспечивает корректное объединение.

Hash Bucket: механика назначения

Для primary key таблицы с параметром bucket = N (N > 0):

Вычислить partition — по partition key (если задан)
Вычислить bucket — hash(primary_key_columns) % N
Записать в LSM-дерево бакета

Hash-назначение: запись → bucket

Запись: order_id=12345dt=2025-03-27

hash(order_id) % 4= hash(12345) % 4= bucket-3

Partition: 2025-03-27 Bucket-3 → LSM Tree

NOTE

Primary key в Paimon включает partition key. Если вы определяете PRIMARY KEY (order_id, dt) NOT ENFORCED с PARTITIONED BY (dt), то бакет вычисляется по hash(order_id) — partition-колонки исключаются из hash-вычисления, потому что маршрутизация по партициям уже выполнена.

Детерминизм: одна и та же запись всегда попадает в один и тот же бакет. Это критично для merge engine: при повторном upsert запись order_id=12345 снова окажется в bucket-3, где LSM-дерево найдёт предыдущую версию и выполнит merge. Если бы запись попала в другой бакет — merge engine не смог бы найти предыдущую версию, и возникли бы дубликаты.

Как выбрать число бакетов?

Число бакетов bucket = N — это фиксированная настройка при создании таблицы. Изменить N без rescale операции невозможно. Два типа ошибок:

Бакетов слишком мало vs слишком много

Слишком мало бакетов (bucket=2)

Слишком много бакетов (bucket=1024)

Правило: целевой размер SST-файла — 128–256 MB (по умолчанию target-file-size = 128MB). Если партиция содержит ~10 GB данных, то 10 GB / 128 MB ≈ 80 бакетов — разумная отправная точка. На практике 4–128 бакетов покрывают большинство сценариев.

Cross-Partition Update

Что происходит, когда запись меняет партицию? Пример: заказ order_id=12345 был в партиции dt=2025-03-25, но бизнес-логика переносит его в dt=2025-03-27.

Cross-Partition Update: delete + insert

Старая партиция: 2025-03-25

cross-partition

Новая партиция: 2025-03-27

Один атомарный snapshot: DELETE + INSERT

WARNING

Cross-partition update — дорогая операция. Paimon должен найти старую партицию, сгенерировать DELETE, записать INSERT в новую партицию. Для стриминговых таблиц с высоким throughput это создаёт дополнительный overhead. Если partition key редко меняется (dt = дата создания заказа), проблемы нет. Если меняется часто (status = текущий статус) — используйте dynamic-bucket или пересмотрите схему партиционирования.

Dynamic Bucket

Фиксированное число бакетов (bucket = N) требует заранее знать распределение данных. Это ограничение: новая партиция начинается пустой, а hot partition может расти непредсказуемо. Dynamic bucket решает эту проблему.

Dynamic Bucket: автоматическое масштабирование

bucket = -1 (dynamic)

автоматическое масштабирование

Партиция A: 500K строк

Партиция B: 8M строк

Партиция C: 50M строк

Как работает маршрутизация в dynamic bucket? Paimon поддерживает in-memory index (primary key → bucket ID). При записи: lookup в индексе → если key найден, записать в существующий бакет. Если key новый и текущий бакет полон (достиг target-row-num) — создать новый бакет.

TIP

Dynamic bucket рекомендуется для стриминговых таблиц с неравномерным распределением данных. Типичный сценарий: event-таблица, партиционированная по дате, где объём данных меняется от дня к дню. Dynamic bucket адаптируется к каждой партиции индивидуально.

Unaware Bucket Mode

Для append-only таблиц (без primary key) Paimon предлагает bucket = -1 с особой семантикой: unaware-bucket mode. В этом режиме нет hash-распределения — записи просто назначаются в файлы по мере поступления.

Unaware Bucket: append-only без hash-распределения

Append-Only Table Primary Key

Writer назначает файл Без hash-функции Без LSM-merge

Parquet файлы Без bucket-структуры

Отличия unaware-bucket от primary key таблицы:

Primary Key + Hash Bucket vs Append-Only + Unaware Bucket

Primary Key + Fixed/Dynamic Bucket

Append-Only + Unaware Bucket

NOTE

Unaware-bucket mode поддерживает deletion vectors (Paimon 1.0+) — маркеры удалённых строк внутри Parquet-файлов. Это позволяет DELETE-операции на append-only таблицах без перезаписи файлов, но без upsert-семантики (нет merge engine).

Rescale Bucket

Что если вы выбрали bucket = 4, а данные выросли в 10x? Rescale bucket — операция изменения числа бакетов. Paimon поддерживает её начиная с версии 0.8.

Rescale Bucket: увеличение с 4 до 16 бакетов

До: bucket = 4

ALTER TABLE SET bucket = 16

После: bucket = 16

WARNING

Rescale bucket не перехеширует существующие данные автоматически. Новые партиции используют новое число бакетов, но старые партиции сохраняют прежнее. Для полной миграции выполните INSERT OVERWRITE для каждой старой партиции — это перехеширует данные в новое число бакетов. На production-таблицах это может занять часы.

Партиционирование: стратегии и pruning

Партиции в Paimon аналогичны Hive-style партициям: каждая партиция — директория в object storage. Paimon поддерживает multi-level партиционирование (PARTITIONED BY (year, month, day)).

Partition Pruning: запрос читает только релевантные партиции

SELECT * FROM ordersWHERE dt = '2025-03-27'

partition pruning

Manifest: фильтр по partition Отсечение на уровне planning IO к нерелевантным партициям

только dt=2025-03-27

Bucket-0

Bucket-1

Bucket-2

Bucket-3

Сравнение с другими форматами:

Partition pruning: Paimon vs Delta Lake vs Iceberg vs Hudi

Delta Lake

Apache Iceberg

Apache Hudi

Apache Paimon

Bucket pruning — уникальная особенность Paimon. Если запрос содержит фильтр по primary key, Paimon может вычислить hash(PK) % N и прочитать единственный бакет вместо всех N:

-- Point lookup: partition pruning + bucket pruning
SELECT * FROM orders
WHERE dt = '2025-03-27' AND order_id = 12345;
-- Paimon читает: 1 партиция × 1 бакет × LSM-lookup
-- Вместо: 365 партиций × 4 бакета × full scan

Стратегии партиционирования

Рекомендации по выбору partition + bucket

Стриминговый ingestion (CDC)

Event streaming (IoT, logs)

Batch ETL (ежедневная загрузка)

Dimension table (медленно меняющаяся)

Bucket Mode: сводная таблица решений

Выбор bucket mode: decision tree

Есть Primary Key?

→ Unaware Bucket bucket = -1

→ Объём предсказуем?

→ Fixed Bucket bucket = N

→ Dynamic Bucket bucket = -1

Подводим итоги

Двухуровневая система партиционирования Paimon — partition + bucket — решает две задачи одновременно: логическая организация данных (partition по бизнес-атрибутам) и физический параллелизм (bucket как единица LSM-дерева и writer thread).

Ключевые решения при проектировании таблицы:

Partition key — выбирайте атрибут с умеренной кардинальностью (дата, регион). Слишком высокая (user_id) → миллионы мелких партиций. Слишком низкая (country) → гигантские партиции без pruning.
Bucket mode — fixed (предсказуемый объём), dynamic (растущие данные), unaware (append-only).
Число бакетов — для fixed: expected_partition_size / target_file_size. Для dynamic: настройте dynamic-bucket-target-row-num.
Cross-partition update — дорогая операция. Проектируйте partition key так, чтобы записи редко меняли партицию.

В следующем уроке мы рассмотрим, как Paimon управляет накопленными данными: компакция, deletion vectors, z-order сортировка, data skipping и snapshot lifecycle.