Проектирование Storage Layer

Второй deliverable — выбор форматов хранения для каждого слоя. Это ядро capstone-проекта: здесь сходятся знания из 14 модулей. Каждое решение должно быть привязано к workload и обосновано ссылкой на конкретный материал курса.

Архитектура из обзора проекта: три слоя (bronze → silver → gold), каждый с разным workload:

Workloads по слоям

Bronze

Workload: Streaming/CDC

Silver

Workload: Mixed R/W

Gold

Workload: OLAP/Analytics

File Format: Parquet vs ORC

Первый выбор — columnar file format. Для нашего сценария два реалистичных кандидата: Parquet и ORC.

File Format Decision per Layer

Bronze: File Format

Рекомендация: Parquet

Silver: File Format

Рекомендация: Parquet

Gold: File Format

Рекомендация: Parquet

WARNING

Мы выбираем Parquet для всех трёх слоёв. Это не “один формат на всё” — ошибка из обзора. Parquet — единый file format, но encoding, compression, row group size, sort order различаются по слоям. Дифференциация — на уровне настроек, а не формата.

Table Format: Delta Lake vs Iceberg vs Hudi

Table format — это метаданные и ACID поверх файлов. Три кандидата: Delta Lake, Iceberg, Hudi.

Table Format Comparison для capstone

Delta Lake

Преимущества

Недостатки

Apache Iceberg

Преимущества

Недостатки

Apache Hudi

Преимущества

Недостатки

Рекомендация: Iceberg

Decision: Apache Iceberg для capstone

Решение: Apache Iceberg

Multi-Engine

Partition Evolution

Hidden Partitioning

Open Governance

TIP

Hudi мог бы быть лучшим выбором если бы наш primary workload был high-frequency upsert (тысячи upserts/sec на одной таблице). Record-level index Hudi оптимизирован именно для этого. Но наш silver layer — batch merge раз в 30 сек, что Iceberg обрабатывает достаточно эффективно. См. Hudi index types для details.

Encoding Strategy per Layer

Encoding — как значения закодированы внутри column chunks. Выбор зависит от типа данных и access pattern:

Encoding Strategy

Bronze: Default

Стратегия

Silver: Targeted

Стратегия

Gold: Optimized

Стратегия

NOTE

Подробный разбор каждого encoding — в Модуле 08. Здесь мы применяем эти знания к конкретным колонкам нашей платформы. Ключевое правило: encoding выбирается по кардинальности и типу данных, а не по слою.

Compression Strategy per Layer

Compression — последний уровень оптимизации. Trade-off: compression ratio vs CPU overhead:

Compression per Layer

Bronze: Snappy

Обоснование

Silver: Zstd (level 3)

Обоснование

Gold: Zstd (level 6)

Обоснование

TIP

Подробный разбор trade-offs Snappy vs Zstd vs LZ4 — в Модуле 09, Урок 02. Для capstone: Snappy для write-heavy, Zstd с возрастающим level для read-heavy — стандартный паттерн в production data platforms.

Partitioning и Sort Order

Partitioning определяет directory layout. Sort order определяет порядок строк внутри файлов. Оба влияют на query performance:

Partitioning Strategy

Bronze: ingestion_date

Layout

Silver: order_date, region

Layout

Gold: report_date

Layout

CoW vs MoR для Silver Layer

Ключевое решение для silver layer: Copy-on-Write vs Merge-on-Read:

CoW vs MoR для Silver Merge

Copy-on-Write (CoW)

Для нашего silver

Merge-on-Read (MoR)

Для нашего silver

Рекомендация: CoW для silver layer:

Merge batch: ~300K events / 30 sec — CoW file rewrite manageable
Downstream reads (gold rebuild, analytics) — всегда быстрые
Operational simplicity — нет compaction jobs
Iceberg CoW merge: MERGE INTO silver USING staging ON silver.id = staging.id ...

NOTE

Если бы наш merge был high-frequency (continuous per-record, а не micro-batch), MoR был бы обязателен. Hudi MoR с record-level index — оптимальный для этого сценария. Но наш batch merge каждые 30 сек — CoW territory. Подробнее: CoW vs MoR, Hudi MoR.

Row Group и Target File Size

Последний уровень настроек — физический размер файлов и row groups:

File и Row Group Sizing

Bronze

Silver

Gold

Сводка решений

Storage Layer Design — полная сводка

Параметр

Bronze

Silver

Gold

File Format

Parquet

Table Format

Iceberg

Compression

Snappy

Zstd 3

Zstd 6

Row Group

128 MB

64 MB

Упражнение: ваш Storage Layer Design

Ваша задача — описать storage layer для capstone-платформы. Наши рекомендации выше — один из возможных вариантов. Вы можете согласиться, модифицировать, или предложить полностью другую архитектуру. Ключ — обоснование:

Checklist: Storage Design

1. File Format

2. Table Format

3. Encoding

4. Compression

5. Partitioning

6. Operations

WARNING

Обоснование — не формальность. “Parquet because it’s popular” — не обоснование. “Parquet для bronze потому что: (1) Iceberg нативно работает с Parquet (Модуль 12), (2) Spark Structured Streaming write path оптимизирован для Parquet, (3) streaming append не использует ORC advantages (bloom filters, indexes)” — обоснование.

В следующем уроке вы проверите свои решения на практике: запустите Docker lab, соберёте бенчмарки, и сравните результаты с ожиданиями.

Проектирование Storage Layer

File Format: Parquet vs ORC

Table Format: Delta Lake vs Iceberg vs Hudi

Рекомендация: Iceberg

Encoding Strategy per Layer

Compression Strategy per Layer

Partitioning и Sort Order

CoW vs MoR для Silver Layer

Row Group и Target File Size

Сводка решений

Упражнение: ваш Storage Layer Design

Закончили урок?