Бенчмаркинг и финальный отчёт

Третий и четвёртый deliverables: запуск бенчмарков и написание финального отчёта. Здесь вы проверяете свои решения из storage layer design на реальных данных — и объясняете результаты.

WARNING

Бенчмаркинг без методологии — маркетинг, а не инженерия. Прежде чем запускать тесты, перечитайте методологию бенчмаркинга из Модуля 17. Каждый benchmark должен иметь: hypothesis, controlled variables, measurement protocol, reproducibility guarantee.

Docker Lab: capstone-benchmarks

Capstone-benchmarks — Docker-based lab для сравнения форматов в контролируемой среде. Lab включает: data generator, write benchmarks, read benchmarks, merge benchmarks, compression benchmarks.

Docker Lab Architecture

docker compose up

MinIO (S3)

Spark 3.5

Benchmark Runner

Benchmark Results (JSON + Markdown)

Запуск Lab

# Clone capstone-benchmarks lab
git clone https://github.com/your-org/capstone-benchmarks.git
cd capstone-benchmarks

# Start environment
docker compose up -d

# Run all benchmarks
docker compose exec spark ./run_benchmarks.sh

# View results
docker compose exec spark cat /results/report.md

NOTE

Если Docker lab недоступен, используйте локальный PySpark (без MinIO). Инструкции в README capstone-benchmarks. Ключевые бенчмарки можно запустить с local filesystem вместо S3. Результаты будут отличаться (local I/O vs S3 API), но relative comparison между форматами сохраняется.

Benchmarking Dimensions

Пять измерений бенчмарка — из методологии:

Benchmark Dimensions

Write Throughput

Что измеряем

Scan Speed

Что измеряем

Compression Ratio

Что измеряем

Merge Latency

Что измеряем

Predicate Pushdown

Что измеряем

Test Data: генерация

Lab генерирует данные, имитирующие наш e-commerce сценарий:

Test Data Schema

orders table

clickstream table

products table

users table

Controlled Variables

Каждый benchmark фиксирует все переменные кроме той, которую измеряем:

Controlled Variables Matrix

Hardware

Data

Query

Environment

TIP

Если у вас медленная машина — уменьшите dataset size (1M вместо 10M). Relative comparison между форматами сохраняется при уменьшении данных. Absolute numbers изменятся, но ratios останутся стабильными. См. scaling considerations из Модуля 17.

Интерпретация результатов

Benchmark runner выдаёт JSON с метриками. Ваша задача — интерпретировать:

Как читать benchmark results

Raw Benchmark Results (JSON)

Структурирование

1. Group by Dimension

2. Normalize

3. Map to Requirements

Анализ

Expected vs Actual

Surprises

Типичные findings

На основе реальных бенчмарков e-commerce data (публичные отчёты, community benchmarks):

Типичные benchmark findings

Write: Parquet vs ORC

Scan: Parquet vs ORC

Compression: Snappy vs Zstd

Merge: CoW vs MoR

Format Selection Report

Финальный deliverable — format selection report. Документ для “архитектурного комитета” (воображаемого):

Структура Format Selection Report

Executive Summary

Requirements

Design Decisions

Benchmark Results

Operational Plan

Risks & Mitigations

Report Writing Guidelines

Guidelines для report

Да Do

Нет Don't

Operational Plan

Архитектура — это 50% работы. Остальные 50% — операционный план:

Operational Plan для capstone-платформы

Compaction

Snapshot Expiry

Monitoring

Schema Changes

Peer Review Checklist

Используйте этот checklist для self-review вашего capstone-проекта перед финальной “презентацией”:

Peer Review Checklist

Ingestion (Урок 02)

Storage (Урок 03)

Benchmarks (Урок 04)

Report

Подведение итогов курса

Этот capstone-проект — не экзамен. Это инструмент: вы прошли путь от теории (побайтовый разбор форматов) через сравнение (decision framework) к практике (проектирование реальной системы). Знания из 17 модулей — от Parquet row groups до Iceberg partition evolution — теперь связаны в единую инженерную картину.

Путь через курс

M01-M07: Format Internals

M08-M10: Encoding, Compression, Schema

M11-M14: Table Formats

M15-M16: Emerging Formats

M17: Decision Framework

M18: Capstone (вы здесь)

TIP

Форматы хранения — активно развивающаяся область. Iceberg v3, Delta 4.0, новые codecs, Arrow-native execution — всё это меняется. Но фундаментальные принципы (columnar vs row, encoding, compression, schema evolution, ACID semantics) остаются. Курс дал вам framework для анализа любого нового формата — не только тех, что мы разобрали.

Capstone-проект завершён. Используйте glossary и troubleshooting как справочники при работе с форматами в production.

Бенчмаркинг и финальный отчёт

Docker Lab: capstone-benchmarks

Запуск Lab

Benchmarking Dimensions

Test Data: генерация

Controlled Variables

Интерпретация результатов

Типичные findings

Format Selection Report

Report Writing Guidelines

Operational Plan

Peer Review Checklist

Подведение итогов курса

Закончили урок?