Trade-off Analysis для Data Systems

Нет «лучших» инструментов — есть подходящие

Главная ошибка junior data engineers — выбирать инструменты по популярности. «Kafka, потому что все используют Kafka.» «Spark, потому что это стандарт.» Правильный подход — анализ trade-offs для конкретных requirements.

Trade-off 1: Batch vs Stream Processing

Batch vs Stream: Trade-offs

Batch Processing

Stream Processing

Когда что выбирать

Сценарий	Выбор	Почему
Daily revenue report	Batch	Freshness часы — достаточно. Batch дешевле
Fraud detection	Stream	Freshness секунды — критична. Fraud window < 1 мин
ML feature computation	Batch + Stream	Batch для training features, stream для serving
BI dashboards	Micro-batch	5-15 мин freshness — компромисс цена/скорость

Trade-off 2: Warehouse vs Lakehouse

Аспект	Data Warehouse	Data Lakehouse
Стоимость storage	Высокая (proprietary format)	Низкая (Parquet on S3)
Query performance	Отличная (оптимизирован)	Хорошая (зависит от engine)
Data types	Структурированные	Все (struct, semi-struct, unstructured)
ML workloads	Плохо (нужен export)	Хорошо (прямой доступ)
Vendor lock-in	Высокий (Snowflake, Redshift)	Низкий (open formats)
ACID transactions	Встроены	Через table format (Delta/Iceberg)

TIP

Тренд: Lakehouse побеждает

Большинство новых проектов выбирают lakehouse architecture. Snowflake и Databricks конвергируют: Snowflake добавил Iceberg support, Databricks продвигает Delta Lake. Если у вас greenfield проект — lakehouse по умолчанию, warehouse только для specific use cases (high-concurrency BI).

Trade-off 3: ETL vs ELT

ETL vs ELT

ETL (Extract → Transform → Load)

Extract

Transform

Load

Transform до load — данные чистые сразу

ELT (Extract → Load → Transform)