Фреймворк выбора формата по workload

Предыдущие 16 модулей разобрали каждый формат в деталях: внутреннее устройство, кодировки, транзакции, экосистему. Но на практике вопрос не “как работает Iceberg?”, а “какой формат решает мою задачу?”. Этот модуль переворачивает перспективу: вместо “формат → фичи” мы идём от “workload → требования → формат”.

WARNING

Этот модуль — не повторение сравнительных таблиц из ORC vs Parquet, Avro vs альтернатив, сериализации или next-gen форматов. Мы используем те сравнения как справочник, но строим решение от рабочей нагрузки, а не от фичей формата.

Почему feature matrix не работает

Типичная ошибка — сравнивать форматы по чеклисту: “поддерживает schema evolution? +/−”. Проблема в том, что контекст определяет вес каждого критерия:

Feature Matrix vs Workload-First подход

Feature Matrix

Проблема

Формат с максимумом + Не оптимален для задачи

Workload-First

Подход

Формат под конкретную задачу Оптимален по deal-breakers

Четыре архетипа workload’ов

Большинство data-pipeline’ов попадают в один из четырёх архетипов. Каждый предъявляет свой набор критичных требований:

Четыре архетипа рабочих нагрузок

OLAP / Аналитика

Стриминг / CDC

ML / AI

Операционный / OLTP

NOTE

Реальные pipeline’ы часто комбинируют архетипы: CDC-поток (стриминг) наполняет lakehouse, на котором работает аналитика (OLAP) и ML-pipeline (ML/AI). В этом случае выбирается формат, оптимальный для доминирующего архетипа, а остальные обслуживаются с приемлемым компромиссом.

Decision Tree: от workload к формату

Вместо таблицы — дерево решений. На каждом уровне — один вопрос, ответ сужает множество кандидатов:

Decision Tree: выбор формата хранения

Какой паттерн доступа доминирует?

Sequential Scan

Нужны ACID транзакции?

Нет

Да

Random Access

Нужен vector search?

Да

Нет

Continuous Ingest

Транспорт или хранение?

Транспорт

Хранение

Архетип 1: OLAP / Аналитика

Аналитический workload — самый распространённый случай. Данные записываются пакетно (ETL/ELT), читаются ad-hoc запросами и BI-инструментами.

OLAP: критичные свойства формата

OLAP Workload

Must Have

Nice to Have

Не нужно

Без транзакций

С транзакциями

Когда Parquet без table format достаточен

Если ваш pipeline — чистый batch ETL без обновлений и удалений:

Данные записываются один раз, читаются много раз (write-once, read-many)
Нет необходимости в ACID-транзакциях (нет конкурентных writer’ов)
Schema не меняется или меняется крайне редко (добавление колонок — ручной процесс)
Нет требований к time travel или аудиту

В этом случае table format — overhead. Parquet файлы + партиционирование по дате/региону + Hive metastore или Glue Catalog — проверенная простая архитектура.

Когда нужен table format

Table format оправдан когда:

Данные обновляются (MERGE/UPDATE/DELETE)
Нужен time travel для аудита или дебага
Конкурентные writer’ы (несколько pipeline’ов пишут в одну таблицу)
Schema evolution — поля добавляются/удаляются/переименовываются регулярно
Incremental processing — downstream pipeline’ы читают только изменения

Выбор между Delta Lake, Iceberg и Paimon — тема урока 03.

Архетип 2: Стриминг / CDC

Стриминг/CDC: двухфазная архитектура

Streaming / CDC Pipeline

Фаза 1: Транспорт

Avro

Protobuf

Фаза 2: Хранение

Hudi

Paimon

TIP

Delta Lake и Iceberg тоже поддерживают стриминг-запись (Structured Streaming → Delta, Flink → Iceberg). Но у них нет нативного record-level index — upsert на больших таблицах дороже, чем у Hudi/Paimon. Если латентность upsert критична (минуты, не часы) — Hudi MOR или Paimon.

Архетип 3: ML / AI

ML/AI: требования к формату данных

ML / AI Pipeline

Training Data

Feature Store

Vector Index

Lance

Parquet + Vector DB

Когда Parquet + Vector DB лучше Lance

Lance — молодой формат (production с 2023). Parquet + отдельный vector DB оправдан когда:

Команда уже эксплуатирует Pinecone/Milvus/Qdrant в production
Табличные данные и embedding’и имеют разные lifecycle’ы (разные retention, разные pipeline’ы)
Нужна managed-инфраструктура (Pinecone Serverless, Zilliz Cloud)
Scale > 10B vectors — специализированные vector DB оптимизированы для этого масштаба

Lance оправдан когда нужно единое хранилище для табличных данных и embedding’ов, и dataset versioning — first-class citizen.

Архетип 4: Операционный / OLTP-like

Операционный workload: point reads/writes

Operational / Near Real-Time

Ограничения аналитических форматов

Компромиссные решения

Рекомендация

WARNING

Распространённая ошибка — пытаться заменить OLTP-базу на Delta Lake или Iceberg. Table formats оптимизированы для scan’ов и batch operations, не для point reads с миллисекундной латентностью. Если приложению нужен OLTP — используйте OLTP-базу, синхронизируйте через CDC в lakehouse для аналитики.

Сводная карта: workload → формат

Сводная карта: 4 архетипа → рекомендуемые форматы

Workload

Primary

Alternative

Avoid

OLAP

Streaming

ML/AI

OLTP-like

Мультиформатные архитектуры

Реальные production-системы редко используют один формат. Типичная архитектура — разные форматы для разных слоёв:

Мультиформатная архитектура: transport → storage → serving

Sources (App, IoT, API)

Transport Layer

Storage Layer

ML Layer

Serving Layer

TIP

Ключевой принцип: каждый слой использует формат, оптимальный для своего паттерна доступа. Не пытайтесь найти один формат для всего pipeline’а. CDC из PostgreSQL в Avro → материализация в Iceberg → export embeddings в Lance → serving через DuckDB — это нормальная архитектура, не over-engineering.

Итоги

Чеклист: выбор формата по workload

Шаг 1

Шаг 2

Шаг 3

Шаг 4

В следующем уроке — как правильно проводить бенчмарки форматов: методология, типичные ошибки, воспроизводимость результатов.