Стратегии миграции форматов

Выбор формата — первый шаг. Второй — миграция существующих данных без даунтайма, потери данных и разрушения downstream pipeline’ов. Миграция формата хранения — одна из самых рискованных операций в data engineering: затрагивает весь стек от ingest до BI.

Этот урок — о паттернах миграции, а не о конкретных инструментах. Инструменты меняются; паттерны — устойчивы.

Три паттерна миграции

Три паттерна миграции форматов

Big Bang

Shadow Write

Gradual Rollout

WARNING

Big Bang — антипаттерн для production-систем объёмом > 1 TB или с > 5 downstream consumers. Используйте только для dev/staging или маленьких таблиц (< 100 GB, < 3 consumers). Для production — Shadow Write или Gradual Rollout.

Миграция 1: CSV / JSON → Parquet

Самая распространённая миграция — переход от текстовых форматов к колоночным. Типичная ситуация: legacy pipeline записывает CSV в S3, downstream пользуется Athena/Presto.

CSV → Parquet: поэтапная миграция

Исходное: CSV файлы → S3 → Athena/Presto

Фаза 1: Schema Lock

Фаза 2: Shadow Write

Фаза 3: Switchover

Конвертация исторических данных

# Пакетная конвертация CSV → Parquet (PyArrow)
import pyarrow as pa
import pyarrow.csv as pcsv
import pyarrow.parquet as pq
from pathlib import Path

# Фиксированная schema — не полагаемся на inference
schema = pa.schema([
 ("user_id", pa.int64()),
 ("event_type", pa.dictionary(pa.int32(), pa.string())),
 ("timestamp", pa.timestamp("ms")),
 ("amount", pa.decimal128(10, 2)),
])

convert_options = pcsv.ConvertOptions(column_types=schema)
read_options = pcsv.ReadOptions(block_size=256 * 1024 * 1024) # 256MB chunks

for csv_path in Path("s3://data/csv/").glob("**/*.csv"):
 table = pcsv.read_csv(csv_path, convert_options=convert_options, read_options=read_options)

 # Parquet с оптимальными настройками
 pq.write_table(
 table,
 csv_path.with_suffix(".parquet").as_posix().replace("/csv/", "/parquet/"),
 compression="zstd",
 compression_level=3,
 row_group_size=1_000_000,
 use_dictionary=["event_type"], # dictionary для low cardinality
 )

Оценка выигрыша

CSV → Parquet: типичный выигрыш

Storage

Query Speed

Risks

Миграция 2: Hive Tables → Iceberg / Delta Lake

Переход от Hive-managed Parquet таблиц к table format. Типичная ситуация: данные уже в Parquet, но нет ACID, нет time travel, ручной partition management.

Hive → Iceberg: in-place migration

Hive Parquet → Iceberg: metadata-only migration

Spark SQL

Delta Lake

Валидация

In-place vs Full Rewrite

In-Place Migrate vs Full Rewrite

In-Place (metadata-only)

Плюсы

Минусы

Full Rewrite

Плюсы

Минусы

Gradual Rollout для Hive → Iceberg

Gradual Rollout: партиция за партицией

Gradual: партиция за партицией

Неделя 1

Недели 2-4

Неделя 5+

Миграция 3: Parquet → Lance (ML workloads)

Миграция Parquet → Lance — специфический case для ML-pipeline’ов, которые страдают от медленного random access в Parquet.

Parquet → Lance: миграция ML данных

Зачем: random access 100x, vector search, versioning

Конвертация

Vector Index

Валидация

Dual Read: Parquet + Lance

Для миграции ML-pipeline: dual read — чтение из обоих форматов с валидацией:

Dual Read: параллельное чтение для валидации

DataLoader Request: 1024 rows

Lance (primary)

Parquet (shadow)

Результат

Оценка стоимости миграции

Перед началом миграции — оценка стоимости: compute, storage, engineering time, risk.

Cost Estimation Framework

Compute Cost

Storage Cost

Engineering Time

Risk Cost

Чеклист миграции

Чеклист: перед, во время, после миграции

Перед

Во время

После

Миграция между Table Formats

Отдельный случай — миграция между table format’ами: Delta Lake → Iceberg или Hudi → Delta Lake.

Миграция между Table Formats

Delta → Iceberg

Hudi → Iceberg

Iceberg → Delta

TIP

UniForm (Delta Lake 3.x) — самый элегантный подход к межформатной совместимости: Delta таблица автоматически генерирует Iceberg metadata. Consumers, использующие Iceberg readers (Trino, Snowflake), читают Delta-данные без миграции. Это не миграция — это совместимость без миграции.

Rollback Strategy

Каждая миграция должна иметь план отката. Без rollback plan — миграция не начинается.

Rollback Strategies по типу миграции

In-Place Migrate

Full Rewrite

Shadow Write

Gradual Rollout

Итоги

Миграция: ключевые принципы

Shadow Write

In-Place

Validate

Rollback

В следующем уроке — конкретные case studies: как реальные компании выбирали и мигрировали форматы.

Стратегии миграции форматов

Три паттерна миграции

Миграция 1: CSV / JSON → Parquet

Конвертация исторических данных

Оценка выигрыша

Миграция 2: Hive Tables → Iceberg / Delta Lake

In-place vs Full Rewrite

Gradual Rollout для Hive → Iceberg

Миграция 3: Parquet → Lance (ML workloads)

Dual Read: Parquet + Lance

Оценка стоимости миграции

Чеклист миграции

Миграция между Table Formats

Rollback Strategy

Итоги

Закончили урок?