Компрессия на практике: тюнинг и измерение

В предыдущем уроке мы разобрали внутренности LZ77, Huffman и ANS — теперь понимаем почему Zstd сжимает лучше Snappy. Но знание алгоритмов — только половина. Вторая половина — как настроить компрессию для ваших данных: размер блока, выбор алгоритма per-column, методология измерения, и Zstd dictionary training.

Размер блока: ratio vs random access

Компрессия применяется к блокам (page в Parquet, chunk в ORC). Размер блока — фундаментальный trade-off:

Больше блок → больше контекст для LZ77 → больше повторов → лучше compression ratio
Меньше блок → меньше данных для декомпрессии при random access → быстрее point queries

Размер блока vs compression ratio: кривая trade-off

Размер блока

Zstd ratio

Decompress для 1 строки

Full scan speed

Типичное использование

8 KB

~2.0x

8 KB (мгновенно)

Замедление ~20%

OLTP, key-value

64 KB

~3.0x

64 KB (быстро)

Нормально

DuckDB segments

1 MB (Parquet default)

~3.5x

1 MB (заметно)

Оптимально

Parquet default

8 MB

~3.8x

8 MB (дорого)

Diminishing returns

Archival

TIP

Правило большого пальца: Parquet page size = 1 MB — правильный выбор для 90% случаев. Увеличивать до 4–8 MB имеет смысл только для archival (read-never) данных. Уменьшать до 64–256 KB — только если point queries доминируют (тогда, возможно, Parquet — не лучший формат).

Зависимость от данных

Кривая “block size → ratio” не универсальна. Она зависит от entropy данных после encoding:

Block size эффект: высокая vs низкая энтропия

Тип данных

64 KB → 1 MB (прирост ratio)

Объяснение

Integers после Delta encoding

+5–10%

Encoding уже сделал работу. LZ77 находит matches быстро.

String колонки без dictionary

+30–50%

LZ77 нужен большой контекст для поиска повторяющихся подстрок.

Смешанные колонки (типичный случай)

+15–25%

Зависит от доли string колонок без dictionary.

Column-level выбор компрессии

Разные колонки одного файла могут использовать разные алгоритмы компрессии. На уровне файла задаётся default, на уровне колонки — override:

Column-level compression: API трёх движков

Spark: parquet compression

DuckDB: PRAGMA + COPY

Polars: write_parquet / sink_parquet

PyArrow: per-column compression

NOTE

Spark и Polars не поддерживают per-column compression — только file-level. Для per-column control используйте PyArrow напрямую: pq.write_table() принимает dict с compression per column name. Это полезно для файлов со смешанными колонками: ZSTD для больших строк, LZ4 для уже хорошо закодированных integers.

Методология бенчмаркинга

Типичная ошибка: измерить compression ratio, объявить “Zstd лучше” и остановиться. Правильный бенчмарк включает три метрики и учитывает пять pitfalls:

Три метрики правильного бенчмарка компрессии

1. Compression Ratio

2. Compress Speed (MB/s)

3. Decompress Speed (MB/s)

Пять pitfalls бенчмаркинга

5 ошибок измерения компрессии

Pitfall

Почему неправильно

Правильный подход

1. Горячий кеш ОС

decompress кажется быстрее, чем есть

Первый прогон — warmup (отбросить). Или: sync && echo 3 > /proc/sys/vm/drop_caches

2. Data skew

Результаты не переносятся на ваши данные

Бенчмаркить на ВАШИХ данных. Минимум 3 типа колонок: int, string low-card, string high-card.

3. Column type bias

Разница между алгоритмами минимальна на integers

Тестировать per-column type отдельно. Общий ratio = weighted по column sizes.

4. Encoding + compression conflation

Кажется, что compression делает основную работу

Измерить encoding-only (compression=none) и compression-only (encoding=plain) отдельно.

5. Decompress throughput vs query latency

Высокая throughput маскирует latency impact

Измерить per-page decompress latency (P50, P99). Умножить на pages-per-query × concurrency.

Шаблон бенчмарка

Чек-лист правильного бенчмарка компрессии

Данные: production sample ≥ 1 GB, разные column types

Алгоритмы: Snappy, LZ4, Zstd-1, Zstd-3, Zstd-9

3 метрики × 5 прогонов × drop caches

Отделить encoding от compression per-column-type

Результат: best algorithm per column type per workload

Zstd Dictionary Training

Стандартная компрессия работает плохо на маленьких данных (< 4 KB): LZ77 не находит повторов в коротких блоках, ANS таблицы — значительный overhead. Решение: обучить словарь на sample данных и использовать его при компрессии.

Zstd Dictionary: обучение и использование

Проблема: короткие записи (< 4 KB) → ratio ~1.2x

Решение: обучить dictionary

Шаг 1: собрать training samples

Шаг 2: обучить словарь

Шаг 3: компрессия со словарём

Результат: ratio 1.2x → 3–5x на записях < 4 KB

Когда dictionary полезен

Zstd Dictionary: когда использовать

Сценарий

Без словаря

Со словарём

Kafka messages (200–500 B)

~1.1x (почти нет сжатия)

~3.5x (JSON keys в словаре)

Log lines (100–300 B)

~1.2x

~4.0x (формат в словаре)

Parquet pages (1 MB)

~3.5x

~3.5x (нет улучшения)

WARNING

Dictionary ≠ silver bullet. Он помогает только на данных < 4–16 KB. На больших блоках (Parquet pages, ORC stripes) — бесполезен. И: словарь нужно хранить вместе с данными или в отдельном registry. Если словарь потерян — данные не распакуются. Версионирование словарей — обязательно.

Compression ratio vs query latency: кривая trade-off

Финальный практический вопрос: как compression level влияет на end-to-end query latency? Сжатие экономит I/O (меньше данных с диска), но тратит CPU (decompress). Существует оптимальная точка:

Zstd level vs end-to-end query time

Zstd Level

File Size (1 GB raw)

I/O Time (200 MB/s disk)

Decompress Time

Total (I/O + CPU)

none

1000 MB

5.0s

1 (fast)

350 MB (2.9x)

1.75s

0.7s

2.45s +

3 (default)

285 MB (3.5x)

1.43s

0.9s

2.33s + (optimal)

240 MB (4.2x)

1.20s

1.1s

2.30s ≈

210 MB (4.8x)

1.05s

1.3s

2.35s −

TIP

Оптимальный уровень для queries = тот, где дополнительная I/O экономия ≈ дополнительному CPU cost. На типичных SSD/HDD (200–500 MB/s) это Zstd-3 (default). На NVMe (3+ GB/s) — Zstd-1 или LZ4: диск быстрее CPU, компрессия сверху минимальна. На S3 (~100 MB/s): Zstd-9 — медленный network оправдывает сильное сжатие.

Ключевые выводы

Размер блока = ratio vs random access. Parquet 1 MB — правильный default. Увеличивать только для archival, уменьшать — для point lookups.
Column-level compression: Spark/Polars — только file-level. PyArrow — per-column dict. Используйте PyArrow для mixed workloads.
Бенчмаркинг: три метрики (ratio, compress speed, decompress speed) × пять pitfalls (cache, skew, column bias, encoding conflation, throughput ≠ latency).
Zstd dictionary: обучить словарь на samples → ratio на коротких записях (< 4 KB) вырастает с ~1.1x до 3–5x. Бесполезен для больших блоков (> 16 KB).
Compression level vs query latency: optimal point = Zstd-3 на SSD, Zstd-1/LZ4 на NVMe, Zstd-9 на S3. После optimal point — diminishing returns (CPU cost > I/O gain).
Encoding снижает ценность compression: на хорошо закодированных данных разница между алгоритмами минимальна — encoding уже сделал основную работу.

Compression codecs в ClickHouse — детальный разбор