Будущее кодирования: compressed execution и AnyBlox

В предыдущих четырёх уроках мы разобрали cutting-edge кодировки: BtrBlocks (каскады), FastLanes (SIMD-layout), ALP (float→integer), FSST (символьные таблицы). Каждая из них улучшает сжатие — но все предполагают, что данные нужно декомпрессировать перед обработкой.

Этот урок — о следующем шаге: что если вообще не декомпрессировать?

Compressed Execution: работа на сжатых данных

Традиционный pipeline аналитического запроса: читаем сжатые данные с диска → декомпрессируем в память → обрабатываем (filter, aggregate, join) → возвращаем результат. Декомпрессия — обязательный шаг, и он стоит CPU-циклов.

Compressed execution пропускает декомпрессию: операции выполняются прямо на сжатых данных. Не все операции и не на всех кодировках — но для определённых комбинаций это работает.

Traditional vs Compressed Execution pipeline

Traditional pipeline

Обрабатываем 100% данных в full size

Compressed execution

Декомпрессируем только matches (~1%)

DuckDB: три типа compressed vectors

DuckDB реализует compressed execution для трёх типов кодировок:

DuckDB compressed vectors: Constant, Dictionary, FSST

Тип вектора

Что хранится

Операции без декомпрессии

Экономия

Constant vector

1 значение + count

Filter: O(1). Aggregate: O(1). Join: broadcast

1024x меньше работы

Dictionary vector

indices[] + dict[]

Filter: compare indices. GROUP BY: dict-level agg

String compare → int compare

FSST vector

compressed strings + symbol table

Equality: encode constant → memcmp. LIKE: partial decode

~3x меньше memory bandwidth

NOTE

Compressed execution не универсален: JOIN по Dictionary vectors требует совместимых словарей, LIKE на FSST — частичного декодирования, а математические операции (SUM, AVG) на Constant vectors — специальной логики. DuckDB реализует compressed paths для самых частых операций и fallback на decompress для остальных.

Partial Decompression: декодирование одного значения

FastLanes (Урок 04) открывает другую возможность: partial decompression. Благодаря UTL layout, можно декодировать одно значение из блока в 1024, не трогая остальные 1023.

Partial Decompression: full block vs single value

Full block decompression

Decode 1024 значений ради одного. O(block_size)

FastLanes partial decode

Decode 1 значение. O(1)

Partial decompression полезна для late materialization: сначала filter на сжатых данных → получаем позиции match’ей → декодируем только нужные значения из нужных колонок. Комбинация compressed execution (filter без decode) + partial decompression (decode только matches) минимизирует объём декомпрессии.

AnyBlox: WebAssembly-декодеры внутри данных

Все форматы (Parquet, ORC, Arrow) имеют одну проблему: формат задаёт набор кодировок. Parquet поддерживает PLAIN, RLE_DICTIONARY, DELTA_BINARY_PACKED и ещё 6 типов — и всё. Новая кодировка (например, ALP) требует изменения спецификации, обновления всех reader-библиотек (pyarrow, spark, polars, duckdb, …), и ожидания adoption. Процесс занимает годы.

AnyBlox предлагает радикальное решение: вместо фиксированного набора кодировок — положить декодер рядом с данными.

AnyBlox: архитектура — данные + WebAssembly декодер

Проблема: writer знает ALP, reader не знает ALP → data unreadable

Решение AnyBlox

Data block

Wasm decoder

Reader: любой, без обновления

AnyBlox Reader (generic)

Writer: любая кодировка. Reader: всегда прочитает.

Почему WebAssembly?

Почему именно WebAssembly для AnyBlox

Требование

Альтернативы

WebAssembly

Безопасность

Native code (DLL/SO): full system access

Memory sandbox: линейная память, нет syscalls

Производительность

JIT interpreted (Lua/Python): 10–100x slowdown

AOT/JIT compile: ~0.8–0.95x native speed

Портируемость

Native binary: per-platform build

One .wasm binary → все платформы

WARNING

AnyBlox — исследовательский проект, не production-ready формат. Открытые вопросы: стандартизация metadata (как reader находит Wasm модуль в файле?), доверие к декодерам (Wasm sandbox не предотвращает denial of service — бесконечный цикл), и производительность Wasm для SIMD-intensive декодеров (Wasm SIMD proposal всё ещё созревает).

Направления исследований

Encoding research — одна из самых активных областей в data systems. Несколько направлений:

Куда движутся исследования кодирования

Learned Encodings

Hardware-Aware Compression

GPU Decompression

Format-Independent Compression

Таймлайн: от классических кодировок к compressed execution

Таймлайн: эволюция encoding research (2010–2025)

2010–2015

2017–2020

2021–2023

2024–2025

Итог модуля

Модули 08 и 09 прошли полный путь — от информационной теории и классических кодировок через кросс-форматный анализ до cutting-edge исследований:

Encoding ≠ compression: кодирование трансформирует данные (Dictionary, FOR, Delta, FSST, ALP), compression сжимает байты (LZ4, Zstd). Максимальный эффект — кодирование перед компрессией (BtrBlocks cascade).
SIMD — бесплатно: FastLanes UTL layout даёт автовекторизацию без платформенных intrinsics. >100 млрд int/sec на scalar коде.
Float — сжимаем: ALP превращает «несжимаемые» float64 в integers. 4–8x на финансах/сенсорах.
Строки — random access: FSST даёт ~3x без потери random access. Late decompression: предикаты на сжатых строках.
Декомпрессия — не обязательна: compressed execution (DuckDB vectors), partial decompression (FastLanes), late decompression (FSST) — три способа обойти полную декомпрессию.
Форматы эволюционируют: от фиксированных enum кодировок (Parquet/ORC) к expression encoding (FastLanes FF) и WebAssembly-декодерам (AnyBlox).

Все ключевые техники (FastLanes, ALP, FSST) интегрированы в DuckDB — открытый аналитический движок, ставший playground для encoding research из CWI Amsterdam.