F3 Architecture

F3 (Future-proof File Format) — исследовательский формат, разработанный CMU Database Group. Авторы: Andrew Pavlo, Jignesh Patel, Wes McKinney (создатель Apache Arrow и Pandas), Huanchen Zhang. Опубликован на SIGMOD 2025 (сентябрь 2025) — одной из двух top-tier конференций по базам данных.

DANGER

F3 — исследовательский прототип, а не production-ready формат. GitHub: future-file-format/F3 (Rust). Нет PyPI пакета, нет Docker image, нет production deployments. Ценность для инженера — понимание архитектурных идей, которые могут появиться в будущих форматах (включая Parquet 3.0).

F3 назван «Future-proof» потому что решает фундаментальную проблему: как обновлять кодировки данных без обновления библиотек на всех серверах. Текущие форматы (Parquet, ORC) требуют, чтобы reader знал все кодировки файла. Неизвестная кодировка = ошибка чтения. F3 решает это через embedded WebAssembly decoders (подробнее в уроке 04).

NOTE

F3 является частью broader research программы CMU по форматам хранения: «An Empirical Evaluation of Columnar Storage Formats» (VLDB 2023), «NULLS!» (DaMoN 2024), «Towards Functional Decomposition of Storage Formats» (CIDR 2025). Wes McKinney, один из авторов F3, — создатель Apache Arrow и Pandas.

Три принципа F3

F3 строится на трёх принципах, каждый из которых — ответ на конкретное ограничение Parquet:

Три принципа F3

Interoperability

Решение

Extensibility

Решение

Efficiency

Решение

Структура файла F3

F3 вводит два ключевых понятия: IOUnit (единица I/O) и EncUnit (единица кодирования). В Parquet оба привязаны к row group/page — F3 развязывает их:

Структура файла F3

F3 File

IOUnit: развязка I/O и логики

Ключевая инновация F3 — IOUnit decoupled from row group. В Parquet размер I/O определяется row group (обычно ~128MB). F3 позволяет writer’у настраивать размер I/O-единицы независимо:

IOUnit: настраиваемый размер I/O

Parquet: I/O = Row Group

Проблема

F3: IOUnit (tunable)

Настройка

TIP

IOUnit decoupling — практически значимая идея. Современные storage системы: NVMe SSD (4KB pages, 4MB optimal reads), cloud object storage (S3 с optimal 8-64MB GET requests), persistent memory (64B cache lines). Один формат файла должен работать эффективно на всех. Parquet’s fixed row group = compromise. F3’s tunable IOUnit = per-medium optimization.

EncUnit: минимальная единица кодирования

Внутри IOUnit данные организованы в EncUnits — минимальные единицы кодирования/декодирования:

EncUnit — минимальная единица декодирования

IOUnit

EncUnit: col_A, rows 0-999

EncUnit: col_B, rows 0-999

EncUnit: col_C, rows 0-999

В Parquet аналог EncUnit — page (data page внутри column chunk). Но page в Parquet привязана к column chunk, который привязан к row group. F3 развязывает эту иерархию:

Parquet Page vs F3 EncUnit

Decoupled Dictionary Scope

В Parquet dictionary привязан к column chunk (= row group). Это создаёт проблему для высококардинальных колонок:

Dictionary Scope: Parquet vs F3

Parquet: Dict = Row Group scope

Проблема

F3: Dict = Configurable scope

Гибкость

FlatBuffer Metadata с Column-Level I/O Skip

F3 использует FlatBuffers (как Nimble и Vortex) для метаданных с дополнительной оптимизацией — column-level I/O skip:

Column-Level I/O Skip в F3

Query: 3 columns из 1000

F3 Footer (FlatBuffers)

Optimized I/O Plan

NOTE

Column-level I/O skip — не уникальная идея F3. Parquet тоже может пропускать колонки (column projection). Разница в metadata efficiency: Parquet footer содержит Thrift для ВСЕХ колонок (нужно десериализовать всё), F3 footer — FlatBuffers с per-column offsets (читаем только нужные). При 1000+ колонок разница ощутима.

General-Purpose Decoding API

F3 определяет стандартный API, который должен реализовать каждый Wasm decoder:

F3 Decoding API

Wasm Decoder Interface

Композиция decoder'ов

Сравнение с Parquet Page Structure

Иерархия данных: Parquet vs F3

Parquet Hierarchy

Linked Hierarchy

F3 Hierarchy

Decoupled Hierarchy

Развязка позволяет оптимизировать каждую размерность независимо:

Независимые размерности F3

Wasm Decoder Registry

Footer F3 файла содержит registry embedded Wasm decoders:

Wasm Decoder Registry в Footer

F3 Footer

TIP

Wasm modules дедуплицируются: один файл с 100 integer колонками ссылается на один delta-varint decoder (5KB), а не 100 копий. Registry overhead: количество уникальных encodings × средний module size. Для типичного файла (3-5 encodings): 15-100KB — меньше одного Parquet page.

Полный Read Path

Как F3 reader обрабатывает запрос:

F3 Read Path

Query: SELECT col_A, col_C WHERE col_B > 100

Step 1: Read Footer

Step 2: Column Skip

Step 3: Read EncUnits

Step 4: Wasm Decode

Decoded Columns → Apply Filter → Result

Сравнение с форматами курса

F3 в контексте нового поколения

Итоги

F3 — это архитектурный blueprint, а не production формат. Ключевые инновации:

Decoupled hierarchy. Три независимые размерности: logical (row group), physical (IOUnit), encoding (EncUnit). В Parquet все три связаны через row group.
Tunable IOUnit. Writer настраивает I/O unit size под storage medium: 4MB для NVMe, 64MB для S3. Нет компромиссов.
Decoupled dictionary scope. Dictionary scope — независимый параметр, не привязан к row group. Оптимальный выбор per column cardinality.
FlatBuffer metadata с column-level skip. Reader deseriализует metadata только нужных колонок — O(K) вместо O(N) для K из N колонок.
Embedded Wasm decoders. Каждый файл самодостаточен — содержит decoder’ы для своих данных. Подробнее в следующем уроке.

Следующий урок — F3 Wasm-декодеры: как именно работает embedded Wasm, какой overhead, и как это решает проблему fleet-wide encoding deployment.

F3 Architecture

Три принципа F3

Структура файла F3

IOUnit: развязка I/O и логики

EncUnit: минимальная единица кодирования

Decoupled Dictionary Scope

FlatBuffer Metadata с Column-Level I/O Skip

General-Purpose Decoding API

Сравнение с Parquet Page Structure

Wasm Decoder Registry

Полный Read Path

Сравнение с форматами курса

Итоги

Закончили урок?