Целочисленные кодировки: FOR, Delta, Bit-Packing

В Модуле 01 мы видели delta encoding и bit-packing как отдельные приёмы. В Модуле 02 — как Parquet реализует DELTA_BINARY_PACKED. В Модуле 03 — как ORC RLEv2 Delta использует second-order дельты.

Теперь посмотрим глубже: три фундаментальных техники кодирования целых чисел — Frame-of-Reference (FOR), Delta и Bit-Packing — и как каждый формат комбинирует их в свои собственные конвейеры. Ключевое отличие от Модуля 01: мы разберём bit-level layout и увидим, почему порядок упаковки бит влияет на скорость декодирования в 10 раз.

Frame-of-Reference (FOR): base + offset

FOR — самая простая из трёх техник, но основа для всех остальных. Идея: если все значения в блоке лежат в узком диапазоне, вычтем base (минимум) и будем хранить только offsets:

Frame-of-Reference: вычитание base

Без FOR (raw int64)

Колонка price (центы)

8 значений × 64 бит = 512 бит

С FOR

Base = 9990 (min)

Offsets (7 бит каждый)

64 бит (base) + 8 × 7 бит = 120 бит (4.3x экономия)

FOR эффективен когда range ≪ max_value. Для цен 9990–10050: range = 60, max_value = 10050. Нужно 7 бит вместо 14 (для raw) или 64 (для int64). Экономия зависит от соотношения ceil(log₂(range)) / raw_bits.

Кто использует FOR

Формат	Где FOR	Особенности
DuckDB	Основная кодировка для integer	FOR + bit-packing, SIMD-оптимизированное декодирование
BtrBlocks	Один из 8 кандидатов cascade	FOR после sampling, может каскадироваться с другими
FastLanes	FOR как часть expression encoding	FOR + transposed bit-packing для автовекторизации
ORC	Patched Base (RLEv2)	FOR + patches для outliers — уникальная комбинация
Parquet	прямого FOR	Использует delta вместо FOR — другая философия

NOTE

Parquet не имеет отдельного FOR-кодирования. Вместо этого DELTA_BINARY_PACKED фактически включает FOR-подобное поведение: min_delta вычитается из всех дельт в блоке — это FOR, применённый к дельтам, а не к значениям.

Delta-варианты: три уровня глубины

Delta encoding хранит разности вместо абсолютных значений. Но есть три варианта, отличающихся глубиной:

Три уровня delta encoding

Simple Delta (Δ)

Уровень 1

Block Delta + FOR

Уровень 2 (Parquet)

Delta-of-Delta (ΔΔ)

Уровень 3 (ORC)

Когда использовать какой уровень

Кросс-форматное сравнение integer pipelines

Каждый формат строит свой конвейер из FOR, Delta и Bit-Packing. Вот как они обрабатывают одни и те же данные — отсортированные timestamps с шагом ~60 секунд:

Один поток timestamps — четыре конвейера

Входные данные

Parquet DELTA_BINARY_PACKED

Δ = Xᵢ - Xᵢ₋₁ → [62, 59, 62, 57, …]

Блоки по 128: min_Δ=55, offsets=[7,4,7,2,…]

Bit-pack: 4 бит/offset → ~4 бит/значение

ORC RLEv2 Delta

base=1704067200, base_Δ=62

ΔΔ = [-3, +3, -5, …] → zigzag

Bit-pack ΔΔ: 4 бит/значение

DuckDB FOR + BitPacking

Delta → Δ = [62, 59, 62, 57, …]

FOR: base=55, offsets=[7, 4, 7, 2, …]

SIMD bit-pack: 4 бит/значение, vectorized decode

FastLanes FOR + Transposed BP

FOR на блоке 1024 значений

Transposed Layout (1024-bit virtual SIMD)

Data-parallel bit-pack: > 100B int/sec decode

Все четыре конвейера достигают ~4 бит/значение на этих данных. Но скорость декодирования различается на порядок — из-за bit-packing layout.

Bit-Packing: scalar vs transposed layout

Bit-packing — финальный шаг в каждом конвейере. Он определяет, как маленькие числа (offsets, дельты) упаковываются в байты. И здесь layout — порядок упаковки бит — критически влияет на производительность:

Scalar vs Transposed bit-packing layout

Scalar layout (Parquet, ORC)

Последовательная упаковка

Проблема: cross-word extraction

Transposed layout (FastLanes)

Interleaved по SIMD-лейнам

Параллельная распаковка

FastLanes transposed layout — главная инновация для скорости декодирования. Обычный (scalar) bit-packing достигает ~5–15 миллиардов int/sec на современном CPU. FastLanes transposed layout — >100 миллиардов int/sec на scalar коде, и ~140 миллиардов с AVX-512. Разница — в автовекторизации: компилятор видит простые побитовые операции над массивами и генерирует SIMD-код автоматически.

Patched Base: FOR с обработкой outliers

ORC предлагает уникальную комбинацию — Patched Base (RLEv2 подкодировка 10). Это FOR, который обрабатывает outliers отдельно, вместо того чтобы расширять bit-width для всех значений:

Patched Base: FOR + patches для outliers

Проблема: один outlier портит весь блок

base=100, reduced_width=3 бит

Основной: [0,2,1,3, 0*,0,4,2] (3 бит)

Patches: [(pos=4, val=999899)]

Patched Base — уникальная подкодировка ORC, не имеющая аналога в Parquet. Она особенно эффективна для данных с редкими выбросами: sensor data с аномалиями, financial data с extreme values, log data с occasional spikes.

Zigzag: кодирование знаковых чисел

Delta encoding производит знаковые числа (дельты могут быть отрицательными). Стандартное two’s complement представление неэффективно для varint/bit-packing: -1 в int64 = 0xFFFFFFFFFFFFFFFF = 64 бита.

Zigzag-кодирование решает это, отображая маленькие signed числа на маленькие unsigned:

Zigzag: маппинг signed → unsigned для bit-packing

Формула

Маппинг

Где используется

Сводная таблица: кто что использует

Кросс-форматное сравнение integer encoding pipelines

Parquet

ORC

DuckDB

FastLanes

BtrBlocks

FOR

Внутри delta

Patched Base

Отдельный

Core primitive

В каскаде

Delta

DELTA_BINARY_PACKED

RLEv2 Delta (11)

Delta сегмента

Via expressions

Нет отдельного

Bit-Packing

Scalar

SIMD-aligned

Transposed

SIMD

Outlier handling

Нет

Patched Base

Нет

Exception list

Frequency enc.

Decode скорость

~5–10B/s

~3–8B/s

~20–50B/s

>100B/s

~30–60B/s

Ключевые выводы

FOR, Delta и Bit-Packing — три фундаментальных примитива, которые комбинируются в разном порядке: Parquet = Delta → FOR → scalar BP, ORC = ΔΔ → zigzag → scalar BP, DuckDB = Delta → FOR → SIMD BP, FastLanes = FOR → transposed BP.
Bit-packing layout определяет скорость decode. Scalar (Parquet/ORC): ~5–10B int/sec. Transposed (FastLanes): >100B int/sec. Разница 10x — из-за автовекторизации.
Patched Base (ORC) — единственный outlier-aware примитив среди файловых форматов. Один outlier не разрушает компрессию всего блока.
Zigzag-кодирование обязательно для delta с signed дельтами: превращает -1 из 64-бит числа в 1-бит число. Используется в ORC, Parquet, DuckDB, Protocol Buffers.
Delta-of-delta (ORC) vs Delta + FOR (Parquet) — два подхода к одной задаче. ΔΔ лучше для строго-регулярных данных (timestamps с постоянным шагом). Delta + FOR — для данных с переменным, но ограниченным диапазоном дельт.
FastLanes Unified Transposed Layout — главная инновация в скорости: переупорядочивание бит позволяет компилятору автоматически генерировать SIMD-код без платформо-специфичных intrinsics.