Vortex Architecture

Если Lance атакует Parquet со стороны ML workload’ов (random access, vector search), то Vortex атакует Parquet в его родной области — аналитических scan’ах. Vortex предлагает: Parquet-уровень компрессии, 10-20x быстрее сканирование, и главное — compute на сжатых данных без декомпрессии.

Проект создан компанией SpiralDB, передан в Linux Foundation AI & Data в августе 2025. Backers: Microsoft, Snowflake, Palantir, NVIDIA. Файловый формат стабилен с v0.36.0. С января 2026 — core extension в DuckDB (не community, а official).

NOTE

Vortex — это Rust-реализация, без нативного Python SDK. Основной способ работы — через DuckDB extension: INSTALL vortex; LOAD vortex; SELECT * FROM read_vortex('file.vortex');. Это принципиальное решение: вместо Python-wrapper’а — интеграция с query engine, который понимает compressed compute.

Проблема: декомпрессия как bottleneck

Parquet компрессирует данные (Snappy, ZSTD, LZ4) и декомпрессирует при чтении. Для каждого запроса pipeline выглядит так:

Parquet Read Path: decode → decompress → compute

SELECT SUM(amount) WHERE status = 'shipped'

1. Read compressed

2. Decompress

3. Decode encodings

4. Compute

Vortex устраняет шаги 2 и 3: compute выполняется прямо на сжатых данных. Вместо decompress → compute — compressed compute:

Vortex: compressed compute (без декомпрессии)

SELECT SUM(amount) WHERE status = 'shipped'

1. Read encoded

2. Compressed Compute

Результат: 5-10x быстрее Меньше memory footprint

Extensible Encodings

Ключевой архитектурный принцип Vortex: кодировки — first-class расширяемые объекты, а не фиксированный набор:

Extensible Encodings: Parquet vs Vortex

Parquet: фиксированные

Набор

Vortex: pluggable

Набор

Каталог встроенных кодировок

Vortex включает реализации новейших исследований в области кодирования данных:

Встроенные кодировки Vortex

Кодировка

Тип данных

Описание

FastLanes

ALP

FSST

Dictionary

RLE

BitPacked

Layout Tree

Vortex организует данные в layout tree — дерево из трёх базовых типов layouts, которые компонуются рекурсивно:

Layout Tree: три базовых layout'а

Layout Tree (рекурсивное дерево)

Struct Layout

Chunked Layout

Flat Layout

Пример layout tree для таблицы с 3 колонками и 2 chunks:

Пример: Layout Tree для orders table

Chunked (root)

Chunk 0

order_id

amount

status

Chunk 1

order_id

amount

status

Cascading Compression

Vortex применяет каскадную компрессию — encodings вкладываются друг в друга:

Cascading Compression: вложенные encodings

String column: 1M строк, 5 unique

Step 1: Dictionary

Dictionary Encoding

Step 2: BitPack indices

BitPacked Encoding

Step 3: FastLanes pack

FastLanes Encoding

8MB → ~375KB (21x compression) SIMD decode: FastLanes unpack Compressed filter: O(dict_size)

TIP

Каскадная компрессия — ключевое отличие от Parquet, где dictionary encoding и RLE — “плоские”, не вложенные. В Parquet dictionary-encoded колонка хранит indices как RLE-encoded int32 — два уровня. Vortex допускает произвольную глубину: Dictionary → BitPack → FastLanes → lane permutation. Каждый уровень добавляет сжатие или ускоряет decode.

BtrBlocks-style Codec Selection

Vortex использует подход, вдохновлённый BtrBlocks (SIGMOD 2023): автоматический выбор оптимального каскада кодировок для каждого chunk’а:

Codec Selection Pipeline

Chunk: 64K строк

sample + analyze

Data Profile

select cascade

Float, 2 decimals

Int64, sorted

String, low card

File Structure

Vortex файл организован как FlatBuffer-описанная структура:

Vortex File Structure

Vortex File (.vortex)

Data Sections

Layout Tree

Footer

WASM Decoders

Для forward compatibility Vortex встраивает WASM decoders в файлы:

WASM Decoder: self-describing файлы

Без WASM: reader must know all

Проблема

С WASM: decoder в файле

Решение

WARNING

WASM decoders — forward-looking feature. В текущей версии (v0.36+) WASM decoders описаны в спецификации, но практическое использование ограничено built-in encodings. Основная ценность — для долгосрочного хранения: файлы, записанные сегодня, будут читаемы через 10 лет без обновления reader’а.

DuckDB Integration

С января 2026 Vortex — core extension в DuckDB:

DuckDB + Vortex: query pipeline

SELECT region, SUM(revenue) FROM read_vortex('data.vortex') WHERE year = 2025 GROUP BY region

1. Layout Tree Read

2. Compressed Compute

3. Aggregate

Arrow output → DuckDB result

Использование в DuckDB:

-- Установить и загрузить extension
INSTALL vortex;
LOAD vortex;

-- Чтение Vortex файлов
SELECT * FROM read_vortex('orders.vortex');

-- Запрос с predicate pushdown + compressed compute
SELECT region, SUM(revenue)
FROM read_vortex('s3://bucket/orders.vortex')
WHERE year = 2025
GROUP BY region;

-- Конвертация Parquet → Vortex
COPY (SELECT * FROM read_parquet('orders.parquet'))
TO 'orders.vortex' (FORMAT VORTEX);

Linux Foundation Governance

Vortex передан в LF AI & Data для обеспечения vendor-neutral развития:

Governance: LF AI & Data

Backers

Governance

Ecosystem

Итоги

Vortex — принципиально другой подход к колоночному формату:

Ключевые принципы Vortex

Extensible

Cascading

Compressed Compute

Ecosystem

В следующем уроке мы детально разберём compressed compute — как Vortex выполняет filter, aggregate и join без декомпрессии, включая late materialization, GPU decode path и TPC-H бенчмарки.

Vortex Architecture

Проблема: декомпрессия как bottleneck

Extensible Encodings

Каталог встроенных кодировок

Layout Tree

Cascading Compression

BtrBlocks-style Codec Selection

File Structure

WASM Decoders

DuckDB Integration

Linux Foundation Governance

Итоги

Закончили урок?