Lance Architecture

Parquet стал де-факто стандартом колоночного хранения, но его архитектура 2013 года имеет фундаментальные ограничения для современных workload’ов: произвольный доступ к строкам требует полного чтения page, нет встроенного векторного поиска, нет нативного версионирования данных. Lance — это Rust-based, Arrow-native формат, разработанный компанией LanceDB специально для ML/AI workload’ов, где эти ограничения критичны.

Проект развивается с 2022 года. Текущий формат — Lance v2 (апрель 2025, arxiv 2504.15247). В продакшене у LanceDB Cloud на петабайтных масштабах — multimodal GenAI компании, платформы для self-driving cars, e-commerce рекомендательные системы. Экосистема: PyArrow, Pandas, DuckDB, Polars, PyTorch.

NOTE

В Модуле 07 мы разобрали Apache Arrow — in-memory columnar формат с zero-copy. Lance строится на Arrow как фундаменте: все данные при чтении возвращаются как Arrow RecordBatch без копирования. Это ключевое отличие от Parquet, который при чтении декодирует данные из собственного формата в Arrow.

Почему Parquet недостаточен для ML

Parquet оптимизирован для аналитических scan’ов: sequential read колонок с predicate pushdown. Но ML-pipeline’ы требуют другой паттерн доступа:

Паттерны доступа: Analytics vs ML

Analytics Workload

Доступ

Parquet = идеален

ML / AI Workload

Доступ

Parquet = неэффективен

Три конкретные проблемы Parquet для ML:

Random access = full page decode. Parquet хранит данные в pages (~64KB). Чтобы прочитать строку #42, нужно найти row group, загрузить page, декодировать весь page (dictionary → RLE → значение). Для mini-batch из 1000 случайных строк — потенциально 1000 page read + decode. Lance решает это через sliceable encodings — прямой доступ к offset строки без декодирования page.
Нет векторного поиска. ML-pipeline’ы требуют nearest-neighbor search по embedding-векторам (CLIP, sentence-transformers). Parquet не хранит векторные индексы — нужен отдельный vector database (Pinecone, Weaviate). Lance встраивает IVF-PQ и HNSW-индексы прямо в data fragments.
Нет версионирования. Воспроизводимость ML-экспериментов требует возврата к конкретной версии датасета. Parquet — stateless файл. Lance добавляет append-only transaction log с version snapshots — аналог Delta Lake, но на уровне формата.

Фрагментная модель хранения

Lance организует данные в фрагменты — самодостаточные единицы хранения размером ~64 МБ. Каждый фрагмент содержит подмножество строк датасета:

Фрагментная модель Lance

Lance Dataset (директория)

Fragment 0

Fragment 1

Fragment N

Каждый фрагмент содержит:

Структура фрагмента Lance

Fragment (единица хранения)

Data Files

Deletion Vector

ANN Index

TIP

Фрагментная модель — прямая аналогия с FileGroup в Hudi (Модуль 13). Но в Hudi FileGroup содержит base file + log files (MOR), а Lance fragment — это колоночные данные + deletion vector + опциональный ANN индекс. Фрагменты в Lance иммутабельны — update создаёт новый deletion vector, не новый data file.

Manifest и Version Log

Lance использует двухуровневую metadata-структуру: manifest описывает текущее состояние датасета, а version log хранит историю всех manifest’ов:

Manifest → Version Log: двухуровневая metadata

Version Log (append-only)

Version 1

Version 2

Version 3

Manifest — это protobuf-сериализованный файл, содержащий:

Содержимое Manifest

Schema

Fragment List

Version Metadata

Физическая структура на диске

Lance dataset — это директория с фиксированной структурой:

Структура директории Lance dataset

dataset.lance/

data/

_versions/

_indices/

Deletion Vectors и компакция

Lance использует deletion vectors для soft-delete — аналог deletion vectors в Delta Lake 3.x и Apache Iceberg v2:

Deletion Vector: soft delete

DELETE WHERE id = 42

Fragment 0

Deletion Vector

UPDATE id=42 SET name=…

Старый фрагмент

Новый фрагмент

WARNING

Deletion vectors накапливаются: после 100 delete операций у фрагмента будет 100 строк в deletion vector. Чтение замедляется (фильтрация на каждой строке). Компакция решает проблему: перезаписывает фрагмент без удалённых строк, обнуляя deletion vector.

Компакция

Компакция в Lance — это фоновый процесс, который физически удаляет строки из deletion vectors и оптимизирует layout фрагментов:

Компакция: до и после

До компакции

Fragment 0

Fragment 1

Fragment 2

После компакции

Fragment 3 (новый)

Fragment 2 (без изменений)

Transaction Log и Time Travel

Append-only version log обеспечивает MVCC (Multi-Version Concurrency Control): каждая операция (append, delete, merge, create_index) создаёт новую версию, не изменяя предыдущие:

Time Travel: навигация по версиям

Version 1

append

Version 2

delete

Version 3

Python API для time travel:

import lance

# Открыть текущую версию
ds = lance.dataset("s3://bucket/embeddings.lance")
print(f"Current: version {ds.version}, {ds.count_rows()} rows")

# Открыть конкретную версию
ds_v1 = lance.dataset("s3://bucket/embeddings.lance", version=1)
print(f"V1: {ds_v1.count_rows()} rows")

# Список всех версий
for v in ds.list_versions():
 print(f" v{v['version']}: {v['timestamp']} — {v['metadata']}")

NOTE

Time travel в Lance — лёгкий: manifest’ы занимают килобайты, data files переиспользуются. В отличие от Delta Lake, где time travel требует хранения всех исторических Parquet-файлов, Lance хранит только manifest’ы + deletion vectors. Очистка старых версий: ds.cleanup_old_versions(older_than=timedelta(days=30)).

Сравнение с Lakehouse-форматами

Lance решает задачи, которые lakehouse-форматы решают иначе или не решают вовсе:

Lance vs Delta Lake / Iceberg / Hudi

Свойство

Lance

Delta Lake

Iceberg

Hudi

Unit

Random

Vector

Version

Write Path и Read Path

Write Path: append + update

Append (новые данные)

1. Encode

2. Write Fragment

3. Commit

Update (изменение строк)

1. Find rows

2. Deletion Vector

3. Append new

Read Path: scan + random access

Full Scan (аналитика)

1. Manifest

2. Read fragments

Random Access (ML batch)

1. Row ID → Fragment

2. Direct decode

Конкурентный доступ

Lance поддерживает optimistic concurrency control — несколько writer’ов могут работать с dataset’ом одновременно:

Optimistic Concurrency: конкурентные writer'ы

Writer A

Writer B

atomic commit (file rename)

Результат

TIP

Conflict resolution в Lance автоматический для большинства случаев: если writer’ы работают с разными фрагментами — конфликта нет. Конфликт возникает только при одновременном update одних и тех же строк. В ML-pipeline’ах это редкость: обычно один writer append’ит новые данные, другой обновляет metadata или создаёт индексы.

Итоги

Lance — это не “ещё один Parquet”. Это формат, спроектированный для другого набора задач:

Ключевые свойства Lance

Фрагменты

Version Log

Deletion Vectors

Arrow-Native

В следующем уроке мы разберём формат Lance v2 — “контейнерный формат” без встроенной системы типов и фиксированных кодировок, который позволяет адаптировать физический layout данных под конкретные workload’ы.

Lance Architecture

Почему Parquet недостаточен для ML

Фрагментная модель хранения

Manifest и Version Log

Физическая структура на диске

Deletion Vectors и компакция

Компакция

Transaction Log и Time Travel

Сравнение с Lakehouse-форматами

Write Path и Read Path

Конкурентный доступ

Итоги

Закончили урок?