Lance ML Features

В предыдущих уроках мы разобрали архитектуру Lance и формат v2. Теперь — зачем это всё: ML/AI возможности, ради которых Lance создавался. Три ключевых feature: 100x random access для training data loading, встроенный векторный поиск для RAG/retrieval, и мультимодальные данные (изображения, видео, 3D) в одном датасете.

NOTE

Lance — не замена Parquet для аналитики. Parquet остаётся лучшим выбором для SQL-запросов, OLAP, BI. Lance оптимизирован для ML-специфичных workload’ов: random sampling, vector search, dataset versioning, multimodal storage. Два формата дополняют друг друга.

100x Random Access

ML-модели обучаются на случайных mini-batch’ах: DataLoader выбирает N случайных строк из датасета, формирует batch, отправляет на GPU. Качество обучения зависит от истинной случайности выборки — если DataLoader всегда берёт последовательные строки, модель переобучается на локальных паттернах.

ML DataLoader: random mini-batch

DataLoader(shuffle=True, batch_size=256)

Parquet Backend

Workaround

Lance Backend

True Random

Sliceable Encodings

Механизм 100x ускорения — sliceable encodings: кодировки, которые позволяют прочитать произвольное значение без декодирования предшествующих:

Sliceable Encoding: прямой доступ по offset

Fixed-Width Slicing

Формула

Variable-Width Slicing

Offsets Array

Benchmark: random access 10,000 строк из 100M-строчного датасета:

Benchmark: Random Access 10K rows / 100M dataset

Parquet

Lance v2

Ускорение

Встроенный Vector Search

Lance — единственный колоночный формат со встроенным векторным поиском. Индексы хранятся рядом с данными в тех же фрагментах:

Vector Index: IVF-PQ и HNSW

IVF-PQ Index

IVF: кластеры

PQ: квантование

HNSW Index

Multi-level Graph

Greedy Search

Фрагментный ANN индекс

Уникальная особенность Lance: векторные индексы привязаны к фрагментам, а не к глобальному dataset’у:

Per-Fragment ANN Index

Глобальный ANN (Pinecone, Milvus)

Проблема

Lance: per-fragment ANN

Fragment 0

Fragment 1

Fragment 2

vector search query

Merge Results

TIP

Per-fragment индексация — архитектурное решение, аналогичное per-segment индексам в Lucene/Elasticsearch. Преимущество: append = O(new_fragment), не O(dataset). Недостаток: поиск по N фрагментам медленнее, чем по одному глобальному индексу. На практике Lance компенсирует это параллельным поиском и merging.

Мультимодальные данные

Lance нативно поддерживает хранение разнородных данных в одном dataset’е — текст, изображения, видео, 3D модели рядом с embedding-векторами:

Multimodal Dataset: один Lance dataset

Multimodal Dataset

image (binary)

caption (string)

embedding (float32[512])

metadata (struct)

Сравнение с альтернативами:

Multimodal Storage: Lance vs альтернативы

Аспект

Lance

Parquet + S3

Vector DB

Data Co-location

Version Control

Training Access

Zero-Copy Arrow Integration

Все операции чтения в Lance возвращают данные как Arrow RecordBatch без копирования:

Zero-Copy Pipeline: Lance → Arrow → ML Framework

Lance Data File (disk)

memory-map / read

Arrow RecordBatch (zero-copy)

Pandas

DuckDB

PyTorch

Polars

LanceDB: Database Layer

LanceDB — это vector database, построенная на Lance формате. Она добавляет database-level абстракции поверх raw format:

LanceDB Architecture

LanceDB (serverless, embedded)

Tables

Vector Search

Full-Text Search

Storage

Python API Walkthrough

Практический пример: создание мультимодального датасета с vector search:

import lance
import pyarrow as pa
import numpy as np

# === Создание датасета ===
schema = pa.schema([
 pa.field("id", pa.int64()),
 pa.field("text", pa.utf8()),
 pa.field("embedding", pa.list_(pa.float32(), 384)), # sentence-transformers
 pa.field("category", pa.utf8()),
 pa.field("created_at", pa.timestamp("ms")),
])

# Данные как Arrow Table
n_rows = 100_000
table = pa.table({
 "id": range(n_rows),
 "text": [f"Document {i}: ..." for i in range(n_rows)],
 "embedding": [np.random.randn(384).astype(np.float32).tolist() for _ in range(n_rows)],
 "category": np.random.choice(["tech", "science", "business"], n_rows).tolist(),
 "created_at": pa.array([datetime.now()] * n_rows, type=pa.timestamp("ms")),
})

# Записать Lance dataset
ds = lance.write_dataset(table, "s3://bucket/documents.lance")
print(f"Written: {ds.count_rows()} rows, {len(ds.get_fragments())} fragments")

# === Чтение и random access ===
ds = lance.dataset("s3://bucket/documents.lance")

# Full scan → Arrow Table
full = ds.to_table() # zero-copy Arrow

# Column projection
texts = ds.to_table(columns=["id", "text"])

# Filter (predicate pushdown)
tech_docs = ds.to_table(
 columns=["id", "text", "embedding"],
 filter="category = 'tech'"
)

# Random access по row IDs
batch = ds.take([42, 7891, 3, 55000]) # O(1) per row
print(f"Random batch: {batch.num_rows} rows")

# Pandas integration (zero-copy для numeric)
df = ds.to_pandas()

# === Vector Search ===
# Создание ANN индекса
ds.create_index(
 "embedding",
 index_type="IVF_PQ",
 num_partitions=256, # IVF clusters
 num_sub_vectors=16, # PQ sub-vectors
)

# kNN search
query_vector = np.random.randn(384).astype(np.float32)
results = ds.search(query_vector) \
 .limit(10) \
 .nprobes(20) \
 .to_pandas()

# Hybrid: vector search + metadata filter
results = ds.search(query_vector) \
 .where("category = 'tech'") \
 .limit(10) \
 .to_pandas()

print(results[["id", "text", "_distance"]])

# === Versioning ===
# Append новых данных
new_data = pa.table({"id": [100_000], "text": ["New doc"], ...})
lance.write_dataset(new_data, "s3://bucket/documents.lance", mode="append")

# Time travel
ds_v1 = lance.dataset("s3://bucket/documents.lance", version=1)
print(f"V1: {ds_v1.count_rows()} rows")

# Delete + компакция
ds.delete("category = 'spam'")
ds.compact_files() # Физическое удаление
ds.cleanup_old_versions() # Удалить старые manifest'ы

WARNING

create_index() блокирует dataset на время построения индекса. Для больших датасетов (100M+ vectors) процесс занимает минуты-часы. LanceDB Cloud решает это через background index building + incremental updates. В open-source Lance: планируйте index build вне production read path.

RAG Pipeline с LanceDB

Типичный RAG (Retrieval-Augmented Generation) pipeline с Lance:

RAG Pipeline: LanceDB + LLM

User Query

encode

Embedding Model

LanceDB Search

context

LLM (Claude, GPT)

Итоги

Lance для ML — не просто “быстрый формат”. Это платформа для ML данных:

Lance ML Features: summary

Random Access