FORMAT Clause: Multi-format I/O

ClickHouse нативно читает и пишет десятки форматов без внешних конвертеров. Один и тот же движок обрабатывает Parquet, ORC, Apache Arrow, Avro, CSV, JSON и многое другое — через единый синтаксис FORMAT.

FORMAT для INSERT

При загрузке данных из внешнего источника указывается формат входного потока:

-- INSERT из stdin-pipe (clickhouse-client)
-- echo '{"id":1,"name":"Alice"}' | clickhouse-client --query="INSERT INTO t FORMAT JSONEachRow"

-- INSERT из S3 (Parquet файл)
INSERT INTO events
SELECT *
FROM s3('s3://bucket/events/2024-01/*.parquet', 'key', 'secret', 'Parquet');

-- INSERT с явным FORMAT (бинарный pipe через HTTP)
-- curl -X POST 'http://localhost:8123/?query=INSERT+INTO+t+FORMAT+Arrow' --data-binary @file.arrow

FORMAT для SELECT

При экспорте данных указывается формат выходного потока:

-- LINE-DELIMITED JSON (каждая строка — отдельный JSON-объект)
SELECT user_id, event_type, ts
FROM events
FORMAT JSONEachRow;

-- CSV для Excel / pandas
SELECT *
FROM events
FORMAT CSV;

-- Apache Arrow IPC (для zero-copy с Python/Spark)
SELECT *
FROM events
FORMAT Arrow;

-- Native бинарный (server-to-server, самый быстрый)
SELECT *
FROM events
FORMAT Native;

Сравнение ключевых форматов

Форматы ClickHouse: read/write/use case

Формат

Read

Write

Use case

Parquet

да

S3 data lake

ORC

да

Hadoop-экосистема

Arrow

да

Zero-copy IPC

Avro

да

Schema evolution

CSV

да

Universal exchange

JSONEachRow

да

HTTP API / streaming

Native

да

Server-to-server

AvroConfluent: Kafka + Schema Registry

Для Kafka с Confluent Schema Registry используется специальный формат AvroConfluent, который декодирует Magic Byte и Schema ID в начале каждого Kafka-сообщения:

-- Kafka Engine с AvroConfluent format
CREATE TABLE events_kafka_queue
(
    user_id    UInt64,
    event_type String,
    ts         DateTime
)
ENGINE = Kafka
SETTINGS
    kafka_broker_list    = 'kafka:9092',
    kafka_topic_list     = 'events',
    kafka_group_name     = 'clickhouse_consumer',
    kafka_format         = 'AvroConfluent',
    format_avro_schema_registry_url = 'http://schema-registry:8081';

AvroConfluent автоматически:

Читает Magic Byte (0x00) + Schema ID (4 bytes) из начала каждого сообщения
Загружает схему из Schema Registry по ID
Десериализует Avro payload в колонки ClickHouse

Ключевые выводы

ClickHouse читает и пишет десятки форматов через единый FORMAT clause — без внешних конвертеров.
Parquet — стандарт для S3 data lake storage: columnar, встроенная схема, column pruning, predicate pushdown.
AvroConfluent — специальный формат для Kafka с Confluent Schema Registry: декодирует Magic Byte и загружает схему автоматически.
Arrow — для zero-copy IPC между ClickHouse и Python/DataFusion/DuckDB: минимальные overhead.
JSONEachRow — стандарт для HTTP API ClickHouse: line-delimited JSON, streaming-friendly, curl-compatible.
Native — самый быстрый формат: используется clickhouse-client и server-to-server коммуникацией (port 9000).

Parquet: row groups, column chunks и физическая организация файла Arrow Flight: zero-copy передача данных между системами