Changelog Producer

В Уроке 01 мы видели, что SST-файлы в Paimon хранят системную колонку _VALUE_KIND, кодирующую тип операции: +I (insert), -U (update before), +U (update after), -D (delete). В Уроке 02 — что merge engine’ы используют эти маркеры для merge. Теперь ключевой вопрос: как Paimon генерирует корректный changelog для downstream-потребителей?

Changelog — поток CDC-событий, описывающий каждое изменение в таблице. Для стриминговых pipeline’ов это фундамент: Flink job читает changelog одной таблицы и генерирует changelog для следующей.

Зачем нужен changelog?

Streaming Pipeline: changelog как связующее звено

Kafka CDC Source

Paimon Table A

changelog

Flink Aggregation

changelog

Paimon Table B

Проблема: не каждый changelog одинаково полезен. Для операторов агрегации (SUM, COUNT) нужен полный changelog с retraction-сообщениями: -U (вычесть старое значение) + +U (прибавить новое). Без ретракции SUM будет расти бесконечно вместо корректного обновления.

_row_kind: 4 типа CDC-событий

Paimon кодирует тип операции в колонке _row_kind (при чтении) и _VALUE_KIND (при хранении):

4 типа CDC-событий в Paimon

+I (INSERT)

-U (UPDATE BEFORE)

+U (UPDATE AFTER)

-D (DELETE)

Полный changelog — это поток, содержащий все 4 типа событий. Неполный changelog — только +I и +U (без retraction). Тип changelog определяется режимом changelog producer.

4 режима Changelog Producer

Paimon предлагает 4 режима, отличающихся полнотой changelog и стоимостью его генерации:

4 режима Changelog Producer

none

input

lookup

full-compaction

none

CREATE TABLE batch_only_table (
 id BIGINT,
 value STRING,
 PRIMARY KEY (id) NOT ENFORCED
) WITH (
 'changelog-producer' = 'none'
);

Режим по умолчанию для batch-таблиц. Стриминговое чтение вернёт все записи из новых snapshot’ов, но без _row_kind. Downstream-операторы не могут различить INSERT и UPDATE — агрегации будут некорректными.

input

Input Mode: проброс входящего changelog

Debezium CDC: op=u before: amount=50 after: amount=75

Flink: convert to _row_kind

-U

Paimon stores + produces changelog

Changelog

Когда использовать: источник уже генерирует полный CDC (Debezium, Maxwell, Canal). Нулевой overhead — Paimon не выполняет дополнительных lookup’ов.

Ограничение: если источник отправляет только INSERT-подобные события (например, обновление как новый INSERT без retraction), changelog будет неполным.

lookup

Lookup Mode: генерация полного changelog

Входящая запись: order_id=100, amount=75 (без старого значения)

1. Lookup в LSM-дереве

LSM Lookup: order_id=100 Найдено: amount=50 (старое значение)

2. Генерация retraction

-U (сгенерирован)

+U (входящая)

Changelog

Когда использовать: источник не содержит retraction (только новые значения), но downstream нуждается в полном changelog для агрегаций. Типичный сценарий: API-запись, ETL с INSERT OVERWRITE-семантикой.

Стоимость: один lookup в LSM-дереве на каждую запись. Для write-heavy workload’ов (>100K записей/сек) overhead может быть значительным.

CREATE TABLE orders (
 order_id BIGINT,
 amount DECIMAL(10, 2),
 status STRING,
 PRIMARY KEY (order_id) NOT ENFORCED
) WITH (
 'changelog-producer' = 'lookup',
 'merge-engine' = 'deduplicate'
);

TIP

Lookup mode использует changelog-producer.lookup-wait — время ожидания компакции перед lookup. По умолчанию 0 (lookup сразу). Если данные на нижних уровнях LSM-дерева ещё не скомпактированы, lookup может вернуть устаревшее значение. Для критичных pipeline’ов: настройте changelog-producer.compaction-interval для более частой компакции.

full-compaction

Full-Compaction Mode: changelog из diff'а компакции

До компакции

Новые записи

full compaction

Merge + Diff вычисление

Changelog

Snapshot N+1

Когда использовать: write-heavy workload, где lookup overhead неприемлем, но near-real-time changelog достаточен. Задержка changelog = интервал компакции.

Стоимость: нет overhead при записи. Changelog генерируется как побочный продукт компакции — “бесплатно” с точки зрения дополнительных I/O.

CREATE TABLE metrics (
 metric_id STRING,
 value DOUBLE,
 ts TIMESTAMP,
 PRIMARY KEY (metric_id) NOT ENFORCED
) WITH (
 'changelog-producer' = 'full-compaction',
 'full-compaction.delta-commits' = '3'
);

NOTE

full-compaction.delta-commits определяет, через сколько delta-коммитов (snapshot’ов) запускается full compaction. Значение 3 означает: каждые 3 snapshot’а = одна full compaction = один changelog batch. Меньше = чаще changelog, но больше I/O. Больше = реже changelog, но меньше overhead.

Сравнение режимов

4 режима: полнота vs стоимость

none

input

lookup

full-compaction

Режим	Полный changelog	Overhead записи	Задержка	Best for
none		0	N/A	Batch-only таблицы
input	Если источник полный	0	Мгновенная	CDC (Debezium)
lookup	Всегда	1 lookup/запись	Мгновенная	Любой источник, real-time
full-compaction	Всегда	0	Интервал компакции	Write-heavy, near-RT

Changelog нормализация

Некоторые downstream-операторы (например, Flink GROUP BY с UDAF) требуют нормализованный changelog: каждый UPDATE представлен как пара -U/+U, каждый INSERT — как +I, каждый DELETE — как -D. Paimon автоматически нормализует changelog при стриминговом чтении:

Changelog Normalization: raw → normalized

Raw changelog (из sorted runs)

normalization

До нормализации

После нормализации

NOTE

Нормализация происходит на стороне reader, не writer. Paimon хранит events as-is в SST-файлах. При стриминговом чтении, reader конструирует normalized changelog, добавляя недостающие -U events из предыдущего состояния таблицы. Для changelog-producer = 'lookup' и 'full-compaction' нормализация уже встроена — они генерируют полные пары.

Streaming Pipeline Patterns

Pattern 1: CDC → Paimon → Aggregation

Pattern 1: CDC Pipeline с changelog

MySQL + Debezium

CDC

ODS Table (input mode)

changelog stream

Flink: GROUP BY user_id SUM(amount)

changelog

DWS Table (aggregates)

Pattern 2: API → Paimon → Streaming Join

Pattern 2: Lookup Mode для API-источника

REST API (только новые значения)

Orders Table (lookup mode)

full changelog

Flink: orders JOIN users

Enriched Orders

Pattern 3: High-Volume → Near-RT Analytics

Pattern 3: Full-Compaction для high-volume

IoT Sensors (1M+ events/sec)

Sensor Table (full-compaction)

changelog (каждые 30-60 сек)

Flink: AVG, MAX per region

Dashboard (near-RT)

Сравнение с CDC в других форматах

Changelog: Paimon vs Hudi vs Delta Lake

Paimon

Hudi

Delta Lake

Аспект	Paimon	Hudi	Delta Lake
Changelog в storage	(_VALUE_KIND)	Частично (log files)	CDF-файлы (опционально)
Streaming native	(producer modes)	Incremental query	readChanges() batch
Retraction (-U)	(lookup/full-compaction)	нативно	update_preimage
Overhead	0 (input) — 1 lookup (lookup)	overhead	Удвоение записи (CDF)
Downstream агрегации	Полная поддержка	Ограниченная	Ограниченная

TIP

Changelog producer — главное конкурентное преимущество Paimon. Ни один другой формат не предлагает 4 встроенных режима генерации changelog с нативной нормализацией. Для streaming-first архитектур (Flink → Paimon → Flink → Paimon) это фундамент.

Ключевые выводы

_row_kind кодирует 4 типа CDC-событий: +I (insert), -U (update before), +U (update after), -D (delete)
4 режима changelog producer: none (batch), input (проброс), lookup (LSM lookup), full-compaction (diff при компакции)
Полный changelog с retraction (-U/+U пары) необходим для корректных стриминговых агрегаций
lookup — универсальный, но дорогой; full-compaction — дешёвый, но с задержкой; input — бесплатный, но зависит от источника
Нормализация происходит на стороне reader — Paimon хранит raw events, а нормализует при стриминговом чтении
Paimon — единственный из 4 форматов (Delta, Iceberg, Hudi, Paimon) с нативным changelog producer как первоклассной концепцией

Changelog Producer

Зачем нужен changelog?

_row_kind: 4 типа CDC-событий

4 режима Changelog Producer

none

input

lookup

full-compaction

Сравнение режимов

Changelog нормализация

Streaming Pipeline Patterns

Pattern 1: CDC → Paimon → Aggregation

Pattern 2: API → Paimon → Streaming Join

Pattern 3: High-Volume → Near-RT Analytics

Сравнение с CDC в других форматах

Ключевые выводы

Закончили урок?