Проектирование Ingestion Pipeline

Первый deliverable capstone-проекта — проектирование ingestion pipeline: от OLTP-базы через Kafka до landing zone в object storage. Ключевые решения: какой serialization формат, как настроить Schema Registry, какая стратегия schema evolution.

Требования из обзора проекта:

10K events/sec steady, 50K peak (Black Friday)
Schema меняется ~2 раза в месяц
Consumer lag SLA: не более 5 минут
Три типа источников: CDC (PostgreSQL), clickstream, external APIs

Анатомия CDC-события

Прежде чем выбирать формат, разберём что именно мы сериализуем:

Структура CDC-события от Debezium

Debezium Change Event

before

after

source

ts_ms

NOTE

Debezium по умолчанию генерирует JSON. Это удобно для debugging, но в production неприемлемо: JSON не имеет schema enforcement, занимает в 3-5 раз больше места, парсинг медленнее. Переход на бинарный формат — первый шаг оптимизации. См. JSON limitations из Модуля 06.

Serialization: Avro vs Protobuf для CDC

Для Kafka-based CDC pipeline два реальных кандидата: Apache Avro и Protocol Buffers. Сравним их в контексте нашего сценария:

Avro vs Protobuf для CDC pipeline

Apache Avro

Преимущества для CDC

Недостатки

Protocol Buffers

Преимущества для CDC

Недостатки

Schema Registry: конфигурация

Schema Registry — центральный компонент нашего ingestion pipeline. Он обеспечивает контракт между producers (Debezium) и consumers (Spark/Flink):

Schema Registry в CDC pipeline

Debezium (Producer)

Clickstream (Producer)

Schema Registry

Schema ID → Full schema

Spark (Consumer)

Flink (Consumer)

Compatibility Mode

Ключевая настройка Schema Registry — compatibility mode. Для нашего CDC сценария:

Compatibility modes для capstone

BACKWARD (рекомендация)

FORWARD

FULL

WARNING

Подробный разбор compatibility modes — в Модуле 10, Урок 02. Здесь мы применяем эти правила к нашему сценарию, а не повторяем теорию.

Рекомендация: BACKWARD compatibility для всех CDC subjects:

PostgreSQL ALTER TABLE ADD COLUMN → Avro schema добавляет nullable field → BACKWARD compatible
PostgreSQL ALTER TABLE DROP COLUMN → Avro schema удаляет field → BACKWARD compatible (новый reader не ожидает поля)
PostgreSQL ALTER TABLE ALTER COLUMN TYPE → breaking change → требует новый topic или ручную миграцию

Для clickstream subjects — FULL compatibility: schema меняется редко и контролируется нами.

Schema Design: Avro для CDC

Пример Avro schema для CDC-таблицы orders:

Avro Schema Design для CDC

PostgreSQL: orders table

Debezium → Avro mapping

Avro Schema

Envelope schema

CDC Envelope

Ключевые решения schema design

Schema design decisions

Subject Naming Strategy

Decimal Handling

Timestamp Mapping

Null Handling

Consumer Design: от Kafka до Bronze

Последний блок ingestion — как consumer читает из Kafka и приземляет данные в bronze layer:

Consumer Pipeline: Kafka → Bronze

Kafka Topic (Avro CDC)

Spark Structured Streaming

Spark Consumer

Deserialization + Metadata

Deserialization

Metadata Enrichment

Write to Bronze

Bronze Layer (S3 + Table Format)

Настройки Consumer

Consumer Configuration

Trigger Interval

Checkpoint

Error Handling

Scaling

TIP

Выбор file и table format для bronze layer — тема следующего урока. Здесь мы фокусируемся на ingestion: как данные попадают из PostgreSQL в Kafka и из Kafka — к порогу bronze layer.

Clickstream Pipeline

CDC — не единственный источник. Clickstream имеет другие характеристики:

Clickstream Pipeline Design

Web SDK (JSON events)

Gateway → Avro conversion

Avro-encoded events

Kafka: clickstream-events (24 partitions)

Отличия от CDC

Различия в schema strategy

Параметр	CDC Pipeline	Clickstream Pipeline
Schema source	PostgreSQL DDL → Debezium auto	Вручную определённая .avsc
Compatibility	BACKWARD	FULL
Change frequency	~2 раза/месяц (DDL changes)	~1 раз/квартал (SDK update)
Evolution strategy	Auto-register by Debezium	Manual register before deploy
Validation	Schema Registry at write time	Gateway + Schema Registry

Упражнение: проектирование ingestion

Ваша задача — описать ingestion pipeline для capstone-платформы. Ответьте на вопросы:

Checklist: Ingestion Design

1. Serialization

2. Schema Registry

3. Consumer Design

4. Operational

NOTE

Не существует единственного правильного ответа. Вы можете выбрать Protobuf вместо Avro, если обоснование убедительно. Можете выбрать Flink вместо Spark Structured Streaming, если аргументируете trade-offs. Ключ — обоснование, а не конкретный выбор.

Переход к Storage Layer

Ingestion pipeline заканчивается на пороге bronze layer: данные десериализованы, обогащены metadata, готовы к записи. В следующем уроке вы выберете:

File format для каждого слоя (Parquet vs ORC vs Arrow)
Table format (Delta Lake vs Iceberg vs Hudi)
Encoding strategy per column type
Compression codec per layer
Partitioning и sort order

Решения ingestion layer влияют на storage: если вы выбрали Avro для Kafka, consumer должен десериализовать Avro → Row и сериализовать Row → Parquet/ORC. Overhead этой conversion — один из факторов при выборе file format.