Capstone-проект: обзор и требования

За 17 модулей мы разобрали форматы побайтово — от Parquet и ORC через Arrow до Delta Lake, Iceberg, Hudi и Paimon. Изучили кодировки, компрессию, schema evolution. В Модуле 17 построили decision framework.

Теперь пора применить всё вместе. Capstone-проект — это не экзамен с правильными ответами. Это инженерная задача с trade-offs, где вы проектируете реальную data-платформу и защищаете каждый выбор формата.

WARNING

Capstone-проект требует знания всех предыдущих модулей. Если вы пропустили workload archetypes или бенчмаркинг — вернитесь к ним перед началом.

Сценарий: мультиформатная data-платформа

Вы — data-архитектор в компании, которая строит платформу обработки данных для e-commerce. Платформа должна решать четыре задачи одновременно:

Четыре потока данных платформы

CDC Ingestion

Источник

Lakehouse Storage

Формат

Analytics Queries

Потребители

ML Features

Pipeline

Масштаб и ограничения

Платформа обслуживает средний e-commerce:

Параметры платформы

Объём данных

Throughput

Query SLA

ML Requirements

NOTE

Эти параметры — не абстракция. Они соответствуют реальному среднему e-commerce с 5-10 млн пользователей. Если ваш опыт — меньший масштаб, используйте числа как ориентир. Если больший — масштабируйте пропорционально.

Архитектура: от источника до потребителя

Capstone-проект охватывает полный путь данных. Вот референсная архитектура — ваша задача выбрать конкретные форматы на каждом уровне:

Референсная архитектура платформы

PostgreSQL (OLTP)

Clickstream (Web)

External APIs

Serialization + Schema Registry

Kafka + Schema Registry

Consumers (Spark Structured Streaming / Flink)

Bronze (Raw)

Формат?

Silver (Curated)

Формат?

Gold (Aggregated)

Формат?

Query Engines

Spark SQL / Trino

Feature Store

BI Dashboards

Требования к проекту

Deliverables

Capstone-проект состоит из четырёх частей — по одной на каждый оставшийся урок:

Deliverables проекта

1. Ingestion Pipeline Design

2. Storage Layer Design

3. Benchmark Results

4. Format Selection Report

Критерии оценки

Каждый deliverable оценивается по трём измерениям:

Критерии оценки

Техническая корректность

Вес: 40%

Обоснование

Вес: 35%

Практичность

Вес: 25%

Как работать с capstone-проектом

Подход: workload-first

Используйте decision framework из Модуля 17:

Определите workload — какой архетип (OLAP, streaming, ML, OLTP) доминирует на каждом уровне
Выведите требования — из workload следуют конкретные требования (write throughput, scan speed, merge latency)
Выберите формат — формат должен удовлетворять требованиям, а не наоборот
Проверьте совместимость — encoding + compression + file format + table format должны работать вместе
Обоснуйте — каждый выбор привязан к конкретному требованию и материалу курса

TIP

единственного “правильного” ответа. Разные комбинации форматов могут удовлетворять требования. Важно не что вы выбрали, а почему и какие trade-offs приняли.

Чего избегать

Типичные ошибки в capstone

Нет Один формат на всё

Нет Выбор без обоснования

Нет Игнорирование operations

Нет Overengineering

Навигация по capstone-урокам

Следующие три урока — пошаговое выполнение проекта:

Урок	Тема	Основные модули-референсы
02. Ingestion Pipeline	Serialization, Schema Registry, evolution	M04 Avro, M05 Protobuf, M10 Schema Evolution
03. Storage Layer	File + table format, encoding, compression	M02 Parquet, M03 ORC, M08 Encoding, M09 Compression, M11-14 Table Formats
04. Benchmarking	Docker lab, metrics, report	M17 Benchmarking

NOTE

Рекомендуемый порядок: 02 → 03 → 04. Ingestion определяет формат данных в Kafka, storage layer потребляет эти данные, бенчмарки проверяют выбор. Но если хотите начать со storage layer — это тоже допустимо, при условии что serialization выбор потом согласуется.

Референсные материалы

Для каждого deliverable полезны конкретные уроки:

Ingestion (Урок 02):

Avro schema design — правила проектирования Avro-схем
Protobuf wire format — как Protobuf кодирует данные
Schema Registry — конфигурация и compatibility modes
Forward/backward compatibility — правила совместимости

Storage (Урок 03):

Parquet file layout — row groups, column chunks, pages
ORC file layout — stripes, indexes, bloom filters
Encoding deep-dive — dictionary, RLE, delta, bit-packing
Compression tuning — codec selection per column
Delta Lake transactions — commit log, checkpoint, vacuum
Iceberg metadata — manifest files, snapshot isolation

Benchmarking (Урок 04):

Benchmarking methodology — dimensions, pitfalls, reproducibility
Table format selection — criteria per workload
Migration strategies — как мигрировать между форматами

Приступаем к первому deliverable — проектирование ingestion pipeline.

Capstone-проект: обзор и требования

Сценарий: мультиформатная data-платформа

Масштаб и ограничения

Архитектура: от источника до потребителя

Требования к проекту

Deliverables

Критерии оценки

Как работать с capstone-проектом

Подход: workload-first

Чего избегать

Навигация по capstone-урокам

Референсные материалы

Закончили урок?