Добро пожаловать в System Design для Data Engineer
Этот курс учит проектировать data-платформы — не «как использовать Airflow», а когда и почему выбирать конкретные архитектурные решения для обработки, хранения и доставки данных.
Что вас ждёт
- Pipeline Architecture: ETL vs ELT vs Zero-ETL, Lambda vs Kappa, Medallion architecture
- Batch Processing: Apache Spark internals, партиционирование, оптимизация joins
- Stream Processing: Kafka, Flink, watermarks, exactly-once semantics
- Data Warehouse Design: Star/Snowflake schema, SCD types, dimensional modeling
- Data Lakehouse: Delta Lake, Apache Iceberg, Hudi — сравнение и trade-offs
- CDC Pipeline Design: проектирование Change Data Capture систем
- Data Quality & Observability: data contracts, SLA, anomaly detection
- Orchestration: Airflow vs Dagster vs Prefect — design, не синтаксис
- Feature Store & ML Pipeline: serving features для ML в production
- Real-time Analytics: metrics platforms, real-time dashboards
- Capstone: проектирование end-to-end data platform для e-commerce
Чем этот курс отличается
| Обычный DE-курс | Этот курс |
|---|---|
| Как написать DAG в Airflow | Когда Airflow, когда Dagster, почему |
| Синтаксис PySpark | Как проектировать batch pipeline для 10TB/день |
| Туториал по Kafka | Архитектура streaming системы с exactly-once |
| Документация Delta Lake | Trade-offs Delta vs Iceberg vs Hudi |
Предварительные требования
- Уверенный SQL (JOIN, оконные функции, CTE)
- Базовый Python (pandas, работа с файлами)
- Понимание реляционных баз данных
- Docker Desktop для лабораторий
Связь с другими курсами на платформе
Этот курс дополняет:
- Apache Spark Deep-Dive — для глубокого погружения в Spark internals
- Debezium CDC Mastery — для деталей реализации CDC
- Data Governance — для governance framework
System Design курс учит когда и почему, специализированные курсы — как именно.
Структура курса
Фундамент (M01-M02)
- Основы System Design для DE — 6-layer framework, requirements, trade-offs
- Pipeline Architecture Patterns — ETL/ELT, Lambda/Kappa, Medallion, Data Mesh
Processing (M03-M04)
- Batch Processing — Spark, MapReduce, partition strategies
- Stream Processing — Kafka, Flink, watermarks, late data
Storage (M05-M07)
- Data Warehouse Design — Star/Snowflake, SCD, dimensional modeling
- Data Lakehouse — Delta/Iceberg/Hudi, table formats, compaction
- Data Modeling — advanced patterns, schema evolution
Data Operations (M08-M11)
- CDC Pipeline Design — architecture, exactly-once, schema evolution
- Data Quality & Observability — contracts, SLA, anomaly detection
- Orchestration — Airflow/Dagster/Prefect design patterns
- Governance & Lineage — cataloging, access control, compliance
Advanced (M12-M15)
- Feature Store — ML feature serving, online/offline stores
- Real-time Analytics — metrics platforms, OLAP engines
- Cost Optimization — compute/storage costs, right-sizing
- Capstone — end-to-end data platform
Формат обучения
- Уроки с архитектурными диаграммами и trade-off analysis
- Квизы — выбор правильного паттерна для сценария
- Экзамены по модулю (70% pass threshold)
- PDF-сертификат после прохождения всех экзаменов
Как создавался курс
Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.
Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.
Углублённое изучение с Claude
Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.
Сценарии, которые особенно хорошо работают для углублённого погружения:
- «Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
- «Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
- «Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
- «У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.
Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.
Нашли ошибку?
Если заметили неточность, опечатку или хотите предложить улучшение:
Telegram-канал
Подписывайтесь, чтобы узнавать об обновлениях и новых курсах: