Добро пожаловать в System Design для Data Engineer

Этот курс учит проектировать data-платформы — не «как использовать Airflow», а когда и почему выбирать конкретные архитектурные решения для обработки, хранения и доставки данных.

Что вас ждёт

Pipeline Architecture: ETL vs ELT vs Zero-ETL, Lambda vs Kappa, Medallion architecture
Batch Processing: Apache Spark internals, партиционирование, оптимизация joins
Stream Processing: Kafka, Flink, watermarks, exactly-once semantics
Data Warehouse Design: Star/Snowflake schema, SCD types, dimensional modeling
Data Lakehouse: Delta Lake, Apache Iceberg, Hudi — сравнение и trade-offs
CDC Pipeline Design: проектирование Change Data Capture систем
Data Quality & Observability: data contracts, SLA, anomaly detection
Orchestration: Airflow vs Dagster vs Prefect — design, не синтаксис
Feature Store & ML Pipeline: serving features для ML в production
Real-time Analytics: metrics platforms, real-time dashboards
Capstone: проектирование end-to-end data platform для e-commerce

Чем этот курс отличается

Обычный DE-курс	Этот курс
Как написать DAG в Airflow	Когда Airflow, когда Dagster, почему
Синтаксис PySpark	Как проектировать batch pipeline для 10TB/день
Туториал по Kafka	Архитектура streaming системы с exactly-once
Документация Delta Lake	Trade-offs Delta vs Iceberg vs Hudi

Предварительные требования

Уверенный SQL (JOIN, оконные функции, CTE)
Базовый Python (pandas, работа с файлами)
Понимание реляционных баз данных
Docker Desktop для лабораторий

TIP

Связь с другими курсами на платформе

Этот курс дополняет:

Apache Spark Deep-Dive — для глубокого погружения в Spark internals
Debezium CDC Mastery — для деталей реализации CDC
Data Governance — для governance framework

System Design курс учит когда и почему, специализированные курсы — как именно.

Структура курса

Фундамент (M01-M02)

Основы System Design для DE — 6-layer framework, requirements, trade-offs
Pipeline Architecture Patterns — ETL/ELT, Lambda/Kappa, Medallion, Data Mesh

Processing (M03-M04)

Batch Processing — Spark, MapReduce, partition strategies
Stream Processing — Kafka, Flink, watermarks, late data

Storage (M05-M07)

Data Warehouse Design — Star/Snowflake, SCD, dimensional modeling
Data Lakehouse — Delta/Iceberg/Hudi, table formats, compaction
Data Modeling — advanced patterns, schema evolution

Data Operations (M08-M11)

CDC Pipeline Design — architecture, exactly-once, schema evolution
Data Quality & Observability — contracts, SLA, anomaly detection
Orchestration — Airflow/Dagster/Prefect design patterns
Governance & Lineage — cataloging, access control, compliance

Advanced (M12-M15)

Feature Store — ML feature serving, online/offline stores
Real-time Analytics — metrics platforms, OLAP engines
Cost Optimization — compute/storage costs, right-sizing
Capstone — end-to-end data platform

Формат обучения

Уроки с архитектурными диаграммами и trade-off analysis
Квизы — выбор правильного паттерна для сценария
Экзамены по модулю (70% pass threshold)
PDF-сертификат после прохождения всех экзаменов

Как создавался курс

Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.

Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.

Углублённое изучение с Claude

Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.

Сценарии, которые особенно хорошо работают для углублённого погружения:

«Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
«Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
«Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
«У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.

Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.

Нашли ошибку?

Если заметили неточность, опечатку или хотите предложить улучшение:

Telegram-группа курса

Обсуждение, вопросы, предложения

Telegram-канал

Подписывайтесь, чтобы узнавать об обновлениях и новых курсах:

@levoely_channel

Новости, обновления, новые курсы