Обзор всех 20 модулей курса
Курс выстроен от простого к сложному: сначала «что вообще такое DE», потом «как и куда складывать данные», потом «как их двигать и обрабатывать», и в конце — продакшен-практики и карьера.
Ниже — карта зависимостей и краткое описание каждого модуля.
Карта зависимостей
Стрелки на схеме — это не «строго последовательно», а «лучше не пропускать». Например, M08 (dimensional modeling) опирается на M06 (OLTP/OLAP) и M07 (DWH) — без них star schema будет непонятна.
Краткое описание каждого модуля
Фундамент
M00 Course Intro — Этот модуль. Что такое курс, для кого, как учиться.
M01 Getting Started — Словарь профессии и первые понятия дата-инженерии простыми словами: данные, таблица, пайплайн, источник и приёмник. Спокойный вход для тех, кто ещё не привык к терминам, до встречи с «настоящими» концепциями.
M02 What is Data Engineering — Кто такой DE, чем отличается от DA/DS, как профессия выросла из DBA -> DWH -> Big Data -> Modern Data Stack. Современный ландшафт инструментов 2026 года.
M03 Data Lifecycle — Шесть стадий жизни данных: source -> ingestion -> storage -> processing -> serving -> consumption. Что происходит на каждой стадии и кто за что отвечает.
M04 Data Types and Sources — Структурированные (SQL-таблицы), полуструктурированные (JSON, XML), неструктурированные (текст, картинки). Откуда данные приходят: БД, API, файлы, события. Схемы и моделирование.
Хранилища и модели
M05 Storage Formats — Файловые форматы: CSV, JSON, Avro, Parquet, ORC. Row-based vs column-based. Когда что использовать.
M06 OLTP vs OLAP — Два мира работы с данными: транзакционный (Postgres, MySQL) и аналитический (Snowflake, ClickHouse). Почему один и тот же запрос работает в одной системе и тормозит в другой.
M07 Data Warehousing — Что такое DWH. Подходы Билла Инмона (top-down, normalized) vs Ральфа Кимбалла (bottom-up, dimensional). Современные cloud DWH.
M08 Dimensional Modeling — Star schema, snowflake schema. Fact tables и dimension tables. Slowly Changing Dimensions (SCD).
Пайплайны и инструменты
M09 ETL vs ELT — Классический ETL (transform before load) vs современный ELT (transform after load). Почему ELT вытеснил ETL с приходом облачных DWH.
M10 Batch vs Streaming — Пакетная (раз в час/день) vs потоковая (в реальном времени) обработка. Lambda и Kappa архитектуры.
M11 Big Data Tools Intro — Обзор: Hadoop (HDFS, MapReduce), Spark, Flink, Kafka. Когда что используют. Углубление — в наших spark-course, kafka-course, flink-course.
M12 Orchestration with Airflow — Что такое оркестратор, DAG, операторы. Apache Airflow как стандарт индустрии. Углубление — в airflow-course.
M13 dbt Transformations — dbt как «SQL + Git + tests» для трансформаций в DWH. Модели, сидсы, тесты, документация.
M14 Data Lakes and Lakehouse — Что такое data lake, чем отличается от DWH. Lakehouse (Iceberg, Delta, Hudi) как современный гибрид.
M15 Cloud Data Platforms — Большая тройка: Snowflake, Google BigQuery, Databricks. Что у них общего, чем отличаются.
Продакшен и карьера
M16 Data Quality — Что такое DQ, метрики (completeness, accuracy, consistency), инструменты (Great Expectations, Soda, Monte Carlo). Data contracts.
M17 Pipeline Design Patterns — Idempotency, retries, late data, schema evolution, partitioning. Best practices, на которых горят продакшен-пайплайны.
M18 DE Career — Грейды (junior -> middle -> senior -> staff), типы DE (analytics, platform, ML), интервью, портфолио, зарплаты.
M19 Capstone — Финальный проект. Тебе дают сценарий компании, и ты проектируешь end-to-end pipeline: источники, ingestion, storage, transform, serving.
Порядок прохождения
Соблазн пропустить M06-M08 («скучная теория, я лучше Airflow выучу») высокий. Не делай так. Без понимания OLTP/OLAP и dimensional modeling ты не поймёшь, что именно твой Airflow-пайплайн должен сделать с данными.
Связь с другими курсами платформы
Этот курс — корень дерева. Из него растут deep-dive ветки:
| После модуля | Можно идти в |
|---|---|
| M12 Orchestration | airflow-course |
| M13 dbt | dbt-course (в разработке) |
| M11 / M14 | spark-course, kafka-course, flink-course |
| M07 / M08 | sql-fundamentals -> sql-internals |
| M15 | snowflake-course, bigquery-course (планируются) |
| M14 | clickhouse-course, datafusion-course |
Если тебе нужен CDC (change data capture) — наш debezium-course. Если деплой data-инфры — kubernetes-course.
Попробуй сам
- Посмотри карту зависимостей выше. Если бы ты пропустил один модуль — какой? Почему? Скорее всего, это «скучная теория» — и именно её пропускать опаснее всего.
- Открой описание каждого модуля. Какие 3 термина для тебя сейчас полная загадка? Запиши. После курса проверь — должны быть понятны.