Learning Platform
Глоссарий Troubleshooting
Урок 01.02 · 15 мин
Начальный
ОбзорRoadmapЗависимости

Обзор всех 20 модулей курса

Курс выстроен от простого к сложному: сначала «что вообще такое DE», потом «как и куда складывать данные», потом «как их двигать и обрабатывать», и в конце — продакшен-практики и карьера.

Ниже — карта зависимостей и краткое описание каждого модуля.


Карта зависимостей

Зависимости между модулями
M00 Course Intro
M01 Getting Started
M02 What is DE
M03 Lifecycle
M04 Types and Sources
M05 Storage Formats
M06 OLTP vs OLAP
M07 Data Warehousing
M08 Dimensional Modeling
M09 ETL vs ELT
M10 Batch vs Stream
M11 Big Data Tools
M12 Orchestration
M13 dbt
M14 Lakes/Lakehouse
M15 Cloud Platforms
M16 Data Quality
M17 Pipeline Patterns
M18 Career
M19 Capstone

Стрелки на схеме — это не «строго последовательно», а «лучше не пропускать». Например, M08 (dimensional modeling) опирается на M06 (OLTP/OLAP) и M07 (DWH) — без них star schema будет непонятна.


Краткое описание каждого модуля

Фундамент

M00 Course Intro — Этот модуль. Что такое курс, для кого, как учиться.

M01 Getting Started — Словарь профессии и первые понятия дата-инженерии простыми словами: данные, таблица, пайплайн, источник и приёмник. Спокойный вход для тех, кто ещё не привык к терминам, до встречи с «настоящими» концепциями.

M02 What is Data Engineering — Кто такой DE, чем отличается от DA/DS, как профессия выросла из DBA -> DWH -> Big Data -> Modern Data Stack. Современный ландшафт инструментов 2026 года.

M03 Data Lifecycle — Шесть стадий жизни данных: source -> ingestion -> storage -> processing -> serving -> consumption. Что происходит на каждой стадии и кто за что отвечает.

M04 Data Types and Sources — Структурированные (SQL-таблицы), полуструктурированные (JSON, XML), неструктурированные (текст, картинки). Откуда данные приходят: БД, API, файлы, события. Схемы и моделирование.

Хранилища и модели

M05 Storage Formats — Файловые форматы: CSV, JSON, Avro, Parquet, ORC. Row-based vs column-based. Когда что использовать.

M06 OLTP vs OLAP — Два мира работы с данными: транзакционный (Postgres, MySQL) и аналитический (Snowflake, ClickHouse). Почему один и тот же запрос работает в одной системе и тормозит в другой.

M07 Data Warehousing — Что такое DWH. Подходы Билла Инмона (top-down, normalized) vs Ральфа Кимбалла (bottom-up, dimensional). Современные cloud DWH.

M08 Dimensional Modeling — Star schema, snowflake schema. Fact tables и dimension tables. Slowly Changing Dimensions (SCD).

Пайплайны и инструменты

M09 ETL vs ELT — Классический ETL (transform before load) vs современный ELT (transform after load). Почему ELT вытеснил ETL с приходом облачных DWH.

M10 Batch vs Streaming — Пакетная (раз в час/день) vs потоковая (в реальном времени) обработка. Lambda и Kappa архитектуры.

M11 Big Data Tools Intro — Обзор: Hadoop (HDFS, MapReduce), Spark, Flink, Kafka. Когда что используют. Углубление — в наших spark-course, kafka-course, flink-course.

M12 Orchestration with Airflow — Что такое оркестратор, DAG, операторы. Apache Airflow как стандарт индустрии. Углубление — в airflow-course.

M13 dbt Transformations — dbt как «SQL + Git + tests» для трансформаций в DWH. Модели, сидсы, тесты, документация.

M14 Data Lakes and Lakehouse — Что такое data lake, чем отличается от DWH. Lakehouse (Iceberg, Delta, Hudi) как современный гибрид.

M15 Cloud Data Platforms — Большая тройка: Snowflake, Google BigQuery, Databricks. Что у них общего, чем отличаются.

Продакшен и карьера

M16 Data Quality — Что такое DQ, метрики (completeness, accuracy, consistency), инструменты (Great Expectations, Soda, Monte Carlo). Data contracts.

M17 Pipeline Design Patterns — Idempotency, retries, late data, schema evolution, partitioning. Best practices, на которых горят продакшен-пайплайны.

M18 DE Career — Грейды (junior -> middle -> senior -> staff), типы DE (analytics, platform, ML), интервью, портфолио, зарплаты.

M19 Capstone — Финальный проект. Тебе дают сценарий компании, и ты проектируешь end-to-end pipeline: источники, ingestion, storage, transform, serving.


Порядок прохождения

Рекомендуемые маршруты
Линейно: M00 -> M01 -> M02 -> … -> M19
Для backend devs: M02 (быстро) -> M06 -> M09 -> M12 -> M13
Для аналитиков: M02 -> M06 -> M07 -> M08 -> M13 -> M16
WARNING

Соблазн пропустить M06-M08 («скучная теория, я лучше Airflow выучу») высокий. Не делай так. Без понимания OLTP/OLAP и dimensional modeling ты не поймёшь, что именно твой Airflow-пайплайн должен сделать с данными.


Связь с другими курсами платформы

Этот курс — корень дерева. Из него растут deep-dive ветки:

После модуляМожно идти в
M12 Orchestrationairflow-course
M13 dbtdbt-course (в разработке)
M11 / M14spark-course, kafka-course, flink-course
M07 / M08sql-fundamentals -> sql-internals
M15snowflake-course, bigquery-course (планируются)
M14clickhouse-course, datafusion-course

Если тебе нужен CDC (change data capture) — наш debezium-course. Если деплой data-инфрыkubernetes-course.

sql-fundamentals: параллельный курс, необходимый как основа для M06-M08 и M13 dbt-i: deep-dive курс после M13 этого курса

Попробуй сам

  1. Посмотри карту зависимостей выше. Если бы ты пропустил один модуль — какой? Почему? Скорее всего, это «скучная теория» — и именно её пропускать опаснее всего.
  2. Открой описание каждого модуля. Какие 3 термина для тебя сейчас полная загадка? Запиши. После курса проверь — должны быть понятны.
Проверка знанийKnowledge check
Почему линейный порядок (M00 -> M01 -> ... -> M19) лучше «прыжков» через модули для большинства студентов?
ОтветAnswer
Курс выстроен от концепций к инструментам: сначала ты понимаешь, что такое DE и lifecycle данных, потом — как организовать хранилище (OLTP/OLAP, DWH, dimensional modeling), и только после этого — как двигать данные (ETL/ELT, оркестрация). Если прыгнуть сразу к Airflow или dbt, ты будешь знать «как нажать кнопки», но не «зачем эти кнопки нужны». В реальной работе это приводит к карго-культу: копируешь паттерны из туториалов, не понимая, почему они работают. Линейный порядок строит ментальную модель снизу вверх, и инструменты ложатся на готовый фундамент.

Проверьте понимание

Результат: 0 из 0
Концептуальный
Вопрос 1 из 5. Какой блок модулей курса предоставляет фундамент DE, который НЕ рекомендуется пропускать?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 3