О курсе Data Engineering Fundamentals
Это обзорный курс по data engineering для тех, кто хочет войти в профессию. Цель — не научить тебя писать продакшен-пайплайны на Spark, а дать карту территории: что такое DE, какие задачи решает, какие инструменты живут в этом мире и как они между собой связаны.
Когда ты пройдёшь курс, ты сможешь:
- объяснить разницу между Data Engineer, Data Analyst и Data Scientist;
- читать вакансии без чувства «непонятно вообще ничего»;
- разобрать архитектуру типичного data pipeline и сказать, где batch, где stream, где DWH, где lake;
- выбрать, какие инструменты учить дальше для своей роли;
- решить, нужен ли тебе deep-dive в Airflow, Spark или dbt — или начать с SQL.
Почему этот курс — обзорный
Data engineering — это не один инструмент и не один язык. Это экосистема из десятков продуктов, и в каждом — свой deep-dive. На нашей платформе есть отдельные курсы по тяжёлым технологиям:
airflow-course— оркестрация пайплайновspark-course— распределённая обработкаkafka-course— событийные потокиsql-fundamentalsиsql-internals— SQL от нуля до железаkubernetes-course— деплой data-инфрыclickhouse-course,datafusion-course,flink-course,debezium-course— узкая глубина
Этот курс — первый, который ты должен пройти. После него ты будешь знать, куда углубляться. Без обзора студенты часто учат Airflow, не понимая, зачем нужен оркестратор, и Spark, не понимая, чем он отличается от Pandas.
Если ты уже работаешь DE-джуном и пришёл за конкретикой по Spark или Airflow — иди сразу в deep-dive курсы. Этот курс для тех, кто только начинает или меняет специализацию (например, бэкенд -> DE).
Для кого этот курс
Минимальные требования:
- базовое программирование (любой язык, но Python в курсе будет)
- знание SQL уровня SELECT/JOIN/GROUP BY (если нет — параллельно проходи
sql-fundamentals) - понимание, что такое база данных, файл, сервер
Не требуется: математика, машинное обучение, Linux на уровне сисадмина.
Чему ты научишься
Курс закрывает четыре больших темы:
| Блок | Что внутри |
|---|---|
| Фундамент (M00-M04) | Словарь профессии, кто такой DE, lifecycle данных, типы и источники |
| Хранилища и модели (M05-M08) | Форматы файлов, OLTP vs OLAP, DWH, dimensional modeling |
| Пайплайны и инструменты (M09-M15) | ETL/ELT, batch/streaming, оркестрация, dbt, lakehouse, облака |
| Продакшен и карьера (M16-M19) | Data quality, паттерны проектирования, путь в профессии, capstone |
Каждый модуль — это 3-7 уроков плюс экзамен. В конце — capstone-проект, где ты с нуля проектируешь пайплайн для воображаемой компании.
Как устроены модули
Каждый урок — это:
- Текст (1500-2500 слов) — концепция, примеры, диаграммы
- Quiz (4-6 вопросов) — закрепление основных идей
- Knowledge Check в конце — один открытый вопрос для саморефлексии
В конце каждого модуля — экзамен (6 вопросов), охватывающий весь модуль. Сложнее обычных квизов.
В некоторых модулях есть лабы — практические задания в Docker-окружении (например, поднять Airflow и запустить DAG).
Не пропускай квизы — это не оценка, а проверка понимания. Если ответил неправильно, перечитай раздел. Активное припоминание (active recall) — самый эффективный способ учиться.
Сколько времени займёт
Полный курс — примерно 40-50 часов изучения:
- Теория: ~25-30 часов
- Квизы и экзамены: ~5-7 часов
- Лабы: ~8-10 часов
- Capstone: ~5 часов
При темпе 2-3 урока в неделю ты закроешь курс за 2-3 месяца. При интенсиве (по 1-2 модуля в неделю) — за 4-6 недель.
Что после курса
После Data Engineering Fundamentals у тебя будет три пути:
- Углубиться в инструменты — пройти
airflow-course,spark-course,kafka-course,dbt-course. - Прокачать SQL — если ещё не сделал.
sql-fundamentals->sql-internals. - Идти на джуна — собирать pet-проекты, искать вакансии, готовиться к интервью.
Мы дадим конкретные рекомендации в модуле 18-de-career.
Попробуй сам
- Открой пару вакансий «Junior Data Engineer» на hh.ru или LinkedIn. Выпиши 5 самых частых слов из требований. После курса вернись — большинство будет понятно.
- Напиши себе одно предложение: «Я хочу стать DE, потому что ___». Это твоя цель. Возвращайся к ней, когда станет скучно или сложно.
Как создавался курс
Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.
Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.
Углублённое изучение с Claude
Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.
Сценарии, которые особенно хорошо работают для углублённого погружения:
- «Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
- «Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
- «Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
- «У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.
Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.
Нашли ошибку?
Если заметили неточность, опечатку или хотите предложить улучшение:
Telegram-канал
Подписывайтесь, чтобы узнавать об обновлениях и новых курсах: