О курсе Data Engineering Fundamentals

Это обзорный курс по data engineering для тех, кто хочет войти в профессию. Цель — не научить тебя писать продакшен-пайплайны на Spark, а дать карту территории: что такое DE, какие задачи решает, какие инструменты живут в этом мире и как они между собой связаны.

Когда ты пройдёшь курс, ты сможешь:

объяснить разницу между Data Engineer, Data Analyst и Data Scientist;
читать вакансии без чувства «непонятно вообще ничего»;
разобрать архитектуру типичного data pipeline и сказать, где batch, где stream, где DWH, где lake;
выбрать, какие инструменты учить дальше для своей роли;
решить, нужен ли тебе deep-dive в Airflow, Spark или dbt — или начать с SQL.

Почему этот курс — обзорный

Data engineering — это не один инструмент и не один язык. Это экосистема из десятков продуктов, и в каждом — свой deep-dive. На нашей платформе есть отдельные курсы по тяжёлым технологиям:

airflow-course — оркестрация пайплайнов
spark-course — распределённая обработка
kafka-course — событийные потоки
sql-fundamentals и sql-internals — SQL от нуля до железа
kubernetes-course — деплой data-инфры
clickhouse-course, datafusion-course, flink-course, debezium-course — узкая глубина

Этот курс — первый, который ты должен пройти. После него ты будешь знать, куда углубляться. Без обзора студенты часто учат Airflow, не понимая, зачем нужен оркестратор, и Spark, не понимая, чем он отличается от Pandas.

NOTE

Если ты уже работаешь DE-джуном и пришёл за конкретикой по Spark или Airflow — иди сразу в deep-dive курсы. Этот курс для тех, кто только начинает или меняет специализацию (например, бэкенд -> DE).

Для кого этот курс

Кому подойдёт курс

Новички в IT

Data-аналитики

Backend devs

Data Engineering Fundamentals

Deep-dive: Airflow / Spark / dbt

Junior DE интервью

Минимальные требования:

базовое программирование (любой язык, но Python в курсе будет)
знание SQL уровня SELECT/JOIN/GROUP BY (если нет — параллельно проходи sql-fundamentals)
понимание, что такое база данных, файл, сервер

Не требуется: математика, машинное обучение, Linux на уровне сисадмина.

Чему ты научишься

Курс закрывает четыре больших темы:

Блок	Что внутри
Фундамент (M00-M04)	Словарь профессии, кто такой DE, lifecycle данных, типы и источники
Хранилища и модели (M05-M08)	Форматы файлов, OLTP vs OLAP, DWH, dimensional modeling
Пайплайны и инструменты (M09-M15)	ETL/ELT, batch/streaming, оркестрация, dbt, lakehouse, облака
Продакшен и карьера (M16-M19)	Data quality, паттерны проектирования, путь в профессии, capstone

Каждый модуль — это 3-7 уроков плюс экзамен. В конце — capstone-проект, где ты с нуля проектируешь пайплайн для воображаемой компании.

Как устроены модули

Каждый урок — это:

Текст (1500-2500 слов) — концепция, примеры, диаграммы
Quiz (4-6 вопросов) — закрепление основных идей
Knowledge Check в конце — один открытый вопрос для саморефлексии

В конце каждого модуля — экзамен (6 вопросов), охватывающий весь модуль. Сложнее обычных квизов.

В некоторых модулях есть лабы — практические задания в Docker-окружении (например, поднять Airflow и запустить DAG).

TIP

Не пропускай квизы — это не оценка, а проверка понимания. Если ответил неправильно, перечитай раздел. Активное припоминание (active recall) — самый эффективный способ учиться.

Сколько времени займёт

Полный курс — примерно 40-50 часов изучения:

Теория: ~25-30 часов
Квизы и экзамены: ~5-7 часов
Лабы: ~8-10 часов
Capstone: ~5 часов

При темпе 2-3 урока в неделю ты закроешь курс за 2-3 месяца. При интенсиве (по 1-2 модуля в неделю) — за 4-6 недель.

Что после курса

После Data Engineering Fundamentals у тебя будет три пути:

Углубиться в инструменты — пройти airflow-course, spark-course, kafka-course, dbt-i.
Прокачать SQL — если ещё не сделал. sql-fundamentals -> sql-internals.
Идти на джуна — собирать pet-проекты, искать вакансии, готовиться к интервью.

Мы дадим конкретные рекомендации в модуле 18-de-career.

Попробуй сам

Открой пару вакансий «Junior Data Engineer» на hh.ru или LinkedIn. Выпиши 5 самых частых слов из требований. После курса вернись — большинство будет понятно.
Напиши себе одно предложение: «Я хочу стать DE, потому что ___». Это твоя цель. Возвращайся к ней, когда станет скучно или сложно.

Как создавался курс

Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.

Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.

Углублённое изучение с Claude

Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.

Сценарии, которые особенно хорошо работают для углублённого погружения:

«Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
«Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
«Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
«У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.

Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.

Нашли ошибку?

Если заметили неточность, опечатку или хотите предложить улучшение:

Telegram-группа курса

Обсуждение, вопросы, предложения

Telegram-канал

Подписывайтесь, чтобы узнавать об обновлениях и новых курсах:

@levoely_channel

Новости, обновления, новые курсы

Проверка знанийKnowledge check

Почему обзорный курс по data engineering имеет смысл проходить перед deep-dive курсами по Airflow, Spark или dbt?

ОтветAnswer

Без обзора экосистемы ты не понимаешь, зачем тебе тот или иной инструмент. Можно выучить Airflow и думать, что DE — это про планировщики, или зацикливаться на Spark, не понимая, чем он отличается от Pandas или dbt. Обзорный курс даёт карту территории: ты видишь все инструменты и их связи, и осознанно выбираешь, куда углубляться. Это экономит десятки часов на ненужное обучение и помогает строить целостную картину профессии.