Learning Platform
Глоссарий Troubleshooting
Урок 01.01 · 15 мин
Начальный
О курсеData EngineeringКарьера

О курсе Data Engineering Fundamentals

Это обзорный курс по data engineering для тех, кто хочет войти в профессию. Цель — не научить тебя писать продакшен-пайплайны на Spark, а дать карту территории: что такое DE, какие задачи решает, какие инструменты живут в этом мире и как они между собой связаны.

Когда ты пройдёшь курс, ты сможешь:

  • объяснить разницу между Data Engineer, Data Analyst и Data Scientist;
  • читать вакансии без чувства «непонятно вообще ничего»;
  • разобрать архитектуру типичного data pipeline и сказать, где batch, где stream, где DWH, где lake;
  • выбрать, какие инструменты учить дальше для своей роли;
  • решить, нужен ли тебе deep-dive в Airflow, Spark или dbt — или начать с SQL.

Почему этот курс — обзорный

Data engineering — это не один инструмент и не один язык. Это экосистема из десятков продуктов, и в каждом — свой deep-dive. На нашей платформе есть отдельные курсы по тяжёлым технологиям:

  • airflow-course — оркестрация пайплайнов
  • spark-course — распределённая обработка
  • kafka-course — событийные потоки
  • sql-fundamentals и sql-internals — SQL от нуля до железа
  • kubernetes-course — деплой data-инфры
  • clickhouse-course, datafusion-course, flink-course, debezium-course — узкая глубина

Этот курс — первый, который ты должен пройти. После него ты будешь знать, куда углубляться. Без обзора студенты часто учат Airflow, не понимая, зачем нужен оркестратор, и Spark, не понимая, чем он отличается от Pandas.

NOTE

Если ты уже работаешь DE-джуном и пришёл за конкретикой по Spark или Airflow — иди сразу в deep-dive курсы. Этот курс для тех, кто только начинает или меняет специализацию (например, бэкенд -> DE).


Для кого этот курс

Кому подойдёт курс
Новички в IT
Data-аналитики
Backend devs
Data Engineering Fundamentals
Deep-dive: Airflow / Spark / dbt
Junior DE интервью

Минимальные требования:

  • базовое программирование (любой язык, но Python в курсе будет)
  • знание SQL уровня SELECT/JOIN/GROUP BY (если нет — параллельно проходи sql-fundamentals)
  • понимание, что такое база данных, файл, сервер

Не требуется: математика, машинное обучение, Linux на уровне сисадмина.


Чему ты научишься

Курс закрывает четыре больших темы:

БлокЧто внутри
Фундамент (M00-M04)Словарь профессии, кто такой DE, lifecycle данных, типы и источники
Хранилища и модели (M05-M08)Форматы файлов, OLTP vs OLAP, DWH, dimensional modeling
Пайплайны и инструменты (M09-M15)ETL/ELT, batch/streaming, оркестрация, dbt, lakehouse, облака
Продакшен и карьера (M16-M19)Data quality, паттерны проектирования, путь в профессии, capstone

Каждый модуль — это 3-7 уроков плюс экзамен. В конце — capstone-проект, где ты с нуля проектируешь пайплайн для воображаемой компании.


Как устроены модули

Каждый урок — это:

  1. Текст (1500-2500 слов) — концепция, примеры, диаграммы
  2. Quiz (4-6 вопросов) — закрепление основных идей
  3. Knowledge Check в конце — один открытый вопрос для саморефлексии

В конце каждого модуля — экзамен (6 вопросов), охватывающий весь модуль. Сложнее обычных квизов.

В некоторых модулях есть лабы — практические задания в Docker-окружении (например, поднять Airflow и запустить DAG).

TIP

Не пропускай квизы — это не оценка, а проверка понимания. Если ответил неправильно, перечитай раздел. Активное припоминание (active recall) — самый эффективный способ учиться.


Сколько времени займёт

Полный курс — примерно 40-50 часов изучения:

  • Теория: ~25-30 часов
  • Квизы и экзамены: ~5-7 часов
  • Лабы: ~8-10 часов
  • Capstone: ~5 часов

При темпе 2-3 урока в неделю ты закроешь курс за 2-3 месяца. При интенсиве (по 1-2 модуля в неделю) — за 4-6 недель.


Что после курса

После Data Engineering Fundamentals у тебя будет три пути:

  1. Углубиться в инструменты — пройти airflow-course, spark-course, kafka-course, dbt-course.
  2. Прокачать SQL — если ещё не сделал. sql-fundamentals -> sql-internals.
  3. Идти на джуна — собирать pet-проекты, искать вакансии, готовиться к интервью.

Мы дадим конкретные рекомендации в модуле 18-de-career.


Попробуй сам

  1. Открой пару вакансий «Junior Data Engineer» на hh.ru или LinkedIn. Выпиши 5 самых частых слов из требований. После курса вернись — большинство будет понятно.
  2. Напиши себе одно предложение: «Я хочу стать DE, потому что ___». Это твоя цель. Возвращайся к ней, когда станет скучно или сложно.

Как создавался курс

Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.

Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.


Углублённое изучение с Claude

Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.

Сценарии, которые особенно хорошо работают для углублённого погружения:

  • «Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
  • «Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
  • «Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
  • «У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.

Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.


Нашли ошибку?

Если заметили неточность, опечатку или хотите предложить улучшение:

Telegram-группа курса
Обсуждение, вопросы, предложения

Telegram-канал

Подписывайтесь, чтобы узнавать об обновлениях и новых курсах:

@levoely_channel
Новости, обновления, новые курсы

Проверка знанийKnowledge check
Почему обзорный курс по data engineering имеет смысл проходить перед deep-dive курсами по Airflow, Spark или dbt?
ОтветAnswer
Без обзора экосистемы ты не понимаешь, зачем тебе тот или иной инструмент. Можно выучить Airflow и думать, что DE — это про планировщики, или зацикливаться на Spark, не понимая, чем он отличается от Pandas или dbt. Обзорный курс даёт карту территории: ты видишь все инструменты и их связи, и осознанно выбираешь, куда углубляться. Это экономит десятки часов на ненужное обучение и помогает строить целостную картину профессии.

Проверьте понимание

Результат: 0 из 0
Концептуальный
Вопрос 1 из 3. Для кого в первую очередь написан этот курс?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 3