Learning Platform
Каталог / Data Engineering / Middle
01
Data Engineering · Уровень

Middle

Рабочий стек инженера: оркестрация, стриминг, обработка, хранилища.

11
Курсов
614
Часов
1028
Уроков
102
Недель
Курсы / 01–11
11 курсов
01
Apache Airflow 2
Ультимативный курс по Apache Airflow 2.x — от scheduler internals и critical section до Celery/Kubernetes executors, Datasets, Deferrable Operators, OpenLineage и production HA setup. Target: 2.10/2.11 LTS с обзором upgrade path на 3.x.
10 недель
125 уроков
Advanced Открыть →
02
Apache Flink
Production-курс по Apache Flink 2.x для data engineers. Учит писать stateful streaming jobs с exactly-once семантикой, разворачивать их на Kubernetes через Flink K8s Operator, строить CDC-пайплайны через Flink CDC. От DataStream API и keyed state до Table API/SQL, savepoints и production deployment. Baseline — Flink 2.2 (май 2026), сравнения с Spark Structured Streaming и Kafka Streams.
9 недель
69 уроков
Intermediate Открыть →
03
Apache Kafka
Ультимативный курс по Apache Kafka — от архитектуры KRaft до production operations и design patterns
7 недель
78 уроков
Advanced Открыть →
04
Apache Spark
Практический курс по Apache Spark для data-инженеров — DataFrames и Spark SQL, оптимизация производительности, Structured Streaming, lakehouse-форматы (Delta, Iceberg, Hudi) и production-операции. От основ работы с движком до развёртывания пайплайнов в проде.
9 недель
77 уроков
Intermediate Открыть →
05
Clickhouse
Ультимативный курс по ClickHouse — от устройства хранилища до production operations
8 недель
132 уроков
Advanced Открыть →
06
dbt II
Курс уровня middle по dbt — для analytics/data engineer 1-3 года опыта, готового вести production-проект в команде. Глубокий разбор incremental моделей (включая microbatch 1.9+), snapshots с SCD2 и hard_deletes, тестов (custom generic, unit tests, dbt-expectations), CI/CD (Slim CI, defer, GitHub Actions), Semantic Layer / MetricFlow, model contracts и versions, multi-environment паттернов. Warehouse — DuckDB как teaching-friendly референс, с честными ремарками где production будет Snowflake/BigQuery. Курс закрывает разрыв между туториалами Jaffle Shop и реальным production-проектом на 100+ моделей.
11 недель
76 уроков
Intermediate Открыть →
07
Debezium CDC
Полное руководство по Change Data Capture с Debezium — от основ до production deployment
4 недели
76 уроков
Intermediate Открыть →
08
DuckDB
Курс уровня middle по DuckDB — встраиваемой аналитической СУБД, «SQLite для аналитики». Актуальные версии — DuckDB 1.5.2 (stable) и 1.4 LTS «Andium». От friendly SQL-диалекта и системы типов через векторизованный движок исполнения «до железа» (вектор размером 2048, DataChunk, push-based модель), storage-формат, колоночное сжатие (RLE, dictionary, FSST, ALP, bit packing) и morsel-driven параллелизм к чтению внешних данных (Parquet, CSV, JSON) без импорта, экосистеме расширений, zero-copy интеграции с Python data-стеком, larger-than-memory исполнению и DuckLake — новому open-source lakehouse-формату от DuckDB Labs. Курс объясняет, почему DuckDB — это in-process движок без сервера, и доводит понимание до байтов storage-формата. Завершается капстоуном: локальный аналитический lakehouse.
11 недель
104 уроков
Intermediate Открыть →
09
Modern storage formats
Форматы хранения данных — от Parquet и ORC через Arrow до Delta Lake и Iceberg. Побайтовый разбор, кодировки, компрессия, schema evolution, table formats.
13 недель
107 уроков
Advanced Открыть →
10
Python 02
Ультимативный курс по Python для Big Data Engineer — от синтаксиса и DSA-уровня структур данных до production-grade паттернов, профайлинга и packaging
8 недель
86 уроков
Advanced Открыть →
11
Trino
Курс уровня middle по Trino — распределённому SQL-движку запросов для аналитики над data lake и федерации источников данных. Актуальная версия — Trino 481 (релизы выходят каждые 1-4 недели, номер монотонно растёт). От MPP-архитектуры (coordinator, workers, Connector SPI) через жизненный цикл запроса и распределённое исполнение «до железа» (stages, tasks, splits, drivers, operators, exchange-модель, колоночный Page/Block-формат) к cost-based optimizer, dynamic filtering, lakehouse-коннекторам (Iceberg, Delta Lake, Hive), федеративным запросам, управлению памятью, fault-tolerant execution, безопасности и эксплуатации на Kubernetes. Курс объясняет, почему Trino — это движок запросов, а НЕ база данных, и доводит понимание до уровня внутренних механизмов. Завершается капстоуном: продакшен-lakehouse на Trino, Iceberg и object storage.
11 недель
98 уроков
Intermediate Открыть →