Apache Spark Deep-Dive
Полный курс по Apache Spark — от внутренней архитектуры и Catalyst до lakehouse-форматов, Structured Streaming и production-операций для data-инженеров
БесплатноО курсе
106
уроков
19
модулей
~80
часов
Продвинутый
уровень
Модули курса
- Apache Spark: Обзор архитектуры 12 мин Начальный
- Driver и Executor: Архитектура распределённых вычислений 15 мин Начальный
- SparkSession и SparkContext: Точки входа 12 мин Начальный
- DAG Scheduler: От действия к стадиям 18 мин Средний
- Task Scheduler: Распределение задач по executors 18 мин Средний
- Shuffle: Самая дорогая операция Spark 20 мин Продвинутый
- Управление памятью: Unified Memory Manager 20 мин Продвинутый
- Catalyst Optimizer: Обзор архитектуры 15 мин Начальный
- Логический план: Анализ и разрешение ссылок 18 мин Средний
- Правила оптимизации: Как Catalyst ускоряет запросы 20 мин Средний
- Физический план: Стратегии выполнения 18 мин Продвинутый
- Tungsten: Off-Heap память и UnsafeRow 20 мин Продвинутый
- Whole-Stage CodeGen: Фузия операторов 18 мин Продвинутый
- DataFrames: Создание и схема 12 мин Начальный
- Трансформации: select, filter, withColumn 14 мин Начальный
- Joins: глубокое погружение 16 мин Средний
- GroupBy и агрегации 14 мин Средний
- Window-функции 16 мин Средний
- Spark SQL и Catalog API 14 мин Средний
- UDF: пользовательские функции 14 мин Продвинутый
- pandas API on Spark 16 мин Продвинутый
- Structured Streaming: основы 14 мин Средний
- Источники и приемники данных 14 мин Средний
- Режимы вывода: append, complete, update 12 мин Средний
- Watermarks и обработка опоздавших данных 16 мин Продвинутый
- Оконные функции в стриминге 16 мин Продвинутый
- Stateful операции: mapGroupsWithState 16 мин Продвинутый
- CDC: потребление событий Debezium 14 мин Продвинутый
- Архитектура Lakehouse 14 мин Средний
- Delta Lake: глубокое погружение 16 мин Средний
- Apache Iceberg: глубокое погружение 16 мин Средний
- Apache Hudi: глубокое погружение 16 мин Средний
- Apache Paimon: глубокое погружение 14 мин Средний
- Сравнение форматов: выбор технологии 14 мин Средний
- Spark Declarative Pipelines (SDP) 12 мин Продвинутый
- Лучшие практики Lakehouse 12 мин Средний
- Безопасность Spark-кластеров 14 мин Продвинутый
- Менеджеры кластеров: Standalone, YARN, Kubernetes 16 мин Средний
- Облачное развёртывание Spark 14 мин Продвинутый
- Оптимизация стоимости Spark-кластеров 12 мин Продвинутый
- CI/CD для Spark-приложений 14 мин Продвинутый
- Оркестрация Spark через Airflow 14 мин Продвинутый
- dbt + Spark: модели и инкрементальная обработка 14 мин Продвинутый
- Best practices: Spark в production 12 мин Средний
- Unit-тестирование PySpark-приложений 14 мин Средний
- Интеграционное тестирование Spark-приложений 12 мин Средний
- Библиотека spark-testing-base 10 мин Средний
- Great Expectations для Spark 16 мин Продвинутый
- Amazon Deequ: качество данных на Scala 12 мин Продвинутый
- Построение pipeline качества данных 14 мин Продвинутый
- Отслеживание lineage данных 12 мин Средний
- Лабораторная: pipeline качества данных 10 мин Средний
- Spark Connect: клиент-серверная архитектура 16 мин Продвинутый
- Графовые вычисления: GraphX и GraphFrames 14 мин Средний
- MLlib: основы Pipeline API 14 мин Средний
- MLlib: feature engineering и обучение моделей 16 мин Продвинутый
- NVIDIA RAPIDS и GPU-ускорение Spark 12 мин Средний
- Альтернативные движки и расширения Spark 14 мин Средний