Курс 29 · Data Engineering Бесплатно

Apache Spark Internals

Spark для senior: RDD, scheduler, shuffle, память, Catalyst/Tungsten, codegen, AQE, Structured Streaming internals, DataSource V2. Бесплатно, интерактивно.

Advanced

Уровень

77

Уроков

78

Часов

17

Модулей

Начать курс → К первому уроку

Что входит: 77 уроков · 17 модулей · сертификат

Часть пути «Data Engineer» Senior · Internals систем Весь путь →

Что нужно знать заранее

2 курса

Обязательно Apache Spark Открыть → Рекомендуем Modern storage formats Открыть →

Опыт production Spark-пайплайнов — DataFrame API, оптимизация, деплой
Уверенный Python или Scala/JVM
Понимание основ распределённых систем

Программа

17 модулей · 77 уроков

Введение в курс

6 уроков · 3 ч

6 уроков Открыть → 01

Философия Spark internals

4 урока · 2 ч

4 урока Открыть → 02

RDD и модель выполнения

10 уроков · 5 ч

10 уроков Открыть → 03

Архитектура и scheduler internals

12 уроков · 6 ч

12 уроков Открыть → 04

Shuffle internals

8 уроков · 4 ч

8 уроков Открыть → 05

Память и storage internals

10 уроков · 5 ч

10 уроков Открыть → 06

Catalyst и Tungsten

12 уроков · 6 ч

12 уроков Открыть → 07

Сериализация и row format

8 уроков · 4 ч

8 уроков Открыть → 08

Adaptive Query Execution

10 уроков · 5 ч

10 уроков Открыть → 09

Internals Structured Streaming

12 уроков · 6 ч

12 уроков Открыть → 10

Apache Arrow и Spark Connect

12 уроков · 6 ч

12 уроков Открыть → 11

Расширение Spark

10 уроков · 5 ч

10 уроков Открыть → 12

External Shuffle Service

6 уроков · 3 ч

6 уроков Открыть → 13

Alternative Execution Engines

12 уроков · 6 ч

12 уроков Открыть → 14

Исходники и отладка

8 уроков · 4 ч

8 уроков Открыть → 15

Капстоун: дебаг internals

10 уроков · 5 ч

10 уроков Открыть → 16

Приложение

4 урока · 2 ч

4 урока Открыть →

Ещё в направлении · Data Engineering

Все материалы направления →