Learning Platform
Глоссарий Troubleshooting
Урок 01.02 · 10 мин
Начальный
Course StructureLearning PathModules

Структура курса

Общий план

Курс состоит из 19 модулей, сгруппированных в 6 тематических блоков. Примерное время прохождения — 80 часов.

Блок 1: Фундамент (модули 01–01)

МодульТемаВремя
01 — Основы форматов храненияRow vs columnar, кодировки, компрессия, метаданные~4 ч

Этот блок создаёт концептуальную базу. Всё, что вы изучите дальше, опирается на эти фундаментальные понятия: как данные раскладываются на диске, как кодировки уменьшают объём, как метаданные позволяют пропускать ненужные данные.

Блок 2: Аналитические форматы (модули 02–04)

МодульТемаВремя
02 — Apache ParquetПобайтовый разбор: row groups, column chunks, pages, footer~6 ч
03 — Apache ORCStripes, index, bloom filters, ACID в Hive~5 ч
04 — Apache AvroSchema-first подход, schema resolution, container files~4 ч

Блок 3: Сериализация и Legacy (модули 05–06)

МодульТемаВремя
05 — Protobuf, Thrift, MessagePackБинарная сериализация для RPC и event streaming~4 ч
06 — CSV, JSON, XMLПочему они живы, и как работать с ними эффективно~3 ч

Блок 4: In-Memory и глубокие техники (модули 07–10)

МодульТемаВремя
07 — Apache ArrowZero-copy, IPC, Flight, DataFusion integration~6 ч
08 — Кодировки данныхDictionary, RLE, delta, bit-packing — глубокий разбор~5 ч
09 — КомпрессияSnappy, Zstd, LZ4, GZIP — алгоритмы и бенчмарки~4 ч
10 — Schema EvolutionForward/backward compatibility, schema registry~4 ч

Блок 5: Table Formats (модули 11–16)

МодульТемаВремя
11 — Delta LakeTransaction log, time travel, Z-order, liquid clustering~6 ч
12 — Apache IcebergMetadata tree, hidden partitioning, incremental reads~6 ч
13 — Apache HudiCopy-on-write vs merge-on-read, timeline, compaction~5 ч
14 — Apache PaimonStreaming lakehouse, changelog, append-only tables~4 ч
15 — Lance и VortexML-native формат, GPU-optimized columnar~4 ч
16 — Nimble и F3Meta’s next-gen формат, F3 (Future-Proof File Format, CMU SIGMOD 2025)~3 ч

Блок 6: Практика (модули 17–18)

МодульТемаВремя
17 — Выбор формата на практикеDecision framework, бенчмарки, миграция~4 ч
18 — Capstone-проектПроектирование storage layer для реального use case~6 ч

Рекомендуемый порядок

Модули 01–10 — строго последовательно. Модули 11–16 (table formats) можно проходить в любом порядке после модуля 10. Модули 17–18 — после всех предыдущих.

TIP

Если вы уже хорошо знакомы с основами (row vs columnar, кодировки), можете начать с модуля 02 (Parquet) — но рекомендуем хотя бы пролистать модуль 01 для выравнивания терминологии.

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 3