О курсе Storage Formats Deep-Dive
Зачем нужен этот курс
Формат хранения данных — одно из самых недооценённых архитектурных решений в data engineering. Выбор между Parquet и CSV может означать разницу в 10–100x по скорости запросов и стоимости хранения. Выбор между Delta Lake и Iceberg определяет, как ваша платформа будет эволюционировать следующие 3–5 лет.
Большинство data engineers знают, что “Parquet быстрее CSV” — но не понимают почему. Не знают, как работают кодировки внутри Parquet, почему ORC иногда быстрее, когда Arrow заменяет оба, и как table formats (Delta, Iceberg, Hudi) изменили правила игры.
Что вы изучите
Этот курс даёт побайтовое понимание форматов хранения:
- Основы: row vs columnar, кодировки, компрессия, метаданные
- Классические форматы: Parquet, ORC, Avro — внутреннее устройство, сильные и слабые стороны
- Сериализация: Protobuf, Thrift, MessagePack — когда использовать вместо аналитических форматов
- Legacy: CSV, JSON, XML — почему они всё ещё существуют и как с ними работать эффективно
- In-memory: Apache Arrow — zero-copy, IPC, Flight protocol
- Table Formats: Delta Lake, Iceberg, Hudi, Paimon — ACID на data lake
- Новое поколение: Lance, Vortex, Nimble, F3 — что придёт после Parquet
- Практика: как выбрать формат для конкретного use case
Чем курс уникален
Engine-agnostic подход. Мы не привязаны к Spark, Trino или DuckDB. Форматы рассматриваются на уровне спецификации — байты на диске, структуры метаданных, алгоритмы кодирования. Это знание работает в любом движке.
Глубина вместо ширины. Вместо “Parquet — это колоночный формат” вы узнаете: как row group делится на column chunks, как работает dictionary encoding с fallback на plain, почему page-level statistics ускоряют predicate pushdown в 10x.
Актуальность. Курс покрывает не только зрелые форматы (Parquet 2.x, ORC 2.0), но и новое поколение — Lance (ML-native), Vortex (GPU-optimized), Nimble (Meta’s next-gen), F3 (Future-Proof File Format, CMU SIGMOD 2025).
Даже если вы работаете только с Parquet и Delta Lake — понимание альтернатив поможет принимать обоснованные решения и объяснять выбор команде.
Для кого этот курс
- Data Engineers — выбор и оптимизация форматов для pipeline и хранилищ
- Analytics Engineers — понимание, почему одни запросы быстрые, а другие нет
- Platform Engineers — проектирование data platform с правильным storage layer
- Backend Engineers — кто работает с большими объёмами данных и хочет глубже понять storage
Формат обучения
Каждый модуль включает:
- Теоретические уроки с диаграммами и визуализациями
- Практические квизы для проверки понимания
- Экзамен модуля — проходной балл 70%
Курс предполагает последовательное прохождение модулей — каждый следующий модуль опирается на концепции из предыдущих.
Как создавался курс
Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.
Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.
Углублённое изучение с Claude
Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.
Сценарии, которые особенно хорошо работают для углублённого погружения:
- «Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
- «Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
- «Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
- «У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.
Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.
Нашли ошибку?
Если заметили неточность, опечатку или хотите предложить улучшение:
Telegram-канал
Подписывайтесь, чтобы узнавать об обновлениях и новых курсах: