Learning Platform
Глоссарий Troubleshooting
Урок 01.01 · 10 мин
Начальный
Storage FormatsData EngineeringCourse Overview

О курсе Storage Formats Deep-Dive

Зачем нужен этот курс

Формат хранения данных — одно из самых недооценённых архитектурных решений в data engineering. Выбор между Parquet и CSV может означать разницу в 10–100x по скорости запросов и стоимости хранения. Выбор между Delta Lake и Iceberg определяет, как ваша платформа будет эволюционировать следующие 3–5 лет.

Большинство data engineers знают, что “Parquet быстрее CSV” — но не понимают почему. Не знают, как работают кодировки внутри Parquet, почему ORC иногда быстрее, когда Arrow заменяет оба, и как table formats (Delta, Iceberg, Hudi) изменили правила игры.

Что вы изучите

Этот курс даёт побайтовое понимание форматов хранения:

  • Основы: row vs columnar, кодировки, компрессия, метаданные
  • Классические форматы: Parquet, ORC, Avro — внутреннее устройство, сильные и слабые стороны
  • Сериализация: Protobuf, Thrift, MessagePack — когда использовать вместо аналитических форматов
  • Legacy: CSV, JSON, XML — почему они всё ещё существуют и как с ними работать эффективно
  • In-memory: Apache Arrow — zero-copy, IPC, Flight protocol
  • Table Formats: Delta Lake, Iceberg, Hudi, Paimon — ACID на data lake
  • Новое поколение: Lance, Vortex, Nimble, F3 — что придёт после Parquet
  • Практика: как выбрать формат для конкретного use case

Чем курс уникален

Engine-agnostic подход. Мы не привязаны к Spark, Trino или DuckDB. Форматы рассматриваются на уровне спецификации — байты на диске, структуры метаданных, алгоритмы кодирования. Это знание работает в любом движке.

Глубина вместо ширины. Вместо “Parquet — это колоночный формат” вы узнаете: как row group делится на column chunks, как работает dictionary encoding с fallback на plain, почему page-level statistics ускоряют predicate pushdown в 10x.

Актуальность. Курс покрывает не только зрелые форматы (Parquet 2.x, ORC 2.0), но и новое поколение — Lance (ML-native), Vortex (GPU-optimized), Nimble (Meta’s next-gen), F3 (Future-Proof File Format, CMU SIGMOD 2025).

TIP

Даже если вы работаете только с Parquet и Delta Lake — понимание альтернатив поможет принимать обоснованные решения и объяснять выбор команде.

Для кого этот курс

  • Data Engineers — выбор и оптимизация форматов для pipeline и хранилищ
  • Analytics Engineers — понимание, почему одни запросы быстрые, а другие нет
  • Platform Engineers — проектирование data platform с правильным storage layer
  • Backend Engineers — кто работает с большими объёмами данных и хочет глубже понять storage

Формат обучения

Каждый модуль включает:

  • Теоретические уроки с диаграммами и визуализациями
  • Практические квизы для проверки понимания
  • Экзамен модуля — проходной балл 70%
NOTE

Курс предполагает последовательное прохождение модулей — каждый следующий модуль опирается на концепции из предыдущих.


Как создавался курс

Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.

Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.


Углублённое изучение с Claude

Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.

Сценарии, которые особенно хорошо работают для углублённого погружения:

  • «Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
  • «Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
  • «Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
  • «У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.

Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.


Нашли ошибку?

Если заметили неточность, опечатку или хотите предложить улучшение:

Telegram-группа курса
Обсуждение, вопросы, предложения

Telegram-канал

Подписывайтесь, чтобы узнавать об обновлениях и новых курсах:

@levoely_channel
Новости, обновления, новые курсы

Проверьте понимание

Результат: 0 из 0
Концептуальный
Вопрос 1 из 3. Для кого в первую очередь написан этот курс?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 3