Learning Platform
Глоссарий Troubleshooting
Урок 01.01 · 10 мин
Начальный

Добро пожаловать в System Design для Data Engineer

Этот курс учит проектировать data-платформы — не «как использовать Airflow», а когда и почему выбирать конкретные архитектурные решения для обработки, хранения и доставки данных.

Что вас ждёт

  • Pipeline Architecture: ETL vs ELT vs Zero-ETL, Lambda vs Kappa, Medallion architecture
  • Batch Processing: Apache Spark internals, партиционирование, оптимизация joins
  • Stream Processing: Kafka, Flink, watermarks, exactly-once semantics
  • Data Warehouse Design: Star/Snowflake schema, SCD types, dimensional modeling
  • Data Lakehouse: Delta Lake, Apache Iceberg, Hudi — сравнение и trade-offs
  • CDC Pipeline Design: проектирование Change Data Capture систем
  • Data Quality & Observability: data contracts, SLA, anomaly detection
  • Orchestration: Airflow vs Dagster vs Prefect — design, не синтаксис
  • Feature Store & ML Pipeline: serving features для ML в production
  • Real-time Analytics: metrics platforms, real-time dashboards
  • Capstone: проектирование end-to-end data platform для e-commerce

Чем этот курс отличается

Обычный DE-курсЭтот курс
Как написать DAG в AirflowКогда Airflow, когда Dagster, почему
Синтаксис PySparkКак проектировать batch pipeline для 10TB/день
Туториал по KafkaАрхитектура streaming системы с exactly-once
Документация Delta LakeTrade-offs Delta vs Iceberg vs Hudi

Предварительные требования

  • Уверенный SQL (JOIN, оконные функции, CTE)
  • Базовый Python (pandas, работа с файлами)
  • Понимание реляционных баз данных
  • Docker Desktop для лабораторий
TIP

Связь с другими курсами на платформе

Этот курс дополняет:

System Design курс учит когда и почему, специализированные курсы — как именно.

Структура курса

Фундамент (M01-M02)

  1. Основы System Design для DE — 6-layer framework, requirements, trade-offs
  2. Pipeline Architecture Patterns — ETL/ELT, Lambda/Kappa, Medallion, Data Mesh

Processing (M03-M04)

  1. Batch Processing — Spark, MapReduce, partition strategies
  2. Stream Processing — Kafka, Flink, watermarks, late data

Storage (M05-M07)

  1. Data Warehouse Design — Star/Snowflake, SCD, dimensional modeling
  2. Data Lakehouse — Delta/Iceberg/Hudi, table formats, compaction
  3. Data Modeling — advanced patterns, schema evolution

Data Operations (M08-M11)

  1. CDC Pipeline Design — architecture, exactly-once, schema evolution
  2. Data Quality & Observability — contracts, SLA, anomaly detection
  3. Orchestration — Airflow/Dagster/Prefect design patterns
  4. Governance & Lineage — cataloging, access control, compliance

Advanced (M12-M15)

  1. Feature Store — ML feature serving, online/offline stores
  2. Real-time Analytics — metrics platforms, OLAP engines
  3. Cost Optimization — compute/storage costs, right-sizing
  4. Capstone — end-to-end data platform

Формат обучения

  • Уроки с архитектурными диаграммами и trade-off analysis
  • Квизы — выбор правильного паттерна для сценария
  • Экзамены по модулю (70% pass threshold)
  • PDF-сертификат после прохождения всех экзаменов

Как создавался курс

Курс создан при участии Claude (Anthropic) как соавтора: ИИ помогал писать материалы, структурировать темы, генерировать примеры кода и диаграммы. Каждая глава проходила ручную сверку с первоисточниками — спецификациями, документацией, исходным кодом рассматриваемых систем — но гарантировать 100% точность невозможно.

Если вы заметили неточность, опечатку или хотите предложить улучшение — напишите в Telegram-группу курса. Это самый ценный вклад в курс, который вы можете сделать.


Углублённое изучение с Claude

Курс рассчитан на самостоятельное изучение, но любая теория быстрее ложится, если задавать вопросы. Рекомендую держать рядом браузерное расширение Claude (claude.com/download) — оно работает с контентом открытой страницы: выделяете кусок урока и спрашиваете напрямую.

Сценарии, которые особенно хорошо работают для углублённого погружения:

  • «Объясни проще» / «дай ещё один пример» — когда формулировка из урока не дошла с первого раза.
  • «Покажи, как это устроено на уровне кода / железа» — когда хочется спуститься на слой ниже того, что даёт урок.
  • «Как это связано с [другая тема курса]» — когда нужно увязать концепцию с тем, что было раньше.
  • «У меня в проекте стек X — как применить?» — когда хочется примерить материал на свой реальный кейс.

Это не замена курсу, а способ ускорить интеграцию материала в вашу картину мира. Если что-то из ответов Claude расходится с уроком — присылайте в Telegram-группу, курс будет уточнён.


Нашли ошибку?

Если заметили неточность, опечатку или хотите предложить улучшение:

Telegram-группа курса
Обсуждение, вопросы, предложения

Telegram-канал

Подписывайтесь, чтобы узнавать об обновлениях и новых курсах:

@levoely_channel
Новости, обновления, новые курсы

Проверьте понимание

Результат: 0 из 0
Концептуальный
Вопрос 1 из 5. Какое ключевое отличие подхода этого курса от типичного LeetCode-туториала?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 1