Skip to content
Learning Platform
Advanced
3 minutes
Итоги Python PyFlink PySpark

Итоги модуля 6: Data Engineering

Что вы изучили

В этом модуле вы освоили обработку CDC событий в data engineering pipelines: Python, PyFlink и PySpark.


Ключевые концепции

Python Consumer Patterns

  • confluent-kafka: Production-ready клиент
  • Batch processing: Микробатчи для эффективности
  • Error handling: Dead letter queues
  • Table API: SQL-like обработка
  • Debezium format: Встроенная поддержка
  • Streaming mode: Real-time processing

PySpark Structured Streaming

  • readStream: Потоковое чтение из Kafka
  • Watermarks: Обработка опозданий
  • Checkpointing: Exactly-once semantics

Feature Engineering

  • Real-time features: CDC → Feature Store
  • Aggregations: Window functions
  • Joins: Stream-stream и stream-static

ETL vs ELT

ПодходТрансформацииСкоростьГибкость
ETLДо загрузкиМедленнееЖёсткая схема
ELTПосле загрузкиБыстрееГибкая схема
Streaming ETLВ потокеReal-timeВысокая

Навыки

После прохождения модуля вы умеете:

  1. Обработать CDC события на Python
  2. Создать PyFlink streaming job
  3. Настроить PySpark Structured Streaming
  4. Реализовать real-time feature engineering
  5. Выбрать между ETL, ELT и streaming

Что дальше?

Модуль 7: Cloud-Native GCP

Debezium в облачной инфраструктуре:

  • Debezium Server (без Kafka)
  • Google Pub/Sub интеграция
  • Cloud Run deployment
  • Workload Identity

Finished the lesson?

Mark it as complete to track your progress