Итоги модуля 4: Production Operations

Что вы изучили

В этом модуле вы освоили production operations: мониторинг, alerting и troubleshooting Debezium в реальных условиях.

Ключевые концепции

JMX Metrics

MilliSecondsBehindSource: Отставание от БД
MilliSecondsSinceLastEvent: Время без событий
QueueRemainingCapacity: Буфер событий

Alert Thresholds

Warning: lag > 30 секунд
Critical: lag > 5 минут
Queue: capacity < 20%

Prometheus/Grafana

JMX Exporter: Экспорт метрик
Dashboards: Визуализация lag и throughput
Alerting rules: Автоматические уведомления

Disaster Recovery

Snapshot re-trigger: signal.data.collection
Position reset: Откат к известной позиции
Schema recovery: Восстановление истории

Diagnostic Decision Tree

High lag?
├── Queue full? → Increase max.queue.size
├── Slow consumers? → Check downstream
├── Source overload? → Snapshot in progress?
└── Network issues? → Check connectivity

Навыки

После прохождения модуля вы умеете:

Интерпретировать JMX метрики Debezium
Настроить Prometheus scraping
Создать Grafana dashboards
Настроить alerting rules
Выполнить disaster recovery

Что дальше?

Модуль 5: SMT и Паттерны

Трансформации и продвинутые паттерны:

Single Message Transforms (SMT)
Outbox pattern для transactional messaging
Content-based routing
Schema Registry и Avro