Итоги модуля: Production Operations

Модуль 10 закрывает разрыв между “знаю Kafka API” и “умею эксплуатировать Kafka в production”. Здесь собраны все ключевые числа, пороги и операционные процедуры.

Production ops checklist

Ops lifecycle: Plan -> Monitor -> Scale -> Repeat

Каждый этап ссылается на урок модуля

Plan (capacity)

Monitor (JMX/Prometheus)

Tune (performance)

Scale (reassign)

Repeat

Monitoring checklist:

JMX Exporter (port 9404) настроен на всех брокерах
kafka-exporter настроен для consumer group lag
Prometheus scrape: 15s для JMX, 30s для kafka-exporter
Grafana дашборд с панелями: Broker Health, Throughput, Latency, Consumer Lag
Алерты настроены (минимум): URP > 0 на 5 мин, RequestHandlerAvgIdlePercent < 0.3, consumer lag > 10000

Performance checklist:

Throughput producer: batch.size=1MB, linger.ms=50, compression=lz4, buffer.memory=64MB
Latency producer: batch.size=16KB, linger.ms=0, compression=none, acks=1
Consumer: fetch.min.bytes=1MB, max.poll.records=1000
Broker: НЕ настраивать log.flush.interval.messages/ms

Capacity checklist:

Формулы посчитаны для текущей нагрузки
+30-40% headroom на все ресурсы
Partition count = max(throughput-based, consumer-based) × 2, кратно числу брокеров
NIC утилизация не превышает 70%

Operations checklist:

kafka-reassign-partitions процедура задокументирована
Throttle значение рассчитано для кластера
Runbook для добавления/удаления брокера готов

Ключевые числа: сводная таблица

Топ-20 ключевых параметров и порогов

Параметр

Рекомендованное значение

Alert-порог

UnderReplicatedPartitions

больше 0 на 5+ мин

RequestHandlerAvgIdlePercent

больше 0.30 (30% простоя)

меньше 0.30 на 10+ мин

ActiveControllerCount

не равно 1

Produce TotalTimeMs p99

меньше 100ms (acks=all)

больше 500ms

records-lag-max

меньше 100

больше 1000 / больше 10000

batch.size (throughput)

1048576 (1 MB)

Не применимо

linger.ms (throughput)

50ms

Не применимо

compression.type

lz4

Избегать gzip

fetch.min.bytes

1048576 (1 MB)

Не применимо

JVM Heap

6 GB (фиксированный)

больше 8 GB

NIC утилизация

меньше 70%

больше 70% sustained

Headroom (disk/network)

30-40%

меньше 20%

Throttle (reassignment)

50 MB/s (52428800)

0 (без throttle)

Типичные ошибки production ops

Топ-4 ошибки Production Operations

1. Reassignment без throttle

2. Чрезмерное количество партиций

3. log.flush.interval.messages в production

4. JVM Heap больше 8 GB

Связь с предыдущими модулями

Production ops применяет знания из всего курса:

Тема	Модуль	Применение в Production Ops
ISR, репликация	Модуль 01	UnderReplicatedPartitions диагностика
Producer API	Модуль 02	batch.size, linger.ms, acks config
Consumer API	Модуль 03	fetch.min.bytes, lag monitoring
Log segments	Модуль 04	Disk sizing, page cache
Квоты	Модуль 09	Встроены в production ops checklist

Проверка знанийKnowledge check

Production сценарий: кластер 3 брокера, 20 топиков, суммарно 240 партиций (RF=3). Мониторинг показывает: disk utilization broker-2 = 95%, broker-1 и broker-3 = 45%. UnderReplicatedPartitions = 0. records-lag-max для analytics-group = 15,000. Опишите: (1) план действий в порядке приоритета, (2) почему диск broker-2 заполнен (возможные причины), (3) как исправить дисбаланс дисков.

ОтветAnswer

(1) Порядок приоритетов: ПЕРВОЕ -- consumer lag 15,000 (CRITICAL). Диагностика: kafka-consumer-groups.sh --describe. Если records-consumed-rate = 0 -- scale consumer group или перезапустить. Если consumed-rate > 0 но lag растёт -- добавить consumers или проверить max.poll.interval.ms. ВТОРОЕ -- disk broker-2 95% (WARNING). Риск: при следующем retention-cleanup может не успеть освободить место. Срочно: проверить retention.ms для топиков, временно снизить retention для некритичных топиков, добавить диск или начать reassignment. (2) Причины дисбаланса диска: (а) Изначально неравномерное создание партиций -- broker-2 получил hot топики с большим объёмом; (б) Rolling restart: брокер становится preferred leader для многих партиций после перезапуска; (в) kafka-reassign-partitions не запускался после добавления broker-1 или broker-3. (3) Исправление: kafka-reassign-partitions --generate с broker-list=1,2,3 -- переместить часть партиций с broker-2 на broker-1 и broker-3. Throttle: при текущей нагрузке 45% disk на broker-1/3 -- 50 MB/s безопасно. После reassignment: preferred leader election. Мониторить BytesInPerSec per broker для равномерности.

Итоги модуля: Production Operations

Production ops checklist

Ключевые числа: сводная таблица

Типичные ошибки production ops

Связь с предыдущими модулями

Закончили урок?