Итоги модуля 11: Multi-DC и Disaster Recovery

Модуль 11 закрывает тему межкластерной репликации в Kafka 4.0. Вы прошли путь от архитектуры MirrorMaker 2 до конкретных runbook’ов failover. Здесь — сводная таблица всего, что должно быть в голове при проектировании и эксплуатации Multi-DC Kafka.

Ключевые концепции: сводная таблица

Module 11 Reference: MM2 конфигурация и типичные значения

Концепция — Ключевой конфиг — Типичное значение / Примечание

MirrorSourceConnector

tasks.max

dc1->dc2.topics = .*

MirrorCheckpointConnector

emit.checkpoints.interval.seconds

sync.group.offsets.enabled=true

MirrorHeartbeatConnector

heartbeats.interval.seconds

heartbeat_age alert threshold

DefaultReplicationPolicy

IdentityReplicationPolicy

topics.exclude = .*\\.internal,heartbeats

RPO

RTO

Active-Active RTO

Ключевые JMX метрики MM2

Метрика	MBean	Alert порог
Задержка репликации	`kafka.mirror:type=MirrorSourceConnector,target=dc2` -> `replication-latency-ms-avg`	> 5000ms (warning), > 30000ms (critical)
Heartbeat age	Потребитель heartbeats топика, разница timestamp	> 30 сек (warning), > 60 сек (critical)
Checkpoint lag	`kafka.connect:type=connector-task-metrics,connector=MirrorCheckpointConnector` -> `offset-commit-avg-time-ms`	> 5000ms
Connector status	`kafka.connect:type=connector-metrics,connector=MirrorSourceConnector` -> `status`	!= RUNNING
Byte rate	`kafka.mirror:...` -> `byte-rate`	< ожидаемого (падение = остановка репликации)

Связь с предыдущими и последующими модулями

Модуль 11 строится на знаниях из всего курса и является обязательной предпосылкой для финального Модуля 13:

Тема	Связанный модуль	Применение в Multi-DC
Репликация партиций, ISR	Модуль 01	DR-кластер должен иметь свой собственный ISR, независимый от primary
Kafka Connect фреймворк	Модуль 05	MM2 построен на Connect: REST API, задачи, мониторинг
Security: SASL/SSL	Модуль 09	Cross-cluster аутентификация: MM2 нужны credentials для обоих кластеров
JMX мониторинг	Модуль 10	MM2-специфичные MBeans дополняют broker и Connect мониторинг
Capstone architecture	Модуль 13	MM2 DC-1->DC-2 репликация является частью финального дизайна

Подготовка к Модулю 12

Модуль 12 переходит от операционных к архитектурным паттернам. Если Модуль 11 отвечал на вопрос “как сделать Kafka отказоустойчивой на уровне инфраструктуры”, Модуль 12 отвечает на вопрос “как проектировать приложения, которые используют Kafka правильно”.

Четыре паттерна Модуля 12 строятся на концепциях Kafka, которые вы уже изучили:

Event Sourcing: append-only лог из Модуля 01 как event store
CQRS: KTable и KStream из Модуля 07 как read-side read models
Transactional Outbox: Kafka Connect из Модуля 05 как транспорт CDC-событий
Saga Pattern: транзакции продюсера из Модуля 02 для атомарного управления сагой

Проверка знанийKnowledge check

Собеседование вопрос: Команда планирует развернуть Kafka в двух дата-центрах для e-commerce платформы. Требования: (1) оба DC обслуживают локальных пользователей без cross-DC hop, (2) при падении одного DC второй продолжает работу без ручного вмешательства, (3) данные должны быть одинаковы на обоих DC в течение не более 5 секунд. Опишите полную конфигурацию MM2 (топология, ключевые параметры) и объясните как предотвращается циклическая репликация.

ОтветAnswer

Топология: Active-Active. Обоснование: (1) локальные пользователи = оба DC активны. (2) при падении одного DC второй уже обслуживает трафик = RTO~0. (3) 5 секунд RPO = задержка репликации, достижимо при нормальных сетевых условиях. Конфигурация mm2.properties: clusters=dc1,dc2. Bootstraps для обоих. dc1->dc2.enabled=true, dc2->dc1.enabled=true (двунаправленная). replication.policy.class=IdentityReplicationPolicy (обязательно для Active-Active, сохраняет имена топиков). dc1->dc2.topics.exclude=.*\\.internal,heartbeats -- dc2->dc1 аналогично. emit.checkpoints.interval.seconds=10 для checkpoint RPO<10 сек. sync.group.offsets.enabled=true для обоих направлений. Для 5-секундного data RPO: tasks.max = числу партиций (максимальный параллелизм). Предотвращение цикла: два механизма. (1) MM2 добавляет заголовок __mm2.record.header.source.cluster.alias=dc1 к каждой реплицированной записи. Когда MirrorSourceConnector на dc2 читает эту запись при репликации dc2->dc1, он видит заголовок source.cluster=dc1 (= current target), и НЕ реплицирует. (2) topics.exclude исключает *.internal и heartbeats топики из двусторонней репликации. Конфликты записи: partition affinity -- EU-пользователи пишут только в dc1, US-пользователи только в dc2 по диапазону ключей. Никаких конфликтов.