Решение проблем Apache Kafka

Question 1

NOT_LEADER_OR_FOLLOWER (error code 6)

Accepted Answer

Лидер партиции переместился на другой брокер во время перезапуска или переназначения разделов. Клиент использует устаревшие метаданные и направляет запросы на брокер, который больше не является лидером. Увеличьте metadata.max.age.ms (например, до 60000 мс), чтобы клиент чаще обновлял метаданные Настройте retries >= 10 и retry.backoff.ms >= 200 для автоматического повтора после обновления метаданных Проверьте состояние брокеров командой kafka-topics.sh --describe и убедитесь в наличии лидера для каждой партиции Мониторьте UncleanLeaderElectionsPerSec — ненулевое значение указывает на проблемы с репликацией

Question 2

REBALANCE_IN_PROGRESS

Accepted Answer

Консьюмер превысил session.timeout.ms (не отправил heartbeat вовремя) или max.poll.interval.ms (слишком долго обрабатывал записи между вызовами poll()). Это интерпретируется координатором группы как сбой участника и запускает ребалансировку. Увеличьте max.poll.interval.ms до значения, превышающего максимальное время обработки одного батча Уменьшите max.poll.records, чтобы сократить объём работы между вызовами poll() Перейдите на CooperativeStickyAssignor — он минимизирует число партиций, передаваемых при ребалансировке Рассмотрите использование статического членства (group.instance.id) для консьюмеров с предсказуемым временем перезапуска

Question 3

LEADER_NOT_AVAILABLE (error code 5)

Accepted Answer

Лидер партиции ещё не избран — это типично для только что созданного топика или после того, как ISR опустел и unclean.leader.election.enable=false. Брокер возвращает ошибку, пока контроллер не завершит выборы. Подождите несколько секунд: выборы лидера в KRaft обычно занимают менее 1 секунды, но при нестабильном кластере могут затягиваться Проверьте состояние ISR: kafka-topics.sh --describe должен показывать непустой ISR для каждой партиции Убедитесь, что replication.factor не превышает число доступных брокеров Если ошибка носит постоянный характер, проверьте логи контроллера на наличие ошибок выборов

Question 4

NOT_ENOUGH_REPLICAS (error code 19)

Accepted Answer

Число живых синхронизированных реплик (ISR) стало меньше min.insync.replicas. Это происходит, когда брокеры падают, сетевая связность между брокерами нарушена, или фолловер не успевает за лидером и вылетает из ISR по таймауту replica.lag.time.max.ms. Верните упавшие брокеры в строй — это восстановит ISR и позволит возобновить запись При длительном простое временно уменьшите min.insync.replicas до 1 на критических топиках (с пониманием рисков) Проверьте сетевую связность между брокерами: высокая задержка или потери пакетов выбрасывают реплики из ISR Увеличьте replica.lag.time.max.ms, если фолловеры отстают из-за нагрузки дискового I/O

Question 5

OFFSET_OUT_OF_RANGE

Accepted Answer

Зафиксированное смещение больше не существует в топике: данные были удалены политикой хранения (retention.ms истёк или диск заполнен), либо зафиксированное смещение указывает за пределы текущего конца лога (LEO). Чаще всего это происходит, когда консьюмер-группа долго не работала и offsets.retention.minutes истёк. Установите auto.offset.reset=earliest, чтобы при потере смещения начинать с доступных данных Увеличьте offsets.retention.minutes на брокере (по умолчанию 7 дней) для хранения смещений спящих групп Настройте мониторинг consumer lag — рост лага сигнализирует о проблемах задолго до потери смещений Используйте kafka-consumer-groups.sh --reset-offsets для ручного задания смещения при необходимости

Question 6

RecordTooLargeException: The request included a message larger than the max message size the server will accept

Accepted Answer

Размер сообщения превышает один из трёх лимитов: max.request.size на продюсере (по умолчанию 1 МБ), message.max.bytes на брокере (по умолчанию 1 МБ) или max.message.bytes на уровне топика. Все три значения должны быть согласованы — несоответствие хотя бы одного вызывает ошибку. Согласуйте все три параметра: max.request.size (продюсер) >= message.max.bytes (брокер) >= max.message.bytes (топик) Включите компрессию на продюсере: compression.type=lz4 или snappy снижает размер батча в 3-5 раз Рассмотрите разбиение больших сообщений на части с последующей сборкой на стороне консьюмера Для бинарных данных используйте внешнее хранилище (S3, HDFS) и передавайте через Kafka только ссылки

Question 7

TimeoutException: Expiring N record(s) for topic-partition after delivery.timeout.ms ms

Accepted Answer

Брокер не подтверждает запросы за время delivery.timeout.ms (по умолчанию 120 000 мс). Причины: брокер перегружен медленным дисковым I/O или GC-паузами, сетевая задержка слишком высокая, или buffer.memory переполнен из-за высокого темпа продукции. Увеличьте delivery.timeout.ms пропорционально реальным задержкам подтверждений в p99 Проверьте нагрузку на брокеры: метрики RequestHandlerAvgIdlePercent и NetworkProcessorAvgIdlePercent должны быть выше 30% Увеличьте buffer.memory (по умолчанию 32 МБ) при высоком темпе продукции Настройте compression.type=lz4 для уменьшения объёма данных, передаваемых по сети

Question 8

CommitFailedException: Offset commit cannot be completed since the consumer is not part of an active group

Accepted Answer

Ребалансировка завершилась, пока консьюмер обрабатывал записи — координатор присвоил новое поколение группы. Попытка зафиксировать смещения для старого поколения отклоняется. Корневая причина: обработка батча заняла больше времени, чем max.poll.interval.ms. Используйте commitAsync() с обратным вызовом для асинхронной фиксации — фиксация не блокирует обработку Увеличьте max.poll.interval.ms до значения, в 1.5-2 раза превышающего максимальное время обработки батча Уменьшите max.poll.records, чтобы каждый батч обрабатывался значительно быстрее таймаута Перенесите тяжёлые операции (вызовы внешних API, запись в БД) в асинхронные задачи с отдельным пулом потоков

Question 9

UNKNOWN_TOPIC_OR_PARTITION (error code 3)

Accepted Answer

Топик не существует в кластере. Возможные причины: auto.create.topics.enable=false на брокере (типично для production), опечатка в имени топика, или топик не был создан в рамках процесса деплоя. В production-кластерах автосоздание топиков отключают намеренно. Создайте топик заранее командой: kafka-topics.sh --create --topic --partitions --replication-factor Дважды проверьте имя топика — Kafka чувствительна к регистру и не допускает специальных символов кроме точек, дефисов и подчёркиваний В CI/CD пайплайне добавьте шаг создания топиков перед деплоем приложения Если auto.create.topics.enable=true и ошибка всё равно возникает, проверьте права доступа (ACL)

Question 10

SSL handshake failed: Received fatal alert: certificate_unknown

Accepted Answer

Несоответствие SSL-конфигурации: клиент не доверяет сертификату брокера (отсутствует CA в truststore), сертификат истёк, имя хоста в сертификате не совпадает с адресом брокера, или между клиентом и брокером несовместимые версии TLS-протокола. Проверьте срок действия сертификатов: openssl s_client -connect broker:9093 -showcerts покажет цепочку и дату истечения Убедитесь, что CA-сертификат брокера добавлен в truststore всех клиентов При ошибке hostname: либо добавьте правильный SAN в сертификат, либо установите ssl.endpoint.identification.algorithm='' (только для dev) Проверьте совместимость TLS-версий: брокер и клиент должны поддерживать общие cipher suites

Question 11

org.apache.kafka.connect.errors.ConnectException: Failed to find any class that implements Connector and which name matches <ClassName>

Accepted Answer

JAR-файл коннектора отсутствует в директориях, указанных в plugin.path воркера, или класс коннектора не находится в пути поиска плагинов. Kafka Connect использует изолированные classloaders для каждого плагина — JAR должен быть в отдельной поддиректории plugin.path. Убедитесь, что JAR коннектора и все его зависимости находятся в отдельной папке внутри plugin.path Проверьте значение plugin.path в connect-distributed.properties — укажите несколько путей через запятую при необходимости После добавления JAR перезапустите воркер — плагины сканируются только при старте Используйте confluent-hub install или ручную установку по документации конкретного коннектора

Question 12

ERROR WorkerSinkTask: Task threw an uncaught and unrecoverable exception; stopping task

Accepted Answer

Sink-задача не может десериализовать входящие сообщения из-за несоответствия конвертера (value.converter) формату данных в топике. Типичные причины: схема изменилась и несовместима с текущей версией в Schema Registry, URL Schema Registry не задан, или сообщения в топике имеют смешанный формат. Проверьте и согласуйте настройки key.converter и value.converter с форматом данных в топике Задайте schema.registry.url в конфигурации воркера и коннектора Настройте Dead Letter Queue (errors.deadletterqueue.topic.name) для изоляции проблемных сообщений без остановки задачи Включите errors.tolerance=all и errors.log.enable=true для диагностики без прерывания обработки

Question 13

org.apache.kafka.streams.errors.StreamsException: Missing source topics: [<topic-name>]

Accepted Answer

Топология Kafka Streams ссылается на входные топики, которые не существуют в кластере. Это происходит при деплое приложения раньше, чем созданы необходимые топики, или при ошибке в именах топиков в конфигурации приложения. Создайте входные топики перед запуском приложения — добавьте шаг создания топиков в процесс деплоя Вызовите topology.describe() в логировании при старте для проверки всех топиков, на которые ссылается топология Сравните имена топиков в конфигурации приложения и в кластере с учётом среды (dev/staging/prod) Настройте StreamsConfig.REPLICATION_FACTOR_CONFIG — Streams создаёт changelog и repartition топики автоматически

Question 14

InvalidReplicationFactorException: Replication factor is larger than the number of available brokers

Accepted Answer

Значение replication.factor при создании топика превышает количество доступных (живых) брокеров в кластере. Kafka не может разместить реплики на несуществующих брокерах, поэтому отклоняет запрос на создание топика. Убедитесь, что число живых брокеров не меньше replication.factor: kafka-broker-api-versions.sh покажет доступные брокеры Для dev-окружений используйте replication.factor=1 и min.insync.replicas=1 — это нормально без требований к отказоустойчивости Настройте default.replication.factor на брокере для автосоздаваемых топиков При горизонтальном масштабировании сначала добавьте брокеры, потом увеличивайте replication.factor

Question 15

Consumer group is rebalancing — generation mismatch, repeated empty polls

Accepted Answer

Один или несколько консьюмеров в группе ведут себя непредсказуемо: зависают, медленно обрабатывают данные или имеют нестабильное сетевое соединение. Каждый сбой запускает новую ребалансировку, не давая группе достичь стабильного состояния. Проблема усугубляется при большом числе партиций и участников группы. Проверьте здоровье каждого экземпляра консьюмера — найдите зависающие или медленные обработчики Включите статическое членство группы через group.instance.id — это позволяет кратковременно пропадающим консьюмерам переподключаться без ребалансировки Убедитесь в отсутствии zombie-консьюмеров: процессы, которые числятся в группе, но уже не работают Перейдите на CooperativeStickyAssignor для инкрементальной ребалансировки без остановки всей обработки

Question 16

java.lang.OutOfMemoryError: Java heap space (broker JVM crash)

Accepted Answer

Хип JVM брокера исчерпан. Основные причины: слишком маленький -Xmx для текущей нагрузки, большое число соединений (каждое требует буферов), слишком большой fetch.max.bytes в запросах консьюмеров, или утечка памяти в обработчиках запросов. Увеличьте размер хипа через KAFKA_HEAP_OPTS: -Xmx6g -Xms6g (типично 4-8 ГБ для production) Настройте max.connections.per.ip и max.connections для ограничения числа одновременных подключений Ограничьте fetch.max.bytes и max.partition.fetch.bytes в конфигурации консьюмеров Включите JVM GC-логирование (-Xlog:gc*) и анализируйте паттерн выделения памяти перед OOM

Question 17

SASL authentication failed: Security: KafkaClient; Exception: Unable to find LoginModule class

Accepted Answer

SASL настроен в security.protocol, но JVM не может найти класс LoginModule, указанный в JAAS-конфигурации. Типичные причины: JAAS-файл не передан JVM через параметр -Djava.security.auth.login.config, имена секций KafkaServer или KafkaClient написаны с ошибкой, или нужный модуль (krb5, scram) отсутствует в classpath. Передайте JAAS-конфигурацию через JVM-аргумент: -Djava.security.auth.login.config=/path/to/kafka_jaas.conf Проверьте точность имён секций в JAAS: для брокера — KafkaServer, для клиента — KafkaClient (чувствительно к регистру) Для SASL/PLAIN и SCRAM убедитесь, что PlainLoginModule или ScramLoginModule присутствует в classpath Kafka Для Kerberos (GSSAPI) проверьте наличие krb5.conf и корректность principal/keytab

Question 18

Under-replicated partitions: kafka.server:type=ReplicaManager,name=UnderReplicatedPartitions > 0

Accepted Answer

Фолловеры не успевают догнать лидера и вылетают из ISR. Причины: перегруженность диска на брокере-фолловере, высокая сетевая задержка между брокерами, неравномерное распределение лидеров (один брокер является лидером для слишком многих партиций), или временный сбой одного брокера. Проверьте дисковый I/O на отстающих брокерах: iostat -x 1 покажет утилизацию дисков Перебалансируйте лидеров партиций: kafka-leader-election.sh для равномерного распределения нагрузки Увеличьте replica.fetch.max.bytes и num.replica.fetchers на отстающем брокере для ускорения репликации Проверьте сетевую связность между брокерами и увеличьте replica.lag.time.max.ms при высоких задержках

Question 19

Log segment corruption: CRC check failed (found: , computed: )

Accepted Answer

Файл сегмента лога повреждён — контрольная сумма CRC записей не совпадает. Чаще всего это следствие аварийного отключения без flush данных на диск, аппаратного сбоя (RAID без записи, битый сектор), или файловой системы без journaling. Определите повреждённый сегмент командой: kafka-dump-log.sh --files /path/to/segment.log --print-data-log 2>&1 | grep -i corruption Если кластер работает с репликацией, удалите повреждённые сегменты на проблемном брокере и дайте репликации восстановить данные При отсутствии реплик: удалите повреждённый сегмент вручную и перезапустите брокер — данные из сегмента будут потеряны Для профилактики используйте файловую систему ext4 или xfs с journaling и настройте UPS для брокеров

Question 20

ProducerFencedException: There is a newer producer with the same transactionalId

Accepted Answer

Два экземпляра продюсера используют одинаковый transactional.id, или новый экземпляр был создан раньше, чем старый завершил свои транзакции. Kafka повышает эпоху продюсера (producer epoch) — старые экземпляры с меньшей эпохой блокируются для предотвращения дублирования сообщений. Гарантируйте, что только один активный экземпляр использует данный transactional.id — реализуйте лидерную блокировку (leader election) при горизонтальном масштабировании Перехватывайте ProducerFencedException отдельно от других исключений — это сигнал о создании нового экземпляра продюсера, а не о повторной попытке При перезапуске приложения создавайте новый экземпляр KafkaProducer — старый экземпляр не подлежит восстановлению На стороне консьюмеров установите isolation.level=read_committed для чтения только завершённых транзакций

Question 21

io.confluent.kafka.schemaregistry.client.rest.exceptions.RestClientException: Schema being registered is incompatible with an earlier schema (compatibility: BACKWARD)

Accepted Answer

Новая версия схемы нарушает режим совместимости, установленный для данного subject в Schema Registry. При BACKWARD-совместимости консьюмеры со старой схемой должны уметь читать данные, записанные с новой. Удаление обязательного поля или изменение типа без значения по умолчанию нарушает это правило. Изучите режим совместимости топика: GET /config/<subject> через Schema Registry REST API При добавлении полей указывайте значение по умолчанию (default) — это обеспечивает BACKWARD-совместимость Никогда не удаляйте поля из схемы при BACKWARD или FULL совместимости — помечайте их как deprecated При необходимости кардинального изменения схемы: используйте новый subject или TopicNameStrategy с версионированием

Область

Категория

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина