Решение проблем Apache Spark

Question 1

java.lang.OutOfMemoryError: Java heap space (executor)

Accepted Answer

Executor получает партицию данных, которая не помещается в JVM heap. Часто возникает при data skew (одна партиция значительно больше остальных), неправильной конфигурации spark.executor.memory, или при широких трансформациях (explode, crossJoin). Увеличьте spark.executor.memory и spark.executor.memoryOverhead Проверьте распределение данных: df.groupBy(spark_partition_id()).count().show() Включите AQE: spark.sql.adaptive.enabled=true для автоматического перераспределения Используйте repartition() для более равномерного распределения данных по партициям

Question 2

java.lang.OutOfMemoryError: GC overhead limit exceeded

Accepted Answer

JVM тратит более 98% времени на сборку мусора, восстанавливая менее 2% памяти. Обычно вызвано кэшированием слишком большого объёма данных в memory, утечкой ссылок в UDF, или неоптимальной сериализацией (Java вместо Kryo). Замените .cache() на .persist(StorageLevel.MEMORY_AND_DISK) для автоматического сброса на диск Переключите сериализацию на Kryo: spark.serializer=org.apache.spark.serializer.KryoSerializer Настройте G1GC: -XX:+UseG1GC -XX:InitiatingHeapOccupancyPercent=35 Мониторьте GC через Prometheus: spark.metrics.conf.*.sink.prometheusServlet.class

Question 3

org.apache.spark.shuffle.FetchFailedException: Failed to connect to host:port

Accepted Answer

Executor, записавший shuffle-данные, упал или стал недоступен до того, как другие executor прочитали его shuffle-файлы. Частые причины: OOM на executor-источнике, сетевые таймауты, нехватка дисковой квоты для shuffle-файлов. Увеличьте spark.shuffle.io.maxRetries и spark.shuffle.io.retryWait Включите External Shuffle Service: spark.shuffle.service.enabled=true Рассмотрите Apache Celeborn для push-based shuffle в больших кластерах Проверьте, не падают ли executor-источники из-за OOM (см. предыдущую ошибку)

Question 4

org.apache.spark.SparkException: Task not serializable (java.io.NotSerializableException)

Accepted Answer

Spark сериализует closure (лямбду) целиком для передачи на executor. Если closure захватывает ссылку на несериализуемый объект (соединение с БД, SparkContext, логгер), сериализация падает. Часто возникает при обращении к полям класса внутри трансформации. Используйте локальные переменные вместо полей класса внутри трансформаций Оберните нужные значения в broadcast-переменные: val bc = sc.broadcast(config) Для подключений к внешним системам используйте foreachPartition с созданием коннекта внутри Добавьте extends Serializable к классам, если их поля действительно сериализуемы

Question 5

Stage X contains tasks with 10x+ variance in execution time (data skew detected)

Accepted Answer

Неравномерное распределение данных по ключу группировки или JOIN. Один ключ (например, NULL, '', популярный ID) содержит непропорционально много записей, и одна задача обрабатывает большую часть данных. Включите AQE skew join: spark.sql.adaptive.skewJoin.enabled=true Используйте salting: добавьте случайный суффикс к ключу, затем агрегируйте в два этапа Отфильтруйте или обработайте NULL-ключи отдельно перед JOIN Диагностируйте через Spark UI → Stage → Task Metrics → Shuffle Read Size

Question 6

org.apache.spark.sql.AnalysisException: cannot resolve 'column_name' given input columns

Accepted Answer

Имя колонки в выражении не совпадает с реальными именами в схеме DataFrame. Причины: case sensitivity (spark.sql.caseSensitive=true), пробелы в именах колонок из CSV/JSON, потеря квалификатора после JOIN, переименование при alias(). Проверьте схему: df.printSchema() и df.columns Для колонок с пробелами/спецсимволами используйте backtick: `column name` После JOIN явно выбирайте колонки: df.select(left['id'], right['id'].alias('right_id')) Установите spark.sql.caseSensitive=false (по умолчанию) для нечувствительности к регистру

Question 7

Job aborted: Total size of serialized results of N tasks is bigger than spark.driver.maxResultSize

Accepted Answer

Операции collect(), toPandas(), show() с большим limit переносят все данные на драйвер. Если результат превышает spark.driver.maxResultSize (по умолчанию 1g) или доступную память драйвера, задание падает. Замените collect() на take(N) или limit(N) для получения только нужного количества строк Используйте df.write для записи результата в файл вместо передачи на драйвер Увеличьте spark.driver.memory и spark.driver.maxResultSize при необходимости Для анализа используйте df.describe() или df.summary() вместо полного collect()

Question 8

spark.sql.shuffle.partitions=200 causing 200 tasks for 10MB of data

Accepted Answer

Значение spark.sql.shuffle.partitions по умолчанию (200) рассчитано на средние нагрузки. Для малых данных это создаёт избыточные пустые задачи, а для больших — слишком крупные партиции. Параметр применяется ко всем shuffle-операциям в сессии. Включите AQE: spark.sql.adaptive.enabled=true — автоматически объединяет мелкие партиции Для малых данных: spark.sql.shuffle.partitions=20 или coalesce() после широких трансформаций Для больших данных: установите partitions = total_shuffle_data / 128MB Используйте AQE advisory: spark.sql.adaptive.advisoryPartitionSizeInBytes=128m

Question 9

java.io.IOException: Failed to read checkpoint data from path hdfs://.../_checkpoint

Accepted Answer

Checkpoint содержит сериализованное состояние запроса, включая схему, оффсеты и operator state. При изменении схемы данных, добавлении/удалении агрегаций или смене источника существующий чекпоинт становится несовместимым. Для изменения логики — удалите старый чекпоинт и перезапустите с начала (потеря состояния) Используйте отдельные checkpoint-директории для разных версий запроса Настройте надёжное хранилище: HDFS/S3 вместо локальной файловой системы Для HDFS: проверьте права доступа и доступность NameNode

Question 10

io.delta.exceptions.ConcurrentAppendException: Files were added by a concurrent update

Accepted Answer

Delta Lake использует оптимистичную блокировку через _delta_log. Две транзакции пытаются записать файлы, которые конфликтуют (перекрываются по партиции). Конфликт детектируется при коммите второй транзакции. Разделите записи по партициям: каждый writer пишет в свой partition Включите автоматические ретраи: spark.databricks.delta.retryWriteConflict.enabled=true Для streaming + batch: используйте разные целевые директории и объединяйте через UNION VIEW Рассмотрите Isolation Level: SET spark.databricks.delta.isolationLevel = WriteSerializable

Question 11

Python worker exited unexpectedly (crashed) / PySpark UDF takes 10x longer than built-in

Accepted Answer

Стандартные Python UDF требуют сериализации каждой строки из JVM в Python (через pickle) и обратно. Это создаёт O(n) overhead на сериализацию/десериализацию и исключает оптимизации Catalyst и Tungsten. Замените Python UDF на встроенные функции PySpark: pyspark.sql.functions.* Если UDF необходим — используйте Pandas UDF (@pandas_udf) с Arrow-сериализацией Для scalar-операций: @pandas_udf(returnType, PandasUDFType.SCALAR) Включите Arrow: spark.sql.execution.arrow.pyspark.enabled=true

Question 12

SparkException: Cannot broadcast the table that is larger than 8GB: table size = X GB

Accepted Answer

Spark пытается broadcast'ить таблицу, размер которой превышает spark.sql.autoBroadcastJoinThreshold (по умолчанию 10MB) или абсолютный лимит 8GB. Если таблица неожиданно выросла, автоматический broadcast перестаёт работать. Уменьшите spark.sql.autoBroadcastJoinThreshold или установите -1 для отключения auto-broadcast Явно укажите стратегию: df.join(other.hint('shuffle_hash'), ...) Для больших таблиц используйте SortMergeJoin — он не требует размещения в памяти Проверьте актуальный размер: spark.catalog.cacheTable('t'); spark.table('t').count()

Question 13

WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI

Accepted Answer

Кластер не может выделить запрошенные ресурсы. Причины: запрошено больше памяти/ядер, чем доступно; другие приложения заняли все ресурсы; неправильная конфигурация YARN-очереди; максимальная аллокация контейнера меньше, чем запрошенные ресурсы executor. Проверьте доступные ресурсы: yarn application -list или YARN ResourceManager UI Уменьшите spark.executor.memory и spark.executor.cores до лимитов очереди Настройте yarn.scheduler.maximum-allocation-mb >= spark.executor.memory + memoryOverhead Используйте dynamic allocation: spark.dynamicAllocation.enabled=true

Question 14

ExecutorLostFailure: Executor N exited caused by one of the running tasks (K8s pod evicted)

Accepted Answer

Kubernetes OOM Killer завершает контейнер, если его RSS превышает limits.memory. Spark off-heap память (Tungsten, overhead) не учитывается в spark.executor.memory, но потребляет реальную RAM контейнера. Также возможно eviction из-за ephemeral-storage shuffle-файлами. Установите spark.executor.memoryOverhead = max(384m, 0.1 * executor.memory) Настройте K8s resource limits: memory = executor.memory + memoryOverhead + 512m (запас) Для shuffle на локальных дисках: увеличьте ephemeral-storage limits Рассмотрите External Shuffle Service или Celeborn для уменьшения нагрузки на локальные диски

Question 15

com.esotericsoftware.kryo.KryoException: Unable to find class / Class is not registered

Accepted Answer

Kryo требует явной регистрации классов для эффективной сериализации. Если spark.kryo.registrationRequired=true, незарегистрированный класс вызывает ошибку. Также возможна проблема с classpath — класс отсутствует на executor. Зарегистрируйте классы: spark.kryo.classesToRegister=com.example.MyClass Или отключите обязательную регистрацию: spark.kryo.registrationRequired=false Убедитесь, что JAR с классами доступен на всех executor: --jars или spark.jars Для сложных случаев реализуйте кастомный KryoRegistrator

Question 16

SortMergeJoin selected instead of BroadcastHashJoin for small table (suboptimal plan)

Accepted Answer

Catalyst оценивает размер таблицы по статистике каталога. Если статистика устарела или отсутствует (например, для view, subquery, или фильтрованной таблицы), оптимизатор не может определить реальный размер и выбирает безопасный SortMergeJoin. Обновите статистику: ANALYZE TABLE t COMPUTE STATISTICS Явно укажите hint: SELECT /*+ BROADCAST(small_table) */ ... FROM ... В DataFrame API: large_df.join(broadcast(small_df), 'key') Увеличьте порог: spark.sql.autoBroadcastJoinThreshold=50m (если таблица стабильно мала)

Question 17

Listing leaf files and directories for N paths took X ms / Too many small files

Accepted Answer

Каждый файл создаёт минимум одну задачу. Тысячи мелких файлов (< 1MB) создают overhead на планирование, открытие файлов и сетевые запросы к хранилищу. Типичная причина — частые append-операции без compaction. Запустите compaction: OPTIMIZE table_name (для Delta Lake) Настройте coalesce перед записью: df.coalesce(target_files).write.parquet(...) Установите spark.sql.files.maxPartitionBytes=128m для объединения мелких файлов при чтении Для регулярных загрузок: настройте автоматический VACUUM и OPTIMIZE по расписанию

Question 18

Late data dropped: watermark = X, event time = Y (Y < X)

Accepted Answer

Watermark определяет порог, после которого поздние данные отбрасываются. Если данные приходят с задержкой, превышающей watermark delay, они не попадают в результат. Слишком агрессивный watermark отбрасывает валидные данные; слишком мягкий — увеличивает state и задержку. Увеличьте watermark delay: .withWatermark('event_time', '30 minutes') вместо '10 minutes' Анализируйте реальную задержку данных перед выбором watermark: df.selectExpr('current_timestamp() - event_time') Для критичных данных: используйте output mode 'update' + внешнее хранилище состояния Мониторьте numRowsDroppedByWatermark через StreamingQueryListener

Question 19

org.apache.spark.sql.AnalysisException: Parquet column cannot be converted. Column: [X], Expected: StringType, Found: INT32

Accepted Answer

Parquet поддерживает ограниченную schema evolution: добавление новых колонок и расширение типов (int→long). Но смена типа колонки (int→string) несовместима — старые и новые файлы не могут быть прочитаны одной схемой. Включите schema merging: spark.sql.parquet.mergeSchema=true (для совместимых изменений) Для несовместимых изменений: создайте новую таблицу и мигрируйте данные с CAST Используйте Delta Lake или Iceberg — они поддерживают безопасную schema evolution Для чтения смешанных файлов: задайте схему явно через .schema(explicit_schema)

Question 20

IllegalStateException: Cannot call methods on a stopped SparkContext / Multiple SparkContext detected

Accepted Answer

SparkContext — синглтон внутри JVM. При параллельном запуске тестов или неправильном lifecycle (создание нового контекста без остановки предыдущего) возникают конфликты. Pytest с xdist запускает тесты в одной JVM по умолчанию. Используйте фикстуру с session scope: @pytest.fixture(scope='session') для SparkSession Не вызывайте spark.stop() между тестами — переиспользуйте одну сессию Для изоляции: создавайте временные view/database для каждого теста, а не новую сессию Рассмотрите spark-testing-base для управления lifecycle в тестах

Question 21

great_expectations.exceptions.CheckpointError: Validation failed — X of Y expectations were not met

Accepted Answer

Данные не соответствуют определённым expectations. Типичные причины: изменение формата данных в источнике, NULL-значения в обязательных полях, нарушение уникальности, выход числовых значений за допустимые границы. Просмотрите Data Docs для деталей: great_expectations docs build && open uncommitted/data_docs/local_site/index.html Обновите expectations, если изменение данных ожидаемо: great_expectations suite edit Для pipeline: настройте severity levels — warn vs fail для разных expectations Добавьте slack/email алерты при checkpoint failure: action_list в checkpoint config

Question 22

KafkaConsumer: OffsetOutOfRangeException: offsets out of range with no configured reset policy

Accepted Answer

Чекпоинт хранит оффсеты, которые уже удалены из Kafka (retention policy). При перезапуске Spark пытается прочитать с несуществующего оффсета. Без failOnDataLoss=false запрос падает. Установите failOnDataLoss=false для автоматического сброса на earliest/latest доступный оффсет Настройте Kafka retention >= максимальное время простоя приложения Используйте startingOffsets='latest' при первом запуске для пропуска исторических данных Для гарантий: настройте мониторинг lag через kafka-consumer-groups.sh --describe

Область

Категория

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы