Решение проблем с форматами хранения данных

Q: Cannot determine the catalog type from the catalog-impl: org.apache.iceberg.rest.RESTCatalog

Конфигурация Spark-каталога Iceberg неполная или использует устаревший формат. Каждый тип каталога (REST, Hive, Glue, JDBC) требует свой набор параметров. REST Catalog требует uri, type, и правильный catalog-impl. Для REST Catalog: `spark.conf.set('spark.sql.catalog.my_catalog', 'org.apache.iceberg.spark.SparkCatalog')` + `spark.conf.set('spark.sql.catalog.my_catalog.type', 'rest')` + `spark.conf.set('spark.sql.catalog.my_catalog.uri', 'http://...')` Для Hive: `type=hive` + `uri=thrift://...` — не нужен catalog-impl Для Glue: `type=glue` — подхватывает AWS credentials автоматически Убедитесь, что iceberg-spark-runtime JAR добавлен в classpath: `--packages org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.5.0`

Question 1

ArrowInvalid: Casting from timestamp[ns] to timestamp[us] would lose data

Accepted Answer

Parquet хранит timestamp с микросекундной точностью (по умолчанию), а pandas использует наносекунды (datetime64[ns]). PyArrow 13+ по умолчанию запрещает потерю точности при downcast. Используйте `coerce_timestamps='us'` при записи: `pq.write_table(table, 'file.parquet', coerce_timestamps='us')` Или конвертируйте до записи: `df['ts'] = df['ts'].dt.floor('us')` Для сохранения ns: `pq.write_table(table, 'file.parquet', coerce_timestamps='ns', allow_truncated_timestamps=False)`

Question 2

OSError: Parquet file is not a Parquet format file. Missing magic bytes.

Accepted Answer

Файл повреждён или не является Parquet. Parquet-файл должен начинаться и заканчиваться magic bytes PAR1 (4 байта). Частые причины: неполная запись (writer упал до flush footer), файл переименован из другого формата, или это _SUCCESS/_metadata файл. Проверьте magic bytes: `head -c 4 file.parquet | xxd` — должно быть PAR1 Если Spark-выход — пропустите служебные файлы: `pq.read_table('dir/', filters=...)` вместо чтения конкретного файла Для повреждённых файлов: используйте `parquet-tools meta file.parquet` для диагностики Убедитесь, что writer закрыл файл: `writer.close()` или context manager `with pq.ParquetWriter(...)`

Question 3

SchemaError: Column 'event_type' not found in Parquet file schema

Accepted Answer

Имя колонки отличается из-за case sensitivity (Parquet хранит имена as-is), автоматического переименования или использования разных схем записи. В Spark schema merging может объединить файлы с разными схемами некорректно. Проверьте реальную схему файла: `pq.read_schema('file.parquet')` или `DESCRIBE SELECT * FROM 'file.parquet'` в DuckDB В Spark включите case-insensitive чтение: `spark.conf.set('spark.sql.caseSensitive', 'false')` При schema merge укажите schema явно: `.option('mergeSchema', 'true')` или `.schema(explicit_schema)` Используйте `pq.read_table('file.parquet', columns=['col1','col2'])` с точными именами

Question 4

java.lang.OutOfMemoryError: Java heap space during Parquet write

Accepted Answer

Dictionary Encoding накапливает все уникальные значения в памяти до записи Data Page. Если кардинальность колонки высокая (URL, UUID), словарь занимает гигабайты. Parquet переключается на PLAIN при переполнении страницы, но к этому моменту словарь уже в памяти. Отключите dictionary для high-cardinality колонок: `.option('parquet.enable.dictionary', 'false')` или `pq.write_table(table, 'out.parquet', use_dictionary=['low_card_col'])` Уменьшите row_group_size для снижения пика памяти В Spark: `spark.conf.set('spark.sql.parquet.columnarWriterBatchSize', '1024')` для уменьшения пакетов записи Рассмотрите DELTA_BYTE_ARRAY для строк с общими префиксами (URL, пути)

Question 5

AvroTypeException: Not a map / Found null, expected union

Accepted Answer

Reader schema несовместима с writer schema. Типичные причины: поле добавлено без default-значения (нарушение backward compatibility), nullable поле читается как required, или тип данных изменён несовместимо (string → int). Проверьте совместимость схем: `curl -X POST -d '{"schema": ...}' http://registry:8081/compatibility/subjects/topic-value/versions/latest` Nullable поля в Avro требуют union type: `["null", "string"]` с `"default": null` При добавлении нового поля всегда указывайте default: `{"name": "new_field", "type": "string", "default": ""}` Используйте BACKWARD compatibility в Schema Registry для автоматической проверки

Question 6

org.apache.avro.AvroRuntimeException: Malformed data. Length is negative: -3

Accepted Answer

Avro Object Container File повреждён — sync marker потерян или данные в блоке усечены. Частая причина: writer не вызвал flush()/close(), S3 multipart upload завершился частично, или файл был перезаписан конкурентным процессом. Проверьте целостность файла: `avro-tools tojson --head 10 file.avro` Для частичного восстановления: читайте по блокам с try/catch, пропуская повреждённые блоки при обнаружении следующего sync marker Предотвращение: всегда используйте context manager (`with DataFileWriter(...) as writer:`) для гарантии flush Для Kafka: проверьте, что конфигурация producer включает `acks=all` и `retries>0`

Question 7

DeltaAnalysisException: The schema of your Delta table has changed in an incompatible way

Accepted Answer

Delta Lake по умолчанию не разрешает изменение схемы при записи. Новые колонки, изменённые типы или удалённые поля блокируются. Автоматическое mergeSchema включается явно. Для добавления колонок: `.option('mergeSchema', 'true').save()` или `spark.conf.set('spark.databricks.delta.schema.autoMerge.enabled', 'true')` В delta-rs: `write_deltalake(dt, df, mode='append', schema_mode='merge')` Для overwrite со сменой схемы: `.option('overwriteSchema', 'true').mode('overwrite').save()` Проверяйте совместимость до записи: `dt.schema()` vs `df.schema`

Question 8

ConcurrentAppendException: Files were added by a concurrent update

Accepted Answer

Delta Lake использует optimistic concurrency control — каждый коммит проверяет, что файлы не были изменены с момента начала транзакции. Конфликт возникает, когда два writer-а изменяют пересекающиеся partition-ы или файлы одновременно. Используйте partition-based isolation: разные writer-ы пишут в разные партиции Для append-only: конфликты маловероятны — два INSERT в разные файлы не конфликтуют Добавьте retry-логику: `for attempt in range(3): try: write(...) except ConcurrentAppendException: pass` Рассмотрите `delta.isolationLevel=WriteSerializable` (по умолчанию) vs `Serializable` для вашего use case

Question 9

IllegalArgumentException: requirement failed: Vacuuming removes data older than the retention period. Are you sure?

Accepted Answer

Delta Lake защищает от случайного удаления файлов, которые могут быть нужны для time travel или активных запросов. По умолчанию VACUUM удаляет только файлы старше 168 часов (7 дней). Retention < 7 дней требует явного override. Для retention < 7 дней: `spark.conf.set('spark.databricks.delta.retentionDurationCheck.enabled', 'false')` ПЕРЕД вызовом VACUUM Стандартный VACUUM: `VACUUM table_name RETAIN 168 HOURS` В delta-rs: `dt.vacuum(retention_hours=168, enforce_retention_duration=False)` Автоматизируйте через Airflow/cron: VACUUM → OPTIMIZE → VACUUM — в правильном порядке

Question 10

Cannot determine the catalog type from the catalog-impl: org.apache.iceberg.rest.RESTCatalog

Accepted Answer

Конфигурация Spark-каталога Iceberg неполная или использует устаревший формат. Каждый тип каталога (REST, Hive, Glue, JDBC) требует свой набор параметров. REST Catalog требует uri, type, и правильный catalog-impl. Для REST Catalog: `spark.conf.set('spark.sql.catalog.my_catalog', 'org.apache.iceberg.spark.SparkCatalog')` + `spark.conf.set('spark.sql.catalog.my_catalog.type', 'rest')` + `spark.conf.set('spark.sql.catalog.my_catalog.uri', 'http://...')` Для Hive: `type=hive` + `uri=thrift://...` — не нужен catalog-impl Для Glue: `type=glue` — подхватывает AWS credentials автоматически Убедитесь, что iceberg-spark-runtime JAR добавлен в classpath: `--packages org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.5.0`

Question 11

ValidationException: Cannot safely cast 'price': required int changed to optional long

Accepted Answer

Iceberg разрешает только безопасные преобразования типов: int→long, float→double, расширение decimal precision. Изменение nullable → required запрещено, т.к. существующие файлы могут содержать NULL. Iceberg не перезаписывает данные при schema evolution. Используйте только безопасные widening-преобразования: int→long, float→double, decimal(p1,s)→decimal(p2,s) где p2>p1 Для изменения nullability: создайте новую колонку с нужным типом, мигрируйте данные, удалите старую Проверьте допустимые преобразования: документация Iceberg → Schema Evolution → Type promotion Переименование безопасно — Iceberg использует Column ID, не имена

Question 12

CommitFailedException: Requirement failed: branch main has changed

Accepted Answer

Iceberg использует optimistic concurrency — коммит проверяет, что snapshot не изменился с момента начала операции. Конфликт возникает при конкурентных записях в пересекающиеся partition spec-ы. Retry-стратегия зависит от типа каталога. Разнесите записи по partition-ам: разные writer-ы обновляют разные дни/часы Настройте retry: `write.commit.retry.num-retries=4` и `write.commit.retry.min-wait-ms=100` Для append-only workloads конфликты минимальны — каждый writer создаёт свои файлы Используйте Nessie или REST Catalog с branch isolation для изолированных writer-ов

Question 13

DuckDB Error: Parquet file too small to be a valid Parquet file (footer is beyond file bounds)

Accepted Answer

Parquet footer содержит схему и метаданные Row Groups и находится в конце файла. Если файл усечён (неполная запись, обрыв сети при загрузке на S3) или это пустой файл (0 строк, но footer есть), чтение падает. Spark иногда создаёт пустые файлы при записи пустых партиций. Отфильтруйте пустые файлы: `[f for f in files if os.path.getsize(f) > 0]` В DuckDB: `SELECT * FROM parquet_scan('dir/*.parquet', union_by_name=true)` — пропускает невалидные файлы В Spark: `.option('pathGlobFilter', '*.parquet').option('recursiveFileLookup', 'true')` Для S3: проверьте, что multipart upload завершён: `aws s3api list-multipart-uploads`

Question 14

ORC split generation failed with exception: java.io.IOException: Malformed ORC file

Accepted Answer

ORC footer повреждён или версия протокола несовместима. ORC magic bytes — ORC в начале файла. Причины: writer не закрыл файл, несовместимый compression codec (LZO требует отдельную библиотеку), или файл создан версией ORC, не поддерживаемой reader-ом. Проверьте метаданные: `orc-tools meta file.orc` — покажет stripe-ы, типы, compression Убедитесь, что compression codec доступен: LZO требует `hadoop-lzo` в classpath Обновите ORC reader до версии, совместимой с writer: `orc-tools data file.orc | head` Для восстановления: попробуйте `orc-tools convert file.orc -o output.orc` для пересоздания footer

Question 15

pyarrow.lib.ArrowInvalid: Parquet file has too many Row Groups. Consider increasing row_group_size.

Accepted Answer

Слишком маленький row_group_size создаёт множество Row Groups в одном файле. Каждый Row Group хранит свою статистику — при тысячах мелких групп metadata footer раздувается и замедляет планирование. Типичная причина: запись по одной строке без буферизации. Увеличьте row_group_size: `pq.write_table(table, 'out.parquet', row_group_size=1_000_000)` В Spark: `spark.conf.set('spark.sql.parquet.rowGroupSize', '134217728')` — 128 MB по умолчанию Перезапишите файл с оптимальным размером: прочитайте и запишите заново с правильным row_group_size Для streaming: буферизуйте строки и записывайте batch-ами через ParquetWriter

Question 16

AnalysisException: Cannot resolve column name 'data.user.id' in ORC file

Accepted Answer

ORC привязывает вложенные колонки по позиции в schema (column ID), а не по имени. Если порядок полей в struct изменился между записью и чтением, данные читаются неправильно. В отличие от Iceberg (привязка по Column ID) и Avro (привязка по имени). В Hive: `SET hive.orc.schema.resolution=name` вместо стандартного position-based resolution Не переставляйте поля в struct при эволюции схемы — только добавляйте в конец При рефакторинге: создайте новую таблицу с правильной схемой и INSERT INTO ... SELECT ... Рассмотрите миграцию на Parquet или Iceberg для name-based schema evolution

Question 17

pyiceberg.exceptions.NoSuchTableError: Table does not exist: db.my_table

Accepted Answer

pyiceberg подключён к другому каталогу, чем Spark. Частая ситуация: Spark использует Hive Metastore, а pyiceberg — REST Catalog. Каждый каталог имеет свой namespace таблиц. Также возможно несовпадение warehouse path. Проверьте каталог в конфигурации: `catalog.list_namespaces()` и `catalog.list_tables('db')` Убедитесь, что URI каталога совпадает: pyiceberg `uri` = Spark `spark.sql.catalog.<name>.uri` Для Hive: pyiceberg требует `thrift://host:9083`, а не JDBC URL Создайте таблицу через тот же каталог, через который планируете читать

Question 18

ArrowMemoryError: malloc of size ... failed / pyarrow.lib.ArrowCapacityError

Accepted Answer

Arrow аллоцирует память через собственный MemoryPool. При чтении целого файла в память (read_table) все Row Groups загружаются одновременно. Конкатенация батчей (concat_tables) создаёт копию. String колонки с длинными значениями особенно затратны. Читайте по батчам: `pq.ParquetFile('file.parquet').iter_batches(batch_size=100_000)` Используйте column projection: `pq.read_table('f.parquet', columns=['col1','col2'])` Для strings: используйте dictionary encoding: `table.to_pandas(self_destruct=True)` для освобождения Arrow memory при конвертации Мониторьте пул: `pa.total_allocated_bytes()` для отслеживания текущего потребления

Question 19

Error: Delta table requires reader version 3 and writer version 7, but this client only supports reader version 2

Accepted Answer

Delta Lake использует версионирование протокола (reader/writer version). Новые фичи (deletion vectors, column mapping, v2 checkpoints) требуют более новый reader. Databricks часто создаёт таблицы с protocol v3/v7, а open-source клиенты поддерживают v1-2/v1-5. Обновите delta-rs до последней версии: `pip install deltalake>=0.17` В DuckDB: обновите до версии с поддержкой нужного протокола Downgrade таблицы: `ALTER TABLE t SET TBLPROPERTIES('delta.minReaderVersion'='1', 'delta.minWriterVersion'='2')` — только если не используете v3+ фичи Проверьте фичи: `dt.protocol()` — посмотрите, какие reader/writer features требуются

Question 20

ProtobufException: Protocol message had invalid UTF-8 / Wire type mismatch

Accepted Answer

Несовпадение proto-схемы: поле было переназначено на другой wire type (например, int32 → string на том же field number), или данные повреждены. Protobuf привязывает поля по номеру — изменение типа при сохранении номера нарушает десериализацию. НИКОГДА не переиспользуйте номера полей — пометьте старые как `reserved`: `reserved 5, 6; reserved "old_field";` Проверьте, что producer и consumer используют совместимые .proto: `protoc --decode_raw < data.bin` Для диагностики wire type: `protoc --decode_raw` показывает raw field numbers и types При эволюции: только добавляйте новые поля с новыми номерами, удаляйте — через reserved

Question 21

Small file problem: directory contains 50,000+ Parquet files under 1 MB each

Accepted Answer

Каждый файл = overhead: metadata read, footer parsing, file open syscall, S3 GET request. При тысячах файлов overhead доминирует над полезным I/O. Streaming-записи и высокоселективные INSERT создают множество мелких файлов. Delta Lake: `OPTIMIZE table_name` объединяет мелкие файлы в целевой размер (~1 GB) Iceberg: `spark.sql('CALL system.rewrite_data_files(table => "db.t", strategy => "binpack")')` Hudi: включите compaction для MoR или clustering для CoW Spark: `df.repartition(n).write.parquet(...)` или `.coalesce(n)` для контроля числа файлов Для streaming: увеличьте trigger interval или используйте foreachBatch с ручной буферизацией

Question 22

InconsistentPartitionException: Partition spec has changed between table creation and data write

Accepted Answer

При Partition Evolution Iceberg создаёт новый partition spec, но старые файлы сохраняют прежний. Проблема возникает, если writer использует устаревший metadata — стартовал до ALTER TABLE, но коммитит после. Также: конфликт при concurrent ALTER TABLE + INSERT. Выполните Partition Evolution отдельно от записи — сначала ALTER TABLE, потом INSERT Проверьте текущий spec: `table.spec()` или `SELECT * FROM my_table.partitions` Iceberg корректно читает данные с разными partition spec-ами — проблема только при записи Используйте retry при конфликте: `write.commit.retry.num-retries=4`

Question 23

HoodieWriteConflictException: Cannot resolve conflicts for overlapping file groups

Accepted Answer

Hudi использует file group locking для конкурентной записи. Два writer-а не могут обновлять один file group одновременно. В MoR-таблицах compaction и запись могут конфликтовать, если работают с пересекающимися file groups. Включите multi-writer mode: `hoodie.write.concurrency.mode=optimistic_concurrency_control` + `hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider` Разнесите writer-ы по партициям: каждый джоб обновляет свой date/partition range Для MoR: schedule compaction в периоды без записи или используйте inline compaction Увеличьте retry: `hoodie.cleaner.policy.failed.writes=LAZY` для автоматической очистки failed writes

Question 24

ConfluentSchemaRegistryError: Schema being registered is incompatible with an earlier schema

Accepted Answer

Новая схема нарушает заданный уровень совместимости subject-а (BACKWARD, FORWARD, FULL). Типичные нарушения: удалено поле без default, добавлено required поле, изменён тип несовместимо. Проверьте уровень совместимости: `GET /config/{subject}` — BACKWARD по умолчанию Для BACKWARD: новые поля ОБЯЗАНЫ иметь default-значение Проверьте совместимость до регистрации: `POST /compatibility/subjects/{subject}/versions/latest` Для breaking changes: создайте новый subject (topic-v2-value) или временно смените compatibility на NONE (опасно!)

Question 25

ArrowNotImplementedError: Unsupported Parquet data type: INT96 for field 'timestamp_col'

Accepted Answer

Старые версии Spark (< 3.0) и Hive записывали timestamp как INT96 — нестандартный тип Parquet, занимающий 12 байт. Современные инструменты не поддерживают INT96 по умолчанию. Стандартный тип — INT64 timestamp с микросекундной точностью. В PyArrow: `pq.read_table('file.parquet', coerce_int96_timestamp_unit='ms')` — конвертирует при чтении В Spark при записи: `spark.conf.set('spark.sql.parquet.outputTimestampType', 'TIMESTAMP_MICROS')` Перезапишите файлы: прочитайте с INT96-совместимым reader и запишите с стандартным timestamp В DuckDB: `SET arrow_lossless_conversion = true` может помочь с некоторыми legacy файлами

Формат

Категория

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина