Ограничения текстовых форматов для аналитики

Почему текстовые форматы плохи для аналитики

CSV, JSON и XML были созданы для обмена данными — передачи от системы А к системе Б с максимальной совместимостью. Аналитические запросы предъявляют принципиально другие требования: выборочное чтение столбцов, фильтрация по условиям без полного сканирования, агрегации на миллиардах строк. Текстовые форматы не удовлетворяют ни одному из этих требований.

Требования аналитики vs возможности текстовых форматов

Требование

Текстовые форматы

Columnar форматы

Column pruning

Predicate pushdown

Efficient encoding

Schema enforcement

Splittability

Read path: CSV full scan vs Parquet column pruning

Рассмотрим запрос SELECT name, age FROM users WHERE country = 'RU' на таблице с 50 столбцами и 100 миллионов строк:

Read path: CSV vs Parquet — один запрос

CSV: полный путь чтения

Parquet: оптимизированный путь

Разница: CSV читает 100% файла для извлечения 2% данных. Parquet читает ~3% файла. На 10 GB файле: CSV scan = 10 GB I/O, Parquet = ~300 MB I/O.

I/O Amplification: размер чтения vs полезные данные

CSV

JSON

Parquet

Schema-on-read: ошибки обнаруживаются поздно

Schema-on-read означает, что структура и типы данных определяются при чтении, а не при записи. Для CSV/JSON это единственная модель — файл не содержит схему:

Schema-on-read vs Schema-on-write

Schema-on-read (CSV/JSON)

Schema-on-write (Avro/Parquet)

Schema-on-read: типичные сценарии ошибок

Mixed types в столбце

Schema drift

Inconsistent formats

Обнаружение: при чтении

Silent corruption

Splittability: параллельная обработка

Distributed processing (Spark, Flink, Trino) требует разбиения файла на фрагменты (splits) для параллельной обработки. Текстовые форматы создают проблемы:

Splittability: текстовые vs columnar форматы

Формат

Splittable?

Проблема

CSV (simple)

CSV (multiLine)

JSON Array

JSON Lines

XML

Parquet

Spark parallelism: CSV vs Parquet

CSV multiLine=true

Parquet

Отсутствие encoding и compression

Текстовые форматы хранят данные как ASCII/UTF-8 текст без специализированного кодирования. Columnar форматы используют encoding, специфичный для каждого столбца:

Encoding: текст vs specialized

Данные

CSV/JSON (текст)

Parquet (encoded)

country (5 unique / 1M rows)

timestamp (monotonic)

is_active (boolean)

Размер данных: один столбец на 1M строк

country (CSV)

country (Parquet)

timestamp (JSON)

timestamp (Parquet)

is_active (CSV)

is_active (Parquet)

Query execution: полный контраст

Query execution: SELECT country, COUNT(*) GROUP BY country

CSV execution

Parquet execution

Разница: 45 секунд vs 50 миллисекунд — 900× быстрее. На более крупных данных разрыв увеличивается.

Отсутствие statistics и метаданных

Columnar форматы хранят statistics для каждого row group: min/max значения, null count, distinct count. Это позволяет пропускать целые группы строк без чтения данных:

Statistics: что знает Parquet, чего не знает CSV

Parquet Row Group Metadata

WHERE age > 50

Skip RG0 (max=45)

CSV: нет statistics

Compression awareness

Текстовые форматы можно сжать внешним компрессором (gzip, zstd), но это создаёт дополнительные проблемы:

Compression: внешняя (CSV) vs встроенная (Parquet)

Свойство

CSV + gzip

Parquet + zstd

Seekable?

Splittable?

Compression ratio

TIP

Spark поддерживает splittable compression для CSV: bzip2 (.csv.bz2) и lzo (.csv.lzo с индексом). Но gzip (.csv.gz) — не splittable: один executor на файл. Для больших CSV в S3/HDFS: используйте bzip2 или разбивайте на много маленьких gzip-файлов (multifile parallelism).

Итог

Текстовые форматы (CSV, JSON, XML) фундаментально несовместимы с требованиями аналитических систем. Каждое ограничение — не баг, а следствие дизайна: формат без типов не может иметь encoding, формат без метаданных не может иметь predicate pushdown, формат без структуры не может быть splittable. Для аналитики используйте columnar форматы (Parquet, ORC) — они спроектированы именно для этого. Текстовые форматы — для транспорта и обмена, не для хранения и запросов.

Ограничения текстовых форматов для аналитики

Почему текстовые форматы плохи для аналитики

Read path: CSV full scan vs Parquet column pruning

Schema-on-read: ошибки обнаруживаются поздно

Splittability: параллельная обработка

Отсутствие encoding и compression

Query execution: полный контраст

Отсутствие statistics и метаданных

Compression awareness

Итог

Закончили урок?