Row Groups

Структура Parquet-файла

Parquet-файл — это не просто «колонки на диске». Это строго определённый бинарный формат с магическими байтами, row groups и Thrift-сериализованным футером.

Каждый файл начинается и заканчивается 4-байтовой сигнатурой PAR1 (hex: 50 41 52 31). Между ними — row groups с данными и метаданные в конце файла.

Физическая структура Parquet-файла

PAR1 (4 байта — magic number)

Row Group 0

Row Group 1

...

File Metadata (Thrift-encoded)

Metadata Length (4 байта, LE)

PAR1 (4 байта — magic number)

TIP

Ридер открывает Parquet-файл с конца: читает последние 8 байт (metadata length + PAR1), затем по offset — весь File Metadata. Только после этого он знает схему, количество row groups и расположение каждого column chunk.

Что такое Row Group

Row Group — это горизонтальный срез таблицы. Если файл содержит 10 миллионов строк, а размер row group настроен на 128 MB, файл будет содержать несколько row groups, каждый с частью строк.

Ключевые свойства:

Каждый row group содержит все колонки для своей порции строк
Внутри row group данные хранятся по колонкам (column chunks)
Row group — минимальная единица для параллельного чтения
Размер по умолчанию: 128 MB (несжатых данных)

Row Group: горизонтальное партиционирование

Логическая таблица

Строки 0–999 999

Строки 1 000 000–1 999 999

Строки 2 000 000–2 999 999

Parquet row groups

Row Group 0 (~128 MB)

Row Group 1 (~128 MB)

Row Group 2 (~128 MB)

Параллельное чтение

Row groups — это механизм параллелизации. Каждый row group можно читать независимо, потому что он содержит полный набор column chunks для своего диапазона строк.

Spark, Trino, DuckDB распределяют row groups между потоками (или нодами кластера). Больше row groups — больше параллелизма.

Параллельное чтение row groups

Thread 0 → RG 0

Строки 0–999K

Thread 1 → RG 1

Строки 1M–2M

Thread 2 → RG 2

Строки 2M–3M

NOTE

Один файл с 1 row group → один поток. Десять файлов по 1 row group → десять потоков. Это одна из причин, почему Spark рекомендует размер файлов 128 MB–1 GB — чтобы обеспечить достаточный параллелизм.

Размер Row Group: trade-offs

Размер row group — это настраиваемый параметр, и он влияет на три вещи одновременно:

Влияние размера Row Group

Маленький RG (8–32 MB)

Больше параллелизма
Точнее row group pruning
Больше metadata overhead
Хуже компрессия

Стандартный RG (128 MB)

Хороший баланс
Дефолт Spark / PyArrow
Достаточная компрессия
Умеренный overhead

Большой RG (512 MB+)

Лучшая компрессия
Меньше metadata
Меньше параллелизма
Грубый pruning

Настройки размера в разных инструментах:

Инструмент	Параметр	Значение по умолчанию
PyArrow	`row_group_size`	64 MB (max_row_group_length)
Spark	`parquet.block.size`	128 MB
DuckDB	`row_group_size`	122 880 строк
Trino (Hive)	`parquet.writer.block-size`	128 MB

WARNING

DuckDB задаёт размер row group в строках, а не в байтах. При широких таблицах (сотни колонок) row group из 122 880 строк может оказаться значительно больше 128 MB. Следите за размером файла.

Row Group Pruning

Каждый row group хранит статистики в метаданных: min/max значения для каждой колонки. При запросе WHERE year = 2024 движок проверяет статистики каждого row group и пропускает те, где year не попадает в диапазон min–max.

Это работает аналогично partition pruning, но на уровне файла — без физического партиционирования.

Row Group 0: year min=2020, max=2022 → SKIP +
Row Group 1: year min=2023, max=2024 → READ (может содержать 2024)
Row Group 2: year min=2025, max=2025 → SKIP +

Эффективность pruning зависит от сортировки данных. Если строки отсортированы по year, каждый row group будет содержать узкий диапазон — pruning отсечёт большинство групп. Если данные случайные — каждый row group покрывает весь диапазон, и pruning бесполезен.

Ключевые выводы

Row Group — горизонтальный срез файла, содержащий все колонки для порции строк
PAR1 magic number (4 байта) обрамляет файл с обоих концов, ридер начинает чтение с конца
128 MB — стандартный размер row group, баланс между параллелизмом и компрессией
Параллелизм масштабируется с количеством row groups — каждый читается независимо
Row group pruning по min/max статистикам пропускает целые группы строк без чтения данных

Spark: file formats и оптимизация storage ClickHouse: чтение Parquet из S3