Метаданные и схема

Метаданные — скрытая суперсила форматов

Разница между CSV и Parquet — не только в columnar layout и компрессии. Главное преимущество modern formats — встроенные метаданные, которые позволяют движку пропускать данные, не читая их.

CSV-файл — это поток байтов. Чтобы найти нужные данные, нужно прочитать весь файл. Parquet-файл — это структура с оглавлением, статистиками и схемой. Движок может решить, какие блоки читать, до обращения к данным.

Анатомия метаданных

Метаданные в Parquet-файле

Row Group 1

Row Group 2

Row Group N

После всех данных

Footer (метаданные)

Magic Number (PAR1) + Footer Length

Обратите внимание: footer — в конце файла. Это позволяет записывать данные streaming-образом (append row groups), а метаданные дописать один раз в конце.

Как работает predicate pushdown

Predicate pushdown — механизм, который использует метаданные для пропуска целых блоков данных.

Predicate Pushdown: как метаданные экономят I/O

SELECT * WHERE salary > 100000

Шаг 1: читаем footer

Footer: min/max статистики по row groups

Шаг 2: проверяем статистики

Row Group 1

Row Group 2

Row Group 3

Шаг 3: читаем только нужные

Прочитан 1 из 3 row groups (экономия 66% I/O)

TIP

Predicate pushdown работает тем лучше, чем больше данные отсортированы по колонке фильтрации. Если salary отсортирован, row groups содержат непересекающиеся диапазоны — pruning пропускает максимум блоков.

Bloom Filters

Min/max статистики не помогают для equality-запросов на колонках с высокой кардинальностью:

SELECT * FROM events WHERE user_id = 'abc-123-def'

Min/max для user_id: min='aaa...', max='zzz...' — бесполезно, любой row group может содержать этот ID.

Bloom filter — вероятностная структура данных, которая отвечает на вопрос “содержит ли этот блок значение X?”:

“Нет” — гарантированно нет, блок можно пропустить
“Возможно да” — нужно проверить (может быть false positive)

Bloom Filter в действии

WHERE user_id = 'abc-123-def'

Проверяем bloom filter каждого row group

RG 1: Bloom Filter

RG 2: Bloom Filter

RG 3: Bloom Filter

Читаем только RG 2 (экономия 66% I/O)

NOTE

Bloom filters не включены по умолчанию — их нужно явно включить при записи для конкретных колонок. Добавляют ~10 KB overhead на row group per column, но экономят гигабайты I/O на point lookups.

Встроенная схема vs внешний реестр

Форматы хранят информацию о типах данных двумя способами:

Подход	Примеры	Плюсы	Минусы
Встроенная схема	Parquet, ORC, Avro	Файл самодостаточен, любой может прочитать	Schema evolution сложнее
Внешний реестр	Kafka + Schema Registry, Hive Metastore	Централизованное управление, валидация	Зависимость от реестра
Без схемы	CSV, JSON	Гибкость	Schema drift, нет валидации

Встроенная схема vs Schema Registry

Встроенная (Parquet/ORC)

Файл

Reader: самодостаточное чтение

Внешний (Schema Registry)

Файл/Сообщение

Schema Registry (HTTP API)

Reader: чтение с зависимостью

Зачем всё это нужно: полная картина

Объединим все метаданные в один read path:

Metadata-driven Read Path

SELECT name, salary WHERE department = 'Engineering' AND salary > 100000

1. Column Pruning (из схемы)

Читать только: name, salary, department (3 из 50)

2. Row Group Pruning (min/max stats)

Пропустить row groups без подходящих salary/department

3. Bloom Filter Check (для department)

Bloom filter: department = 'Engineering' в каких RG?

4. Page-level Pruning

Пропустить страницы с неподходящими min/max

Результат: 1% данных прочитано с диска

WARNING

Метаданные — не магия. Они работают только если данные организованы: отсортированы, партиционированы, записаны с разумным размером row group. На случайно записанных данных min/max перекрываются и pruning не срабатывает.

Ключевые выводы

Footer — хранит схему, статистики, offsets. Первое, что читает движок. Находится в конце файла.
Min/max статистики — позволяют пропускать целые row groups (predicate pushdown). Эффективны на отсортированных данных.
Bloom filters — вероятностная проверка для equality-запросов. Компенсируют ограничения min/max на колонках с высокой кардинальностью.
Встроенная схема — файл самодостаточен, не нужен внешний реестр. Parquet, ORC, Avro — все используют.
Metadata-driven read — комбинация column pruning + row group pruning + bloom filters + page pruning позволяет читать 1–5% данных вместо 100%.
Сортировка данных — ключ к эффективности метаданных. Без сортировки min/max перекрываются, pruning не работает.