Сравнение форматов сериализации

Schema vs Schemaless

Фундаментальный выбор: нужна ли предварительная схема?

Schema-based vs Schemaless

Schema-based

Schemaless

Wire Size Comparison

Сравним одинаковые данные во всех форматах. Тестовое сообщение: User(id=150, name="Alice", email="[email protected]", active=true).

Wire Size: одинаковые данные

Формат

Размер

vs JSON

Schema?

Ключи?

JSON

MessagePack

Thrift TCompact

Protobuf

Avro

NOTE

Avro самый компактный (нет field tag overhead), но требует writer’s schema для декодирования. Protobuf и Thrift TCompact почти одинаковы. MessagePack в ~2x больше schema-based форматов из-за ключей. JSON в ~3x больше. При компрессии (gzip, zstd) разница сокращается: текстовые форматы сжимаются лучше, но бинарные всё равно выигрывают.

Parse Speed

Parse Speed: факторы

JSON parse

MessagePack parse

Protobuf/Thrift parse

Language Support

Language Support Matrix

Формат

Языки

Code gen

Мейнтейнер

Protobuf

Thrift

MessagePack

Avro

Use Cases: когда что

Дерево выбора формата

Нужен RPC framework?

Да: gRPC или Thrift

Нет: только сериализация

Нужна schema + type safety?

Нет → MessagePack

Да → Protobuf или Avro

Kafka/streaming или API/micro?

Kafka/Streaming → Avro

API/Microservices → Protobuf

Feature Matrix

Полная матрица сравнения

Feature

Protobuf

Thrift

MsgPack

Avro

Schema

Field ID

Integers

Evolution

RPC

Ecosystem

Wire Size: масштабный пример

Wire Size: 1000 User records

1000 × User (id, name, email, age, active, tags[3])

JSON

MessagePack

Protobuf

Avro (в контейнере)

TIP

С компрессией разница между форматами сокращается: JSON (12 KB) vs Protobuf (9 KB) vs Avro+deflate (7 KB). Но: (1) компрессия стоит CPU, (2) parse speed не зависит от wire size — бинарные форматы всё равно парсятся быстрее. Для high-throughput систем важнее parse speed, чем wire size.

Миграция между форматами

Типичные пути миграции

JSON → MessagePack

JSON → Protobuf

Thrift → gRPC

Итоговые рекомендации

Рекомендации по выбору

Microservices API

Event Streaming (Kafka)

Caching / IPC

Data Lake (S3)

WARNING

Не существует «лучшего формата». Каждый оптимален для своей ниши: Protobuf для APIs, Avro для streaming, MessagePack для caching, Parquet для аналитики. Зрелая data architecture использует несколько форматов на разных уровнях (см. урок 05 модуля Avro — pipeline с gRPC + Kafka + S3).

Сравнение форматов сериализации

Schema vs Schemaless

Wire Size Comparison

Parse Speed

Language Support

Use Cases: когда что

Feature Matrix

Wire Size: масштабный пример

Миграция между форматами

Итоговые рекомендации

Закончили урок?