JSON: Формат и кодирование

JSON — обзор

JSON (JavaScript Object Notation) — текстовый формат обмена данными, стандартизированный в RFC 8259 (2017). Создан Дугласом Крокфордом на основе подмножества JavaScript-синтаксиса. Де-факто стандарт для REST API, конфигурационных файлов, и обмена данными между микросервисами.

В отличие от CSV, JSON имеет систему типов и поддерживает вложенные структуры. Но за читаемость и гибкость приходится платить — encoding overhead JSON выше, чем у бинарных форматов, в 3-10 раз.

JSON vs CSV vs Binary: что предоставляет формат

Свойство

CSV

JSON

Avro/Protobuf

Типы

Вложенность

Self-describing

Overhead

Модель данных: 6 типов

RFC 8259 определяет ровно 6 типов значений:

JSON: Дерево типов

JSON Value

string

number

boolean

null

object

array

WARNING

JSON не различает целые и вещественные числа. 42 и 42.0 — оба number. Это означает, что JSON не может гарантировать сохранение типа: записали int64 42, прочитали float64 42.0. Для финансовых данных (где 0.1 + 0.2 ≠ 0.3 в float) это критично — Avro Decimal или Protobuf fixed-point лучше.

Encoding overhead: байт-за-байтом

JSON-кодирование избыточно: ключи повторяются в каждом объекте, числа хранятся как текст, скобки и кавычки добавляют постоянный overhead:

JSON Encoding: overhead по типам

Тип

Пример

Байты

Binary

number

boolean

null

string

Но главный overhead — повторение ключей:

Repeated keys: главный источник bloat

JSON: 1000 записей

Avro: 1000 записей

Числовая точность: IEEE 754 double

JSON number — это текстовое представление числа. RFC 8259 не ограничивает точность, но большинство парсеров (JavaScript, Python json, Go encoding/json) преобразуют числа в IEEE 754 double (64-bit):

IEEE 754 Double: границы точности

IEEE 754 Double-Precision

Safe

Unsafe

ID collision

DANGER

Twitter (X) API возвращает id (number) и id_str (string) для каждого твита именно из-за этой проблемы. JavaScript JSON.parse() преобразует id в IEEE 754 double, теряя последние цифры 64-bit Snowflake ID. Всегда используйте id_str для идентификаторов, или библиотеки с BigInt-поддержкой (Python: json.loads() использует arbitrary-precision int, проблемы нет).

JSON Lines (NDJSON): потоковая обработка

Обычный JSON — массив объектов [{...}, {...}, ...] — не подходит для потоковой обработки: парсер должен прочитать весь массив, чтобы разобрать структуру. JSON Lines (он же NDJSON — Newline-Delimited JSON) решает эту проблему:

JSON Array vs JSON Lines

JSON Array

JSON Lines / NDJSON

JSON Lines: use cases

Structured Logging

Event Streaming

ML Datasets

Parallel Processing

Worker 1..N

TIP

JSON Lines splittable by design: JSON escape для newline — \n (два символа: backslash + n), а настоящий newline (0x0A) внутри JSON string невозможен. Поэтому каждый \n в файле — гарантированно разделитель записей. В отличие от CSV, где \n внутри quoted field — часть значения.

JSON в data pipelines

JSON повсеместен в data engineering, но с разными ролями на каждом этапе:

JSON в типичном data pipeline

REST API (JSON)

Kafka Topic

S3 Landing (JSONL)

ETL: JSON → Parquet

Data Lake (Parquet)

Spark JSON reader: ключевые опции

Опция

Default

Комментарий

multiLine

schema

corruptRecord

JSON Schema: валидация без типов

JSON Schema (draft 2020-12) — отдельный стандарт для описания и валидации структуры JSON-документов. Не является частью RFC 8259, но широко используется для API-контрактов:

JSON Schema: ключевые конструкции

type

properties

required

enum

additionalProperties

$ref

NOTE

JSON Schema — валидация, не кодирование. В отличие от Avro Schema (определяет wire format) и Protobuf .proto (генерирует код), JSON Schema только проверяет структуру готового JSON. Документ всё равно кодируется как текст со всем overhead. JSON Schema используется в OpenAPI (Swagger), API Gateway validation, и CI/CD для контрактных тестов.

Размер данных: JSON vs бинарные форматы

Сравнение размеров: 1M записей User

Формат

Размер

Почему