Принципы архитектуры данных

Введение

Почему одна организация находит нужные данные за минуты, а другая тратит недели? Разница — не в инструментах, а в архитектуре данных. Без продуманной архитектуры данные превращаются в хаотичный набор таблиц, файлов и пайплайнов, где каждый новый запрос требует «археологических раскопок». Архитектура данных — это фундамент, на котором строится вся программа Data Governance.

Что такое Data Architecture

Data Architecture (архитектура данных) — это область DMBOK2, отвечающая за проектирование целевой структуры данных организации. Архитектура определяет, как данные хранятся, интегрируются, перемещаются и используются для достижения бизнес-целей.

DAMA-DMBOK2 выделяет Data Architecture как одну из 11 ключевых областей Data Management. В иерархии она занимает второе место после Data Governance: именно архитектура переводит стратегические решения governance в конкретные технические стандарты.

TOGAF (The Open Group Architecture Framework) предлагает четырёхуровневую модель Enterprise Architecture, где Data Architecture — один из четырёх доменов:

Business Architecture

Data Architecture

Application Architecture

Technology Architecture

Data Architecture (архитектура данных) связывает бизнес-потребности (Business Architecture) с технической реализацией (Technology Architecture) через определение моделей данных, стандартов интеграции и правил хранения.

Ключевые принципы архитектуры данных

Архитектурные принципы — это фундаментальные правила, которыми руководствуется организация при проектировании и развитии своей инфраструктуры данных.

1. Data as an Asset (данные как актив)

Актив данных (Data Asset) — набор данных, имеющий измеримую ценность для организации. Каждый актив имеет владельца, описание в каталоге, определённый жизненный цикл и метрики качества.

Принцип означает: данные — не побочный продукт систем, а стратегический ресурс, требующий управления наравне с финансовыми активами.

2. Single Source of Truth (единый источник правды)

Каждый бизнес-объект (клиент, продукт, транзакция) должен иметь одно авторитетное представление. Все потребители данных работают с одним Golden Record, а не с разрозненными копиями.

3. Minimal Redundancy (минимальная избыточность)

Дублирование данных создаёт расхождения, увеличивает стоимость хранения и усложняет governance. Архитектура должна минимизировать ненужное копирование, допуская его только в обоснованных случаях (кэширование, аналитические витрины).

4. Security by Design (безопасность по проектированию)

Требования безопасности и конфиденциальности закладываются на этапе проектирования, а не добавляются постфактум. Классификация данных определяет архитектурные решения: где хранить, как шифровать, кто имеет доступ.

5. Metadata-Driven (управление через метаданные)

Архитектура должна быть самоописывающейся. Каждый элемент (таблица, колонка, пайплайн) сопровождается метаданными: описание, владелец, классификация, lineage. Метаданные (Метаданные) — это данные о данных, обеспечивающие обнаружение, понимание и управление активами.

Data as an Asset

Single Source of Truth

Minimal Redundancy

Security by Design

Metadata-Driven

Scalability

Проверка знанийKnowledge check

В DataTech каждая команда создаёт свою копию таблицы клиентов для своих нужд. Какой архитектурный принцип нарушается?

ОтветAnswer

Нарушаются два принципа: Single Source of Truth (нет единого авторитетного представления клиента) и Minimal Redundancy (избыточное дублирование создаёт расхождения). Вместо копий нужен один Golden Record клиента, к которому все команды обращаются через контролируемый доступ.

Архитектурные слои данных

Типичная архитектура данных организации состоит из нескольких слоёв, каждый из которых решает свою задачу:

Source Layer

Ingestion

Staging Layer

Transform

Integration Layer

Serve

Consumption Layer

Слой	Назначение	Пример в DataTech
Source Layer	Исходные системы, генерирующие данные	PostgreSQL (200+ таблиц), MinIO (файлы)
Staging Layer	Сырые данные «как есть», без трансформаций	Airflow загружает raw-данные в ClickHouse
Integration Layer	Очистка, нормализация, обогащение	dbt-модели: staging -> intermediate -> marts
Consumption Layer	Готовые витрины для потребителей	Metabase дашборды, ML-модели, API

Каждый слой имеет свои governance-требования: Source Layer требует контроля схемы, Staging — валидации, Integration — lineage-трекинга, Consumption — контроля доступа.

Table format evolution — Iceberg/Delta как фундамент Integration Layer Lakehouse architecture — реализация слоёв данных ClickHouse data modeling — Consumption Layer для OLAP

Сценарий: DataTech Solutions

Сценарий: DataTech Solutions (ДатаТех Солюшенз)

В DataTech архитектура данных сложилась стихийно:

PostgreSQL (200+ таблиц) — основная БД без документированной схемы

ClickHouse загружается через 45 Airflow DAG’ов — некоторые из них дублируют данные

dbt-модели (120 штук) не имеют тестов и не документированы

Metabase подключён напрямую к PostgreSQL и ClickHouse — непонятно, какой источник «правильный»

Data Engineer Алексей пытается добавить новый дашборд для отдела продаж. Он находит три разных таблицы с данными о клиентах: customers (PostgreSQL), stg_customers (ClickHouse), dim_customers (dbt-модель). Какая из них авторитетная — неизвестно. Числа во всех трёх расходятся.

Проблема DataTech — классический пример отсутствия архитектурных принципов. Нет Single Source of Truth для клиентских данных, нет чётких слоёв (Metabase читает из Source и Consumption одновременно), нет metadata-driven подхода (отсутствует каталог и документация).

Решение начинается с определения целевой архитектуры: какие данные откуда берутся, через какие слои проходят и где потребляются. Это задача Data Architect (архитектор данных) — специалиста, проектирующего целевую архитектуру и обеспечивающего техническое соответствие Data Strategy.

Проверка знанийKnowledge check

Почему подключение Metabase напрямую к PostgreSQL (Source Layer) -- архитектурная ошибка?

ОтветAnswer

Metabase -- инструмент потребления (Consumption Layer). Когда он читает из Source Layer, он обходит все слои трансформации и валидации. Это означает: (1) данные не очищены и не нормализованы, (2) нагрузка на продуктовую БД от аналитических запросов, (3) невозможно контролировать качество показываемых данных. Правильная архитектура: Metabase читает из Consumption Layer (dbt marts), а не напрямую из Source.

Итоги

Data Architecture (архитектура данных) — область DMBOK2, определяющая как данные хранятся, интегрируются и используются
Ключевые принципы: Data as an Asset, Single Source of Truth, Minimal Redundancy, Security by Design, Metadata-Driven
Архитектура организована в слои: Source -> Staging -> Integration -> Consumption
Каждый слой имеет свои governance-требования
DataTech — пример организации без архитектуры: стихийные подключения, нет единого источника правды

В следующем уроке мы рассмотрим моделирование данных — ключевой инструмент Data Architect для формализации структуры данных на трёх уровнях: концептуальном, логическом и физическом.

Принципы архитектуры данных

Введение

Что такое Data Architecture

Ключевые принципы архитектуры данных

1. Data as an Asset (данные как актив)

2. Single Source of Truth (единый источник правды)

3. Minimal Redundancy (минимальная избыточность)

4. Security by Design (безопасность по проектированию)

5. Metadata-Driven (управление через метаданные)

Архитектурные слои данных

Сценарий: DataTech Solutions

Итоги

Закончили урок?