Что такое метаданные
Введение
Представьте: новый Data Engineer приходит в компанию и видит 200+ таблиц в PostgreSQL. Ни одной строчки документации. Ни описания колонок, ни владельцев, ни информации о том, когда данные обновлялись в последний раз. Он тратит 3 недели на то, чтобы разобраться в связях между таблицами — и всё равно не уверен в результате. Это не проблема сложности данных. Это проблема отсутствия метаданных.
Определение метаданных
Метаданные (Metadata) — это данные о данных. Они описывают структуру, происхождение, качество, правила использования и контекст данных. Без метаданных данные — это набор байтов без контекста. С метаданными — управляемый актив, у которого есть владелец, описание, история и правила.
Метаданные отвечают на вопросы:
- Что это за данные? (название, описание, тип)
- Откуда они пришли? (источник, lineage)
- Кто за них отвечает? (владелец, steward)
- Когда они обновлялись? (свежесть, SLA)
- Как ими можно пользоваться? (классификация, доступ)
Три типа метаданных
В DMBOK2 метаданные классифицируются на три основных типа. Каждый тип решает свою задачу и управляется по-разному.
Технические метаданные (Technical Metadata)
Технические метаданные описывают физическую структуру данных: схемы таблиц, типы колонок, индексы, foreign keys, партиции, форматы файлов. Они автоматически собираются инструментами каталога данных через crawlers и API-интеграции.
Пример технических метаданных таблицы customers:
-- DDL как источник технических метаданных
CREATE TABLE customers (
id BIGINT PRIMARY KEY,
email VARCHAR(255) UNIQUE NOT NULL,
phone VARCHAR(20),
created_at TIMESTAMP DEFAULT NOW(),
updated_at TIMESTAMP
);
-- Индексы: idx_customers_email (unique)
-- Партиции: нет
-- Размер: 2.4M записей, 1.2 GB
Бизнес-метаданные (Business Metadata)
Бизнес-метаданные придают контекст данным: описания на человеческом языке, владельцы, домены, теги, связи с бизнес-процессами. Они курируются вручную Data Stewards и бизнес-пользователями в каталоге данных.
Критическое отличие: технические метаданные собираются автоматически, бизнес-метаданные требуют человеческого курирования. Это самая дорогая и самая ценная категория.
Операционные метаданные (Operational Metadata)
Операционные метаданные описывают текущее состояние и историю операций с данными: время последнего обновления, объём записей, длительность ETL-процессов, статистика запросов, история изменений схемы.
# Пример операционных метаданных
table: customers
last_updated: "2026-03-03T03:00:00Z"
row_count: 2_450_000
avg_query_time_ms: 120
daily_queries: 340
etl_job: "airflow.dags.load_customers"
etl_duration_avg: "4m 12s"
etl_last_status: "success"
Проверка знанийData Steward в ДатаТех обнаружил, что таблица orders обновляется раз в 2 дня вместо ежедневного SLA. К какому типу метаданных относится информация о свежести данных?
Жизненный цикл метаданных
Метаданные — не статичные артефакты. У них есть жизненный цикл:
- Создание — при создании таблицы/пайплайна автоматически генерируются технические метаданные
- Обогащение — Data Steward добавляет описания, теги, владельцев (бизнес-метаданные)
- Обновление — операционные метаданные обновляются при каждом запуске ETL
- Использование — поиск в каталоге, impact analysis, compliance checks
- Архивирование — при удалении data asset метаданные сохраняются для аудита
Ключевой принцип: автоматизируйте всё, что можно автоматизировать. Технические и операционные метаданные должны собираться без участия людей. Человеческое время Data Steward — только на бизнес-метаданные.
Сценарий: DataTech Solutions
Сценарий: DataTech Solutions (ДатаТех Солюшенз)
В DataTech нет ни одного вида управляемых метаданных. Новый Data Engineer Алексей потратил 3 недели на изучение 200+ таблиц в PostgreSQL, потому что:
- Нет технических метаданных в каталоге — DDL существует в базе, но никто не собирает его централизованно
- Нет бизнес-метаданных — описания таблиц передаются через Slack, теряются через неделю
- Нет операционных метаданных — узнать, что данные устарели, можно только когда бизнес пожалуется
Стоимость проблемы: 3 недели инженера x зарплата = 150,000+ RUB потерянной продуктивности на каждого нового сотрудника. При текучке 20% в команде из 7 человек — это 1-2 сотрудника в год.
Проверка знанийКакой тип метаданных DataTech должна начать собирать первым, и почему?
Итоги
- Метаданные — данные о данных, необходимые для управления data assets
- Три типа: технические (автоматически собираемые), бизнес (курируемые людьми), операционные (обновляемые при каждом ETL)
- Метаданные имеют жизненный цикл: создание, обогащение, обновление, использование, архивирование
- Отсутствие метаданных стоит организации конкретных денег: время на onboarding, ошибочные решения, compliance-штрафы
В следующем уроке мы рассмотрим Business Glossary (бизнес-глоссарий) — инструмент для создания единого словаря бизнес-терминов организации.
Проверьте понимание
Закончили урок?
Отметьте его как пройденный, чтобы отслеживать свой прогресс
Войдите чтобы оценить урок