Learning Platform
Глоссарий Troubleshooting
Урок 04.01 · 20 мин
Средний
MetadataTechnical MetadataBusiness MetadataOperational Metadata

Что такое метаданные

Введение

Представьте: новый Data Engineer приходит в компанию и видит 200+ таблиц в PostgreSQL. Ни одной строчки документации. Ни описания колонок, ни владельцев, ни информации о том, когда данные обновлялись в последний раз. Он тратит 3 недели на то, чтобы разобраться в связях между таблицами — и всё равно не уверен в результате. Это не проблема сложности данных. Это проблема отсутствия метаданных.

Определение метаданных

Метаданные (Metadata) — это данные о данных. Они описывают структуру, происхождение, качество, правила использования и контекст данных. Без метаданных данные — это набор байтов без контекста. С метаданными — управляемый актив, у которого есть владелец, описание, история и правила.

Метаданные отвечают на вопросы:

  • Что это за данные? (название, описание, тип)
  • Откуда они пришли? (источник, lineage)
  • Кто за них отвечает? (владелец, steward)
  • Когда они обновлялись? (свежесть, SLA)
  • Как ими можно пользоваться? (классификация, доступ)

Три типа метаданных

В DMBOK2 метаданные классифицируются на три основных типа. Каждый тип решает свою задачу и управляется по-разному.

Таксономия метаданных
Метаданные (Metadata)
Технические метаданные
Схемы таблиц
Типы колонок
Индексы и ключи
Партиции
Бизнес-метаданные
Описания
Владельцы
Теги и классификация
Glossary-связи
Операционные метаданные
Свежесть
Объём
Производительность
ETL-статистика

Технические метаданные (Technical Metadata)

Технические метаданные описывают физическую структуру данных: схемы таблиц, типы колонок, индексы, foreign keys, партиции, форматы файлов. Они автоматически собираются инструментами каталога данных через crawlers и API-интеграции.

Пример технических метаданных таблицы customers:

-- DDL как источник технических метаданных
CREATE TABLE customers (
    id          BIGINT PRIMARY KEY,
    email       VARCHAR(255) UNIQUE NOT NULL,
    phone       VARCHAR(20),
    created_at  TIMESTAMP DEFAULT NOW(),
    updated_at  TIMESTAMP
);
-- Индексы: idx_customers_email (unique)
-- Партиции: нет
-- Размер: 2.4M записей, 1.2 GB

Бизнес-метаданные (Business Metadata)

Бизнес-метаданные придают контекст данным: описания на человеческом языке, владельцы, домены, теги, связи с бизнес-процессами. Они курируются вручную Data Stewards и бизнес-пользователями в каталоге данных.

Критическое отличие: технические метаданные собираются автоматически, бизнес-метаданные требуют человеческого курирования. Это самая дорогая и самая ценная категория.

Операционные метаданные (Operational Metadata)

Операционные метаданные описывают текущее состояние и историю операций с данными: время последнего обновления, объём записей, длительность ETL-процессов, статистика запросов, история изменений схемы.

# Пример операционных метаданных
table: customers
last_updated: "2026-03-03T03:00:00Z"
row_count: 2_450_000
avg_query_time_ms: 120
daily_queries: 340
etl_job: "airflow.dags.load_customers"
etl_duration_avg: "4m 12s"
etl_last_status: "success"
Проверка знанийKnowledge check
Data Steward в ДатаТех обнаружил, что таблица orders обновляется раз в 2 дня вместо ежедневного SLA. К какому типу метаданных относится информация о свежести данных?
ОтветAnswer
Информация о свежести (freshness) -- это операционные метаданные. Они описывают текущее состояние данных: когда было последнее обновление, соблюдается ли SLA. Технические метаданные описали бы структуру таблицы (схему, типы), а бизнес-метаданные -- кто владелец и для чего таблица используется.

Жизненный цикл метаданных

Метаданные — не статичные артефакты. У них есть жизненный цикл:

  1. Создание — при создании таблицы/пайплайна автоматически генерируются технические метаданные
  2. Обогащение — Data Steward добавляет описания, теги, владельцев (бизнес-метаданные)
  3. Обновление — операционные метаданные обновляются при каждом запуске ETL
  4. Использование — поиск в каталоге, impact analysis, compliance checks
  5. Архивирование — при удалении data asset метаданные сохраняются для аудита

Ключевой принцип: автоматизируйте всё, что можно автоматизировать. Технические и операционные метаданные должны собираться без участия людей. Человеческое время Data Steward — только на бизнес-метаданные.

Сценарий: DataTech Solutions

Сценарий: DataTech Solutions (ДатаТех Солюшенз)

В DataTech нет ни одного вида управляемых метаданных. Новый Data Engineer Алексей потратил 3 недели на изучение 200+ таблиц в PostgreSQL, потому что:

  • Нет технических метаданных в каталоге — DDL существует в базе, но никто не собирает его централизованно
  • Нет бизнес-метаданных — описания таблиц передаются через Slack, теряются через неделю
  • Нет операционных метаданных — узнать, что данные устарели, можно только когда бизнес пожалуется

Стоимость проблемы: 3 недели инженера x зарплата = 150,000+ RUB потерянной продуктивности на каждого нового сотрудника. При текучке 20% в команде из 7 человек — это 1-2 сотрудника в год.

Проверка знанийKnowledge check
Какой тип метаданных DataTech должна начать собирать первым, и почему?
ОтветAnswer
Технические метаданные -- потому что их можно собрать автоматически (crawler по PostgreSQL) за часы, а не недели. Это немедленно даст базу для каталога: названия таблиц, колонки, типы, связи. Бизнес-метаданные требуют ручного курирования и займут месяцы. Начинать с автоматического -- правило quick wins.

Итоги

  • Метаданные — данные о данных, необходимые для управления data assets
  • Три типа: технические (автоматически собираемые), бизнес (курируемые людьми), операционные (обновляемые при каждом ETL)
  • Метаданные имеют жизненный цикл: создание, обогащение, обновление, использование, архивирование
  • Отсутствие метаданных стоит организации конкретных денег: время на onboarding, ошибочные решения, compliance-штрафы

В следующем уроке мы рассмотрим Business Glossary (бизнес-глоссарий) — инструмент для создания единого словаря бизнес-терминов организации.

Проверьте понимание

Результат: 0 из 0
Прикладной
Вопрос 1 из 4. В DataTech новый Data Engineer потратил 3 недели на изучение 200+ таблиц PostgreSQL. Какой тип метаданных, собранный автоматически, сократил бы это время до часов?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 7