Глоссарий

Глоссарий — Data Governance

Справочник ключевых терминов курса Data Governance.

8 категорий · 117 терминов

Основы Data Governance

Business Glossary (бизнес-глоссарий)

Business Glossary

Термин

Структурированный каталог бизнес-терминов организации с согласованными определениями, владельцами и связями. Является ключевым артефактом Data Governance, обеспечивающим единое понимание терминологии между бизнесом и IT.

DMBOK (Data Management Body of Knowledge)

DMBOK

Термин

Свод знаний по управлению данными, разработанный DAMA International. DMBOK2 определяет 11 областей знаний Data Management и является де-факто стандартом для построения программ Data Governance. Русское издание ISBN 978-5-9693-0404-8.

Пример:

11 областей DMBOK2:
1. Data Governance
2. Data Architecture
3. Data Modeling & Design
4. Data Storage & Operations
5. Data Security
6. Data Integration & Interoperability
7. Document & Content Management
8. Reference & Master Data
9. Data Warehousing & BI
10. Metadata Management
11. Data Quality

Data Asset (актив данных)

Data Asset

Термин

Набор данных, имеющий ценность для организации и управляемый как актив. Data Asset имеет владельца, описание в каталоге, определённый жизненный цикл и метрики качества. Примеры: таблица клиентов, реестр транзакций, справочник продуктов.

Data Culture (культура данных)

Data Culture

Термин

Совокупность ценностей, практик и поведения в организации, определяющих отношение к данным как к стратегическому активу. Зрелая Data Culture предполагает, что сотрудники принимают решения на основе данных, заботятся о качестве данных и соблюдают политики управления.

Data Domain (домен данных)

Data Domain

Термин

Логическая область бизнес-данных, объединённая общей предметной областью. Типичные домены: Клиенты, Продукты, Финансы, HR. В Data Mesh каждый домен управляется автономной командой, которая владеет и поставляет свои data products.

Пример:

Типичные Data Domains:
- Customer Domain: клиенты, контакты, сегменты
- Product Domain: продукты, SKU, категории
- Finance Domain: транзакции, счета, бюджеты
- HR Domain: сотрудники, должности, оргструктура

Data Ethics (этика данных)

Data Ethics

Термин

Область, изучающая моральные аспекты сбора, хранения и использования данных. Включает вопросы предвзятости алгоритмов, прозрачности принятия решений, справедливого использования персональных данных и социальной ответственности при работе с данными.

Data Framework (фреймворк управления данными)

Data Framework

Термин

Структурированный набор принципов, политик, процессов и инструментов для организации программы управления данными. Фреймворк определяет роли, ответственности, метрики и механизмы контроля. Примеры: DAMA-DMBOK, DCAM, кастомные корпоративные фреймворки.

Data Governance (руководство данными)

Data Governance

Термин

Система принятия решений, определения прав и ответственности в отношении данных как актива организации. Data Governance устанавливает политики, стандарты, роли и процессы, обеспечивающие качество, безопасность, доступность и соответствие данных требованиям бизнеса и регуляторов.

Пример:

Компоненты программы Data Governance:
1. Организационная структура (Data Council, Stewards)
2. Политики и стандарты (naming conventions, retention)
3. Процессы (data request, issue resolution)
4. Метрики (DQ scores, compliance rates)
5. Технологии (data catalog, quality tools)

Data Literacy (грамотность в области данных)

Data Literacy

Термин

Способность сотрудников читать, понимать, создавать и коммуницировать с помощью данных. Программы Data Literacy включают обучение работе с аналитическими инструментами, интерпретации метрик и критическому осмыслению данных.

Data Management (управление данными)

Data Management

Термин

Комплекс процессов по планированию, разработке, исполнению и контролю операций с данными на протяжении всего их жизненного цикла. Data Management шире Data Governance: включает архитектуру, хранение, интеграцию, качество, безопасность и другие области DMBOK2.

Data Operating Model (операционная модель данных)

Data Operating Model

Термин

Описание того, как организация структурирует людей, процессы и технологии для управления данными. Определяет степень централизации (централизованная, федеративная, гибридная), распределение ролей и взаимодействие между командами.

Пример:

Три модели:
1. Централизованная: единая команда DG, единые стандарты
2. Федеративная: доменные команды, координация через совет
3. Гибридная: центральные политики + доменная автономия

Data Policy (политика данных)

Data Policy

Термин

Формальный документ, определяющий правила и ограничения в отношении данных организации. Политики покрывают классификацию данных, контроль доступа, retention, качество, конфиденциальность. Каждая политика имеет владельца, область применения и механизм контроля исполнения.

Пример:

Пример политики retention:
{
  "policy": "data-retention-policy",
  "version": "2.1",
  "rules": [
    {
      "data_class": "PII",
      "retention_period": "3 years",
      "action_after": "anonymize"
    },
    {
      "data_class": "logs",
      "retention_period": "90 days",
      "action_after": "delete"
    }
  ]
}

Data Principles (принципы данных)

Data Principles

Термин

Набор фундаментальных утверждений, определяющих отношение организации к данным. Принципы формируют основу для политик и стандартов. Типичные принципы: данные -- актив организации, данные должны быть доступны, данные должны быть защищены.

Data Standards (стандарты данных)

Data Standards

Термин

Согласованные правила именования, форматирования, хранения и обмена данными. Стандарты обеспечивают единообразие и интероперабельность данных между системами. Включают naming conventions, форматы дат, кодовые справочники, стандарты API.

Пример:

Примеры стандартов:
- Naming: snake_case для таблиц и колонок
- Даты: ISO 8601 (2024-01-15T10:30:00Z)
- Валюта: ISO 4217 (RUB, USD, EUR)
- Страны: ISO 3166-1 alpha-2 (RU, US, DE)
- API: OpenAPI 3.0 для описания контрактов

Data Strategy (стратегия данных)

Data Strategy

Термин

Долгосрочный план организации по использованию данных как стратегического актива для достижения бизнес-целей. Стратегия определяет приоритеты, инвестиции, целевую архитектуру и roadmap программы Data Management.

Data Value (ценность данных)

Data Value

Термин

Экономическая и стратегическая ценность данных для организации. Оценка Data Value включает прямые выгоды (оптимизация решений, монетизация), снижение рисков (compliance, качество) и возможности (новые продукты, аналитика).

Роли и Организационная Структура

Accountability (подотчётность)

Accountability

Термин

Принцип, определяющий конечную ответственность за данные. В отличие от responsibility (исполнение), accountability означает, что конкретное лицо отвечает за результат и последствия решений в отношении данных. В RACI-матрице Accountable -- всегда один человек.

Business Analyst (бизнес-аналитик)

Business Analyst

Термин

Специалист, преобразующий бизнес-требования в технические спецификации для данных. В контексте Data Governance участвует в определении бизнес-правил качества данных, формулировании требований к отчётности и валидации бизнес-глоссария.

CDO (Chief Data Officer)

Chief Data Officer

Термин

Руководитель высшего звена, ответственный за стратегию данных и программу Data Governance в организации. CDO определяет Data Strategy, руководит Data Office, отчитывается перед CEO/COO. В зрелых организациях CDO входит в C-suite.

Centralized Governance (централизованное руководство)

Centralized Governance

Термин

Организационная модель, в которой все решения по управлению данными принимаются центральной командой (Data Governance Office). Обеспечивает единообразие стандартов, но может замедлять принятие решений и плохо масштабироваться в крупных организациях.

DPO (Data Protection Officer)

Data Protection Officer

Термин

Ответственный за защиту персональных данных. Обязательная роль по GDPR (статья 37) и 152-ФЗ для организаций, обрабатывающих персональные данные в значительном объёме. DPO контролирует compliance, консультирует по DPIA и взаимодействует с регуляторами.

Data Architect (архитектор данных)

Data Architect

Термин

Специалист, проектирующий целевую архитектуру данных организации: модели данных, схемы интеграции, стандарты хранения, потоки данных. Обеспечивает техническое соответствие Data Strategy и поддерживает Enterprise Data Model.

Data Council (совет по данным)

Data Council

Термин

Управляющий орган программы Data Governance, состоящий из представителей бизнеса и IT. Принимает стратегические решения по политикам данных, приоритетам инициатив, разрешению конфликтов. Обычно заседает ежемесячно или ежеквартально.

Data Custodian (хранитель данных)

Data Custodian

Термин

Техническая роль, ответственная за физическое хранение, обслуживание и техническую защиту данных. В отличие от Data Owner (определяет политики) и Data Steward (контролирует качество), Custodian реализует технические меры: бэкапы, шифрование, контроль доступа на уровне инфраструктуры.

Data Engineer (инженер данных)

Data Engineer

Термин

Специалист, реализующий пайплайны данных, ETL/ELT процессы и инфраструктуру для хранения и обработки данных. В программе Data Governance Data Engineer имплементирует технические стандарты, data quality checks и механизмы lineage.

Data Governance Board (комитет по данным)

Data Governance Board

Термин

Формальный орган принятия решений по вопросам управления данными. Включает Data Owners, CDO, представителей бизнес-подразделений и IT. Утверждает политики, стандарты, разрешает эскалации и контролирует KPI программы Data Governance.

Data Governance Office (офис управления данными)

Data Governance Office

Термин

Постоянное подразделение, координирующее операционную деятельность программы Data Governance. Обеспечивает исполнение политик, обучение сотрудников, мониторинг метрик качества, поддержку Data Stewards и подготовку отчётов для Data Council.

Data Steward (распорядитель данных)

Data Steward

Термин

Роль, ответственная за операционное управление качеством данных в конкретном домене. Data Steward определяет бизнес-правила качества, курирует метаданные, разрешает проблемы с данными, поддерживает бизнес-глоссарий. Является связующим звеном между бизнесом и IT.

Пример:

Обязанности Data Steward:
- Определение и документирование бизнес-правил качества
- Курирование метаданных в каталоге данных
- Разрешение инцидентов качества данных
- Участие в Data Quality Review
- Поддержка бизнес-глоссария домена
- Валидация изменений схемы данных

Federated Governance (федеративное руководство)

Federated Governance

Термин

Организационная модель, в которой решения по данным принимаются на уровне доменов, а центральная команда координирует общие стандарты и политики. Баланс между автономией доменных команд и единообразием на уровне организации. Подход Data Mesh основан на федеративной модели.

RACI (матрица ответственности)

RACI Matrix

Термин

Инструмент распределения ответственности: Responsible (исполняет), Accountable (отвечает за результат), Consulted (консультирует), Informed (информируется). В Data Governance RACI определяет роли для каждого процесса: кто создаёт политику, кто утверждает, кого привлекают.

Пример:

RACI для процесса Data Quality Review:
| Действие           | Owner | Steward | Engineer | Council |
|---------------------|-------|---------|----------|---------|
| Определение правил  |   A   |    R    |    C     |    I    |
| Имплементация       |   I   |    C    |    R     |         |
| Мониторинг          |   I   |    R    |    C     |    I    |
| Эскалация           |   A   |    R    |    C     |    I    |

Владелец данных (Data Owner)

Data Owner

Термин

Бизнес-роль, несущая конечную ответственность (accountability) за данные конкретного домена. Data Owner утверждает политики доступа, определяет допустимые уровни качества, авторизует изменения схемы. Обычно это руководитель бизнес-подразделения.

Метаданные и Каталог Данных

Data Asset Inventory (реестр активов данных)

Data Asset Inventory

Термин

Полный перечень всех data assets организации с атрибутами: расположение, владелец, классификация, уровень качества, зависимости. Inventory является основой для Impact Analysis и планирования Data Governance инициатив.

Data Discovery (обнаружение данных)

Data Discovery

Термин

Процесс и инструменты для поиска, идентификации и понимания доступных данных в организации. Автоматизированная Data Discovery включает сканирование источников, профилирование данных, классификацию PII и построение связей между datasets.

Data Lineage (происхождение данных)

Data Lineage

Термин

Визуализация и отслеживание пути данных от источника до потребителя через все трансформации. Data Lineage отвечает на вопросы: откуда пришли данные, как они трансформировались, кто их использует. Критически важен для Impact Analysis и debugging.

Пример:

Пример lineage цепочки:
PostgreSQL (orders) 
  -> dbt model (stg_orders) 
    -> dbt model (fct_orders) 
      -> BI Dashboard (Revenue Report)

При изменении схемы orders lineage показывает
все downstream зависимости, которые затронет изменение.

Impact Analysis (анализ влияния)

Impact Analysis

Термин

Процесс оценки последствий изменений в данных, схемах или процессах на downstream системы и потребителей. Использует Data Lineage для определения всех затронутых объектов. Обязателен перед миграциями, изменениями схемы и выводом источников из эксплуатации.

Каталог данных

Data Catalog

Термин

Централизованный реестр метаданных организации с поиском, классификацией и социальными функциями. Каталог данных объединяет технические метаданные (схемы, lineage), бизнес-метаданные (описания, владельцы, теги) и операционные метаданные (свежесть, качество). Примеры: OpenMetadata, DataHub, Alation.

Пример:

Структура записи в каталоге:
{
  "name": "customers",
  "type": "table",
  "database": "analytics_prod",
  "owner": "customer-domain-team",
  "tags": ["PII", "tier-1"],
  "description": "Мастер-таблица клиентов",
  "columns": 24,
  "freshness": "updated daily at 03:00 UTC",
  "quality_score": 94.5
}

Metadata Standards (стандарты метаданных)

Metadata Standards

Термин

Согласованные правила описания метаданных: обязательные атрибуты, форматы, словари терминов. Стандарты обеспечивают единообразие метаданных между системами и командами. Включают schema для описания таблиц, API-контрактов, дашбордов.

Metadata Management (управление метаданными)

Metadata Management

Термин

Область DMBOK2, охватывающая сбор, хранение, интеграцию и использование метаданных. Включает автоматический сбор технических метаданных из источников, ручное курирование бизнес-метаданных, обеспечение актуальности и согласованности.

Метаданные

Metadata

Термин

Данные о данных. Описывают структуру, происхождение, качество, правила использования и контекст данных. Метаданные делятся на технические (схемы, типы), бизнес-метаданные (описания, владельцы, glossary) и операционные (время обновления, объём, статистика выполнения).

Пример:

Три типа метаданных таблицы customers:

Технические:
  - schema: public
  - columns: id (bigint), email (varchar), created_at (timestamp)
  - indexes: idx_customers_email (unique)

Бизнес:
  - owner: Customer Domain Team
  - description: Мастер-таблица клиентов
  - classification: PII

Операционные:
  - row_count: 2,450,000
  - last_updated: 2024-01-15T03:00:00Z
  - avg_query_time: 120ms

Операционные метаданные

Operational Metadata

Термин

Метаданные, описывающие текущее состояние и историю операций с данными: время последнего обновления, объём записей, длительность ETL-процессов, статистика запросов, история изменений схемы.

Schema Registry (реестр схем)

Schema Registry

Термин

Централизованное хранилище версионированных схем данных (Avro, Protobuf, JSON Schema). Обеспечивает совместимость между производителями и потребителями данных, валидацию сообщений, эволюцию схем без breaking changes.

Пример:

# Confluent Schema Registry API

# Регистрация схемы
curl -X POST http://schema-registry:8081/subjects/orders-value/versions \
  -H 'Content-Type: application/json' \
  -d '{"schema": "{\"type\": \"record\", ...}"}'

# Проверка совместимости
curl http://schema-registry:8081/compatibility/subjects/orders-value/versions/latest

Словарь данных (Data Dictionary)

Data Dictionary

Термин

Детальное описание структуры данных: таблицы, колонки, типы, ограничения, допустимые значения, связи. В отличие от каталога данных, словарь фокусируется на технической структуре. Может быть частью каталога или отдельным артефактом.

Tag/Classification (тег/классификация)

Tag/Classification

Термин

Механизм категоризации data assets с помощью меток. Теги бывают пользовательские (проектные, доменные) и системные (PII, Confidential, Tier-1). Классификация обеспечивает автоматическое применение политик: PII-tagged данные автоматически маскируются при экспорте.

Пример:

Иерархия классификации:
- Public (открытые данные)
- Internal (внутренние)
- Confidential (конфиденциальные)
  - PII (персональные данные)
  - Financial (финансовые)
  - Health (медицинские)
- Restricted (ограниченный доступ)
  - Credentials (учётные данные)
  - Encryption Keys (ключи шифрования)

Технические метаданные

Technical Metadata

Термин

Метаданные, описывающие физическую структуру данных: схемы таблиц, типы колонок, индексы, foreign keys, партиции, форматы файлов. Автоматически собираются инструментами каталога данных через crawlers и API интеграции.

Бизнес-метаданные

Business Metadata

Термин

Метаданные, придающие бизнес-контекст данным: описания на человеческом языке, владельцы, домены, теги, связи с бизнес-процессами. Курируются вручную Data Stewards и бизнес-пользователями в каталоге данных.

Качество Данных

Accuracy (точность)

Accuracy

Термин

Измерение качества данных, определяющее степень соответствия данных реальному состоянию объекта. Точный email -- это email, действительно принадлежащий клиенту. Точность проверяется сравнением с эталонным источником (reference data validation).

Пример:

-- Проверка точности: email format
SELECT COUNT(*) AS invalid_emails
FROM customers
WHERE email NOT LIKE '%_@_%.__%';

-- Проверка точности: cross-reference с внешним источником
SELECT c.inn, c.company_name
FROM customers c
LEFT JOIN egrul_reference r ON c.inn = r.inn
WHERE r.inn IS NULL; -- INN не найден в ЕГРЮЛ

Anomaly Detection (обнаружение аномалий)

Anomaly Detection

Термин

Автоматическое выявление отклонений в данных от ожидаемых паттернов: резкие изменения объёмов, появление unexpected значений, нарушение статистических распределений. Используется в Data Observability для раннего обнаружения проблем качества.

Completeness (полнота)

Completeness

Термин

Измерение качества данных, определяющее долю заполненных (non-null) значений в обязательных полях. Полнота 95% означает, что 5% записей имеют пропуски в обязательных полях. Измеряется на уровне колонок, таблиц и datasets.

Пример:

-- Измерение полноты по колонкам
SELECT
  COUNT(*) AS total,
  COUNT(email) AS email_filled,
  COUNT(phone) AS phone_filled,
  ROUND(100.0 * COUNT(email) / COUNT(*), 1) AS email_completeness_pct,
  ROUND(100.0 * COUNT(phone) / COUNT(*), 1) AS phone_completeness_pct
FROM customers;

Consistency (согласованность)

Consistency

Термин

Измерение качества данных, определяющее отсутствие противоречий между связанными данными в разных системах или таблицах. Пример нарушения: клиент помечен как active в CRM, но deleted в биллинге.

Пример:

-- Проверка согласованности между системами
SELECT
  crm.customer_id,
  crm.status AS crm_status,
  billing.status AS billing_status
FROM crm_customers crm
JOIN billing_customers billing ON crm.customer_id = billing.customer_id
WHERE crm.status != billing.status;

Data Cleansing (очистка данных)

Data Cleansing

Термин

Процесс обнаружения и исправления ошибок, дубликатов, неполных и некорректных данных. Включает стандартизацию форматов, дедупликацию, заполнение пропусков, исправление опечаток. Может быть автоматическим (правила) или ручным (Data Steward review).

Data Observability (наблюдаемость данных)

Data Observability

Термин

Способность понимать состояние данных и data pipelines в реальном времени. По аналогии с observability в DevOps, включает пять столпов: freshness, volume, schema changes, distribution, lineage. Инструменты: Monte Carlo, Elementary, Soda.

Пример:

5 столпов Data Observability:
1. Freshness: данные обновились вовремя?
2. Volume: количество записей в ожидаемом диапазоне?
3. Schema: структура не изменилась неожиданно?
4. Distribution: значения в допустимом распределении?
5. Lineage: зависимости не нарушены?

Data Profiling (профилирование данных)

Data Profiling

Термин

Анализ данных для выявления их структуры, содержания и качества: типы данных, распределения значений, паттерны, аномалии, уникальность, null rates. Профилирование -- первый шаг при подключении нового источника данных.

Пример:

-- Базовое профилирование таблицы
SELECT
  COUNT(*) AS row_count,
  COUNT(DISTINCT customer_id) AS unique_customers,
  MIN(created_at) AS earliest,
  MAX(created_at) AS latest,
  AVG(order_total) AS avg_total,
  PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY order_total) AS median_total,
  COUNT(*) FILTER (WHERE order_total IS NULL) AS null_totals
FROM orders;

Data Quality (качество данных)

Data Quality

Термин

Область DMBOK2, охватывающая планирование, мониторинг и улучшение качества данных. Качество измеряется по 6+ dimensions: accuracy, completeness, consistency, timeliness, validity, uniqueness. Высокое качество данных -- необходимое условие для data-driven решений.

Data Quality Dashboard (дашборд качества данных)

Data Quality Dashboard

Термин

Визуальное представление метрик качества данных: агрегированные scores по доменам, тренды, алерты, топ проблемных таблиц. Служит инструментом мониторинга для Data Stewards и отчётности для Data Council.

Data Quality Dimensions (измерения качества данных)

Data Quality Dimensions

Термин

Стандартные категории для оценки качества данных. Базовые 6 dimensions по DMBOK2: Accuracy, Completeness, Consistency, Timeliness, Validity, Uniqueness. Расширенные dimensions: Integrity, Relevance, Accessibility, Interpretability.

Data Quality Metrics (метрики качества данных)

Data Quality Metrics

Термин

Количественные показатели, измеряющие качество данных по каждому dimension. Метрики выражаются в процентах или абсолютных числах и агрегируются в Data Quality Score. Типичная метрика: completeness_rate = (non_null / total) * 100.

Data Quality Rules (правила качества данных)

Data Quality Rules

Термин

Формализованные проверки, определяющие допустимые значения, форматы и связи данных. Правила реализуются как автоматические тесты в dbt, Great Expectations или custom скриптах. Каждое правило привязано к dimension и имеет severity (critical, warning, info).

Пример:

# Great Expectations rule (YAML)
expectations:
  - expectation_type: expect_column_values_to_not_be_null
    kwargs:
      column: customer_id
    meta:
      dimension: completeness
      severity: critical

  - expectation_type: expect_column_values_to_be_between
    kwargs:
      column: order_total
      min_value: 0
      max_value: 1000000
    meta:
      dimension: validity
      severity: warning

Data Quality SLA (SLA качества данных)

Data Quality SLA

Термин

Соглашение об уровне обслуживания, определяющее минимально допустимые показатели качества данных. Пример: completeness >= 99%, freshness <= 1 hour, accuracy >= 95%. Нарушение SLA триггерит алерты и эскалацию к Data Owner.

Great Expectations (фреймворк)

Great Expectations

Термин

Open-source фреймворк для валидации, профилирования и документирования данных. Позволяет описывать ожидания (expectations) к данным в декларативном формате и автоматически проверять их на каждом запуске pipeline.

Пример:

# Great Expectations Checkpoint
import great_expectations as gx

context = gx.get_context()

# Определение expectation suite
suite = context.add_expectation_suite("orders_suite")
suite.add_expectation(
    gx.expectations.ExpectColumnValuesToNotBeNull(column="order_id")
)
suite.add_expectation(
    gx.expectations.ExpectColumnValuesToBeBetween(
        column="total", min_value=0
    )
)

# Запуск валидации
result = context.run_checkpoint("orders_checkpoint")
print(f"Success: {result.success}")

Root Cause Analysis (анализ первопричин)

Root Cause Analysis

Термин

Систематический процесс определения первоначальной причины проблемы с качеством данных. Использует Data Lineage, логи ETL, историю изменений схемы для отслеживания момента и причины деградации. Метод: 5 Whys, Fishbone diagram.

Timeliness (своевременность)

Timeliness

Термин

Измерение качества данных, определяющее доступность данных в требуемые сроки. Данные считаются timely, если они обновлены к моменту принятия решения. Метрика: время между событием и его отражением в аналитической системе (data latency).

Uniqueness (уникальность)

Uniqueness

Термин

Измерение качества данных, определяющее отсутствие дубликатов. Каждая запись должна представлять уникальную сущность. Нарушение уникальности приводит к искажению агрегатов и дублированию коммуникаций с клиентами.

Пример:

-- Поиск дубликатов по email
SELECT email, COUNT(*) AS cnt
FROM customers
GROUP BY email
HAVING COUNT(*) > 1
ORDER BY cnt DESC;

Validity (валидность)

Validity

Термин

Измерение качества данных, определяющее соответствие значений заданным правилам формата, диапазона и допустимых значений. Валидный email содержит @ и домен, валидный возраст находится в диапазоне 0-150.

Пример:

-- dbt test для validity
-- tests/assert_valid_status.sql
SELECT *
FROM {{ ref('stg_orders') }}
WHERE status NOT IN ('pending', 'confirmed', 'shipped', 'delivered', 'cancelled');

Приватность и Compliance

152-ФЗ

Federal Law 152-FZ

Термин

Федеральный закон Российской Федерации "О персональных данных". Определяет правила сбора, хранения, обработки и передачи персональных данных граждан РФ. Требует согласия субъекта, уведомления Роскомнадзора, локализации данных на территории РФ.

Audit Trail (аудиторский след)

Audit Trail

Термин

Хронологическая запись всех действий с данными: кто, когда, что изменил, с какого IP, по какому основанию. Audit Trail обязателен для compliance (GDPR Article 30, 152-ФЗ) и расследования инцидентов безопасности.

Consent Management (управление согласиями)

Consent Management

Термин

Система учёта, хранения и проверки согласий субъектов данных на обработку их персональных данных. Consent Management отслеживает: что согласовано, когда, на какие цели, с каким сроком действия. Обязателен по GDPR (Article 7) и 152-ФЗ.

Cross-border Transfer (трансграничная передача)

Cross-border Data Transfer

Термин

Передача персональных данных в другие юрисдикции. GDPR разрешает передачу в страны с адекватным уровнем защиты или при наличии Standard Contractual Clauses. 152-ФЗ требует локализации данных граждан РФ на территории РФ.

DPIA (оценка воздействия на защиту данных)

Data Protection Impact Assessment

Термин

Формальная оценка рисков обработки персональных данных, обязательная по GDPR Article 35 при высоком риске для субъектов данных. DPIA оценивает необходимость обработки, пропорциональность, риски для прав субъектов и меры митигации.

Data Breach (утечка данных)

Data Breach

Термин

Инцидент безопасности, в результате которого персональные данные стали доступны неавторизованным лицам. GDPR требует уведомления регулятора в течение 72 часов (Article 33) и субъектов данных при высоком риске (Article 34). 152-ФЗ также требует уведомления Роскомнадзора.

Data Classification (классификация данных)

Data Classification

Термин

Процесс категоризации данных по уровню конфиденциальности и критичности. Типичные уровни: Public, Internal, Confidential, Restricted. Классификация определяет требования к хранению, доступу, шифрованию и retention для каждого уровня.

Пример:

Матрица классификации:
| Уровень       | Шифрование | Доступ       | Retention  | Пример             |
|---------------|------------|--------------|------------|--------------------||
| Public        | Нет        | Все          | Unlimited  | Пресс-релизы       |
| Internal      | At rest    | Сотрудники   | 5 лет      | Внутренние отчёты  |
| Confidential  | At rest+transit | По ролям  | 3 года     | PII клиентов       |
| Restricted    | At rest+transit+app | Named users | 1 год  | Ключи шифрования   |

Data Minimization (минимизация данных)

Data Minimization

Термин

Принцип GDPR (Article 5), требующий обрабатывать только те персональные данные, которые необходимы для конкретной цели. Запрещает сбор данных "про запас". Реализуется через review процессов сбора данных и удаление избыточных полей.

Data Processing Agreement (соглашение об обработке данных)

Data Processing Agreement

Термин

Юридически обязывающий договор между контроллером и процессором данных, определяющий условия обработки персональных данных. Обязателен по GDPR Article 28. Включает цель обработки, категории данных, меры безопасности, обязательства сторон.

Data Retention (хранение данных)

Data Retention

Термин

Политики и процессы, определяющие сроки хранения данных и действия по их истечении (архивация, анонимизация, удаление). Retention определяется регуляторными требованиями, бизнес-необходимостью и классификацией данных.

Data Subject (субъект данных)

Data Subject

Термин

Физическое лицо, чьи персональные данные обрабатываются. Субъект данных обладает правами по GDPR (доступ, исправление, удаление, переносимость, ограничение обработки) и 152-ФЗ (отзыв согласия, получение информации об обработке).

GDPR (General Data Protection Regulation)

GDPR

Термин

Регламент Европейского Союза о защите персональных данных, действующий с мая 2018 года. Устанавливает правила обработки ПД граждан ЕС, права субъектов данных, обязанности контроллеров и процессоров, штрафы до 4% глобального оборота или 20 млн евро.

PII (персонально идентифицирующая информация)

Personally Identifiable Information

Термин

Данные, позволяющие прямо или косвенно идентифицировать физическое лицо. Прямые PII: ФИО, паспорт, ИНН, email. Косвенные PII: IP-адрес, геолокация, поведенческие данные. PII требуют повышенной защиты и контроля доступа.

Пример:

Категории PII:

Прямые идентификаторы:
- ФИО, дата рождения
- Паспортные данные, ИНН, СНИЛС
- Email, номер телефона
- Номер банковской карты

Косвенные идентификаторы:
- IP-адрес, cookies
- Геолокация
- Идентификатор устройства
- Поведенческий профиль

Персональные данные

Personal Data

Термин

Любая информация, относящаяся к определённому или определяемому физическому лицу (статья 3 152-ФЗ). Шире понятия PII: включает биометрические данные, данные о здоровье, политические взгляды, религиозные убеждения (специальные категории по GDPR Article 9).

Privacy Impact Assessment (оценка воздействия на приватность)

Privacy Impact Assessment

Термин

Систематическая оценка рисков для приватности при внедрении новой системы, процесса или технологии. Шире DPIA: включает не только compliance, но и этические, репутационные и операционные риски. Рекомендуется проводить до начала разработки.

Privacy by Design (конфиденциальность по дизайну)

Privacy by Design

Термин

Принцип, требующий учитывать защиту приватности на этапе проектирования систем, а не добавлять её постфактум. 7 принципов Ann Cavoukian: проактивность, приватность по умолчанию, встроенность, win-win, полная защита жизненного цикла, прозрачность, уважение к пользователю.

Regulatory Compliance (соответствие требованиям регуляторов)

Regulatory Compliance

Термин

Обеспечение соответствия обработки данных законодательным и нормативным требованиям: GDPR, 152-ФЗ, PCI DSS, SOX, HIPAA и отраслевым стандартам. Compliance требует документирования процессов, регулярных аудитов, обучения сотрудников.

Right to Erasure (право на удаление)

Right to Erasure / Right to be Forgotten

Термин

Право субъекта данных требовать удаления своих персональных данных (GDPR Article 17). Организация обязана удалить данные, если они более не нужны для первоначальной цели, отозвано согласие, или данные обрабатывались незаконно. Исключения: юридические обязательства, архивирование в общественных интересах.

Безопасность и Контроль Доступа

ABAC (Attribute-Based Access Control)

Attribute-Based Access Control

Термин

Модель контроля доступа, основанная на атрибутах субъекта (должность, отдел, уровень допуска), объекта (классификация, владелец) и среды (время, IP-адрес). Более гибкая, чем RBAC: позволяет создавать fine-grained политики без комбинаторного взрыва ролей.

Пример:

# OPA Rego policy (ABAC)
package data.access

allow {
  input.user.department == input.resource.domain
  input.user.clearance >= input.resource.classification_level
  input.environment.time_hour >= 9
  input.environment.time_hour <= 18
}

Access Control (контроль доступа)

Access Control

Термин

Совокупность механизмов, ограничивающих доступ к данным на основе политик безопасности. Включает аутентификацию (кто ты), авторизацию (что тебе разрешено) и аудит (что ты сделал). Реализуется через RBAC, ABAC, ACL или их комбинации.

Audit Log (журнал аудита)

Audit Log

Термин

Неизменяемый журнал всех действий с данными и системами: вход, запросы, изменения, экспорт. Audit Log должен содержать: who (пользователь), what (действие), when (время), where (источник), why (основание). Хранится отдельно от основных данных с ограниченным доступом.

Data Encryption (шифрование данных)

Data Encryption

Термин

Преобразование данных в нечитаемый формат с использованием криптографических алгоритмов. At rest (на диске): AES-256. In transit (при передаче): TLS 1.3. At application level: field-level encryption для отдельных колонок с PII.

Пример:

-- PostgreSQL: Transparent Data Encryption (TDE)
-- Шифрование at rest
ALTER SYSTEM SET ssl = on;
ALTER SYSTEM SET ssl_cert_file = '/etc/ssl/server.crt';

-- Field-level encryption с pgcrypto
INSERT INTO customers (email_encrypted)
VALUES (pgp_sym_encrypt('[email protected]', 'encryption_key'));

Data Loss Prevention (предотвращение утечек данных)

Data Loss Prevention (DLP)

Термин

Стратегия и инструменты для обнаружения и предотвращения несанкционированного копирования, передачи или утечки конфиденциальных данных. DLP мониторит email, облачные хранилища, USB-устройства, API и применяет политики блокировки или маскирования.

Identity Management (управление идентификацией)

Identity Management

Термин

Система управления цифровыми идентификациями пользователей: создание, аутентификация, авторизация, деактивация учётных записей. Включает Single Sign-On (SSO), Multi-Factor Authentication (MFA), federation. Инструменты: Keycloak, Okta, Azure AD.

Key Management (управление ключами)

Key Management

Термин

Процессы и инструменты для генерации, хранения, ротации и отзыва криптографических ключей. Ключи хранятся в Hardware Security Module (HSM) или Key Management Service (KMS). Ротация ключей -- обязательная практика для compliance.

Маскирование данных

Data Masking

Термин

Техника замены реальных конфиденциальных данных на реалистичные, но фиктивные значения. Отличается от анонимизации (обезличивания) тем, что маскированные данные сохраняют формат и статистические свойства. Применяется для тестовых, аналитических и demo-сред.

Пример:

-- Динамическое маскирование в PostgreSQL
CREATE VIEW masked_customers AS
SELECT
  id,
  CONCAT(LEFT(first_name, 1), '***') AS first_name,
  CONCAT(LEFT(last_name, 1), '***') AS last_name,
  REGEXP_REPLACE(email, '(.)(.*)(@.*)', '\1***\3') AS email,
  CONCAT('***-***-', RIGHT(phone, 4)) AS phone
FROM customers;

-- Результат: И*** П*** i***@mail.ru ***-***-1234

Policy-as-Code (политика как код)

Policy-as-Code

Термин

Подход, при котором политики безопасности и доступа описываются программным кодом, версионируются в Git и применяются автоматически. Позволяет тестировать политики в CI/CD, делать review через pull requests и обеспечивать audit trail изменений.

Пример:

# OPA Rego: Row-Level Security policy
package data.rls

# Пользователь видит только данные своего региона
filter_rows[row] {
  row := data.customers[_]
  row.region == input.user.region
}

# Администраторы видят все данные
filter_rows[row] {
  row := data.customers[_]
  input.user.role == "admin"
}

Privileged Access (привилегированный доступ)

Privileged Access

Термин

Повышенный уровень доступа к данным и системам, предоставляемый администраторам, DBA и service accounts. Privileged Access Management (PAM) включает just-in-time доступ, сессионную запись, ротацию паролей и approval workflows.

RBAC (Role-Based Access Control)

Role-Based Access Control

Термин

Модель контроля доступа, при которой разрешения назначаются ролям, а роли -- пользователям. Наиболее распространённая модель в корпоративных системах. Роли определяются по функциям (analyst, engineer, admin) или доменам (finance_viewer, hr_editor).

Пример:

-- PostgreSQL RBAC
CREATE ROLE data_analyst;
CREATE ROLE data_engineer;

-- Аналитик: только чтение
GRANT SELECT ON ALL TABLES IN SCHEMA analytics TO data_analyst;

-- Инженер: чтение + запись
GRANT SELECT, INSERT, UPDATE ON ALL TABLES IN SCHEMA staging TO data_engineer;

-- Назначение ролей пользователям
GRANT data_analyst TO alice;
GRANT data_engineer TO bob;

Row-Level Security (безопасность на уровне строк)

Row-Level Security (RLS)

Термин

Механизм ограничения доступа к данным на уровне отдельных строк таблицы. Пользователь видит только те записи, которые соответствуют его политике (по региону, отделу, роли). Встроен в PostgreSQL, Snowflake, BigQuery.

Пример:

-- PostgreSQL Row-Level Security
ALTER TABLE customers ENABLE ROW LEVEL SECURITY;

CREATE POLICY region_isolation ON customers
  FOR SELECT
  USING (region = current_setting('app.user_region'));

-- Пользователь из региона 'RU' видит только клиентов из RU
SET app.user_region = 'RU';
SELECT * FROM customers; -- только записи с region='RU'

Security Policy (политика безопасности)

Security Policy

Термин

Формальный документ, определяющий правила защиты данных: классификация, контроль доступа, шифрование, мониторинг, реагирование на инциденты. Security Policy является частью программы Data Governance и обновляется при изменении регуляторных требований.

Tokenization (токенизация)

Tokenization

Термин

Замена конфиденциальных данных на уникальный токен (ссылку), не имеющий самостоятельной ценности. В отличие от шифрования, токен не может быть обратно преобразован без доступа к токен-хранилищу. Применяется для номеров карт (PCI DSS) и PII.

Zero Trust (нулевое доверие)

Zero Trust

Термин

Архитектурный подход к безопасности, при котором ни один пользователь или система не получает доверие по умолчанию, даже внутри корпоративной сети. Каждый запрос аутентифицируется, авторизуется и шифруется. Принцип: never trust, always verify.

Фреймворки и Зрелость

Benchmarking (бенчмаркинг)

Benchmarking

Термин

Сравнение уровня зрелости Data Governance организации с отраслевыми эталонами или конкурентами. Benchmarking помогает определить разрывы, приоритизировать улучшения и обосновать инвестиции перед руководством.

CMM Levels (уровни зрелости CMM)

Capability Maturity Model Levels

Термин

Пятиуровневая шкала зрелости процессов: 1-Initial (хаотичный), 2-Managed (базовые процессы), 3-Defined (стандартизированные), 4-Quantitatively Managed (измеряемые), 5-Optimizing (непрерывное улучшение). Применяется для оценки зрелости Data Governance.

Пример:

Уровни зрелости Data Governance:

Level 1 - Initial:
  Нет формальных процессов, данные в silos

Level 2 - Managed:
  Базовые политики, назначены Data Owners

Level 3 - Defined:
  Стандарты, каталог данных, метрики качества

Level 4 - Quantitatively Managed:
  SLA качества, автоматический мониторинг, KPI

Level 5 - Optimizing:
  ML-driven quality, proactive governance, data marketplace

Capability Assessment (оценка возможностей)

Capability Assessment

Термин

Формальная оценка текущего состояния Data Management capabilities организации по областям DMBOK2. Результат -- heatmap зрелости по 11 областям с рекомендациями по приоритетным улучшениям.

DAMA-DMBOK (фреймворк DAMA)

DAMA-DMBOK Framework

Термин

Фреймворк управления данными от DAMA International, описывающий 11 областей знаний и их взаимосвязи. DMBOK2 (второе издание, 2017) -- де-факто стандарт для построения программ Data Management. Русское издание переведено при участии DAMA Russia.

DCAM (Data Management Capability Assessment Model)

DCAM

Термин

Модель оценки зрелости Data Management от EDM Council, ориентированная на финансовый сектор. DCAM оценивает 8 компонентов: стратегия, программа, бизнес-кейс, архитектура, технология, качество, стандарты, governance. Включает 37 capabilities и 140+ sub-capabilities.

Data Management Maturity (зрелость управления данными)

Data Management Maturity

Термин

Количественная оценка текущего уровня развития процессов управления данными. Измеряется по шкале CMM (1-5) для каждой области DMBOK2. Результат -- baseline для планирования улучшений и отслеживания прогресса программы Data Governance.

EDM Council

Термин

Enterprise Data Management Council -- глобальная ассоциация, продвигающая стандарты управления данными в финансовой индустрии. Разработчик DCAM, Cloud Data Management Capabilities (CDMC) и бенчмарков зрелости Data Management.

Governance Maturity (зрелость руководства данными)

Governance Maturity

Термин

Оценка зрелости именно компонента Data Governance (не всего Data Management): наличие ролей, политик, метрик, процессов эскалации, культуры данных. Governance Maturity -- один из компонентов общей Data Management Maturity.

ISO 8000 (стандарт качества данных)

ISO 8000

Термин

Международный стандарт качества данных, определяющий требования к мастер-данным и обмену данными. ISO 8000 формализует процессы обеспечения качества, требования к provenance и синтаксической/семантической точности данных.

Maturity Model (модель зрелости)

Maturity Model

Термин

Фреймворк для оценки текущего состояния и планирования развития Data Management capabilities. Модели зрелости определяют уровни (обычно 1-5), критерии для каждого уровня и путь перехода. Примеры: CMM, DCAM, Stanford Data Governance Maturity Model.

Инструменты и Экосистема

Alation

Термин

Коммерческая платформа для каталога данных и Data Governance. Сильные стороны: NLP-поиск, collaborative features, integration с BI-инструментами, automated data quality. Популярна в enterprise-сегменте.

Amundsen

Термин

Open-source data discovery engine, разработанный в Lyft. Фокус на поиске и навигации по данным. Использует Neo4j для хранения графа метаданных и Elasticsearch для поиска. Проект передан в LF AI & Data Foundation.

Apache Atlas

Термин

Open-source фреймворк для управления метаданными и Data Governance в экосистеме Hadoop. Обеспечивает классификацию данных, lineage, поиск по метаданным. Часть Apache Software Foundation, популярен в on-premise Hadoop-инсталляциях.

Atlan

Термин

Modern data workspace, объединяющий каталог данных, lineage, collaboration и governance. Отличается UX-ориентированным подходом, embedded collaboration (как Google Docs для данных) и интеграцией с modern data stack (dbt, Snowflake, Looker).

Collibra

Термин

Enterprise-платформа для Data Intelligence: каталог данных, бизнес-глоссарий, Data Governance workflows, privacy management, data quality. Лидер в Gartner Magic Quadrant для Active Metadata Management. Популярна в крупных корпорациях и финансовом секторе.

DataHub

Термин

Open-source платформа метаданных от LinkedIn (Acryl Data). Обеспечивает каталогизацию, lineage, governance, observability. Архитектура на основе event-driven metadata graph. Поддерживает 50+ интеграций с источниками данных.

Marquez

Термин

Open-source сервис для сбора, хранения и визуализации Data Lineage, разработанный в WeWork. Реализует OpenLineage стандарт. Интегрируется с Apache Airflow, Spark, dbt для автоматического сбора lineage информации.

Monte Carlo

Термин

Платформа для Data Observability, обеспечивающая мониторинг качества данных и data pipelines. Автоматически обнаруживает аномалии в freshness, volume, schema changes и распределениях. Концепция: Data Reliability Engineering по аналогии с SRE.

OPA (Open Policy Agent)

Open Policy Agent

Термин

Open-source движок для policy-as-code, использующий язык Rego для описания политик доступа. OPA принимает решения авторизации на основе входных данных и политик. Применяется для RBAC/ABAC в микросервисах, Kubernetes, API gateways и Data Governance.

Пример:

# OPA Rego: политика доступа к данным
package data.governance

# Разрешить доступ к PII только для ролей с clearance
allow {
  input.action == "read"
  input.resource.classification != "PII"
}

allow {
  input.action == "read"
  input.resource.classification == "PII"
  input.user.clearance >= 3
}

# Запись только для Data Engineers
allow {
  input.action == "write"
  input.user.role == "data_engineer"
}

OpenMetadata

Термин

Open-source платформа для Data Discovery, Governance, Quality и Collaboration. Объединяет каталог данных, lineage, data quality, glossary, policies и team collaboration. Выбрана для лабораторных работ курса благодаря низким требованиям к ресурсам (4-6 GB RAM).

dbt (data build tool)

dbt

Термин

Open-source инструмент для трансформации данных в аналитических хранилищах. dbt реализует принцип analytics-as-code: модели на SQL, тесты качества, документация, lineage. В контексте Data Governance: dbt tests обеспечивают автоматическую валидацию правил качества данных.

Пример:

# dbt model с тестами качества
# models/staging/stg_orders.sql
SELECT
  order_id,
  customer_id,
  status,
  total
FROM {{ source('raw', 'orders') }}
WHERE order_id IS NOT NULL

# schema.yml
models:
  - name: stg_orders
    columns:
      - name: order_id
        tests:
          - unique
          - not_null
      - name: status
        tests:
          - accepted_values:
              values: ['pending', 'confirmed', 'shipped', 'delivered', 'cancelled']
      - name: total
        tests:
          - dbt_utils.expression_is_true:
              expression: ">= 0"