Фреймворк критериев CDE — 4 dimensions · Data Risk & Compliance Governance

Введение

В уроке 2 мы зафиксировали materiality threshold. Но materiality — одна ось. В реальности CDE-кандидат должен оцениваться по нескольким осям одновременно: финансовый impact, регуляторное воздействие, операционная зависимость, репутационный риск. Одна ось даёт false positives или false negatives; четыре — дают defensible decision.

Этот урок строит 4-мерный фреймворк, который используется в SwiftRide для структурированного criticality scoring всех 15 кандидатов из портфеля. Каждая dimension — со своей шкалой scoring, примерами и стратегией взвешивания. Следующий урок (M1.4) превращает фреймворк в рабочий инструмент.

Почему именно 4 dimensions

Отраслевые фреймворки (DCAM v3, MAS Information Paper May 2024, Alation 2026 Field Guide, методология CDE Collibra) сошлись на 4-мерной модели. Это не случайно — это отражает 4 способа, которыми CDE-error может стоить организации денег:

Financial impact — прямое misstatement финансовой отчётности, value chains.
Regulatory exposure — штраф, приостановка лицензии, supervisory action.
Operational dependency — нарушение процесса, влияние на клиентов, SLA breach.
Reputational / legal risk — ущерб бренду, судебные иски, customer churn.

Каждая dimension порождает разные controls (M5), требует разной evidence (M7), и привлекает внимание разных регуляторов (M3). Scoring по всем 4 → defensible per-CDE decision.

Альтернативные 3-мерные и 5-мерные фреймворки существуют (Microsoft Purview использует «business value + risk + compliance»; некоторые вендоры добавляют «AI / ML readiness» как 5-ю). Для DRG-курса мы придерживаемся 4 — это наиболее устоявшийся маппинг к регуляторным ожиданиям.

Dimension 1: Financial impact

Что измеряет: прямой долларовый exposure при ошибке, искажении или отсутствии CDE-данных за reporting period.

Шкала (1-5):

Score	Описание	Пример SwiftRide
1	Negligible — ошибка не достигает financial statements	Внутренняя метрика latency на дашборде
2	Limited — затрагивает <0.5% pre-tax income / 0.05% revenue	Спор по SwiftAds attribution (около $100K)
3	Moderate — затрагивает 0.5-2% pre-tax / 0.05-0.2% revenue, либо single-period restatement	Ошибка в расчёте driver bonus в одной стране
4	Significant — затрагивает 2-5% pre-tax / 0.2-1% revenue, либо multi-period	Ошибка staging ECL SwiftCapital по всему портфелю
5	Material — превышает audit materiality, либо триггерит SAB 99 qualitative factor	Ошибка revenue recognition, ошибка ECL-модели, системная ошибка driver earnings ledger

По BCBS 239 Principle 3 BCBS 239 Principle 3 — требование accuracy и integrity применяется к risk data; маппинг финансового impact напрямую следует из materiality (см. урок 2).

Типичные ошибки criticality scoring:

Путаница GMV impact с revenue impact. Для маркетплейса (SwiftRide) GMV — gross transaction volume, revenue — take rate. Ошибка CDE в trip records влияет на revenue, не на GMV напрямую. Используйте revenue base.
Забыли про aggregation. Одна ошибка CDE может быть immaterial, но несколько ошибок CDE, аккумулируясь, — material. Score по потенциалу одной ошибки; aggregation обрабатывается на уровне программы.
Недооценка projected growth. Pre-IPO SwiftRide: портфель SwiftCapital растёт с $40M на T0 до$ 200M к T+18M. Score CDE по forward-looking exposure, а не по текущему.

Dimension 2: Regulatory exposure

Что измеряет: сколько регуляторных режимов одновременно затрагивают (multi-regulator multiplier), и каков диапазон штрафов.

Шкала (1-5):

Score	Описание	Пример SwiftRide
1	Нет внешней регуляторной связки	Внутренние метрики продуктивности команды
2	Одна мягкая регуляция (industry guidelines, без штрафов)	Опросы удовлетворённости водителей
3	Одна жёсткая регуляция, умеренные штрафы (<$1M обычно)	Tax data по странам
4	Несколько регуляторов, значительные штрафы ($1-100M)	KYC profile (AML + GDPR Art. 9 + PCI-DSS)
5	Прямой multi-regulator submission, штрафы >$100M или риск приостановки лицензии	SOX-фидящие финансовые данные; данные в периметре AMLR; high-risk training data по AI Act

По ECB RDARR Guide (3 May 2024) ECB RDARR May 2024 — каждый dataset, фидящий regulatory reporting, должен быть identified и controlled. Это автоматический триггер CDE для банков; для SwiftRide (через банк-партнёра SwiftPay) — косвенный, но та же логика.

Multi-regulator multiplier — практический пример:

KYC profile SwiftRide подпадает под:

AMLR (применяется 10 Jul 2027) — требования к качеству KYC-данных; штрафы до 10% годового оборота.
GDPR Art. 9 (special category — biometric) — явное согласие + DPIA обязательны; штрафы до 4% global turnover.
PCI-DSS v4.0.1 — если связаны card data, requirements 8.4/8.5 (MFA access).
DORA (через банк-партнёра) — требования к операционной устойчивости.

Каждый из 4 режимов по отдельности — score 3-4. Aggregate — score 5. Это типичный паттерн: данные, попадающие в несколько режимов, почти всегда CDE независимо от quantitative financial impact.

Dimension 3: Operational dependency

Что измеряет: tier downstream business process — насколько критичен для day-to-day operations.

Шкала (1-5):

Score	Описание	Пример SwiftRide
1	Только внутренняя отчётность, без operational impact	Outputs аналитического ноутбука
2	Back-office процесс, RTO > 7 дней	Compliance training records
3	Mid-tier operational, RTO 1-7 дней	Marketing attribution data
4	Tier-2 operational, RTO 4-24ч, косвенный customer impact	Driver background check results
5	Tier-1 operational, RTO < 4ч, прямой customer-facing	Outputs матчинга поездок, KYC profile в real-time check, payment processing

Связь с BIA (M6). Score operational dependency — input для Business Impact Analysis. RTO / RPO под BIA для систем, поддерживающих CDE, выводится из этого score. Tier-1 системы обычно RTO < 1-4ч, RPO около нуля; tier-3 — RTO до недель.

Tier-1 датасеты SwiftRide (иллюстративно на T0):

Outputs матчинга trip (matching driver↔rider) — score 5
Outputs pricing engine в реальном времени — score 5
KYC profile (для онбординга нового пользователя) — score 4-5
Данные payment processing — score 5
Driver app earnings display — score 4

Tier-3 датасеты SwiftRide:

Compliance training records — score 2 (annual cycle, нет real-time)
Marketing aggregates — score 2-3
Исторические trip records (>90 дней) — score 2-3 (operationally consumed; regulatory отдельно)

Dimension 4: Reputational / legal risk

Что измеряет: probability + magnitude публичного / регуляторного / customer-trust exposure при breach или ошибке.

Шкала (1-5):

Score	Описание	Пример SwiftRide
1	Невидимо снаружи; только внутреннее	Метрики engineering velocity
2	Ограниченный stakeholder exposure	Точность внутреннего financial review
3	Значительный stakeholder exposure (клиенты, партнёры)	Insurance event records
4	Высокий — вероятно media coverage, влияние на customer trust, либо триггер class-action	Системная ошибка в driver earnings (прецедент DACH 2024)
5	Front-page риск — вероятен regulatory penalty + class-action + brand damage	PII breach (GDPR Art. 33), AML failure, алгоритмическая дискриминация

Самая сложная dimension для квантификации. Нет чистого долларового конвертирования. Используйте прокси:

% затронутых пользователей — порог GDPR breach (0.1% MAU вероятно media-worthy для consumer-компаний).
Диапазон регуляторного штрафа — после Schrems II штрафы >€500M переопределили baseline для privacy.
Recovery cost (оценка) — incident response, юридическое, communications, программы удержания клиентов.
Вероятность внимания CEO/совета директоров — прокси через «если это случится, совет директоров будет знать?».

По SAB 99 qualitative factor #6 (regulatory compliance) и factor #9 (concealment of unlawful transaction) — reputational triggers могут превратить small misstatement в material. Это формальная связь dimension 4 → SAB 99 → material weakness под AS 1305.

4 dimensions — визуализация

CDE 4-мерный фреймворк scoring

Каждый кандидат проходит criticality scoring по 4 dimensions; aggregate weighted score определяет CDE-статус

D1: Financial impact
1-5; SAB 99 quantitative + qualitative

D2: Regulatory exposure
1-5; multi-regulator multiplier

D3: Operational dependency
1-5; tier downstream process

D4: Reputational / legal
1-5; прокси public + regulatory exposure

Weighted aggregate score → CDE-решение

Взвешивание — почему 25%/25%/25%/25% часто неправильно

Наивный подход: «у нас 4 dimensions, weight each equally — 25%». Это default, и для первой итерации программы — приемлемо. Но через 2-3 квартала реальные решения начинают расходиться с результатами scoring; это сигнал, что веса нужно корректировать.

Отраслевое взвешивание (industry-tilted):

Контекст	Financial	Regulatory	Operational	Reputational	Rationale
G-SIB bank, BCBS 239-driven	25	35	25	15	Регуляция driver — supervisor ожидает CDE-реестр
Pre-IPO US tech (SwiftRide T0)	30	30	20	20	SOX prep + multi-regulator + consumer brand
Healthcare под HIPAA	20	30	25	25	Patient safety + privacy на первом плане
Public utility	30	25	35	10	Operational tier доминирует
Consumer fintech (high-AML)	25	35	25	15	AML penalties + license risk

Для SwiftRide T0 рабочие веса: 30 / 30 / 20 / 20. Обоснование: SOX prep (financial доминирует), регуляторный охват EU multi-regulator (regulatory равный), tier-1 operations (operational умеренный), brand sensitivity для consumer ride-hailing (reputational умеренный).

Триггеры перекалибровки:

Крупный инцидент. Underpayment SwiftPay 2024 — этот инцидент в reputational + operational space показывает, что operational + reputational недооценены. Перекалибровать ↑.
Регуляторное изменение. Enforcement EU AI Act начинается Aug 2026 — если pricing engine confirmed high-risk, regulatory weight для AI-relevant данных ↑.
Audit feedback. Senior manager из Big 4 комментирует «вы недооценили regulatory» — прямой input.
Ежегодный review. Минимум раз в год — прогнать полный портфель через текущие веса и проверить, не выпали ли previously-borderline кандидаты в неправильную категорию.

Анти-паттерн: веса не должны меняться в течение scoring cycle. Откалибровать до, запустить cycle, ревью после. Иначе решения scoring выглядят произвольными («они изменили веса, чтобы получить нужный результат»).

SwiftRide: scoring 3 кандидатов

Применим фреймворк к трём контрастным случаям из портфеля:

Case 1: Trip records (кандидат №1)

Dataset: trip records — timestamps, route, fare, surge multiplier, driver+rider IDs.

D1 Financial: 5. Прямой фид в revenue recognition (take rate based on fare). Потенциал ошибки за один день >$10M на consolidated level.
D2 Regulatory: 4. Multi-regulator: insurance regulation (incident attribution), labor (driver disputes), GDPR Art. 30 (data inventory), post-IPO SOX. Не 5, потому что не прямой AMLR / sanctions submission.
D3 Operational: 5. Tier-1 — real-time fare display, driver payouts, dispute resolution.
D4 Reputational: 4. Trip dispute scandals — media-worthy если scale (drivers ↔ riders). Не 5, потому что не PII front-page риск сам по себе.

Weighted (30/30/20/20): (5×0.3) + (4×0.3) + (5×0.2) + (4×0.2) = 1.5 + 1.2 + 1.0 + 0.8 = 4.5 → CDE подтверждён.

Case 2: Compliance training records (кандидат №14)

Dataset: статус completion driver onboarding training по топикам по странам.

D1 Financial: 2. Compliance penalties небольшие (<$500K типично за country finding).
D2 Regulatory: 3. Одна регуляция на страну (local labour inspectorates). Не multi-regulator.
D3 Operational: 2. Annual cycle; не real-time. Driver может работать, если training compliant.
D4 Reputational: 3. Локальные истории возможны, если safety incident прослеживается до необученного водителя.

Weighted: (2×0.3) + (3×0.3) + (2×0.2) + (3×0.2) = 0.6 + 0.9 + 0.4 + 0.6 = 2.5 → borderline.

Решение: не CDE на T0, но помечено для пересмотра через 6 месяцев. Если SwiftRide расширяется в юрисдикции с более сильным labour inspectorate (например, Франция, Испания), может переехать в CDE.

Case 3: Algorithmic matching decisions (кандидат №13)

Dataset: outputs матчинга driver↔rider, вычисление ETA, surge zone decisions.

D1 Financial: 3. Косвенно — влияет на rider conversion, driver utilization; aggregate impact умеренный.
D2 Regulatory: 5. EU AI Act (Annex III — matching algorithm может классифицироваться как high-risk), DSA recommender transparency, antitrust risk если surge logic discriminatory.
D3 Operational: 5. Tier-1 — без matching ride-hailing не функционирует.
D4 Reputational: 4. Алгоритмическая дискриминация — major reputational risk (прецеденты в индустрии).

Weighted: (3×0.3) + (5×0.3) + (5×0.2) + (4×0.2) = 0.9 + 1.5 + 1.0 + 0.8 = 4.2 → CDE подтверждён.

Замечание: matching decisions могут получить score 5 в operational/regulatory даже при умеренном financial. Это правильно — доминирование regulatory + operational отражает, что AI-driven critical decisions требуют CDE-grade governance независимо от прямого financial impact.

Проверка знанийKnowledge check

Junior data engineer SwiftRide предлагает scoring framework с 5 dimensions: добавить 'AI / ML readiness' как 5-ю. Аргумент: 'SwiftRide широко использует ML, и ML datasets имеют уникальные governance needs'. Стоит ли принимать это в production scoring framework?

ОтветAnswer

Нет — это смешивает две вещи. AI / ML governance — отдельная ось, попадающая в CDE-программу через D2 (regulatory exposure для AI Act-relevant данных) и через отдельный Model Risk Management framework (см. SR 26-2 в US, EU AI Act Article 10). Добавление 5-й dimension создаёт: (1) double counting (AI Act regulatory exposure уже в D2); (2) путаница с MRM (model controls — отдельный домен, M5 уроки позже); (3) framework drift — каждая команда захочет добавить свою dimension ('cloud cost dimension', 'data lineage maturity dimension'). Лучшая практика: держать 4 dimensions стабильными, добавлять axis-tags (например, тег 'AI-Act-relevant'), которые триггерят дополнительные controls в MRM framework. Outputs pricing engine SwiftRide scoring по стандартным 4 dimensions + tagged 'AI-Act-Annex-III-candidate' — это даёт MRM team автоматическое уведомление без перестройки scoring framework.

Анти-паттерны в дизайне критериев

1. Слишком много dimensions. Любая попытка добавить 5-6-7 dimensions сначала кажется более rigorous, но на практике приводит к: (a) scoring fatigue (assessor срезает углы); (b) double counting (один фактор оказывается в двух dimensions); (c) framework drift (каждые 6 месяцев добавляется новая dimension).

2. Continuous scale вместо 1-5. «Score 0.0 to 10.0 с шагом 0.1» звучит точно, но в реальности человек не способен консистентно отличать score 3.4 от 3.6. Дискретная шкала 1-5 заставляет делать meaningful choice.

3. Equal weights навсегда. 25/25/25/25 как default OK для запуска; через год — обязательно откалиброванный пересмотр. Иначе результаты scoring будут расходиться с реальностью.

4. Нет правила tie-breaking. Когда два кандидата score одинаково — нет явных правил, какой приоритизируется. См. урок 4 для tie-breaking.

5. Нет back-testing. Фреймворк развёрнут без проверки, что past incidents (SwiftPay 2024, например) под фреймворком был бы пойман. Always back-test.

Итоги

4 dimensions сошлись в отраслевых фреймворках (DCAM v3, MAS May 2024, Alation 2026 Field Guide): financial impact, regulatory exposure, operational dependency, reputational/legal risk.
Шкала 1-5 на dimension — дискретная, заставляет делать meaningful choice. Continuous scales не работают на практике.
Примеры и якоря на каждую dimension, специфичные для SwiftRide, позволяют согласованный scoring между assessors.
Веса — контекст-зависимые: SwiftRide T0 рабочие веса 30/30/20/20 (financial/regulatory/operational/reputational). G-SIB bank — другие; healthcare — другие.
Триггеры перекалибровки: крупный инцидент, регуляторное изменение, audit feedback, ежегодный пересмотр. Не перекалибровывать в течение scoring cycle.
3 примера SwiftRide: trip records (4.5 → CDE), compliance training (2.5 → borderline / не CDE), matching decisions (4.2 → CDE).
Анти-паттерны: слишком много dimensions, continuous scale, equal weights навсегда, нет tie-breaking, нет back-testing.
Дальше: урок 4 — превращение фреймворка в рабочий инструмент с калибровкой, tie-breaking, и интерактивным виджетом scoring.

Обнаружение нарушений качества данных Основы безопасности данных

Введение

Почему именно 4 dimensions

Dimension 1: Financial impact

Dimension 2: Regulatory exposure

Dimension 3: Operational dependency

Dimension 4: Reputational / legal risk

4 dimensions — визуализация

Взвешивание — почему 25%/25%/25%/25% часто неправильно

SwiftRide: scoring 3 кандидатов

Case 1: Trip records (кандидат №1)

Case 2: Compliance training records (кандидат №14)

Case 3: Algorithmic matching decisions (кандидат №13)

Анти-паттерны в дизайне критериев

Итоги

Закончили урок?