Learning Platform
Глоссарий Troubleshooting
Урок 08.04 · 28 мин
Продвинутый
Issue ManagementIncident WorkflowSLA TierTriageRoot Cause AnalysisManagement OverrideJiraServiceNow IRM

Введение

SwiftRide T+9M. Квартальная ретроспектива Q1 Risk Function: за квартал сработало 192 DQ-инцидента. Из них 4 SEV-1 (включая один, связанный с расчётом выплат SwiftPay на €240K underpayment), 38 SEV-2, 150 SEV-3. Инциденты SEV-1 — все закрыты в пределах SLA 4ч. SEV-2 — 6 пропустили SLA 24ч (закрыты в пределах 48ч). SEV-3 — 27 инцидентов всё ещё открыты за пределами SLA 1 неделя — частично «accepted as known issues». CDO спрашивает Internal Audit: «Это нормально?». Internal Audit: «Картина SEV-1 / SEV-2 защищаема. Бэклог SEV-3 — повод для беспокойства; паттерн указывает либо на неправильные правила, либо на пробел в подотчётности владельца. Также — на 4 SEV-1, получает ли каждый proper root cause analysis с развёрнутым preventive action? Если три из четырёх resolved «restart pipeline + reprocess», без RCA → следующий инцидент, вероятно, повторится».

Этот разговор открывает M7.4. Detection — легко; SLA для closure — операционная метрика; но evidence pipeline без петли RCA + preventive action = control deficiency. Этот урок — полный workflow.

6-стадийный workflow

Согласно отраслевому паттерну (Atlassian Incident Management, Google SRE, NIST SP 800-61) — обработка инцидентов декомпозируется на 6 стадий:

Issue management workflow — 6 stages × 3 severity tiers

Переключи severity tier (SEV-1 / SEV-2 / SEV-3). Кликни stage → SLA, owner, exit criteria, артефакты, failure modes, SwiftRide example. SEV-1 — material CDE; SEV-2 — quality degradation; SEV-3 — Tier-3 / cosmetic.

Сценарий: SwiftPay DACH 2024 rounding — commission_pct type promotion divergence Aurora vs Snowflake; $2.3M driver underpayment.
1. DETECT · SEV-1 (Material CDE breach)
Detection
SLA: Detection ≤ 15 min from event
Owner: On-call Data Steward + automated PagerDuty page
EXIT CRITERIA
  • Incident ticket created в Jira / ServiceNow
  • PagerDuty acknowledged ≤ 15 min
  • Slack channel #incidents-cde-sev1 notified
REQUIRED ARTEFACTS
  • DQ run output JSON (failing rule + observed values)
  • PagerDuty incident ID
  • Initial Slack thread timestamp
COMMON FAILURE MODES
  • Alert routed к wrong team (data team not on-call rotation)
  • PagerDuty silenced без acknowledgment
  • Alert fatigue — engineer ignores Nth alert этой смены
SWIFTRIDE EXAMPLE
Reconciliation DAG fired Sev-1 при delta 0.34% > 0.05% threshold; PagerDuty paged on-call data steward Priya at 06:47 UTC.

Каждая стадия имеет SLA, владельца, критерии выхода, требуемые артефакты, типичные режимы отказов. SLA варьируются по уровню severity (SEV-1 / SEV-2 / SEV-3 — см. диаграмму выше).

Стадия 1 — Detection

DQ-правило срабатывает. Engine emit’ит результат fail → emitter Lambda → событие PagerDuty (SEV-1) или auto-create тикета Jira (SEV-2/SEV-3).

Матрица маршрутизации алертов SwiftRide:

ИсточникПуть SEV-1Путь SEV-2Путь SEV-3
GE Checkpoint failPagerDuty service data-tier1Очередь Jira DE + Slack #dq-sev2Очередь Jira DE (silent)
Soda contract failPagerDuty, если contract tagged tier=1Jira + SlackОчередь Jira
Превышение delta сверкиPagerDuty service data-tier1Jira + SlackN/A (сверка = только SEV-1/2)
Нарушение freshnessЗависит от tier CDEБольшинство SEV-2Tier-3 датасеты → SEV-3
Нарушение schema contractПадение PR check (превентивно — не инцидент)N/AN/A

Назначение severity производное от tier CDE (согласно реестру M4.5) × тип правила. Сбой контроля SEV-1 на material CDE автоматически эскалируется по преднастроенным правилам.

Необходимые артефакты стадии Detection:

  • Вывод DQ-прогона JSON (падающее правило + наблюдаемые значения + пороги).
  • ID инцидента PagerDuty или ID тикета Jira.
  • Timestamp начального треда Slack (для SEV-1).
  • Audit trail авторутинга (показывает, что решение по маршрутизации было корректным).

Стадия 2 — Triage

Оценка severity; назначение владельца; проверка, не дубликат ли это открытого инцидента.

SLA targets:

  • SEV-1: решение по triage ≤ 30 мин от detection.
  • SEV-2: triage ≤ 4 часа.
  • SEV-3: triage ≤ 1 неделя (часть еженедельного backlog grooming).

Выходы triage:

  • Severity подтверждена (или понижена с обоснованием).
  • Назначен Incident Commander (IC) (data team SME) — для SEV-1.
  • Business Owner уведомлён — для SEV-1; обязательное участие в bridge call.
  • Начальная оценка impact (примерно $/затронутых записей/запуск регуляторных часов).
  • Проверка дубликатов (если 3 инцидента за час по одному правилу — свернуть в parent + ссылки на child).

Антипаттерн: преждевременное понижение severity. Инженер triage’ит SEV-1 alert; находит «затронуто только 12 записей»; понижает до SEV-2. Через 6 часов — Customer Operations эскалирует тот же issue, затрагивающий 12000 записей. SEV-1 не должен понижаться без полного понимания impact; лучше — оставить SEV-1 + добавить заметку «начальный охват выглядит ограниченным; investigation продолжается». Понижать только после полного ограничения impact.

Стадия 3 — Containment

Остановить кровотечение — отключить downstream consumers, заморозить writes, активировать компенсирующий ручной процесс.

SLA targets:

  • SEV-1: containment ≤ 1 час от detection.
  • SEV-2: containment ≤ 24 часа.
  • SEV-3: обычно не применяется (нет live impact).

Действия containment по паттернам SwiftRide:

  • Заморозить downstream consumers — установить Airflow DAG paused=true для consumer DAGs; пометить Snowflake-таблицу read-only.
  • Коммуникация со стейкхолдерами — заранее одобренные шаблоны клиентских коммуникаций триггерятся (согласно дереву коммуникации M6.5); банковский партнёр уведомлён для SwiftPay.
  • Оценка регуляторных часов — DORA Art. 19 4ч initial notification для major ICT incident; PSD2 customer comms requirement; GDPR Art. 33 72ч breach notification.
  • Компенсирующий ручной обходной путь — при необходимости переключиться на вторичный процесс (ручная обработка Customer Operations).

Необходимые артефакты стадии Containment:

  • Evidence заморозки DAG/job (лог состояния Airflow; состояние kubectl get cronjob).
  • Timestamp + содержание клиентских коммуникаций.
  • Лог решения о notification DORA / PSD2 / GDPR (file or not; обоснование).
  • Evidence активации компенсирующего контроля.

Стадия 4 — Resolution

Исправить данные + верифицировать; downstream backfill при необходимости; возобновить нормальный поток.

SLA targets:

  • SEV-1: resolution ≤ 4 часа от detection.
  • SEV-2: resolution ≤ 24 часа от решения triage.
  • SEV-3: ≤ 1 неделя от triage.

Workflow resolution:

  1. Идентифицировать root data error (сломанный шаг пайплайна / источник данных / неправильная конфигурация правила).
  2. Исправить у источника (применить code fix; сбросить Kafka offset; исправить определение правила).
  3. Переобработать затронутые записи (reprocess_driver_earnings(date_range) Airflow DAG для CDE-SWR-003).
  4. Перезапустить сверку / quality check; верифицировать delta < threshold.
  5. Возобновить downstream consumers только после верификации.
  6. Отправить коммуникации о resolution стейкхолдерам.

Типичный режим отказа — преждевременный resume. Инженер переобрабатывает данные; сверка проходит; возобновляет payout DAG. Но downstream Snowflake consumer отставал на Kafka offset; consumer применяет stale data поверх corrected; каскад. Исправление — верифицировать состояние downstream consumer перед resume (Kafka consumer lag = 0; Snowflake replication state в актуальном состоянии).

Необходимые артефакты стадии Resolution:

  • Лог запуска reprocess DAG + манифест restated values.
  • Evidence post-fix сверки (delta в пределах допуска).
  • Timestamp resume + лог верификации.
  • Коммуникации о resolution клиенту / регулятору.

Стадия 5 — Root Cause Analysis (RCA)

Идентифицировать системную причину; задокументировать; поделиться для организационного обучения.

SLA targets:

  • SEV-1: начальный RCA ≤ 5 рабочих дней после resolution.
  • SEV-2: RCA ≤ 10 рабочих дней.
  • SEV-3: RCA опционален, если не обнаружен паттерн (например, 3 похожих Sev-3 в квартале → review паттерна).

Структура RCA (5-why pattern):

Why 1: Выплаты SwiftPay недоплатили €2.3M водителям DACH.
Why 2: Значения commission_pct были округлены некорректно в fct_driver_earnings.
Why 3: Модель dbt commission_calc.sql использовала implicit type promotion (FLOAT * INT → FLOAT), 
       тогда как источник Aurora использует DECIMAL(5,4) explicit.
Why 4: Не enforced data contract на колонку commission_pct; нет независимого parity check 
       Python recompute; нет review Finance Lead на PR, изменявший тип.
Why 5: Сверка между системами не запускалась на выплатах SwiftPay; SOX-grade контроли 
       не были внедрены для SwiftPay на момент инцидента (Q1 2024 — pre-CDE программа).

Framework contributing factors (помимо чистой root cause):

  • Технические — какой код/config/инфраструктура этому способствовали.
  • Процессные — какой пробел в процессе позволил этому пройти.
  • Организационные — какая команда/структура/стимулы внесли вклад.

Contributing factors инцидента DACH SwiftPay 2024:

  • Технические: implicit type promotion FLOAT * INT.
  • Процессные: нет enforcement dbt contract; нет parity check.
  • Организационные: SwiftPay построен без governance overlay (силосы Marketplace ↔ Finance); Finance Lead не в пути PR review; нет видимости Risk Function на DQ SwiftPay.

Антипаттерн — RCA, ориентированный на обвинения. «Инженер X сделал опечатку». Блокирует честный анализ; не адресует системные пробелы; команда становится защитной в будущих инцидентах. Культура blameless post-mortem Google SRE — фокус системный; предположение, что акторы действовали лучшим образом с доступной информацией.

Наблюдатель Internal Audit. Инциденты SEV-1 — Internal Audit (3-я линия) присутствует на встрече RCA review. Обеспечивает независимую гарантию, что качество RCA адекватно; идентифицирует cross-cutting паттерны, видимые через независимость.

Необходимые артефакты стадии RCA:

  • Post-mortem документ (5-why + timeline + impact + contributing factors).
  • Trail изменений кода (commits, приведшие к defect).
  • Раздел organisational / process contributing factors.
  • Заметки наблюдения Internal Audit.
  • Обновление реестра рисков (новый риск выявлен ИЛИ существующий риск переоценён).

Стадия 6 — Preventive action (closure)

Развёрнут новый контроль; протестирован; closure верифицирован.

SLA targets:

  • SEV-1: preventive control развёрнут ≤ 30 дней после RCA.
  • SEV-2: preventive ≤ 60 дней.
  • SEV-3: только если паттерн; ≤ следующий квартальный цикл.

Типы preventive action:

  • Новое правило / контроль — DQ check, contract, schema gate.
  • Изменение процесса — расширение пути review (например, добавить Finance Lead в CODEOWNERS).
  • Обучение — обучение инженера семантике типов (если RCA показывает пробел в знаниях).
  • Изменение инфраструктуры — топология репликации, покрытие мониторинга.

Верификация operating effectiveness — soak-период. Preventive control должен операционно работать в течение измеримого периода до closure. Паттерны SwiftRide:

  • Ежедневный DQ-контроль — 30 ежедневных прогонов все pass = soak завершён.
  • Часовой контроль — 168 часовых прогонов все pass.
  • PR-time контроль — N=20 merges PR с контролем в пути pass.

Необходимые артефакты стадии Closure:

  • Evidence развёртывания нового контроля (PR merged + логи прогонов).
  • Код regression test + история CI-прогонов.
  • Evidence soak-периода (достаточная история прогонов all-pass).
  • Запись закрытия в реестре рисков + обновление control matrix.

Уровни severity — полная таблица SLA

СтадияSLA SEV-1SLA SEV-2SLA SEV-3
Detection≤ 15 мин≤ 30 мин≤ 4 часа
Triage≤ 30 мин≤ 4 часа≤ 1 неделя
Containment≤ 1 час≤ 24 часаN/A
Resolution≤ 4 часа≤ 24 часа от triage≤ 1 неделя
RCA initial≤ 5 рабочих дней≤ 10 рабочих днейОпционален, если паттерн
Preventive closure≤ 30 дней≤ 60 днейКвартальный цикл при необходимости

Интеграция с GRC-платформами

Jira — операционный трекинг тикетов; lifecycle per-incident.

ServiceNow IRM — паттерн Continuous Control Monitoring (CCM); автоматический evidence контроля из внешних источников (DQ-engine). Инцидент → запись CCM, показывающая срабатывание контроля + trail закрытия. Переиспользует workflow ITSM Now Platform + risk questionnaires.

LogicGate Risk Cloud — современный no-code; AI predictive analytics (внедрение 2025) — предсказывает вероятность инцидента из паттернов; поддерживает обновления risk score из данных инцидентов.

Workiva — SOX-first; AI-assisted control testing; пуллит evidence для квартального attestation cycle; хорошо интегрируется с Jira/ServiceNow как upstream incident sources.

Паттерн SwiftRide (T+9M): тикеты Jira первичные операционно; Workiva (разворачивается Q4 2026) — квартальный attestation; ServiceNow IRM на рассмотрении для T+15M (post-IPO operational maturity).

Webhook chain:

DQ engine fail → emitter Lambda → 
  ├─→ Создание инцидента PagerDuty (SEV-1)
  ├─→ API создание тикета Jira (severity назначен авто)
  ├─→ Slack notification
  └─→ Эмиссия S3 evidence (согласно M7.2)

Закрытие тикета Jira → 
  ├─→ Webhook к эмиссии S3 closure evidence
  ├─→ Обновление коннектора Workiva (если развёрнут)
  └─→ Snowflake audit.evidence_index UPDATE с closure metadata

Обработка исключений и компенсирующие контроли

Согласно M5.4 — атрибут 5 требования evidence = exception handling. Когда контроль падает:

  • Срабатывание первичного контроля fail = инцидент. Workflow выше задействуется.
  • Активация компенсирующего контроля — вторичный контроль покрывает пробел во время сбоя первичного.
  • Closure в пределах SLA — цепочка evidence полная.

Пример workflow компенсирующего контроля:

CDE-SWR-003 CTL-002 (ежедневная сверка) падает однажды — delta 0.15% > 0.05% threshold. Срабатывает SEV-1. Компенсирующий контроль активируется:

  • CTL-CDE-SWR-003-004 (parity check формул, независимая реализация Python) — повторный прогон на полную популяцию, не только 100-row выборка.
  • CTL-CDE-SWR-003-007 (completeness check) — повторный прогон за тот же период.
  • Ручная сверка Finance Lead Carlos — отдельная таблица сверки против Aurora; sign-off.

Evidence closure — fix первичного контроля + 3 артефакта компенсирующих контролей + ручной sign-off Finance Lead. Audit trail виден через audit.evidence_index, запрашиваемый по parent_incident_id.

Management override как красный флаг PCAOB

PCAOB Inspection findings 2024 — PCAOB Spotlight Mar 2025 конкретно отмечает management override как ведущую категорию deficiency.

Что составляет management override:

  • Менеджер закрывает инцидент без proper RCA («known issue, no action»).
  • Менеджер форсирует принятие resolution до верификации.
  • Менеджер обходит управление изменениями — прямое исправление production data без PR.
  • Менеджер переклассифицирует SEV-1 в SEV-3, чтобы избежать SLA reporting.

Паттерны, увеличивающие риск обнаружения:

  • High-volume backlog SEV-3 без review старения.
  • Инциденты SEV-1, закрытые в пределах 1 часа (нереалистично).
  • Один и тот же менеджер появляется как closer для большого % инцидентов.
  • Документы RCA, не содержащие contributing factors / содержащие только proximate causes.

Детективные контроли для management override:

  • Дашборд метрик lifecycle инцидентов — менеджеры не могут редактировать инциденты, которые они открыли/закрыли; отдельный review 2-й линии ежемесячно.
  • Random sampling — Internal Audit пуллит 5% инцидентов квартально для review качества RCA.
  • Pattern analysis — Risk Function квартальный review «кто закрывает больше всего инцидентов»; follow-up по outlier’ам.
  • Независимый наблюдатель — Internal Audit присутствует на встречах RCA review SEV-1.
Проверка знанийKnowledge check
SwiftRide T+10M Q3 review показывает: SEV-1 incidents Q3 — 5 всего; все закрыты в пределах SLA 4ч; 4 из 5 закрыты одним менеджером (Data Platform Lead Priya); документы RCA для 3 инцидентов читают 'restart pipeline + reprocess; root cause = transient infrastructure'. CDO просит Internal Audit о review. Какие concerns + remediation?
ОтветAnswer
Несколько красных флагов по паттерну PCAOB inspection 2024: (1) 80% концентрация закрытия на одном менеджере — индикатор риска management override; (2) Generic RCAs ('transient infrastructure') — не идентифицирует системную причину; AS 1305 control deficiency на процесс RCA design; (3) Повторяющийся паттерн 'pipeline restart' — предполагает, что root cause не адресована; тот же инцидент, вероятно, повторится; (4) SLA 4ч на всех 5 — темп предполагает, что возможно закрыты преждевременно (containment спутан с resolution). Internal Audit findings: (1) Паттерн неполных RCA = control deficiency согласно AS 1305 ¶.01 — control design эффективен (процесс RCA существует), но operating effectiveness под вопросом. (2) Концентрационный риск — Priya как closer 4 из 5 инцидентов; либо она делала работу (overload red flag), либо подписывала без независимого review (governance gap). (3) Remediation: (a) Reportable PCAOB AS 1305 в Audit Committee — кандидат на material weakness, если паттерн продолжится; (b) Внедрить компенсирующий контроль: RCAs SEV-1 review'ятся 2-й линией (Risk Function) до closure; авто-rejection closure, если RCA не содержит раздел contributing factors; (c) Правило ротации — closer инцидента ≠ opener инцидента; ≠ менеджер, который review'ил PR, вызвавший инцидент; (d) Квартальный сэмпл Internal Audit 100% RCAs SEV-1 Q4 2026 (полный сэмпл, не 5%) для верификации качества после remediation; (e) Уведомление Risk Committee — паттерн указывает на потенциальную material weakness; контекст pre-IPO, эскалировать приоритет A; (f) Детективный контроль на generic RCAs — NLP / rule-based проверка документов RCA на наличие ключевых слов contributing factors; флаг для review, если отсутствует. (4) Операционный impact: SLA SEV-1 может растянуться с 4ч closure → 4ч containment + 5 рабочих дней RCA closure (текущий паттерн смешивает); явная передача видна. (5) Культурный сдвиг требуется — закрытие инцидента ≠ закрытие тикета; closure требует полной цепочки: containment + resolution + RCA + preventive action верифицирована. Closure-without-preventive = quasi-management-override через призму PCAOB. (6) Для timeline pre-IPO (T+18M листинг) — раскрытие material weakness задерживает листинг NYSE 3-6 месяцев × $50M burn = $150-300M tail risk; приоритет remediation A; мнение ICFR под риском, если не закрыто Q4 2026.

SwiftPay 2024 DACH rounding error — полный кейс

Инцидент. Q3 2024 — €2.3M underpayment водителям в регионе DACH (Германия + Австрия + Швейцария).

Detection. Внешний — жалобы водителей через support tickets эскалированы в Customer Operations; за недели до внутренних DQ alerts (поскольку контроли сверки ещё не были внедрены для SwiftPay в 2024 — pre-CDE программа).

Triage. SwiftPay Director объявил SEV-1; bridge call Carlos (Finance Lead) + Priya (Data Platform Lead) + General Counsel.

Containment. Payout DAG заморожен; банковский партнёр уведомлён; черновик pre-notification BaFin подготовлен; экстренные коммуникации затронутым водителям (шаблон одобрен через Legal expedited).

Resolution. 18 дней от detection инцидента до полного resolution. Разработан DAG reprocess_driver_earnings (не существовал до инцидента — построен реактивно); прогнан по затронутому периоду (Jul-Sep 2024); post-fix сверка delta < 0.001%; restitution €2.3M выплат затронутым водителям + €0.5M юридических затрат и затрат на коммуникации.

RCA. 5-why анализ уже выше. Contributing factors:

  • Технические: модель dbt commission_calc.sql использовала implicit type promotion (FLOAT * INT).
  • Процессные: нет dbt contract на commission_pct; нет parity check; нет PR review Finance Lead.
  • Организационные: SwiftPay построен без governance overlay; Finance Lead не в CODEOWNERS; нет видимости Risk Function.

Post-mortem 2024-09-19 — опубликован во внутреннюю wiki; Audit Committee проинформирован на Q4 2024 board meeting.

Preventive actions развёрнуты (Q4 2024 — Q1 2025):

  • CTL-CDE-SWR-003-005 — dbt contract enforced на commission_pct (DECIMAL(5,4) strict).
  • CTL-CDE-SWR-003-002 — ежедневная сверка Snowflake fct_driver_earnings vs Aurora swiftpay.payouts.
  • CTL-CDE-SWR-003-003 — Finance Lead добавлен в CODEOWNERS на все dbt-модели SwiftPay.
  • CTL-CDE-SWR-003-004 — Python parity check, 100 случайных строк пересчитываются на каждый batch, 0 tolerance.
  • Запись реестра рисков R-DE-008 — закрыта Q1 2025 после 90-дневного soak.

Почему T+0 (старт курса) — 2026 имеет значение: SwiftRide T+9M — это 18 месяцев после инцидента. Big 4, просматривающий CDE-программу в T+9M, видит evidence зрелых контролей, внедрённых после инцидента 2024; CDE-SWR-003 = «poster child» CDE с 8 контролями, 8 потоками evidence. Готовность к pre-IPO листингу зависит от демонстрации не только того, что контроли существуют сейчас, но и того, что RCA по прошлым инцидентам был thorough + preventive actions верифицированы через soak periods.

Антипаттерны

Generic «infrastructure transient» RCAs

Паттерн: 70% RCAs закрываются как «transient infrastructure issue, restart resolved».

Почему плохо: не идентифицирует системную причину; повторение паттерна вероятно; AS 1305 control deficiency на процесс RCA.

Исправление: шаблон документа RCA enforces раздел contributing factors (technical + process + organisational); авто-rejection closure, если разделы пусты; периодический review паттернов Risk Function.

Активация компенсирующего контроля как «нормальная»

Паттерн: первичный контроль падает 30% времени; компенсирующий контроль покрывает пробел; «у нас всё под контролем».

Почему плохо: operating effectiveness первичного контроля ~70% = неадекватно; аудитор ожидает > 99% operating effectiveness; высокий fail rate указывает на изъян в дизайне контроля.

Исправление: 30% fail rate триггерит control re-design review (порог significant deficiency PCAOB AS 1305 ¶.02); компенсирующий контроль как бэкап, не первичный механизм.

Backlog SEV-3, принятый как «known issues»

Паттерн: инциденты SEV-3 накапливаются; список «known issues» растёт квартально; никогда не resolved.

Почему плохо: паттерны SEV-3 скрывают будущие инциденты SEV-2/1; технический долг накапливается; программный риск увеличивается со временем.

Исправление: политика старения SEV-3 — инциденты > 60 дней открытых авто-эскалируются на SEV-2 review; квартальный review паттернов категорий SEV-3 (≥ 3 похожих инцидентов → системная проблема).

Closure без верификации preventive action

Паттерн: инцидент закрыт, когда fix развёрнут; preventive control не soaked.

Почему плохо: повторение вероятно; закрытие преждевременно; audit trail неполный.

Исправление: gate closure требует прикреплённого evidence soak (достаточная история прогонов all-pass); авто-rejection при отсутствии.

Резюме

  • 6-стадийный workflow — detection → triage → containment → resolution → root cause → preventive action.
  • SLA tiers по severity — SEV-1 (4ч resolution; 30 дней preventive); SEV-2 (24ч; 60 дней); SEV-3 (1 неделя; квартальный цикл).
  • Containment ≠ resolution ≠ closure — разные стадии; смешение ведёт к преждевременному closure.
  • Качество RCA — 5-why + contributing factors (technical + process + organisational); наблюдатель Internal Audit для SEV-1.
  • Soak preventive action — 30 ежедневных прогонов или 168 часовых прогонов или 20 merges PR all-pass до closure.
  • Management override — ведущая категория deficiency PCAOB 2024; детективные контроли: метрики концентрации closure, sample audit RCAs, независимый наблюдатель.
  • Интеграция: Jira операционно + Workiva attestation + ServiceNow IRM CCM (будущее); webhook chain DQ → PagerDuty + Jira + S3 evidence + Snowflake index.
  • SwiftPay 2024 DACH €2.3M underpayment — конкретные RCA + preventive actions; 4 новых контроля развёрнуты; risk register закрыт Q1 2025; CDE-SWR-003 «poster child» после remediation.

В M7.5 разберём квартальный attestation cycle — gather evidence → review → sign-off → archive; содержание sign-off Business Owner; электронная подпись; pre-audit checkpoint dry-run.

Deduplication — root cause для DQ инцидентов Detecting Violations — detection и triage DQ инцидентов

Проверьте понимание

Результат: 0 из 0
Аналитический
Вопрос 1 из 4. SwiftRide T+10M Q3 review: SEV-1 incidents Q3 — 5 total; все closed within 4h SLA; 4 из 5 closed by same manager (Data Platform Lead Priya); RCA documents для 3 read 'restart pipeline + reprocess; root cause = transient infrastructure'. CDO asks Internal Audit для review. Какие concerns + remediation?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 7