Организационный assessment: оценка готовности к governance
Введение
В предыдущем уроке мы спроектировали governance-программу для DataTech (Level 1) — с нуля. Но большинство организаций не начинают с чистого листа. У них уже есть частичный governance: отдельные политики, разрозненные инструменты, неформальные процессы. Задача assessment (оценки) — определить, где организация сейчас, где должна быть, и как закрыть разрыв.
В этом уроке мы проведём assessment для BioGenesis Lab (БиоГенезис Лаб) — исследовательской компании на Level 2, работающей с самыми чувствительными данными в курсе: геномные последовательности и клинические данные пациентов.
Сценарий: BioGenesis Lab — Level 2 с критическими пробелами
BioGenesis Lab (БиоГенезис Лаб) — биотех-компания из 200 сотрудников с командой данных из 7 человек. Основные факты:
- Регуляторное давление: 152-ФЗ (персональные данные пациентов), 323-ФЗ (охрана здоровья), GCP (клинические исследования)
- Данные: геномные последовательности (50+ ТБ, MinIO), клинические записи (PostgreSQL), результаты ML-моделей (JupyterHub)
- Текущий governance: IRB/этический комитет для протоколов исследований, но нет Data Governance Council, нет data stewards, нет каталога данных
Фреймворк оценки готовности
Assessment проводится по 6 доменам из M01 (матрица зрелости DMBOK):
Методология Gap Analysis
Gap analysis — системное сравнение текущего состояния (as-is) с целевым (to-be) по каждому домену. Для каждого домена определяем:
- Текущий уровень (0-5 по шкале DMBOK)
- Целевой уровень (реалистичный за 12-18 месяцев)
- Размер gap (target - current)
- Blocking issues (что конкретно мешает)
- Зависимости (какие домены должны быть улучшены первыми)
Domain 1: Качество данных (M04)
Текущее (2/5): Quality checks существуют только для клинических данных — это регуляторное требование GCP. Исследовательские данные (геномные, лабораторные) не имеют никаких проверок качества.
Целевое (4/5): Automated quality monitoring для всех критических datasets (клинические + геномные + результаты внешних лабораторий).
Gap (2):
- Нет quality checks для геномных данных (50+ ТБ)
- Внешние лабораторные данные приходят CSV без валидации (M04, урок 3)
- Нет SLA на freshness исследовательских данных
Зависимости: Требует каталог (M03) для привязки quality metrics к datasets.
Domain 2: Метаданные и каталог (M03)
Текущее (1/5): Метаданные существуют только в Jupyter notebooks отдельных исследователей. Tribal knowledge — уход одного биоинформатика = потеря контекста.
Целевое (3/5): Data catalog с покрытием 80% критических datasets (клинические таблицы + геномные коллекции + ML training sets).
Gap (2):
- Нет data catalog (M03, урок 1)
- Нет lineage от raw genomic data до ML model predictions
- Документация разрозненна (notebooks, email, Slack)
Domain 3: Приватность и compliance (M05)
Текущее (2/5): Бумажные формы согласия пациентов собираются, но management ручной (таблицы Excel). Нет автоматического enforcement. Неясно, покрывает ли согласие secondary research use.
Целевое (4/5): Digital consent management, automated PII classification, DPIA для всех проектов с patient data.
Gap (2):
- Бумажные формы согласия не связаны с digital records (M05, урок 2)
- Нет де-идентификации pipeline (M05, урок 3) — исследователи видят прямые идентификаторы
- Геномные данные + клинические = высокий риск re-identification
Domain 4: Безопасность и контроль доступа (M06)
Текущее (2/5): PostgreSQL имеет RBAC. MinIO защищён API ключами. Но JupyterHub — 25 исследователей имеют доступ ко всем datasets без проектной сегрегации.
Целевое (4/5): Project-based access segregation, audit logging, encryption of PII at rest.
Gap (2):
- JupyterHub: все исследователи видят все данные (M06, урок 1)
- Нет audit trail: невозможно отследить, кто обращался к patient data (M06, урок 3)
- Нет encryption at rest для PII в PostgreSQL
Domain 5: Governance Organization (M07)
Текущее (1/5): IRB/этический комитет рассматривает протоколы исследований, но не аудирует доступ к данным. Нет Data Governance Council, нет data stewards, нет DPO.
Целевое (3/5): Governance council, data steward для клинических данных, DPO (требование 152-ФЗ).
Gap (2):
- Нет governance council (M07, урок 1)
- Нет data stewards (M07, урок 2)
- Нет DPO — этический комитет не заменяет DPO по 152-ФЗ
Domain 6: AI Governance (M08)
Текущее (1/5): ML researcher разрабатывает модели drug discovery и biomarker prediction. Нет model cards, нет bias testing, неизвестно какие patient data использовались для training.
Целевое (2/5): Model cards для production models, training data lineage, basic fairness assessment.
Gap (1):
- Нет model cards (M08, урок 4)
- Training data lineage отсутствует — невозможно выполнить data deletion request для ML training data
- Нет bias testing для biomarker prediction (M08, урок 3)
Матрица приоритизации
Не все gaps одинаково критичны. Приоритизируем по двум осям: бизнес-impact (регуляторные риски, финансовые потери) и сложность закрытия (время, ресурсы, зависимости):
| Домен | Gap | Impact | Сложность | Приоритет | Тип |
|---|---|---|---|---|---|
| Приватность (M05) | Consent + de-identification | Критический (152-ФЗ, re-identification risk) | Средняя | P1 | Quick win + стратегический |
| Безопасность (M06) | JupyterHub access + audit | Высокий (patient data exposure) | Низкая | P1 | Quick win |
| Организация (M07) | Governance council + DPO | Высокий (нет accountability) | Низкая | P1 | Quick win |
| Метаданные (M03) | Data catalog | Средний (нет visibility) | Средняя | P2 | Стратегический |
| Качество (M04) | Genomic + lab data quality | Средний (research reliability) | Высокая | P2 | Стратегический |
| AI Governance (M08) | Model cards + lineage | Средний (future regulatory) | Средняя | P3 | Стратегический |
Чеклист governance-готовности
- 01Executive sponsor назначенHead of Research -- частичный sponsor✓Соответствует
- 02Governance Council созданНет. IRB не является Governance Council✗Не соответствует
- 03Data Stewards назначеныНет формальных steward ролей✗Не соответствует
- 04DPO назначен (152-ФЗ)Этический комитет не заменяет DPO✗Не соответствует
- 05Data Catalog развёрнутНет каталога данных✗Не соответствует
- 06PII Inventory проведёнКлинические данные -- да; исследовательские -- нет~Частично
- 07RBAC на всех системахPostgreSQL -- да; MinIO/JupyterHub -- нет~Частично
- 08Audit logging активированНет audit trail для доступа к данным✗Не соответствует
- 09Quality monitoring автоматизированТолько клинические данные (GCP)~Частично
- 10Incident response plan задокументированНет плана реагирования на data breach✗Не соответствует
- 11Model cards для ML-моделейНет model documentation✗Не соответствует
- 12De-identification pipelineИсследователи видят прямые идентификаторы✗Не соответствует
Ресурсная оценка
Закрытие gaps BioGenesis требует:
| Ресурс | Текущее | Требуемое | Действие |
|---|---|---|---|
| Data Steward | 0 | 1 (клинический домен) | Назначить senior DE (50% time) |
| DPO | 0 | 1 | Нанять или аутсорсить (3 месяца) |
| Data Engineer (governance tooling) | 0 dedicated | 0.5 FTE | Перераспределить одного из 3 DE |
| Бюджет (инструменты) | 0 | ~$15K/год | OpenMetadata hosting + training |
| Бюджет (compliance) | 0 | ~$30K/год | DPO salary + audit + training |
План управления изменениями
Assessment — это не только технический аудит. Успех зависит от готовности людей принять новые процессы:
- Исследователи (25 человек) — главное сопротивление. Привыкли к полному доступу ко всем данным. Project-based segregation замедлит их работу. Стратегия: объяснить compliance-риски (152-ФЗ штрафы, IRB отзыв), предложить self-service request workflow
- Биоинформатики (2 человека) — союзники. Понимают проблему tribal knowledge. Стратегия: привлечь к каталогизации как first adopters
- Head of Research — partial sponsor. Стратегия: показать ROI: сокращение onboarding нового исследователя с 3 недель до 3 дней (каталог), автоматическая compliance (DPO + audit)
Проверка знанийBioGenesis проводит assessment и обнаруживает, что IRB/этический комитет рассматривает протоколы исследований, но не аудирует фактический доступ к данным. Почему этого недостаточно для governance?
Проверка знанийВ матрице приоритизации BioGenesis безопасность JupyterHub (M06) отмечена как P1/Quick Win, а AI Governance (M08) -- как P3. Почему такая разница, если обе проблемы связаны с patient data?
Формат отчёта assessment
Результат assessment — структурированный JSON-отчёт (см. код-challenge CC-41), включающий:
- Maturity snapshot — текущий уровень с evidence по каждому домену
- Gap analysis — target vs current с blocking issues
- Recommendations — приоритизированные действия (quick wins + стратегические)
- Improvement plan — поквартальный план (12 месяцев)
Этот формат стандартизирует assessment и позволяет отслеживать прогресс: повторный assessment через 6-12 месяцев по той же структуре покажет, какие gaps закрыты.
Итоги
Organizational assessment — это диагностика, без которой невозможно лечение:
- 6 доменов из M01 дают полную картину зрелости
- Gap analysis показывает конкретные проблемы, а не абстрактные оценки
- Приоритизация (impact vs сложность) определяет порядок действий
- Ресурсная оценка делает план реалистичным
- Change management обеспечивает adoption
В следующем уроке мы сравним все три компании курса (DataTech, BioGenesis, FinSecure) — кросс-компанийный анализ покажет, как governance выглядит на разных уровнях зрелости.
Проверьте понимание
Закончили урок?
Отметьте его как пройденный, чтобы отслеживать свой прогресс
Войдите чтобы оценить урок