Продвинутый

25 минут

Organizational Assessment Governance Readiness Gap Analysis

Организационный assessment: оценка готовности к governance

Введение

В предыдущем уроке мы спроектировали governance-программу для DataTech (Level 1) — с нуля. Но большинство организаций не начинают с чистого листа. У них уже есть частичный governance: отдельные политики, разрозненные инструменты, неформальные процессы. Задача assessment (оценки) — определить, где организация сейчас, где должна быть, и как закрыть разрыв.

В этом уроке мы проведём assessment для BioGenesis Lab (БиоГенезис Лаб) — исследовательской компании на Level 2, работающей с самыми чувствительными данными в курсе: геномные последовательности и клинические данные пациентов.

Сценарий: BioGenesis Lab — Level 2 с критическими пробелами

BioGenesis Lab (БиоГенезис Лаб) — биотех-компания из 200 сотрудников с командой данных из 7 человек. Основные факты:

Регуляторное давление: 152-ФЗ (персональные данные пациентов), 323-ФЗ (охрана здоровья), GCP (клинические исследования)
Данные: геномные последовательности (50+ ТБ, MinIO), клинические записи (PostgreSQL), результаты ML-моделей (JupyterHub)
Текущий governance: IRB/этический комитет для протоколов исследований, но нет Data Governance Council, нет data stewards, нет каталога данных

Фреймворк оценки готовности

Assessment проводится по 6 доменам из M01 (матрица зрелости DMBOK):

BioGenesis Lab: текущие оценки по доменам governance

Средний балл:30/ 100

Методология Gap Analysis

Gap analysis — системное сравнение текущего состояния (as-is) с целевым (to-be) по каждому домену. Для каждого домена определяем:

Текущий уровень (0-5 по шкале DMBOK)
Целевой уровень (реалистичный за 12-18 месяцев)
Размер gap (target - current)
Blocking issues (что конкретно мешает)
Зависимости (какие домены должны быть улучшены первыми)

Domain 1: Качество данных (M04)

Текущее (2/5): Quality checks существуют только для клинических данных — это регуляторное требование GCP. Исследовательские данные (геномные, лабораторные) не имеют никаких проверок качества.

Целевое (4/5): Automated quality monitoring для всех критических datasets (клинические + геномные + результаты внешних лабораторий).

Gap (2):

Нет quality checks для геномных данных (50+ ТБ)
Внешние лабораторные данные приходят CSV без валидации (M04, урок 3)
Нет SLA на freshness исследовательских данных

Зависимости: Требует каталог (M03) для привязки quality metrics к datasets.

Domain 2: Метаданные и каталог (M03)

Текущее (1/5): Метаданные существуют только в Jupyter notebooks отдельных исследователей. Tribal knowledge — уход одного биоинформатика = потеря контекста.

Целевое (3/5): Data catalog с покрытием 80% критических datasets (клинические таблицы + геномные коллекции + ML training sets).

Gap (2):

Нет data catalog (M03, урок 1)
Нет lineage от raw genomic data до ML model predictions
Документация разрозненна (notebooks, email, Slack)

Domain 3: Приватность и compliance (M05)

Текущее (2/5): Бумажные формы согласия пациентов собираются, но management ручной (таблицы Excel). Нет автоматического enforcement. Неясно, покрывает ли согласие secondary research use.

Целевое (4/5): Digital consent management, automated PII classification, DPIA для всех проектов с patient data.

Gap (2):

Бумажные формы согласия не связаны с digital records (M05, урок 2)
Нет де-идентификации pipeline (M05, урок 3) — исследователи видят прямые идентификаторы
Геномные данные + клинические = высокий риск re-identification

Domain 4: Безопасность и контроль доступа (M06)

Текущее (2/5): PostgreSQL имеет RBAC. MinIO защищён API ключами. Но JupyterHub — 25 исследователей имеют доступ ко всем datasets без проектной сегрегации.

Целевое (4/5): Project-based access segregation, audit logging, encryption of PII at rest.

Gap (2):

JupyterHub: все исследователи видят все данные (M06, урок 1)
Нет audit trail: невозможно отследить, кто обращался к patient data (M06, урок 3)
Нет encryption at rest для PII в PostgreSQL

Domain 5: Governance Organization (M07)

Текущее (1/5): IRB/этический комитет рассматривает протоколы исследований, но не аудирует доступ к данным. Нет Data Governance Council, нет data stewards, нет DPO.

Целевое (3/5): Governance council, data steward для клинических данных, DPO (требование 152-ФЗ).

Gap (2):

Нет governance council (M07, урок 1)
Нет data stewards (M07, урок 2)
Нет DPO — этический комитет не заменяет DPO по 152-ФЗ

Domain 6: AI Governance (M08)

Текущее (1/5): ML researcher разрабатывает модели drug discovery и biomarker prediction. Нет model cards, нет bias testing, неизвестно какие patient data использовались для training.

Целевое (2/5): Model cards для production models, training data lineage, basic fairness assessment.

Gap (1):

Нет model cards (M08, урок 4)
Training data lineage отсутствует — невозможно выполнить data deletion request для ML training data
Нет bias testing для biomarker prediction (M08, урок 3)

Матрица приоритизации

Не все gaps одинаково критичны. Приоритизируем по двум осям: бизнес-impact (регуляторные риски, финансовые потери) и сложность закрытия (время, ресурсы, зависимости):

Домен	Gap	Impact	Сложность	Приоритет	Тип
Приватность (M05)	Consent + de-identification	Критический (152-ФЗ, re-identification risk)	Средняя	P1	Quick win + стратегический
Безопасность (M06)	JupyterHub access + audit	Высокий (patient data exposure)	Низкая	P1	Quick win
Организация (M07)	Governance council + DPO	Высокий (нет accountability)	Низкая	P1	Quick win
Метаданные (M03)	Data catalog	Средний (нет visibility)	Средняя	P2	Стратегический
Качество (M04)	Genomic + lab data quality	Средний (research reliability)	Высокая	P2	Стратегический
AI Governance (M08)	Model cards + lineage	Средний (future regulatory)	Средняя	P3	Стратегический

Чеклист governance-готовности

BioGenesis Lab: чеклист готовности к governance Level 3

01Executive sponsor назначен

Head of Research -- частичный sponsor

✓Соответствует

02Governance Council создан

Нет. IRB не является Governance Council

✗Не соответствует

03Data Stewards назначены

Нет формальных steward ролей

✗Не соответствует

04DPO назначен (152-ФЗ)

Этический комитет не заменяет DPO

✗Не соответствует

05Data Catalog развёрнут

Нет каталога данных

✗Не соответствует

06PII Inventory проведён

Клинические данные -- да; исследовательские -- нет

~Частично

07RBAC на всех системах

PostgreSQL -- да; MinIO/JupyterHub -- нет

~Частично

08Audit logging активирован

Нет audit trail для доступа к данным

✗Не соответствует

09Quality monitoring автоматизирован

Только клинические данные (GCP)

~Частично

10Incident response plan задокументирован

Нет плана реагирования на data breach

✗Не соответствует

11Model cards для ML-моделей

Нет model documentation

✗Не соответствует

12De-identification pipeline

Исследователи видят прямые идентификаторы

✗Не соответствует

Ресурсная оценка

Закрытие gaps BioGenesis требует:

Ресурс	Текущее	Требуемое	Действие
Data Steward	0	1 (клинический домен)	Назначить senior DE (50% time)
DPO	0	1	Нанять или аутсорсить (3 месяца)
Data Engineer (governance tooling)	0 dedicated	0.5 FTE	Перераспределить одного из 3 DE
Бюджет (инструменты)	0	~$15K/год	OpenMetadata hosting + training
Бюджет (compliance)	0	~$30K/год	DPO salary + audit + training

План управления изменениями

Assessment — это не только технический аудит. Успех зависит от готовности людей принять новые процессы:

Исследователи (25 человек) — главное сопротивление. Привыкли к полному доступу ко всем данным. Project-based segregation замедлит их работу. Стратегия: объяснить compliance-риски (152-ФЗ штрафы, IRB отзыв), предложить self-service request workflow
Биоинформатики (2 человека) — союзники. Понимают проблему tribal knowledge. Стратегия: привлечь к каталогизации как first adopters
Head of Research — partial sponsor. Стратегия: показать ROI: сокращение onboarding нового исследователя с 3 недель до 3 дней (каталог), автоматическая compliance (DPO + audit)

Проверка знаний

BioGenesis проводит assessment и обнаруживает, что IRB/этический комитет рассматривает протоколы исследований, но не аудирует фактический доступ к данным. Почему этого недостаточно для governance?

Ответ

IRB/этический комитет проверяет дизайн исследования (протокол) -- это pre-approval. Но governance требует также runtime enforcement и audit: (1) Protocol says 'use de-identified data' -- но кто проверяет, что исследователь действительно не видит PII? Нет audit logging (M06). (2) Protocol approved for Project A -- но исследователь может обращаться к данным Project B. Нет project-based access control (M06). (3) Пациент отзывает согласие -- но нет механизма удаления данных из ML training sets (M08, lineage). IRB -- governance 'на бумаге'. Для Level 3 нужен governance 'в runtime': automated access control + audit trail + consent enforcement.

Проверка знаний

В матрице приоритизации BioGenesis безопасность JupyterHub (M06) отмечена как P1/Quick Win, а AI Governance (M08) -- как P3. Почему такая разница, если обе проблемы связаны с patient data?

Ответ

Impact разный: JupyterHub access -- текущая exposure (25 исследователей видят все patient data прямо сейчас). AI Governance -- будущий risk (модели обучены, но регуляторы пока не требуют model cards от biotech Level 2). Сложность разная: JupyterHub access control -- настраивается за 1-2 недели (project-based groups). Model cards + training lineage -- 3-6 месяцев (требует data catalog, lineage infrastructure). P1/Quick Win = высокий impact + низкая сложность. P3 = средний impact + средняя сложность + зависимости (нужен каталог).

Формат отчёта assessment

Результат assessment — структурированный JSON-отчёт (см. код-challenge CC-41), включающий:

Maturity snapshot — текущий уровень с evidence по каждому домену
Gap analysis — target vs current с blocking issues
Recommendations — приоритизированные действия (quick wins + стратегические)
Improvement plan — поквартальный план (12 месяцев)

Этот формат стандартизирует assessment и позволяет отслеживать прогресс: повторный assessment через 6-12 месяцев по той же структуре покажет, какие gaps закрыты.

Итоги

Organizational assessment — это диагностика, без которой невозможно лечение:

6 доменов из M01 дают полную картину зрелости
Gap analysis показывает конкретные проблемы, а не абстрактные оценки
Приоритизация (impact vs сложность) определяет порядок действий
Ресурсная оценка делает план реалистичным
Change management обеспечивает adoption

В следующем уроке мы сравним все три компании курса (DataTech, BioGenesis, FinSecure) — кросс-компанийный анализ покажет, как governance выглядит на разных уровнях зрелости.

Проверьте понимание

Результат: 0 из 0

Аналитический

BioGenesis Lab (Level 2, healthcare/biotech) проводит governance assessment. IRB/этический комитет утверждает: 'Мы уже рассматриваем все протоколы исследований -- governance функция работает.' Head of Research сомневается. Что не покрывает IRB?

IRB нужно просто расширить scope -- отдельный governance council не нуженIRB не покрывает только ML-модели, остальное в порядкеIRB полностью покрывает governance для research организацииIRB рассматривает дизайн исследования (pre-approval), но не аудирует runtime: фактический доступ к данным (M06), соблюдение де-идентификации (M05), training data lineage ML-моделей (M08). Protocol says 'use de-identified data', но IRB не проверяет, видит ли исследователь PII в JupyterHub

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок