Learning Platform
Глоссарий Troubleshooting
Урок 11.02 · 25 мин
Продвинутый
Organizational AssessmentGovernance ReadinessGap Analysis

Организационный assessment: оценка готовности к governance

Введение

В предыдущем уроке мы спроектировали governance-программу для DataTech (Level 1) — с нуля. Но большинство организаций не начинают с чистого листа. У них уже есть частичный governance: отдельные политики, разрозненные инструменты, неформальные процессы. Задача assessment (оценки) — определить, где организация сейчас, где должна быть, и как закрыть разрыв.

В этом уроке мы проведём assessment для BioGenesis Lab (БиоГенезис Лаб) — исследовательской компании на Level 2, работающей с самыми чувствительными данными в курсе: геномные последовательности и клинические данные пациентов.

Сценарий: BioGenesis Lab — Level 2 с критическими пробелами

BioGenesis Lab (БиоГенезис Лаб) — биотех-компания из 200 сотрудников с командой данных из 7 человек. Основные факты:

  • Регуляторное давление: 152-ФЗ (персональные данные пациентов), 323-ФЗ (охрана здоровья), GCP (клинические исследования)
  • Данные: геномные последовательности (50+ ТБ, MinIO), клинические записи (PostgreSQL), результаты ML-моделей (JupyterHub)
  • Текущий governance: IRB/этический комитет для протоколов исследований, но нет Data Governance Council, нет data stewards, нет каталога данных

Фреймворк оценки готовности

Assessment проводится по 6 доменам из M01 (матрица зрелости DMBOK):

BioGenesis Lab: текущие оценки по доменам governance
40Качество данных
20Метаданные
40Приватность
40Безопасность
20Организация
20AI Governance
Средний балл:30/ 100

Методология Gap Analysis

Gap analysis — системное сравнение текущего состояния (as-is) с целевым (to-be) по каждому домену. Для каждого домена определяем:

  1. Текущий уровень (0-5 по шкале DMBOK)
  2. Целевой уровень (реалистичный за 12-18 месяцев)
  3. Размер gap (target - current)
  4. Blocking issues (что конкретно мешает)
  5. Зависимости (какие домены должны быть улучшены первыми)

Domain 1: Качество данных (M04)

Текущее (2/5): Quality checks существуют только для клинических данных — это регуляторное требование GCP. Исследовательские данные (геномные, лабораторные) не имеют никаких проверок качества.

Целевое (4/5): Automated quality monitoring для всех критических datasets (клинические + геномные + результаты внешних лабораторий).

Gap (2):

  • Нет quality checks для геномных данных (50+ ТБ)
  • Внешние лабораторные данные приходят CSV без валидации (M04, урок 3)
  • Нет SLA на freshness исследовательских данных

Зависимости: Требует каталог (M03) для привязки quality metrics к datasets.

Domain 2: Метаданные и каталог (M03)

Текущее (1/5): Метаданные существуют только в Jupyter notebooks отдельных исследователей. Tribal knowledge — уход одного биоинформатика = потеря контекста.

Целевое (3/5): Data catalog с покрытием 80% критических datasets (клинические таблицы + геномные коллекции + ML training sets).

Gap (2):

  • Нет data catalog (M03, урок 1)
  • Нет lineage от raw genomic data до ML model predictions
  • Документация разрозненна (notebooks, email, Slack)

Domain 3: Приватность и compliance (M05)

Текущее (2/5): Бумажные формы согласия пациентов собираются, но management ручной (таблицы Excel). Нет автоматического enforcement. Неясно, покрывает ли согласие secondary research use.

Целевое (4/5): Digital consent management, automated PII classification, DPIA для всех проектов с patient data.

Gap (2):

  • Бумажные формы согласия не связаны с digital records (M05, урок 2)
  • Нет де-идентификации pipeline (M05, урок 3) — исследователи видят прямые идентификаторы
  • Геномные данные + клинические = высокий риск re-identification

Domain 4: Безопасность и контроль доступа (M06)

Текущее (2/5): PostgreSQL имеет RBAC. MinIO защищён API ключами. Но JupyterHub — 25 исследователей имеют доступ ко всем datasets без проектной сегрегации.

Целевое (4/5): Project-based access segregation, audit logging, encryption of PII at rest.

Gap (2):

  • JupyterHub: все исследователи видят все данные (M06, урок 1)
  • Нет audit trail: невозможно отследить, кто обращался к patient data (M06, урок 3)
  • Нет encryption at rest для PII в PostgreSQL

Domain 5: Governance Organization (M07)

Текущее (1/5): IRB/этический комитет рассматривает протоколы исследований, но не аудирует доступ к данным. Нет Data Governance Council, нет data stewards, нет DPO.

Целевое (3/5): Governance council, data steward для клинических данных, DPO (требование 152-ФЗ).

Gap (2):

  • Нет governance council (M07, урок 1)
  • Нет data stewards (M07, урок 2)
  • Нет DPO — этический комитет не заменяет DPO по 152-ФЗ

Domain 6: AI Governance (M08)

Текущее (1/5): ML researcher разрабатывает модели drug discovery и biomarker prediction. Нет model cards, нет bias testing, неизвестно какие patient data использовались для training.

Целевое (2/5): Model cards для production models, training data lineage, basic fairness assessment.

Gap (1):

  • Нет model cards (M08, урок 4)
  • Training data lineage отсутствует — невозможно выполнить data deletion request для ML training data
  • Нет bias testing для biomarker prediction (M08, урок 3)

Матрица приоритизации

Не все gaps одинаково критичны. Приоритизируем по двум осям: бизнес-impact (регуляторные риски, финансовые потери) и сложность закрытия (время, ресурсы, зависимости):

ДоменGapImpactСложностьПриоритетТип
Приватность (M05)Consent + de-identificationКритический (152-ФЗ, re-identification risk)СредняяP1Quick win + стратегический
Безопасность (M06)JupyterHub access + auditВысокий (patient data exposure)НизкаяP1Quick win
Организация (M07)Governance council + DPOВысокий (нет accountability)НизкаяP1Quick win
Метаданные (M03)Data catalogСредний (нет visibility)СредняяP2Стратегический
Качество (M04)Genomic + lab data qualityСредний (research reliability)ВысокаяP2Стратегический
AI Governance (M08)Model cards + lineageСредний (future regulatory)СредняяP3Стратегический

Чеклист governance-готовности

BioGenesis Lab: чеклист готовности к governance Level 3
  1. 01Executive sponsor назначен
    Head of Research -- частичный sponsor
    Соответствует
  2. 02Governance Council создан
    Нет. IRB не является Governance Council
    Не соответствует
  3. 03Data Stewards назначены
    Нет формальных steward ролей
    Не соответствует
  4. 04DPO назначен (152-ФЗ)
    Этический комитет не заменяет DPO
    Не соответствует
  5. 05Data Catalog развёрнут
    Нет каталога данных
    Не соответствует
  6. 06PII Inventory проведён
    Клинические данные -- да; исследовательские -- нет
    ~Частично
  7. 07RBAC на всех системах
    PostgreSQL -- да; MinIO/JupyterHub -- нет
    ~Частично
  8. 08Audit logging активирован
    Нет audit trail для доступа к данным
    Не соответствует
  9. 09Quality monitoring автоматизирован
    Только клинические данные (GCP)
    ~Частично
  10. 10Incident response plan задокументирован
    Нет плана реагирования на data breach
    Не соответствует
  11. 11Model cards для ML-моделей
    Нет model documentation
    Не соответствует
  12. 12De-identification pipeline
    Исследователи видят прямые идентификаторы
    Не соответствует

Ресурсная оценка

Закрытие gaps BioGenesis требует:

РесурсТекущееТребуемоеДействие
Data Steward01 (клинический домен)Назначить senior DE (50% time)
DPO01Нанять или аутсорсить (3 месяца)
Data Engineer (governance tooling)0 dedicated0.5 FTEПерераспределить одного из 3 DE
Бюджет (инструменты)0~$15K/годOpenMetadata hosting + training
Бюджет (compliance)0~$30K/годDPO salary + audit + training

План управления изменениями

Assessment — это не только технический аудит. Успех зависит от готовности людей принять новые процессы:

  1. Исследователи (25 человек) — главное сопротивление. Привыкли к полному доступу ко всем данным. Project-based segregation замедлит их работу. Стратегия: объяснить compliance-риски (152-ФЗ штрафы, IRB отзыв), предложить self-service request workflow
  2. Биоинформатики (2 человека) — союзники. Понимают проблему tribal knowledge. Стратегия: привлечь к каталогизации как first adopters
  3. Head of Research — partial sponsor. Стратегия: показать ROI: сокращение onboarding нового исследователя с 3 недель до 3 дней (каталог), автоматическая compliance (DPO + audit)
Проверка знанийKnowledge check
BioGenesis проводит assessment и обнаруживает, что IRB/этический комитет рассматривает протоколы исследований, но не аудирует фактический доступ к данным. Почему этого недостаточно для governance?
ОтветAnswer
IRB/этический комитет проверяет дизайн исследования (протокол) -- это pre-approval. Но governance требует также runtime enforcement и audit: (1) Protocol says 'use de-identified data' -- но кто проверяет, что исследователь действительно не видит PII? Нет audit logging (M06). (2) Protocol approved for Project A -- но исследователь может обращаться к данным Project B. Нет project-based access control (M06). (3) Пациент отзывает согласие -- но нет механизма удаления данных из ML training sets (M08, lineage). IRB -- governance 'на бумаге'. Для Level 3 нужен governance 'в runtime': automated access control + audit trail + consent enforcement.
Проверка знанийKnowledge check
В матрице приоритизации BioGenesis безопасность JupyterHub (M06) отмечена как P1/Quick Win, а AI Governance (M08) -- как P3. Почему такая разница, если обе проблемы связаны с patient data?
ОтветAnswer
Impact разный: JupyterHub access -- текущая exposure (25 исследователей видят все patient data прямо сейчас). AI Governance -- будущий risk (модели обучены, но регуляторы пока не требуют model cards от biotech Level 2). Сложность разная: JupyterHub access control -- настраивается за 1-2 недели (project-based groups). Model cards + training lineage -- 3-6 месяцев (требует data catalog, lineage infrastructure). P1/Quick Win = высокий impact + низкая сложность. P3 = средний impact + средняя сложность + зависимости (нужен каталог).

Формат отчёта assessment

Результат assessment — структурированный JSON-отчёт (см. код-challenge CC-41), включающий:

  1. Maturity snapshot — текущий уровень с evidence по каждому домену
  2. Gap analysis — target vs current с blocking issues
  3. Recommendations — приоритизированные действия (quick wins + стратегические)
  4. Improvement plan — поквартальный план (12 месяцев)

Этот формат стандартизирует assessment и позволяет отслеживать прогресс: повторный assessment через 6-12 месяцев по той же структуре покажет, какие gaps закрыты.

Итоги

Organizational assessment — это диагностика, без которой невозможно лечение:

  1. 6 доменов из M01 дают полную картину зрелости
  2. Gap analysis показывает конкретные проблемы, а не абстрактные оценки
  3. Приоритизация (impact vs сложность) определяет порядок действий
  4. Ресурсная оценка делает план реалистичным
  5. Change management обеспечивает adoption

В следующем уроке мы сравним все три компании курса (DataTech, BioGenesis, FinSecure) — кросс-компанийный анализ покажет, как governance выглядит на разных уровнях зрелости.

Проверьте понимание

Результат: 0 из 0
Аналитический
Вопрос 1 из 5. BioGenesis Lab (Level 2, healthcare/biotech) проводит governance assessment. IRB/этический комитет утверждает: 'Мы уже рассматриваем все протоколы исследований -- governance функция работает.' Head of Research сомневается. Что не покрывает IRB?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 4