AI / ML-оверлей: обучение моделей на CDE и compliance с EU AI Act

Введение

SwiftRide T+14M. CDO Anna встречается с VP Engineering Tomás + ML Lead Mei + AI Risk Specialist (нанятой в Q4 2026) Olga. Тема: «Какова наша позиция compliance EU AI Act для (a) pricing engine — surge multiplier + driver pay; (b) модели SwiftCapital ECL — IFRS 9 stage transitions + credit scoring решения; (c) algorithmic matching — driver↔rider routing?».

Mei: «Pricing engine — V3 переобучена в Q3 2026; источники данных: история поездок 24 месяца + демография rider/driver (legal residency, account age) + макро-сигналы (события, погода). Документация Annex IV — частичная; risk-management система задокументирована через MLflow + эксперименты Vertex AI, но не формальное compliance-ревью Art. 10. Bias examination — обсуждалось, но несистематически.»

Olga: «Классификация pricing engine под Annex III — скорее всего да (категория essential private services включает employment-related решения для gig-работников; surge multiplier влияет на driver earnings = labor-related). SwiftCapital ECL — credit scoring под Annex III точно. Algorithmic matching — пересечение с DSA recommender system; классификация Annex III потенциально (категория workers management). Наша внутренняя классификация Q2 2026 флагировала все три как high-risk; внешне ещё не оспорено.»

Anna: «Article 10 требует data governance для high-risk обучения; Annex IV требует технической документации; дедлайны 2 августа 2026 (полное применение Annex III high-risk) — мы пропустили. SwiftCapital ECL также подпадает под SR 26-2 (US model risk — Fed опубликовал 17 апреля 2026 — недавно отменил SR 11-7 + SR 21-8). Плюс SOC 2 audit — vendor SOC 2 для Vertex AI предполагается, но нужна AI/ML-специфичная адаптация TSC.»

Три регуляторных трека — EU AI Act + Fed SR 26-2 + SOC 2 для AI/ML — сходятся на pricing engine + SwiftCapital ECL. M8.6 — как строится governance-оверлей для моделей, затрагивающих CDE.

EU AI Act Art. 10 — data governance для high-risk AI

EU AI Act Art. 10 применяется к high-risk AI-системам (категории Annex III). Требования:

(1) Датасеты для обучения, валидации и тестирования должны быть:

Релевантными — должным образом адресовать предполагаемую цель.
Достаточно репрезентативными — географические / контекстные / поведенческие / функциональные характеристики deployment setting.
Свободными от ошибок и полными — для предполагаемой цели.

(2) Соображения по датасетам:

Оценены статистические свойства + biases.
Задокументирован процесс получения и сбора данных.
Задокументированы операции подготовки (аннотация, labelling, очистка, обогащение).
Допущения о входных данных.
Предварительная оценка доступности и пригодности данных.
Bias examination + меры митигации bias.
Идентификация разрывов + ремедиация.

(3) Датасеты должны учитывать:

Географические / контекстные / поведенческие / функциональные характеристики deployment setting.
Конкретную популяцию / setting, который адресуется.

(4) Special-category data (Art. 9 GDPR + AI Act Art. 10(5)):

Только если строго необходимо для обнаружения / коррекции bias.
С safeguards (псевдонимизация, шифрование, ограниченный доступ, технические ограничения на re-identification, timeline удаления).

Маппинг на CDE-контроли:

Требование Art. 10	Оверлей CDE-контроля
Релевантность + репрезентативность	Реестр training data — явные версии датасетов, связанные с записями feature store; методология выборки задокументирована
Свободны от ошибок + полны	DQ-правила применяются к training data по измерениям M5.4 (полнота, точность, валидность, уникальность, своевременность)
Задокументированы статистические свойства	Отчёт bias examination — подгруппы популяции + диспропорции производительности; опубликован в model card
Задокументированная подготовка	События OpenLineage для training pipeline; флаг MASKING в column-level lineage
Идентификация разрывов + ремедиация	Ежеквартальное ревью drift модели (см. ниже); идентифицированные разрывы в реестре рисков
Special-category safeguards	Подпись DPO для training датасетов, содержащих Art. 9 GDPR данные; safeguards задокументированы

Annex IV — требования к технической документации

EU AI Act Annex IV требует технической документации для каждой high-risk системы:

Обязательные секции Annex IV:

General description — предполагаемая цель, deployer / provider, версия, поддерживаемые языки.
Detailed system description:
- Методы разработки (CI/CD, training-инфраструктура).
- Используемые датасеты (training, validation, testing) по Art. 10.
- Подход validation + testing.
- Метрики производительности + пороги точности.
- Предвидимые риски + митигация.
Risk-management system (Art. 9) — ongoing итеративный процесс.
Post-market monitoring — обнаружение дрейфа, мониторинг производительности, feedback loops.
EU declaration of conformity — формальное заявление compliance.
CE marking — размещено на физическом или цифровом артефакте.
Instructions for use — для deployers (если отличается от provider).

Паттерн реализации Annex IV в SwiftRide (T+14M):

docs/ai-models/
├── pricing-engine-v3/
│   ├── annex-iv.md                    # Full Annex IV documentation
│   ├── art-10-data-governance.md      # Art. 10 specific
│   ├── art-9-risk-management.md       # Art. 9 risk management
│   ├── art-12-record-keeping.md       # Logs + records
│   ├── art-13-transparency.md         # User instructions
│   ├── art-14-human-oversight.md      # Human oversight design
│   ├── art-15-accuracy.md             # Accuracy/robustness
│   ├── bias-examination-report.md
│   ├── model-card.md
│   ├── post-market-monitoring.md
│   └── declaration-of-conformity.pdf
├── swiftcapital-ecl-v2/
│   └── ... (same structure)
└── matching-algorithm-v4/
    └── ... (same structure)

Каждая модель поддерживает всеобъемлющий Annex IV-пакет; обновляется ежеквартально или при material change; аудитор (Big 4 + будущий AI office) может запросить walkthrough; перекрёстно ссылается на CDE-контроли.

Annex III — классификация high-risk

Article 6 + Annex III перечисляют 8 категорий high-risk:

Биометрия (некоторые подкатегории).
Critical infrastructure.
Education / vocational training.
Employment / workers management.
Essential private / public services (вкл. credit scoring, страхование, public benefits).
Law enforcement.
Migration / asylum / border.
Justice / democratic processes.

Анализ классификации моделей SwiftRide:

Модель	Категория Annex III	High-risk?	Обоснование
Pricing engine V3	Employment / workers management (#4)	ДА скорее всего	Surge multiplier напрямую влияет на driver earnings (gig labor compensation); категория workers management Annex III широко интерпретируется в гайденсе AI Office Q1 2026
SwiftCapital ECL model V2	Essential private services / credit scoring (#5)	ДА точно	Credit scoring явно в Annex III; решения SwiftCapital по кредитованию = в периметре
Algorithmic matching V4	Employment / workers management (#4)	Условно	Driver routing влияет на earnings косвенно; пересечение с DSA recommender obligations; гайденс AI Office в ожидании
Driver background check	Employment / workers management (#4)	Условно	Паттерн hiring screening; если автоматическая фильтрация — скорее всего high-risk
Ad targeting (SwiftAds)	Не Annex III напрямую	НЕТ под Annex III	Маркетинг не указан явно; параллельно применяется покрытие DSA / GDPR

Процесс conformity assessment:

Annex III high-risk → conformity assessment по Art. 43.
Внутренний контроль provider (Annex VI) достаточен для большинства категорий Annex III.
Quality management system обязательна.
Risk-management system задокументирована + итерирована.
Post-market monitoring активен.
Отчётность о серьёзных инцидентах в national competent authorities.

Даты вступления в силу:

2 августа 2026 — полное применение для Annex III high-risk + transparency Art. 50.
SwiftRide сейчас пропустил дедлайн; цикл ремедиации Q4 2026.

SR 26-2 — Fed Model Risk Management (17 апреля 2026)

Federal Reserve SR 26-2 — опубликован 17 апреля 2026; отменяет SR 11-7 (2011) + SR 21-8 (2021); OCC Bulletin 2026-13 + FDIC FIL-15-2026 параллельно. Ключевые изменения по сравнению с SR 11-7:

Явное risk-based масштабирование. Меньшие community banks — light touch; крупные институты — полные ожидания SR 26-2.
AI / ML модели явно в периметре. SR 11-7 предшествовал современному AI; SR 26-2 явно ссылается на ML.
Соображения по foundation model / GPAI. Ссылка на EU AI Act + NIST AI RMF.
Ожидание continuous monitoring. Пост-deployment-мониторинг + обнаружение дрейфа обязательно.
Соответствие модели Three-line. Owner (1L) + независимая валидация (2L) + audit (3L).

Применяется ли SR 26-2 к SwiftRide? Pre-IPO SwiftRide N.V. — голландская сущность; SR 26-2 напрямую применяется к US банкам под Fed supervision. SwiftCapital партнёрится с US banking партнёром для US-side кредитования — партнёр под SR 26-2; compliance SwiftRide производный через partner relationship + собственное внутреннее соответствие для SwiftPay (если US-экспансия).

Маппинг на governance CDE:

Элемент SR 26-2	Оверлей CDE
Model inventory	Зарегистрированные модели + CDE-теги; SwiftCapital ECL = CDE-SWR-014
Независимая валидация (2L)	AI Risk Specialist (наём 2L в Q4 2026) + ревью Risk Function
Ongoing-мониторинг	Пост-deployment drift monitoring (см. ниже)
Документация	Annex IV-пакет двойного назначения — документация SR 26-2
Цикл валидации	Ежегодная независимая валидация для tier-1 моделей; раз в 2 года для tier-2
Управление изменениями	Переобучение модели = Normal change (обзор CAB) по M8.2

Адаптация trust criteria SOC 2 для AI/ML

Vendor SOC 2 для Vertex AI / Databricks ML / Snowflake Cortex — стандартные TSC не полностью адресуют AI-специфичные риски. Подход SwiftRide:

Confidentiality + Privacy TSC — применять стандартно.
Адаптация Processing Integrity TSC — расширить на:
- Lineage + integrity training data.
- Integrity артефактов модели (signed weights, version control).
- Точность инференса + воспроизводимость.
- Эффективное оперирование контролей drift monitoring.
Адаптация Privacy TSC — расширить на:
- Обработка special-category data по Art. 10(5).
- Right to explanation (GDPR Art. 22 + DSA + AI Act).
- Эффективность псевдонимизации training data.

CUEC (Section IV) для AI-специфичных вендоров обычно включает:

Клиент документирует предполагаемые use cases.
Клиент мониторит drift производительности модели.
Клиент реализует human oversight для high-risk решений.
Клиент периодически ревьюит bias examinations.
Клиент управляет доступом к training-датасетам.

Drift monitoring — перспектива провала контроля

Concept drift = отношение между входами и выходами меняется (true labels дрейфуют; например, паттерны surge multiplier меняются после пандемии).

Data drift = распределения входных фич меняются (например, сдвиг демографии, новая география подключена, отсутствует фича для новой когорты).

Model performance drift = accuracy / precision / recall деградирует на holdout.

Как провал контроля: drift = сигнал, что training-допущение больше не выполняется; вывод модели может быть ненадёжным; потенциальный material misstatement, если модель питает финансовые / регуляторные решения.

Drift monitoring SwiftRide (T+14M):

Модель	Метрика drift	Порог	Частота	Действие при превышении
Pricing engine V3	KS-статистика распределений фич	> 0.15	Ежедневно	SEV-2 → уведомление Risk Function; рассмотрение переобучения
Pricing engine V3	Population stability index (PSI) для предсказаний	> 0.2	Ежедневно	SEV-2 → триггер bias examination
SwiftCapital ECL V2	Предсказание ECL vs фактический default rate	> 1 стандартное отклонение	Еженедельно	SEV-1 → re-validation ECL по IFRS 9; уведомление CFO
Matching V4	Прокси NPS качества match	< 7.5 baseline	Еженедельно	SEV-3 элемент бэклога

Обнаруженный drift = провал контроля: триггерит процесс инцидента M7.4; RCA + превентивное действие обязательны; реестр рисков обновлён.

Проверка знанийKnowledge check

SwiftRide T+14M — Olga (AI Risk Specialist) должна построить полный EU AI Act compliance-пакет для pricing engine V3 в течение 90 дней (audit dry-run Q1 2027). Какие артефакты + контроли + эмиссию доказательств? Ссылка на Art. 10 + Annex IV + Annex III + drift monitoring + overlap с SR 26-2 + адаптацию SOC 2.

ОтветAnswer

90-дневный EU AI Act compliance-пакет для pricing engine V3: (1) Подтверждение классификации Annex III (Неделя 1): формальный документ классификации — категория workers management #4; обоснование со ссылкой на гайденс AI Office Q1 2026; подписано CDO + Olga + General Counsel; архивировано в S3 Object Lock 10 лет (retention AI Act). (2) Техническая документация Annex IV (Недели 1-8): структура папок docs/ai-models/pricing-engine-v3/ заполнена: (a) annex-iv.md — general description (предполагаемая цель: surge multiplier + driver pay для платформы SwiftRide Rides; deployer = SwiftRide; provider = SwiftRide internal; версия V3.2.1; поддерживаемые рынки = 40 стран EU/LATAM/MENA/SEA); (b) detailed system description — методы разработки (training-пайплайн Vertex AI + реестр экспериментов MLflow + dbt feature pipeline), датасеты (training: trip_records 24 мес + rider_demographics + driver_demographics + макро-сигналы; validation: trip_records последние 3 мес; test: rolling-окно 7 дней), подход validation + testing (5-fold CV + temporal hold-out + per-country slice testing), метрики производительности (RMSE по странам + по surge band; fairness-метрики по демографическим группам), предвидимые риски + митигация; (c) art-10-data-governance.md — анализ релевантности + репрезентативности (матрица географического покрытия; анализ репрезентации когорт), ошибки + полнота (DQ-правила применены к training data по CTL-CDE-SWR-015-*; провалившаяся валидация → исключение из training set), задокументированные статистические свойства (распределения фич + корреляции + метрики class imbalance), операции подготовки (события OpenLineage для feature engineering pipeline; флаг MASKING в column-level lineage для PII-колонок), допущения, отчёт bias examination (диспропорции производительности подгрупп по Art. 10(2)(f)), идентификация разрывов (анализ T+10M идентифицировал недопредставленность Benelux → ремедиация: synthetic data + active learning Q1 2027), special-category data (Art. 9 GDPR не используется напрямую; псевдонимные демографические маркеры по Opinion 28/2024 — приложена подпись DPO); (d) art-9-risk-management.md (задокументирован итеративный процесс risk-management system; ежеквартальное ревью; маппинг на CDE risk register R-DE-021); (e) art-12-record-keeping.md (логи хранятся 10 лет по Art. 18; неизменяемое хранилище S3 Object Lock); (f) art-13-transparency.md (driver-facing transparency через UI-фичу 'why this rate?'; провайдер-deployer split); (g) art-14-human-oversight.md (human-in-loop для аномальных предсказаний > 3 SD от baseline; механизм override задокументирован); (h) art-15-accuracy.md (пороги точности + robustness testing включая adversarial); (i) bias-examination-report.md (полный анализ Q4 2026); (j) model-card.md (по спецификации Google model card + секции AI Act); (k) post-market-monitoring.md (setup обнаружения drift); (l) declaration-of-conformity.pdf (подписан CDO + CEO + General Counsel). (3) Conformity assessment (Недели 3-6) — внутренний контроль по Art. 43 + Annex VI; quality management system замаппирована на ISO 27001 + ISO 9001 если применимо; процесс risk-management задокументирован + итерирован. (4) Активное развёртывание drift monitoring (Недели 4-8): KS-статистика + PSI + per-country производительность по таблице в M8.6; ежедневное обновление дашборда Looker; пороги алертов эмитят SEV-2 / SEV-1 по severity M7.4; control_id CTL-CDE-SWR-015-007 (обнаружение drift) добавлен в каталог контролей M5; эмиссия доказательств в S3 Object Lock 10 лет. (5) Overlap с SR 26-2 (Недели 5-8): установлен цикл независимой валидации (2L) — Risk Function ежегодно ревьюит отчёт валидации; документация перекрёстно ссылается на секции SR 26-2; change management — переобучение pricing engine классифицировано как Normal change по M8.2 (CAB required); model inventory обновлён в Backstage; SwiftCapital ECL — аналогичный подход. (6) Адаптация SOC 2 (Недели 6-10): Vertex AI vendor SOC 2 Type 2 проревьюен; маппинг CUEC для AI-специфичных контролей (integrity lineage training data + integrity артефактов модели + drift monitoring); SwiftRide-side контроли реализуют ожидания Vendor CUEC; квартальная аттестация включает % покрытия; добавлены control_ids CTL-CDE-SWR-015-008+. (7) Кросс-функциональное ревью (Недели 9-11): совместный ревью-пакет CDO + Risk Function + General Counsel + DPO + Business Owner (Marketing Lead — business owner pricing engine); симуляция walkthrough Internal Audit; партнёр Big 4 Daria получает advance look (advisory). (8) Запись в реестре рисков R-DE-021 (риск compliance EU AI Act Pricing engine V3) — статус: активно ремедиируется; превентивные контроли развёрнуты; целевое закрытие T+15M после audit dry-run. (9) Эмиссия доказательств в S3 с цепочкой control_id — CTL-CDE-SWR-015-005 (Art. 10 data governance) + CTL-CDE-SWR-015-006 (Annex IV documentation) + CTL-CDE-SWR-015-007 (drift monitoring) + CTL-CDE-SWR-015-008 (реализация SOC 2 CUEC); подписано HMAC; retention 10 лет; запрашиваемо по циклу аттестации. (10) Квартальная аттестация (M7.5) — подпись Business Owner подтверждает compliance EU AI Act + bias examination + drift monitoring + свежесть Annex IV; ревью 2-й линии Risk Function; наблюдатель Internal Audit SEV-1 (если drift нарушен). (11) Импликации защищаемости при аудите — обход Big 4 Q1 2027: полный walkthrough Annex IV-пакета; walkthrough Art. 10 data governance; доказательства drift monitoring; declaration of conformity; нарратив alignment с SR 26-2; маппинг SOC 2 CUEC; полная воспроизводимая реконструкция; scope ICFR opinion unqualified включает pricing engine. (12) Импликации pre-IPO листинга — раскрытие high-risk классификации EU AI Act в S-1 filing; инвесторские risk factors включают compliance AI Act; зрелая программа = рейтинг green. Общие усилия ~16 инженер-недель (Olga + ML Lead Mei + Risk Function + General Counsel + DPO); стоимость ~$400k internal + $80k external (консалтинг + юридическое ревью); защищаемость при аудите достигнута к цели T+15M.

Состояние SwiftRide T+14M

3 high-risk модели идентифицированы (pricing engine, SwiftCapital ECL, matching V4).
Документация Annex IV готова на 70% для pricing engine, 40% для SwiftCapital ECL, 20% для matching V4.
Drift monitoring живо для pricing engine, развёртывается для SwiftCapital ECL в Q4 2026.
AI Risk Specialist нанята в Q4 2026; 90-дневный онбординг фокусируется на compliance-пакете pricing engine.
SR 26-2 опубликован 17 апреля 2026; анализ продолжается; цель pre-IPO T+15M = полный compliance-оверлей.
Адаптация SOC 2: Vertex AI CUEC замаппированы (14 контролей); реализация на стороне SwiftRide 60%.

Антипаттерны

”Vertex AI решает AI Act за нас”

Паттерн: предположить, что vendor SOC 2 + vendor AI Act compliance покрывает SwiftRide.

Почему плохо: различие Provider vs Deployer в AI Act; SwiftRide = deployer для pricing engine (частично — обязанности provider); Annex IV применяется к SwiftRide.

Исправление: ясный маппинг Provider/Deployer по модели; документация на стороне SwiftRide обязательна.

”Model card достаточно”

Паттерн: model card опубликована; трактуется как замена Annex IV.

Почему плохо: model card — подмножество Annex IV; AI Act ожидает полный пакет.

Исправление: model card = секция более широкого Annex IV-пакета; перекрёстно ссылается; ревьюится независимо.

Drift не связан с реагированием на инциденты

Паттерн: drift-дашборды существуют; алерты срабатывают; не связаны с процессом инцидента M7.4; нет RCA.

Почему плохо: провал контроля без ответа; control deficiency AS 1305.

Исправление: нарушение drift → автоматически SEV-2 инцидент → triage → RCA по M7.4; превентивное действие в очереди.

Special-category training data без подписи DPO

Паттерн: ML-инженер включает legal residency или demographic-proxied фичи в обучение; “необходимо для точности”; DPO не консультировался.

Почему плохо: Art. 10(5) требует строгой необходимости + safeguards; ad-hoc включение = supervisor finding.

Исправление: спецификация training data ревьюится DPO перед обучением; чек-лист Art. 10(5) обязателен; safeguards задокументированы.

Резюме

EU AI Act Art. 10 — data governance для high-risk AI; релевантность + репрезентативность + свобода от ошибок + полнота + bias examination + special-category safeguards.
Annex IV — пакет технической документации: general description + detailed system + risk-management + post-market monitoring + declaration of conformity + CE marking + instructions.
Классификация Annex III — pricing engine скорее всего workers management; SwiftCapital ECL точно credit scoring; matching V4 условно; дата вступления в силу 2 августа 2026 уже пропущена.
SR 26-2 (17 апреля 2026) — Fed Model Risk Management; отменяет SR 11-7 + SR 21-8; AI/ML явно в периметре; risk-based масштабирование; ожидание continuous monitoring.
SOC 2 TSC адаптированы для AI/ML — Processing Integrity + Privacy расширены; маппинг CUEC для AI-специфичных вендоров.
Drift monitoring (concept drift + data drift + performance drift) = перспектива провала контроля; нарушение → процесс инцидента M7.4.
SwiftRide T+14M: 3 high-risk модели идентифицированы; Annex IV-пакет 20-70% готов; drift monitoring живо для pricing engine; наём AI Risk Specialist в Q4 2026; цель T+15M = полный оверлей.

В M8.7 разберём операционную модель + организационную структуру — CDO Office vs CRO vs Compliance, оверлей 3 Lines, RACI-матрицу, состав команды.

AI Governance Principles — EU AI Act framework Bias Detection и Fairness — EU AI Act Art. 10(5)