Learning Platform
Глоссарий Troubleshooting
Урок 10.05 · 25 мин
Продвинутый
Tool EvaluationTool SelectionVendor AssessmentTCO Analysis

Оценка и выбор governance-инструментов

Введение

Знать ландшафт инструментов (уроки 1-3) и уметь их развёртывать (урок 4) — необходимо, но не достаточно. Выбор конкретного инструмента — организационное решение с долгосрочными последствиями: 12-24 месяца vendor lock-in, team training, integration investment. Этот урок даёт структурированный процесс оценки — от требований до решения.

Structured Evaluation Process

Оценка инструментов проходит 4 фазы:

Phase 1: RequirementsОпределение must-have и nice-to-have. Stakeholder interviews. Constraint mapping.
Phase 2: ShortlistLonglist -> Shortlist (3-5 candidates). Elimination по must-have. Desk research.
Phase 3: PoCProof of Concept (2-4 недели). Hands-on evaluation 2-3 candidates. Real data, real team.
Phase 4: DecisionScoring matrix + TCO + stakeholder alignment. Final recommendation. Migration plan.

Phase 1: Requirements gathering

Требования делятся на must-have (disqualifying) и nice-to-have (scoring):

ТипПримерыКак используются
Must-haveКоннектор к PostgreSQL, self-hosted, open-source licenseElimination: нет must-have = дисквалификация
Nice-to-haveColumn-level lineage, built-in classification, Slack integrationScoring: 1-5 баллов по каждому критерию
ConstraintBudget < $50K, team < 10, RAM < 16 GBFilter: constraint violation = дисквалификация

Ошибка #1: Начинать с product demo, а не с requirements. Без requirements вы оцениваете “нравится ли UI”, а не “решает ли проблему”.

Phase 2: Shortlist

Longlist -> Shortlist алгоритм:

  1. Составьте longlist (6-10 candidates) из каждой категории
  2. Примените must-have фильтр: нет must-have = дисквалификация
  3. Примените constraint фильтр: нарушение constraint = дисквалификация
  4. Результат: shortlist из 3-5 candidates для PoC

Phase 3: Proof of Concept (PoC)

PoC — hands-on evaluation с реальными данными и реальной командой:

Параметр PoCРекомендация
Длительность2-4 недели (не больше!)
ДанныеРеальные (не synthetic) — production subset
Команда2-3 человека: engineer + steward + analyst
Scope3-5 use cases из requirements
DeliverableScoring card + recommendation memo

Ошибка #2: PoC без exit criteria. Определите upfront: какие результаты считаем “pass” по каждому use case.

Phase 4: Decision

Scoring matrix формализует решение:

Пример: DataTech оценка каталогов данных
PostgreSQL connector
(20%)
Airflow lineage
(20%)
Quality integration
(15%)
Deployment simplicity
(15%)
Classification
(15%)
Cost
(15%)
Итого
OpenMetadata
5
4
5
5
4
5
4.7
DataHub
5
5
3
2
4
5
4.1
Amundsen
3
2
1
3
2
5
2.6

Total Cost of Ownership (TCO) анализ

TCO включает 5 компонентов за 3-летний горизонт:

КомпонентOpen-sourceCommercial SaaS
Лицензия$0$100K-500K/год
ИнфраструктураCloud VM: $5K-20K/годВключена (SaaS)
Операционная поддержка0.5-1 FTE: $50K-100K/год0.1 FTE: $10K-20K/год
TrainingSelf-study + community: $5KVendor training: $10K-30K
Migration (если потребуется)Community tools: $20K-50KVendor lock-in: $50K-200K

3-year TCO пример (DataTech):

  • OpenMetadata: 0+0 + 15K infra + 150Kops(0.5FTE3years)+150K ops (0.5 FTE * 3 years) + 5K training = $170K
  • Collibra: 600Klicense+600K license + 0 infra + 60Kops+60K ops + 30K training = $690K

OpenMetadata 4x дешевле за 3 года. Но если команда вырастет до 100+ человек и потребуется SOC2 — Collibra может стать cheaper per-user.

Stakeholder alignment

Разные stakeholders оценивают инструменты по разным критериям:

StakeholderПриоритет #1Приоритет #2Что игнорирует
CTO/VP EngTCOScalabilityUI/UX
Data EngineerAPI qualityDeployment simplicityBusiness features
Data StewardCollaboration UIClassificationInfrastructure
DPOCompliance (SOC2, GDPR)Audit trailPerformance
CFOLicense costVendor stabilityTechnical features

Процесс alignment:

  1. Каждый stakeholder заполняет scoring matrix со своими весами
  2. Facilitator (CDO или PM) собирает разногласия
  3. Workshop: обсуждение divergent scores (разница > 2 баллов)
  4. Консенсус: единая scoring matrix с agreed весами

Migration planning

При замене существующего инструмента — migration plan:

ФазаДействиеДлительность
PreparationInventory текущих metadata, integrations, workflows2-4 недели
Parallel runНовый инструмент работает параллельно со старым4-8 недель
MigrationПеренос metadata, users, integrations2-4 недели
CutoverПереключение пользователей, decommission старого1-2 недели
StabilizationМониторинг, bug fixes, training2-4 недели

Total: 11-22 недели (3-5 месяцев). Правило: migration всегда занимает 2x от плана.

Common selection mistakes

  1. Demo-driven selection — выбор на основе красивой демо-презентации без PoC
  2. Feature-driven selection — выбор по количеству features, а не по relevance к вашим requirements
  3. Ignoring TCO0licenseнеозначает0 license не означает 0 cost (infrastructure + operations)
  4. Single-stakeholder decision — выбор только инженером или только руководителем
  5. No exit plan — отсутствие migration plan при выборе proprietary solution
  6. Premature optimization — выбор enterprise tool для команды из 5 человек

Сценарии

Сценарий: DataTech Solutions (ДатаТех Солюшенз)

DataTech проводит full evaluation для первого governance tool stack:

Requirements: PostgreSQL connector (must-have), Airflow lineage (must-have), < 8 GB RAM (constraint), $0 license (constraint), quality integration (nice-to-have)

Shortlist: OpenMetadata, DataHub, Amundsen (Collibra eliminated: $100K+ license)

PoC (2 weeks): 3 use cases: (1) ingest 200 tables, (2) auto-lineage from 10 DAGs, (3) quality checks on 5 datasets

Result: OpenMetadata — best fit: all must-haves, < 6 GB RAM, quality integration native, 2-day deployment.

Сценарий: FinSecure Bank (ФинСекьюр Банк)

FinSecure оценивает upgrade OpenMetadata 1.2 -> 1.5.x vs migration к DataHub:

Requirements: Column-level lineage (must-have для GDPR), SSO integration (must-have), < 6 месяцев migration (constraint)

Analysis:

  • Upgrade OM 1.2 -> 1.5.x: column lineage (beta), SSO через Collate Cloud. Risk: beta lineage quality.
  • Migrate to DataHub: column lineage (mature), SSO native. Risk: 14+ containers, 6+ month migration, Kafka dependency.

Decision: Upgrade OM to 1.5.x (lower risk). If column lineage beta не satisfies GDPR audit within 3 months — trigger DataHub migration. Exit plan documented.

Проверка знанийKnowledge check
DataTech завершила PoC для каталогов данных. OpenMetadata набрал 4.2/5.0, DataHub -- 4.0/5.0. CTO предлагает выбрать OpenMetadata. Data Engineer хочет DataHub (лучший lineage). Как разрешить конфликт?
ОтветAnswer
Stakeholder alignment workshop: (1) Определить, какой критерий вызвал расхождение -- lineage. (2) Оценить вес lineage для DataTech: column-level lineage -- nice-to-have или must-have? Для Level 1 без regulatory pressure -- nice-to-have. (3) Оценить TCO: DataHub 14+ контейнеров = +4 GB RAM + Kafka ops = $30K+ дополнительных infra costs. (4) Консенсус: OpenMetadata сейчас (lower TCO, simpler ops), DataHub как future option если lineage станет must-have. Документировать exit plan.

Итоги

  • Structured evaluation: Requirements -> Shortlist -> PoC -> Decision (4 фазы, 6-12 недель)
  • TCO — 5 компонентов: лицензия, инфраструктура, ops, training, migration. 3-летний горизонт.
  • Stakeholder alignment: разные роли оценивают по разным критериям; workshop для консенсуса
  • Migration: 3-5 месяцев; всегда 2x от плана; parallel run обязателен
  • 6 ошибок выбора: demo-driven, feature-driven, ignoring TCO, single-stakeholder, no exit plan, premature optimization
  • Правило: upgrade before migrate. Migration — last resort.

Вы научились выбирать governance-инструменты. Но инструменты — это входные данные. BI и аналитика — это выходные данные: дашборды, отчёты, метрики, которые потребляют бизнес-пользователи. DataTech имеет 80+ Metabase дашбордов, из которых никто не знает, какие актуальны, а какие устарели. В следующем уроке мы изучим BI/Analytics Governance — governance потребительского слоя: жизненный цикл отчётов, сертификация дашбордов, governance семантического слоя и self-service аналитика.

Модуль M09 продолжается в уроке 06: BI/Analytics Governance — governance потребительского слоя данных.

Проверьте понимание

Результат: 0 из 0
Аналитический
Вопрос 1 из 5. DataTech начинает оценку каталога данных. VP Engineering хочет пригласить вендоров на demo и выбрать по результатам презентаций. Почему это анти-паттерн?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 7