Введение
Модель данных реестра (M4.5) — schema-agnostic. Бэкенд хранения — решение по вендору. SwiftRide T0 уже имеет частичное внедрение OpenMetadata 1.x; CDO стоит перед решением: продолжать инвестировать в OSS, ИЛИ мигрировать в enterprise (Collibra / Atlan / Alation) для pre-IPO готовности, ИЛИ принять MS Purview (Azure-native + примитив CDE).
Этот урок — глубокое сравнение 9 вендоров против 12 критериев. Дерево решений SwiftRide — open-source baseline + путь миграции в enterprise. Недавний релиз Microsoft Purview — CDE как first-class объект — фундаментально меняет вендорский ландшафт; рассмотрим явно.
Дисклеймер: позиционирование вендоров эволюционирует ежеквартально. Версии верифицированы May 2026 по docs/TOOLING_LANDSCAPE.md. Перепроверьте до решения по тулингу.
Аналитический контекст Gartner / Forrester
Позиционирование вендоров переформировано Nov 2025: Gartner Magic Quadrant for Metadata Management Solutions (категория реинтродуцирована Nov 2025, 15 вендоров).
- Лидеры: Atlan, Alation, Informatica, IBM watsonx.data Intelligence, Collibra.
- Ребрендинг категории: «augmented data catalog» → «metadata-anywhere / metadata orchestration».
- Новые оси отбора: AI-готовность, active metadata, интеграция с агентами.
Forrester Wave Enterprise Data Catalogs Q3 2024: Atlan — Leader.
Сертификации EDM Council CDMC (2025): Informatica IDMC — первое крупное коммерческое предложение, сертифицированное CDMC (Jan 2025).
Глубокий разбор вендоров
Open-source baseline tier
OpenMetadata / Collate
Источник: OSS v1.12.6 (22 Apr 2025); коммерческий Collate.
Обработка CDE: Custom property set на сущности Table; classification + glossary terms. Не first-class-примитив CDE, но прескриптивный паттерн задокументирован. v1.12 добавила data contracts native (формальный CDE-style commitment между producers и consumers).
Lineage: На уровне колонок через SQL parsing + события OpenLineage + dbt-артефакты. v1.12 — Metadata AI SDK.
DQ: “Shift Left” DQ as code (1.11+); нативные data-quality тесты; интеграция с GE / Soda.
Сильные стороны: OSS бесплатно; нативные DQ + contracts; OpenLineage нативно; 90+ коннекторов; SwiftRide уже частично развёрнут.
Слабые стороны: меньшая экосистема, чем у коммерческих Atlan / Collibra; продвинутые AI-агенты только в коммерческом Collate; CDE — custom property, не first-class.
Соответствие SwiftRide: baseline. T0-T+3M реестр построен на OpenMetadata + custom property set + YAML mirror.
DataHub / DataHub Cloud
Источник: OSS v1.5.0.x (May 2025). Коммерческий DataHub Cloud (ранее Acryl).
Обработка CDE: Tags + glossary terms + custom aspects. Дорожная карта 2025 — Universal Data Registry + Centralized Compliance + Policy Enforcement.
Lineage: На уровне колонок через SQL parsing + интеграции (Airflow, dbt, Spark); улучшается в 1.5.x.
Сильные стороны: OSS, расширяемый, сильная инженерная аудитория; большое сообщество.
Слабые стороны: governance workflows менее отполированы, чем у Collibra; CDE — custom; операционная сложность (Kafka + ES + MySQL бэкенд).
Соответствие SwiftRide: альтернатива OSS. Более сильный технический бэкенд; более слабый governance workflow. Не рекомендуется переключаться с OpenMetadata посреди внедрения.
Apache Atlas
Источник: v2.4.0 (Jan 2025), v2.5 в полёте.
Обработка CDE: Classifications + glossary terms; tag propagation сильное (исторический козырь).
Lineage: Hive на уровне колонок; SQL-based источники ограничены.
Сильные стороны: Нативная интеграция с Ranger; tag propagation; OSS бесплатно.
Слабые стороны: Hadoop / Hortonworks / CDP-центричен; снижающаяся скорость; legacy-операционный профиль (HBase + Solr); нет AI-агентов.
Соответствие SwiftRide: Не применимо. Стек SwiftRide — Snowflake + Databricks (не Hadoop); Atlas — legacy для Hortonworks shops.
Enterprise tier
Collibra Platform + DQ + Protect
Источник: Platform 2025.02 (Feb 2025), 2025.06 (June 2025). DQ 2025.03 (Java 8/11 последняя). Collibra Protect для access policy.
Обработка CDE: Нативный CDE asset type с прикреплением политик, связью с бизнес-глоссарием, привязкой DQ. End-to-end CDE-first дизайн.
Lineage: Collibra Lineage (ранее Lineage Harvester); тщательный enterprise lineage.
DQ: Collibra DQ (ранее OwlDQ) — адаптивные правила, outliers, source-to-target; самая глубокая интеграция catalog-DQ.
Governance workflow: BPMN-based workflow engine; многоэтапное одобрение; role-based sign-off зрелый.
Сильные стороны: end-to-end CDE-first; SOX-grade evidence reference customer base; Collibra Protect tag-based enforcement access policy.
Слабые стороны: enterprise sales / quote-based pricing; total cost of ownership высокий; внедрение 6-12 месяцев; миграция Java 8/11 → 17 churn.
Соответствие SwiftRide: кандидат для post-IPO enterprise-миграции (T+18M+). Преждевременная инвестиция на T0.
Atlan
Источник: SaaS, еженедельная каденция; Gartner MQ MM 2025 Leader; #1 в 2 из 5 Critical Capabilities use cases.
Обработка CDE: Custom asset type; менее прескриптивный, чем Collibra. Governance Studio — сильное управление governed-terms. AI Governance Studio — маппит assets к EU AI Act.
Lineage: На уровне колонок SQL parser нативно; современный UX best-in-class.
AI-аугментация: Atlan AI co-pilot; Context Agents автоклассифицируют (PII detection автоматически); MCP server для доступа агентов.
Сильные стороны: короткое время до результата (недели); современный UX продвигает adoption; нативный маппинг AI Act; OpenLineage нативно.
Слабые стороны: только SaaS (ограничения суверенитета данных в ЕС); ценообразование quote-based.
Соответствие SwiftRide: кандидат на миграцию T+12M+ если масштаб перерастёт OpenMetadata. Поддержка реестра AI Act — прямая ценность для готовности к EU AI Act 2 Aug 2026.
Alation Agentic Platform
Источник: 2025.1 (Q1), 2025.3 (середина 2025); Agentic Data Intelligence Platform GA Q2 2025; AI Agent SDK с поддержкой Anthropic MCP.
Обработка CDE: Бизнес-глоссарий + governance-атрибуты; не first-class-примитив.
AI: Documentation Agent, DQ Agent, Data Products Builder Agent (GA Q3 2025); Aggregated Context API.
Сильные стороны: adoption бизнес-пользователями сильный; stewardship workflows отполированы; AI-агенты продуктивны.
Слабые стороны: lineage исторически тоньше, чем у Collibra / Manta; enterprise sales.
Соответствие SwiftRide: альтернатива Atlan. Сильный UX для бизнес-пользователей; агентные фичи. Сравнимое рассмотрение с Atlan T+12M+.
Informatica CDGC (IDMC)
Источник: IDMC release trains Feb / Apr / Jul / Nov 2025; CDMC-сертифицирован Jan 2025.
Обработка CDE: CDE через Axon data sets / governance scenarios; не нативный примитив, но зрелый паттерн.
Lineage: Самая глубокая экосистема сканеров; Manta-style статический анализ; SQL + хранимые процедуры + ETL XML extraction.
Сильные стороны: наследие в регулируемых отраслях; CDMC-сертифицирован (Jan 2025); самая глубокая экосистема сканеров.
Слабые стороны: сложное лицензирование; legacy on-prem EDC end-of-life messaging; типично 6-12 месяцев внедрения.
Соответствие SwiftRide: банковское наследие; кандидат на post-IPO масштаб SwiftCapital. Преждевременно на T0.
IBM watsonx.data Intelligence
Источник: Ребрендинг 2024-2025; включает ex-Manta lineage; Gartner MQ MM 2025 Leader.
Обработка CDE: Бизнес-глоссарий + CDE-style критичное теггирование данных; не отдельный примитив.
Lineage: Manta приобретена 2023; на уровне колонок + transformation-logic extraction глубоко.
Сильные стороны: enterprise governance + AI tie-in; глубокая Manta lineage; глубина banking / insurance.
Слабые стороны: сложное лицензирование; on-prem Cloud Pak overhead; multi-cloud lineage зреет.
Соответствие SwiftRide: Не выравнено. SwiftRide стартует с Vertex AI / Snowflake / Databricks; IBM watsonx — IBM Cloud first.
Hyperscaler tier
Microsoft Purview Unified Catalog
Источник: Постоянно обновляемый SaaS; примитив CDE в Unified Catalog теперь first-class (preview → GA 2025).
Обработка CDE: CDE = first-class объект. REST API Create Critical Data Element. CDE = named logical container, маппится на много физических колонок (CustID / CID → Customer ID) с политиками, ownership, DQ-правилами. ЕДИНСТВЕННЫЙ вендор с CDE-native примитивом на этом уровне в середине 2025.
Lineage: SQL parser нативно; широкое покрытие Microsoft + cloud источников; multi-cloud lineage зреет.
Governance: Governance domains + workflow нативно в Unified Catalog 2025; DLP + sensitivity labels + Information Protection.
Сильные стороны: CDE-native примитив; Azure-native; включён в M365 E5 частично; интеграция с Copilot.
Слабые стороны: слабее вне Azure estate; multi-cloud lineage зреет; SwiftRide на смеси GCP + AWS + Azure — частичное соответствие.
Соответствие SwiftRide: CDE-как-примитив — уникальная ценность. Если SwiftRide мигрирует существенную нагрузку в Azure (сейчас в основном GCP / AWS — Vertex AI, Snowflake), Purview поднимается в дереве решений. Не приоритет на T0, но мониторить пристально для оценки миграции T+12M.
Microsoft Purview Unified Catalog формализует CDE как first-class объект. По документации Purview:
- CDE = named logical container.
- Маппится на несколько физических колонок (например,
CustID/CID/Customer Identifier→ CDECustomer ID). - Прикреплены: ownership, классификации, DQ-правила, политики.
- REST API:
POST /datamap/api/criticalDataElementscreate;PATCHupdate. - Multi-column маппинг разрешает семантическую эквивалентность — решает проблему кросс-системного дрейфа имени CDE.
Практическая импликация для SwiftRide: если миграция ECL SwiftCapital + аналитики SwiftPay в Azure-стек, примитив CDE Purview становится высокоценным. Multi-column маппинг особенно полезен для несоответствий имён между БЕ (driver_id в Rides vs dr_id в SwiftPay vs D_ID в legacy SwiftCapital).
Матрица сравнения
Rows: vendors grouped by category. Cols: CDE-relevant criteria. Click any cell для rationale + version reference. Default-selected — MS Purview × CDE primitive (highlights CDE-as-primitive uniqueness).
| VENDOR / CRITERION | CDE primitive | Open std | Col lineage | DQ | Evidence | Workflow | AI agents | Policy | Multi-cloud | Pricing | Deploy | Ecosystem |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| OPEN SOURCE | ||||||||||||
| OpenMetadata | ++ | +++ | +++ | +++ | ++ | ++ | ++ | ++ | +++ | +++ | +++ | ++ |
| DataHub | + | +++ | +++ | ++ | + | + | ++ | ++ | +++ | +++ | ++ | +++ |
| Atlas | + | ++ | ++ | + | + | + | · | +++ | + | +++ | + | + |
| ENTERPRISE | ||||||||||||
| Collibra | +++ | ++ | +++ | +++ | +++ | +++ | ++ | +++ | +++ | + | + | +++ |
| Atlan | ++ | +++ | +++ | ++ | ++ | +++ | +++ | ++ | +++ | ++ | +++ | +++ |
| Alation | ++ | ++ | ++ | ++ | ++ | +++ | +++ | ++ | +++ | + | ++ | +++ |
| Informatica | ++ | ++ | +++ | +++ | +++ | +++ | +++ | +++ | +++ | + | + | +++ |
| IBM watsonx | ++ | ++ | +++ | ++ | +++ | +++ | +++ | +++ | ++ | + | + | +++ |
| HYPERSCALER | ||||||||||||
| MS Purview | +++ | ++ | +++ | ++ | ++ | +++ | +++ | +++ | ++ | ++ | +++ | +++ |
Кликните любую ячейку для vendor-specific обоснования + ссылки на версию. По умолчанию выбрана — MS Purview × CDE primitive выделяет уникальность CDE-native.
Глубокий разбор критериев сравнения
CDE как first-class объект vs tag-based
| Вендор | Обработка CDE |
|---|---|
| MS Purview | First-class — REST API Create Critical Data Element; multi-column маппинг. |
| Collibra | Нативный CDE asset type; attachment политик; наиболее близко к first-class. |
| OpenMetadata | Custom property set; задокументированный прескриптивный паттерн. Data contracts нативно v1.12. |
| Atlan, Alation, DataHub, Informatica, IBM | Tag-based или custom asset type; не first-class. |
| Atlas | Classification-based; legacy. |
Почему это важно: first-class CDE-объект получает выделенный UI, выделенный API, выделенную поверхность attachment политик, валидацию схемы на save. Tag-based подход требует custom-tooling overlay для того же результата.
Открытые стандарты (OpenLineage, OpenDataContract, schema.org)
OpenMetadata, DataHub — сильнейшая поддержка OpenLineage. Atlan — OpenLineage нативно. Collibra / Informatica / IBM — частично; проприетарные сканеры основные.
Импликация: поддержка OpenLineage критична для SwiftRide — уже инструментированные пайплайны должны течь в каталог без vendor-specific re-instrumentation.
Lineage на уровне колонок
OpenMetadata + DataHub + Atlan + Informatica + IBM (Manta) — сильнейшие. Atlas + Collibra — средне. Alation — исторически тоньше, но улучшается в 2025.
Интеграция DQ
Collibra DQ — самая глубокая интеграция catalog-DQ (single-vendor stack). OpenMetadata — сильная (data contracts нативно). DataHub — assertions framework. Atlan — DQ Agent + внешняя интеграция. Alation — DQ Agent (GA 2025).
Экспорт доказательств (SOX-grade)
Collibra + Informatica + IBM — enterprise audit trail; глубокая SOX customer base. OpenMetadata + DataHub — API-based экспорт; не turnkey SOX-grade. Atlan + Alation — улучшающиеся evidence-паттерны; vendor cases задокументированы.
Governance workflow (одобрение, аттестация)
Collibra — BPMN-based; наиболее зрелый. Atlan + Alation — современный UX + агенты. OpenMetadata + DataHub — базовый workflow; Collate / DataHub Cloud добавляют более богатые flows в коммерческой версии.
AI-аугментация
Atlan — Atlan AI Studio + Context Agents (Gartner MQ MM 2025 Leader #1 в 2/5 use cases). Alation — Agentic Platform GA Q2 2025. Collibra — AI Governance Center 2025 добавлен. OpenMetadata — Metadata AI SDK 1.12; коммерческий Collate добавляет агентов.
Прозрачность ценообразования
OpenMetadata — OSS бесплатно, Collate коммерчески по запросу. DataHub — OSS бесплатно, Cloud (Acryl) публичная цена на asset. Enterprise-вендоры (Collibra / Atlan / Alation / Informatica / IBM) — quote-based.
Скорость развёртывания
OpenMetadata / Atlan — недели. DataHub / Purview — месяцы. Collibra / Informatica / IBM — обычно 6-12 месяцев.
Дерево решений по тулингу SwiftRide
Состояние T0 SwiftRide:
- OpenMetadata 1.x уже развёрнут; adoption ~30%.
- OpenLineage инструментирован частично.
- Стек Vertex AI / Snowflake / Databricks основной.
- GRC-тулинг ещё нет (Workiva планируется).
- Ограничены бюджетом (pre-IPO; экономия ресурсов).
Решение T0 → T+3M: OpenMetadata baseline.
- Плюсы: уже развёрнут; OSS бесплатно; OpenLineage нативно; скорость развёртывания; итеративное улучшение.
- Минусы: CDE — custom property, не first-class; продвинутый AI / агенты коммерчески.
- Путь миграции сохранён — схема (M4.5) backend-agnostic.
Соображения T+3M → T+12M:
- Если масштаб реестра превышает мощность OpenMetadata (>500 CDE) — рассмотреть миграцию.
- Если готовность к AI Act — Atlan AI Governance Studio даёт прямую ценность.
- Если суверенитет данных (sourcing ЕС) первичен — Atlan SaaS-EU ИЛИ Collibra on-prem.
Соображения T+12M → T+18M (pre-IPO + post-IPO):
- SOX-grade evidence — reference customers Collibra предпочтительны ИЛИ Informatica для banking heritage.
- Multi-cloud lineage — Purview если миграция в Azure существенная.
- Стоимость — total cost of ownership Collibra / Informatica >$1M / год типично.
Дерево решений по тулингу (упрощённое):
T0 — OpenMetadata baseline (уже развёрнут; итерировать)
├─ Оставаться на OpenMetadata если реестр <500 CDE + adoption достаточный
│ └─ T+12M расширить Collate коммерческим для AI-агентов, если нужно
└─ Мигрировать в enterprise если (a) спрос на SOX-grade evidence,
(b) спрос на маппинг AI Act,
(c) масштаб перерос, ИЛИ
(d) консолидация в Azure
├─ Спрос на SOX + banking heritage → Collibra
├─ Спрос на реестр AI Act → Atlan AI Governance Studio
├─ Спрос на adoption бизнес-пользователями → Alation Agentic
├─ Консолидация в Azure → MS Purview (примитив CDE)
└─ Multi-cloud + on-prem сложность → Informatica CDGC
Рекомендация SwiftRide (T0): OpenMetadata baseline + пристально мониторить эволюцию примитива CDE Purview (кандидат на консолидацию Azure T+12M-T+18M).
Антипаттерны
”Best of breed = best of nothing”
Симптом: OpenMetadata + Collibra + DataHub + Atlan все развёрнуты параллельно — «покрывает все базы».
Почему плохо: ownership неясен; конфликтующий source-of-truth; стоимость интеграции запретительна.
Исправление: один основной каталог; вспомогательные для специфических узких use cases (например, DataHub для инженерных метаданных, OpenMetadata для governance).
Решение по вендору только по отчёту аналитика
Симптом: Решение о покупке Leader по Gartner MQ; нет фактической оценки соответствия.
Исправление: дерево решений — соответствие стеку организации + масштабу + стоимости + зрелости. Позиция аналитика — один сигнал среди многих.
”Подождём, пока появится идеальный каталог”
Симптом: откладывать реестр CDE до 2027, когда «выбор каталога ясен».
Исправление: schema-first (M4.5); backend-agnostic; итерировать.
”MS Purview, потому что Microsoft”
Симптом: дефолтный выбор без фактической оценки; SwiftRide на GCP / AWS со значимыми нагрузками.
Исправление: примитив CDE Purview — сильная ценность, но слаб вне Azure. Не выбирать, если Azure footprint <50% data estate.
”OSS = бесплатно”
Симптом: бюджет предполагает $0 для OpenMetadata.
Почему плохо: OSS — инфраструктура + операции + кастомизация + обслуживание. SwiftRide OpenMetadata 1.x — ~1 FTE операций + $30-50K AWS-инфраструктуры / год.
Исправление: бюджет включает total cost of ownership; OSS ≠ нулевая стоимость.
Итоги
- 9 вендоров × 12 критериев матрица — интерактивный виджет по M4.6.
- CDE-как-примитив — только MS Purview first-class; Collibra ближайший в enterprise tier; остальные tag-based или custom.
- Лидеры Gartner MQ MM 2025: Atlan, Alation, Informatica, IBM, Collibra. Atlan #1 в 2/5 Critical Capabilities.
- Открытые стандарты: OpenLineage сильнейший в OpenMetadata + DataHub + Atlan.
- Evidence-grade SOX: Collibra + Informatica + IBM enterprise; OpenMetadata + DataHub нужен overlay.
- AI-аугментация: Atlan + Alation Agentic — лидеры; Collibra + IBM — следующие; OpenMetadata в коммерческом Collate добавляет.
- Рекомендация SwiftRide T0: OpenMetadata baseline; пристально мониторить примитив CDE Purview (кандидат на консолидацию Azure T+12M+); enterprise-миграция отложена post-IPO Y+1, кроме конкретного триггера.
- Дерево решений: Остаться на OpenMetadata <500 CDE adoption OK → мигрировать в enterprise если спрос на SOX-grade / спрос на AI Act / масштаб перерос / консолидация Azure.
- Антипаттерны: best-of-breed = best-of-nothing; решения только-аналитик; ждать-идеального каталога; MS Purview по умолчанию; заблуждение OSS-=-бесплатно.
- Следующий урок (M4.7): каденс обновления — ежегодное ревью + обновление по триггерам + зрелость от ad-hoc к встроенному SDLC + детектирование устаревших CDE.