Learning Platform
Глоссарий Troubleshooting
Урок 05.06 · 35 мин
Продвинутый
Data catalog vendorsOpenMetadataCollibraAtlanAlationDataHubMS Purview CDEApache AtlasInformatica CDGCIBM watsonxVendor comparisonTooling decision tree

Введение

Модель данных реестра (M4.5) — schema-agnostic. Бэкенд хранения — решение по вендору. SwiftRide T0 уже имеет частичное внедрение OpenMetadata 1.x; CDO стоит перед решением: продолжать инвестировать в OSS, ИЛИ мигрировать в enterprise (Collibra / Atlan / Alation) для pre-IPO готовности, ИЛИ принять MS Purview (Azure-native + примитив CDE).

Этот урок — глубокое сравнение 9 вендоров против 12 критериев. Дерево решений SwiftRide — open-source baseline + путь миграции в enterprise. Недавний релиз Microsoft Purview — CDE как first-class объект — фундаментально меняет вендорский ландшафт; рассмотрим явно.

Дисклеймер: позиционирование вендоров эволюционирует ежеквартально. Версии верифицированы May 2026 по docs/TOOLING_LANDSCAPE.md. Перепроверьте до решения по тулингу.

Аналитический контекст Gartner / Forrester

Позиционирование вендоров переформировано Nov 2025: Gartner Magic Quadrant for Metadata Management Solutions (категория реинтродуцирована Nov 2025, 15 вендоров).

  • Лидеры: Atlan, Alation, Informatica, IBM watsonx.data Intelligence, Collibra.
  • Ребрендинг категории: «augmented data catalog» → «metadata-anywhere / metadata orchestration».
  • Новые оси отбора: AI-готовность, active metadata, интеграция с агентами.

Forrester Wave Enterprise Data Catalogs Q3 2024: Atlan — Leader.

Сертификации EDM Council CDMC (2025): Informatica IDMC — первое крупное коммерческое предложение, сертифицированное CDMC (Jan 2025).

Глубокий разбор вендоров

Open-source baseline tier

OpenMetadata / Collate

Источник: OSS v1.12.6 (22 Apr 2025); коммерческий Collate.

Обработка CDE: Custom property set на сущности Table; classification + glossary terms. Не first-class-примитив CDE, но прескриптивный паттерн задокументирован. v1.12 добавила data contracts native (формальный CDE-style commitment между producers и consumers).

Lineage: На уровне колонок через SQL parsing + события OpenLineage + dbt-артефакты. v1.12 — Metadata AI SDK.

DQ: “Shift Left” DQ as code (1.11+); нативные data-quality тесты; интеграция с GE / Soda.

Сильные стороны: OSS бесплатно; нативные DQ + contracts; OpenLineage нативно; 90+ коннекторов; SwiftRide уже частично развёрнут.

Слабые стороны: меньшая экосистема, чем у коммерческих Atlan / Collibra; продвинутые AI-агенты только в коммерческом Collate; CDE — custom property, не first-class.

Соответствие SwiftRide: baseline. T0-T+3M реестр построен на OpenMetadata + custom property set + YAML mirror.

DataHub / DataHub Cloud

Источник: OSS v1.5.0.x (May 2025). Коммерческий DataHub Cloud (ранее Acryl).

Обработка CDE: Tags + glossary terms + custom aspects. Дорожная карта 2025 — Universal Data Registry + Centralized Compliance + Policy Enforcement.

Lineage: На уровне колонок через SQL parsing + интеграции (Airflow, dbt, Spark); улучшается в 1.5.x.

Сильные стороны: OSS, расширяемый, сильная инженерная аудитория; большое сообщество.

Слабые стороны: governance workflows менее отполированы, чем у Collibra; CDE — custom; операционная сложность (Kafka + ES + MySQL бэкенд).

Соответствие SwiftRide: альтернатива OSS. Более сильный технический бэкенд; более слабый governance workflow. Не рекомендуется переключаться с OpenMetadata посреди внедрения.

Apache Atlas

Источник: v2.4.0 (Jan 2025), v2.5 в полёте.

Обработка CDE: Classifications + glossary terms; tag propagation сильное (исторический козырь).

Lineage: Hive на уровне колонок; SQL-based источники ограничены.

Сильные стороны: Нативная интеграция с Ranger; tag propagation; OSS бесплатно.

Слабые стороны: Hadoop / Hortonworks / CDP-центричен; снижающаяся скорость; legacy-операционный профиль (HBase + Solr); нет AI-агентов.

Соответствие SwiftRide: Не применимо. Стек SwiftRide — Snowflake + Databricks (не Hadoop); Atlas — legacy для Hortonworks shops.

Enterprise tier

Collibra Platform + DQ + Protect

Источник: Platform 2025.02 (Feb 2025), 2025.06 (June 2025). DQ 2025.03 (Java 8/11 последняя). Collibra Protect для access policy.

Обработка CDE: Нативный CDE asset type с прикреплением политик, связью с бизнес-глоссарием, привязкой DQ. End-to-end CDE-first дизайн.

Lineage: Collibra Lineage (ранее Lineage Harvester); тщательный enterprise lineage.

DQ: Collibra DQ (ранее OwlDQ) — адаптивные правила, outliers, source-to-target; самая глубокая интеграция catalog-DQ.

Governance workflow: BPMN-based workflow engine; многоэтапное одобрение; role-based sign-off зрелый.

Сильные стороны: end-to-end CDE-first; SOX-grade evidence reference customer base; Collibra Protect tag-based enforcement access policy.

Слабые стороны: enterprise sales / quote-based pricing; total cost of ownership высокий; внедрение 6-12 месяцев; миграция Java 8/11 → 17 churn.

Соответствие SwiftRide: кандидат для post-IPO enterprise-миграции (T+18M+). Преждевременная инвестиция на T0.

Atlan

Источник: SaaS, еженедельная каденция; Gartner MQ MM 2025 Leader; #1 в 2 из 5 Critical Capabilities use cases.

Обработка CDE: Custom asset type; менее прескриптивный, чем Collibra. Governance Studio — сильное управление governed-terms. AI Governance Studio — маппит assets к EU AI Act.

Lineage: На уровне колонок SQL parser нативно; современный UX best-in-class.

AI-аугментация: Atlan AI co-pilot; Context Agents автоклассифицируют (PII detection автоматически); MCP server для доступа агентов.

Сильные стороны: короткое время до результата (недели); современный UX продвигает adoption; нативный маппинг AI Act; OpenLineage нативно.

Слабые стороны: только SaaS (ограничения суверенитета данных в ЕС); ценообразование quote-based.

Соответствие SwiftRide: кандидат на миграцию T+12M+ если масштаб перерастёт OpenMetadata. Поддержка реестра AI Act — прямая ценность для готовности к EU AI Act 2 Aug 2026.

Alation Agentic Platform

Источник: 2025.1 (Q1), 2025.3 (середина 2025); Agentic Data Intelligence Platform GA Q2 2025; AI Agent SDK с поддержкой Anthropic MCP.

Обработка CDE: Бизнес-глоссарий + governance-атрибуты; не first-class-примитив.

AI: Documentation Agent, DQ Agent, Data Products Builder Agent (GA Q3 2025); Aggregated Context API.

Сильные стороны: adoption бизнес-пользователями сильный; stewardship workflows отполированы; AI-агенты продуктивны.

Слабые стороны: lineage исторически тоньше, чем у Collibra / Manta; enterprise sales.

Соответствие SwiftRide: альтернатива Atlan. Сильный UX для бизнес-пользователей; агентные фичи. Сравнимое рассмотрение с Atlan T+12M+.

Informatica CDGC (IDMC)

Источник: IDMC release trains Feb / Apr / Jul / Nov 2025; CDMC-сертифицирован Jan 2025.

Обработка CDE: CDE через Axon data sets / governance scenarios; не нативный примитив, но зрелый паттерн.

Lineage: Самая глубокая экосистема сканеров; Manta-style статический анализ; SQL + хранимые процедуры + ETL XML extraction.

Сильные стороны: наследие в регулируемых отраслях; CDMC-сертифицирован (Jan 2025); самая глубокая экосистема сканеров.

Слабые стороны: сложное лицензирование; legacy on-prem EDC end-of-life messaging; типично 6-12 месяцев внедрения.

Соответствие SwiftRide: банковское наследие; кандидат на post-IPO масштаб SwiftCapital. Преждевременно на T0.

IBM watsonx.data Intelligence

Источник: Ребрендинг 2024-2025; включает ex-Manta lineage; Gartner MQ MM 2025 Leader.

Обработка CDE: Бизнес-глоссарий + CDE-style критичное теггирование данных; не отдельный примитив.

Lineage: Manta приобретена 2023; на уровне колонок + transformation-logic extraction глубоко.

Сильные стороны: enterprise governance + AI tie-in; глубокая Manta lineage; глубина banking / insurance.

Слабые стороны: сложное лицензирование; on-prem Cloud Pak overhead; multi-cloud lineage зреет.

Соответствие SwiftRide: Не выравнено. SwiftRide стартует с Vertex AI / Snowflake / Databricks; IBM watsonx — IBM Cloud first.

Hyperscaler tier

Microsoft Purview Unified Catalog

Источник: Постоянно обновляемый SaaS; примитив CDE в Unified Catalog теперь first-class (preview → GA 2025).

Обработка CDE: CDE = first-class объект. REST API Create Critical Data Element. CDE = named logical container, маппится на много физических колонок (CustID / CIDCustomer ID) с политиками, ownership, DQ-правилами. ЕДИНСТВЕННЫЙ вендор с CDE-native примитивом на этом уровне в середине 2025.

Lineage: SQL parser нативно; широкое покрытие Microsoft + cloud источников; multi-cloud lineage зреет.

Governance: Governance domains + workflow нативно в Unified Catalog 2025; DLP + sensitivity labels + Information Protection.

Сильные стороны: CDE-native примитив; Azure-native; включён в M365 E5 частично; интеграция с Copilot.

Слабые стороны: слабее вне Azure estate; multi-cloud lineage зреет; SwiftRide на смеси GCP + AWS + Azure — частичное соответствие.

Соответствие SwiftRide: CDE-как-примитив — уникальная ценность. Если SwiftRide мигрирует существенную нагрузку в Azure (сейчас в основном GCP / AWS — Vertex AI, Snowflake), Purview поднимается в дереве решений. Не приоритет на T0, но мониторить пристально для оценки миграции T+12M.

Microsoft Purview Unified CatalogvCDE primitive GA 20252026-05

Microsoft Purview Unified Catalog формализует CDE как first-class объект. По документации Purview:

  • CDE = named logical container.
  • Маппится на несколько физических колонок (например, CustID / CID / Customer Identifier → CDE Customer ID).
  • Прикреплены: ownership, классификации, DQ-правила, политики.
  • REST API: POST /datamap/api/criticalDataElements create; PATCH update.
  • Multi-column маппинг разрешает семантическую эквивалентность — решает проблему кросс-системного дрейфа имени CDE.

Практическая импликация для SwiftRide: если миграция ECL SwiftCapital + аналитики SwiftPay в Azure-стек, примитив CDE Purview становится высокоценным. Multi-column маппинг особенно полезен для несоответствий имён между БЕ (driver_id в Rides vs dr_id в SwiftPay vs D_ID в legacy SwiftCapital).

Матрица сравнения

Catalog vendor matrix — 9 vendors × 12 criteria

Rows: vendors grouped by category. Cols: CDE-relevant criteria. Click any cell для rationale + version reference. Default-selected — MS Purview × CDE primitive (highlights CDE-as-primitive uniqueness).

+++Strong
++Moderate
+Weak
·None
VENDOR / CRITERIONCDE primitiveOpen stdCol lineageDQEvidenceWorkflowAI agentsPolicyMulti-cloudPricingDeployEcosystem
OPEN SOURCE
OpenMetadata++++++++++++++++++++++++++++++
DataHub++++++++++++++++++++++++++
Atlas++++++++·+++++++++
ENTERPRISE
Collibra++++++++++++++++++++++++++++++
Atlan+++++++++++++++++++++++++++++++
Alation+++++++++++++++++++++++++++
Informatica++++++++++++++++++++++++++++++
IBM watsonx++++++++++++++++++++++++++++
HYPERSCALER
MS Purview+++++++++++++++++++++++++++++++
Microsoft Purview Unified Catalog × CDE as first-class object
STRONG
SaaS (CDE GA 2025) · Поддерживает ли каталог CDE как явный тип объекта (а не tag / custom property)?
**CDE FIRST-CLASS OBJECT** в Unified Catalog (preview→GA 2025). REST API `Create Critical Data Element`. CDE = named logical container mapped к many physical columns (`CustID` / `CID` → `Customer ID`) с policies, ownership, DQ rules. ЕДИНСТВЕННЫЙ vendor с CDE-native primitive на этом уровне.

Кликните любую ячейку для vendor-specific обоснования + ссылки на версию. По умолчанию выбрана — MS Purview × CDE primitive выделяет уникальность CDE-native.

Глубокий разбор критериев сравнения

CDE как first-class объект vs tag-based

ВендорОбработка CDE
MS PurviewFirst-class — REST API Create Critical Data Element; multi-column маппинг.
CollibraНативный CDE asset type; attachment политик; наиболее близко к first-class.
OpenMetadataCustom property set; задокументированный прескриптивный паттерн. Data contracts нативно v1.12.
Atlan, Alation, DataHub, Informatica, IBMTag-based или custom asset type; не first-class.
AtlasClassification-based; legacy.

Почему это важно: first-class CDE-объект получает выделенный UI, выделенный API, выделенную поверхность attachment политик, валидацию схемы на save. Tag-based подход требует custom-tooling overlay для того же результата.

Открытые стандарты (OpenLineage, OpenDataContract, schema.org)

OpenMetadata, DataHub — сильнейшая поддержка OpenLineage. Atlan — OpenLineage нативно. Collibra / Informatica / IBM — частично; проприетарные сканеры основные.

Импликация: поддержка OpenLineage критична для SwiftRide — уже инструментированные пайплайны должны течь в каталог без vendor-specific re-instrumentation.

Lineage на уровне колонок

OpenMetadata + DataHub + Atlan + Informatica + IBM (Manta) — сильнейшие. Atlas + Collibra — средне. Alation — исторически тоньше, но улучшается в 2025.

Интеграция DQ

Collibra DQ — самая глубокая интеграция catalog-DQ (single-vendor stack). OpenMetadata — сильная (data contracts нативно). DataHub — assertions framework. Atlan — DQ Agent + внешняя интеграция. Alation — DQ Agent (GA 2025).

Экспорт доказательств (SOX-grade)

Collibra + Informatica + IBM — enterprise audit trail; глубокая SOX customer base. OpenMetadata + DataHub — API-based экспорт; не turnkey SOX-grade. Atlan + Alation — улучшающиеся evidence-паттерны; vendor cases задокументированы.

Governance workflow (одобрение, аттестация)

Collibra — BPMN-based; наиболее зрелый. Atlan + Alation — современный UX + агенты. OpenMetadata + DataHub — базовый workflow; Collate / DataHub Cloud добавляют более богатые flows в коммерческой версии.

AI-аугментация

Atlan — Atlan AI Studio + Context Agents (Gartner MQ MM 2025 Leader #1 в 2/5 use cases). Alation — Agentic Platform GA Q2 2025. Collibra — AI Governance Center 2025 добавлен. OpenMetadata — Metadata AI SDK 1.12; коммерческий Collate добавляет агентов.

Прозрачность ценообразования

OpenMetadata — OSS бесплатно, Collate коммерчески по запросу. DataHub — OSS бесплатно, Cloud (Acryl) публичная цена на asset. Enterprise-вендоры (Collibra / Atlan / Alation / Informatica / IBM) — quote-based.

Скорость развёртывания

OpenMetadata / Atlan — недели. DataHub / Purview — месяцы. Collibra / Informatica / IBM — обычно 6-12 месяцев.

Дерево решений по тулингу SwiftRide

Состояние T0 SwiftRide:

  • OpenMetadata 1.x уже развёрнут; adoption ~30%.
  • OpenLineage инструментирован частично.
  • Стек Vertex AI / Snowflake / Databricks основной.
  • GRC-тулинг ещё нет (Workiva планируется).
  • Ограничены бюджетом (pre-IPO; экономия ресурсов).

Решение T0 → T+3M: OpenMetadata baseline.

  • Плюсы: уже развёрнут; OSS бесплатно; OpenLineage нативно; скорость развёртывания; итеративное улучшение.
  • Минусы: CDE — custom property, не first-class; продвинутый AI / агенты коммерчески.
  • Путь миграции сохранён — схема (M4.5) backend-agnostic.

Соображения T+3M → T+12M:

  • Если масштаб реестра превышает мощность OpenMetadata (>500 CDE) — рассмотреть миграцию.
  • Если готовность к AI Act — Atlan AI Governance Studio даёт прямую ценность.
  • Если суверенитет данных (sourcing ЕС) первичен — Atlan SaaS-EU ИЛИ Collibra on-prem.

Соображения T+12M → T+18M (pre-IPO + post-IPO):

  • SOX-grade evidence — reference customers Collibra предпочтительны ИЛИ Informatica для banking heritage.
  • Multi-cloud lineage — Purview если миграция в Azure существенная.
  • Стоимость — total cost of ownership Collibra / Informatica >$1M / год типично.

Дерево решений по тулингу (упрощённое):

T0 — OpenMetadata baseline (уже развёрнут; итерировать)
  ├─ Оставаться на OpenMetadata если реестр <500 CDE + adoption достаточный
  │   └─ T+12M расширить Collate коммерческим для AI-агентов, если нужно
  └─ Мигрировать в enterprise если (a) спрос на SOX-grade evidence,
                                    (b) спрос на маппинг AI Act,
                                    (c) масштаб перерос, ИЛИ
                                    (d) консолидация в Azure
      ├─ Спрос на SOX + banking heritage → Collibra
      ├─ Спрос на реестр AI Act → Atlan AI Governance Studio
      ├─ Спрос на adoption бизнес-пользователями → Alation Agentic
      ├─ Консолидация в Azure → MS Purview (примитив CDE)
      └─ Multi-cloud + on-prem сложность → Informatica CDGC

Рекомендация SwiftRide (T0): OpenMetadata baseline + пристально мониторить эволюцию примитива CDE Purview (кандидат на консолидацию Azure T+12M-T+18M).

Проверка знанийKnowledge check
CFO SwiftRide спрашивает на T+6M: «Quote Collibra $1.4M / год + $800K внедрение; OpenMetadata сейчас бесплатно, но ограничен. Big 4 reviewer упомянул, что reference customers Collibra предпочтительны для SOX. Купим Collibra сразу — pre-IPO инвестиция имеет смысл». По M4.6 + защитимости стоимости, какой ответ CDO?
ОтветAnswer
По дереву решений M4.6 — преждевременное вложение. (1) Валидация необходимости: Требуется ли SOX-grade evidence на T+6M или достаточно YAML / OpenMetadata + S3 immutable evidence storage (паттерн reference customer Collibra не уникален — паттерн воспроизводим OSS)? (2) Time-line: внедрение Collibra 6-12 месяцев — даже если подписано T+6M, не операционно до T+12M-T+18M (близко к целевому IPO T+18M). Риск: параллельные реестры T+6M-T+18M = двойная система + риск миграции. (3) Стоимость: $2.2M T0-T+12M front-loaded не выровнено с pre-IPO экономией наличности; аллоцировать на forced controls + операционные базовые доказательства (M5+M7) сначала; отложить миграцию платформы реестра на post-IPO Y+1. (4) Альтернативный путь защитим: (a) Продолжать OpenMetadata; (b) Построить evidence pipeline OpenLineage + S3 + Splunk = SOX-grade паттерн задокументирован; (c) Переоценить Collibra Y+1 + post-IPO как только масштаб 50+ CDE → 200+ + бюджет высвобожден. (5) Подход к Big 4: «Walk through our evidence stack» — продемонстрировать паттерн, эквивалентный reference customers Collibra без vendor lock-in. (6) Действие: совместная заметка CDO + CFO в Audit Committee — отложить Collibra; бюджет аллоцирован на (a) контроли операционно; (b) завершение инструментации lineage; (c) evidence pipeline; (d) зрелый реестр на OpenMetadata. Y+1 переоценить. (7) Документация решения: защитимый cost-benefit; reviewer-аудитор удовлетворён, если паттерн эквивалентен.

Антипаттерны

”Best of breed = best of nothing”

Симптом: OpenMetadata + Collibra + DataHub + Atlan все развёрнуты параллельно — «покрывает все базы».

Почему плохо: ownership неясен; конфликтующий source-of-truth; стоимость интеграции запретительна.

Исправление: один основной каталог; вспомогательные для специфических узких use cases (например, DataHub для инженерных метаданных, OpenMetadata для governance).

Решение по вендору только по отчёту аналитика

Симптом: Решение о покупке Leader по Gartner MQ; нет фактической оценки соответствия.

Исправление: дерево решений — соответствие стеку организации + масштабу + стоимости + зрелости. Позиция аналитика — один сигнал среди многих.

”Подождём, пока появится идеальный каталог”

Симптом: откладывать реестр CDE до 2027, когда «выбор каталога ясен».

Исправление: schema-first (M4.5); backend-agnostic; итерировать.

”MS Purview, потому что Microsoft”

Симптом: дефолтный выбор без фактической оценки; SwiftRide на GCP / AWS со значимыми нагрузками.

Исправление: примитив CDE Purview — сильная ценность, но слаб вне Azure. Не выбирать, если Azure footprint <50% data estate.

”OSS = бесплатно”

Симптом: бюджет предполагает $0 для OpenMetadata.

Почему плохо: OSS — инфраструктура + операции + кастомизация + обслуживание. SwiftRide OpenMetadata 1.x — ~1 FTE операций + $30-50K AWS-инфраструктуры / год.

Исправление: бюджет включает total cost of ownership; OSS ≠ нулевая стоимость.

Итоги

  • 9 вендоров × 12 критериев матрица — интерактивный виджет по M4.6.
  • CDE-как-примитив — только MS Purview first-class; Collibra ближайший в enterprise tier; остальные tag-based или custom.
  • Лидеры Gartner MQ MM 2025: Atlan, Alation, Informatica, IBM, Collibra. Atlan #1 в 2/5 Critical Capabilities.
  • Открытые стандарты: OpenLineage сильнейший в OpenMetadata + DataHub + Atlan.
  • Evidence-grade SOX: Collibra + Informatica + IBM enterprise; OpenMetadata + DataHub нужен overlay.
  • AI-аугментация: Atlan + Alation Agentic — лидеры; Collibra + IBM — следующие; OpenMetadata в коммерческом Collate добавляет.
  • Рекомендация SwiftRide T0: OpenMetadata baseline; пристально мониторить примитив CDE Purview (кандидат на консолидацию Azure T+12M+); enterprise-миграция отложена post-IPO Y+1, кроме конкретного триггера.
  • Дерево решений: Остаться на OpenMetadata <500 CDE adoption OK → мигрировать в enterprise если спрос на SOX-grade / спрос на AI Act / масштаб перерос / консолидация Azure.
  • Антипаттерны: best-of-breed = best-of-nothing; решения только-аналитик; ждать-идеального каталога; MS Purview по умолчанию; заблуждение OSS-=-бесплатно.
  • Следующий урок (M4.7): каденс обновления — ежегодное ревью + обновление по триггерам + зрелость от ad-hoc к встроенному SDLC + детектирование устаревших CDE.
Платформы Data Catalog — обзор экосистемы Основы Data Catalog

Проверьте понимание

Результат: 0 из 0
Аналитический
Вопрос 1 из 4. SwiftRide CFO задаёт CDO в T+6M: «Collibra квот $1.4M / year + $800K implementation; OpenMetadata current free но limited. Big 4 reviewer mentioned Collibra reference customers preferred для SOX. Купим Collibra immediately — pre-IPO investment makes sense». Per M4.6 decision tree + cost-defensibility, какой defensible ответ?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 8