Learning Platform
Глоссарий Troubleshooting
Урок 15.01 · 14 мин
Продвинутый
ObservabilityOpenTelemetryOpenLineageMarquez

Observability и OpenLineage — обзор модуля

Observability — обязательное требование production Airflow. Модуль покрывает три pillars: metrics (OTel), logs (structured JSON), traces (OTel) — плюс отдельно data lineage через OpenLineage, который стал индустриальным стандартом.

Уроки модуля

#УрокЧто внутри
01Обзор модуляТекущий урок
02Metrics stack — OTel vs StatsDAIP-49 OTel rollout (2.10+), key metrics, cardinality control
03OpenLineage deepProvider 2.6+, automatic emission для SQL operators, Marquez backend, event format
04Custom extractorsBaseExtractor interface, S3→Snowflake example, entry_points registration
05Distributed tracingOTel spans DAG → task → DB query, Tempo/Jaeger integration
06Remote loggingS3/GCS/Azure/ES/CloudWatch, DB log handler как antipattern
07Grafana dashboards + alertingTop 12 production charts с PromQL, 8 alerts с runbooks, SLO definitions

OpenTelemetry stack (AIP-49)

Полный stack metrics + traces + logs:

[metrics]
otel_on = True
otel_host = otel-collector
otel_port = 4317
otel_prefix = airflow

Ключевые metrics:

  • scheduler.scheduler_loop_duration
  • executor.open_slots
  • executor.queued_tasks
  • dag_processing.total_parse_time
  • triggerer.running_triggers

OpenLineage — индустриальный стандарт

Provider apache-airflow-providers-openlineage автоматически эмитит OL events:

[openlineage]
transport = {"type":"http","url":"http://marquez:5000"}
namespace = production

Что эмитируется автоматически:

  • SQL operators (PostgresOperator, SQLOperator) — SQL text, parsed sources/destinations
  • S3 operators — bucket/key as datasets
  • Spark/dbt operators — через runtime hooks
  • Custom operators — через extractors

Backends-приёмники: Marquez (Apache), DataHub, Atlan, OpenMetadata, AWS SageMaker Lineage.

Killer demo

Запустить marquez-local в docker-compose, прогнать ETL DAG → увидеть полный lineage граф автоматически без единой строки lineage code. Это game-changer для data governance compliance.

Killer takeaway

OpenLineage = OpenTelemetry для data. С 2024 стал de-facto стандарт. Если ваша compliance/governance/data discovery требует lineage — Airflow + OL provider закрывает это бесплатно. Не нужно покупать commercial lineage tools.

Связи

  • Модуль 12 (Plugins/Listeners) — OL provider использует Listener API
  • Модуль 17 (Patterns) — design patterns с OL в виду
  • Модуль 15 (Production) — Marquez deployment в HA

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 7