Learning Platform
Глоссарий Troubleshooting
Урок 03.04 · 25 мин
Начальный
MDSSnowflakedbtFivetranAirflow

Ландшафт инструментов 2026

Открой любую вакансию DE — ты увидишь 15-20 названий инструментов, и сразу непонятно, что важно, что нет. Этот урок — карта современного ландшафта. После него ты сможешь разложить любую вакансию или architecture diagram по полочкам.

Главная идея: инструменты группируются по слоям. Каждый слой решает свою задачу.


Modern Data Stack — пять слоёв

Modern Data Stack: пять слоёв
Источники (Salesforce, Postgres, Stripe, Kafka)
1. Ingestion (Fivetran, Airbyte, dlt)
2. Storage (Snowflake, BigQuery, Databricks)
3. Transform (dbt, Spark)
4. Orchestration (Airflow, Dagster, Prefect)
5. Data Quality (Great Expectations, Monte Carlo)
Потребители (BI, ML, Reverse ETL)

Слои независимы: ты выбираешь инструмент на каждый слой отдельно. Snowflake можно сочетать с Airbyte/dbt/Airflow или с Fivetran/dbt/Dagster — комбинации произвольные.


Слой 1: Ingestion

Задача: Достать данные из источников и положить их в DWH/Lake.

Ingestion-инструменты
Fivetran
Airbyte
dlt
Debezium + Kafka
Custom Python в Airflow
Estuary / Striim

Тренд 2026: ELT через готовые инструменты (Fivetran/Airbyte) — для типовых SaaS-источников. Custom-код — только когда нет коннектора. CDC через Debezium — для real-time.


Слой 2: Storage

Задача: Хранить и обслуживать аналитические запросы.

Storage-варианты
Snowflake
BigQuery
Databricks
ClickHouse
Redshift
Lakehouse: Iceberg/Delta

Что выбрать новичку? Узнай, на чём работает компания, куда идёшь. В 2026 году большая тройка — Snowflake, BigQuery, Databricks — занимает 70%+ рынка. Иногда добавляется ClickHouse для real-time или Redshift в AWS-shop’ах.

Углубление — в наш clickhouse-course (для ClickHouse) и в планируемые курсы по Snowflake / BigQuery.

ClickHouse: open-source OLAP для real-time аналитики

Слой 3: Transform

Задача: Превратить сырые данные (raw) в моделированные (clean, ready-for-BI).

Transform-инструменты
dbt (data build tool)
Apache Spark
SQLMesh
Streaming: Flink, Materialize

Главное: в MDS трансформации идут внутри DWH через dbt. Spark — для специальных случаев. Streaming — для real-time.

dbt vs SQL-скрипты, Spark и Airflow: когда что

Слой 4: Orchestration

Задача: Запускать всё это в правильном порядке, по расписанию, с алертами.

Orchestration-инструменты
Apache Airflow
Dagster
Prefect
Mage / Kestra
Argo Workflows
dbt Cloud + GitHub Actions

Что учить новичку? Airflow — на 80% вакансий его требуют. Dagster и Prefect — знать о существовании.

Airflow изнутри: Scheduler, Executor, Metadata DB

Слой 5: Data Quality

Задача: Чтобы данные не сломались в проде незаметно.

Data Quality инструменты
Great Expectations
dbt tests
Monte Carlo
Soda

Серверы и инфраструктура (поперёк всех слоёв)

  • Docker и Kubernetes — деплой инструментов. Углубление: kubernetes-course.
  • Terraform — IaC для облака.
  • Git и GitHub Actions — версионирование и CI/CD.
  • Cost monitoring — Snowflake/BigQuery считают cents за query, нужно следить.

Что важно понимать о ландшафте

TIP

Не пытайся выучить все инструменты сразу. В реальной работе ты будешь использовать 3-5 одновременно. Выбери стек и углубляйся: например, «Airflow + dbt + Snowflake» — это уже джуниор-DE, готовый к рынку.

Ландшафт быстро меняется. Каждые 2-3 года появляется новый «обязательный» инструмент (dbt в 2018, Dagster в 2021, Iceberg в 2024). Но концепции (ingestion, storage, transform) — стабильны. Понимай концепции, и любой новый инструмент впишешь за неделю.


Попробуй сам

  1. Открой архитектурный диаграмм любой компании (Airbnb, Uber, Spotify публикуют свои стеки в blog’ах). Разложи их инструменты по 5 слоям из этого урока. Что у них как у MDS, что отличается?
  2. Зайди на сайт modernanalystackeven.com или modern-data-stack.io (если они живы). Сравни 20 инструментов в категории «orchestration» — какие 3 самые популярные и почему?
Проверка знанийKnowledge check
Почему в Modern Data Stack центральным слоем является именно cloud DWH (Snowflake, BigQuery, Databricks), а не оркестратор или ingestion-инструмент?
ОтветAnswer
Cloud DWH — это центр, потому что он объединяет два ресурса, которые раньше были разделены: дешёвое неограниченное хранилище (S3-под-капотом) и эластичный compute (поднимаешь warehouse — считаешь — гасишь). Это позволяет грузить туда сырые данные без премутавры (ELT вместо ETL), хранить историю, и через SQL делать любые трансформации. Все остальные инструменты MDS строятся вокруг этой центральной идеи: Fivetran грузит сырое в DWH, dbt трансформирует внутри DWH, Looker читает финальные модели из DWH. Если бы DWH был дорогим и слабым (как в эпоху Teradata), пришлось бы трансформировать снаружи (ETL) и держать пайплайны сложнее. Дешёвый эластичный DWH делает архитектуру простой: «грузи всё в центр, считай внутри». Оркестратор и ingestion — важные, но утилитарные роли вокруг центра.

Проверьте понимание

Результат: 0 из 0
Аналитический
Вопрос 1 из 5. Что является центральным слоем Modern Data Stack, вокруг которого строятся остальные инструменты?

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 5