Ландшафт инструментов 2026

Открой любую вакансию DE — ты увидишь 15-20 названий инструментов, и сразу непонятно, что важно, что нет. Этот урок — карта современного ландшафта. После него ты сможешь разложить любую вакансию или architecture diagram по полочкам.

Главная идея: инструменты группируются по слоям. Каждый слой решает свою задачу.

Modern Data Stack — пять слоёв

Modern Data Stack: пять слоёв

Источники (Salesforce, Postgres, Stripe, Kafka)

1. Ingestion (Fivetran, Airbyte, dlt)

2. Storage (Snowflake, BigQuery, Databricks)

3. Transform (dbt, Spark)

4. Orchestration (Airflow, Dagster, Prefect)

5. Data Quality (Great Expectations, Monte Carlo)

Потребители (BI, ML, Reverse ETL)

Слои независимы: ты выбираешь инструмент на каждый слой отдельно. Snowflake можно сочетать с Airbyte/dbt/Airflow или с Fivetran/dbt/Dagster — комбинации произвольные.

Слой 1: Ingestion

Задача: Достать данные из источников и положить их в DWH/Lake.

Ingestion-инструменты

Fivetran

Airbyte

dlt

Debezium + Kafka

Custom Python в Airflow

Estuary / Striim

Тренд 2026: ELT через готовые инструменты (Fivetran/Airbyte) — для типовых SaaS-источников. Custom-код — только когда нет коннектора. CDC через Debezium — для real-time.

Слой 2: Storage

Задача: Хранить и обслуживать аналитические запросы.

Storage-варианты

Snowflake

BigQuery

Databricks

ClickHouse

Redshift

Lakehouse: Iceberg/Delta

Что выбрать новичку? Узнай, на чём работает компания, куда идёшь. В 2026 году большая тройка — Snowflake, BigQuery, Databricks — занимает 70%+ рынка. Иногда добавляется ClickHouse для real-time или Redshift в AWS-shop’ах.

Углубление — в наш clickhouse-course (для ClickHouse) и в планируемые курсы по Snowflake / BigQuery.

ClickHouse: open-source OLAP для real-time аналитики

Слой 3: Transform

Задача: Превратить сырые данные (raw) в моделированные (clean, ready-for-BI).

Transform-инструменты

dbt (data build tool)

Apache Spark

SQLMesh

Streaming: Flink, Materialize

Главное: в MDS трансформации идут внутри DWH через dbt. Spark — для специальных случаев. Streaming — для real-time.

dbt vs SQL-скрипты, Spark и Airflow: когда что

Слой 4: Orchestration

Задача: Запускать всё это в правильном порядке, по расписанию, с алертами.

Orchestration-инструменты

Apache Airflow

Dagster

Prefect

Mage / Kestra

Argo Workflows

dbt Cloud + GitHub Actions

Что учить новичку? Airflow — на 80% вакансий его требуют. Dagster и Prefect — знать о существовании.

Airflow изнутри: Scheduler, Executor, Metadata DB

Слой 5: Data Quality

Задача: Чтобы данные не сломались в проде незаметно.

Data Quality инструменты

Great Expectations

dbt tests

Monte Carlo

Soda

Серверы и инфраструктура (поперёк всех слоёв)

Docker и Kubernetes — деплой инструментов. Углубление: kubernetes-course.
Terraform — IaC для облака.
Git и GitHub Actions — версионирование и CI/CD.
Cost monitoring — Snowflake/BigQuery считают cents за query, нужно следить.

Что важно понимать о ландшафте

TIP

Не пытайся выучить все инструменты сразу. В реальной работе ты будешь использовать 3-5 одновременно. Выбери стек и углубляйся: например, «Airflow + dbt + Snowflake» — это уже джуниор-DE, готовый к рынку.

Ландшафт быстро меняется. Каждые 2-3 года появляется новый «обязательный» инструмент (dbt в 2018, Dagster в 2021, Iceberg в 2024). Но концепции (ingestion, storage, transform) — стабильны. Понимай концепции, и любой новый инструмент впишешь за неделю.

Попробуй сам

Открой архитектурный диаграмм любой компании (Airbnb, Uber, Spotify публикуют свои стеки в blog’ах). Разложи их инструменты по 5 слоям из этого урока. Что у них как у MDS, что отличается?
Зайди на сайт modernanalystackeven.com или modern-data-stack.io (если они живы). Сравни 20 инструментов в категории «orchestration» — какие 3 самые популярные и почему?

Проверка знанийKnowledge check

Почему в Modern Data Stack центральным слоем является именно cloud DWH (Snowflake, BigQuery, Databricks), а не оркестратор или ingestion-инструмент?

ОтветAnswer

Cloud DWH — это центр, потому что он объединяет два ресурса, которые раньше были разделены: дешёвое неограниченное хранилище (S3-под-капотом) и эластичный compute (поднимаешь warehouse — считаешь — гасишь). Это позволяет грузить туда сырые данные без премутавры (ELT вместо ETL), хранить историю, и через SQL делать любые трансформации. Все остальные инструменты MDS строятся вокруг этой центральной идеи: Fivetran грузит сырое в DWH, dbt трансформирует внутри DWH, Looker читает финальные модели из DWH. Если бы DWH был дорогим и слабым (как в эпоху Teradata), пришлось бы трансформировать снаружи (ETL) и держать пайплайны сложнее. Дешёвый эластичный DWH делает архитектуру простой: «грузи всё в центр, считай внутри». Оркестратор и ingestion — важные, но утилитарные роли вокруг центра.