Ландшафт инструментов 2026
Открой любую вакансию DE — ты увидишь 15-20 названий инструментов, и сразу непонятно, что важно, что нет. Этот урок — карта современного ландшафта. После него ты сможешь разложить любую вакансию или architecture diagram по полочкам.
Главная идея: инструменты группируются по слоям. Каждый слой решает свою задачу.
Modern Data Stack — пять слоёв
Слои независимы: ты выбираешь инструмент на каждый слой отдельно. Snowflake можно сочетать с Airbyte/dbt/Airflow или с Fivetran/dbt/Dagster — комбинации произвольные.
Слой 1: Ingestion
Задача: Достать данные из источников и положить их в DWH/Lake.
Тренд 2026: ELT через готовые инструменты (Fivetran/Airbyte) — для типовых SaaS-источников. Custom-код — только когда нет коннектора. CDC через Debezium — для real-time.
Слой 2: Storage
Задача: Хранить и обслуживать аналитические запросы.
Что выбрать новичку? Узнай, на чём работает компания, куда идёшь. В 2026 году большая тройка — Snowflake, BigQuery, Databricks — занимает 70%+ рынка. Иногда добавляется ClickHouse для real-time или Redshift в AWS-shop’ах.
Углубление — в наш clickhouse-course (для ClickHouse) и в планируемые курсы по Snowflake / BigQuery.
Слой 3: Transform
Задача: Превратить сырые данные (raw) в моделированные (clean, ready-for-BI).
Главное: в MDS трансформации идут внутри DWH через dbt. Spark — для специальных случаев. Streaming — для real-time.
dbt vs SQL-скрипты, Spark и Airflow: когда чтоСлой 4: Orchestration
Задача: Запускать всё это в правильном порядке, по расписанию, с алертами.
Что учить новичку? Airflow — на 80% вакансий его требуют. Dagster и Prefect — знать о существовании.
Airflow изнутри: Scheduler, Executor, Metadata DBСлой 5: Data Quality
Задача: Чтобы данные не сломались в проде незаметно.
Серверы и инфраструктура (поперёк всех слоёв)
- Docker и Kubernetes — деплой инструментов. Углубление:
kubernetes-course. - Terraform — IaC для облака.
- Git и GitHub Actions — версионирование и CI/CD.
- Cost monitoring — Snowflake/BigQuery считают cents за query, нужно следить.
Что важно понимать о ландшафте
Не пытайся выучить все инструменты сразу. В реальной работе ты будешь использовать 3-5 одновременно. Выбери стек и углубляйся: например, «Airflow + dbt + Snowflake» — это уже джуниор-DE, готовый к рынку.
Ландшафт быстро меняется. Каждые 2-3 года появляется новый «обязательный» инструмент (dbt в 2018, Dagster в 2021, Iceberg в 2024). Но концепции (ingestion, storage, transform) — стабильны. Понимай концепции, и любой новый инструмент впишешь за неделю.
Попробуй сам
- Открой архитектурный диаграмм любой компании (Airbnb, Uber, Spotify публикуют свои стеки в blog’ах). Разложи их инструменты по 5 слоям из этого урока. Что у них как у MDS, что отличается?
- Зайди на сайт modernanalystackeven.com или modern-data-stack.io (если они живы). Сравни 20 инструментов в категории «orchestration» — какие 3 самые популярные и почему?