Зачем нужна минималка
Когда новичок открывает вакансии DE, технологий в требованиях столько, что можно учить год и так и не выйти на собеседование. Спарк, Кафка, Флинк, Айсберг, Дельта, Дакдб, Снежинка, Бигквери, Редшифт, Эйрфлоу, Дагстер, Префект, ДБТ, Терраформ, Кубернетес, Линукс — список бесконечен.
Реальность: для junior работы знать всё не нужно. Нужно знать базу хорошо, а остальное добирается в работе. Эта лекция — про базу. То есть про то, что должно быть в твоей голове и в руках, чтобы пройти junior-собеседование в 2026.
Запомни принцип: глубина важнее широты для junior. Лучше знать SQL и Python отлично + один cloud / один оркестратор, чем “слышал про Spark, Kafka, Airflow, Snowflake, Databricks” по верхам. На собеседовании джуна валят на знании SQL-windows и базового Python, не на Kafka internals.
Минимальный стек Junior DE (2026)
Семь столпов — необходимый минимум
advancedSQL advanced: joins, window functions, CTE, optimization, EXPLAIN. Это самый частый предмет на собеседованиях DE — больше половины вопросов
средний+Python: pandas, sqlalchemy, requests, базовый OOP. Скрипты для ETL и автоматизации. Не deep ML, не async глубоко — это перебор для джуна
основыGit: branches, merge, rebase, commit messages, PR-review. Без Git в команду не возьмут
основыDocker: запустить контейнер, прочитать Dockerfile, docker-compose для локальной разработки. Не нужно K8s глубоко для junior
один изОдин cloud DWH: Snowflake / BigQuery / Redshift. Выбери один по вакансиям в твоём регионе и освой
один изAirflow или dbt: оркестратор или трансформер. Лучше Airflow для DE; dbt — для AE. Один — обязательно
уверенный пользовательLinux: bash, файловая система, env vars, ssh, базовые команды. Не нужно быть сисадмином, но cd, ls, grep, cat, env — must
этот курсETL/ELT концепции — что куда грузится и в каком порядке. Этот курс уже даёт это
Разберём каждое.
SQL — самый важный навык
В 2026 году SQL продолжает быть главным языком DE. 90% задач включают SQL. На собеседовании джуна 50-70% вопросов — SQL.
Что нужно знать:
- JOIN: INNER / LEFT / RIGHT / FULL OUTER / CROSS. Когда какой. Почему LEFT JOIN … IS NULL — это анти-JOIN.
- Aggregation: COUNT, SUM, AVG, MIN, MAX, GROUP BY, HAVING.
- Window functions: ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER. Это самая частая тема на собеседованиях. Если не уверен — ставь в приоритет.
- CTE: WITH … AS (…). Многократно, multi-level CTE.
- Subqueries: scalar, correlated, EXISTS / NOT EXISTS.
- Set operations: UNION, UNION ALL, INTERSECT, EXCEPT.
- Optimization basics: EXPLAIN, индексы, partition pruning, broadcast vs shuffle joins.
Где учить:
- Книга “SQL Antipatterns” (Bill Karwin) — короткая, мощная.
- StrataScratch / DataLemur / LeetCode SQL — практика на реальных задачах.
- Курс
sql-fundamentalsна этой платформе.
Если у тебя на собеседовании DE спрашивают сложный Python или Spark — это, скорее всего, не junior-собеседование. На junior 80% времени — SQL и архитектура pipeline. Готовься фокусированно.
Python — рабочая лошадка
Python в DE — это не Python в ML и не Python в backend. Нужен:
- Базовый OOP: классы, наследование, методы. Не нужны deep design patterns.
- Стандартная библиотека: datetime, json, csv, pathlib, logging, collections.
- pandas: DataFrame, чтение CSV/JSON/Parquet, GroupBy, merge, фильтры. Главный tool для small-medium-data.
- sqlalchemy или нативные
psycopg2/snowflake-connector: подключение к БД, запросы, transactions. - requests: REST API клиенты.
- pytest: написать простой тест.
- Logging: structured JSON, levels.
Что не нужно для junior:
- Async / await глубоко — встретится позже.
- Сложные design patterns (Factory, Strategy и пр.) — это backend-проблематика.
- Deep ML стек (PyTorch, TF) — это для MLE.
Где учить:
- “Fluent Python” (Luciano Ramalho) — основа.
- pandas документация + Kaggle exercises.
- Open source: читай Airflow DAGs или dbt python-models — там много идиоматичного DE-Python.
Git
Без Git тебя в команду не возьмут — это базовая гигиена. Что нужно:
git clone,git add,git commit,git push,git pull.- Branches: создание, переключение, merge.
- Pull Request / Merge Request workflow.
- Conflict resolution.
git log,git diff,git blame.- Не нужно: глубокий rebase, cherry-pick, reflog — встретится позже.
Docker
В DE Docker — это инфраструктура для локальной разработки и для production-деплоя:
- Что такое контейнер, чем отличается от VM.
docker run,docker build,docker logs.- Простой Dockerfile (FROM python:3.12, COPY, RUN pip install).
docker-compose.yml— поднять локально Postgres + Airflow.
Kubernetes для junior — bonus, не required. Это для middle+.
Cloud DWH — один из
Выбери один и освой:
- Snowflake — самый частый в РФ-международных компаниях. Учебный аккаунт free trial 30 дней.
- BigQuery — Google Cloud, отличная free tier.
- Redshift — AWS, реже но встречается.
Что важно:
- Sandbox / free tier — создать аккаунт, поработать руками.
- SQL-диалект (Snowflake SQL ≠ standard SQL в нюансах).
- Стоимость query (warehouse credits, scan bytes).
- COPY INTO для загрузки данных.
- Time Travel (см. урок 16-04).
Где учить:
- Официальные quickstarts (Snowflake QuickStarts, BigQuery sandbox).
- “Snowflake Cookbook” / “Google Cloud Big Data Cookbook”.
Airflow или dbt
Один из двух — must для DE/AE:
Airflow (DE-fokus)
- DAG, Task, Operator.
- Schedule, catchup, backfill.
- XCom, Context, Templates.
- Retries, SLA, alerts.
- TaskFlow API (декораторы
@task). - LocalExecutor / CeleryExecutor / KubernetesExecutor — на уровне overview.
Где учить:
- Курс
airflow-courseна этой платформе (deep-dive). - Astronomer Academy (бесплатные курсы).
- GitHub examples в
airflow-providers.
dbt (AE-fokus)
- Project structure, models, sources, seeds.
ref(),source(), Jinja basics.- Materializations: view, table, incremental, ephemeral.
- Tests: unique, not_null, accepted_values, relationships.
- Documentation, dbt docs.
Где учить:
- Курс
dbt-fundamentalsна dbt-learning (бесплатно). - jaffle_shop репозиторий — стандартный учебный проект.
Linux
Уровень уверенный пользователь, не сисадмин:
- Bash basics: cd, ls, mv, cp, rm, mkdir, cat, less, grep, find, sed, awk (последние два — туда-сюда).
- Pipes, redirects (
|,>,>>). - Environment variables (export, printenv).
- File permissions (chmod, chown — для понимания).
- SSH, scp.
- Простой shell script.
DE концепции
То, что покрыто этим курсом:
- ETL vs ELT.
- Batch vs streaming.
- OLTP vs OLAP.
- DWH / lake / lakehouse.
- Dimensional modeling.
- Data quality, observability.
- Pipeline patterns (текущий модуль).
Что НЕ учить для Junior
Это типичные timewasters для джуна:
- Spark internals: catalysts, shuffles, broadcast — middle-уровень. На junior спрашивают только что Spark — это distributed compute.
- Kafka deep: consumer groups, partitioning, ISR — middle-уровень.
- Kubernetes deep: DPE / SRE area.
- Glubokiy ML — это для MLE.
- dbt Semantic Layer / dbt Mesh — продвинутые темы.
- Iceberg / Delta / Hudi internals — middle-уровень.
- Database internals deep (BTree, WAL) — interesting но не required.
Главная ошибка джунов — пытаться выучить всё на 30% и ничего на 70%. Лучше глубоко SQL + Python + один оркестратор, чем поверхностно 10 технологий. На собеседовании сразу видно, кто реально работал руками, а кто читал блог.
После Junior: куда углубляться
После 6-12 месяцев работы джуном, по интересам:
- DWH-direction: deep SQL/dbt -> Senior AE -> Architect.
- Pipeline-direction: deep Spark/Kafka -> Senior DE -> Tech Lead.
- Infra-direction: Kubernetes / Terraform -> Data Platform Engineer.
- ML-direction: MLOps, feature stores -> ML Engineer.
Дополнительные углубления — отдельные курсы платформы: airflow-course, spark-course, kafka-course, dbt-course, kubernetes-course, и так далее.
Реалистичный таймлайн
Сколько времени учить с нуля до junior-собеседования:
- С нуля (без программирования вообще): 12-18 месяцев на full-time learning.
- С backend-опытом (Python + SQL): 3-6 месяцев.
- С аналитическим опытом (SQL + Excel): 6-9 месяцев на добивание Python и pipeline-понимания.
- С DS-опытом: 3-6 месяцев на добивание SQL/Airflow/инфраструктуры.
Это медиана. Кто-то быстрее, кто-то медленнее. Главное — не учить теорию, а делать pet-проекты.
Попробуй сам
- Возьми чек-лист выше. Поставь себе оценку (1-5) по каждому пункту. Где 1-2 — это план учёбы на ближайшие 3 месяца.
- Выбери один cloud DWH (Snowflake / BigQuery). Создай free trial. Загрузи небольшой датасет (NYC taxi, GitHub events). Напиши 5 запросов с window functions.
- Решай 1 SQL-задачу в день на StrataScratch или DataLemur. К концу месяца — 30 задач. Это полезнее одной книги.