Learning Platform
Глоссарий Troubleshooting
Урок 01.03 · 10 мин
Начальный
PrerequisitesToolsSetup

Пререквизиты

Необходимые знания

SQL (уверенный уровень)

Вы должны свободно писать SELECT с JOIN, GROUP BY, оконными функциями. Многие примеры в курсе используют SQL для демонстрации того, как формат влияет на выполнение запросов.

Python (базовый уровень)

Практические примеры используют Python для чтения/записи файлов в разных форматах. Достаточно понимать:

  • Работа с файлами (open, read, write)
  • Основные структуры данных (dict, list)
  • Установка пакетов через pip

Data Engineering (базовые концепции)

Курс предполагает, что вы понимаете:

  • Разницу между OLTP и OLAP
  • Что такое ETL/ELT pipeline
  • Базовые концепции Data Lake и Data Warehouse
  • Понятие партиционирования данных
NOTE

Если вы не уверены в DE-фундаменте — рекомендуем сначала пройти курс «System Design для Data Engineer» на этой платформе.

Рекомендуемые инструменты

DuckDB CLI

DuckDB — встроенный аналитический движок, который умеет читать Parquet, ORC, CSV, JSON без внешних зависимостей. Мы используем его для быстрых экспериментов с форматами.

# macOS
brew install duckdb

# Linux
curl -LO https://github.com/duckdb/duckdb/releases/latest/download/duckdb_cli-linux-amd64.zip
unzip duckdb_cli-linux-amd64.zip

Docker

Некоторые практические задания используют Docker для запуска Spark, Trino или MinIO. Установите Docker Desktop или Docker Engine.

Python 3.10+

# Проверить версию
python3 --version

# Основные пакеты (установим по мере необходимости в уроках)
pip install pyarrow pandas duckdb
TIP

Не нужно устанавливать всё сразу. Каждый модуль содержит инструкции по установке необходимых инструментов. DuckDB — единственный инструмент, который понадобится с первого модуля.

Что НЕ требуется

  • Spark — понимание Spark полезно, но не обязательно. Все концепции объясняются engine-agnostic
  • Облачный аккаунт — все примеры работают локально
  • Hadoop — курс не требует знания HDFS или Hadoop ecosystem
  • JVM/Java — хотя многие форматы написаны на Java, мы работаем через Python API

Закончили урок?

Отметьте его как пройденный, чтобы отслеживать свой прогресс

Войдите чтобы оценить урок

Прогресс модуля
0 из 3