Решение проблем System Design для Data Engineer

Question 1

Lambda Architecture при простом use-case

Accepted Answer

Выбор Lambda Architecture по умолчанию без анализа реальных требований к латентности. Если задержка до нескольких минут допустима, Kappa Architecture с единым streaming-pipeline значительно проще в поддержке. Оцените реальные SLA по латентности: если >1 мин допустимо, Kappa достаточно Если Lambda необходима, вынесите общую бизнес-логику в shared-библиотеку Используйте serving layer (Druid, ClickHouse) для объединения batch и speed результатов Рассмотрите Medallion Architecture как альтернативу с чёткими слоями

Question 2

Монолитный ETL-pipeline без изоляции сбоев

Accepted Answer

Все источники данных обрабатываются в одном монолитном процессе без разделения на независимые единицы. Отсутствует fault isolation — сбой любого этапа каскадирует на весь pipeline. Декомпозируйте pipeline на независимые DAG-задачи по источникам Реализуйте idempotent-операции для безопасного перезапуска отдельных этапов Добавьте circuit breaker между этапами pipeline Используйте оркестратор (Airflow, Dagster) с retry-политиками на уровне задач

Question 3

Прямое чтение аналитики из production OLTP-базы

Accepted Answer

Аналитические запросы выполняются напрямую к production базе вместо создания отдельного аналитического хранилища. OLTP-база оптимизирована для транзакций, не для сканирования больших объёмов данных. Настройте CDC (Debezium, DMS) для репликации данных в аналитическое хранилище Создайте read-replica для аналитических запросов как временное решение Спроектируйте отдельный OLAP-слой (DWH или Lakehouse) для аналитики Определите SLA для свежести данных — часто near-realtime через CDC достаточно

Question 4

Тесная связь (tight coupling) между producer и consumer данных

Accepted Answer

Отсутствие промежуточного слоя абстракции между производителями и потребителями данных. Producer напрямую пишет в таблицу consumer или использует point-to-point интеграцию без event bus. Внедрите event-driven архитектуру с Kafka/Pulsar как промежуточным слоем Определите data contracts (schema registry) между producer и consumer Используйте schema evolution (Avro, Protobuf) для backward-compatible изменений Реализуйте паттерн Reverse ETL для обратной доставки данных в сервисы

Question 5

Full-reload таблиц вместо инкрементальной загрузки

Accepted Answer

Все данные перечитываются и перезаписываются при каждом запуске ETL, потому что не реализован механизм отслеживания изменений (watermark, CDC timestamp, audit columns). Реализуйте incremental load по колонке updated_at или CDC timestamp Используйте MERGE (upsert) вместо полной перезаписи таблицы Настройте partitioning по дате для обработки только новых партиций Рассмотрите CDC как источник инкрементальных изменений

Question 6

Overpartitioning в Data Lake — тысячи мелких файлов

Accepted Answer

Избыточное партиционирование по колонкам с высокой кардинальностью (user_id, timestamp) создаёт тысячи директорий с файлами в несколько килобайт. Overhead метаданных превышает выигрыш от partition pruning. Партиционируйте только по колонкам с низкой кардинальностью (дата, регион) Целевой размер файла: 128 MB – 1 GB для Parquet/ORC Используйте compaction (Iceberg, Delta Lake) для объединения мелких файлов Замените партиционирование на Z-order/Hilbert clustering для multi-dimensional фильтрации

Question 7

Единый формат хранения для всех слоёв Data Lake

Accepted Answer

Все слои Data Lake (Raw, Curated, Serving) используют одинаковый формат без учёта требований каждого слоя. Raw-данные должны сохранять оригинальный формат для аудита, а serving-слой — оптимизированный для чтения. Bronze/Raw: сохраняйте оригинальный формат (JSON, CSV, Avro) as-is Silver/Curated: конвертируйте в колоночный формат (Parquet, ORC) с компрессией Gold/Serving: используйте materialized views или агрегированные таблицы Внедрите table format (Iceberg, Delta) для ACID-транзакций и time travel

Question 8

Игнорирование late data в stream processing

Accepted Answer

Streaming-pipeline использует processing time вместо event time и не настроены watermarks. Данные, поступившие с задержкой (out-of-order events), отбрасываются или попадают в неправильное окно. Переключитесь на event time processing с watermarks Настройте allowed lateness для допуска опоздавших событий Реализуйте side output (dead letter) для событий за пределами watermark Используйте session windows вместо fixed windows для нерегулярного трафика

Question 9

Отсутствие Dead Letter Queue в streaming pipeline

Accepted Answer

Streaming consumer не обрабатывает ошибки десериализации и бизнес-валидации. Сбой на одном сообщении вызывает бесконечный retry или молчаливый skip без сохранения проблемного сообщения. Реализуйте Dead Letter Queue (DLQ) — отдельный topic для ошибочных сообщений Добавьте metadata к DLQ-записям: original topic, partition, offset, error reason Настройте alerting при росте DLQ выше порога Создайте инструмент для replay обработанных DLQ-сообщений после исправления

Question 10

Отсутствие backpressure в streaming pipeline

Accepted Answer

Pipeline не ограничивает скорость потребления при превышении пропускной способности обработки. Отсутствуют механизмы противодавления между источником и обработчиком. Настройте max.poll.records и fetch.max.bytes в Kafka consumer Используйте встроенный backpressure Flink (credit-based flow control) Реализуйте rate limiting на уровне sink-коннектора Мониторьте consumer lag как ключевую метрику здоровья pipeline

Question 11

Star Schema для высокочастотных обновлений

Accepted Answer

Классическая Star Schema оптимизирована для append-only загрузки и read-heavy аналитики. При частых обновлениях (>10K/мин) MERGE-операции на больших fact-таблицах становятся узким местом. Используйте SCD Type 2 для dimension-таблиц вместо UPDATE Рассмотрите append-only модель с версионированием записей Для near-realtime: используйте materialized views поверх streaming-слоя Оцените Data Vault как альтернативу для часто меняющихся источников

Question 12

Один большой data model без слоёв (staging, marts)

Accepted Answer

Отсутствие архитектуры слоёв данных. Все трансформации выполняются в одном шаге — от raw-данных до финальных отчётов. Нет промежуточных staging-таблиц и переиспользуемых data marts. Внедрите Medallion (Bronze → Silver → Gold) или Staging → Marts архитектуру Определите single source of truth для каждой бизнес-метрики в marts-слое Используйте dbt или аналог для управления зависимостями между моделями Документируйте data lineage на уровне каждой таблицы

Question 13

Отсутствие schema evolution strategy

Accepted Answer

Не определена стратегия развития схемы данных. Изменения схемы (добавление, удаление, переименование полей) не управляются централизованно и не поддерживают backward/forward compatibility. Используйте schema registry (Confluent, AWS Glue) для версионирования схем Определите compatibility mode: BACKWARD для consumer, FORWARD для producer Выберите формат с встроенной schema evolution: Avro, Protobuf (не JSON, CSV) Внедрите data contracts с автоматической валидацией при CI/CD

Question 14

Отсутствие data contract между producer и consumer

Accepted Answer

Между командой-производителем данных и командой-потребителем нет формального соглашения о схеме, SLA по свежести и полноте данных. Изменения в upstream-системе никому не сообщаются. Определите data contract: schema, SLA (freshness, completeness), ownership Автоматизируйте валидацию контрактов в CI/CD pipeline Настройте alerting при нарушении контракта (schema drift, SLA breach) Внедрите инструмент управления контрактами (Soda, Great Expectations, Monte Carlo)

Question 15

Отсутствие мониторинга data quality между слоями

Accepted Answer

Data quality проверки отсутствуют или выполняются только на финальном этапе. Между слоями (Raw → Curated → Serving) нет point-of-check валидации — ошибки обнаруживаются слишком поздно. Добавьте DQ-проверки на границе каждого слоя (freshness, completeness, uniqueness) Используйте profiling для установки baseline-метрик и detection anomalий Настройте circuit breaker: блокируйте загрузку в serving-слой при DQ-failure Реализуйте data observability dashboard с историей DQ-метрик

Question 16

Single-node оркестратор для распределённых задач

Accepted Answer

Оркестратор (Airflow, Prefect) развёрнут на одном сервере без горизонтального масштабирования. При росте количества DAG и задач single-node становится bottleneck. Переведите Airflow на CeleryExecutor или KubernetesExecutor для горизонтального масштабирования Настройте HA для scheduler: Airflow 2.x поддерживает multiple schedulers Разделите DAG по доменам между несколькими Airflow-инстансами Рассмотрите serverless-оркестраторы (Dagster Cloud, Prefect Cloud) для автомасштабирования

Question 17

DAG-зависимости через shared filesystem вместо data-aware triggers

Accepted Answer

Зависимости между DAG реализованы через cron-расписание или проверку наличия файла, а не через событийную модель. Upstream и downstream DAG не знают друг о друге и полагаются на timing. Используйте data-aware scheduling: Airflow Datasets, Dagster assets Реализуйте event-driven триггеры: S3 event → Lambda → DAG trigger Добавьте sensor с таймаутом как fallback для проверки готовности данных Определите _SUCCESS маркеры (файлы-флаги) как явный сигнал завершения записи

Question 18

Отсутствие data lineage и каталога метаданных

Accepted Answer

Метаданные и происхождение данных (lineage) не отслеживаются централизованно. Каждая команда работает изолированно, не имея общего каталога доступных данных и их зависимостей. Внедрите data catalog (DataHub, OpenMetadata, Amundsen) для регистрации всех datasets Настройте автоматический сбор lineage из Spark, Airflow, dbt Определите data stewards — ответственных за каждый dataset Реализуйте impact analysis перед любым изменением схемы

Question 19

Ручное управление cost без автоматизации и бюджетов

Accepted Answer

Отсутствие автоматизации cost management: нет бюджетов, алертов, auto-shutdown для non-production ресурсов. Стоимость инфраструктуры не привязана к конкретным pipeline и командам. Настройте cloud budget alerts на 50%, 80%, 100% от лимита Реализуйте tagging strategy: каждый ресурс привязан к команде и pipeline Автоматизируйте shutdown dev/staging кластеров в нерабочее время Внедрите FinOps-отчёт: cost per pipeline run как метрику эффективности

Question 20

Feature Store как отдельный silo без интеграции с Data Platform

Accepted Answer

Feature Store развёрнут изолированно от основной data-платформы. ML-инженеры строят собственные pipeline вместо использования curated-данных из DWH/Lakehouse. Интегрируйте Feature Store с существующим data lake/warehouse как source of truth Используйте единый compute (Spark, Flink) для batch и online features Реализуйте feature registry с lineage до исходных таблиц Стандартизируйте feature computation: одна кодовая база для train и serve

Область

Тип ошибки

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина