Troubleshooting — Docker для Junior Data Engineer

Question 1

permission denied: /var/run/docker.sock

Accepted Answer

Группа `docker` не назначена текущему пользователю. Сокет принадлежит `docker:docker` с правами 660 — читать/писать может только root и члены группы docker. `sudo usermod -aG docker $USER && newgrp docker` (или перелогиниться — `newgrp` стартует subshell). Проверить: `id | grep docker`. ВНИМАНИЕ: членство в docker-группе фактически даёт root на хосте (через bind mount /). Безопасная альтернатива — rootless установка.

Question 2

Cannot connect to the Docker daemon — daemon не запущен

Accepted Answer

Сервис `dockerd` остановлен. На Linux — это systemd-unit `docker.service`. На macOS/Windows daemon крутится внутри VM Docker Desktop / OrbStack / Rancher Desktop, и эта VM может быть выключена. Linux: `sudo systemctl status docker` и при необходимости `sudo systemctl start docker && sudo systemctl enable docker`. macOS: открыть Docker Desktop / OrbStack из Applications. Логи daemon: `sudo journalctl -u docker.service -n 100 --no-pager`.

Question 3

WSL2 not enabled на Windows

Accepted Answer

Не включена компонента Windows Subsystem for Linux 2 или не обновлено WSL-ядро. Docker Desktop на Windows 10/11 использует WSL2-backend для запуска Linux-контейнеров. Запустить PowerShell от админа: `wsl --install` (для свежей установки) или `wsl --update` (обновить ядро). Затем `wsl --set-default-version 2`. После перезагрузки — заново запустить Docker Desktop. Проверка: `wsl -l -v` должна показать минимум один дистрибутив с VERSION 2.

Question 4

Конфликт OrbStack и Docker Desktop

Accepted Answer

Оба продукта переопределяют unix-сокет через `~/.docker/run/docker.sock` symlink и переключают активный context. Какой запустился последним — того и сокет. Выбрать один: `docker context use orbstack` или `docker context use desktop-linux`. Если нужны оба — переключаться явно через `DOCKER_CONTEXT=orbstack docker ps`. Удалить один из продуктов: `brew uninstall --cask docker` (Docker Desktop) или OrbStack удалить через Settings -- Uninstall.

Question 5

port 2375 / 2376 already in use

Accepted Answer

Чаще всего — два процесса dockerd. Бывает после некорректного `kill -9 dockerd` без снятия pidfile. Или вы экспортировали Docker по TCP в `/etc/docker/daemon.json` (`hosts: [tcp://0.0.0.0:2375]`) и кто-то занял порт. `sudo ss -tlnp | grep -E ':(2375|2376)'` — найти захватчика. `sudo systemctl stop docker && sudo rm /var/run/docker.pid && sudo systemctl start docker`. Если порт нужен другому сервису — убрать TCP-listener из `/etc/docker/daemon.json` и оставить только unix-сокет.

Question 6

toomanyrequests: Docker Hub rate limit

Accepted Answer

Анонимный pull с Docker Hub лимитирован 100 запросами в 6 часов на IP. В CI-runner'ах множество jobs тянут с одного egress-IP и быстро упираются в потолок. Авторизоваться: `docker login` — лимит вырастет до 200/6h на бесплатном аккаунте. Долгосрочно: завести pull-through cache (Harbor, AWS ECR Pull-Through, GHCR) или перенести base images в свой реестр. В CI добавить retry на `toomanyrequests` с экспоненциальной паузой.

Question 7

no matching manifest for linux/amd64 (или arm64)

Accepted Answer

Образ собран только под одну архитектуру. На Apple Silicon Docker по умолчанию пытается тянуть linux/arm64; если такого варианта нет — падает. Запустить под эмуляцией: `docker run --platform=linux/amd64 someimage:tag`. На M1/M2/M3 будет работать через QEMU (медленнее в 2-5 раз). Долгосрочно: попросить автора образа собрать multi-arch через `docker buildx build --platform linux/amd64,linux/arm64 --push`, либо форкнуть Dockerfile и собрать самому.

Question 8

no space left on device после серии pulls

Accepted Answer

Закончилось место конкретно в каталоге Docker (`/var/lib/docker` на Linux, отдельный диск VM на macOS/Windows). Накопились dangling images, остановленные контейнеры, неиспользуемые volumes, build cache. Проверить занятость: `docker system df` и `docker system df -v`. Очистить аккуратно: `docker container prune` (остановленные), `docker image prune -a` (висячие + неиспользуемые), `docker volume prune` (ВНИМАНИЕ: уничтожит данные!), `docker builder prune`. Одной командой всё: `docker system prune -a --volumes` — но это сносит ВСЁ.

Question 9

manifest unknown при docker pull

Accepted Answer

Тег не существует в registry: опечатка, ещё не опубликован, либо удалён. Иногда — это приватный реестр, а вы не залогинены (registry отвечает 401, который CLI показывает как manifest unknown). Проверить теги: `curl https://registry/v2/myorg/app/tags/list` (или Docker Hub UI). Перелогиниться: `docker logout && docker login `. Для AWS ECR — обновить токен: `aws ecr get-login-password --region us-east-1 | docker login --username AWS --password-stdin .dkr.ecr.us-east-1.amazonaws.com`.

Question 10

ECR login expired

Accepted Answer

AWS ECR-токен живёт 12 часов. После этого нужно получить новый через AWS API. `aws ecr get-login-password --region | docker login --username AWS --password-stdin .dkr.ecr..amazonaws.com`. В CI делать это в начале каждого job. Для долгоживущих deploy-скриптов — обернуть push в retry с переавторизацией при 401.

Question 11

Образ распух из-за apt-get без --no-install-recommends

Accepted Answer

Без `--no-install-recommends` apt тянет рекомендуемые пакеты (man-pages, документация, ненужные tooling). Плюс если не удалить `/var/lib/apt/lists/*` — индексы apt остаются в слое. `RUN apt-get update && apt-get install -y --no-install-recommends libpq-dev && rm -rf /var/lib/apt/lists/*` — всё в одном RUN, иначе очистка не работает (кэшированный слой выше остаётся). Hadolint правило DL3015. Hadolint в CI ловит это до merge.

Question 12

COPY с symlinks даёт пустоту

Accepted Answer

По умолчанию `COPY` сохраняет symlinks как есть (не следует за ними). Если в build context'е лежит symlink на `/Users/me/dataset/big.csv` — внутри образа эта ссылка указывает в никуда. Резолвить symlinks ДО сборки: `cp -rL ./data ./data-resolved && docker build .` — флаг `-L` следует за ссылками. Или явно скопировать файл-цель: `cp $(readlink -f symlink) ./data/file.csv`. На macOS `readlink -f` нет — поставить coreutils: `brew install coreutils && greadlink -f ...`.

Question 13

Sending build context to Docker daemon — гигабайты

Accepted Answer

Нет `.dockerignore` или он неполный. CLI пакует весь каталог сборки и отправляет daemon'у: `node_modules/`, `.git/`, `__pycache__/`, `*.parquet` дампы данных, виртуальные окружения `.venv/` — всё летит в daemon, даже если в Dockerfile не используется. Создать `.dockerignore` в корне build context: `.git`, `node_modules`, `__pycache__`, `*.pyc`, `.venv`, `venv`, `*.log`, `.env*`, `dist`, `build`, `.pytest_cache`, `.mypy_cache`. Проверить, что подействовало: `du -sh $(cat .dockerignore | grep -v '^#' | head -5)` сверить — после `.dockerignore` контекст должен быть в МБ, не ГБ.

Question 14

BuildKit out of memory

Accepted Answer

На macOS/Windows Docker крутится в VM с фиксированным лимитом памяти (по умолчанию 2 ГБ). На Linux — это лимит хоста или cgroup. BuildKit при многоступенчатой параллельной сборке держит несколько контейнеров одновременно. macOS: Docker Desktop -- Settings -- Resources -- Memory увеличить до 6-8 ГБ. OrbStack: Settings -- Resources -- Memory. Linux: проверить cgroup-лимиты daemon. Альтернатива — ограничить параллелизм: `docker build --build-arg BUILDKIT_INLINE_CACHE=1` и не использовать `--parallel` для multi-stage.

Question 15

Multi-stage: COPY --from=builder не находит файл

Accepted Answer

Путь `/app/dist` не существует в стейдже `builder`. Возможные причины: имя стейджа опечатано (`FROM ... AS biulder`), сборка `dist/` идёт через relative path и фактически лежит не там, npm/python build упал тихо без exit code 1. Проверить имя: `FROM node:22 AS builder` точно совпадает с `--from=builder`. Залезть в стейдж: `docker build --target builder -t debug .`, потом `docker run --rm -it debug sh` и `ls /app`. Добавить `RUN ls -la /app/dist` ДО `COPY --from`, чтобы build упал именно там, где файла нет.

Question 16

exit code 137 — OOMKilled

Accepted Answer

Процесс PID 1 контейнера превысил лимит памяти (`--memory=2g` или дефолтный лимит хоста) — kernel OOM killer прислал SIGKILL (128 + 9 = 137). Частая причина в DE: pandas пытается прочитать parquet больше доступной RAM, либо Java/JVM не учитывает cgroup-лимиты. Поднять лимит: `docker run --memory=4g ...` или в compose `deploy.resources.limits.memory: 4g`. Для JVM — добавить `-XX:+UseContainerSupport -XX:MaxRAMPercentage=75` (с JDK 17+ — по умолчанию). Для pandas — читать chunked: `pd.read_csv(..., chunksize=100000)`. Мониторить: `docker stats <container>`.

Question 17

exit code 139 — SIGSEGV

Accepted Answer

Процесс получил SIGSEGV (128 + 11 = 139) — segmentation fault. Корневая причина — баг в нативном коде: C-расширение Python (numpy/pyarrow) собрано под другую glibc/musl, несовместимая версия libssl, попытка запустить amd64-бинарь на arm64 без эмуляции. Проверить архитектуру: `docker run --rm <image> uname -m` vs ожидаемая. Если alpine + Python — переключиться на `python:3.13-slim` (glibc-совместимый). Включить core dumps: `docker run --ulimit core=-1 ...` и проанализировать через gdb. Часто помогает обновление base image на более свежий patch-релиз вида `python:3.13.5-slim` вместо `python:3.13-slim`.

Question 18

Restart loop — контейнер бесконечно перезапускается

Accepted Answer

Установлен `restart: always` или `restart: unless-stopped`, процесс падает на старте (нет ENV, нет миграций, нет доступа к БД), daemon перезапускает контейнер раз за разом. Временно убрать restart-policy: `docker compose stop ` + правка compose `restart: "no"` + `docker compose up ` — даст контейнеру упасть и оставить логи. Прочитать `docker logs --since=5m ` и найти причину. После починки вернуть `restart: unless-stopped`.

Question 19

Healthcheck показывает unhealthy

Accepted Answer

HEALTHCHECK-команда внутри контейнера возвращает ненулевой exit. Частые причины: `curl` отсутствует в slim/distroless образе; сервис слушает не на localhost, а на конкретном интерфейсе; путь `/health` ещё не готов в первые секунды (`start_period` слишком короткий). Посмотреть, что вернул healthcheck: `docker inspect --format='{{json .State.Health}}' <id> | jq`. Если `curl: not found` — заменить на `wget --spider` или `python -c 'import urllib.request; urllib.request.urlopen("http://localhost:8080/health")'`. Поднять `start_period: 30s` для медленно стартующих сервисов (Airflow webserver).

Question 20

Контейнер падает, но docker logs пустой

Accepted Answer

Приложение пишет логи в файл внутри контейнера (например, `/var/log/myapp.log`) или буферизует stdout. Без `PYTHONUNBUFFERED=1` Python с маленькими сообщениями буферизует и теряет их при быстром падении. Добавить `ENV PYTHONUNBUFFERED=1` в Dockerfile или `-e PYTHONUNBUFFERED=1` при запуске. Для Java — `-Dlog4j.configurationFile=...` редиректить в stdout. Для bash-entrypoint — `exec command "$@"` вместо `command "$@"` (без exec PID 1 это shell, который глотает сигналы и буферы). Проверить запуск интерактивно: `docker run --rm -it <image>`.

Question 21

Postgres data volume — initdb skipped

Accepted Answer

Named volume `pgdata` уже инициализирован: контейнер видит непустой `PGDATA` и пропускает initdb. Init-скрипты выполняются ровно ОДИН раз — при первом запуске на пустом volume. ВНИМАНИЕ: уничтожит данные. `docker compose down -v` (флаг `-v` сносит volumes) и затем `docker compose up`. Безопасный путь — изменить креды через SQL: `docker compose exec postgres psql -U postgres -c "ALTER USER postgres WITH PASSWORD 'new';"`. Для миграций использовать отдельный init-контейнер с `condition: service_completed_successfully`.

Question 22

Bind mount: permission denied изнутри контейнера

Accepted Answer

На Linux UID процесса внутри контейнера сохраняется на хосте. Если в контейнере `USER node` (UID 1000), а директория `./data` на хосте принадлежит UID 1001 — нет прав записи. macOS прячет это через osxfs/virtiofs c userland-маппингом. Согласовать UID: `RUN useradd -u $(id -u) -m app` с передачей `--build-arg HOST_UID=$(id -u)`. Альтернатива — `chown` директории на хосте под нужный UID: `sudo chown -R 1000:1000 ./data`. Или запустить контейнер от того же UID: `docker run --user $(id -u):$(id -g) ...`.

Question 23

Named volume не сохраняется после docker rm -v

Accepted Answer

Флаг `-v` при `docker run --rm` или `docker rm` явно сносит анонимные volumes. Если вы не уверены, что volume назван — он мог быть создан как anonymous. Использовать `docker run` БЕЗ `--rm` для stateful-сервисов или явно создать named volume: `docker volume create pgdata && docker run -v pgdata:/var/lib/postgresql/data ...`. Проверить: `docker volume ls` и `docker volume inspect pgdata`. Named volume не удаляется при `docker rm <container>` без `-v`.

Question 24

Bind mount на macOS медленный

Accepted Answer

Bind mount на macOS идёт через VM (HyperKit, virtiofs, gRPC-FUSE — зависит от backend). Каждый файловый syscall — round-trip через VM. На больших деревьях (`node_modules`, `.venv`) это убивает производительность. Использовать `:cached` или `:delegated` consistency-флаги (legacy): `volumes: [./src:/app/src:cached]`. Современный backend Docker Desktop / OrbStack использует virtiofs — быстрее, но всё равно медленнее native. Альтернативы: OrbStack (быстрый virtiofs), Mutagen (двунаправленная синхронизация), не монтировать `node_modules` (использовать named volume для них).

Question 25

localhost внутри контейнера = сам контейнер

Accepted Answer

В сетевом namespace контейнера `localhost` (127.0.0.1) — это loopback самого контейнера, а не хоста. На контейнере нет Postgres, поэтому никто не отвечает. На Linux использовать `--add-host=host.docker.internal:host-gateway` (Docker 20.10+) и адрес `host.docker.internal`. На macOS/Windows этот хост работает из коробки. Лучше — поднять Postgres тоже в compose и использовать DNS-имя сервиса: `postgres://db:5432/db`.

Question 26

app-контейнер не видит Postgres по 127.0.0.1

Accepted Answer

Каждый контейнер имеет свой network namespace. 127.0.0.1 в app — это loopback app-контейнера, там нет Postgres. db и app общаются через user-defined bridge, который Compose создаёт автоматически и резолвит DNS по имени сервиса. Всегда использовать имя сервиса как hostname: `DATABASE_URL=postgres://db:5432/mydb`. Это работает потому, что Compose создаёт DNS-запись для каждого service в общей сети. Проверить связь: `docker compose exec app getent hosts db` — должен вернуть IP.

Question 27

host.docker.internal не работает на Linux

Accepted Answer

До Docker 20.10 на Linux этого DNS не было. С 20.10+ — есть, но нужно явно прокинуть: `--add-host=host.docker.internal:host-gateway`. В compose это `extra_hosts`. В compose: `services: app: extra_hosts: ["host.docker.internal:host-gateway"]`. Для `docker run`: `--add-host=host.docker.internal:host-gateway`. Альтернатива — использовать IP моста: `ip addr show docker0 | grep inet` (обычно 172.17.0.1). В production-окружении лучше явно настраивать сервис-discovery, а не полагаться на host.

Question 28

EXPOSE без -p — порт недоступен с хоста

Accepted Answer

EXPOSE — это только метаданные, документация о том, какой порт слушает контейнер. Реальная публикация порта на хост происходит ТОЛЬКО через флаг `-p` или `ports:` в compose. Запускать с `-p 5432:5432` (или `-P` для автоматической публикации всех EXPOSE-портов на случайные хостовые). В compose — `ports: ["5432:5432"]`. Проверка: `docker port <container>` показывает фактически опубликованные.

Question 29

depends_on недостаточно — app стартует раньше БД

Accepted Answer

Базовый `depends_on` ждёт только СТАРТА контейнера postgres (PID 1 запущен), но не готовности Postgres принимать соединения (Postgres сам стартует ~3-5 секунд: запускает walwriter, открывает порт). Добавить HEALTHCHECK в postgres-сервис: `healthcheck: { test: ["CMD-SHELL", "pg_isready -U postgres"], interval: 2s, timeout: 3s, retries: 10 }`. В app поменять `depends_on: [postgres]` на `depends_on: { postgres: { condition: service_healthy } }`. Применимо к Compose v2.1+.

Question 30

.env переменная не подхватилась в compose

Accepted Answer

Compose читает `.env` ТОЛЬКО из каталога, где лежит compose-файл (или явно указанного через `--env-file`). Если запустили `docker compose -f deploy/compose.yml up` из корня проекта — Compose ищет `.env` в `deploy/`, а не в корне. Проверить, что видит compose: `docker compose config` — раскроет все переменные. Указать env-file явно: `docker compose --env-file ./.env -f deploy/compose.yml up`. Не путать с `env_file:` в services — это для загрузки env в контейнер; `.env` (без двоеточия) — для подстановки в сам compose.yml.

Question 31

Override смешался — итоговая конфигурация неожиданная

Accepted Answer

По умолчанию Compose автоматически подцепляет `docker-compose.override.yml` если он есть. При явном `-f docker-compose.yml` override НЕ применяется. В override лежали development-only volume mount'ы. Проверить итоговую конфигурацию: `docker compose config` (или `-f base.yml -f override.yml config`). Для prod-сборки явно: `docker compose -f docker-compose.yml -f docker-compose.prod.yml up`. Не класть критичные настройки в override — только локальные overrides.

Question 32

profiles не активирован — сервис не стартует

Accepted Answer

Сервисы с `profiles:` не запускаются по умолчанию — только при явной активации профиля. `docker compose --profile debug up` или указать сервис явно: `docker compose up kafka-ui`. Можно активировать сразу несколько: `--profile debug --profile monitoring`. Постоянно: `COMPOSE_PROFILES=debug,monitoring` в env.

Question 33

pandas/numpy на alpine собираются часами

Accepted Answer

PyPI отдаёт pre-built wheels для `manylinux` (glibc) и macOS, а для musl (alpine) — обычно нет. Pip падает на binary install и собирает из исходников: тянет gcc, g++, gfortran, ставит python-dev, потом компилирует C/C++/Fortran код numpy/pandas. Это медленно и распухает образ временными dev-зависимостями. Перейти на `python:3.13-slim` (debian-based, glibc) — wheels работают, pip install pandas — 5 секунд. Если alpine критичен — использовать `alpine-edge` который имеет `py3-pandas` через `apk add py3-pandas` (но версии могут отставать).

Question 34

pip install --no-cache-dir vs cache mount

Accepted Answer

Дилемма: `--no-cache-dir` уменьшает размер слоя (pip wheel cache не остаётся в образе ~50-200 МБ), но при повторном build всё качается заново. BuildKit cache mount — оба плюса сразу: `RUN --mount=type=cache,target=/root/.cache/pip pip install -r requirements.txt`. Кэш живёт между build'ами на хосте, но НЕ попадает в финальный слой. Включается флагом `# syntax=docker/dockerfile:1.7` в первой строке Dockerfile.

Question 35

ModuleNotFoundError несмотря на requirements.txt

Accepted Answer

Один из вариантов: (a) `pip install` поставил в один python (системный), а `CMD python app.py` запускает другой (venv); (b) multi-stage Dockerfile установил пакеты в стейдже `builder`, но не скопировал `site-packages` в финальный стейдж; (c) поломанный кэш слоёв скрыл актуальный requirements.txt. Проверить, чем запускается: `docker run --rm --entrypoint sh image -c 'which python && python -m pip list | grep boto3'`. Multi-stage — `COPY --from=builder /usr/local/lib/python3.13/site-packages /usr/local/lib/python3.13/site-packages`. Принудительный rebuild без кэша: `docker build --no-cache .`.

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина