Глоссарий — Operating Systems для Junior

Zombie

Zombie process

Термин

Процесс, который завершился (вызвал exit), но его родитель ещё не сделал wait() -- exit code не забран. Зомби не потребляет CPU/RAM, но занимает PID и запись в process table. В `ps` отображается как `Z` в STAT. Множество зомби -- баг родителя, не вызвавшего wait. Убить зомби невозможно (он уже мёртв) -- надо или заставить родителя сделать wait (SIGCHLD ему), или убить родителя -- тогда init/systemd подберёт сирот и почистит их.

Пример:

# Найти всех зомби
ps -eo pid,ppid,stat,comm | awk '$3 ~ /Z/'
#   PID  PPID STAT COMMAND
#  4242  4200 Z+   <defunct>

# Чей родитель -- кто баг?
ps -o pid,ppid,comm -p 4200

# Лечение: kill родителя (его дочки уйдут к init)
kill -CHLD 4200  # пусть отреагирует
# или
kill 4200

Подробнее в уроках:

Orphan

Orphan process

Термин

Процесс, чей родитель умер до его завершения. Kernel автоматически меняет PPID такого процесса на 1 (init/systemd) -- init обязан wait()'ить сирот, поэтому orphans не превращаются в zombie. Это разные понятия: orphan -- живой процесс без оригинального родителя; zombie -- мёртвый процесс, на который никто не сделал wait. В daemonization-паттерне специально делают двойной fork, чтобы процесс гарантированно стал orphan и его принял init.

Пример:

# Симуляция: запустить процесс в фоне и убить shell
bash -c 'sleep 60 &'
# Сразу:
ps -o pid,ppid,comm | grep sleep
#   PID  PPID COMMAND
#  5050  4040 sleep
# Через секунду (когда shell умер):
ps -o pid,ppid,comm | grep sleep
#   PID  PPID COMMAND
#  5050     1 sleep   <- PPID стал 1, его принял init

Подробнее в уроках:

Process Lifecycle

Process states / lifecycle

Термин

Процесс в Linux находится в одном из состояний (поле STAT в ps): R -- running/runnable, готов или исполняется на CPU; S -- interruptible sleep, ждёт события (можно прервать сигналом); D -- uninterruptible sleep, обычно ждёт I/O от железа (не убить даже SIGKILL); T -- остановлен (SIGSTOP, или debugger); Z -- zombie. Переходы: created -> ready (R) -> running (R) -> blocked (S/D) -> ready -> ... -> terminated (Z). Многочисленные D-state процессы указывают на проблемы с диском.

Пример:

# Состояния всех процессов
ps -eo stat,comm | awk '{print $1}' | sort | uniq -c | sort -rn | head
#   320 S
#    25 I
#    12 R
#     2 D

# Найти D-state (uninterruptible)
ps -eo stat,pid,comm | awk '$1 ~ /D/'

Подробнее в уроках:

Потоки и синхронизация

Thread

Thread (поток)

Термин

Единица планирования внутри процесса. Все потоки одного процесса разделяют адресное пространство (heap, глобальные переменные, открытые файлы), но у каждого свой stack, свои регистры, свой program counter. В Linux реализованы через clone() с флагами CLONE_VM|CLONE_FS|CLONE_FILES -- технически это просто 'lightweight process'. Планировщик не различает процессы и потоки -- видит task_struct и решает, что запустить. Множество потоков нужно для параллелизма на multi-core, фонового I/O, отзывчивого UI.

Пример:

# Сколько потоков у процесса
ps -o nlwp -p $$
# NLWP
#    1

# Все потоки конкретного процесса
ps -L -p <PID>
# или
ls /proc/<PID>/task/

# Стек и состояние каждого потока
cat /proc/<PID>/task/<TID>/stat

Подробнее в уроках:

Потоки vs процессы

pthread

POSIX Threads (pthreads)

Термин

Стандартизированный POSIX-API для работы с потоками: pthread_create, pthread_join, pthread_mutex_t, pthread_cond_t. В Linux реализован через библиотеку NPTL (Native POSIX Thread Library), под капотом использует clone() syscall. Один pthread = один task_struct в kernel = 1:1 модель threading (в отличие от старого LinuxThreads или зелёных потоков). Большинство языков (Python, Go runtime, Java) либо строятся поверх pthread, либо имеют свой scheduler поверх него.

Пример:

// C, gcc -pthread
#include <pthread.h>
#include <stdio.h>

void *worker(void *arg) {
    printf('thread %ld\n', (long)arg);
    return NULL;
}

int main() {
    pthread_t t[4];
    for (long i = 0; i < 4; i++)
        pthread_create(&t[i], NULL, worker, (void*)i);
    for (int i = 0; i < 4; i++)
        pthread_join(t[i], NULL);
}

Подробнее в уроках:

Threading-модели

Race Condition

Race condition

Термин

Баг, при котором результат зависит от порядка выполнения нескольких потоков -- и этот порядок недетерминирован. Классический пример: два потока делают `counter += 1` без синхронизации; операция не атомарна (read-modify-write), поэтому при переплетении инструкций одно из обновлений теряется. Race conditions сложно отлавливать: они проявляются под нагрузкой и могут не воспроизводиться в дебаге. Лечатся блокировками (mutex, atomic), либо архитектурно -- избегая разделяемого мутабельного состояния (actor model, immutable data).

Пример:

import threading

counter = 0

def worker():
    global counter
    for _ in range(1_000_000):
        counter += 1

threads = [threading.Thread(target=worker) for _ in range(4)]
for t in threads: t.start()
for t in threads: t.join()

print(counter)
# Ожидали 4_000_000, получили что-то меньше -- race condition
# (в CPython GIL частично спасает, но не от каждого случая)

Подробнее в уроках:

Синхронизация

Mutex

Mutex (mutual exclusion)

Термин

Примитив синхронизации, гарантирующий, что критическую секцию в момент времени исполняет только один поток. Операции: lock (блокирует поток если mutex занят), unlock (отпускает). В Linux реализован через futex syscall: на быстром пути lock'нуться можно в userspace через atomic-операцию, без захода в kernel; только при contention делается futex_wait. У mutex есть владелец -- только захвативший поток может разлочить. Recursive mutex позволяет одному потоку lock'нуться повторно (для рекурсии).

Пример:

import threading

counter = 0
lock = threading.Lock()

def worker():
    global counter
    for _ in range(1_000_000):
        with lock:
            counter += 1

threads = [threading.Thread(target=worker) for _ in range(4)]
for t in threads: t.start()
for t in threads: t.join()

print(counter)  # 4_000_000 -- корректно

Подробнее в уроках:

Синхронизация

Semaphore

Термин

Счётчик-примитив синхронизации. Поток делает wait (P-операция): если счётчик > 0, декрементирует и продолжает; иначе блокируется. Signal (V) -- инкрементирует и будит ожидающего. В отличие от mutex, у семафора нет владельца -- любой поток может сигнализировать. Binary semaphore (счётчик 0/1) близок к mutex. Counting semaphore используется для ограничения количества одновременных операций (rate limiter, connection pool). В POSIX: sem_init, sem_wait, sem_post.

Пример:

import threading

# Ограничить количество одновременных загрузок
sem = threading.Semaphore(3)

def download(url):
    with sem:  # max 3 одновременно
        # ... делать запрос ...
        pass

Подробнее в уроках:

Синхронизация

Deadlock

Термин

Ситуация, когда два или более потоков ждут друг друга, и никто не может продолжить. Классический пример: поток A держит lock1 и ждёт lock2, поток B держит lock2 и ждёт lock1. Кофман сформулировал 4 необходимых условия: mutual exclusion, hold-and-wait, no preemption, circular wait. Лечение архитектурное: всегда брать блокировки в одинаковом порядке (lock ordering), использовать try_lock с откатом, или избегать вложенных блокировок. На диск-уровне случается с fcntl-locks между процессами.

Пример:

# Linux: можно посмотреть, кто кого держит
cat /proc/<PID>/status | grep State
# State: D (disk sleep)  -- застрял в kernel I/O lock

# Для futex-deadlock в userspace:
perf lock report
# или strace -e futex показывает FUTEX_WAIT, который не получает FUTEX_WAKE

Подробнее в уроках:

Pitfalls многопоточности

Планировщик и приоритеты

Scheduler

Scheduler (планировщик)

Термин

Подсистема kernel, решающая, какой из готовых (runnable) потоков получит CPU следующим. Главные задачи: справедливость (fairness), отзывчивость (latency), пропускная способность (throughput). В Linux основной планировщик -- CFS (Completely Fair Scheduler) для обычных задач, плюс real-time классы SCHED_FIFO/SCHED_RR/SCHED_DEADLINE для критичного по времени. Решение принимается при каждом tick'е таймера, syscall, прерывании, пробуждении задачи.

Пример:

# Какие задачи в системе и их класс
chrt -p $$
# pid 12345's current scheduling policy: SCHED_OTHER
# pid 12345's current scheduling priority: 0

# Статистика scheduler'а
cat /proc/<PID>/sched | head
# se.exec_start                : ...
# se.vruntime                  : ...
# nr_switches                  : 12345

Подробнее в уроках:

Основы планировщика

Preemptive Scheduling

Preemptive scheduling

Термин

Модель, в которой kernel может в любой момент отобрать CPU у текущего потока и переключить на другой. В Linux это делается по тику таймера (~100-1000 Hz), при пробуждении более приоритетной задачи, при возврате из syscall. Противоположность -- cooperative scheduling (как в classic Mac OS или asyncio), где поток сам должен явно отдать управление. Preemption обеспечивает отзывчивость даже если userspace-код зацикливается -- его всё равно прервут.

Пример:

# Частота тиков таймера kernel'а (HZ)
grep CONFIG_HZ= /boot/config-$(uname -r)
# CONFIG_HZ=1000

# Сколько раз процесс был preempted
cat /proc/<PID>/status | grep -i ctxt
# voluntary_ctxt_switches:        1234
# nonvoluntary_ctxt_switches:     567   <- preemption

Подробнее в уроках:

Основы планировщика

CFS

CFS (Completely Fair Scheduler)

Термин

Основной планировщик Linux с 2007 года. Не использует фиксированные time slices -- вместо этого ведёт виртуальное время (vruntime) для каждой задачи и всегда выбирает ту, у которой vruntime минимально. Получается, что задачи получают CPU пропорционально своему weight (выводится из nice value). На практике 'completely fair' = взвешенно справедливо. CFS хорошо работает для общих interactive/batch workload, но для жёстких real-time нужны другие классы (SCHED_DEADLINE).

Пример:

# vruntime текущей задачи
cat /proc/<PID>/sched | grep vruntime
# se.vruntime  : 12345678.123456

# Веса nice <-> weight можно посмотреть в исходниках kernel/sched/core.c
# nice -20 -> weight 88761, nice 19 -> weight 15

Подробнее в уроках:

Алгоритмы планирования

Nice

Nice value

Термин

Userspace-настройка приоритета процесса в Linux. Диапазон -20..+19, по умолчанию 0. Низкое значение = выше приоритет = больше CPU. Имя от 'be nice to others' -- положительный nice делает процесс уступчивым. Только root может ставить отрицательный nice (повышать приоритет). Стартовый nice задаётся при запуске (`nice -n 10 cmd`), потом меняется через `renice`. Влияет только на CPU-scheduling, не на disk I/O (для этого ionice).

Пример:

# Запустить с пониженным приоритетом
nice -n 19 ./backup.sh

# Изменить nice уже запущенного процесса
renice -n 10 -p 12345

# Текущий nice
ps -o pid,ni,pri,cmd -p $$
# PID  NI PRI COMMAND
# 12345  0  19 -bash

Подробнее в уроках:

Приоритеты и nice

ionice

ionice (I/O priority)

Термин

Утилита для управления приоритетом дискового I/O процесса (в kernel это part of BFQ/mq-deadline I/O scheduler). Классы: 1 (Realtime), 2 (Best-effort, default), 3 (Idle -- ждёт пока никто не использует диск). Внутри классов 0-7 уровней приоритета. Полезно для backup-скриптов, индексаторов, etl-задач -- чтобы не мешать prod-нагрузке. Реальный эффект зависит от I/O scheduler'а блочного устройства: noop/none их игнорирует.

Пример:

# Запустить процесс в idle-классе I/O
ionice -c3 ./backup.sh

# Изменить у запущенного
ionice -c2 -n7 -p 12345

# Текущий приоритет
ionice -p 12345
# best-effort: prio 4

# I/O scheduler устройства
cat /sys/block/sda/queue/scheduler
# [bfq] mq-deadline none

Подробнее в уроках:

Приоритеты и nice

Виртуальная память и MMU

Virtual Memory

Virtual memory

Термин

Абстракция, при которой каждый процесс видит свой 'полный' адресный спейс (на x86_64 -- 128 TiB), не зависящий от физической RAM. Виртуальные адреса транслируются в физические через page tables, которыми управляет kernel + MMU. Преимущества: изоляция между процессами (каждый видит только свою память), отсутствие фрагментации физической памяти (физически память может быть разбросана, виртуально -- последовательна), возможность держать процессы больше RAM (через swap), copy-on-write (fork без копирования).

Пример:

# Виртуальная память процесса
cat /proc/self/maps | head
# 555555554000-555555556000 r--p ...  /usr/bin/cat
# 555555556000-55555555c000 r-xp ...  /usr/bin/cat
# 7ffff7d83000-7ffff7da8000 r--p ...  /usr/lib/libc.so.6

# Общая статистика
cat /proc/self/status | grep -E 'VmSize|VmRSS|VmData'
# VmSize:    12345 kB  <- виртуально
# VmRSS:      4321 kB  <- физически в RAM сейчас

Подробнее в уроках:

Зачем виртуальная память

Paging

Термин

Разбиение виртуальной и физической памяти на блоки фиксированного размера (страницы, обычно 4 KiB на x86; есть huge pages 2 MiB и 1 GiB). Kernel ведёт page table, мапящую виртуальные страницы на физические frame'ы. При доступе CPU через MMU транслирует адрес. Если страница не в RAM (был swapped или ни разу не trigger'ился) -- page fault, kernel либо подгружает её с диска (major fault), либо аллоцирует свежую (minor fault).

Пример:

# Размер страницы
getconf PAGESIZE
# 4096

# Поддерживаемые huge pages
cat /proc/meminfo | grep -i huge
# HugePages_Total:       0
# Hugepagesize:       2048 kB

# Page faults процесса
cat /proc/self/stat | awk '{print 'minflt='$10, 'majflt='$12}'

Подробнее в уроках:

Page Table

Термин

Структура данных в kernel-памяти, описывающая, как виртуальные адреса процесса транслируются в физические. На x86_64 используется 4-уровневая иерархия (PGD -> PUD -> PMD -> PTE), что позволяет компактно представлять 128 TiB виртуального пространства, не аллоцируя страницы для неиспользуемых регионов. Каждый процесс имеет свой root page table -- именно его адрес лежит в регистре CR3, и переключение CR3 на context switch -- это переключение address space. Запись в PTE содержит physical frame number плюс флаги (present, writable, user, accessed, dirty).

Пример:

# Размер page tables процесса
cat /proc/self/status | grep -i pagetable
# VmPTE:        80 kB

# Можно через /proc/self/pagemap прочитать mapping для конкретного адреса
# (требует root)

Подробнее в уроках:

TLB

TLB (Translation Lookaside Buffer)

Термин

Аппаратный кэш на CPU, хранящий результаты последних трансляций виртуальный -> физический адрес. Без него каждое обращение к памяти требовало бы хождения по page table (4 чтения на x86_64 -- очень дорого). При hit TLB трансляция занимает 0 циклов; при miss MMU делает page walk (~100 циклов на DDR-доступ). При context switch TLB частично сбрасывается (с CONFIG_PCID -- по тегам). Huge pages уменьшают TLB pressure: одна 2 MiB-запись покрывает 512 4 KiB-обращений.

Пример:

# Прямого способа смотреть TLB-stats в Linux без perf нет.
perf stat -e dTLB-load-misses,iTLB-load-misses ./my_program
# 1,234,567  dTLB-load-misses
# 12,345     iTLB-load-misses

Подробнее в уроках:

MMU

MMU (Memory Management Unit)

Термин

Аппаратный блок в CPU, выполняющий трансляцию виртуальных адресов в физические по page table. Без MMU работа process isolation была бы невозможна -- надо было бы делать программные проверки на каждое обращение к памяти. MMU также проверяет права доступа (writable, executable, kernel-only) и при нарушении генерирует page fault. На x86_64 MMU интегрирована с CPU; на ARM/RISC-V похожая архитектура. У контроллеров без MMU (embedded) полноценная виртуальная память невозможна -- запускают uClinux или RTOS.

Пример:

# MMU всегда есть на x86_64/ARM с MMU.
# Проверить, что у процессора (косвенно):
grep -i 'mmu\|pae\|pse\|paging' /proc/cpuinfo

Подробнее в уроках:

Swap

Термин

Дисковая область (раздел или файл), куда kernel выгружает неактивные страницы памяти, когда не хватает RAM. Позволяет процессам в сумме использовать больше памяти, чем физически есть. Цена: доступ к swapped-странице в тысячи раз медленнее, чем к RAM (DDR ~100 ns vs SSD ~100 us). Поведение управляется `/proc/sys/vm/swappiness` (0..200, default 60): выше -- активнее свопить. На серверах с быстрым SSD swap полезен; на DB-серверах часто отключают чтобы избежать I/O-всплесков.

Пример:

# Состояние swap
swapon --show
free -h

# Кто сейчас активно использует swap
for f in /proc/*/status; do
  awk '/VmSwap|Name/{printf $2 " " $3 "\n"}' $f 2>/dev/null
done | paste - - | sort -k2 -h | tail

# Изменить swappiness
sysctl vm.swappiness=10

Подробнее в уроках:

Swap и overcommit

OOM Killer

OOM Killer (Out Of Memory)

Термин

Механизм kernel, активирующийся когда система не может аллоцировать память даже после очистки кэшей и свопа. Kernel выбирает 'жертву' по oom_score (учитывается размер процесса, время жизни, oom_score_adj) и шлёт ей SIGKILL. Цель -- освободить достаточно памяти, чтобы система выжила. Алгоритм агрессивно выбирает крупных потребителей: часто жертва -- сам важный процесс (Postgres, JVM). Защититься можно через oom_score_adj=-1000 (immunity), но это рискованно -- зацикливается nothing-to-kill.

Пример:

# Кто был убит
dmesg -T | grep -i 'killed process'
# [...] Out of memory: Killed process 12345 (python3) total-vm:8GB, anon-rss:7GB

# Защитить процесс от OOM (root)
echo -1000 > /proc/12345/oom_score_adj

# Текущий счёт
cat /proc/12345/oom_score

Подробнее в уроках:

Swap и overcommit

Overcommit

Memory overcommit

Термин

Политика, при которой kernel выдаёт процессам в сумме больше виртуальной памяти, чем есть физической + swap. Работает потому что большинство аллоцированной памяти процессы реально не трогают. Управляется `/proc/sys/vm/overcommit_memory`: 0 -- эвристика (default), 1 -- всегда соглашаться (даже на безумные malloc), 2 -- никогда не overcommit'ить, лимит = swap + ratio*RAM. Без overcommit fork() большого процесса часто бы падал (хотя copy-on-write делает реальную копию минимальной).

Пример:

# Текущая политика
sysctl vm.overcommit_memory
# vm.overcommit_memory = 0

# Сколько памяти 'commit'нуто и лимит
cat /proc/meminfo | grep -i commit
# CommitLimit:     8388608 kB
# Committed_AS:    4194304 kB

# Жёсткая дисциплина (для прода с DB)
sysctl vm.overcommit_memory=2
sysctl vm.overcommit_ratio=80

Подробнее в уроках:

Swap и overcommit

NUMA

NUMA (Non-Uniform Memory Access)

Термин

Архитектура многосокетных серверов, где у каждого CPU-сокета своя локальная память. Доступ к 'чужой' (remote) памяти медленнее, чем к локальной (1.5-3x latency). Kernel пытается аллоцировать память на том же node, где работает процесс (NUMA affinity), но при memory pressure может уйти на другой node. Для perf-критичных задач (DBMS, ML training) важно явно прибивать процессы и память к одному node через numactl. На однопроцессорных серверах NUMA отсутствует.

Пример:

# Сколько NUMA-нод
numactl --hardware
# available: 2 nodes (0-1)
# node 0 cpus: 0-15
# node 0 size: 64512 MB
# node 1 cpus: 16-31
# node 1 size: 64512 MB

# Запустить на конкретном node
numactl --cpunodebind=0 --membind=0 ./db_server

# Где сейчас память процесса
numastat -p <PID>

Подробнее в уроках:

NUMA

Stack

Stack (стек)

Термин

Область памяти процесса/потока, растущая в сторону уменьшения адресов на x86 (auto-grow до RLIMIT_STACK, default 8 MiB). Хранит локальные переменные функций, аргументы, адреса возврата, saved registers. У каждого потока свой stack. Переполнение stack (`stack overflow`) -- обычно из-за бесконечной рекурсии или огромного локального массива -- даёт SIGSEGV. Размер настраивается через `ulimit -s` или pthread_attr_setstacksize. В отличие от heap, аллокация/освобождение на стеке -- просто инструкция изменения регистра sp, без участия kernel.

Пример:

# Stack-границы текущего потока
cat /proc/self/maps | grep stack
# 7ffe...000-7ffe...000 rw-p ... [stack]

# Лимит размера stack
ulimit -s
# 8192   (в KiB, т.е. 8 MiB)

# Увеличить (для текущего shell)
ulimit -s 16384

Подробнее в уроках:

Stack vs heap

Heap

Термин

Область памяти процесса для динамической аллокации через malloc/new/realloc. Растёт в сторону увеличения адресов через syscall brk (расширяет program break) или mmap (отдельный регион). Управляется аллокатором (glibc ptmalloc, jemalloc, tcmalloc, mimalloc), который ведёт свободные блоки внутри полученных от kernel страниц -- minimizing syscalls. В отличие от stack, heap общий для всех потоков (отсюда возможность race в malloc, лечится thread-local arenas).

Пример:

# Область heap процесса
cat /proc/self/maps | grep heap
# 5555...000-5555...000 rw-p ... [heap]

# Какой аллокатор используется (в Python)
import ctypes
libc = ctypes.CDLL('libc.so.6')
# malloc на самом деле звонит в ptmalloc (glibc)

# Активность аллокатора
strace -e brk,mmap python -c 'a = [0]*1_000_000' 2>&1 | head

Подробнее в уроках:

Stack vs heap

malloc

malloc() / calloc() / realloc()

Термин

Стандартные C-функции для динамической аллокации памяти. malloc(size) возвращает указатель на size байт неинициализированной памяти. Внутри glibc реализована через ptmalloc2: для маленьких аллокаций (<128 KB обычно) использует heap через brk/sbrk, для больших -- mmap. Многопоточный режим использует множественные arenas (по одной на поток обычно) чтобы избежать contention на одном lock. Возвращаемый указатель выровнен на 16 байт на x86_64.

Пример:

// C
char *buf = malloc(1024);
if (!buf) { /* OOM */ }
// ... use buf ...
free(buf);

# Какие malloc-syscalls делает программа
strace -e mmap,brk ./my_program 2>&1 | wc -l

# Замена аллокатора через LD_PRELOAD
LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libjemalloc.so.2 ./my_program

Подробнее в уроках:

malloc и free

free

free()

Термин

Освобождает память, ранее выделенную malloc. Память возвращается в пул аллокатора, но не обязательно kernel'у -- glibc может держать освобождённое в своих arenas для будущих аллокаций (быстрее, не надо syscall). Этого можно достичь через malloc_trim(0). free на уже освобождённом указателе (double-free) -- UB, обычно сразу падает или corrupts heap. Free на не-malloc'нутом указателе -- тоже UB. Современные аллокаторы детектят простые случаи и аварийно падают с диагностикой.

Пример:

// C
char *buf = malloc(1024);
free(buf);
buf = NULL;  // защита от случайного double-free

// Вернуть память kernel'у (если возможно)
#include <malloc.h>
malloc_trim(0);

Подробнее в уроках:

malloc и free

mmap

mmap() syscall

Термин

Syscall, мапящий файл или анонимный регион памяти в виртуальное пространство процесса. Используется в трёх ролях: (1) загрузка исполняемых файлов и .so в память, (2) шаринг памяти между процессами (MAP_SHARED), (3) большие аллокации в malloc (поверх MAP_ANONYMOUS). Mmap'нутый файл читается lazy: страница загружается с диска только при первом обращении (page fault). MAP_SHARED + запись -> изменения видны другим процессам и (при наличии файла) попадают на диск.

Пример:

import mmap

with open('huge.dat', 'rb') as f:
    mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
    # Доступ как к массиву, без read()
    print(mm[1024:1100])
    mm.close()

# Что в адресном пространстве -- из mmap
cat /proc/self/maps | grep -v stack | grep -v heap | head

Подробнее в уроках:

mmap

Shared Memory

Shared memory

Термин

Память, видимая нескольким процессам -- самый быстрый способ IPC (нет копирования при общении). В POSIX API: shm_open создаёт файл-объект в /dev/shm, дальше его mmap'ят с MAP_SHARED. Старый SysV API (shmget, shmat) реже используется. Координация доступа -- через отдельные примитивы (mutex в shared memory, семафоры). Часто используется для shared cache, ML inference (одна модель, много worker'ов), zero-copy IPC.

Пример:

import multiprocessing as mp
import numpy as np

# Python: shared memory из multiprocessing
shm = mp.shared_memory.SharedMemory(create=True, size=1024*1024)
arr = np.ndarray((1024,), dtype=np.int64, buffer=shm.buf)
arr[0] = 42

# В другом процессе:
# shm2 = SharedMemory(name=shm.name)
# arr2 = np.ndarray(..., buffer=shm2.buf)
# print(arr2[0])  # 42

Подробнее в уроках:

Shared memory

IPC: пайпы, сигналы, сокеты

IPC

IPC (Inter-Process Communication)

Термин

Механизмы общения между процессами. В Linux основные: pipes (anonymous и named/FIFO), Unix domain sockets, signals, shared memory, message queues (SysV/POSIX), eventfd/signalfd. Выбор зависит от: направление (one-way / bidirectional), родственность (parent-child или unrelated), нагрузка (control plane vs big data), требования к latency. Для большинства задач Unix sockets хорошо балансируют простоту и производительность; для high-throughput -- shared memory + futex.

Пример:

# Список IPC-объектов в системе
ipcs -a
# ------ Message Queues --------
# ------ Shared Memory Segments --------
# ------ Semaphore Arrays --------

# Открытые pipe/socket конкретного процесса
lsof -p <PID> | grep -E 'PIPE|sock|FIFO'

Подробнее в уроках:

Pipes

Pipe

Pipe (anonymous pipe)

Термин

Однонаправленный канал байтового стрима между процессами в Unix. Syscall pipe() возвращает два fd: один для чтения, один для записи. Buffer 64 KiB по умолчанию. Используется shell'ом для `|`: один процесс пишет в write-end, другой читает из read-end. Анонимные pipes доступны только через наследование fd (fork) -- unrelated процессы их не увидят. EOF на read'е приходит когда все писатели закрыли свой fd. Запись блокируется когда буфер полон.

Пример:

import os

r, w = os.pipe()
pid = os.fork()
if pid == 0:
    os.close(r)
    os.write(w, b'hello')
    os._exit(0)
else:
    os.close(w)
    print(os.read(r, 100))  # b'hello'
    os.waitpid(pid, 0)

# shell: $ ls | grep .txt -- это pipe()

Подробнее в уроках:

Pipes

FIFO

FIFO (named pipe)

Термин

Pipe с именем в файловой системе. Создаётся через mkfifo(1) или mkfifo(3). В отличие от анонимного pipe, может использоваться unrelated процессами -- они оба открывают один и тот же путь. Запись/чтение -- через стандартные open/read/write. open блокируется до тех пор, пока кто-то не откроет другой конец (если не O_NONBLOCK). Данные не пишутся на диск -- передаются в kernel-буфере. Полезно для шёлл-скриптов и простой сериализации.

Пример:

# Терминал 1
mkfifo /tmp/mypipe
echo 'hello' > /tmp/mypipe
# Блокируется пока кто-то не прочитает

# Терминал 2
cat /tmp/mypipe
# hello

Подробнее в уроках:

Pipes

Signal

Термин

Асинхронное уведомление, отправленное процессу. Стандартных сигналов 31 + real-time signals (32-64). Процесс может: обработать (handler), игнорировать (SIG_IGN), оставить default. SIGKILL и SIGSTOP нельзя ни поймать, ни проигнорировать. Сигнал доставляется в любой момент -- handler должен быть async-signal-safe (только список разрешённых syscalls). В новых API часто заменяется на signalfd: сигналы как poll'имый файл-дескриптор, что снимает большую часть граблей.

Пример:

import signal
import os
import time

def handler(signum, frame):
    print(f'got signal {signum}')

signal.signal(signal.SIGUSR1, handler)
print(f'my pid is {os.getpid()}, send: kill -USR1 {os.getpid()}')
time.sleep(60)

# В другом терминале
kill -USR1 <PID>

Подробнее в уроках:

Signals

SIGTERM

SIGTERM (15)

Термин

Стандартный сигнал 'просьба завершиться'. Процесс может перехватить и сделать graceful shutdown: закрыть соединения, флушнуть буферы, сохранить state. Это сигнал по умолчанию у `kill PID` без флага. systemd при остановке сервиса сначала шлёт SIGTERM, ждёт TimeoutStopSec (default 90 сек), затем SIGKILL. Хорошо написанный сервис при SIGTERM начинает draining: перестаёт принимать новые запросы, завершает текущие, корректно отключается.

Пример:

# Послать процессу SIGTERM
kill 12345
# или явно
kill -TERM 12345
kill -15 12345

# В Python
import signal
signal.signal(signal.SIGTERM, lambda *a: shutdown_gracefully())

Подробнее в уроках:

Signals

SIGKILL

SIGKILL (9)

Термин

Безусловное убийство процесса. Не может быть пойман или проигнорирован -- kernel убивает процесс немедленно. Используется как крайнее средство, когда SIGTERM не сработал. Минус: процесс не успеет закрыть файлы (буферы потеряются), отдать соединения, обновить state. На D-state (uninterruptible) процесса SIGKILL не подействует, пока процесс не выйдет из kernel-кода -- иногда D-процессы остаются 'до перезагрузки'.

Пример:

# Убить процесс наверняка
kill -9 12345
kill -KILL 12345

# Если процесс в D-state -- ждать или ребут
ps -eo pid,stat,comm | awk '$2 ~ /D/'

Подробнее в уроках:

Signals

Unix Socket

Unix domain socket

Термин

IPC-механизм через стандартный socket API (socket/bind/connect/send/recv), но без сети -- общение через файл-сокет в FS (`/tmp/app.sock`, `/var/run/docker.sock`) или абстрактное имя (с префиксом 0x00). Быстрее TCP loopback (нет TCP overhead), безопаснее (можно контролировать через файловые права на сокет, plus SO_PEERCRED -- узнать UID собеседника). Поддерживает SOCK_STREAM и SOCK_DGRAM. Используется в Docker, X11, PostgreSQL, systemd.

Пример:

# Сервер
import socket
s = socket.socket(socket.AF_UNIX, socket.SOCK_STREAM)
s.bind('/tmp/my.sock')
s.listen(5)
conn, _ = s.accept()
print(conn.recv(1024))

# Клиент
import socket
c = socket.socket(socket.AF_UNIX, socket.SOCK_STREAM)
c.connect('/tmp/my.sock')
c.send(b'hello')

# В FS
ls -la /tmp/my.sock
# srwxr-xr-x 1 user user 0 ... /tmp/my.sock

Подробнее в уроках:

Unix sockets

Файловые системы

File Descriptor

File descriptor (fd)

Термин

Целочисленный handle, который kernel выдаёт процессу при открытии файла, сокета, pipe, eventfd и т.д. Уникален в рамках процесса. Стандартные: 0 stdin, 1 stdout, 2 stderr. open/socket/pipe возвращают свежий fd; read/write/close принимают fd. Все 'всё есть файл' в Unix реализовано через единый API над fd. Лимит на количество одновременно открытых fd ограничен: ulimit -n (default 1024). При исчерпании syscalls вернут EMFILE 'Too many open files'.

Пример:

# Все fd процесса
ls -la /proc/$$/fd/
# lrwx------ 0 -> /dev/pts/0
# lrwx------ 1 -> /dev/pts/0
# lrwx------ 2 -> /dev/pts/0

# Текущий лимит
ulimit -n
# 1024

# Системный максимум
cat /proc/sys/fs/file-max

Подробнее в уроках:

open/read/write

Inode

Inode (index node)

Термин

Структура метаданных файла на диске: размер, права, владелец, mtime/ctime/atime, ссылки на блоки данных, счётчик hard-links. Имя файла НЕ в inode -- оно живёт в директории как пара (имя -> номер inode). Поэтому два разных имени могут указывать на один inode (hard link). Количество inode фиксируется при mkfs (`mkfs.ext4 -N`). 'No space left on device' при df с free space -- часто исчерпан пул inode (см. `df -i`).

Пример:

# Номер inode файла
stat /etc/passwd
#   File: /etc/passwd
#   Inode: 12345  Links: 1

# То же из ls
ls -i /etc/passwd
# 12345 /etc/passwd

# Inode use на разделе
df -i /
# Filesystem  Inodes  IUsed   IFree IUse% ...

Подробнее в уроках:

Inodes

Hard Link

Hard link

Термин

Второе (третье и т.д.) имя для существующего файла, указывающее на тот же inode. Все hard links равноправны -- 'оригинала' нет. Файл физически удаляется когда счётчик ссылок (`stat -c %h`) падает до нуля И никто его не держит открытым. Hard links нельзя сделать на директории (избегаем циклов) и через разные mount-точки (inode уникальны только в рамках FS). Удобны для дедупликации (rsync --link-dest, Time Machine).

Пример:

echo 'hello' > /tmp/orig
ln /tmp/orig /tmp/link
stat /tmp/orig | grep Links
# Links: 2
rm /tmp/orig
cat /tmp/link
# hello  -- файл жив, есть второе имя

Подробнее в уроках:

Links

Symlink

Symbolic link (symlink)

Термин

Специальный файл, содержащий путь к другому файлу. При открытии kernel прозрачно следует по этому пути. Symlink может указывать на несуществующий файл (dangling), пересекать FS-границы, ссылаться на директорию. Удаление symlink не трогает target; удаление target оставляет dangling symlink. В отличие от hard link, видно через `ls -la` (`->`). Создаётся `ln -s`. readlink читает значение без следования.

Пример:

ln -s /etc/passwd /tmp/users
ls -la /tmp/users
# lrwxr-xr-x 1 ... /tmp/users -> /etc/passwd
readlink /tmp/users
# /etc/passwd

# Не следовать symlink
ls -l --no-dereference /tmp/users
stat -L /tmp/users  # с -L следовать

Подробнее в уроках:

Links

Mount

Термин

Операция, прикрепляющая файловую систему (раздел диска, NFS-share, tmpfs) к точке в существующем дереве каталогов. Без mount раздел диска -- набор блоков, недоступный через обычное чтение файлов. После mount /dev/sda2 на /mnt/data, все файлы FS видны под /mnt/data/... Один блочный девайс может быть mount'ен в нескольких местах (с MS_BIND). Системные mounts описаны в `/etc/fstab` и автоматически делаются при boot.

Пример:

# Все смонтированное
mount | head
findmnt -l | head

# Подключить раздел
sudo mount /dev/sdb1 /mnt/data

# Отключить
sudo umount /mnt/data

# Что в fstab
cat /etc/fstab

Подробнее в уроках:

Mount и fstab

fstab

fstab (/etc/fstab)

Термин

Конфиг автоматических mount'ов при загрузке. Каждая строка: устройство (или UUID), точка монтирования, тип FS, опции, dump-флаг, fsck-order. Используется systemd при boot, а также `mount -a`. Лучше указывать UUID, а не /dev/sdaN -- порядок устройств может меняться. Опции типа `noatime` улучшают perf, `relatime` -- разумный default. Ошибки в fstab могут запретить загрузку -- использовать `mount -a` или `findmnt --verify` перед reboot.

Пример:

cat /etc/fstab
# /dev/disk/by-uuid/abc123 / ext4 errors=remount-ro 0 1
# UUID=def456 /home ext4 defaults 0 2
# tmpfs /tmp tmpfs nosuid,noexec 0 0

# Проверка перед reboot
sudo findmnt --verify

Подробнее в уроках:

Mount и fstab

VFS

VFS (Virtual File System)

Термин

Абстракция в kernel, дающая единый API для разных файловых систем. open/read/write/close работают одинаково для ext4, xfs, btrfs, tmpfs, NFS, FUSE, /proc, /sys. VFS определяет операции (inode_operations, file_operations, super_operations), а каждая FS их реализует под себя. Благодаря VFS, userspace не зависит от конкретной FS и можно прозрачно использовать сетевые/виртуальные FS. /proc и /sys -- pseudo-FS, не имеют дисковых блоков, операции read/write генерируют данные на лету.

Пример:

# Все смонтированные FS и их типы
findmnt --types ext4,xfs,btrfs,tmpfs,procfs,sysfs | head

# Поддерживаемые ядром типы FS
cat /proc/filesystems
# nodev sysfs
# nodev tmpfs
#       ext4

Подробнее в уроках:

VFS

ext4

ext4 filesystem

Термин

Журналируемая FS, default в большинстве Linux-дистрибутивов. Развитие ext2/ext3. Поддерживает extents (компактное описание непрерывных диапазонов блоков), журнал (восстановление после краха), backwards-compat с ext3. Хорошо балансирует производительность и стабильность для общего use case. Лимиты: до 16 TiB файлов, 1 EiB FS. Минусы: нет snapshot'ов, нет встроенного checksum'а данных, нет copy-on-write.

Пример:

# Создать ext4
mkfs.ext4 /dev/sdb1

# Проверить и оптимизировать
fsck.ext4 /dev/sdb1
tune2fs -l /dev/sdb1 | head

# Resize онлайн
resize2fs /dev/sdb1

Подробнее в уроках:

xfs

xfs filesystem

Термин

Журналируемая FS, изначально из SGI Irix, теперь главная FS для RHEL/Rocky/CentOS. Сильна на больших объёмах: миллионы файлов в директории, файлы до 8 EiB, отличное масштабирование на NVMe/multi-disk. Поддерживает delayed allocation (откладывает запись на диск, объединяя в большие extents). Не умеет shrink -- только grow. Хороший выбор для filer'ов, медиа-серверов, баз с тяжёлыми блобами.

Пример:

# Создать
mkfs.xfs /dev/sdb1

# Информация
xfs_info /

# Дефрагментация
xfs_fsr -v /

# Снимок-через-LVM (xfs сам snapshot не умеет)

Подробнее в уроках:

btrfs

btrfs filesystem

Термин

Copy-on-write FS с встроенными snapshots, checksums, compression, RAID, send/receive. Полностью реализована в mainline Linux. Default в SUSE, Synology DSM. Преимущества: атомарные snapshot за O(1), incremental backup через send/receive, прозрачное сжатие (zstd/lz4), проверка целостности. Минусы: исторически проблемы с RAID5/6 (write hole), требовательность к свободному месту (нельзя забивать >85%), медленнее ext4 на random-write workload.

Пример:

# Создать subvolume
btrfs subvolume create /mnt/data/work

# Snapshot
btrfs subvolume snapshot /mnt/data/work /mnt/data/work-2026-05-18

# Send/receive
btrfs send /mnt/data/work-2026-05-18 | ssh backup btrfs receive /backup/

# Использование
btrfs filesystem df /

Подробнее в уроках:

zfs

zfs filesystem

Термин

Самая богатая по фичам FS: copy-on-write, snapshots, send/receive, encryption, compression (zstd), deduplication, RAID-Z, end-to-end checksums, ARC-кэш в RAM. Изначально из Sun Solaris, в Linux через OpenZFS (license из-за CDDL ставится out-of-tree). Дорогая по памяти (1 GB RAM на 1 TB рекомендация), но мощь -- основа TrueNAS, многих storage-серверов. Дедупликация требует огромных ресурсов -- обычно отключают.

Пример:

# Создать pool из двух дисков (mirror)
zpool create tank mirror /dev/sdb /dev/sdc

# Dataset с сжатием
zfs create -o compression=zstd tank/data

# Snapshot
zfs snapshot tank/data@2026-05-18

# Список pool'ов и состояние
zpool status

Подробнее в уроках: