Troubleshooting — DSA 01

Question 1

list.insert(0, x) тормозит при росте размера

Accepted Answer

list.insert(0, ...) в CPython — O(n): все существующие элементы сдвигаются вправо через memmove. N таких вставок дают суммарно O(n^2). На 1M это около 10^12 операций сдвига. Используй collections.deque и appendleft() — O(1) амортизированно за счёт doubly-linked-list блоков. Если порядок не важен — append() в конец и потом reverse(). Если важна последующая random-access итерация — copy в list только в самом конце.

Question 2

x in lst занимает минуты на больших списках

Accepted Answer

Оператор in на list — O(n), линейный поиск с равенством. Внутри цикла на N элементах получается O(n^2). Для 200K — это 4*10^10 операций сравнения. Используй set для проверки членства: seen = set(); if x not in seen: seen.add(x); result.append(x). Оператор in на set — O(1) средний. Если порядок не важен — просто list(set(data)). Если нужна стабильность порядка с Python 3.7+ — dict.fromkeys(data).

Question 3

Конкатенация строк через += в цикле — медленно

Accepted Answer

Строки в Python immutable, поэтому s += t создаёт новую строку и копирует обе. На N итерациях суммарно O(n^2) копирования байт. CPython иногда оптимизирует in-place при refcount=1, но на это нельзя полагаться. Накапливай куски в list и в конце сделай ''.join(parts) — O(n) суммарно. Для очень больших данных — пиши прямо в io.StringIO или сразу в файл через csv.writer.

Question 4

Обход linked list на 10M узлов медленнее массива в 50 раз

Accepted Answer

Pointer chasing: каждый node.next — это указатель в произвольное место кучи. Prefetcher CPU не угадывает следующий адрес, каждое обращение почти всегда cache miss с 60+ ns латентностью. Массив укладывается в cache line по 64 байта — 8-16 элементов на одну загрузку. Если нужна частая итерация — храни данные в list или numpy.ndarray, а не в linked list. Если нужны head/tail O(1) операции и итерация — collections.deque (блоки по 64 элемента дают приличную spatial locality). Linked list оправдан только в очень редких сценариях: разделяемые подсписки, точечные O(1) splice.

Question 5

dict внезапно стал O(n) на больших данных

Accepted Answer

Ключи имеют коллизию по хешу — все попадают в один кластер. Например, кастомный __hash__ возвращает 0 для всех объектов, либо ключи — атакующие строки с pre-computed коллизиями (SipHash без seed). Probing проходит весь массив. Проверь распределение hash(key) для своих ключей: collections.Counter(hash(k) & 0xFF for k in keys). Если идёт перекос — поправь __hash__, чтобы он смешивал все поля. Для строк из недоверенного источника всегда используется SipHash с PYTHONHASHSEED, проблема исключена.

Question 6

sort с lambda-key даёт неправильный порядок

Accepted Answer

Timsort вызывает key(x) для каждого элемента один раз и кэширует. Но если key имеет side effects (random) — сортировка получает несогласованный порядок (нарушает strict weak ordering). Поведение undefined, конкретный результат зависит от количества сравнений. Для перемешивания используй random.shuffle(data) — O(n), Fisher-Yates. Никогда не клади side effects или недетерминированные вычисления в key. Если key дорогой — вычисли заранее в list и используй sorted(zip(keys, data)).

Question 7

Рекурсивный обход глубокого дерева падает с RecursionError

Accepted Answer

Каждый рекурсивный вызов кладёт frame в Python-стек: локальные переменные, return address. На больших деревьях стек переполняется до выхода с результатом. Это не stack overflow ОС, а sys.setrecursionlimit. Перепиши обход в итеративный с явным стеком: stack = [root]; while stack: node = stack.pop(); ... stack.append(node.right); stack.append(node.left). Работает на произвольной глубине, ограниченной только RAM. Для tail-recursive вызовов sys.setrecursionlimit(10**6) — крайняя мера, лучше итерация.

Question 8

MemoryError при чтении CSV в list

Accepted Answer

list из 50M dict-ов — это ~10GB только на overhead Python-объектов (каждый dict с короткими ключами весит ~232 байт, не считая values). PyObject pointer = 8 байт, плюс заголовок каждого объекта ~16 байт. Используй streaming: обрабатывай по чанкам через pandas.read_csv(..., chunksize=100000) или iterate через csv.reader без накопления. Для аналитики — Polars/DuckDB читают в столбцовом формате с в 5-10 раз меньшим overhead. Если нужно много раз читать — конвертируй в Parquet.

Question 9

sys.getsizeof показывает 88 байт для list из 1M элементов

Accepted Answer

sys.getsizeof измеряет только сам объект-контейнер, не следуя по ссылкам. Для list это 56 байт заголовка + 8 байт на каждый PyObject*. Сами объекты-элементы (int, dict, str) считаются отдельно. Используй pympler.asizeof для рекурсивного измерения, либо tracemalloc.get_traced_memory() для всей программы. Альтернатива — посчитать вручную: размер контейнера + sum(sys.getsizeof(x) for x in container).

Question 10

Sliding window держит лишние данные в RAM

Accepted Answer

Очистка окна делается по ошибочному условию (например, по индексу, а не по timestamp). Либо используется list с del list[0] (O(n), плюс не очищается из-за условия), вместо deque. Иногда из-за хранения ссылок на старые события в логах. Используй collections.deque с maxlen, либо явный popleft по предикату «timestamp старше now - window». Замерь реальный размер окна через len() и sys.getsizeof по чек-поинтам. Закрытые ссылки — через weakref если нужны для logging.

Question 11

Binary search возвращает неправильный индекс на дубликатах

Accepted Answer

bisect_left возвращает первую позицию, куда можно вставить target, сохраняя порядок (то есть индекс первого вхождения, если есть). bisect_right — индекс после последнего вхождения. Сам по себе bisect не проверяет наличие — это off-by-one кейс. Чтобы найти target: i = bisect_left(arr, target); if i < len(arr) and arr[i] == target: found. Чтобы найти range дубликатов: lo = bisect_left, hi = bisect_right, count = hi - lo. Не предполагай, что bisect сам делает equality check.

Question 12

Infinite recursion в DFS на циклическом графе

Accepted Answer

В графе есть цикл (например, A -> B -> A в lineage), а DFS не отслеживает visited-вершины. Каждое посещение запускает обход тех же узлов заново. Без visited-set DFS на циклическом графе не завершится. Всегда веди visited = set() и проверяй if node in visited: continue перед обходом. Для обнаружения циклов в DAG — 3-цветная разметка (WHITE/GRAY/BLACK): встретили GRAY-вершину = цикл. Для топологической сортировки используй алгоритм Кана через очередь in-degree=0.

Question 13

sort не стабильный для multi-key, порядок ломается

Accepted Answer

Стабильность Timsort означает «равные элементы сохраняют относительный порядок». Но если сортировать одним ключом, а потом другим — выигрывает последний ключ, остальное сохраняется только в пределах равенства по последнему ключу. Для multi-key всегда сортируй одним вызовом с tuple-ключом: data.sort(key=lambda x: (x.region, x.date)). Либо последовательно от младшего ключа к старшему: sorted(data, key=lambda x: x.date); sorted(_, key=lambda x: x.region) — Timsort-стабильность гарантирует, что внутри region порядок по date сохранится.

Question 14

TypeError: unhashable type — list/dict как ключ

Accepted Answer

Хеш-таблицы требуют, чтобы ключ был неизменяемым: hash(key) должен оставаться постоянным всё время, пока ключ в таблице. Если разрешить mutable ключ, его hash мог бы измениться после insert, и lookup не нашёл бы элемент. Конвертируй mutable в immutable: list -> tuple, set -> frozenset, dict -> tuple(sorted(d.items())). Для кастомных классов — реализуй __hash__ и __eq__ согласованно (равные объекты должны иметь равный hash) и сделай поля immutable либо @dataclass(frozen=True).

Question 15

Сравнение float через == даёт неожиданный False

Accepted Answer

IEEE 754 binary64: десятичная дробь 0.1 в двоичной системе — бесконечная дробь, представляется приближённо. После арифметики младшие биты не совпадают с прямым представлением 0.3. Сравнивай через math.isclose(a, b, rel_tol=1e-9) или abs(a-b) < eps. Для денежных значений используй decimal.Decimal с явной точностью. Не клади float в dict как ключ напрямую — округляй до нужной точности или используй decimal/int (центы вместо рублей).

Question 16

Дедупликация миллиардов событий взорвала RAM

Accepted Answer

set из 5B 16-байтных UUID — это минимум 5B * (size_of(PyObject*) + size_of(PyUnicodeObject)) ~ 5B * 60 байт = 300GB. Даже с компактным хранением как bytes — десятки GB только на сами объекты, плюс bucket-overhead set. Используй Bloom filter (pybloom-live, mmh3): на 5B элементов с false positive rate 0.001 — около 8GB битового массива. Если нужна точная дедупликация — внешняя сортировка с merge (sort -u или DuckDB DISTINCT с spill to disk). Для streaming — HyperLogLog для approximate distinct count.

Question 17

Top-K реализован через полную сортировку

Accepted Answer

Полная сортировка — O(N log N), для 100M это ~2.7 миллиарда сравнений. Плюс sorted() создаёт новый list на N элементов — лишняя память. Top-K не требует полного порядка остальных N-K элементов. Используй heapq.nlargest(10, data, key=lambda x: x.revenue) — O(N log K) через min-heap размера K. Для K=10, N=100M это ~330M сравнений — на порядок быстрее. Память — O(K). Для streaming — поддерживай heap размера K вручную: heappush + heappop при переполнении.

Question 18

ETL не пишет промежуточные результаты, всё теряется при падении

Accepted Answer

Промежуточные state-ы держатся в памяти Python и не сериализуются. После SIGTERM/OOM/exception всё в GC. Нет идемпотентности по chunk-ам. Разбей на батчи фиксированного размера (10K-100K записей), пиши результат каждого батча в Parquet/SQLite/PostgreSQL. Веди checkpoint-file с last_processed_offset. При перезапуске — пропускай уже обработанные чанки. Для оркестрации используй Airflow или Prefect с tasks-уровнем retry.

Question 19

Неправильная структура для streaming window — высокий tail latency

Accepted Answer

Окно реализовано через list с del list[0] для старых элементов — O(n) на каждое удаление. При большом окне (N=10K) операция занимает миллисекунды, блокируя event loop. Используй collections.deque — popleft O(1). Для time-based windows — храни (timestamp, value) и popleft в while-цикле, пока самый старый старше cutoff. Для агрегаций sum/count — обновляй инкрементально (running_sum += new - removed), не пересчитывай заново.

Question 20

Алгоритм O(n) работает медленнее, чем O(n log n) на маленьких данных

Accepted Answer

Big-O скрывает константы. O(n) с большой константой (моя hash-функция в чистом Python) проигрывает O(n log n) с маленькой константой (Timsort, написанный на C). Для маленьких n константы доминируют. Меряй на реальных размерах. Для маленьких списков (n < 100) линейный поиск может быть быстрее hash и binary search из-за cache locality. Для больших — выбирай по асимптотике. Если есть Python-уровневая обработка элементов внутри O(n) — почти всегда проиграешь C-уровневому O(n log n) или O(n^2).

Question 21

BFS жрёт всю память на широком графе

Accepted Answer

BFS хранит весь frontier — вершины, до которых текущий уровень дошёл. На графе с большим branching factor frontier растёт экспоненциально по уровням. Память — O(V) в худшем случае, но константа большая (8 байт указатель + overhead Python-int + bookkeeping). Если граф направленный и нужен любой обход — DFS использует O(h) памяти (глубина рекурсии). Если нужен именно shortest-path-обход — рассмотри bidirectional BFS (вдвое меньше глубина). Для очень больших графов — обработка по чанкам, материализация frontier на диск, или внешний фреймворк (NetworkX -> graph-tool, GraphFrames в Spark).

Question 22

heapq не находит максимум — выдаёт минимум

Accepted Answer

Python heapq реализует только min-heap. Это явно описано в документации, но интуиция «куча» обычно подразумевает max-heap. Инвертируй знаки: heappush(heap, -value), потом -heappop(heap) даст максимум. Для tuple-ключей: push (-key, value), pop первого элемента — максимум по key. Альтернатива — heapq._heapify_max и _siftdown_max (внутренние, но рабочие). Для production — sortedcontainers.SortedList или явная реализация max-heap.

Question 23

Cache thrashing при доступе к матрице по столбцам

Accepted Answer

Numpy/list of lists хранит данные row-major: строка целиком лежит в непрерывной памяти. Доступ по столбцам прыгает через всю строку (8*5000 = 40000 байт), каждый шаг — потенциальный cache miss. Кэш-линии (64 байта) загружаются и тут же выкидываются — cache thrashing. Меняй порядок циклов: внешний — строка, внутренний — столбец. Если задача требует доступа по столбцам — транспонируй матрицу заранее (matrix.T в numpy создаёт view, но материализуй через .copy() для последующих доступов в кэш-friendly режиме). Для column-store оптимизации используй pandas/Polars или DuckDB.

Question 24

tracemalloc показывает рост памяти, но GC ничего не освобождает

Accepted Answer

Объекты держатся живыми ссылками: глобальные переменные, замыкания, registered callbacks, кэши. GC находит только циклические ссылки — обычное удержание через refcount > 0 GC не трогает. Найди живые ссылки: objgraph.show_most_common_types() даст топ по количеству объектов в куче. objgraph.show_backrefs() покажет, кто держит конкретный объект. Часто виноваты глобальные dict-кэши, lru_cache без maxsize, незакрытые file handles, события в очередях без consumer.

Question 25

Branch prediction промахи на random-данных делают цикл медленным

Accepted Answer

На отсортированном массиве предикат x > threshold даёт длинные серии True и длинные серии False — branch predictor предугадывает идеально. На случайных данных — 50/50 промахи, каждый промах = 10-20 тактов простоя pipeline. Для критичных горячих циклов на больших массивах — переходи на numpy: arr[arr > threshold].sum() векторизуется через SIMD, без бранчей. Если данные можно предобработать (отсортировать) — branchy-логика после сортировки сильно ускоряется. Альтернатива — branchless-код (например, mask вместо if).

Question 26

Counter и defaultdict — какой быстрее на агрегации

Accepted Answer

Counter — это dict с дополнительной логикой (методы most_common, операции с другими Counter). Конструктор делает Counter(iterable) -> внутренне dict + дополнительная _missing_-логика. defaultdict(int) использует чистый dict-protocol через __missing__ и нативный int.__add__. Если нужно только подсчитать — defaultdict(int) с d[key] += 1 или dict.get(key, 0) + 1. Counter оправдан, когда нужны most_common, операции between counters, или удобство кода важнее производительности. Для очень горячих циклов — pandas.value_counts или numpy.unique(arr, return_counts=True).

Question 27

Recursion на широком дереве (а не глубоком) всё равно падает с stack overflow

Accepted Answer

RecursionError срабатывает на превышении sys.getrecursionlimit() (1000 по умолчанию) — учитывается общая глубина стека Python-кадров, включая накопленные вызовы хелперов. Не имеет значения, дерево «широкое» или «глубокое» в смысле графа — важна глубина именно функциональных вызовов. Перепиши обход в итеративный с явным stack/queue: для BFS — collections.deque, для DFS — list как stack. Для in-order/post-order traversal — явный stack с маркерами posetility. Если рекурсия неустранима (например, для readability на не-critical-пути) — sys.setrecursionlimit, но осторожно: реальный stack overflow ОС даст segfault.

Question 28

ETL делает full table scan на каждом lookup, должен использовать индекс

Accepted Answer

Вложенный цикл — это O(N*M) = 10^12 сравнений. Linear scan по dim для каждой fact-записи. Это hash join на бумаге, но реализован как nested loop. Построй dict (hash table) из dim по join-key один раз — O(M). Lookup для каждой fact — O(1). Суммарно O(N+M) = ~10M операций. Если данные не помещаются — используй pandas.merge (внутри hash join), либо DuckDB/SQLite с явным индексом. Для больших join — Spark broadcast join с broadcasted dim.

Question 29

PYTHONHASHSEED не fixed — результаты не воспроизводятся

Accepted Answer

В Python 3.3+ hash(str), hash(bytes) рандомизирован при старте процесса (PYTHONHASHSEED=random по умолчанию). Это защита от hash-flooding атак, но мешает воспроизводимости snapshots, которые зависят от порядка ключей или probing-последовательности. Для тестов: установи PYTHONHASHSEED=0 (или фиксированное число) перед запуском. Лучшее решение — не полагайся на порядок dict/set в логике, делай явный sort при сравнении. Для серилизации — используй json.dumps(d, sort_keys=True). Для snapshot-тестов с pytest — sort items в fixture.

Question 30

list.remove() в цикле работает в O(n^2) и удаляет не то

Accepted Answer

Две проблемы: (1) lst.remove(x) — O(n) (поиск + сдвиг), итого O(n^2). (2) модификация list во время итерации — индексы итератора съезжают, элементы пропускаются. Создай новый list через comprehension: result = [x for x in lst if not predicate(x)] — O(n), читаемо, без багов. Если нужна модификация in-place — итерируй по копии: for x in lst[:]: lst.remove(x). Для больших списков — filter() с генератором или numpy boolean mask.

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина

Решение

Симптомы

Причина