Tour по source code Apache Flink

Apache Flink — большой проект. На май 2026 в репозитории apache/flink около 2.8 миллиона строк Java и Scala кода, более 200 maven-модулей, около 4 тысяч контрибьюторов в истории. Если вы первый раз открываете этот код, можно растеряться: куда смотреть, чтобы найти, как работает checkpoint? Где живёт RocksDB-интеграция? Что такое модули flink-runtime и flink-runtime-web и в чём разница?

Этот урок — практический tour. К концу вы будете знать структуру репозитория достаточно, чтобы за минуты находить нужный код. Это не разовый навык — это ежедневный инструмент Flink-инженера. Большинство ответов на ваши production-вопросы находятся в коде, а не в документации.

Tour по исходному коду Kafka

Где взять source code

git clone https://github.com/apache/flink.git
cd flink
git checkout release-2.2

Для tour лучше использовать релизный tag, потому что master постоянно меняется. На май 2026 актуальная ветка — release-2.2. Если вы работаете с другой версией — git checkout release-1.20 для предыдущей LTS, и так далее.

Опционально клонируйте параллельно три связанных репозитория:

git clone https://github.com/apache/flink-kubernetes-operator.git
git clone https://github.com/apache/paimon.git
git clone https://github.com/apache/fluss.git

Это не core-Flink, но они важны: K8s operator — рекомендуемый deployment-механизм, Paimon — lakehouse-формат для Flink streaming-tables, Fluss — stream-storage layer (бывший Flink Table Store + новая архитектура).

Структура корня репозитория

После клонирования вы видите много директорий. Не все одинаково важны.

Структура apache/flink — что важно

flink-core

flink-runtime

flink-runtime-web

flink-streaming-java

flink-table

flink-libraries

flink-state-backends

flink-connectors

flink-formats

flink-clients

flink-python

flink-kubernetes

flink-yarn

flink-tests

flink-examples

Если бы нужно было выбрать три модуля для изучения первыми — это flink-runtime, flink-streaming-java и flink-state-backends. В них живёт основная масса того, что вы будете дебажить в проде.

flink-runtime: сердце Flink

flink-runtime — самый большой и самый важный модуль. Около 600 тысяч строк кода. Внутри — десятки подпакетов, и навигация в них требует mental map.

Ключевые пакеты flink-runtime

org.apache.flink.runtime.dispatcher

org.apache.flink.runtime.resourcemanager

org.apache.flink.runtime.jobmaster

org.apache.flink.runtime.taskexecutor

org.apache.flink.runtime.scheduler

org.apache.flink.runtime.executiongraph

org.apache.flink.runtime.jobgraph

org.apache.flink.runtime.checkpoint

org.apache.flink.runtime.state

org.apache.flink.runtime.io.network

org.apache.flink.runtime.memory

org.apache.flink.runtime.rpc

org.apache.flink.runtime.highavailability

org.apache.flink.runtime.metrics

org.apache.flink.runtime.security

Главное правило навигации: большинство классов в flink-runtime имеют имя, по которому можно догадаться, что они делают. CheckpointCoordinator — координирует чекпоинты. TaskExecutor — исполняет таски. SlotManager — управляет слотами. Это упрощает поиск: открыли IDE, Cmd-O / Ctrl-N, набрали Checkpoint, увидели 50 классов, нашли что нужно.

flink-streaming-java: DataStream API

Этот модуль — это то, что вы используете каждый день, если пишете DataStream-программы. Здесь живут:

Ключевые пакеты flink-streaming-java

org.apache.flink.streaming.api

org.apache.flink.streaming.api.graph

org.apache.flink.streaming.api.operators

org.apache.flink.streaming.api.windowing

org.apache.flink.streaming.api.watermark

org.apache.flink.streaming.api.functions

org.apache.flink.streaming.runtime.tasks

org.apache.flink.streaming.runtime.io

org.apache.flink.streaming.connectors

Главный поток понимания: ваш DataStream-код -> StreamGraph (api.graph) -> JobGraph (flink-runtime/jobgraph) -> ExecutionGraph (flink-runtime/executiongraph). На runtime каждая ExecutionVertex становится Task, который запускается через StreamTask#invoke() (runtime.tasks). Внутри StreamTask вызывает operator.processElement() на каждом элементе из input channel.

flink-table: Table и SQL

Это самостоятельный мир. Если вы только DataStream-разработчик, этот модуль для вас второстепенен. Если SQL-инженер — это ваш main фокус.

Структура:

Подмодули flink-table

flink-table-common

flink-table-api-java

flink-table-runtime

flink-table-planner

flink-table-code-splitter

flink-sql-client

flink-sql-parser

flink-sql-gateway

Главный класс — org.apache.flink.table.planner.delegation.PlannerBase. Сюда уходит ваш SQL. Внутри он использует Apache Calcite для синтаксического анализа, построения логического плана, применения optimizer rules (Calcite Volcano planner) и финального code generation. На выходе — код на Java, который JIT-компилируется в runtime и исполняется.

В модуле 09 разберём этот pipeline до деталей.

flink-state-backends: state storage

Здесь живут конкретные state backend implementations. На 2026 их три основных:

State backends в Flink 2.2

flink-statebackend-rocksdb

flink-statebackend-forst

flink-statebackend-heap

flink-statebackend-changelog

Главный класс RocksDB-backend — org.apache.flink.state.rocksdb.RocksDBKeyedStateBackend. Снимок (snapshot) — через RocksIncrementalSnapshotStrategy. ForStDB живёт по аналогичному паттерну в flink-statebackend-forst. В модулях 05 и 10 разберём.

flink-kubernetes-operator: deployment

Отдельный репозиторий: https://github.com/apache/flink-kubernetes-operator. На 2026 это рекомендуемый способ deployment Flink на K8s. Старая native K8s интеграция (flink-kubernetes в core) считается legacy.

Operator управляет:

FlinkDeployment CRD — описывает кластер (JM + TM).
FlinkSessionJob CRD — описывает job в существующем session-кластере.
Lifecycle: запускает JM/TM как pods, мониторит, рестартит при сбое, делает savepoint upgrades.

Главный controller-класс — org.apache.flink.kubernetes.operator.controller.FlinkDeploymentController в репозитории flink-kubernetes-operator.

В модуле 21 (Capstone) разберём, как построить полноценный production platform на этом operator-е.

FLIP: как читать предложения по дизайну

FLIP (Flink Improvement Proposal) — это форма design document. Каждая значимая фича Flink начинается с FLIP-документа, который обсуждается на dev@flink mailing list, голосуется, и потом имплементируется.

Список всех FLIP: https://cwiki.apache.org/confluence/display/FLINK/Flink+Improvement+Proposals

На 2026 их около 540. Несколько ключевых для нашего курса:

Ключевые FLIP-ы для курса

FLIP-27: Source V2

FLIP-191: Sink V2

FLIP-160: Adaptive Scheduler

FLIP-423: Disaggregated State

FLIP-158: Changelog State

FLIP-76: Unaligned Checkpoints

FLIP-265: Drop Scala

FLIP-460: AI Models в SQL

Как читать FLIP: открываете confluence-страницу FLIP-N, видите структуру: Motivation -> Public Interfaces -> Proposed Changes -> Compatibility/Migration Plan -> Test Plan -> Rejected Alternatives. Самая ценная часть — Rejected Alternatives: там описано, какие были обсуждены подходы и почему не выбраны. Это даёт глубочайший контекст для понимания дизайн-решений.

TIP

Каждый раз, когда вы натыкаетесь на странность Flink (“почему так?”), посмотрите, нет ли FLIP-а по этой теме. Часто там лежит ответ — почему API такой, какие альтернативы рассматривались, что в очереди на будущее.

Как навигироваться по коду эффективно

Несколько практических приёмов.

1. IDE setup

Используйте IntelliJ IDEA. Откройте проект как Maven (если IDE не подтянул автоматически — File -> Open -> выберите root pom.xml). Это позволит делать Cmd-O (поиск класса), Cmd-Alt-B (find usages), Cmd-B (go to definition). Без IDE навигация по 2.8M строкам становится мучением.

2. Поиск по конкретным методам

Если знаете, что в логах видели сообщение типа Triggering checkpoint 12345 for job ..., поиск этой строки даст вам класс, который её генерирует:

grep -rn "Triggering checkpoint" --include="*.java" .

Скорее всего вы попадёте в CheckpointCoordinator#triggerCheckpoint.

3. Trace через interfaces

Многие ключевые компоненты Flink — это interfaces с несколькими implementations:

Scheduler -> DefaultScheduler, AdaptiveScheduler, AdaptiveBatchScheduler
StateBackend -> HashMapStateBackend, EmbeddedRocksDBStateBackend, ForStStateBackend
RpcGateway -> много подклассов

Если хотите понять, как что-то работает, начните с interface (он маленький), посмотрите method signatures, потом выберите конкретный implementation для глубокого разбора.

4. Smoke tests как примеры

В flink-tests лежит много end-to-end тестов. Если непонятно, как использовать какой-то API — найдите тест, который его использует. Например, тест для checkpoint API: flink-tests/src/test/java/org/apache/flink/test/checkpointing/CheckpointStorageCheckpointingITCase.java.

5. Git blame для исторического контекста

Когда видите код, который вас удивляет (if (someComplexCondition)), сделайте git blame на соответствующую строку. Найдёте commit, найдёте PR (обычно [FLINK-NNNNN] в commit message), найдёте Jira-тикет, найдёте обсуждение. Это часто отвечает на “почему?”.

Параллельные репозитории

Помимо core apache/flink, есть несколько важных репозиториев, с которыми вы будете работать:

Репозиторий	Что
`apache/flink-kubernetes-operator`	K8s operator для deployment
`apache/flink-connector-kafka`	Kafka connector (выделен из core в 1.17)
`apache/flink-connector-jdbc`	JDBC connector
`apache/flink-connector-elasticsearch`	Elasticsearch sink
`apache/flink-cdc`	Change Data Capture (бывший Ververica CDC)
`apache/paimon`	Stream-lakehouse format (бывший Flink Table Store)
`apache/fluss`	Stream-storage layer (новый проект 2024+)

С 1.17 core-Flink перестал хостить большинство connectors внутри monorepo. Connector-релизы теперь независимы от core-Flink-релизов. Это значит, что у flink-connector-kafka своя версия (например, 3.2.0), и она ставится отдельно как dependency.

Глобальный workflow с source code

Типичный workflow Flink-инженера, который дебажит production:

Видит проблему в production: метрика, лог, ошибка.
Открывает курс, находит соответствующий раздел.
Курс ссылается на класс (CheckpointCoordinator).
Открывает класс в IDE, читает.
Если нужно — find usages на метод, проходит call chain.
Если непонятно — git blame -> PR -> Jira -> дискуссия -> понимание.

Это — норма. Никакая документация не даст такого уровня деталей. Source code — единственная истина.

WARNING

Не бойтесь читать Flink source code. На первый взгляд он выглядит сложным (много interfaces, много шаблонов), но через 2-3 модуля курса вы привыкнете и начнёте чувствовать структуру. Это навык, который пригодится не только в Flink — большинство infrastructure-проектов (Spark, Kafka, Cassandra) построены по похожим принципам.

Что дальше

Это был последний урок модуля 00. Дальше — модуль 01: философия Flink internals. Там разберём:

“Stream first, batch is bounded stream” — почему именно так, и как это влияет на runtime-архитектуру.
State и time как first-class citizens — историческая перспектива из Storm/MillWheel/Dataflow.
Эволюция Flink: что было удалено в 1.x -> 2.x, какие фичи добавлены, почему.

После модуля 01 — фундаментальный блок: архитектура (02), network (03), memory (04), state (05), checkpoint (06), savepoints (07), watermarks (08).

Проверка знанийKnowledge check

Production-инцидент: ваш Flink job (DataStream, parallelism 32, state ~50 GiB, RocksDB backend) показывает в логах JM сообщение типа "Decline checkpoint 47 by task X at TaskExecutor akka.tcp://..." (где X — идентификатор конкретной vertex). Чекпоинт упал, job рестартится, новый чекпоинт через минуту падает с такой же причиной. Опишите ваш source-code-driven workflow для диагностики: куда копать, какие классы открыть, на что обращать внимание.

ОтветAnswer

Workflow: (1) Strings grep по тексту "Decline checkpoint" в flink-runtime — приведёт к CheckpointCoordinator или связанному классу, где формируется это сообщение. (2) Найти, кто посылает Decline в CheckpointCoordinator — это будет TaskExecutor или SubtaskCheckpointCoordinatorImpl на стороне Task. (3) В TaskExecutor найти триггер decline: обычно это исключение в snapshot phase, которое ловится и превращается в DeclineCheckpoint message. (4) Открыть SubtaskCheckpointCoordinatorImpl#checkpointState или подобный — посмотреть, какие фазы snapshot (sync prepare, async snapshot upload to DFS) и где может упасть. (5) Параллельно поднять TM-логи в Kibana/Loki — найти exception stack trace, который привёл к decline. Чаще всего это IOException на upload SSTables в DFS (s3 throttling, network timeout) или OOM в RocksDB pipeline. (6) В flink-statebackend-rocksdb -> RocksIncrementalSnapshotStrategy посмотреть upload logic, конфигурацию retry. Параллельно проверить метрики: lastCheckpointSize, asyncCheckpointDuration, доступность DFS. Этот workflow занимает 30-60 минут, но даёт точный root cause вместо догадок "увеличу timeout".