Решение проблем Apache DataFusion

Question 1

Arrow error: Schema mismatch: expected field 'id' of type Int64 but found Utf8

Accepted Answer

Схема (Schema), переданная в RecordBatch::try_new(), объявляет один тип для поля, а реальный ArrayRef содержит другой. Часто возникает при ручном создании батчей или в TableProvider, когда schema() возвращает одну схему, а scan() — батчи с другой. Сравните Schema из `schema()` с фактическими типами ArrayRef в батче Используйте `arrow::compute::cast()` для приведения типов, если данные совместимы Убедитесь, что `TableProvider::schema()` и `TableProvider::scan()` возвращают одинаковую схему

Question 2

Resources exhausted: Failed to allocate additional memory. Memory pool limit reached

Accepted Answer

MemoryPool в DataFusion ограничивает общий объём памяти для запроса или сессии. При обработке больших объёмов данных (JOIN, сортировка, агрегация) промежуточные буферы превышают лимит пула. Увеличьте лимит: `ctx.runtime_env().memory_pool.set_limit(bytes)` Используйте `FairSpillPool` вместо `GreedyMemoryPool` для более равномерного распределения Уменьшите `batch_size` в RuntimeConfig для снижения пикового потребления Добавьте repartition перед JOIN для лучшего распределения данных

Question 3

Arrow error: Cast error: Cannot cast value 'abc' to type Int32

Accepted Answer

Arrow выполняет строгое приведение типов. Если строковое значение не может быть распарсено в целевой тип (например, 'abc' → Int32), cast завершается ошибкой вместо возврата NULL. Используйте `TRY_CAST(col AS INT)` вместо `CAST()` — возвращает NULL при ошибке конвертации Предварительно очистите данные: `SELECT * FROM t WHERE col ~ '^[0-9]+$'` При чтении CSV задайте правильный schema в `CsvReadOptions::new().schema(&schema)`

Question 4

Error during planning: table 'default.my_table' not found

Accepted Answer

Таблица не зарегистрирована в текущем SessionContext. В DataFusion регистрация таблиц существует только в памяти — при каждом новом SessionContext нужно регистрировать заново. Также возможна ошибка в имени каталога/схемы. Зарегистрируйте таблицу до выполнения запроса: `ctx.register_parquet("my_table", "path.parquet", ...).await?` Проверьте доступные таблицы: `ctx.sql("SHOW TABLES").await?` Укажите полное имя: `SELECT * FROM datafusion.public.my_table` Для персистентного каталога реализуйте свой CatalogProvider

Question 5

Schema error: Ambiguous reference to unqualified field "id"

Accepted Answer

Несколько таблиц в JOIN содержат колонку с одинаковым именем. DataFusion требует явного указания таблицы-источника для неоднозначных ссылок, как и стандартный SQL. Используйте полную квалификацию: `SELECT a.id, b.id FROM table_a a JOIN table_b b ON a.id = b.id` Задайте алиасы таблицам: `FROM orders AS o JOIN products AS p` В DataFrame API: `left.join(right, JoinType::Inner, &["id"], &["id"], None)?`

Question 6

This feature is not implemented: Window function with RANGE BETWEEN for non-temporal types

Accepted Answer

DataFusion поддерживает RANGE BETWEEN только для ограниченного набора типов (numeric, temporal). Для строковых и других типов рамка RANGE не реализована. Это известное ограничение, а не баг. Замените `RANGE BETWEEN` на `ROWS BETWEEN` — в большинстве случаев результат эквивалентен Для temporal-колонок убедитесь, что тип — Timestamp, а не Utf8 Проверьте текущий список поддерживаемых функций: `SELECT * FROM information_schema.df_settings`

Question 7

EXPLAIN ANALYZE shows CoalesceBatchesExec with 0 rows output

Accepted Answer

Фильтр не совпадает с данными из-за несовпадения типов (например, строковый '1' != числовой 1), регистра (case-sensitive сравнение), или предикат применяется к пустому батчу после предыдущей операции. Запустите `EXPLAIN ANALYZE` и найдите шаг с output_rows=0 Проверьте типы колонок: `DESCRIBE my_table` Убедитесь, что литерал имеет правильный тип: `WHERE id = CAST('1' AS INT)` вместо `WHERE id = '1'` Используйте `EXPLAIN` (без ANALYZE) для просмотра логического плана до оптимизации

Question 8

error[E0277]: the trait bound `Utf8: ArrowPrimitiveType` is not satisfied

Accepted Answer

В Arrow типы Utf8/LargeUtf8/Binary — не примитивные. Они хранятся как offset-буфер + данные, а не как массив значений фиксированного размера. Для строковых массивов нужны специализированные downcast-методы. Используйте `as_string::(array)` вместо `as_primitive_array::(array)` Для бинарных данных: `as_binary::(array)` или `as_large_binary(array)` Изучите набор downcast-функций в `arrow::array` — каждый тип данных имеет свой метод

Question 9

Execution error: UDF returned a different schema than expected. Expected Int64, got Float64

Accepted Answer

Функция return_type() в ScalarUDF объявляет один тип, а фактический ArrayRef, возвращаемый из invoke(), содержит другой. DataFusion проверяет соответствие после выполнения функции. Сравните тип в `return_type()` с типом ArrayRef в `invoke()` Если тип зависит от входных данных, используйте `return_type_from_exprs()` вместо статического return_type Используйте `arrow::compute::cast()` в конце invoke() для приведения к ожидаемому типу

Question 10

thread 'tokio-runtime-worker' panicked at 'Schema returned by TableProvider::scan() does not match TableProvider::schema()'

Accepted Answer

DataFusion валидирует, что RecordBatch из ExecutionPlan (возвращённого scan()) соответствует схеме, объявленной в schema(). Если TableProvider создаёт схему динамически или с ошибкой, возникает несовпадение. Убедитесь, что `schema()` и `scan()` используют один и тот же объект Arc<Schema> Сохраните схему в поле структуры при создании провайдера: `self.schema.clone()` Если schema зависит от проекции — проверьте, что `scan(projection)` корректно фильтрует поля

Question 11

thread 'tokio-runtime-worker' panicked at 'OptimizerRule failed: index out of bounds'

Accepted Answer

Кастомный OptimizerRule неправильно обрабатывает структуру логического плана. Типичные причины: обращение к children по индексу без проверки длины, отсутствие обработки всех вариантов LogicalPlan enum, или мутация плана без пересчёта схемы. Оборачивайте тело правила в `catch_unwind` на этапе отладки для получения backtrace Проверяйте plan.inputs().len() перед обращением по индексу Используйте `plan.map_children()` или `plan.rewrite()` вместо ручного обхода дерева Покройте правило тестами с EXPLAIN для различных паттернов запросов

Question 12

error[E0433]: failed to resolve: use of undeclared crate or module `datafusion`

Accepted Answer

Версия datafusion в Cargo.toml не совпадает с версиями смежных крейтов (datafusion-common, datafusion-expr, arrow). DataFusion требует строгого совпадения версий всех своих подкрейтов. Используйте одну версию для всех datafusion-* крейтов в Cargo.toml Проверьте совместимость: `cargo tree -i datafusion` — все версии должны совпадать Для DataFusion 40+ используйте `arrow = { version = "53" }` (версия Arrow привязана к конкретной версии DataFusion)

Question 13

Warning: No statistics available for table 'large_table'. Join ordering may be suboptimal

Accepted Answer

Без статистики (row count, column cardinality) оптимизатор не может выбрать порядок JOIN и тип JOIN. DataFusion использует эвристики, которые часто неоптимальны для больших данных. Зарегистрируйте таблицу с включённой статистикой: `CsvReadOptions::new().has_header(true)` + `ANALYZE TABLE` Для Parquet файлов статистика считывается автоматически из row group metadata Вручную укажите hint: `SELECT /*+ HASH_JOIN(a, b) */ ...` (если поддерживается) Задайте порядок вручную: маленькую таблицу ставьте в правую сторону JOIN

Question 14

Resources exhausted: Join operation exceeded memory limit. Consider increasing memory or reducing data size

Accepted Answer

Hash Join строит хеш-таблицу целиком в памяти для правой стороны JOIN. Если правая таблица огромна или условие JOIN слишком широкое (cross join), происходит взрыв памяти. Проверьте условие JOIN — убедитесь, что есть ON clause и он достаточно селективен Поместите меньшую таблицу справа: `big_table JOIN small_table` Включите spill-to-disk: настройте `FairSpillPool` с путём для временных файлов Разбейте запрос: материализуйте промежуточные результаты через CREATE TABLE AS

Question 15

Query execution takes 10x longer than expected: only 1 partition used

Accepted Answer

Один большой файл (CSV или JSON) читается как одна партиция, так как DataFusion не может разбить текстовый файл на параллельные чанки. Parquet файлы с одним row group имеют ту же проблему. Разбейте данные на несколько файлов и зарегистрируйте директорию: `ctx.register_parquet("t", "data/", ...)` Конвертируйте CSV в Parquet с несколькими row groups Настройте `target_partitions` в SessionConfig: `config.with_target_partitions(num_cpus::get())` Добавьте repartition после чтения: `.repartition(Partitioning::RoundRobinBatch(8))`

Question 16

ModuleNotFoundError: No module named 'datafusion'

Accepted Answer

Пакет datafusion-python требует совместимой версии Python (3.8+) и может не собираться на некоторых платформах (ARM Linux). Также возможен конфликт между системным Python и virtualenv. Установите в активный virtualenv: `python -m venv .venv && source .venv/bin/activate && pip install datafusion` Проверьте установку: `pip show datafusion` — убедитесь, что Location соответствует sys.path На macOS ARM: `pip install datafusion --no-binary :all:` для сборки из исходников Убедитесь, что используете Python 3.8+: `python --version`

Question 17

ArrowInvalid: Expected a PyArrow Array of type int64, got type object (PyArrow version mismatch)

Accepted Answer

datafusion-python привязан к конкретной версии PyArrow через Rust-биндинги (pyo3-arrow). Если установленная версия PyArrow не совпадает с ожидаемой, данные передаются с неправильным маппингом типов. Проверьте совместимость: `pip show datafusion pyarrow` — версии должны быть совместимы Установите рекомендуемую версию PyArrow: `pip install 'pyarrow>=14.0,<16.0'` (для datafusion 37+) Пересоздайте virtualenv с чистыми зависимостями: `pip install datafusion` подтянет совместимый pyarrow

Question 18

TypeError: Expected a PyArrow RecordBatch or RecordBatchReader, got pandas.core.frame.DataFrame

Accepted Answer

DataFusion Python работает с PyArrow, а не с pandas напрямую. Функции регистрации ожидают RecordBatch или RecordBatchReader. Pandas DataFrame нужно конвертировать через PyArrow. Конвертируйте DataFrame в Arrow: `table = pa.Table.from_pandas(df)` затем `ctx.register_record_batches("t", [table.to_batches()])` Или используйте `ctx.from_pandas(df)` если такой метод доступен в вашей версии Для обратной конвертации: `result.to_pandas()` на результате запроса

Question 19

Ballista error: Scheduler unavailable: Connection refused (os error 111) at localhost:50050

Accepted Answer

Scheduler не запущен, не успел инициализироваться, или слушает на другом адресе/порту. В Docker-окружении возможна проблема с сетью между контейнерами. Проверьте статус scheduler: `curl http://localhost:50050/api/state` Убедитесь, что scheduler слушает: `ss -tlnp | grep 50050` В Docker: используйте имя сервиса вместо localhost: `BallistaContext::remote("scheduler", 50050, ...)` Дождитесь инициализации: scheduler может запускаться 5-10 секунд

Question 20

Ballista error: Failed to serialize physical plan: UDF 'my_custom_fn' is not registered in the execution context

Accepted Answer

В распределённом режиме физический план сериализуется и отправляется на executor-ы. Кастомные UDF должны быть зарегистрированы на каждом executor при старте, иначе десериализация плана не найдёт функцию. Зарегистрируйте UDF в FunctionRegistry на каждом executor при старте Используйте `--udf-lib` флаг для загрузки shared library с UDF Альтернатива: замените UDF на стандартные SQL-выражения для распределённых запросов

Question 21

Ballista error: Task failed: ShuffleReader failed to fetch partition from executor-2 (connection timed out)

Accepted Answer

Executor-ы не могут связаться друг с другом напрямую (peer-to-peer). Частые причины: firewall блокирует порты между нодами, неправильная конфигурация внешнего адреса executor (advertise address), или сеть Docker overlay не настроена. Убедитесь, что порты executor-ов доступны между нодами (по умолчанию 50051) Задайте внешний адрес: `--external-host <node_ip>` при запуске executor В Docker Compose: используйте единую overlay-сеть для всех сервисов Увеличьте таймауты: `--shuffle-reader-timeout 60s`

Question 22

docker build: cargo build killed (signal 9, OOM) during datafusion compilation

Accepted Answer

Компиляция DataFusion и Arrow из исходников требует 4-8 GB RAM. Docker Desktop по умолчанию ограничивает контейнеры 2 GB, что недостаточно для параллельной компиляции Rust. Увеличьте лимит памяти Docker Desktop до 8 GB (Settings → Resources → Memory) Ограничьте параллельность: `ENV CARGO_BUILD_JOBS=2` в Dockerfile Используйте multi-stage build: собирайте в builder-образе, копируйте только бинарник в финальный Используйте готовые бинарные образы: `FROM datafusion/datafusion-cli:latest`

Question 23

Permission denied (os error 13): /data/output/results.parquet

Accepted Answer

Docker volume mount наследует права хост-директории. Если процесс внутри контейнера работает от другого UID, чем владелец директории на хосте, запись невозможна. Задайте UID при запуске: `docker run -u $(id -u):$(id -g) ...` Создайте директорию заранее с правами: `mkdir -p ./output && chmod 777 ./output` В Dockerfile: `RUN mkdir /data/output && chown 1000:1000 /data/output` Используйте named volumes вместо bind mounts: `docker volume create datafusion_output`

Question 24

Parquet error: Arrow schema does not match Parquet file schema. Missing field: 'timestamp'

Accepted Answer

DataFusion при чтении директории Parquet файлов ожидает единую схему. Если файлы были созданы с разными версиями схемы (schema evolution), или первый файл задаёт схему, которой нет в остальных, возникает ошибка. Используйте `schema_merge` при регистрации: `ParquetReadOptions::default().schema_merge(true)` Укажите явную схему при чтении: `ctx.register_parquet_with_schema("t", path, schema, opts)` Перепишите файлы с единой схемой через DataFusion: `CREATE TABLE ... AS SELECT * FROM old_table`

Область

Категория

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина

Решение

Связанные уроки:

Симптомы

Причина