Мы пробуем dask_yarn версии 0.3.0 (с dask 0.18.2) из-за конфликтов между boost-cpp Я работаю с pyarrow
версией 0.10.0
Мыпытаемся прочитать CSV-файл из hdfs - однако мы получаем ошибку при запуске dd.read_csv('hdfs:///path/to/file.csv')
, так как он пытается использовать hdfs3.
ImportError: Не удается найти общую библиотеку: libhdfs3.so
Из документации похоже, что есть возможность использовать pyarrow.
Какой правильный синтаксис / конфигурация для этого?