Чтение CSV-файла из hdfs, используя dask и pyarrow - PullRequest
0 голосов
/ 06 сентября 2018

Мы пробуем dask_yarn версии 0.3.0 (с dask 0.18.2) из-за конфликтов между boost-cpp Я работаю с pyarrow версией 0.10.0
Мыпытаемся прочитать CSV-файл из hdfs - однако мы получаем ошибку при запуске dd.read_csv('hdfs:///path/to/file.csv'), так как он пытается использовать hdfs3.

ImportError: Не удается найти общую библиотеку: libhdfs3.so

Из документации похоже, что есть возможность использовать pyarrow.

Какой правильный синтаксис / конфигурация для этого?

...