Я пытаюсь сохранить dask.dataframe с помощью метода dd.to_parquet в файловой системе NFS. Для этого я создаю экземпляр объекта файловой системы с помощью pyarrow, а затем передаю его аргументу storage_options , но он не работает, он сохраняется локально, но не по правильному пути.
Код
>>> import pyarrow as pa
>>> fs = pa.hdfs.connect('nfs://xx.x.x.xxx',1111)
>>> fs.ls('/')
['nfs://...','nfs://...]
>>> df1 = pd.DataFrame(...)
>>> import dask.dataframe as dd
>>> ddf1 = dd.from_pandas(df1,chunksize=3)
Dask DataFrame Structure:
Label
npartitions=7
1 int64
4 ...
... ...
19 ...
20 ...
Dask Name: from_pandas, 7 tasks
>>> dd.to_parquet(ddf1,'test_dask_ddf1',storage_options={'filesystem':fs})
Это последнее предложение сохраняется, не вызывает ошибки и сохраняется в локальном
Однако, если я сделаю это с помощью методов pyarrow, он будет корректно сохранен в пути NFS. но я хочу достичь с помощью методов dask!
import pyarrow.parquet as pq
table = pa.Table.from_pandas(df1)
pq.write_to_dataset(table, root_path='test_pyarrow_ddf1',
filesystem=fs)