Сохранение кадра данных dask с помощью ** dd.to_parquet ** в файловой системе NFS - PullRequest
0 голосов
/ 23 января 2019

Я пытаюсь сохранить dask.dataframe с помощью метода dd.to_parquet в файловой системе NFS. Для этого я создаю экземпляр объекта файловой системы с помощью pyarrow, а затем передаю его аргументу storage_options , но он не работает, он сохраняется локально, но не по правильному пути.

Код

>>> import pyarrow as pa
>>> fs = pa.hdfs.connect('nfs://xx.x.x.xxx',1111)
>>> fs.ls('/')
['nfs://...','nfs://...]
>>> df1 = pd.DataFrame(...)
>>> import dask.dataframe as dd
>>> ddf1 = dd.from_pandas(df1,chunksize=3)
Dask DataFrame Structure:
               Label
npartitions=7       
1              int64
4                ...
...              ...
19               ...
20               ...
Dask Name: from_pandas, 7 tasks
>>> dd.to_parquet(ddf1,'test_dask_ddf1',storage_options={'filesystem':fs})

Это последнее предложение сохраняется, не вызывает ошибки и сохраняется в локальном

Однако, если я сделаю это с помощью методов pyarrow, он будет корректно сохранен в пути NFS. но я хочу достичь с помощью методов dask!

import pyarrow.parquet as pq
table = pa.Table.from_pandas(df1)
pq.write_to_dataset(table, root_path='test_pyarrow_ddf1', 
filesystem=fs)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...