Как параллельно вычислить хранилище CSV-файлов на каждом работнике без использования hdfs? - PullRequest
0 голосов
/ 17 октября 2019

Концепция, аналогичная локальным данным в hadoop, но я не хочу использовать hdfs.

У меня есть 3 работника dask.

Я хочу, например, вычислить большое имя файла csvmydata.csv.

Я разделяю mydata.csv на небольшой файл (mydata_part_001.csv ... mydata_part_100.csv) и сохраняю в локальной папке / данных на каждом работнике, например,

хранилище worker-01mydata_part_001.csv - mydata_part_030.csv в локальной папке / data

worker-02 store mydata_part_031.csv - mydata_part_060.csv в локальной папке / data

worker-03 store mydata_part_061.csv - mydata_part_partCSV в локальной папке / данных

Как использовать Dask Compute для MyData ?? Спасибо.

1 Ответ

0 голосов
/ 19 октября 2019

Чаще всего используется какая-то глобально доступная файловая система. HDFS является одним из примеров этого, но существует несколько других сетевых файловых систем (NFS). Я рекомендую изучить их, а не управлять своими данными таким образом.

Однако, если вы хотите действовать таким образом, вам, вероятно, нужны рабочие ресурсы Dask , которые позволят вамнацеливать конкретные задачи на конкретные машины.

...