Question

Концепция, аналогичная локальным данным в hadoop, но я не хочу использовать hdfs.

У меня есть 3 работника dask.

Я хочу, например, вычислить большое имя файла csvmydata.csv.

Я разделяю mydata.csv на небольшой файл (mydata_part_001.csv ... mydata_part_100.csv) и сохраняю в локальной папке / данных на каждом работнике, например,

хранилище worker-01mydata_part_001.csv - mydata_part_030.csv в локальной папке / data

worker-02 store mydata_part_031.csv - mydata_part_060.csv в локальной папке / data

worker-03 store mydata_part_061.csv - mydata_part_partCSV в локальной папке / данных

Как использовать Dask Compute для MyData ?? Спасибо.

MRocklin · Answer 1 · 19 октября 2019

Чаще всего используется какая-то глобально доступная файловая система. HDFS является одним из примеров этого, но существует несколько других сетевых файловых систем (NFS). Я рекомендую изучить их, а не управлять своими данными таким образом.

Однако, если вы хотите действовать таким образом, вам, вероятно, нужны рабочие ресурсы Dask , которые позволят вамнацеливать конкретные задачи на конкретные машины.

Как параллельно вычислить хранилище CSV-файлов на каждом работнике без использования hdfs?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как параллельно вычислить хранилище CSV-файлов на каждом работнике без использования hdfs?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы