Dask Locality, как читать из локального рабочего файла? - PullRequest
0 голосов
/ 06 марта 2020

Я пытаюсь прочитать от каждого работника уникальный локальный файл, однако я получаю одинаковый результат для всех работников, а не уникальный результат от каждого работника ... Может кто-нибудь указать, что я делаю неправильно ?

from dask.distributed import Client, progress
c = Client()
c

import dask.dataframe as dd

filename_1='/tmp/1990.csv'
filename_2='/tmp/1991.csv'
filename_3='/tmp/1992.csv'

future_1 = c.submit(dd.read_csv,filename_1 , workers='172.18.0.3')
future_2 = c.submit(dd.read_csv,filename_2 , workers='172.18.0.5')
future_3 = c.submit(dd.read_csv, filename_3 , workers='172.18.0.6')

future_1.result().head()
future_2.result().head()
future_3.result().head()

Я получу тот же результат вместо уникальных данных от каждого из них.

1 Ответ

0 голосов
/ 13 марта 2020

Вы, вероятно, хотите использовать pandas.read_csv здесь вместо dask.dataframe.read_csv

https://docs.dask.org/en/latest/delayed-best-practices.html#don -t-call-dask-delayed-on-other-dask-collection

...