KilledWorker при использовании разлива на диск в dask - PullRequest
0 голосов
/ 28 декабря 2018

Спецификации моего сервера в соответствии с htop следующие:

enter image description here

У меня запланирован следующий планировщик:

$ dask-scheduler

У меня есть 3 рабочих (как я ожидаю, каждый из них будет работать на каждом ядре), которые выполняются следующим образом:

$ dask-worker 10.X.XX.XXX:8786 --memory-limit=1e9 --local-directory /home/nabin/dask_spills

Я ожидал, что среда dask разлитсядополнительные данные в указанном каталоге согласно --memory-limit.Но я все еще получаю KilledWorker.У меня есть следующий фрагмент:

with Client('10.X.XX.XXX:8786') as client:
    ddf = dd.read_csv('file.RRF', delimiter='|', names=columns)# size=1.8 GB
    unique_values = ddf['some_column'].unique()
    unique_values_list = unique_values.values.compute().tolist()

Не знаю почему, но я получаю следующее:

distributed.scheduler.KilledWorker: ("('eq-from-delayed-getitem-isin-pandas_read_text-read-block-drop-35c406aff6c152012cd72c946240777f', 14)", 'tcp://10.X.XX.XXX:42649')

К вашему сведению: у меня есть другая функция dask dataframe read_csv над этим фрагментом длякакая-то другая логика.

...