Как ограничить использование памяти Dask для dask.dataframe.to_csv? - PullRequest
0 голосов
/ 28 февраля 2019

У меня есть скрипт на python, который использует библиотеку Dask для обработки слияния очень большого фрейма данных (> 200G) на сервере.Но работа всегда убивается.

Я всегда просил 280-300G для этой работы на сервере.Есть ли способ ограничить использование памяти для этого?

сценарий нравится ниже:

import dask.dataframe as dd
from dask.diagnostics import ProgressBar
import numpy as np
import pandas as pd

# some codes here

big_table = dd.read_csv(ref_file, sep="\t", dtype=dtypes) # ref_file > 200G
small_table = dd.read_csv(res_file, sep="\t", dtype=d_types) # res_file ~ 8G

df = dd.merge(small_table, big_table, how='inner', on=['chr','pos'])
df.to_csv("results_*.csv", sep='\t',index=False) # I doubt the writing part causes the problem

...