У меня есть скрипт на python, который использует библиотеку Dask для обработки слияния очень большого фрейма данных (> 200G) на сервере.Но работа всегда убивается.
Я всегда просил 280-300G для этой работы на сервере.Есть ли способ ограничить использование памяти для этого?
сценарий нравится ниже:
import dask.dataframe as dd
from dask.diagnostics import ProgressBar
import numpy as np
import pandas as pd
# some codes here
big_table = dd.read_csv(ref_file, sep="\t", dtype=dtypes) # ref_file > 200G
small_table = dd.read_csv(res_file, sep="\t", dtype=d_types) # res_file ~ 8G
df = dd.merge(small_table, big_table, how='inner', on=['chr','pos'])
df.to_csv("results_*.csv", sep='\t',index=False) # I doubt the writing part causes the problem