Я использую блокнот jupyter для подсчета вхождения значения в несколько CSV-файлов.У меня есть около 60 CSV-файлов, каждый размером около 1 ГБ.Чтобы эффективно проходить через них, я использую многопоточность.Однако ядро продолжает умирать всякий раз, когда я выполняю следующий код:
from multiprocessing.dummy import Pool as ThreadPool
files = glob.glob(path + '/*.csv')
def func(f):
df = pd.read_csv(f)
df = df[df['key'] == 1]
return df['key'].value_counts()
pool = ThreadPool(4)
results = pool.map(func, files)
pool.close()
pool.join()
results
В чем может быть причина этого?Есть ли способ это исправить?