У меня есть несколько (~ 50) больших (~ 1 до 5 ГБ каждый) CSV-файлов, которые я хотел бы объединить в один большой CSV-файл.Используя dask, я создал цикл, который открывает каждый CSV и вызывает слияние перед сохранением всего в CSV в конце цикла:
for i, file in enumerate(files):
table = dd.read_csv(file)
if i == 0:
merged = table
else:
merged = dd.merge(merged, table, on = ["id", "time", "key"])
merged.to_csv("merged\merged1810_*.csv")
Однако, в результате получается MemoryError
.
Хотя я и предполагал, что Dask должен выполнять вычисления частями, чтобы избежать ошибок такого типа, мои данные слишком велики для обработки Dask?Есть ли лучший способ сделать это?