Я пытаюсь объединить три файла CSV (8G, 4G, 6G соответственно) в один файл CSV,
, и моя память составляет 16G, есть ли способ объединить эти файлы CSV по столбцам не имея ошибки памяти?
Мои наборы данных похожи на
A B C D E F G H I
1 2 3 4 5 6 7 8 9
Моя цель - объединить их в
A B C D E F G H I
...
Мой код похож на
def combine_features(raw_feature_dir,connect_feature,time_feature_dir,feature_set):
df1 = dd.read_csv(raw_feature_dir)
df2 = dd.read_csv(connect_feature)
# df3 = dd.read_csv(time_feature_dir)
gc.collect()
df4 = df1.merge(df2)
df4.to_csv(feature_set)
I ' Я планирую сначала объединить два файла, затем объединить следующий, но он все еще показывает ошибку памяти
Есть ли способ объединить огромные CSV-файлы с помощью Dask? или другие инструменты
Например, чтобы сжать файлы CSV, а затем Concat? или использовать генератор, такой как обработчик чтения и записи, который каждый раз берет кусок данных
Спасибо!