У меня есть несколько файлов. Большой - ~ 87 миллионов строк. У меня есть другие, которые составляют ~ 500 тыс. Строк. Часть того, что я делаю, - это присоединяюсь к ним, и когда я пытаюсь сделать это с помощью Pandas, у меня возникают проблемы с памятью. Итак, я использую Dask. Все соединения / применения выполняются очень быстро, но тогда для записи в CSV требуется 5 часов, даже если я знаю, что результирующий фрейм данных состоит всего из 26 строк.
Я читал, что некоторые соединения / применения не самые лучшие для Dask, но означает ли это, что при использовании Dask он работает медленнее? Потому что мои были очень быстрыми. На выполнение всех моих вычислений / манипуляций с миллионами строк уходит секунды. Но на то, чтобы записать, уходит целая вечность. Есть идеи, как это ускорить / почему это происходит?