Вы можете предоставить функции dask.dataframe.read_csv строку, которая указывает на все ваши файлы
import dask.dataframe as dd
df = dd.read_csv("/path/to/*.csv")
Dask, скорее всего, упорядочит все правильно. Он упорядочит файлы лексикографически, а затем будет поддерживать порядок в каждом файле. Он может разбить каждый файл на множество небольших разделов, но при этом он сохранит порядок. Кроме того, разделение, созданное из вызова read_csv
, не будет смешивать разные файлы без необходимости.
Так что, возможно, просто используйте разделение по умолчанию из read_csv
и не пытайтесь изменить разделение самостоятельно.