Моя ошибка заключалась в том, что некоторые из моих csv
файлов имели разное количество столбцов. Чтение списка файлов на один кадр данных работает следующим образом:
для получения dask.dataframe
:
df = dd.read_csv(["small1.csv", "small2.csv"])
print(df.shape)
print(type(df))
Вывод:
(Delayed('int-863f32f2-a8c3-4ac9-b31f-0186541c347c'), 3)
<class 'dask.dataframe.core.DataFrame'>
Для получения pandas.dataframe
:
df = dd.read_csv(["small1.csv", "small2.csv"])
df = df.compute()
print(df.shape)
print(type(df))
Вывод:
(11000, 3)
<class 'pandas.core.frame.DataFrame'>