Я работаю над набором данных с 5,5 миллионами строк в соревновании по борьбе. Чтение .csv и их обработка занимают часы в Pandas.
А вот и в сумерках. Даск быстрый, но со многими ошибками.
Это фрагмент кода,
#drop some columns
df = df.drop(['dropoff_latitude', 'dropoff_longitude','pickup_latitude', 'pickup_longitude', 'pickup_datetime' ], axis=1)
# In[ ]:
#one-hot-encode cat columns
df = dd.get_dummies(df.categorize())
# In[ ]:
#split train and test and export as csv
test_df = df[df['fare_amount'] == -9999]
train_df = df[df['fare_amount'] != -9999]
test_df.to_csv('df_test.csv')
train_df.to_csv('df_train.csv')
который при запуске
линии;
test_df.to_csv('df_test.csv')
train_df.to_csv('df_train.csv')
выдает ошибку
ValueError: The columns in the computed data do not match the columns
in the provided metadata
Что может вызвать это и как я могу это остановить.
N.B First time using Dask.