Я попытался импортировать кучу csv-файлов с помощью dask, и кажется, что мои столбцы перепутаны.
import pandas as pd
import dask.dataframe as dd
import numpy as np
names = ['date', 'country', 'A', 'B']
dtypes = {'booking_date': object, 'booking_country': object,
'A': object, 'B': np.float32}
dask_df = dd.read_csv("folder/file_*.csv", dtype=dtypes,
header=None, names=names, skiprows=1)
Фрейм данных имеет следующую форму:
date country A B
0 2019-07-24 ALB XX 0.041786
1 2019-07-24 AND XX 0.022168
2 2019-07-24 ARE YY 0.177757
3 2019-07-24 ARM YY 0.024475
4 2019-07-24 AUT ZZ 0.287205
Когда я хочу продолжить работу с ним, кажется, что столбцы A и B перепутаны для некоторых столбцов. Кто-нибудь знает, почему это может произойти и как я могу этого избежать?
Если я использую glob.glob, чтобы создать список файлов, а затем зациклить его с пандами, у меня нет этой проблемы. Может ли быть так, что глобальный способ сделать это - интерпретировать заголовки для каждого файла, а dask - нет, если столбцы смешаны в моем входном наборе данных?
Большое спасибо заранее!
Тим