Смешанные столбцы при загрузке нескольких CSV-файлов с Dask - PullRequest
0 голосов
/ 05 ноября 2018

Я попытался импортировать кучу csv-файлов с помощью dask, и кажется, что мои столбцы перепутаны.

import pandas as pd
import dask.dataframe as dd
import numpy as np

names = ['date', 'country', 'A', 'B']

dtypes = {'booking_date': object, 'booking_country': object, 
      'A': object, 'B': np.float32}

dask_df = dd.read_csv("folder/file_*.csv", dtype=dtypes, 
                       header=None, names=names, skiprows=1)

Фрейм данных имеет следующую форму:

        date country    A         B
0  2019-07-24     ALB  XX  0.041786
1  2019-07-24     AND  XX  0.022168
2  2019-07-24     ARE  YY  0.177757
3  2019-07-24     ARM  YY  0.024475
4  2019-07-24     AUT  ZZ  0.287205

Когда я хочу продолжить работу с ним, кажется, что столбцы A и B перепутаны для некоторых столбцов. Кто-нибудь знает, почему это может произойти и как я могу этого избежать?

Если я использую glob.glob, чтобы создать список файлов, а затем зациклить его с пандами, у меня нет этой проблемы. Может ли быть так, что глобальный способ сделать это - интерпретировать заголовки для каждого файла, а dask - нет, если столбцы смешаны в моем входном наборе данных?

Большое спасибо заранее!

Тим

1 Ответ

0 голосов
/ 07 ноября 2018

Спасибо за помощь.

Видимо, некоторые из моих файлов имеют неправильный порядок столбцов, который не может обработать dask. https://github.com/d6t/d6tstack/blob/master/examples-dask.ipynb исправит проблему, но у меня еще не было времени ее протестировать.

...