Проблема с индексом в Dask со смещением данных влево на q - PullRequest
1 голос
/ 12 марта 2019

Я пытаюсь читать CSV в Dask. он читает все столбцы, но смещает их на 1 влево. Таким образом, данные, которые должны находиться под 1-м столбцом, становятся индексами, а 2-й - 1-м, и т. Д. В последнем столбце есть все NaN.

Пример -

a,b,c
1,2,3
4,5,6
7,8,9

В Dataframe это выглядит так -

  a,b,c
1 2,3,Nan
4 5,6,Nan
7 8,9,Nan

Pandas обладает index_col=False функциональностью, которая позволяет мне избежать этого сценария. Есть ли в Даске что-то, что может позволить мне сделать это?

1 Ответ

0 голосов
/ 12 марта 2019

Я полагаю, что у вас есть данные, отличные от того, что вы показываете, поскольку они отлично работают:

In []: with open('temp.csv', 'w') as f:
    f.write("""a,b,c
    1,2,3
    4,5,6
    7,8,9""")

In []: dd.read_csv('temp.csv').compute()
Out[]: 
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9

Это точно такой же вывод, как pandas.read_csv.

Вы можете использовать skiprows= и names= - это заголовок вашего файла, который вызывает проблемы.

...