Каждый раз, когда я загружаю файл .bz2 в кадр данных Pandas, я получаю имя файла в качестве первого столбца первой строки кадра данных. Я использую tar
для сжатия файлов. Я написал следующий something.txt
файл:
1 2 3 4 5
2 3 4 5 6
6 7 8 9 10
Я сжимаю его через tar -cvjf something.txt.bz2 something.txt
. Затем я распаковываю данные и перемещаю их в безопасное местоположение файла:
tar -xvjf something.txt.bz2
mv something.txt something.txt.2
Теперь я загружаю данные в сценарий python тремя различными способами:
>>> data1 = pd.read_csv("something.txt")
>>> data2 = pd.read_csv("something.txt.2")
>>> data3 = pd.read_csv("something.txt.bz2")
и вот что я получаю, когда снова читаю эти данные:
>>> data1
1 2 3 4 5
0 2 3 4 5 6
1 6 7 8 9 10
>>> data2
1 2 3 4 5
0 2 3 4 5 6
1 6 7 8 9 10
>>> data3
something.txt 2 3 4 5
0 2.0 3.0 4.0 5.0 6.0
1 6.0 7.0 8.0 9.0 10.0
2 NaN NaN NaN NaN NaN
Кто-нибудь знает, почему это происходит ???